Thursday, July 7, 2016

Seminar: Wissenschaftliches Schreiben

Liebe Knowledge Miner,

das Semesterende nähert sich in großen Schritten und nach euren Abschlusspräsentationen freuen wir uns auf eure wissenschaftlichen Ausarbeitungen. Damit diese auch unseren Anforderungen entsprechen können, bieten wir euch ein Seminar zum Thema wissenschaftliches Schreiben in der Informatik an.

Das Seminar findet am 21. Juli 2016 von 13.30 - 15 Uhr in Raum H.E-51 statt.

Ihr bekommt von uns eine LaTeX Vorlage, die ihr euch hier bereits herunterladen könnt. Dr. Sack und Magnus werden euch eine Kurzeinführung in LaTeX geben und euch wichtige Hinweise über den Aufbau und Inhalt einer wissenschaftlichen Ausarbeitung vermitteln. 

Die o.a. LaTeX-Vorlage beinhaltet auch eine allgemeine Anleitung zum Schreiben wissenschaftlicher Arbeiten (insbesondere Seminararbeiten) in der Informatik, die hier noch einmal extra verlinkt ist:
Darin wird am eigenen Beispiel auch noch einmal genau gezeigt, wie Tabellen, Grafiken, Inhaltsverzeichnisse und Bibliografie zu erstellen sind. Mehr dazu, dann morgen (am 21.07.2016) nachmittag.

Präsentation vom 21.07.2016: Wie schreibe ich eine wissenschaftliche (Seminar-)arbeit

An dieser Stelle noch einmal recht herzlichen Dank für Eure Mitarbeit im Seminar und die tollen Ergebnisse, die wir mit Eurer Hilfe gewinnen konnten!  

Wie im Seminar schon des öfteren erwähnt, suchen wir noch studentische Hilfskräfte, die im Themengebiet, das wir auch im Seminar bearbeitet haben, gemeinsam mit uns forschen wollen. Schreibt uns einfach eine E-Mail und kommt vorbei, wenn Ihr Interesse habt. Dieses Jobangebot gilt bereits ab Juli. 

Thursday, June 23, 2016

Infos zur Abschlusspräsentation

Liebe Knowledge Miner,

wie bereits zur Zwischenpräsentation angekündigt:
Am Dienstag, den 19. Juli 2016 geht es um die Wurst!

Wir werden uns zur Knowledge Mining Abschlusspräsentation ab 16 Uhr am Pavillon hinter dem HPI Hauptgebäude versammeln. Wer um 16 Uhr noch mit einer Klausur beschäftigt ist, kann natürlich etwas später kommen. Ab 17 Uhr werden auch die Masterstudenten des Semantic Multimedia Seminars zu uns stoßen und ihre Ergebnisse präsentieren.

Wie läuft das ab?

  • Jede Gruppe erstellt ein A1-Poster über seine Arbeit
  • Präsentationszeit max. 5min
  • Wenn möglich, sollte auch eine kurze Demo vorgestellt werden. Wir stellen dazu Stehtische in das Pavillon
  • Nach den Kurzpräsentationen wird es noch ein kleines BBQ geben, um in einer lockeren Runde über eure Präsentationen und Projekte zu diskutieren

Zu den Postern

Die Poster sollten uns bis zum 18. Juli 2016 um 9Uhr zugeschickt werden, damit wir sie noch für euch drucken können. Es ist auch möglich uns eure Poster vorher einmal zu schicken, dann können wir noch einen kurzen Blick drauf werfen, bevor es in den Druck geht. Ob ihr die Poster in englischer oder deutscher Sprache verfasst, liegt bei euch. Ihr findet hier auch noch ein paar Beispiele der vergangenen Jahre:
  1. Flickr Clustering
  2. Audio Event Detection
  3. Semantische Aufbereitung von Fußballdaten
  4. Semantische Video Annotationen
Wir freuen uns auf eure kreativen und informativen Poster :-)

Wie ist das mit der Wurst?

Nach den Präsentationen braten wir Würste, Steaks und diverse vegetarische Dinge (Käse, Gemüse, etc.) Bitte tragt euch dazu bis zum 15. Juli 2016 in das Doodle ein und teilt uns mit, wie viel ihr an Wurst, Steak, Veggi-Einheiten und Bier verzehren möchtet. Wasser und Softdrinks werden wir auch besorgen.

Thursday, June 16, 2016

Nachtrag Zwischenpräsentationen

Liebe Studis,

vielen Dank für eure interessanten Vorträge heute.
Bitte schickt uns noch eure Präsentationen oder einen entsprechenden Link dazu.

Vielen Dank!

Friday, June 10, 2016

Bitte um Mithilfe bei einer Evaluation

Liebe Studenten,
wir brauchen eure Hilfe dabei, unsere neuen User-Interfaces zu evaluieren.
Wir haben verschiedene Tools entwickelt, um Texte semi-automatisch zu analysieren und mit der DBpedia zu verknüpfen. Diese Informationen werden dann genutzt, um den Usern Navigationshilfen zu bieten, Zusatzinformationen anzuzeigen und aussagekräftige Empfehlungen zu liefern.

Damit ihr sehen könnt, wie Linked Data basierte User-Interfaces aussehen können und wie man diese evaluieren kann, wäre eure Teilnahme im Seminarkontext natürlich von Vorteil.

Die Evaluationen finden von Mittwoch, den 15. Juni - Montag, den 20. Juni in H-1.40 statt.
Pro Person ist etwa eine halbe Stunde einzuplanen, zur Belohnung gibt es dann etwas Süßes oder etwas zu Knabbern ;-)

Wir freuen uns auf euer Feedback.
Wenn ihr einen Termin machen möchtet, schreibt mir gerne eine Email (tabea.tietz[at]hpi.de)

Viele Grüße, Tabea

Thursday, June 2, 2016

Zwischenpräsentationen

Wie bereits angekündigt, finden die Knowledge Mining Zwischenpräsentationen am
16. Juni 2016
13 - 15uhr 
in Hörsaal 3 statt.

Damit alle Gruppen die Chance haben ihr Thema vernünftig zu erklären, mussten wir diesmal etwas mehr Zeit für das Seminar einplanen.

Inhaltlich stellen wir uns Folgendes vor:
  • Aufgabenstellung und kurze Motivation
  • Das Ziel, das ihr bis zum Ende des Semesters erreichen wollt
  • Gewählte Lösungsansätze
  • Aktueller Stand und kurzer Ausblick auf die weitere Arbeit
  • Wenn möglich eine kurze Demo
Dafür habt ihr genau 10 Minuten Zeit. Überschreitet ihr das Limit, werden wir den Vortrag leider abbrechen müssen. Sprecht den Vortrag am besten vorher durch, damit das nicht passiert. Allgemein ist es eine gute Faustregel, mit etwa einer Minute pro Folie zu rechnen.

Nach jedem Vortrag haben die Tutoren und die anderen Seminarteilnehmer noch kurz Zeit Fragen zu stellen und euch Anregungen zu geben. Das heißt: Erklärt euer Thema bitte so, dass die anderen Gruppen auch verstehen wovon ihr redet.

Es müssen nicht zwingend alle Gruppenteilnehmer vortragen, aber es müssen alle auf Fragen und Diskussionen eingehen können.

Wir sind gespannt auf eure Vorträge und wenn ihr noch Fragen habt, meldet euch wie immer :-)

Friday, May 13, 2016

Neuer Termin: Midterm Presentations

Liebe Studis,

der Termin der Midterm Presentations muss verschoben werden und findet nun statt:

Donnerstag, den 16. Juni 2016
13 - 15 Uhr
Hörsaal 3

Weitere Infos zu den Präsentationen und was wir uns darunter vorstellen folgen noch. 

Thursday, April 28, 2016

Nachtrag zu den ersten Gruppentreffen & Raumplanung

Liebe Studis,

vielen Dank für die produktiven ersten Gruppentreffen. Für einige Gruppen gibt es hier noch ein paar Materialien und Infos, weil uns an mancher Steller leider die Zeit ausging.

Außerdem könnt ihr jetzt hier auch die Raumplanung für das restliche Semester einsehen. Wenn ihr nicht mehr wisst, in welcher Gruppe ihr seid, seht hier nach.

Gruppe Raum & Zeit
1 Word2Vec 13.00 - 13.30 H-2.58
2 COAL metadata 13.00 - 13.30 H-E.52
3 DBpedia Events 14.30 - 15.00 H-E.52
4 AV-Portal 14.30 - 15.00 H-2.58
5 COAL metadata 13.30 - 14.00 H-E.52
6 Word2Vec 13.30 - 14.00 H-2.58
7 COAL client 14.00 - 14.30 H-2.58


Gruppe 2+5: COAL metadata

  • Ladet euch das Programm aus dem github und probiert es aus
  • Sammelt Tools, die man als worker integrieren kann

Gruppe 7: COAL client

  • Findet einen Crawler und erweitert ihn für ein content negotiation basiertes crawling von rdf
  • Speichert das rdf sinnvoll ab (zBsp. im Triple Store)
  • Arbeitet mit dem yovisto Blog als erstes Beispiel und crawlt zBsp. die Bilder als rdf

Gruppe 4: AV-Portal

  • Schickt uns bitte eure Präsentation vom 28.04. 
  • Hier ist noch einmal meine kurze Präsentation von heute mit euren Aufgaben bis zum 12. Mai
  • Bitte schickt uns auch eure Email Adressen, damit ich euch die GND-DBpedia Mappings geben kann 
Gruppe 1+6: Word2Vec  
  • Präsentation zu NEL
  • das Paper dazu
  • Unsere geschilderte erste Idee als Beispiel:
    • Die ca. 97GB liegen auf einer unserer Maschinen. 
    • Jede Gruppe kann sich bei mir (Jörg, H-1.37) ein Login abholen.
      • Darin sind enthalten:
        • enwiki-latest-pages-articles.xml: original Wikipedia Article Dataset (XML + Wikisyntax)
        • data.sentences: transformiert in 'sentences' Dataset (ein Artikel pro Zeile, Sonderzeichen ersetzt, DBpedia URIs aus Wikilinks erzeugt, etc.)
        • PreprocessWiki2.java: das Tool zum Transformieren
        • train.py: der Code zum Trainieren mit Gensim (hat ca. 9 Stunden gedauert)
        • data.model*: die Modelldaten
  • Test- / Evaluationsdaten:
      • Ein Eingabetext ist daran zu erkennen, dass er als "nif:Context" typisiert ist (vgl. z.B. Zeile 18 und 19).
      • Der eigentliche Text ist über das Property "nif:isString" verknüpft (vgl. z.B. Zeile 22)
      • Für jeden "nif:Context"gibt es Annotationen, die typisiert sind als "nif:Phrase" (z.B. Zeilen 25 und 26). 
      • Eine Annotation bezieht sich immer auf einen "nif:Context", am Property "nif:referenceContext" zu erkennen (z.B. Zeile 30). 
      • Jede Annotation enthält folgende Informationen:
        • "nif:anchorOf" das Textfragment im Ausgangstext ("nif:Context"), auch "Surface Form" genannt.
        • "nif:beginIndex" den entsprechende Index des Anfangs der Annotation
        • "nif:endIndex" ebd.
        • "nif:referenceContext" wie gesagt, der Verweise auf den Ausgangstext
        • "itsrdf:taIdentRef" die DBpedia Entität, die der Annotation an der entsprechenden Stelle zugeordnet wurde (Dies ist die korrekte Entität, die manuell zugeordnet wurde. Ihr sollt mit Eurem Verfahren diese Entität sozusagen 'voraussagen'. )
        • ".../candidate>" Diese Elemente haben wir für Euch hinzugefügt. Es sind all die DBpedia Entitäten, die wir durch ein Mapping der "Surface Form" mit unserem "DBpedia Dictionary" als potentielle Kandidaten identifiziert haben. Der korrekte Kandidat ist dort immer enthalten.
    • Also nochmal FAZIT:
      • Für jede Annotation ("nif:Phrase") zu einem Ausgangstext ("nif:Context"), sollt ihr mit Eurem Verfahren aus der Kandidatenliste den korrekten Kandidaten ("itsrdf:taIdentRef") auswählen.
      • Dabei sollt ihr ein Word2Vec Verfahren verwenden. Welche Daten oder Parameter ihr dabei zum trainieren, optimieren, etc. verwendet ist Euch vollkommen freigestellt. (Es macht natürlich irgendwie Sinn, mit Wikipedia o. Ä. anzufangen.)
  • Aufgaben bis in 2 Wochen:
    • Schickt uns bitte eure Präsentation vom 28.04. 
    • generell Ansätze überlegen, oder den von oben verfeinern/verbessern
    • Möglichkeit des parallelisierten Trainings ermitteln
    • beginnen, erste Ansätze zu implementieren
    • Probleme + Lösungen die auftreten Dokumentieren


Wednesday, April 27, 2016

!! Gruppe 3: DBpedia Events 28.04.

Liebe Studis der Gruppe 3 - DBpedia Events,

leider muss der erste Gruppentermin (28.04.) für euch krankheitsbedingt ausfallen. 
Magnus wird sobald wie möglich Kontakt zu euch aufnehmen und alles Weitere klären.
Bitte schickt ihm dazu eure Email Adressen. 

Alle anderen Gruppentermine finden wie geplant statt.




Thursday, April 21, 2016

ToDo's zur ersten Gruppensitzung (28.04.)

Liebe Studis,

heute habt ihr viel Input von uns bekommen und wir hoffen, ihr freut euch auf die Arbeit an den jeweiligen Projekten.

Hier ist noch mal eine kurze Zusammenfassung der "Hausaufgaben", die ihr zur nächsten Woche erledigen solltet. Die entsprechenden Referenzen findet ihr in den Folien zur heutigen Veranstaltung.

Bitte beachtet auch die Raumplanungen und die Übersicht der Seminargruppen inkl. der jeweiligen Ansprechpartner.

COAL metadata extraction: 11.00 - 12.00 Uhr Raum A 1.1

  • Entwickelt zum 28.04. erste Ideen dazu, welche Dateitypen interessant sind und welche Daten extrahiert werden können
  • Magnus wird euch außerdem noch einiges zur COAL Software und zur Metadatenextraktion aus Multimedia erklären

COAL client: 11.00 - 12.00 Uhr Raum A 1.1

  • Bereitet bitte zum 28.04. eine kurze Präsentation von ca. 20 Minuten vor, diese sollte enthalten:
    • Was ist ein Crawler?
    • Wie funktioniert ein Suchindex?
    • Wie funktioniert ein RDF Triplestore? 
  • Magnus wird euch außerdem noch einiges zur COAL Software erklären

TIB|AV-Portal: 13.00 - 13.30 Uhr Raum H-2.58

  • Bereitet bitte zum 28.04. eine kurze Präsentation von 15-20 Minuten vor, diese sollte enthalten:
    • Eine Einführung in inhaltsbasierte Empfehlungssysteme
    • Eine Erläuterung der TIB|AV-Portal Dumps
    • Erste Ideen, welche Ressourcen für die Empfehlungen genutzt werden können
  • Wir werden dann eure Fragen klären und euch noch ein paar technische Einzelheiten erläutern  

DBpedia Events: 13.00 - 13.30 Uhr Raum H-E.52

  • Magnus wird euch eine Einführung in DBpedia Live und den DBpedia Events Datensatz geben
  • Bitte überlegt euch bis dahin Fragen und wenn möglich erste Lösungsansätze

Word2Vec: 13.30 - 15.00 Uhr Raum H-2.58

  • Ihr solltet Word2Vec so gut es geht verstehen, installieren, ausprobieren und die Grenzen ausloten
  • Bereitet bitte zum 28.04. eine kurze Präsentation von ca 20 Minuten vor, in der Word2Vec erklärt wird
  • Beide Gruppen können sich für die Präsentation auch gerne zusammenschließen, d.h. eine Präsentation genügt uns. Allerdings sollte sich jeder mit dem Thema gleichermaßen auseinandergesetzt haben
  • Im Anschluss gibt es noch ein NEL-Tutorial mit Jörg

Wir freuen uns auf eine spannende erste Gruppensitzung. Wenn ihr bis dahin Fragen zu euren Aufgaben habt, lasst es uns wissen :-)



Friday, April 15, 2016

Folienergänzung

Da die Vorstellung der letzten beiden Themen aufgrund der fortgeschrittenen Zeit im Seminar etwas kurz geraten ist, haben wir eine weitere Folie in die Präsentation eingefügt, um die Aufgabenstellung anschaulich an einem möglichen Beispiel zu erläutern. Den Foliensatz gibt es entweder über die Materialienseite oder direkt über diesen Link.

Das letzte Thema: (5) Accessibility sieht vor, basierend auf dem COAL Service (Thema 4) eine Browsererweiterung zu erstellen, die speziell Menschen mit Sehbehinderungen zu Gute kommen soll. Die von uns bereits implementierte Version des COAL Services benutzt ein Bildklassifikationsverfahren, um via Content Negotiation zusätzliche inhaltsbeschreibende Informationen über das Bild zu generieren. Diese sollen z.B. als alternative Darstellung einfach mit in das HTML-Dokument eingebaut werden.

Dazu können die in Thema 4 zusätzlich entwickelten COAL Services ebenfalls ergänzende bzw. beschreibende Informationen liefern. Diese können nicht nur von Bildern, sondern z.B. auch aus anderen Multimedia-Datenformaten (PDF, SVG, word, excel, etc.) stammen, die unterstützend eingebaut werden können. Auch über die Möglichkeit der Verwendung alternativer Ausgabemedien soll bei diesem Thema nachgedacht werden.

Wenn Sie Fragen zu Thema (5) haben, können Sie sich direkt an Magnus (H.1-38) wenden.


Raumänderung - 21.04.

Wie bereits gestern im Seminar besprochen, wird es in der nächsten Woche (21.04.) für alle eine technische Einführung geben:
  • Hörsaal 3
  • 13.30 - 15.00 Uhr
In der Zwischenzeit  könnt ihr euch gerne in das Doodle für eure Wunschthemen eintragen.

Ihr könnt Euch gerne schon als komplette Gruppe eintragen bzw. natürlich auch einzeln, wenn Ihr noch keine Gruppe gefunden habt, aber gerne ein bestimmtes Thema im Seminar bearbeiten möchtet. Die Einzelmeldungen werden wir dann nächste Woche im Seminar zu Gruppen zusammenfassen.

Materialien und Präsentationsfolien findet Ihr unter dem 'Materials' Ordner. Diese werden wir dann immer aktuell ergänzen. Weitere Plenumstermine werden auch immer hier aktuell im Blog bekanntgegeben. Außerdem werden wir weitere Hinweise und Wissenswertes rund um die von Euch bearbeiteten Themen hier posten.

Wir freuen uns auf ein spannendes Semester!

Tuesday, March 22, 2016

Knowledge Mining

Durch das beständige Anwachsen online verfügbarer Daten im World Wide Web verlieren wir heute schnell den Überblick darüber, was tatsächlich wichtig ist und was nicht. Knowledge Discovery und Data Mining sind entscheidende Technologien, die darauf abzielen, diese Informationsflut für uns zu bändigen. Ziel des Knowledge Minings ist das Erkennen bislang unbekannter, bzw. implizit in den zugrundeliegenden Daten oder Texten versteckter Informationen und Zusammenhänge. Im Fokus dieses Seminars steht das Knowledge Mining in Verbindung mit dem Web of Data, das zahlreiche nützliche strukturierte Daten zu allen möglichen Themen bereitstellt und diese als “Linked Data“ untereinander verknüpft.

 

Seminarinhalte 

  • Nutzung von Linked (Open) Data und anderen öffentlich zugänglichen Datenquellen
  • Datenzugriffsparadigmen im Web of Data
  • Integration semantischer und traditioneller Metadaten 
  • Knowledge Discovery und Data Mining 
  • Webprogrammierung 
  • User Interface Design 
Das Seminar sieht die Erarbeitung und Implementierung von möglichen Lösungsszenarien in kleinen Gruppen vor.

Allgemeine Informationen 

Termin: Donnerstag, 13:30 – 15:00 Uhr, A1.1
SWS / Belegungspunkte: 4 / 6.0 (benotet)
Blog: http://knowmin2016.blogspot.com/

Leistungserfassung 

  • Umsetzung einer vorgegebenen Implementierungsaufgabe 
  • Schriftliche Ausarbeitung zum Vortragsthema 
  • Präsentation der Ergebnisse 
  • Mitarbeit 

Ansprechpartner 

Dr. Harald Sack
harald.sack[at]hpi.de
(0331) 5509-527
Raum H-1.39