Thursday, April 28, 2016

Nachtrag zu den ersten Gruppentreffen & Raumplanung

Liebe Studis,

vielen Dank für die produktiven ersten Gruppentreffen. Für einige Gruppen gibt es hier noch ein paar Materialien und Infos, weil uns an mancher Steller leider die Zeit ausging.

Außerdem könnt ihr jetzt hier auch die Raumplanung für das restliche Semester einsehen. Wenn ihr nicht mehr wisst, in welcher Gruppe ihr seid, seht hier nach.

Gruppe Raum & Zeit
1 Word2Vec 13.00 - 13.30 H-2.58
2 COAL metadata 13.00 - 13.30 H-E.52
3 DBpedia Events 14.30 - 15.00 H-E.52
4 AV-Portal 14.30 - 15.00 H-2.58
5 COAL metadata 13.30 - 14.00 H-E.52
6 Word2Vec 13.30 - 14.00 H-2.58
7 COAL client 14.00 - 14.30 H-2.58


Gruppe 2+5: COAL metadata

  • Ladet euch das Programm aus dem github und probiert es aus
  • Sammelt Tools, die man als worker integrieren kann

Gruppe 7: COAL client

  • Findet einen Crawler und erweitert ihn für ein content negotiation basiertes crawling von rdf
  • Speichert das rdf sinnvoll ab (zBsp. im Triple Store)
  • Arbeitet mit dem yovisto Blog als erstes Beispiel und crawlt zBsp. die Bilder als rdf

Gruppe 4: AV-Portal

  • Schickt uns bitte eure Präsentation vom 28.04. 
  • Hier ist noch einmal meine kurze Präsentation von heute mit euren Aufgaben bis zum 12. Mai
  • Bitte schickt uns auch eure Email Adressen, damit ich euch die GND-DBpedia Mappings geben kann 
Gruppe 1+6: Word2Vec  
  • Präsentation zu NEL
  • das Paper dazu
  • Unsere geschilderte erste Idee als Beispiel:
    • Die ca. 97GB liegen auf einer unserer Maschinen. 
    • Jede Gruppe kann sich bei mir (Jörg, H-1.37) ein Login abholen.
      • Darin sind enthalten:
        • enwiki-latest-pages-articles.xml: original Wikipedia Article Dataset (XML + Wikisyntax)
        • data.sentences: transformiert in 'sentences' Dataset (ein Artikel pro Zeile, Sonderzeichen ersetzt, DBpedia URIs aus Wikilinks erzeugt, etc.)
        • PreprocessWiki2.java: das Tool zum Transformieren
        • train.py: der Code zum Trainieren mit Gensim (hat ca. 9 Stunden gedauert)
        • data.model*: die Modelldaten
  • Test- / Evaluationsdaten:
      • Ein Eingabetext ist daran zu erkennen, dass er als "nif:Context" typisiert ist (vgl. z.B. Zeile 18 und 19).
      • Der eigentliche Text ist über das Property "nif:isString" verknüpft (vgl. z.B. Zeile 22)
      • Für jeden "nif:Context"gibt es Annotationen, die typisiert sind als "nif:Phrase" (z.B. Zeilen 25 und 26). 
      • Eine Annotation bezieht sich immer auf einen "nif:Context", am Property "nif:referenceContext" zu erkennen (z.B. Zeile 30). 
      • Jede Annotation enthält folgende Informationen:
        • "nif:anchorOf" das Textfragment im Ausgangstext ("nif:Context"), auch "Surface Form" genannt.
        • "nif:beginIndex" den entsprechende Index des Anfangs der Annotation
        • "nif:endIndex" ebd.
        • "nif:referenceContext" wie gesagt, der Verweise auf den Ausgangstext
        • "itsrdf:taIdentRef" die DBpedia Entität, die der Annotation an der entsprechenden Stelle zugeordnet wurde (Dies ist die korrekte Entität, die manuell zugeordnet wurde. Ihr sollt mit Eurem Verfahren diese Entität sozusagen 'voraussagen'. )
        • ".../candidate>" Diese Elemente haben wir für Euch hinzugefügt. Es sind all die DBpedia Entitäten, die wir durch ein Mapping der "Surface Form" mit unserem "DBpedia Dictionary" als potentielle Kandidaten identifiziert haben. Der korrekte Kandidat ist dort immer enthalten.
    • Also nochmal FAZIT:
      • Für jede Annotation ("nif:Phrase") zu einem Ausgangstext ("nif:Context"), sollt ihr mit Eurem Verfahren aus der Kandidatenliste den korrekten Kandidaten ("itsrdf:taIdentRef") auswählen.
      • Dabei sollt ihr ein Word2Vec Verfahren verwenden. Welche Daten oder Parameter ihr dabei zum trainieren, optimieren, etc. verwendet ist Euch vollkommen freigestellt. (Es macht natürlich irgendwie Sinn, mit Wikipedia o. Ä. anzufangen.)
  • Aufgaben bis in 2 Wochen:
    • Schickt uns bitte eure Präsentation vom 28.04. 
    • generell Ansätze überlegen, oder den von oben verfeinern/verbessern
    • Möglichkeit des parallelisierten Trainings ermitteln
    • beginnen, erste Ansätze zu implementieren
    • Probleme + Lösungen die auftreten Dokumentieren


Wednesday, April 27, 2016

!! Gruppe 3: DBpedia Events 28.04.

Liebe Studis der Gruppe 3 - DBpedia Events,

leider muss der erste Gruppentermin (28.04.) für euch krankheitsbedingt ausfallen. 
Magnus wird sobald wie möglich Kontakt zu euch aufnehmen und alles Weitere klären.
Bitte schickt ihm dazu eure Email Adressen. 

Alle anderen Gruppentermine finden wie geplant statt.




Thursday, April 21, 2016

ToDo's zur ersten Gruppensitzung (28.04.)

Liebe Studis,

heute habt ihr viel Input von uns bekommen und wir hoffen, ihr freut euch auf die Arbeit an den jeweiligen Projekten.

Hier ist noch mal eine kurze Zusammenfassung der "Hausaufgaben", die ihr zur nächsten Woche erledigen solltet. Die entsprechenden Referenzen findet ihr in den Folien zur heutigen Veranstaltung.

Bitte beachtet auch die Raumplanungen und die Übersicht der Seminargruppen inkl. der jeweiligen Ansprechpartner.

COAL metadata extraction: 11.00 - 12.00 Uhr Raum A 1.1

  • Entwickelt zum 28.04. erste Ideen dazu, welche Dateitypen interessant sind und welche Daten extrahiert werden können
  • Magnus wird euch außerdem noch einiges zur COAL Software und zur Metadatenextraktion aus Multimedia erklären

COAL client: 11.00 - 12.00 Uhr Raum A 1.1

  • Bereitet bitte zum 28.04. eine kurze Präsentation von ca. 20 Minuten vor, diese sollte enthalten:
    • Was ist ein Crawler?
    • Wie funktioniert ein Suchindex?
    • Wie funktioniert ein RDF Triplestore? 
  • Magnus wird euch außerdem noch einiges zur COAL Software erklären

TIB|AV-Portal: 13.00 - 13.30 Uhr Raum H-2.58

  • Bereitet bitte zum 28.04. eine kurze Präsentation von 15-20 Minuten vor, diese sollte enthalten:
    • Eine Einführung in inhaltsbasierte Empfehlungssysteme
    • Eine Erläuterung der TIB|AV-Portal Dumps
    • Erste Ideen, welche Ressourcen für die Empfehlungen genutzt werden können
  • Wir werden dann eure Fragen klären und euch noch ein paar technische Einzelheiten erläutern  

DBpedia Events: 13.00 - 13.30 Uhr Raum H-E.52

  • Magnus wird euch eine Einführung in DBpedia Live und den DBpedia Events Datensatz geben
  • Bitte überlegt euch bis dahin Fragen und wenn möglich erste Lösungsansätze

Word2Vec: 13.30 - 15.00 Uhr Raum H-2.58

  • Ihr solltet Word2Vec so gut es geht verstehen, installieren, ausprobieren und die Grenzen ausloten
  • Bereitet bitte zum 28.04. eine kurze Präsentation von ca 20 Minuten vor, in der Word2Vec erklärt wird
  • Beide Gruppen können sich für die Präsentation auch gerne zusammenschließen, d.h. eine Präsentation genügt uns. Allerdings sollte sich jeder mit dem Thema gleichermaßen auseinandergesetzt haben
  • Im Anschluss gibt es noch ein NEL-Tutorial mit Jörg

Wir freuen uns auf eine spannende erste Gruppensitzung. Wenn ihr bis dahin Fragen zu euren Aufgaben habt, lasst es uns wissen :-)



Friday, April 15, 2016

Folienergänzung

Da die Vorstellung der letzten beiden Themen aufgrund der fortgeschrittenen Zeit im Seminar etwas kurz geraten ist, haben wir eine weitere Folie in die Präsentation eingefügt, um die Aufgabenstellung anschaulich an einem möglichen Beispiel zu erläutern. Den Foliensatz gibt es entweder über die Materialienseite oder direkt über diesen Link.

Das letzte Thema: (5) Accessibility sieht vor, basierend auf dem COAL Service (Thema 4) eine Browsererweiterung zu erstellen, die speziell Menschen mit Sehbehinderungen zu Gute kommen soll. Die von uns bereits implementierte Version des COAL Services benutzt ein Bildklassifikationsverfahren, um via Content Negotiation zusätzliche inhaltsbeschreibende Informationen über das Bild zu generieren. Diese sollen z.B. als alternative Darstellung einfach mit in das HTML-Dokument eingebaut werden.

Dazu können die in Thema 4 zusätzlich entwickelten COAL Services ebenfalls ergänzende bzw. beschreibende Informationen liefern. Diese können nicht nur von Bildern, sondern z.B. auch aus anderen Multimedia-Datenformaten (PDF, SVG, word, excel, etc.) stammen, die unterstützend eingebaut werden können. Auch über die Möglichkeit der Verwendung alternativer Ausgabemedien soll bei diesem Thema nachgedacht werden.

Wenn Sie Fragen zu Thema (5) haben, können Sie sich direkt an Magnus (H.1-38) wenden.


Raumänderung - 21.04.

Wie bereits gestern im Seminar besprochen, wird es in der nächsten Woche (21.04.) für alle eine technische Einführung geben:
  • Hörsaal 3
  • 13.30 - 15.00 Uhr
In der Zwischenzeit  könnt ihr euch gerne in das Doodle für eure Wunschthemen eintragen.

Ihr könnt Euch gerne schon als komplette Gruppe eintragen bzw. natürlich auch einzeln, wenn Ihr noch keine Gruppe gefunden habt, aber gerne ein bestimmtes Thema im Seminar bearbeiten möchtet. Die Einzelmeldungen werden wir dann nächste Woche im Seminar zu Gruppen zusammenfassen.

Materialien und Präsentationsfolien findet Ihr unter dem 'Materials' Ordner. Diese werden wir dann immer aktuell ergänzen. Weitere Plenumstermine werden auch immer hier aktuell im Blog bekanntgegeben. Außerdem werden wir weitere Hinweise und Wissenswertes rund um die von Euch bearbeiteten Themen hier posten.

Wir freuen uns auf ein spannendes Semester!