Adresse und Kontakt

AG Netzbasierte Informationssysteme
FU Berlin
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

This site is no longer maintained. You see a static copy as of April 1 2016.

Seminar Web Technologien

2-stündig, ECTS: 4

Dozenten:Robert Tolksdorf
Sprache:Deutsch
Mailingliste:Bitte bei https://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_s_netzwerke anmelden! Alle Teilnehmer müssen sich in diese Mailingliste eintragen.
Zeitraum:19.10.2011 bis 15.02.2012
Haupttermine:Mittwoch 14 – 16 Uhr – Takustraße 9 SR 046
maximale
Teilnehmerzahl
30 (An-/Abmelden)
Inhalt:Fortgeschrittene Themen mit wechselnden Schwerpunkten aus dem Bereich Web-Technologien (moderne Markups, Semantic Web, Linked Data, Web Information Extraction, Web Mining, Ontologiemodellierung). In diesem Semester beschäftigen wir uns mit Web Information Extraktion. Die Veranstaltung wird einen Referatsteil sowie die praktische Realisierung eines Informationssystems umfassen.
Voraussetzungen:Grundkenntnisse in Webtechnologien, passive Englischkenntnisse
Literatur:

Bei den Referatsthemen sind Abschnitte aus diesen Quellen referenziert. Sie müssen den jeweils angegebenen Quellen folgen und sie für das Referat aufbereiten.

Im Projektteil des Seminars soll von den Teilnehmern gemeinsam eine Thematik bearbeitet werden, in der sich verschiedene Probleme der Web Information Extraction finden:

Das Getty Research Institute bietet mir der Union List of Artist Names® eine Sammlung von Namen von Künstlern online an. Diese Namenssammlung ist urheberrechtlich geschützt und kann lizensiert werden. Man allerdings davon ausgehen, dass sich sämtliche Namen auch im freie Web finden lassen, allerdings eben nicht als qualitätsgesicherte Liste. Mit Hilfe von Web Information Extraction könnte man versuchen, diese Namen automatisiert aufzufinden und selber zu sammeln.

Genau dies sollen die Teilnehmer versuchen indem sie gemeinsam eine Software schreiben, die ausgehend von der Liste der Sammlungen moderner oder zeitgenössischer Kunst bei Wikipedia versucht, die darüber verlinkten Sites die Namen der in den Sammlungen vertretenen Künstlern zu extrahieren.

Wir bilden zwei bis drei Teams, die unterschiedliche Extraktionssysteme erstellen und um die beste Extraktion wetteifern. Die Spielregeln:

  • Sie erstellen zusammen ein Tool, dass beginnend mit einer vorselektierten Menge von Sites die dortigen Webseiten crawlt und mit möglichst guter Treffgenauigkeit und möglichst guter Vollständigkeit Namen von Künstlern die in der jeweiligen Sammlung vertreten sind extrahiert. Ergebnis ist eine einfache Liste von Paaren aus Künstlername und Sammlung.
  • Sie haben eine freie Auswahl unter den vorgestellten Tools.
  • Sie organisieren die Arbeit in Ihrem Team selber.
  • Jedes Team präsentiert jeden Mittwoch in 10 Minuten den aktuellen Stand.
  • Am 25.1. findet ein Zwischenmeilenstein statt bei dem jedes Team innerhalb von 15 Minuten den aktuellen Entwicklungsstand des Systems und erste Extraktionsergebnisse präsentiert.
  • Am 15.2. findet die Schlusspräsentation statt bei der jedes Team innerhalb von 15 Minuten den abschließenden Entwicklungsstand des Systems und Extraktionsergebnisse präsentiert.
  • Zur Ermittlung des Gewinnerteams wird eine Methode entwickelt, die die Anzahl der gefundenen Namen sowie deren Treffgenauigkeit berücksichtigt. Dazu wird noch ein Format für die Ausgabe der Namen vorgegeben.

Fahrplan:

DatumThemaVortragende
19.10.2011Einführung und ThemenvergabeTolksdorf
26.10.2011Hinweise zur Gestaltung von Referaten Zusätzlich zu dieser einfachen Hinweissammlung ist das Buch Presentation Zen von Garr Reynoldsaus unserer Sicht das bislang überzeugendste Anleitung zur Gestaltung guter Vortragsfolien. Siehe dazu auch:

Tolksdorf
02.11.2011Referat 1: Überblick und Beispiele auf Basis McCallum2005Beraki, Jung
09.11.2011Referat 2: Survey Abschnitt 1 bis 3 – Klassifikationsmöglichkeiten für IEGroße, Starroske, Schulz, Saenz
16.11.2011Referat 3: Survey Abschnitt 4.1 – Handgefertigte ExtraktorenRotar, Schröder, Dräger, Bischoff
23.11.2011Referat 4: Survey Abschnitt 4.2 – Überwachte ExtraktorenHermann, Kahl, Do, Schellenber
30.11.2010Referat 5: Survey Abschnitt 4.3 und 4.4 – Halbüberwachte und unüberwachte ExtraktorenSidykh, Hasan, Dahlke
07.12.2010Referat 6: Survey Abschnitt 5 – VergleichWei, Siripanya, Zhang
14.12.2010Rechercheergebnisse zu weiteren einsetzbaren IE SystemenPlanung Projektarbeit

Getting Things Done

Benjamin ThorandTeilnehmer

Tolksdorf

21.12.2010
29.12.2010
04.01.2012Projektarbeit Kickoff und Organisation, Architekturplanung
10.01.2012Projektarbeit Planungsstand und Status
18.01.2012Projektarbeit Planung für Zwischenmeilenstein
25.01.2012Projektarbeit Zwischenmeilenstein
01.02.2012Projektarbeit Planungsstand und Status
08.02.2012Projektarbeit Planung Abschlusspräsentation
15.02.2012Projektarbeit Abschlusspräsentation

Teamplanung für die Projektarbeit:

Team 1:

Team 2:

Team 3:

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220