Adresse und Kontakt

AG Netzbasierte Informationssysteme
FU Berlin
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

This site is no longer maintained. You see a static copy as of April 1 2016.

Speisekartencrawler

Douglas Adams, Per Anhalter durch die Galaxis: Roman (Werbung), um S.186:  „Die Geschichte jeder bedeutenderen galaktischen Zivilisation macht drei klar und deutlich voneinander getrennte Phasen durch – das bare Überleben, die Wissensgier und die letzte Verfeinerung, allgemein auch als Wie-, Warum- und Wo-Phasen bekannt.
Die erste Phase zum Beispiel ist durch die Frage gekennzeichnet: Wie kriegen wir was zu essen?, die zweite durch die Frage: Warum essen wir?, und die dritte durch die Frage: Wo kriegen wir die besten Wiener Schnitzel?“

Heute sind Restaurants online, teilweise sind Speisekarten verfügbar. Es gibt einige Web-Dienste, die diese sammeln (http://www.gourmetclassic.de/sitemap/speisekarten.html, http://www.speisekarte.de oder http://www.mister-wong.de/tags/speisekarte ). Die Eintragung von Seiten durch Nutzer oder Betreiber füllt diese Datenbanken. In der Abschlussarbeit soll themenspezifisch versucht werden, automatisiert ein suchbares Verzeichnis möglichst vieler Speisekarten deutscher Restaurants zu erstellen.

Es soll also ein Crawler entstehen, der durch Heuristik Restaurant Homepages ermittelt, die Geoinformationen des Restaurants herausfindet, auf der Site Speisekarten auswählt und deren Inhalt extrahiert. Die Ergebnisse sollen in eine Datenbank eingestellt und über einen Suchdienst anfragbar gemacht werden. Schließlich muss ein Wartungsprozess definiert und möglichst weit implementiert werden. Rahmenwerke wie beispielsweise SMILA oder Nutch und Screen Scraper wie scrapy sollen benutzt werden. Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

In Summe soll zumindest die Frage „Wo kriegen wir überhaupt Wiener Schnitzel?“ soll durch das Resultat der Arbeit beantwortbar sein.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in Web-Technologien und Netzwerken

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220