Adresse und Kontakt

AG Netzbasierte Informationssysteme
FU Berlin
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

This site is no longer maintained. You see a static copy as of April 1 2016.

Blog Klassifikation durch Tag Analyse

Blogs sind zumeist themenspezifisch. Das technorati.com Blog Directory listet mehr als 1,2 Millionen Blogs in einer Themenhierarchie. Dabei wird die jeweilige Klassifikation vom Blogautoren bei der Anmeldung bei technorati vorgenommen. Könnte man diese Klassifikation automatisieren? In der Arbeit soll die Hypothese untersucht werden, dass die jeweiligen Tags eines Blog eine solche Klassifikation ermöglichen.

Über eine Blog Verzeichnis soll eine hinreichende Menge von Blogs herausgegriffen werden. Für jedes dieser Blog sollen die verwendeten Tags extrahiert und ein Tag-Vektor erzeugt werden. Damit soll nun überprüft werden ob es für eine Kategorie des Blog Verzeichnis einen charakteristischen Vektor gibt. Für eine Untermenge von Kategorien soll überprüft werden ob mit Hilfe dieses Vektors ein zufällig ausgewähltes Blog zutreffend kategorisiert werden kann. Weiterhin ist eine Recherche über eventuell schon vorhandene Arbeiten zu der Thematik zu erstellen (bislang sind nur unbeantwortete Nachfragen bekannt).

Art der Arbeit: Bachelor- oder Studienarbeit

Voraussetzungen: Kenntnisse in Web Technologien,  Information Retrieval

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Firmennetzwerke: Startups und Finanzierungen

Websites wie deutsche-startups.de oder gruenderszene.de listen regelmäßige Neuigkeiten zu Finanzierungen, Beteiligungen, Übernahmen und auch Insolvenzen zu deutschen Startups. Weiterhin sind Verzeichnisse von Startups und Investoren vorhanden. Unternehmen und Investoren bilden durch die Verbindung über Investments in einem Netzwerk. Im Rahmen dieser Arbeit soll dieses Netzwerk ermittelt und analysiert werden.

Dazu müssen die verteilt vorliegenden Online-Informationen geeignet analysiert werden. In der Arbeit sind die Informationen von den genannten Sites zu extrahieren (z.B. durch einen Crawler, einen Screen Scraper wie scrapy oder geeignete eigene Scripte). Nach der Extraktion des genannten Netzwerks mit mehreren Kanten- und Knotentypen ist eine Analyse der sich ergebenden Netzwerkstruktur und dessen temporale Entwicklung mit Hilfe eines geeigneten Werkzeugs durchzuführen. Insgesamt sollen Aussagen über die Struktur des deutschen Beteiligungsmarktes für IT-Startups gemacht werden.

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Kunstnetzwerke: Künstler und öffentliche Nennungen

Im Kunstmarkt existiert eine fachspezifische Öffentlichkeit die einerseits inhaltliche Diskussionen führt, andererseits auch den Marktwert von Kunst durch die Häufigkeit und Qualität der Nennung von Künstlern beeinflusst. Zum Portfolio eines Künstlers gehört zunehmend auch eine Sammlung öffentlicher Nennungen, das Archiv des Fotographiekünstlers Michael Najjar ist ein Beispiel für die Vielfalt solcher Nennungen.

In der Arbeit soll ein System erstellt werden, das regelmäßig Medien die sich mit Kunst beschäftigen (Zeitschriften, Web-Sites – Liste1 oder Liste2 aber auch Kunstsendungen im TV) durchsucht und Nennungen ermittelt. Dazu ist jeweils eine Art Inhaltsverzeichnis zu klassifizieren und darin Namen zu ermitteln. Diese Namen sollen dann als Netzwerk in Verbindung mit dem sie nennenden Medium gesetzt werden. Auf diesem Netzwerk ist eine Analyse über übliche Netzwerkmetriken durchzuführen die auch temporale Aspekte berücksichtigt („Künstler X wird in letzter Zeit auffällig häufig genannt“). Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in grundlegenden Web-Technologien und Netzwerken

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Speisekartencrawler

Douglas Adams, Per Anhalter durch die Galaxis: Roman (Werbung), um S.186:  „Die Geschichte jeder bedeutenderen galaktischen Zivilisation macht drei klar und deutlich voneinander getrennte Phasen durch – das bare Überleben, die Wissensgier und die letzte Verfeinerung, allgemein auch als Wie-, Warum- und Wo-Phasen bekannt.
Die erste Phase zum Beispiel ist durch die Frage gekennzeichnet: Wie kriegen wir was zu essen?, die zweite durch die Frage: Warum essen wir?, und die dritte durch die Frage: Wo kriegen wir die besten Wiener Schnitzel?“

Heute sind Restaurants online, teilweise sind Speisekarten verfügbar. Es gibt einige Web-Dienste, die diese sammeln (http://www.gourmetclassic.de/sitemap/speisekarten.html, http://www.speisekarte.de oder http://www.mister-wong.de/tags/speisekarte ). Die Eintragung von Seiten durch Nutzer oder Betreiber füllt diese Datenbanken. In der Abschlussarbeit soll themenspezifisch versucht werden, automatisiert ein suchbares Verzeichnis möglichst vieler Speisekarten deutscher Restaurants zu erstellen.

Es soll also ein Crawler entstehen, der durch Heuristik Restaurant Homepages ermittelt, die Geoinformationen des Restaurants herausfindet, auf der Site Speisekarten auswählt und deren Inhalt extrahiert. Die Ergebnisse sollen in eine Datenbank eingestellt und über einen Suchdienst anfragbar gemacht werden. Schließlich muss ein Wartungsprozess definiert und möglichst weit implementiert werden. Rahmenwerke wie beispielsweise SMILA oder Nutch und Screen Scraper wie scrapy sollen benutzt werden. Sämtliche Software ist unter … [...Weiterlesen/more...]

Visualisierung von Ontologienutzungsdaten in SONIVIS

Die Analyse der Nutzung von Webseiten stellt schon heute eine wichtige Grundlage für bedarfsorientierte Angebote im Web dar. Kommen die Technologien des Semantic Web zur Anwendung, wird diese Analyse ungleich schwieriger, weil reine HTTP-Antworten des Servers zum Beispiel keine Aussage darüber zulassen, ob und welche Daten durch eine SPARQL-Anfrage an einem Endpoint gefunden wurden. Für die Betreiber von semantischen Datenrepositories verbergen sich aber hinter ebendiesen Infomrationen interessante Rückschlüsse auf die Qualität der Daten im Bezug zu den Anforderungen der Nutzer bzw. der Anwendungen, die diese Daten nutzen. Im Rahmen eines Promotionsvorhabens wurde eine Methode zur Sammlung solcher Nutzungsinformationen entworfen und implementiert und es liegen erste Beispieldaten über die Nutzung des DBpedia 3.3 Datensets vor.

Im Rahmen dieser Arbeit sollen nun die Beispieldaten und die ihnen zugrunde liegenden Ontologien durch eine Erweiterung der quelloffenen Software SONIVIS als Netzwerk visualisiert werden. Darüberhinaus sollen, ebenfalls für das SONIVIS Tool, Metriken entworfen und implementiert werden, die unterschiedliche Sichten auf diese Netzwerke ermöglichen. Ein Beispiel hierfür wären sogenannte Heat Maps, d.h. eine Visualisierung, die anhand der Anfragehäufigkeit Konzepte der Ontologie größer oder kleiner darstellt.

Art
Bachelor- oder Studienarbeit

Voraussetzungen
Kenntnisse in Programmierung mit Java und dem Umgang mit Eclipse. Kenntnisse in RCP Entwicklung von [...Weiterlesen/more...]

Normennetzwerke: RFCs

Die Requests for Comments, RFCs definieren die Standards des Internet. Der Korpus dieser Dokumente liegt in verarbeitbarer und weit regulierter Form vor.Dokumente sind in verschiedene Kategorien eingeordnet.

Aufgabe dieser Arbeit ist die Erfassung und Analyse des kompletten RFC Korpus als Netzwerk. Beziehungen darin umfassen die definierten und in Metadaten erfassten „Obsoletes xxx“, „Obsoleted by xxx“, „Updates xxx“, „Updated by xxx“ aber auch das durch Referenzen sich ergebende Zitationsnetzwerk zu weitern RFCs einerseits und zu externen Quellen andererseits.

In der Arbeit soll eine Erfassung der vorliegenden RFC Dokumente erfolgen, eine Extraktion der Beziehungen zu anderen Dokumenten und Standards sowie eine Analyse der sich ergebenden Netzwerkstruktur mit Hilfe eines Werkzeugs wie SONIVIS erfolgen.

Die Arbeit wurde von Maciej Wienszczak bearbeitet und liegt als PDF vor: „Analyse des Normennetzwerks der Internet Requests for Comments„.… [...Weiterlesen/more...]

Kunstnetzwerke: Werke, Künstler und Auktionen

Der weltweite Kunstmarkt ist sehr lose organisiert. Relevante Rollen sind die Künstler mit ihren Werken und Auktionshäuser, die Werke von Künstlern auf dem sog. 2. Markt an Museen und Sammler versteigern. Kunstauktionen werden mittlerweile von umfangreichen Online-Katalogen begleitet, die Gebotsabgabe über das Internet ist möglich und auch Ergebnislisten werden online bereitgestellt. Aufgrund der individuellen Insellösungen von Auktionshäusern ist es aber kaum möglich sich einen vollständigen Überblick zu Inhalt und Struktur des Kunstauktionsmarkts zu bilden. Kommerzielle Dienste wie artprice.com oder artfacts.net sind vergleichsweise hochpreisig.

In dieser Arbeit sollen Informationen über in Auktionen gehandelte Werke und deren Künstler ermittelt und mit Hilfe einer Netzwerkanalyse Strukturen des 2. Markts identifiziert werden. Verzeichnisse von Auktionshäusern wie von kunstmarkt.com erfassen relevante Sites und liefern Ausgangspunkte für einen Crawler, der beispielsweise auf einem Rahmenwerk wie beispielsweise SMILA oder Nutch basiert und vielleicht an einen Screen Scraper wie scrapy angeschlossen ist. Aus Online-Katalogen sollen angebotene Künstler und Werke extrahiert werden und geeignet ein Netzwerk erstellt werden. Mit dem Tool SONIVIS sollen dann Analysen zu Netzwerkeigenschaften durchgeführt werden und deren Ergebnisse sowie das Werke-Künstler-Auktionshaus-Netzwerk online dargestellt werden. Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in grundlegenden … [...Weiterlesen/more...]

Kunstnetzwerke: Künstler und Galerien

Der weltweite Kunstmarkt ist sehr lose organisiert. Relevante Rollen sind die Künstler mit ihren Werken, Galerien die die Werke von Künstlern auf dem sog. 1. Markt vermarkten sowie Museen und private Sammler die Werke ankaufen sowie weiter Intermediäre die Öffentlichkeit herstellen. Künstler, Galerien und Museen haben in den letzten Jahre erkannt, dass ihre Online-Repräsentanzen notwendig für das Funktionieren des Kunstmarkts sind. Aufgrund der sehr losen Organisation ist es aber kaum möglich sich einen vollständigen Überblick zu Inhalt und Struktur des Kunstmarkts zu bilden.

In dieser Arbeit sollen mit Hilfe einer Netzwerkanalyse solche Strukturen identifiziert werden. Als Künstler sollen dabei jene gelten die von deutschen oder deutschsprachigen Galerien vertreten werden. Dazu müssen die verteilt vorliegenden Online-Informationen geeignet analysiert werden. In der Arbeit ist dies durch einen Crawler zu automatisieren, der auf einem Rahmenwerk wie beispielsweise SMILA oder Nutch basiert und vielleicht an einen Screen Scraper wie scrapy angeschlossen ist.

Galerieverzeichnisse wie bei artfacts oder beim Bundesverband Deutscher Galerien und Editionen e.V. müssen geeignet analysiert werden um Listen mit Netzadressen von Galerien zu ermitteln. Auf den Galerie-Sites muss dann durch eine Heuristik die Liste der von der Galerie vertretenen Künstler ermittelt werden. Aus diesen Informationen – eventuell angereichert um Metainformationen wie Stilrichtung … [...Weiterlesen/more...]

Webrings

Webrings sind eine sehr alte Struktur im Web mit der thematisch ähnliche Sites über ein externes Navigationselement verknüpft werden sollen. In der Arbeit soll statistisch geprüft werden ob dies erreicht wird.

Ausgehend vom Verzeichnis von Webrings bei www.webring.com soll zunächst die Strukturen von Webrings (Größe und Konnektivität) analysiert werden. Weiterhin sollen jeweils miteinander verbundene Site auf Ähnlichkeit überprüft werden (Indexierung z.B. mit Lucene und Berechnung des Dokumentenabstands) sowie die Auswirkung auf die Popularität der verbundenen Sites anhand ihres Pageranks (statischer Vergleich des Pageranks innerhalb des Webrings mit dem vondurch google als ähnlich identifizierten Sites ausserhalb des Webrings) analysiert werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web Technologien, Information Retrieval, Netzwerke

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Semantische Integration von Konferenzinformationen

Informationen über wissenschaftliche Konferenzen in der Informatik und anderen Wissenschaften sind im Netz nur schlecht erschließbar. Neben den völlig verstreut angebotenen eigentlichen Konferenzankündigungen und Aufrufen zur Beitragseinreichung gibt es verschiedene Angebote mit Sammlungen solcher Informationen. So wollen z.B. allconferences.com oder goingtomeet.com möglich alle Konferenzen erfassen, während Fachverbände wie die IEEE, die ACM oder die GI jeweils informatikspezifische Kalender anbieten.

Wissenschaftler möchten die Anfrage „Auf welchen Konferenzen kann ich meine Arbeit im Themenbereich X, Y und Z einreichen“ einfach von einer Suchmaschine beantwortet bekommen. Eine solche Suchmaschine existiert bislang aber nicht.

In der Arbeit soll ein Rahmenwerk geschaffen und exemplarisch für informatische Themen realisiert werden mit dem aus unterschiedlichen Quellen erschlossene Konferenzankündigungen Informationen über die jeweils geforderten Themen ermittelt werden und auf dieser Basis die obige Anfrage präzise und umfassend beantwortet werden kann. Dabei soll eine Ontologie für die Themenklassifikation sowie eine semantische Suche genutzt werden.

Das Rahmenwerk soll exemplarisch für Konferenzen aus der Informatik realisiert werden, gleichzeitig aber so allgemein sein, dass leicht eine Suchmaschine für andere Disziplinen (z.B. Elektrotechnik, Mathematik) oder andere Veröffentlichungsarten (z.B. wissenschaftliche Zeitschriften) konfiguriert werden könnte. Die zu erstellende Software soll als LGPL lizensiert sein.

Art der Arbeit

Diplom- oder Masterarbeit

Voraussetzungen

Kenntnisse in Web-Technologien … [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220