FernUniversität Hagen

Fakultät für Mathematik und Informatik

Home

Lehre
Lehreveranstaltungen
Masterarbeiten und Bachelorarbeiten
   Offene Themen
   Reservierte Themen
   Laufende Themen
   Abgeschlossene Themen
   Hinweise für Studierende
Promotion
Mündliche Prüfungen
Klausuren

Forschung
Projekte
Forschungscluster
Publikationen und Literatursuche

Team

Stellenangebote für unsere Gruppe

Wir über uns (Kontaktadresse, Wegbeschreibung)
KONTAKT
Homepage
Neuigkeiten als RSS-Feed
ENGLISH
Startseite Lehrgebiet Multimedia und Internetanwendungen

Abgeschlossene Masterarbeit: Automatische Kategorisierung von Web-Dokumenten revisited.

Betreuer

Bearbeiter

    Michael Lutterbeck

Abgabetermin

2011-

Aufgabenstellung

Für die automatische Kategorisierung von Web-Dokumenten ist vorgegeben:

  • Ein Kategorienschema, in welches die zu kategorisierenden Dokumente eingeordnet werden müssen (z. B. die Klassenhierarchie von Yahoo!).
  • Eine Lernstichprobe, d. h. eine Menge von Dokumenten, die bezüglich des vorgegebenen Kategorienschemas bereits klassifiziert sind.

Ein (automatischer) Klassifikator lernt anhand des Schemas und der Lernstichprobe, wie neue (noch nicht klassifizierte) Dokumente in das Schema einzuordnen sind.

Der Ansatz [Klas:99] konkateniert alle Dokumente aus der Lernstichprobe, die einer Klasse zugeordnet wurden, zu einem Gesamtdokument für diese Klasse. Die so entstehenden Megadokumente werden indexiert. Ein zu klassifizierendes Dokument wird wiederum als Anfrage an die so erstellte Datenbank interpretiert; das Megadokument, welches die größte Ähnlichkeit zu dem Anfragedokument ausweist, wird zur Klassifikationsentscheidung herangezogen.

Aufgabe dieser Abschlussarbeit ist es, den Ansatz neu aufzubereiten. D.h. zunächst soll ein State-of-the-Art erstellt werden, welche Verfahren sich seit 1999 als erfolgreich herausgestellt haben und welche Ansätze diese verfolgen. Anschliessend soll der damalige Ansatz bzw die Evaluationsumgebung mit aktuellen Werkzeugen neu implementiert werden und an eine aktuellen Testkollektion gemessen werden.

Literatur

Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
A probabilistic description-oriented approach for categorising Web documents. In CIKM:99

Yiming Yang (1994).
Expert Network: Effective and Efficent Learning from Human Decisions in Text Categorisation and Retrieval. In SIGIR:94

Claus-Peter Klas (1999).
Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten. In: Proceedings ADI'99 (Agenten -- Datenbanken -- Information Retrieval)

Ingo Frommholz (2001).
Automatische Kategorisierung von Web-Dokumenten. Masterthesis