FernUniversität Hagen

Fakultät für Mathematik und Informatik

Home

Lehre
Lehreveranstaltungen
Masterarbeiten und Bachelorarbeiten
   Offene Themen
   Reservierte Themen
   Laufende Themen
   Abgeschlossene Themen
   Hinweise für Studierende
Promotion
Mündliche Prüfungen
Klausuren

Forschung
Projekte
Forschungscluster
Publikationen und Literatursuche

Team

Stellenangebote für unsere Gruppe

Wir über uns (Kontaktadresse, Wegbeschreibung)
KONTAKT
Homepage
Neuigkeiten als RSS-Feed
ENGLISH
Startseite Lehrgebiet Multimedia und Internetanwendungen

Abgeschlossene Diplomarbeit: Automatische Kategorisierung von Web-Dokumenten

Betreuer

Bearbeiter

  • Ingo Frommholz

Abgabetermin

2001-01

Aufgabenstellung

Für die automatische Kategorisierung von Web-Dokumenten ist vorgegeben:

  • Ein Kategorienschema, in welches die zu kategorisierenden Dokumente eingeordnet werden müssen (z. B. die Klassenhierarchie von Yahoo!).
  • Eine Lernstichprobe, d. h. eine Menge von Dokumenten, die bezüglich des vorgegebenen Kategorienschemas bereits klassifiziert sind.

Ein (automatischer) Klassifikator lernt anhand des Schemas und der Lernstichprobe, wie neue (noch nicht klassifizierte) Dokumente in das Schema einzuordnen sind.

In der IR-Gruppe wurden zwei Ansätze zur automatischen Klassifikation von Web-Dokumenten entwickelt:

  • Der beschreibungsorientierte Ansatz [Goevert/etal:99] basiert auf einer probabilistischen Indexierung der Dokumente der Lernstichprobe; ein zu klassifizierenedes Dokument wird als Anfrage an die so erstellte Datenbank interpretiert; aus den Ergebnisdokumenten für diese Anfrage wird die Klassifikationsentscheidung mittels des k-Nearest-Neighbor-Verfahrens [Yang:94] getroffen.
  • Der zweite Ansatz [Klas:99] konkateniert alle Dokumente aus der Lernstichprobe, die einer Klasse zugeordnet wurden, zu einem Gesamtdokument für diese Klasse. Die so entstehenden Megadokumente werden indexiert. Ein zu klassifizierendes Dokument wird wiederum als Anfrage an die so erstellte Datenbank interpretiert; das Megadokument, welches die größte Ähnlichkeit zu dem Anfragedokument ausweist, wird zur Klassifikationsentscheidung herangezogen.

Aufgabe dieser Diplomarbeit ist es, beide Ansätze miteinander zu kombinieren. Darüberhinaus soll für die Klassifikation zusätzliches Wissen berücksichtigt werden: meist sind die vorgegebenen Klassifikationsschemata hierarchisch organisiert (so auch Yahoo!). Wissen über Beziehungen von Kategorien innerhalb eines solchen Schemas soll für eine bessere Klassifikation ausgenutzt werden.

Fertiger Text

Ingo Frommholz (2001).
Automatische Kategorisierung von Web-Dokumenten. Masterthesis

Literatur

Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
A probabilistic description-oriented approach for categorising Web documents. In CIKM:99

Yiming Yang (1994).
Expert Network: Effective and Efficent Learning from Human Decisions in Text Categorisation and Retrieval. In SIGIR:94

Claus-Peter Klas (1999).
Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten. In: Proceedings ADI'99 (Agenten -- Datenbanken -- Information Retrieval)