FernUniversität Hagen

Fakultät für Mathematik und Informatik

Home

Lehre
Lehreveranstaltungen
Masterarbeiten und Bachelorarbeiten
   Offene Themen
   Reservierte Themen
   Laufende Themen
   Abgeschlossene Themen
   Hinweise für Studierende
Promotion
Mündliche Prüfungen
Klausuren

Forschung
Projekte
Forschungscluster
Publikationen und Literatursuche

Team

Stellenangebote für unsere Gruppe

Wir über uns (Kontaktadresse, Wegbeschreibung)
KONTAKT
Homepage
Neuigkeiten als RSS-Feed
ENGLISH
Startseite Lehrgebiet Multimedia und Internetanwendungen

Abgeschlossene Diplomarbeit: Semi-Automatische Inhaltsübersicht für XML-Kollektionen

Betreuer

    Bearbeiter

    • Igor Jacy Lino Campista

    Abgabetermin

    2005-06

    Formalia

    Voraussetzungen
    • Vorlesung Data Mining, Informationssysteme oder Information Retrieval
    • Gute Programmierfähigkeiten (notwendig)
    • Programmiersprache Java (notwendig)
    • XML (wünschenswert)

    Aufgabenstellung

    Um eine Menge von Dokumenten überblicksmäßig einschätzen zu können, benötigt man eine inhaltliche Zusammenfassung oder wenigstens eine Inhaltsangabe - eine kompakte, für den Anwender verständliche Darstellung des Inhalts der Dokumentenmenge. Die Aufgabe, eine solche Darstellung zu erstellen, nennt man Summarization. Anwendungsfälle, wo in unseren Forschungsprojekten Mengen von Dokumenten zusammenfassend dargestellt werden müsssen, sind zum Beispiel:

    • Digitale Bibliotheken, aus denen der Anwender eine oder mehrere Quellen für eine Suche auswählen kann (in DAFFODIL und CYCLADES)
    • Ergebnismengen von Suchanfragen (in DAFFODIL und CYCLADES)
    • Cluster (Gruppen) von Dokumenten (im Praxisprojekt Invisible Web)

    Im Fall von XML sind neben dem textuellen Inhalt von Dokumenten auch deren Struktur und eventuell andere Datentypen zu berücksichtigen. Verschiedene Datentypen lassen ggf. verschiedene Zusammenfassungsverfahren zu. So ist denkbar, eine Menge von Zahlen durch ihren Durchschnitt oder ihre Summe zusammenzufassen, oder eine Menge von Jahreszahlen als Intervall.

    In dieser Arbeit soll ein Werkzeug entwickelt werden, mit dem ein Anwender Zusammenfassungsregeln für eine Kollektion definieren kann. Anhand solcher Regeln soll eine Kollektion danach automatisch zusammengefasst werden. Vereinfachend darf von einer strukturell homogenen Kollektion ausgegangen werden.

    Die Aufgabenstellung umfasst insbesondere folgende Aspekte:

    • Einarbeitung in die Literatur und Sichtung bestehender Summarization-Ansätze
    • Enwurf von Zusammenfassungsregeln für verschiedene Datentypen
    • Prototypische Implementierung des Regelentwurfswerkzeugs
    • Prototypische Implementierung der automatischen Zusammenfassung
    • Evaluierung

    Fertiger Text

    Igor Jacy Lino Campista (2005).
    Semi-Automatic Summarization of XML collections. Masterthesis