FernUniversität Hagen

Fakultät für Mathematik und Informatik

Home

Lehre
Lehreveranstaltungen
Masterarbeiten und Bachelorarbeiten
   Offene Themen
   Reservierte Themen
   Laufende Themen
   Abgeschlossene Themen
   Hinweise für Studierende
Promotion
Mündliche Prüfungen
Klausuren

Forschung
Projekte
Forschungscluster
Publikationen und Literatursuche

Team

Stellenangebote für unsere Gruppe

Wir über uns (Kontaktadresse, Wegbeschreibung)
KONTAKT
Homepage
Neuigkeiten als RSS-Feed
ENGLISH
Startseite Lehrgebiet Multimedia und Internetanwendungen

Abgeschlossene Diplomarbeit: Semiautomatisches Pflegen von Wrappern

Betreuer

Bearbeiter

  • Andrea Ernst-Gerlach

Abgabetermin

2004-02

Formalia

Voraussetzungen
  • Vorlesung Informationssysteme oder Information Retrieval
  • Programmiersprache Java

Aufgabenstellung

Im Rahmen des Projektes MIND werden heterogene digitale Bibliotheken (DLs) durch eine zusätzliche Schicht zusammengefügt, so daß Benutzer die Illusion einer einheitlichen Digitalen Bibliothek hat. DL-spezifische Wrapper wandeln die Anfrage in das DL-Format um, kommunizieren mit der DL, parsen das Ergebnis (meist im HTMl-Format) und wandeln es in ein einheitliches Format (die MIND-Dokumentenrepräsentation) um.

Durch das Parsen von HTML-Code ist ein erheblicher manualler Aufwand nicht nur beim Einbinden einer neuen DL, sondern auch beim Pflegen vorhandener DLs (wenn sich der HTML-Code ändert) erforderlich. Ziel dieser Diplomarbeit ist das semiautomatische Pflegen von Wrappern, d.h. das Nachvollziehen von Änderungen im HTML-Code.

Angenommen wird, daß Dokumente vorliegen, die aus der DL extrahiert wurden, plus die zugehörigen alten HTML-Seiten und die Fragen, mit denen die Dokumente retrievt wurden. Außerdem ist der alte Wrapper in einer maschinenlesbaren Form (z.B. XPath, Daffodil-Wrapper-Toolkit) vorhanden. Ein neuer Wrapper könnte z.B. durch verschiedene Techniken erzeugt werden:

  • Heuristiken nutzen Regularitäten in der Struktur aus: Typisch für Retrievalergebnisseiten ist z.B. ein Kopf und ein Fußbereich und dazwischen eine listenartige Struktur, wobei jeder Eintrag einem MIND-Dokument entspricht und einen einheitlichen Aufbau besitzt (z.B. eine Tabellenzeile, ein Paragraph, getrennt durch ein <br>).
  • Suchen von Texten aus der Dokumentrepräsentation in HTML-Code.
  • Techniken für das Matchen von MIND-Schema, die zur Zeit entwickelt werden, können auf das Matching von XHTML (aus dem HTML gewonnen) und der Dokumentenrepräsentation angepaßt werden.

Diese Diplomarbeit umfaßt folgende Schritte:

  • Aufarbeitung der Literatur
  • Entwicklung von Verfahren zum Anpassen von HTML-Wrappern für allgemeine Fälle
  • prototypische Implementierung

Fertiger Text

Andrea Ernst-Gerlach (2004).
Semiautomatisches Pflegen von Wrappern. Masterthesis

Literatur

W3C (1999)
XML Path Language (XPath)
Markus Rupp (2002)
DAFFODIL: Wrapper für digitale Bibliotheken in Daffodil (Diplomarbeit).
DoorenBos, R.B., Etzioni, O., Weld, D.S. (1997)
A scalable comparison-shopping agent for the World-Wide Web