Final Thesis: Abschnittsbasierte Textklassifikation in der Wikipedia

Abstract: Die Wikipedia hat das Ziel, eine global verfügbare, freie Informationsquelle in Form eines Online-Lexikons zu erstellen. Freiwillige aus der ganzen Welt erstellen und kategorisieren kollaborativ neue Artikel, prüfen, aktualisieren und verbessern bestehende Artikel. Diese Änderungen erfordern auch das Überarbeiten anderer Inhalte, um die Konsistenz der Wikipedia zu erhalten. Aufgrund des Umfangs der Wikipedia ist es für Autoren eine besondere Herausforderung, diese Textstellen ausfindig zu machen. Das in dieser Arbeit entwickelte System kann die Wikipedia automatisch nach ähnlichen Artikeln und Abschnitten durchsuchen und darauf aufbauend Kategorievorschläge zusammenstellen. Auf einer Volltextsuche basierend, skaliert es für den gesamten textuellen Inhalt der Wikipedia und liefert innerhalb kürzester Zeit Ergebnisse. Damit stellt es eine Verbesserung gegenüber anderen Ansätzen dar, die entweder auf die Linkstruktur der Wikipedia beschränkt sind oder nur für einen Teilbereich der Wikipedia getestet wurden. Die Möglichkeit, dabei auf Abschnittsebene zu arbeiten, ist neu. Mithilfe der Wikipedia-Kategorien wird das System qualitativ evaluiert.

PDFs:  Final thesis (in German)

Reference: Guido Leisker. Abschnittsbasierte Textklassifikation in der Wikipedia. Magisterarbeit, Friedrich-Alexander University of Erlangen-Nürnberg: 2011.