Final Thesis: Extraktion von Brancheninformationen aus unstrukturierten Texten

Abstract: In Zeiten des Internets sind Informationen für jedermann zugänglich. Da viele dieser Daten jedoch in unstrukturierten Texten vorliegen, ist es notwendig die darin enthaltenen Wissenselemente zu extrahieren und in eine strukturierte Form zu überführen. Maschinelle Lernverfahren, die hierfür verwendet werden, erfordern große Mengen an manuell annotierten Datensätzen. Allerdings benötigt die manuelle Annotation der Daten zeitliche und personelle Ressourcen, die vielen Unternehmen nicht zur Verfügung stehen. 

Das Ziel dieser Arbeit bestand darin, eine Extraktionspipeline zu entwerfen, die regelbasierte Vorgehensweisen mit maschinellem Lernen verbindet und ohne manuellen Annotationsaufwand auskommt. Dieses Ziel wurde erreicht, denn es wurde gezeigt, dass es möglich ist, ein neuronales Netz mit programmatisch annotierten Daten zu trainieren und damit Brancheninformationen aus Texten zu extrahieren. Dafür wurde eine Regelpipeline entworfen, die mithilfe von Mustervergleichen einen Trainingskorpus für ein neuronales Netz generiert. Das damit trainierte Modell konnte gleichwertige Ergebnisse liefern wie ein rein regelbasierter Ansatz. 

Keywords: Natural Language Processing, Maschine Learning

PDF: Bachelor Thesis

Reference: Luc Zumtaugwald. Extraktion von Brancheninformationen aus unstrukturierten Texten. Bachelor Thesis. Friedrich-Alexander-Universität Erlangen-Nürnberg: 2021.

Friedrich-Alexander-Universität Erlangen-Nürnberg