Final Thesis: Improving Data Quality using Domain-Specific Data Types (in German)

Abstract: Im Rahmen dieser Arbeit wird das das Konzept und die Implementierung des Open Data Service (ODS) vorgestellt. Die Struktur des ODS besteht aus zwei voneinander unabhängigen Hauptkomponenten. Die Importkomponente sammelt Daten im Internet oder in einem lokalen Netzwerk und konvertiert diese falls notwendig in ein JSON-serialisierbares Objektformat. Danach werden die Datensätze in einer Instanz der dokumentenorientierten Datenbank CouchDB abgelegt. Clients können auf die Daten schließlich mithilfe der, auf dem Paradigma REST basierenden, Schnittstelle der Serverkomponente zugreifen. Innerhalb dieser Komponente werden die Anfragen auf vordefinierte Datenbankabfragen übersetzt und durch diese bearbeitet. Die ihm Laufe dieser Arbeit entwickelte Beispielanwendung sammelt zum einen grundlegende geografische Daten von OpenStreetMap. Zum anderen werden auch Gewässerdaten, wie beispielsweise Pegelstände und Wassertemperaturen, aus mehreren, heterogenen Quellen zusammengeführt. Neben der Entwicklung des Grundsystems konzentriert sich die Arbeit auf die Qualitätsverbesserung im Open Data Service sowie allgemein in Datendiensten. Dazu wird eine Reihe von Datenqualitätsverbesserungsfiltern vorgestellt, die simple, wiederverwendbare Änderungsoperationen auf Datensätzen durchführen können. Darüber hinaus werden für den Anwendungsbereich Gewässerdaten domänenspezifische Datentypen auf Basis des
„Value Object Pattern“ entworfen.

Keywords: Value objects, value types, open data service

PDFs: Master Thesis, Work Description

Reference: Patrick Reischl. Improving Data Quality using Domain-Specific Data Types. Master Thesis, Friedrich-Alexander-Universität Erlangen-Nürnberg: 2014.