Data Pipeline Quality for Knowledge Graph Management Systems in Data Analytics

Autor
S. Zaunmayr
Masterarbeit
MT2509 (Juli, 2025)
Betreut von
Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Englisch)

Knowledge Graphs bieten eine flexible und ausdrucksstarke Datendarstellung, ihre Integration in ETL-Prozesse ist jedoch noch wenig erforscht. Diese Arbeit untersucht die Konstruktion eines Knowledge Graphs durch einen Labeled Property Graphen und seine Verwendung für die deskriptive Analyse. Eine Durchsicht der vorhandenen Literatur zeigt eine Lücke bei der Ausrichtung von ETL-Prozessen auf Knowledge-Graph-Transformationen. Um dies anzugehen, formuliert die Fallstudie drei Forschungsfragen, die sich auf Einflussfaktoren für Datenpipelines konzentrieren [1].

In Anlehnung an Hevner’s Design Science Research (DSR)-Methodik [2] entwirft, entwickelt und bewertet diese Arbeit einen Labeled Property Graphen für die industrielle Fertigung. In der Datenmodellierungs- und Datenverarbeitungsphase wird ein konzeptionelles Modell in Form einer Ontologie verwendet, das die kollaborative Konzeptualisierung unterstützt. Die Ausrichtung von Diagrammdatenstrukturen an der grundlegenden Ontologie von DOLCE [3] verbessert das Verständnis der Informationsqualität. Allerdings führt die Heterogenität des Datenmodells zu zusätzlicher Codekomplexität bei der Zuordnung relationaler Daten zu Datenstrukturen eines Graphen. Die Studie untersucht außerdem eine datengesteuerte Kontrollflussarchitektur für Datenpipelines unter Berücksichtigung der Metadaten-basierten Codegenerierung.

Diese Arbeit trägt zum Verständnis der Heterogenitätsherausforderungen bei der Datenmodellierung und -verarbeitung bei und bietet Erkenntnisse für die Gestaltung von Knowledge Graph Architekturen.

Kurzfassung (Deutsch)

Knowledge Graphs offer a flexible and expressive data representation, yet their integration with ETL processes remains underexplored. This thesis investigates the construction of a Labeled Property Graph within a knowledge graph framework and its use for descriptive analysis. A review of existing literature reveals a gap in aligning ETL processes with knowledge graph transformations. To address this, the study formulates three research questions focusing on influencing factors for data pipelines [1].

Following Hevner’s Design Science Research (DSR) methodology [2], this work designs, develops, and evaluates a labeled property graph for industrial manufacturing setting. The data modeling and processing phase adopts an ontology-driven conceptual model, supporting collaborative conceptualization. Aligning graph data structures with DOLCE’s foundational ontology [3] enhances comprehension of information quality. However, data model heterogeneity introduces additional code complexity when mapping relational data to graph structures. The study further explores a data-driven control flow architecture for data pipelines, considering metadata-based code generation.

This thesis contributes to understanding heterogeneity challenges in data modeling and processing and offers insights for designing Knowledge Graph Architectures.