A Cloud-Native Data Lakehouse Architecture for Big Knowledge Graph OLAP

Autor
D. Haunschmied
Masterarbeit
MT2201 (September, 2022)
Betreut von
Assoz.-Prof. Mag. Dr. Christoph Schütz
Angeleitet von
Bashar Ahmad, MSc
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Deutsch)

Wissensgraphen (engl. Knowledge Graphs, KGs) stellen reale Objekte und deren Beziehungen zueinander dar. KGs sind oft an bestimmte Kontexte gebunden. Dies ist im Flugverkehrsmanagement (engl. Air Traffic Management, ATM) der Fall, wo Wissen von Natur aus an einen Kontext gekoppelt ist, der aus Dimensionen wie Ort, Zeit oder Thema besteht. Diese Tatsache führte zur Entwicklung einer allgemein anwendbaren Technik namens KG-OLAP (Online Analytical Processing). KG-OLAP bietet eine mehrdimensionale Sicht auf kontextualisierte Wissensgraphen und ermöglicht kontextuelle und graphische Operationen auf dem resultierenden KG-OLAP-Würfel. Der auf GitHub veröffentlichte Proof-of-Concept-Prototyp mit GraphDB demonstriert die Funktionalität von KG-OLAP. Der Prototyp ist jedoch nicht für Big Data geeignet weshalb er nicht für datenintensive Anwendungen geeignet ist. Zum Beispiel werden alleine in Europa über zehn Milliarden RDF-Triples an ATM-Wissen jährlich generiert. Dabei ist nicht nur das Volumen ein Problem, sondern auch die Geschwindigkeit der Datengenerierung sowie die semi- und unstrukturierte Natur der ATM-Datentypen. Das Ziel dieser Arbeit ist es, eine generische Architektur vorzuschlagen und zu implementieren, die sowohl die Anforderungen von KG-OLAP als auch von Big Data erfüllt. Der erste Beitrag dieser Arbeit ist die Big KG-OLAP-Referenzarchitektur mit Prozessdefinitionen für die folgenden Hauptfunktionen: Datenaufnahme und kontextbezogene Operationen Slice’n’Dice und Merge. Der zweite Beitrag ist eine prototypische Cloud-Native-Implementierung der vorgeschlagenen Architektur, die auf Amazon Web Services bereitgestellt und anhand eines ATM Anwendungsfall demonstriert wird. Der dritte und letzte Beitrag ist eine Performanceevaluierung der Hauptfunktionen der Implementierung, um die Skalierbarkeit zu testen.

Kurzfassung (Englisch)

Knowledge graphs (KGs) represent real objects and the relationships to each other. KGs are often bound to specific contexts. This is the case in air traffic management (ATM) where knowledge is inherently coupled to a context consisting of dimensions such as a location, time or topic. This fact led to the development of a generally applicable technique called KG-OLAP (online analytical processing). KG-OLAP provides a multidimensional view on contextualized knowledge graphs and enables contextual and graph operations on the resulting KG-OLAP cube. The proof-of-concept prototype with GraphDB published on GitHub demonstrates the functionality of KG-OLAP. However, the prototype is not feasible for big data which makes is unsuitable for data-intensive applications. For example, in Europe alone, over ten billion RDF triples of ATM knowledge are generated annually. With that not only the volume is a problem but also the speed of data generation as well as the semi- and unstructured nature of ATM data types. The goal of this thesis is to propose and implement a generic architecture that meets both KG-OLAP and big data requirements. The first contribution of this thesis is the Big KG-OLAP reference architecture including process definitions for the following main functionalities: data ingestion and contextual operations Slice’n’Dice and Merge. A prototypical cloud-native implementation of the proposed architecture deployed on Amazon Web Services and demonstrated using an ATM use case. The third and last contribution is a performance evaluation of the main functionalities testing their scalability.