Automatic Construction and Incremental Maintenance of Knowledge Graphs: Encoding Employee Competencies in the Case of the Austrian Financial Market Authority

Autor
G. Lerch
Masterarbeit
MT2511 (Juli, 2025)
Betreut von
Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Deutsch)

Wissen wird für Organisationen und ihre Wettbewerbsfähigkeit im Informationszeitalter immer wichtiger. Transparenz über verfügbare Fachkräfte, Kenntnisse und Fähigkeiten unterstützt dabei den Zugriff und die Nutzung. Dies kann mit einer Wissensquellenkarte kodiert werden, deren manuelle Erstellung und Pflege jedoch kostenintensiv sind. Die praktische Anwendung liefert die österreichische Finanzmarktaufsichtsbehörde (FMA). Beschäftigte erstellen laufend Dokumente, die implizit Einsicht in ihre Kenntnisse und Fähigkeiten bieten. Das Bestreben der FMA nach interner Transparenz, im gesetzlich zulässigen Maß, kann somit durch diese unstrukturierten Texte unterstützt werden. Zugleich wird der Knowledge Graph (KG) als maschinell verarbeitbare, semantische Repräsentation in vielen akademischen und industriellen Szenarien genutzt. Hierbei bieten Large Language Models (LLMs) Potenzial zur universellen Textverarbeitung und damit Automatisierung der Erstellung und Pflege von KGs.

Das Ziel dieser Arbeit ist die Gestaltung und Entwicklung eines IT-Artefakts, das automatisch einen KG erstellt und pflegt. Dieser soll Beschäftigte und ihre Kompetenzen kodieren, Abfragen ermöglichen und die Wissenstransparenz fördern. Hierbei sind LLMs zur Textverarbeitung einzusetzen. Es gilt, angewandte Kenntnisse und Fähigkeiten aus Dokumenten zu extrahieren und deren Autorenschaft zuzuweisen. Die Methodik dieser Forschungsarbeit ist der Design Science zuzurechnen und mehrstufig. Der organisationale Fall und eine systematische Literaturrecherche wurden genutzt, um das Forschungsproblem zu entwickeln. Daraufhin wurden Anforderungen für das angestrebte IT-Artefakt abgeleitet. Folgend wurde das System mittels evolutionärem Prototyping gestaltet und entwickelt. Anschließend zeigte eine deskriptive Demonstration die Wirksamkeit des Prototyps und KGs, Teile des organisationalen Problems zu lösen. In der finalen Evaluierung wurden die initialen Anforderungen mit der Umsetzung und der Demonstration verglichen, um die Basis für zukünftige Forschung zu schaffen.

Diese Arbeit stellt einen trainingsfreien, automatischen Ansatz zur Erstellung und inkrementellen Pflege von KGs vor. Das wiederverwendbare Python-Modul namens AutoCimKG baut auf einheitlicher Textverarbeitung auf, indem vorgefertigte LLMs (z. B. GPT-4o) für mehrere Aufgaben abgefragt werden (z. B. die Extraktion von Kenntnissen und Fähigkeiten aus unstrukturiertem Text). Der erweiterbare Prototyp baut einen übergreifenden KG, der interne Fachkräfte sowie Kompetenzen kodiert und somit Zugriff und Nutzung ermöglicht (z. B. per Abfrage). Zudem ist der KG in einer Datenbank speicherbar und folglich die Basis für nachgelagerte Aufgaben (z. B. interaktive Visualisierung oder Analytics). Infolgedessen belegt diese Arbeit die Machbarkeit einer KG-basierten Wissensquellenkarte und bietet einen automatischen Ansatz für deren Erstellung und laufende Aktualisierung. Dies trägt zur Wissenstransparenz in Organisationen (z. B. der FMA) bei. Bezüglich des Forschungsstands in der Konstruktion von KGs ist AutoCimKG eine neuartige Ergänzung. Dazu tragen der übergreifende KG, die Identifizierung von Fachkräften, die leichtgewichtige Ontologie und das Metadaten-Management bei.

Die Ergebnisse und Erkenntnisse dieser Arbeit weisen Limitationen auf und erlauben aufbauende Forschung. Die vorläufige Demonstration und Evaluation limitieren die Bedeutsamkeit des Beitrags der Arbeit und erfordern eine behutsame Generalisierung. Somit ist eine fundiertere Analyse von AutoCimKG und dem erzeugten KG ratsam. Der Prototyp erzielt zudem keine durchgängige Automatisierung und sieht eine Einbettung in die organisationale IT-Infrastruktur nur vor. Daher sind dies mögliche Forschungsrichtungen. Selbiges gilt für nachgelagerte Aufgaben wie eine interaktive Visualisierung.

Kurzfassung (Englisch)

Knowledge is becoming increasingly relevant for organisations and their competitiveness in the information age. Transparency about available experts, knowledge and skills facilitates appropriate access and utilisation. This can be encoded with a knowledge source map, whose manual creation and up-keep, however, are relatively cost-intensive. The practical use case is given by the Austrian Financial Market Authority (FMA). Its employees are constantly creating documents that implicitly provide insights into their knowledge and skills. The FMA’s striving for internal transparency, at least to the extent permitted by law, can thus be supported by these unstructured texts. Simultaneously, the knowledge graph (KG), as a machine-processable, semantic representation, is used in many academic and industrial scenarios. Recently, large language models (LLMs) emerged as a promising approach for general-purpose text processing and thus for automating the construction and maintenance of KGs.

The goal of this thesis is to design and develop an IT artefact that automatically builds and updates a KG. It is supposed to encode employees and their competencies, to enable querying and to ultimately facilitate knowledge transparency. For this purpose, LLMs are to be harnessed for text processing. This aims to elicit the applied knowledge and skills inherent in the processed documents and attributable to their authors. The methodology of the design science research conducted follows a multi-stage approach. The organisational use case and a systematic literature review of related work were used to frame the research problem. Based on this, the objectives for a desired IT artefact were derived. Consequently, evolutionary prototyping was used to design and develop the information system. Then, a descriptive demonstration showed the efficacy of the developed prototype and the resulting KG to solve selected parts of the organisational problem. Finally, an evaluation contrasted the initial objectives with implementation details and the insights from the demonstration to inform subsequent work.

This thesis proposes a training-free and automatic approach for KG construction and incremental maintenance, which is called AutoCimKG and takes the form of a reusable Python module. It applies unified text processing by prompting off-the-shelf LLMs (e.g. GPT-4o) for several tasks (e.g. to elicit knowledge and skills from unstructured text). The extensible prototype yields an overall KG that encodes internal experts and their competencies, enabling access and utilisation (e.g. through querying). Moreover, the produced KG is storable in a database system, which makes it a focal point for downstream tasks (e.g. interactive visualisation or analytics). Thus, this thesis substantiates the feasibility of a KG-based knowledge source map. Moreover, it provides an approach for creating and continuously updating such a map in an automated fashion. This contributes to knowledge transparency in organisations, such as the Austrian FMA. Regarding the state of the art in KG construction, AutoCimKG positions itself as a novel addition. This is highlighted by assembling an overall KG across inputs, expert resolution, lightweight ontology processing, and comprehensive metadata management.

The results and findings of this thesis are subject to limitations and enable future work. The descriptive demonstration and lightweight evaluation limit the significance of the contribution and require cautious generalisation. Thus, a more profound review of AutoCimKG and the resulting KG is potential future work. Additionally, the prototype lacks full, end-to-end automation and only anticipates the embedment into the IT infrastructure of the organisation at hand. Therefore, this also constitutes possible future work. The same applies to downstream tasks, such as interactive visualisation or analytics.