Entwurf und Implementierung eines adaptiven Web- Informationsextraktionssystems unter Einsatz von Large Language Models für die automatisierte Auswertung von Stelleninseraten
- Autor
- T. Hollin
- Masterarbeit
- MT2510 (Juli, 2025)
- Betreut von
- Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
- Ausgeführt an
- Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
- Ressourcen
- Kopie
Kurzfassung (Deutsch)
Die Größe des Internets wächst kontinuierlich und mit ihr die Bedeutung der darin veröffentlichten Informationen für verschiedene unternehmerische Anwendungsbereiche. Technologien wie Web-Crawling, Web-Scraping und Web-Informationsextraktion ermöglichen es, diese Inhalte systematisch zu erfassen und zentral verfügbar zu machen. Die zunehmende Komplexität moderner Webseiten, uneinheitliche HTML-Strukturen sowie dynamisch geladene Inhalte erschweren jedoch die automatisierte Verarbeitung und strukturierte Aufbereitung über mehrere Webseiten hinweg.
Ziel dieser Arbeit ist es, genau diese Herausforderungen zu adressieren und ein adaptives Web-Informationsextraktionssystem (AWIES) zu konzipieren und prototypisch zu entwickeln, das ohne Vorwissen über die Webstruktur über listenbasierte Webseiten navigieren und vordefinierte Informationsstrukturen aus Detailseiten extrahieren kann. Konkret fokussiert sich diese Arbeit auf das Finden von Stellenausschreibung auf Unternehmens-Jobportalen. Im Zentrum steht dabei die Forschungsfrage: Wie kann ein Web-Informationsextraktionssystem entworfen und implementiert werden, das Job-Plattformen ermöglicht, deutschsprachige Job-Inserate in semistrukturierten und unstrukturierten Web-Dokumenten auf Unternehmens-Jobportalen adaptiv zu identifizieren und in ein strukturiertes Format zu überführen?
Dazu wurde ein modulares System entwickelt, das sich auf zwei zentrale Komponenten konzentriert: das adaptive Web-Crawling zur Datenbeschaffung sowie der Informationsextraktion aus un- bzw. semistrukturierter Web-Dokumenten und deren strukturierte Aufbereitung. Für das erste Modul wurden verschiedene Varianten implementiert, getestet und vergleichend evaluiert.
Unter den getesteten Varianten zeigte sich, dass Künstliche Intelligenz, insbesondere große Sprach-modelle, unter der Voraussetzung einer gezielten Bereinigung und Eingrenzung der Web-Dokumente auf relevante Inhalte sehr gute Ergebnisse im Web-Crawling und der Informationsextraktion erzielen kann. Die Ergebnisse der Evaluierung belegen eine Navigationsvollständigkeit (Recall) von 0,90 sowie eine Extraktionsgenauigkeit (Präzision) von 0,981 und eine Vollständigkeit (Recall) von 0,977.
Kurzfassung (Englisch)
The size of the internet is growing continuously and with it the importance of the information published on it for various business applications. Technologies such as web crawling, web scraping and web information extraction make it possible to systematically capture this content and make it centrally available. However, the increasing complexity of modern websites, inconsistent HTML structures and dynamically loaded content make automated processing and structured preparation across multiple websites more difficult.
The aim of this thesis is to address precisely these challenges and to design and prototype an adaptive web information extraction system (AWIES) that can navigate through list-based websites and extract predefined information structures from detailed pages without prior knowledge of the web structure. Specifically, this work focuses on finding job advertisements on company job portals. The central research question is: How can a web information extraction system be designed and implemented that enables job platforms to adaptively identify German-language job advertisements in semi-structured and unstructured web documents on corporate job portals and convert them into a structured format?
A modular system was developed that focuses on two central components: the adaptive web crawling for data retrieval and information extraction from unstructured or semi-structured web documents and their structured processing. For the first module, different variants were implemented, tested and comparatively evaluated.
The tested variants showed that artificial intelligence, especially large language models, can achieve very good results in web crawling and information extraction, provided that the web documents are specifically cleansed and narrowed down to relevant content. The results of the evaluation show a navigation recall of 0.90 as well as an extration precision of 0.981 and a recall of 0.977.