Using Large Language Models for Legal Decision-Making in Austrian Value-Added Tax Law: An Experimental Investigation of Retrieval-Augmented Generation and Fine-Tuning

Autor
A. Benkel
Masterarbeit
MT2507 (Mai, 2025)
Betreut von
Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
Angeleitet von
Prof. Mag. Dr. Marina Luketina, LL.M.
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Deutsch)

Die vorliegende Masterarbeit untersucht die Fähigkeit großer Sprachmodelle, juristisch fundierte Antworten auf steuerrechtliche Fragestellungen im österreichischen Umsatzsteuerrecht zu geben. Dabei werden zwei Ansätze zur Spezialisierung eines Large Language Models (LLMs) auf dieses Fachgebiet systematisch verglichen: Fine-Tuning und Retrieval-Augmented Generation (RAG), jeweils basierend auf GPT-4o. Fine-Tuning optimiert ein vortrainiertes Modell durch spezialisiertes Nachtrainieren mit umfangreichen Daten, um dessen Leistung in einem bestimmten Anwendungsbereich zu optimieren. Hierfür wurde ein Trainingsdatensatz basierend auf Beispielaufgaben aus Steuerbüchern, Prüfungsfragen und realen Fallbeispielen aufbereitet. RAG erweitert die Wissensbasis durch externe Informationen während der Inferenz. Dafür wurde eine spezialisierte Vektordatenbank mit steuerrechtlich relevanten Dokumenten erstellt, darunter das österreichische Umsatzsteuergesetz, die Binnenmarktrichtlinie und die österreichischen Umsatzsteuerrichtlinien, die semantisch durchsuchbar sind. Zur methodischen Evaluierung der beiden Ansätze wurde ein spezifischer Fragetyp aus dem Umsatzsteuergesetz herangezogen, der sich auf die Bestimmung des Liefer- bzw. Leistungsorts konzentriert. Dieser Aspekt eignet sich besonders für eine objektive Bewertung, da die korrekte Antwort stets in der eindeutigen Identifikation eines Liefer- bzw. Leistungsorts auf Länderebene sowie der rechtskonformen Begründung inklusive der relevanten Paragrafen besteht. Die Bewertung der Modellantworten erfolgte anhand einer mehrstufigen Methodik. Zunächst wurde eine automatisierte Analyse mittels Accuracy-Metrik durchgeführt, um die Präzision der ausgegebenen Länderzuschreibungen zu bestimmen. Basierend auf diesen Ergebnissen wurden gezielte Parameteranpassungen für Fine-Tuning und RAG vorgenommen, um die Modellleistung weiter zu optimieren. Die Antworten der Konfigurationen mit der höchsten Accuracy wurden anschließend einer manuellen Beurteilung durch drei Steuerrechtsexperten unterzogen. Ergänzend wurde untersucht, inwiefern diese besten Konfigurationen in der Lage sind, komplexe, reale Fragestellungen aus einer Steuerkanzlei zu beurteilen, um ihre Generalisierungsfähigkeit über das gesamte Umsatzsteuerrecht hinweg und deren Einsatzfähigkeit in der Praxis zu bewerten. Die Ergebnisse dieser Untersuchung liefern wertvolle Erkenntnisse über die Eignung von Fine-Tuning und RAG zur Domänenspezialisierung von großen Sprachmodellen im österreichischen Umsatzsteuerrecht. Sie zeigen auf, welche Vor- und Nachteile die beiden Ansätze in Bezug auf Genauigkeit, Erklärbarkeit und Anpassungsfähigkeit aufweisen. Darüber hinaus tragen die gewonnenen Erkenntnisse aus der Anwendung auf echte Steuerfälle zur Weiterentwicklung KI-gestützter steuerrechtlicher Assistenzsysteme in der Steuerberatung bei.

Kurzfassung (Englisch)

This master’s thesis examines the ability of large language models (LLMs) to provide legally sound answers to tax-related questions in Austrian value-added-tax (VAT) law. Two approaches for specializing a LLM in this domain are systematically compared: Fine-tuning and retrieval-augmented generation (RAG), both based on GPT-4o. Fine-tuning optimizes a pre-trained model by further training it with specialized data to improve its performance in a specific application domain. For this purpose, a training dataset was prepared using textbook VAT cases, exam questions, and real-world case studies. RAG enhances the knowledge base by incorporating external information during inference. For this purpose, a specialized vector database with documents related to VAT law was created, including the Austrian VAT Act, the Internal Market Regulation, and the VAT Directive of the Austrian Federal Ministry of Finance, which are semantically searchable. To methodically evaluate the two approaches, a specific type of question from the VAT Act was chosen, focusing on the determination of the place of supply or service provision. This aspect is particularly suitable for objective evaluation, as the correct answer always involves precisely identifying a supply or performance location at the country level, accompanied by a legally compliant justification, including the relevant sections of the VAT law. The evaluation of the model’s responses was carried out through a multi-step methodology. Initially, an automated analysis was performed using accuracy metrics to determine the precision of the country assignments. Based on these results, targeted parameter adjustments were made for both fine-tuning and RAG to further optimize the model’s performance. The answers from the configurations with the highest accuracy were subsequently subject to a manual assessment by three tax law experts. Furthermore, an investigation was conducted to examine how well these best-performing configurations could handle complex, real-world questions from a tax consultancy company to assess their generalization capabilities across the entire VAT law and their practical applicability. The findings of this study provide valuable insights into the suitability of fine-tuning and RAG for the domain specialization of LLMs in Austrian VAT law. They highlight the advantages and disadvantages of both approaches in terms of accuracy, explainability, and adaptability. Furthermore, the insights gained from their application to real-world VAT cases contribute to the further development of AI-assisted legal advisory systems in tax consulting.