Analysis Process Modeling Notation For Business Intelligence (APMN4BI)

Autor
T. Neuböck
Dissertation
PT2201 (2022)
Ressourcen
Kopie

Kurzfassung

In vielen Unternehmen und Organisationen stellt Business Intelligence (BI) einen etablierten Unternehmensbereich dar, der eine unverzichtbare Basis zur Entscheidungsfindung (sowohl strategische als auch operative Entscheidungen) bereitstellt. Die Business Analystin bzw. der Business Analyst untersucht Daten, die in einem Data Warehouse gesammelt und integriert sind. Unter der Nutzung von Fachwissen durchläuft sie oder er einen Analyseprozess, um Informationen für eine effektive und effiziente Entscheidungsfindung zu erhalten. Ein Analyseprozess kann als Folge von Abfragen betrachtet werden, die schrittweise ausgeführt werden. Der Unterschied zwischen zwei Abfragen ergibt den interessanten Teil, warum ein(e) Business Analyst(in) von einer zur nächsten Abfrage geht. In diesem Prozessfluss stellt der Vergleich ein wichtiges Steuerungsmittel dar.

Konzeptuelle Modelle sind Modelle, die einem Anwendungsgebiet am nächsten kommen. In der BI können die zu analysierenden Informationen konzeptuell als dimensionale Faktenmodelle (DFM) dargestellt werden. Es gibt aber keine BI-spezifische Notation zur Modellierung der Analyseprozesse der Business Analyst(inn)en, die als auf Fachwissen basierte Navigation durch die mit einem DFM spezifizierten Daten betrachtet werden kann. In diesem Sinne steht die Aussage „Navigation ist Wissen“, welches pro-aktiv modelliert werden sollte. Mit diesem Hintergrund können folgende Erfordernisse identifiziert werden: (1) Es gibt einen Bedarf an einer konzeptuellen Modellierungssprache, um Analyseprozesse in der BI spezifizieren zu können. Die Notation muss es ermöglichen, Analyseprozesse von Business Analyst(inn)en und Fachexpert(inn)en zu dokumentieren, so dass verstecktes Fachwissen sichtbar gemacht wird. (2) Die Analyseprozessmodelle müssen als Basis zur automatisierten Abfragegenerierung und -ausführung dienen. Eine Semi-Automatisierung von Analyseprozessen ist zur schnellen Entscheidungsfindung erforderlich.

Diese Dissertation spezifiziert eine Notation zur Modellierung von Analyseprozessen für Business Intelligence: Analysis Process Modeling Notation for Business Intelligence (APMN4BI). APMN4BI stellt die mittlere Schicht (Analyseprozessebene) von drei Modellierungsebenen dar. Diese Schicht greift auf die Datenschicht (die Ebene unterhalb der Analyseprozessebene) zu, die multi-dimensionale Würfel beinhaltet, welche mit DFM spezifiziert werden. Abfrageergebnisse der Analyseprozessebene werden in die Visualisierungs- und Aktionsschicht (die Ebene oberhalb der Analyseprozessebene) transferiert.

APMN4BI ist eine grafische Modellierungssprache, welche die Definition von BI Analysegraphen bereitstellt, die Analyseprozesse auf Schemaebene spezifizieren. Die Prozessausführung erfolgt auf Instanzebene. Ein BI Analysegraph ist ein gerichteter Graph, der Analysesituationen als Knoten und Navigationsoperationen als Kanten enthalt. Analysesituationen stellen multidimensionale Abfragen dar, die auf einer erweiterten Form eines DFM basieren, welches auch Prädikaten- und Kennzahlenhierarchien beinhaltet. Eine vergleichende Analysesituation ermöglicht das Modellieren von Vergleichen (eine Hauptaktivität in Analyseprozessen). Sie verknüpft zwei Analysesituationen (Interessenskontext und Vergleichskontext) und stellt beide über eine Score-Definition in Beziehung. Ein Navigationsoperator repräsentiert einen Analyseschritt, der zwei Analysesituationen (Quellanalysesituation und Zielanalysesituation) verbindet. Er nimmt die Information der Quelle, führt – abhängig vom Operator selbst und seinen Parametern – Änderungen durch und transferiert die resultierende Information an das Ziel. Der semantische Unterschied zwischen beiden Analysesituationen wird sichtbar. Variablen können verwendet werden, um Benutzereingaben zur Ausführungszeit zu erzwingen. Navigationswächter bieten zusätzliche Steuerungsmöglichkeiten im Analyseprozess. Eine zusammengesetzte Analysesituation wird verwendet, um Analysesituationen zu gruppieren, die in einem Zuge instanziiert werden.

Die Ausführung von APMN4BI-Modellen basiert auf relationalen Datenbankschemen. DFMs werden als Sternenschemen umgesetzt, angereichert um zusätzliche Metadaten. Nach optionaler Benutzereingabe (umgesetzt über Variablen) werden Analysesituationen in SQL-Abfragen übersetzt, die ausgeführt werden können (Instanziierung von Analysesituationen). In diesem Kontext kann eine Navigationsoperation als eine Abfragetransformation betrachtet werden.

Zur Evaluierung der vorliegenden Arbeit werden verwandte Ansätze mit APMN4BI verglichen, insbesondere hinsichtlich Ausdrucksstärke. Zweitens werden reale Analyseaufgaben für Fallstudien herangezogen, um die Verwendbarkeit der Modellierungsnotation zu beurteilen und die Abfragegenerierung und -ausführung zu demonstrieren.

Abstract

In many companies and organizations, business intelligence (BI) is now well-established, providing an indispensable basis for decision making (strategic as well as operational decisions). The business analyst explores data collected and integrated in data warehouses. By applying expert knowledge, they perform an analysis process to obtain interesting information for effective and efficient decision making. An analysis process can be considered as a sequence of queries that are executed step by step. The difference between two queries represents the interesting part why a business analyst navigates from a query to the next one. In this process flow, comparison is an important means of control.

Conceptual models are models closest to an application area. In BI, the information to be analyzed can be presented conceptually by dimensional fact models (DFMs). But there is no BI specific notation for modeling the analysis processes of business analysts that can be considered as an expert-knowledge based navigation through the data specified by a DFM. In this sense, one can say “navigation is knowledge” that should be modeled proactively. With this background, one can identify the following needs: (1) There is a need for a conceptual modeling language to specify analysis processes in BI. The notation must allow to document analysis processes of business analysts and subject matter experts such that tacit expert knowledge is made visible. (2) Analysis process models must serve as a basis to automate query generation and execution. A semi-automation of analysis processes is required for rapid decision making.

This thesis specifies an Analysis Process Modeling Notation for Business Intelligence (APMN4BI). APMN4BI represents the middle tier (the analysis process layer) of three model layers. This layer accesses the data layer (the layer below the analysis process layer) that contains multi-dimensional cubes which are specified by DFM’s. Query results of the analysis process layer are transferred to the visualization and action layer (the layer above the analysis process layer).

APMN4BI is a graphical modeling language that provides the definition of BI analysis graphs which specify analysis processes at schema level. Process execution is performed at instance level. A BI analysis graph is a directed graph that comprises analysis situations as nodes and navigation operations as arcs. Analysis situations represent multi-dimensional queries based on an extended form of a DFM that also includes predicate and measure hierarchies. A comparative analysis situation allows to model comparison (a main activity in analysis processes). It joins two analysis situations (a context of interest and a context of comparison) and relates both by a score definition. A navigation operator represents an analysis step that links two analysis situations (source analysis situation and target analysis situation). It takes the information from the source, performs modifications depending on the operator itself and its parameters, and transfers the resulting information to the target. The semantic difference between both connected analysis situations becomes visible. Variables can be used to force user input at execution time. Navigation Guards provide additional control options for the analysis process. A composite analysis situation is used to group analysis situations that have to be instantiated at once.

The execution of APMN4BI models is based on relational database schemas. DFMs are realized as relational star schemas enriched by additional metadata. After optional user input (implemented by variables), analysis situations are translated into SQL queries that can be executed (instantiation of analysis situations). In this context, a navigation operation can be considered as a query transformation.

To evaluate the contributions, related approaches are compared with APMN4BI, especially with respect to expressivity. Second, real analysis tasks are used for case studies to assess the usability of the modeling notation, and to demonstrate query generation and execution.