Analyse von Prozessmodellen mit Hilfe von Data Mining Methoden

Autor: A. Grömer
Masterarbeit: MT0603 (September, 2006)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Dr. Mathias Goller
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering

Kurzfassung (Englisch)

Modelers of process models can construct new models faster and cheaper when re-using process models in form of process patterns. Moreover, the modeling is more objective and models can be compared with each other more easily. For identifying process patterns, manual identification is proposed in literature. However, manual identification is almost impossible when there is a large amount of process models which has to be analyzed. Therefore, this work presents a new approach that uses cluster analysis to support the identification of process patterns. The approach uses the medoid-based clustering algorithm CLARANS to group process models into clusters, whereas similar process models of one cluster share a common goal. It is easier to identify process patterns when searching only within these groups of similar process models.

In order to perform a cluster analysis and the calculation of distances, process models have to be normalized. For that purpose, different analysis services for normalization are defined. These services involve the analysis of process models regarding word, process objects, and activities. With the additional information gained by analyzing the process models, four levels of distance calculation are specified.

This work tests if the quality of cluster analysis can profit of these defined levels of distance calculation by using a set of process models of a large company. When comparing these four levels, the clustering solutions calculated at the highest level of normalization reflect the intuitive structure in the best way. Hence, this test demonstrates the usefulness of normalization. Furthermore, when comparing manual classification and cluster analysis one observes that cluster analysis leads to a remarkable saving of time without loosing accuracy in classification.

Kurzfassung (Deutsch)

Durch die Wiederverwendung von Prozessmodellen in Form von Prozessmustern können neue Prozessmodelle mit weniger Aufwand erstellt werden, die Modellierung gestaltet sich objektiver und die Vergleichbarkeit der Modelle steigt. Eine manuelle Identifikation von Prozessmustern, wie sie gegenwärtig in der Literatur vorgeschlagen wird, ist bei einer umfangreichen Prozessmodellierung jedoch kaum möglich. Im Rahmen dieser Arbeit wird daher ein neuartiger Ansatz vorgestellt, der die Clusteranalyse zur Unterstützung bei der Identifikation von Prozessmustern untersucht. Mit Hilfe des medoidbasierten Clusteralgorithmus CLARANS werden Cluster von ähnlichen Prozessmodellen gebildet, wobei die Prozessmodelle eines Clusters jeweils ein ähnliches Ziel verfolgen. In diesen Gruppen von ähnlichen Modellen können Prozessmuster schließlich einfacher identifiziert werden.

Damit eine Clusteranalyse und die dafür notwendige Distanzberechnung durchgeführt werden kann, müssen die Prozessmodelle allerdings entsprechend aufbereitet werden. Dazu werden Möglichkeiten der Aufbereitung untersucht, die die Analyse der Prozessmodelle in Bezug auf vorkommende Wörter, Prozessobjekte und Aktivitäten umfassen. Anhand dieser Zusatzinformationen wird die Distanzberechnung zwischen Modellen definiert, wobei vier Ebenen der Distanzberechnung festgelegt werden.

Um die ermittelten Ebenen der Distanzberechnung gegenüberzustellen, wird die Clusteranalyse mit ausgewählten Prozessmodellen aus dem betrieblichen Umfeld durchgeführt. Dabei wird gezeigt, dass eine entsprechende Aufbereitung sinnvoll ist, da die Clustering-Lösungen auf höchster Aufbereitungsstufe die intuitiv empfundene Struktur am besten widerspiegeln. Aufgrund eines Vergleichs mit einer manuellen Klasseneinteilung wird bei der Clusteranalyse außerdem eine erhebliche Zeitersparnis ersichtlich.