Effizientes K-Clustering: K-Centroids Clustering auf Basis von hierarchisch aggregierten Daten

Autor: D. Fürst
Masterarbeit: MT0407 (Oktober, 2004)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Dipl.-Wirtsch.-Inf. Mathias Goller
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering

Kurzfassung (Englisch)

In the world of Knowledge Discovery in Databases (KDD) exists a set of problems which can hardly be solved by following the commonly known process, for example if one tries to re-run an algorithm with different parameters. This thesis identifies such problems and justifies why a new approach in KDD is required.

This thesis introduces the new approach "Sequential Data Mining" and locates it in the commonly known process. The idea behind "Sequential Data Mining" does not deal with a single appliance of an algorithm to a dataset, but a multiple analysis of data, thereby subsequent runs benefit from the results of previous. A new algorithm which follows this concept and is able to cope with mentioned problems by generating efficient proper results is introduced. The method is able to produce the result of a K-Clustering algorithm by using an apriori aggregated representation of data, hence the title of this thesis is "Efficient K-Clustering".

The new method will be differentiated of other well known approaches and compared to them. Further the potential of the new algorithm will be validated using different tests.

Kurzfassung (Deutsch)

Es gibt Problemstellungen für die die Vorgehensweise des bekannten Prozesses der Knowledge Discovery in Databases (KDD) nur bedingt geeignet ist, beispielsweise will man ein und dasselbe Verfahren mehrmals mit verschiedenen Parametern ausführen. Diese Arbeit zeigt solche Fälle auf, und es wird begründet, warum es eines neuen Ansatzes in der Wissenschaftsdisziplin der KDD bedarf.

Es wird der zu etablierende Ansatz des "Sequentiellen Data Mining" definiert und im bestehenden Prozess eingeordnet. Die Idee des "Sequentiellen Data Mining" geht nicht von einer einmaligen Anwendung eines Verfahrens auf einen Datenbestand aus, sondern von einer mehrmaligen Untersuchung der Daten, wobei spätere Läufe von den Ergebnissen früherer profitieren. Dieser Grundidee folgend, wird ein Verfahren vorgestellt, welches für besagte Problemstellungen in der Lage ist, effizient zu einem guten Ergebnis zu gelangen. Das vorgestellte Verfahren ist in der Lage auf Basis einer apriori erstellten aggregierten Repräsentation der Daten ein Ergebnis zu liefern, das dem eines partitionierenden K-Clusterings entspricht, daher auch der Titel der vorliegenden Arbeit: "Effizientes K-Clustering".

Das Verfahren wird von bekannten abgegrenzt bzw. mit diesen verglichen. Das Potential, welches das neu entwickelte Verfahren birgt, wird anhand von Tests belegt.