Effizientes Clustering von horizontal verteilten Daten

Autor: S. Schaubschläger
Masterarbeit: MT0506 (Oktober, 2005)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Dipl.-Wirtsch.-Inf. Mathias Goller
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering

Kurzfassung (Englisch)

The increasing use of information technology in science, business and administration has led to the emergence of massive amounts of data. Data mining methods and techniques, such as cluster analysis, are applied in many fields to discover coherences and patterns in the data, and to deduce information from these patterns.

Due to the rise of global networking, data is more and more often distributed among different sites. The distribution of the data among several sites is complicating the access for algorithms which need to analyze the whole amount of data, like clustering methods do.

This diploma thesis addresses the field of distributed clustering and shows suitable strategies for clustering horizontally distributed data. Furthermore, the thesis examines, how clustering methods can be adapted to distributed environments in a way, that an efficient and effective clustering is guaranteed.

Moreover, it is shown, that the distribution of massive amounts of data over several sites can result in an increased scalability of clustering methods. A prototype for distributed clustering has been implemented, whose implementation aspects and test results are presented.

Kurzfassung (Deutsch)

Der zunehmende Einsatz von Informationstechnologie in Wissenschaft, Wirtschaft und Verwaltung führt zur Entstehung immer größerer Datenmengen. Um in dieser Flut an Daten Zusammenhänge zu entdecken und daraus relevante Informationen abzuleiten, werden Methoden und Techniken des Data Mining, wie beispielsweise die Clusteranalyse, bereits in vielen Bereichen angewendet.

Durch die zunehmende globale Vernetzung sind Datenbestände jedoch immer häufiger auf unterschiedliche Standorte verteilt. Eine derartige Verteilung der zu analysierenden Daten verkompliziert die Zugriffsmöglichkeiten für Algorithmen, die den gesamten Datenbestand auswerten, wie dies etwa beim Clustering der Fall ist.

Diese Diplomarbeit behandelt das Clustering von horizontal verteilten Daten und zeigt geeignete Strategien auf, mit denen ein verteiltes Clustering ermöglicht werden kann. Weiters wird untersucht, wie bestehende Clusteringverfahren an eine verteilte Umgebung angepasst werden können, so dass ein effizientes und effektives Clustering von verteilten Datenbeständen ermöglicht wird.

Die Arbeit verdeutlicht außerdem, dass durch eine Verteilung eines Datenbestandes auf mehrere Netzknoten die Skalierbarkeit von Clusteringverfahren gesteigert werden kann. Dazu wurde ein Prototyp eines verteilten Clusteringverfahrens erstellt, dessen Implementierung und Testergebnisse in dieser Arbeit vorgestellt werden.