Kombiniertes Data Mining - Klassifikation unter Verwendung von durch Clustering gewonnenen Hilfsinformationen

Autor: M. Humer
Masterarbeit: MT0408 (November, 2004)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Dipl.-Wirtsch.-Inf. Mathias Goller
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen: Kopie

Kurzfassung (Englisch)

Problems in data mining are versatile. In some cases they can only be solved by combining different data mining methods. Existing approaches concerning a combined use of data mining methods consider that topic under an isolated point of view.

This work continues a parallel study [SK04] and further introduces the term “Combined Data Mining”. Through combination of data mining methods the result of the combined process should gain quality and efficiency by letting the used methods interact with each other. One possible way to achieve interaction is to compute additional information in a preliminary step which is used in a succeeding step.

In the course of this work clustering and classification become combined. Therefore a “decision tree classifier” is implemented, which uses by a clustering algorithm previously identified and computed additional information. Priority objective is to investigate additional information that can simply be applied to the classifier and has impact on the quality of the classifier.

Kurzfassung (Deutsch)

Die Aufgabenstellungen im Data Mining sind sehr vielseitig und können in manchen Fällen nur durch eine kombinierte Anwendung verschiedener Data-Mining-Verfahren gelöst werden. Zwar existieren bereits Ansätze, in denen unterschiedliche Verfahren hintereinander ausgeführt werden, ihre Anwendung wird jedoch unabhängig voneinander betrachtet. Diese Arbeit vertieft als Weiterführung einer parallel durchgeführten Studie [SK04] den Begriff des "Kombinierten Data Mining". Beim Kombinierten Data Mining interagieren die angewendeten Methoden miteinander. Durch diese Interaktion soll sich hinsichtlich der Qualität und/oder Effizienz eine Verbesserung gegenüber einer unabhängigen Ausführung einstellen. Dies kann z.B. durch die Weitergabe von Hilfsinformationen des vorgelagerten Verfahrens an das nachfolgende Verfahren erreicht werden.

Im Zuge dieser Arbeit werden ein Clustering- und ein Klassifikations-algorithmus miteinander kombiniert. Dazu wird ein Entscheidungsbaum-Klassifikator implementiert, der Hilfsinformationen, die in einem vorher ausgeführten Clustering identifiziert und berechnet wurden, einfließen lässt. Es soll untersucht werden, welche Hilfsinformationen sich für die Konstruktion des Klassifikators eignen und welchen Einfluss sie auf die Qualität des Klassifikators haben.