News

Student tutors for the course Data Modelling wanted (winter term 2021/22)


IT-Project Data Souvereignty in winter termin 2021/22


Business Intelligence: Washing Gold in Times of Information Overload


See all news.


Campusplan

campusplan_image

You can find us here.




Kombiniertes Data Mining: Effiziente Generierung von Hilfsinformationen während des Clustering

Author: K. Stöttinger
Master Thesis: MT0403 (May, 2004)
Supervised by: o. Univ.-Prof. Dr. Michael Schrefl
Instructed by: Dipl.-Wirtsch.-Inf. Mathias Goller
Accomplished at: University Linz, Department for Business Informatics - Data & Knowledge Engineering
Resources: Copy


Abstract (English):

Some questions in Data Mining can only be solved with a combination of different Data Mining methods, like Clustering, Classification and Association. Existing works consider the combined Data Mining methods separately.

This work introduces the term of "Combined Data Mining". As a result of the "Combined Data Mining" the combined methods should be regarded as a unit. The aim is to end up in a better result, in terms of quality, interpretability and efficiency. One possibility is to generate additional information in the first method, which could be used by the second method.

Clustering and Classification will be combined within this work. Therefore the two Clustering algorithms K-Means and DBSCAN will be implemented. These algorithms are predecessors and will generate as much additional information as possible for a classification. One aim of this work is to investigate the possible further information, which could be generated in the Clustering. Another aim is the investigation of the additive effort that accrues when the additional information will be generated.

Abstract (German):

Verschiedene Fragestellungen im Data Mining können nur durch eine Kombination der verschiedenen Data Mining Verfahren, wie Clustering, Klassifikation und Assoziation, beantwortet werden. In den bestehenden Ansätzen wird die Kombination der Data Mining Verfahren losgelöst voneinander betrachtet.

Diese Arbeit führt den Begriff des "Kombinierten Data Mining" ein. Dabei werden die verwendeten Data Mining Verfahren nicht mehr isoliert betrachtet, sondern als Einheit – mit dem Ziel aus Sicht der Qualität, Interpretierbarkeit und Effizienz ein "besseres" Ergebnis zu erreichen. Eine Möglichkeit besteht darin im ersten Verfahren Hilfsinformationen zu berechnen, die im Nachfolgeverfahren Gewinn bringend verwendet werden können.

Im Rahmen dieser Arbeit werden Clustering und Klassifikation miteinander kombiniert. Dazu wird eine Implementierung der beiden Clustering-Algorithmen K-Means und DBSCAN vorgestellt, die als Vorgängerverfahren so viele Hilfsinformationen wie möglich für eine Klassifikation generieren. Untersucht werden die möglichen Hilfsinformationen, die während des Clustering erzeugt werden können, und der Mehraufwand, der durch diese Ermittlung der Hilfsinformationen, in Form einer längeren Laufzeit der Algorithmen, entsteht.