News

Student tutors for the course Data Modelling wanted (winter term 2021/22)


IT-Project Data Souvereignty in winter termin 2021/22


Business Intelligence: Washing Gold in Times of Information Overload


See all news.


Campusplan

campusplan_image

You can find us here.




Theory and Implementation of Anticipatory Data Mining

Author: M. Goller
PhD Thesis: PT0601 (2006)
Resources: Copy


Abstract (English):

Analysing data with data mining techniques needs much time – especially, if the data set that is analysed is very large.

Data mining is an important phase in theknowledge discovery in databasesprocess (KDDprocess). Yet, it is only a part of theKDDprocess. Improving data mining also improve theKDDprocess but the improvement can be minor because improving data mining affects only a single phase of a set of phases. Other phases such as the pre-processing phase contribute much to the total time of aKDDproject. Commonly, it is necessary to iterate the phases pre-preprocessing and data mining before the result of the data mining phase satisfy the analyst's requirements. Again, repeating phases also worsens the performance of total project time.

This dissertation presents a new method to improve performance and quality of theKDDprocess. The idea is to pre-compute intermediate results which depend on no specific setting of any analysis. When the specific setting of an analysis becomes clear, the data mining system can compute the final result of that analysis using the intermediate results.

Abstract (German):

Das Analysieren von Daten mit Hilfe von Data Mining-Methoden ist ein sehr zeitaufwändiger Prozess, besonders dann, wenn die untersuchte Datenmenge sehr groß ist.

Data Mining ist eine wichtige Phase desKnowledge Discovery in Databases-Prozesses (KDD-Prozess), jedoch nur ein Teil des  Prozesses. Verbesserungen der Data Mining-Phase tragen nur teilweise zur Verbesserung des Gesamtprozesses bei, da beispielsweise die Vorbereitungsphase nach wie vor zu langen Prozesslaufzeiten führt. Häufig müssen Vorbereitungsphase und Data Mining-Phase wiederholt werden bis die Ergebnisse der Data Mining-Phase zufriedenstellend sind, was sich wiederum negativ auf die Durchlaufzeit auswirkt.

In dieser Dissertation wird ein neues Verfahren zur Steigerung der Performanz und Qualität des KDD-Prozesses vorgestellt. Die Verbesserung beruht auf das Vorbereiten von Zwischenergebnissen, die von keiner konkreten Aufgabenstellung abhängen. Liegt später eine konkrete Aufgabenstellung vor, kann das Ergebnis dieser Aufgabenstellung aus diesen Zwischenergebnissen berechnet werden.