Data Mining - Vorgehensmodell zur Produktevaluation

Autor: M. Eder
Masterarbeit: MT0201 (September, 2002)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Univ.-Ass. Dr. Günter Preuner
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering

Einleitung

Seit Beginn der elektronischen Datenverarbeitung ist man bemüht Daten zu speichern und einen möglichst effizienten Zugriff darauf zu ermöglichen. In Tabelle 1 ist die Entwicklung der Datenhaltung seit den Sechzigerjahren dargestellt. Vielfach sind die Techniken auf Forschungs- und Entwicklungsarbeit einzelner Produktanbieter zurückzuführen. Vieles davon ist heute noch in Verwendung und Standard oder bildet die Basis für aktuelle Produkte.

Den Anfang der an dieser Stelle relevanten Entwicklung stellt die sogenannteData Collectiondar –hierbei handelt es sich um das Speichern von Daten auf Computern und das Sichern auf Disketten- und Bandlaufwerken. Firmen wie IBM und CDC haben in den Sechzigerjahren zu den wichtigsten Anbietern gezählt. Die damit mögliche Datenverarbeitung hat sich auf zurückblickende Datenlieferungen beschränkt. Fragestellungen wie "Wie hoch war mein Umsatz im letzten Jahr?" konnten damit beantwortet werden. Die aus derData Collectionausgelesenen Daten wurden für manuelle statistische Weiterverarbeitung, zum Beispiel Zeichnen von Diagrammen, verwendet (vgl. Tabelle 1).

Entwicklung	Fragestellung	Verfügbare Techniken	Produktanbieter	Merkmale
Data Collection (1960er)	Wie hoch war mein Umsatz im letzten Jahr?	Computer, Bänder, Disketten	IBM, CDC	Zurückblickend, statistische Datenlieferung
Data Access (1980er)	Wieviele Einheiten wurden in Italien im letzten Monat verkauft?	Relationale Datenbanken (RDBMS), SQL, ODBC	Oracle, Sybase, Informix, IBM, Microsoft	Zurückblickend, dynamische Datenlieferung (satzorientiert)
Data Warehousing und Decision Support (1990er)	Wieviel Umsatz erzielten die einzelnen Regionen in Italien in der KW27 über welchen Vertriebskanal im Vergleich zu Planumsätzen?	Online Analytical Processing (OLAP), Multidimensionale Datenbanken, data Warehouses	Pilot, Comshare, Arbor, Cognos, Oracle	Zurückblickend, dynamische Datenlieferung (multidimensional orientiert)
Data Mining (Ende 1990er)	Welche Umsätze könnten in Italien im nächsten Monat erzielt werden? Und warum?	Klassifikation, Zeitreihenmuster, Multiprozessor Computer, Data Warehouse	Pilot, Lockheed, IBM, SGI, SAS	Vorausblickend, Datenvorhersage von unbekannten Verhaltensmustern

Tabelle 1: Entwicklung Data Mining [Han96]

Relationale Datenbanken und SQL waren die herausragenden Entwicklungen in den Achtzigerjahren. Durch die Satzorientierung war nun eine zurückblickende dynamische Datenlieferung möglich. Diese Entwicklungsstufe wirdData Accessgenannt. Vor allem Firmen wie Oracle, Sybase, Informix, IBM und Microsoft haben die Entwicklungsarbeit in dieser Phase dominiert [Han96]. Durch den satzorientierten Zugriff waren nun Fragestellungen wie beispielsweise "Wieviele Einheiten wurden in Italien im letzten Monat verkauft?" möglich.

In den Neunzigerjahren ist erstmals der BegriffData Warehousingaufgetaucht. Die in diesem sich immer noch stark weiterentwickelnden Markt fallenden Produkte sind vor allem durchOnline Analytical Processing (OLAP),Multidimensionale DatenbankenundData Warehousinggeprägt. Wichtigste Weiterentwicklung für den Anwender ist die multidimensionale Orientierung, die zur Verbesserung der Vergleich- und Gegenüberstellungsmöglichkeiten von den Daten dient. Fragestellungen wie "Wieviel Umsatz erzielten die einzelnen Regionen in Italien in der KW27 über welchen Vertriebskanal im Vergleich zu Planumsätzen?" konnten durch diese Technik nun gelöst werden.

Doch nicht nur vergangenheitsbezogene Daten sind interessant, auch die Gründe, warum sie so entstanden sind, sowie eine Prognose der Zukunft sollte möglich sein. auf diese Fragen versucht man mitData Miningeine Antwort zu finden.Data Miningstellt den aktuellen Schritt in der Entwicklung dar. Auf Fragen wie "Welche Umsätze könnten in Italien im nächsten Monat erzielt werden?" und "Warum können diese Umsätze erzielt werden?" versucht man mittelsData MiningAntworten zu finden.

Im ersten Teil dieser Arbeit werden die wichtigsten Funktionen und Techniken desData Miningerläutert. Aufbauend auf die Möglichkeiten und die zur Verfügung stehenden Techniken desData Mining wird einVorgehensmodellzum Produktvergleich erarbeitet. Wichtigstes Werkzeug zur Objektivierung des Produktvergleiches ist derKriterienkatalog. Durch ein Phasenmodell soll die Selektion der Produkte aufgrund ihrer Methoden veranschaulicht werden.

Auf die beiden Produkte, die in Demoversionen vorlagen, "DBMiner 2.0" und "Polyanalyst 4.5" wird derKriterienkatalogangewandt und seine praxisorientierte Einsatzfähigkeit somit gezeigt.

Ziel dieser Arbeit ist es einVorgehensmodell zur strukturierten, objektiven Auswahlentscheidung zu liefern. Anhand eines mehrstufigen Modells soll eine effiziente und wirtschaftliche Vorgehensweise gezeigt werden, mit der man rasch die in Frage kommenden Produkte auf ein bis drei Produkte eingrenzen kann. Für die endgültige Auswahlentscheidung wird der prototypische Einsatz empfohlen, welcher nicht Teil dieser Arbeit ist.