FedDW: A Model-Driven Approach for Querying Federations of Autonomous Data Marts

Author
S. Berger
PhD Thesis
PT0901 (2009)
Resources
Copy

Abstract (English)

In today's economy, timely access to accurate business information has become an often critical key success factor. Due to rapidly increasing processing power and storage capacity, Data Warehousing and OLAP have emerged to standard technologies in strategic business decision support. Business cooperations, mergers or acquisitions commonly entail the integration of business information among preexisting Data Marts.

The integration of analytical Data Marts poses new challenges for two reasons. First, Data Marts conform to the multi-dimensional model, which increases the expressiveness of data models for business analysts but also causes potentially more heterogeneity. Second, analytical data is often confidential. If privacy policies restrict access to sensitive data, physical integration of Data Marts with well-established techniques is out of question.

The FedDW approach introduced in this thesis provides model-driven design of Data Mart federations. FedDW provides a global "mediated", multi-dimensional schema across the analytical data stores of several autonomous and heterogeneous Data Marts. Thus, FedDW allows strategic analysts to run Business Intelligence applications over larger repositories of data across organizational boundaries, enabling better business decisions.

The advantages of FedDW are manifold. First, FedDW integrates multi-dimensional data at the logical schema level while the underlying Data Marts remain autonomous. Second, the privacy of confidential or sensitive data is ensured by FedDW's conceptual architecture. Every participating organization is entitled to decide which business Data Mart(s) to disclose within the federation. Third, FedDW is system independent because it represents all multi-dimensional schemas, data and the mappings in an internal "canonical" data model. Fourth, FedDW uses source-to-target mappings from autonomous Data Marts to the federated layer. Thus, the global schema remains stable despite possible changes of local Data Mart schemas, and the federation is easier to extend.

This thesis demonstrates the viability of the FedDW Data Mart integration approach with two prototypes. Global Schema Architect supports visual, semi-automatic integration of logical, multi-dimensional Data Mart schemas with a UML-based notation. In turn, FedDW's Query Tool transparently answers user queries against the global schema. The tool ships and reconciles local, heterogeneous Data Mart data according to the semantic matches generated with the Global Schema Architect.

Abstract (German)

Information ist längst zum wichtigsten Gut des modernen Wirtschaftssystems geworden. Um im internationalen Wettbewerb zu bestehen, sind moderne Unternehmen auf aktuelle und exakte Information als fundierte Grundlage strategischer Entscheidungen angewiesen. Analytische Informationssysteme - Data Warehousing und OLAP Technologien - sind im letzten Jahrzehnt dank immens gesteigerter Rechenleistung und SpeicherkapazitÄat von Computern zu Standardtechnologien geworden. Im Falle von Unternehmens-Zusammenschlüssen ist hingegen die Frage zu beantworten, wie die Daten aus bestehenden Data Marts effizient gemeinsam genutzt werden können.

Die Integration von Data Marts führt nicht nur angesichts sehr großer Datenmengen zu neuen Herausforderungen. Zum einen sind Data Marts nach dem multi-dimensionalen Modell entworfen, das eine ausdrucksstärkere Aufbereitung der Daten in OLAP-Anwendungen ermöglicht. Dafür steigt die Wahrscheinlichkeit, dass Fakten und Dimensionen unabhängiger Schemata heterogen sind. Zum anderen enthalten Data Marts oft vertrauliche Daten, auf die kein unbeschränkter Zugriff möglich ist. Deshalb sind bewährte Ansätze zur Integration von Datenbanken für analytische Informationssysteme unzureichend.

Diese Dissertation behandelt "FedDW", einen modell-basierten, föderierten Ansatz zur Integration von Data Marts auf logischer Schemaebene. FedDW definiert ein globales, multi-dimensionales Schema zwischen autonomen, heterogenen Data Marts. Das globale Schema steht direkt für OLAP-Anfragen der Analysten zur Verfügung. Alle Heterogenitäten zwischen den Data Marts behebt das System transparent mit Hilfe semantischer Mappings. So erweitert sich die Datenbasis für strategische Entscheidungen, ohne dass die Benutzer die heterogenen Schemata der autonomen Data Marts exakt kennen müssen.

Der FedDW-Ansatz bietet zahlreiche Vorteile. Erstens, die Integration logischer Schemata belässt bestehenden Data Mart Systemen volle Autonomie, da alle Daten in den ursprünglichen Systemen bleiben. Zweitens, die Autonomie erleichtert den Schutz sensibler Daten. Drittens konvertiert FedDW alle Daten und Metadaten in ein kanonisches Modell, um Implementierungsplattformen unterschiedlicher Hersteller zu unterstützen. Viertens, FedDW definiert semantische Mappings "von lokal zu global". Das globale Schema bleibt dadurch stabil, was die Robustheit und Erweiterbarkeit des föderierten Systems begünstigt.

Die Dissertation stellt zwei Prototypen vor, die den FedDW-Ansatz erfolgreich implementieren. "Global Schema Architect" modelliert die semantischen Mappings, basierend auf UML. Das "Query Tool" beantwortet OLAP-Anfragen im globalen Schema direkt aus den autonomen Data Marts.