Data-Vault-Diagramm
Ein Data-Vault-Diagramm ist ein Stereotyp des Entity-Relationship-Diagramms. Es dient der Modellierung von Objektinformationen im Data-Warehouse und deren Beziehungen.
Data-Vault-Diagramme erstellen Sie komfortabel mit dem bewährten Modellierungstool von MID.
Innovator Enterprise Modeling Suite kostenlos testen.
Definition
Ein Data-Vault-Diagramm ist ein auf der Entity-Relationship-Notation beruhendes Diagramm zur grafischen Darstellung (Modellierung) von Objektinformationen im Data-Warehouse und deren Beziehungen. Sie erstellen damit ein normalisiertes redundanzfreies Modell Ihrer Datenobjekte.
Das Symbol zeigt ein Diagramm mit einer symbolischen Linkentität.
Verwendung
Data Vault ist eine Modellierungstechnik für Data-Warehouse, die eine hohe Flexibilität bei Erweiterungen und eine vollständige Historisierung der Daten bietet. Sie erlaubt eine starke Parallelisierung der Datenladeprozesse. Die Data-Vault-Modellierung wurde seit 1990 von Daniel Linstedt entwickelt und 2000 erstmals veröffentlicht. Sie ist eine Kombination aus der relationalen Datenbankmodellierung mit der dritten Normalform (3NF) und dem Sternschema.
Bei der Modellierung werden alle zu einem Objekt gehörenden Informationen in drei Kategorien eingeteilt und strikt voneinander getrennt.
-
Hub
Informationen, die ein Objekt eindeutig beschreiben, d. h. seine Identität
-
Link
Beziehungen zwischen den Objekten
-
Satellit
Attribute, die ein Objekt (Hub) oder eine Objektbeziehung (Link) beschreiben
Methodisch bietet der Data-Vault-Standard viele Vorteile, von der hohen Flexibilität bei Erweiterungen, einer vollständigen Historisierung der Daten bis hin zur starken Parallelisierung der Datenladeprozesse für Ihr Data-Warehouse. Durch die Standardisierung lässt sich das Vorgehen schnell auf unterschiedliche Projekte übertragen und hervorragend automatisieren.
Die zulässigen Notationen der Data-Vault-Diagramme werden in den Anzeigeoptionen konfiguriert und im Diagramm angeboten.
Innovator bietet für Data-Vault-Diagramme folgende Diagrammnotationen an:
-
Chen
Notation nach Peter Pin-Shan Chen mit (min,max)-Kardinalitäten
-
DSA
Notation gemäß Datenstrukturanalyse
-
James Martin
Notation nach James Martin, Bachmann und Odell (auch "Krähenfußnotation" genannt)
-
SERM
Notation gemäß der Strukturierten Entity-Relationship-Modellierung von Prof. Dr. Elmar J. Sinz
-
UML
Notation gemäß der Unified Modeling Language
-
IDEF1X
Notation gemäß IDEF1X-Standard (U.S.-Behördenstandard FIPS 184)
Der Hauptunterschied dieser Notationen ist die Darstellung der Beziehungen, deren Kardinalitäten mit unterschiedlichen Grafiksymbolen oder formalen Texten an unterschiedlichen Positionen abgebildet werden. Die SERM-Notation ordnet die Entitäten quasihierarchisch von links nach rechts an.
Achtung
Die SERM-Notation ändert die Anordnung derjenigen Knoten im Diagramm, die bisher nicht SERM-konform angeordnet waren.
Lesendes Öffnen erzeugt diese SERM-Anordnung temporär, sie wird nicht gespeichert.
Elemente des Data-Vault-Diagramms
Knoten
Die folgenden Modellelemente können als Knoten in Data-Vault-Diagrammen dargestellt werden.
Symbol | Element | Beschreibung |
---|---|---|
Hubentität |
Eine Hubentität beschreibt ein Kernobjekt der Geschäftslogik (z.B. Produkt), das in der Regel sehr stabil ist, was zur Langlebigkeit des Datenmodells beiträgt. Ein Hub wird verwendet, um einen Geschäftsschlüssel zu speichern, der sich auch aus mehreren Schlüsseln zusammensetzen kann. Ein Hub enthält keine Fremdschlüssel. Ein Geschäftsschlüssel ist ein Objekt, welches von Benutzern eines Systems, von Geschäftsprozessen und von Programmen verwendet wird, um Geschäftsobjekte aufzufinden, zu identifizieren oder Zusammenhänge zwischen Geschäftsobjekten zu finden. |
|
Linkentität |
Eine Linkentität stellt die Beziehungen zwischen den Geschäftsobjekten dar, z.B. zwischen Kunde und Produkt. Ein Link stellt die Existenz einer Geschäftsbeziehung dar. Diese Geschäftsbeziehung muss immer einzigartig, spezifisch und anhand von Geschäftsregeln nachvollziehbar sein. Ein Link wird immer als eigene Entität dargestellt, und enthält weder Geschäftsschlüssel, noch beschreibende Daten, da hierfür Hubs bzw. Satelliten verwendet werden. |
|
Satellitenentität |
In der Satellitenentität werden alle Informationen gespeichert, die die Hubentität oder die Linkentität beschreiben. Ein Satellit ist ein Objekt, welches weder einen Primär- noch einen Geschäftsschlüssel enthält. Im Satelliten werden alle Informationen gespeichert, welche das Geschäftsobjekt (Hub) oder eine Geschäftsbeziehung (Link) beschreiben. Dies geschieht je nachdem, ob der Satellit mit einem Hub oder einem Link verknüpft wird. |
|
Point-in-time-Tabelle |
Point-in-Time (PIT) Tabellen dienen als eine Art Assistent, um im Datenmodell schneller auf bestimmte Hubs oder Satelliten zugreifen zu können. PIT-Tabellen sollten nur eingesetzt werden, wenn keine Performance-Probleme zu erwarten sind, weil sie für die grundsätzliche Funktion des Datenmodells nicht notwendig sind. PIT-Tabellen können den Geschäftsschlüssel eines Hubs enthalten. Dies kann sinnvoll sein, um nicht wieder auf den Hub selbst zugreifen zu müssen. Eine Point-in-Time Tabelle ist immer einem Hub und seinen zugehörigen Satelliten zugeordnet und sollte nicht für mehrere Hubs und Links eingesetzt werden. |
|
Brückentabelle |
Brückentabellen (engl. bridge table) sind den PIT-Tabellen sehr ähnlich und verfolgen ebenfalls das Ziel, Abfragen an das System und das System selber zu beschleunigen. Der Unterschied zur PIT-Tabelle liegt darin, das eine Brückentabelle für die Verbindung mehrerer Hubs gedacht ist. Sie ist sozusagen eine andere Form eines Links. In einer Brückentabelle sollten sich, wie in einer PIT-Tabelle, keine Informationen aus einem Satelliten befinden. Jedoch kann eine Brückentabelle mehrere Schlüssel aus Hubs oder Links enthalten. Es ist notwendig, alle Sitzungsschlüssel der verbundenen Hubs und Links in der Brückentabelle aufzuführen, um die Zugriffe auf die Hub- und Link-Entitäten zu ermöglichen. |
Kanten
Kanten stellen in Data-Vault-Diagrammen die Beziehungen (Relationship) zwischen den Dimensionsebenen dar.
Symbol | Element | Beschreibung |
---|---|---|
1:1 | Jede Entität der ersten Entitätsmenge steht mit genau einer Entität der zweiten Entitätsmenge in Beziehung, und umgekehrt. | |
1:C |
Jede Entität der ersten Entitätsmenge kann mit höchstens einer Entität der zweiten Entitätsmenge in Beziehung stehen. Jede Entität der zweiten Entitätsmenge steht mit genau einer Entität der ersten Entitätsmenge in Beziehung. |
|
1:M |
Jede Entität der ersten Entitätsmenge kann mit mindestens einer Entität der zweiten Entitätsmenge in Beziehung stehen. Jede Entität der zweiten Entitätsmenge steht mit genau einer Entität der ersten Entitätsmenge in Beziehung. |
|
1:MC |
Jede Entität der ersten Entitätsmenge kann mit beliebig vielen Entitäten der zweiten Entitätsmenge in Beziehung stehen. Jede Entität der zweiten Entitätsmenge steht mit genau einer Entität der ersten Entitätsmenge in Beziehung. |
|
C:C | Jede Entität der ersten Entitätsmenge kann mit höchstens einer Entität der zweiten Entitätsmenge in Beziehung stehen, und umgekehrt. | |
C:M |
Jede Entität der ersten Entitätsmenge steht mit mindestens einer Entität der zweiten Entitätsmenge in Beziehung. Jede Entität der zweiten Entitätsmenge kann mit höchstens einer Entität der ersten Entitätsmenge in Beziehung stehen. |
|
C:MC |
Jede Entität der ersten Entitätsmenge kann mit beliebig vielen Entitäten der zweiten Entitätsmenge in Beziehung stehen. Jede Entität der zweiten Entitätsmenge kann mit höchstens einer Entität der ersten Entitätsmenge in Beziehung stehen. |
|
ER-Fremdschlüssel | Legt zu einer geeigneten Beziehung einen Fremdschlüssel innerhalb von Entitäten oder R-Typen an. |