Was ist ein Data Mart?
Ein Data Mart ist ein Datenspeichersystem, das Informationen enthält, die für die Geschäftseinheit eines Unternehmens spezifisch sind. Es enthält einen kleinen und ausgewählten Teil der Daten, die das Unternehmen in einem größeren Speichersystem speichert. Unternehmen nutzen einen Data Mart, um abteilungsspezifische Informationen effizienter zu analysieren. Es bietet zusammengefasste Daten, anhand derer wichtige Stakeholder schnell fundierte Entscheidungen treffen können.
Beispielsweise kann ein Unternehmen Daten aus verschiedenen Quellen wie Lieferanteninformationen, Bestellungen, Sensordaten, Mitarbeiterinformationen und Finanzunterlagen in seinem Data Warehouse oder Data Lake speichern. Das Unternehmen speichert jedoch Informationen, die beispielsweise für die Marketingabteilung relevant sind, wie Social-Media-Bewertungen und Kundendatensätze, in einem Data Mart.
Wie verhält sich ein Data Mart im Vergleich zu anderen Arten von Datenspeichersystemen?
Unternehmen verwenden verschiedene Arten von Datenspeichersystemen für das Datenmanagement und die Analyse. Schauen wir uns einige gängige Arten der Datenspeicher an, um den Kontext zu verstehen, in dem Unternehmen Data Marts verwenden.
Datenbank
Eine Datenbank ist ein organisierter Speicher, den Computersysteme zum Speichern, Suchen, Abrufen und Analysieren von Informationen verwenden. Es gibt verschiedene Arten von Datenbanken, wie z. B. relationale Datenbanken. Eine relationale Datenbank speichert Informationen in Tabellen, die aus Zeilen und Spalten bestehen. Daten in verschiedenen Tabellen sind durch eine eindeutige Kennung verbunden, die als Schlüssel bezeichnet wird. Schlüssel sind die sich nicht wiederholenden Werte in bestimmten Spalten.
Data Mart vs. Datenbank
Ein Data Mart dient als Front-Element für die Daten einer Abteilung. Sie können einen Data Mart verwenden, um Informationen abzurufen und zu analysieren. In einer Datenbank werden Informationen gesammelt, verwaltet und gespeichert. Anschließend können Sie Tools verwenden, um die gespeicherten Informationen zu verarbeiten, zu formatieren und an einen Data Mart zu übertragen.
Data Warehouse
Ein Data Warehouse ist ein umfangreiches Datenbanksystem, das Informationen für ein ganzes Unternehmen speichert. Es sammelt Rohinformationen aus verschiedenen Quellen wie Unternehmenssoftware und Social-Media-Feeds und verarbeitet sie zu strukturierten Daten, die in einem tabellarischen Format gespeichert sind. Unternehmen können ein Enterprise Data Warehouse mit Business-Intelligence-Tools verbinden, um intelligentere Entscheidungen zu treffen.
Data Mart vs. Data Warehouse
Ein Data Mart teilt viele der Eigenschaften eines Data Warehouse. Der Unteried besteht darin, dass ein Data Warehouse unternehmensweite Daten zu verschiedenen Themen enthält. Dagegen speichert ein Data Mart Informationen, die eng mit einem bestimmten Thema zusammenhängen. In einem Data Warehouse können beispielsweise Informationen für die Abteilungen Marketing, Personalwesen, Beschaffung und Kundensupport gespeichert werden. Ein Data Mart speichert jedoch möglicherweise nur Transaktionsdaten, die für eine einzelne Abteilung relevant sind. Der Vorteil des Aufbaus eines Data Marts besteht darin, dass Abteilungen, die ihre Data Marts verwalten, die vollständige Kontrolle über das Laden und Verwalten ihrer Daten haben.
Viele Unternehmen verwenden Technologien wie Data Sharing, um ihre Data Marts in einem zentralen Data Warehouse zu veröffentlichen. Auf diese Weise werden Unternehmen agiler, indem sie die Eigentümerschaft verteilen und Workloads isolieren. Ähnlich ermöglicht die gemeinsame Nutzung von Daten es Data Marts der Abteilungen, Daten aus einem Data Warehouse oder anderen Data Marts gemeinsam zu nutzen.
Data Lake
Ein Data Lake ist ein Datenspeicher, der rohe und unstrukturierte Informationen enthält. Es speichert keine Informationen in Dateien und Ordnern. Stattdessen werden unverarbeitete Informationen in einer flachen Hierarchie in einem massivem Speicher gespeichert. Data Lakes speichern verschiedene Arten von Rohinformationen, darunter Textdokumente, Bilder, Videos und Audio.
Datenanalysten verwenden Data Lakes, um prädiktive Analysen aus unstrukturierten Daten durchzuführen. In einem Data Lake können beispielsweise Texte aus Social-Media-Bewertungen gespeichert werden, die Unternehmen für Stimmungsanalysen verwenden können. Datenanalysten können Stimmungsanalysen verwenden, um negative Meinungstrends für ein Unternehmen zu erkennen.
Data Mart vs. Data Lake
Da Data Lakes unverarbeitete Daten speichern, können einige der Informationen Duplikate sein oder für das Unternehmen nicht aussagekräftig sein. Ein Data Mart speichert verarbeitete Daten, die einen bestimmten Bedarf erfüllen. Ein Data Lake kann die Quelle eines Data Mart darstellen. Unternehmen ermitteln Datentrends, indem sie historische Daten in Data Marts betrachten, aber sie verwenden Data Lakes, um die gespeicherten Informationen tiefgreifend zu analysieren.
OLAP
Online Analytical Processing (OLAP) ist eine Methode zur Darstellung von Daten in mehreren Dimensionen. Datenanalysten verwenden beispielsweise einen OLAP-Cube, um gleichzeitig Umsatzerlöse basierend auf Monaten, Städten und Produkten anzuzeigen. OLAP-Datenstrukturen sind breit gefächert, wobei Felder entweder als Fakten oder Dimensionen klassifiziert werden und zu Datenduplikationen führen. Dies steht im Gegensatz zu herkömmlichen relationalen Datenbanken, die enge Strukturen und wenig Datenduplikation bevorzugen.
Data Mart vs. OLAP-Cube
OLAP ist eine spezifische Informationsspeicherstrategie, die Daten in breite Tabellen denormalisiert. OLAP vereinfacht komplexe Darstellungen multidimensionaler Daten. Einige Data Marts können OLAP verwenden, um ihre Informationen zu strukturieren, andere verwenden dagegen herkömmliche, normalisierte Strukturen. Geschäftsanalysten profitieren von OLAP-Strukturen, um Informationen aus einem Data Mart zu visualisieren.
Operativer Datenspeicher
Ein Operational Data Store (ODS) ist ein Informationsspeicher, der als Vermittler zwischen Datenquellen und dem Data Warehouse fungiert. Datenanalysten verwenden das ODS, um Berichte über Transaktionsdaten nahezu in Echtzeit bereitzustellen. Das ODS unterstützt einfache Abfragen und bietet nur eine begrenzte Menge an Informationen. Beispielsweise kann das ODS Verkaufsdatensätze nur für die letzten 12 Stunden speichern.
Data Mart vs. ODS
Ein Data Mart extrahiert themenorientierte Informationen aus einem Data Warehouse, ein ODS sendet dagegen Informationen zur Verarbeitung an das Data Warehouse. Data Marts bieten historische Informationen, die Sie analysieren können, ein ODS bietet dagegen eine aktualisierte Ansicht der aktuellen Vorgänge. Sie können beispielsweise einen Data Mart verwenden, um Verkaufsmuster für das vergangene Quartal zu identifizieren, stündliche Verkaufszahlenaktualisierungen erhalten Sie dagegen vom ODS.
Warum ist ein Data Mart wichtig?
Dies sind einige gute Gründe, warum Unternehmen einen Data Mart verwenden könnten.
Effizienteres Abrufen von Daten
Durch den Einsatz eines Data Marts können Unternehmen effizienter auf bestimmte Informationen zugreifen. Im Vergleich zu einem Data Warehouse enthält ein Data Mart relevante und detaillierte Informationen, auf die eine Abteilung häufig zugreift. Daher müssen Unternehmensleiter nicht das gesamte Data Warehouse durchsuchen, um Leistungsberichte oder Grafiken zu erstellen.
Rationalisierung der Entscheidungsfindung
Unternehmen können mit einem Data Mart eine Teilmenge von Daten aus einem Data Warehouse erstellen. Mitarbeiter innerhalb der Abteilung können dann die Daten analysieren und Entscheidungen auf der Grundlage derselben Informationen treffen.
Effektivere Kontrolle von Informationen
Ein Data Mart gewährt Mitarbeitern hochgradig detaillierte Zugriffsrechte. Dies bedeutet, dass das Unternehmen eine bestimmte Person autorisieren kann, bestimmte Daten anzuzeigen oder abzurufen. Es hilft Unternehmen, die Daten-Governance zu verbessern und Richtlinien für den Informationszugriff durchzusetzen. Beispielsweise können Sie Data Marts verwenden, um Mitarbeitern Benutzerzugriff auf bestimmte Informationen in einem Data Warehouse zu gewähren.
Flexibles Verwalten von Daten
Ein Data Mart ist kleiner und enthält weniger Tabellen als ein Data Warehouse. Das bedeutet, dass Data-Engineers Informationen in einem Data Mart verwalten und ändern können, ohne größere Datenbankänderungen zu verursachen.
Wie funktioniert ein Data Mart?
Ein Data Mart verwandelt Rohinformationen in strukturierte, aussagekräftige Inhalte für eine bestimmte Geschäftsabteilung. Dazu richten Data-Engineers einen Data Mart ein, um Informationen entweder aus einem Data Warehouse oder direkt aus externen Datenquellen zu erhalten.
Wenn er mit einem Data Warehouse verbunden wird, ruft der Data Mart eine Auswahl von Informationen ab, die für eine Geschäftseinheit relevant sind. Oft enthalten die Informationen zusammengefasste Daten und schließen unnötige oder detaillierte Daten aus.
ETL
Extract, Transform, Load (ETL) ist ein Prozess zum Integrieren und Übertragen von Informationen aus verschiedenen Datenquellen in eine einzige physische Datenbank. Data Marts verwenden ETL, um Informationen aus externen Quellen abzurufen, wenn sie nicht aus einem Data Warehouse stammen. Der Prozess umfasst die folgenden Schritte.
- Extrahieren: Sammeln von Rohinformationen aus verschiedenen Quellen
- Transformieren: Strukturieren der Informationen in ein gemeinsames Format
- Laden: Übertragen der verarbeiteten Daten in die Datenbank
ETL-Tools kopieren Informationen aus externen Quellen wie Tabellenkalkulationen, Apps und Textdokumenten. Der Data Mart verarbeitet, organisiert und speichert die Informationen dann in strukturierter Form.
Analytik
Geschäftsanalysten verwenden Softwaretools, um Daten aus dem Data Mart abzurufen, zu analysieren und darzustellen. Beispielsweise verwenden sie die in Data Marts gespeicherten Informationen für Business Intelligence-Analysen, Berichts-Dashboards und Cloud-Anwendungen.
Jeder Data Mart bedient eine kleine Anzahl von Benutzern. Beispielsweise haben der Marketingmanager und leitende Vermarkter Zugriff auf einen Data Mart, sodass das Erstellen von Berichten und Grafiken oder die Durchführung vorausschauender Analysen weniger Zeit in Anspruch nimmt.
Welche Arten von Data Marts gibt es?
Dies sind die verschiedenen Arten von Data Marts.
Abhängiger Data Mart
Ein abhängiger Data Mart füllt seinen Speicher mit einer Teilmenge von Informationen aus einem zentralen Data Warehouse. Das Data Warehouse sammelt alle Informationen aus Datenquellen. Anschließend fragt der Data Mart themenspezifische Informationen ab und ruft sie aus dem Data Warehouse ab.
Vor- und Nachteile
Die meisten Datenverwaltungs- und Administrationsarbeiten werden im Data Warehouse ausgeführt. Dies bedeutet, dass Geschäftsanalysten keine hochqualifizierten Kenntnisse im Datenbankmanagement benötigen, um Informationen aus dem Data Mart nutzen zu können. Obwohl abhängige Data Marts das Abrufen von Informationen erheblich erleichtern, stellen sie einen einzigen Fehlerpunkt dar. Wenn das Data Warehouse ausfällt, schlagen auch alle verbundenen Data Marts fehl.
Unabhängiger Data Mart
Ein unabhängiger Data Mart ist nicht auf ein zentrales Data Warehouse oder einen anderen Data Mart angewiesen. Jeder Data Mart sammelt Informationen aus seinen Quellen statt aus einem Data Warehouse. Unabhängige Data Marts eignen sich für kleinere Unternehmen, aber nur bestimmte Abteilungen müssen auf Informationen zugreifen und diese analysieren.
Vor- und Nachteile
Unternehmen können relativ einfach unabhängige Data Marts einrichten. Ihre Verwaltung könnte jedoch schwierig sein. Dies liegt daran, dass Geschäftsanalysten bei jedem Data Mart Datenbankverwaltungsarbeiten durchführen müssen. Es ist einfach, Daten zwischen verschiedenen Data Marts mithilfe von Strategien wie der Datenfreigabe auszutauschen. Hierbei können Abteilungen die Daten einer anderen Abteilung lesen und sie sogar mit ihren eigenen Daten erweitern. In diesem Falle muss jedoch eine robuste Datenkatalogisierungsstrategie eingeführt werden, um sicherzustellen, dass jede Abteilung weiß, worauf sich die Daten beziehen.
Hybrider Data Mart
Hybride Data Marts sammeln Informationen aus einem Data Warehouse und aus externen Quellen. Dies gibt Unternehmen die Flexibilität, unabhängige Datenquellen zu testen, bevor sie die Daten an das Data Warehouse weiterleiten.
Angenommen, Sie bringen ein neues Produkt auf den Markt und möchten dessen anfängliche Verkaufsdaten analysieren. Der Data Mart verwendet Verkaufsinformationen, die direkt aus der E-Commerce-Software stammen, und ruft Verkaufsdatensätze für andere Produkte aus dem Data Mart ab. Nachdem das Produkt zu einem festen Bestandteil Ihres Shops geworden ist, leiten Sie die Transaktionsdetails an das Data Warehouse weiter.
Was sind die Strukturen eines Data Marts?
Data Marts verwenden die folgenden Strukturen, um Informationen zu speichern und darzustellen.
Stern
Die Sternstruktur hat eine Faktentabelle in der Mitte und verzweigt sich zu mehreren Dimensionstabellen. Dadurch ergibt sich eine sternförmige Verbindung. Die Faktentabelle ist eine Datentabelle, die zusammengefasste Daten enthält, die Sie für Analysezwecke verwenden können. Dimensionstabellen führen dagegen beschreibende Informationen in einer Faktentabelle. Jede Dimensionstabelle ist mit einem Fremdschlüssel mit der Faktentabelle verknüpft. Ein Fremdschlüssel ist eine eindeutige Kennung, z. B. eine Produkt- oder Lieferanten-ID.
Eine Faktentabelle für Verkaufstransaktionen enthält beispielsweise die folgenden Spalten:
- Vertriebs-ID
- Produkt-ID
- Lieferanten-ID
- Vertriebsmenge
In einer Dimensionstabelle für Produkte werden die folgenden Informationen gespeichert:
- Produkt-ID
- Produktname
- Produktkosten
Die Tabelle mit Lieferantendimensionen enthält die folgenden Spalten:
- Lieferanten-ID
- Lieferantenname
- Stadt
Vorteile
In einer Sternstruktur ist die Dimensionstabelle denormalisiert, sodass sie nicht in zusätzliche Tabellen ausgedehnt wird. Dies bedeutet, dass die Dimensionstabelle möglicherweise redundante Daten enthält, aber die Such- und Abrufgeschwindigkeit verbessert. Sie benötigt auch weniger Platz zum Speichern von Dimensionstabellen.
Geschäftsanalysten können einen Data Mart mit Sternstruktur verwenden, um komplexe Abfragen zu vereinfachen. Wenn sie nach einem bestimmten Verkaufsdatensatz suchen, durchsucht das Datenverwaltungssystem die Faktentabelle. Wenn das Data Mart-System den richtigen Datensatz findet, verwendet es die Produkt-ID und die Lieferanten-ID, um Daten aus den entsprechenden Dimensionstabellen abzufragen.
Denormalisiert
Eine denormalisierte Struktur speichert alle zugehörigen Daten in einer einzigen Tabelle. Es gibt keine komplexen Verbindungen zwischen Faktentabellen und Dimensionstabellen. Datenanalysten verwenden einen denormalisierten Data Mart, weil er die Abfragegeschwindigkeit verbessert. Beispielsweise erfolgt eine Suche nach einem Verkaufsdatensatz in einer einzelnen denormalisierten Tabelle wie folgt:
- Vertriebs-ID
- Produkt
- Produktname
- Produktkosten
- Modellname
- Gewicht
- Größe
- Lieferant
- Lieferantenname
- Stadt
- Vertriebsmenge
Ein denormalisierter Data Mart eignet sich aufgrund seines Single-Table-Ansatzes für Echtzeitberichte. Die Denormalisierung des Data Mart führt jedoch zu Datenredundanz. Beispielsweise kann derselbe Produktname in mehreren Datensätzen vorkommen. Dies führt zu zusätzlichem Speicherplatz und teuren Implementierungskosten.
Was sind die Schritte zur Implementierung eines Data Marts?
Cloud-Data-Engineers richten einen Data Mart ein, indem sie die folgenden Schritte ausführen:
- Sie starten ihre cloudnative Datenplattform.
- Sie füllen den Data Mart mit Geschäftsdaten. Sie stellen sicher, dass die Daten das richtige Format haben und für die Geschäftsbenutzer relevant sind.
- Sie richten den Data Mart so ein, dass mehrere Benutzer auf Daten von ihm zugreifen können. Sie installieren beispielsweise ein Berichts-Dashboard im Data Mart.
- Sie überwachen, optimieren und beheben weiterhin Probleme, wenn der Data Mart ausgeführt wird.
Wie können Sie einen Data Mart auf AWS implementieren?
Unternehmen müssen steigende Datenmengen verarbeiten, die den herkömmlichen Data Mart-Speicher bis an ihre Grenzen bringen. Data Marts, die auf On-Premises-Servern installiert sind, lassen sich nur schwer skalieren. Die Cloud-Architektur bietet eine kostengünstigere, skalierbarere und besser verwaltbare Integration auf Unternehmensebene für Data Marts.
Amazon Redshift ist eine Data-Warehousing-Lösung, mit der Sie Data Marts in der Cloud implementieren können. Sie können integrierte Einblicke erhalten, indem Sie Echtzeit- und Vorhersageanalysen für komplexe, skalierte Daten aus Ihren operativen Datenbanken, Data Lake, Data Warehouse und Tausenden von Datensätzen durch Drittanbieter durchführen. Sie können auf einfache Weise automatisch Modelle für Machine Learning (ML) erstellen, trainieren und bereitstellen. Sie können Data Marts auf Amazon Redshift erstellen und diese verwenden, um intelligentere Entscheidungen zu treffen.
Amazon Redshift verfügt über einige wichtige Funktionen, die es zu einer großartigen Lösung für Ihren Data Mart machen:
- Amazon Redshift Serverless übernimmt Überlegungen zur Größe und Skalierung des Clusters für Sie.
- Aufgrund der nativen Datenfreigabe können Daten in Ihrem Data Mart auf Daten in Ihrem Data Warehouse zugreifen oder für Ihr Data Warehouse freigegeben werden.
Beginnen Sie mit den ersten Schritten mit Data Marts, indem Sie noch heute ein AWS-Konto erstellen.
Data Mart in AWS – nächste Schritte
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Beginnen Sie mit der Entwicklung in der AWS-Managementkonsole.