データマートとは何ですか?
データマートは、組織のビジネスユニットに固有の情報を含むデータストレージシステムです。これは、会社がより大規模なストレージシステムに格納するデータの小規模で厳選された部分を含みます。企業は、部門固有の情報をより効率的に分析するために、データマートを使用します。主要なステークホルダーが十分な情報に基づいた意思決定を迅速に行うために使用できる概要データを提供します。
例えば、企業は、サプライヤー情報、注文、センサーデータ、従業員に関する情報、財務記録など、さまざまなソースからのデータを、データウェアハウスまたはデータレイクに保存する場合があります。しかし、それらの企業は、例えば、ソーシャルメディアのレビューや顧客の記録など、マーケティング部門に関連する情報をデータマートに保存しています。
データマートは他のタイプのデータストレージシステムと比較してどのように優れていますか?
企業は、データ管理と分析のために、複数の異なるタイプのデータストレージシステムを使用しています。企業がデータマートを使用する状況を理解するために、いくつかの一般的なタイプのデータストレージを見てみましょう。
データベース
データベースは、コンピュータシステムが情報を格納、検索、取得、および分析するために使用する整理されたストレージです。リレーショナルデータベースなど、さまざまなタイプのデータベースがあります。リレーショナルデータベースは、行と列で構成されるテーブルに情報を格納します。異なるテーブルのデータは、キーと呼ばれる一意の識別子によって関係付けられます。キーは、特定の列の非反復の値です。
データマートとデータベース
データマートは、部門のデータについて、前面にある要素として機能します。 情報を取得および分析するために、データマートを使用できます。一方、データベースは、情報を収集、管理、および格納します。その後、ツールを使用して、保存された情報を処理およびフォーマットし、データマートに送信できます。
データウェアハウス
データウェアハウスは、ビジネス全体の情報を格納する広範なデータベースシステムです。ビジネスソフトウェアやソーシャルメディアフィードなど、さまざまなソースから生の情報を収集し、表形式で格納される構造化データになるように処理します。企業は、エンタープライズデータウェアハウスをビジネスインテリジェンスツールに接続して、よりスマートな意思決定を行うことができます。
データマートとデータウェアハウス
データマートは、データウェアハウスの多くの性質を共有しています。両者の違いは、データウェアハウスにはさまざまなトピックに関する企業全体のデータが含まれているということです。一方、データマートには、特定の主題に密接に関連する情報が格納されます。例えば、データウェアハウスは、マーケティング、人事、購買、およびカスタマーサポートの各部門の情報を格納する場合があります。しかし、データマートは、1 つの部門に関連する取引データのみを格納する場合があります。データマートを構築することのメリットは、データマートを管理する部門が、データのロードと管理を完全に制御できるということです。
多くの組織は、データ共有などのテクノロジーを使用して、中心的なデータウェアハウスにデータマートを公開しています。 これにより、所有権を分散して、ワークロードを分離することを通じて、俊敏性をより高めることができます。 同様に、データ共有により、部門レベルのデータマートは、データウェアハウスまたは他のデータマートから共有されたデータを消費できます。
データレイク
データレイクは、生の非構造化情報を保持するデータストレージです。これは、ファイルやフォルダに情報を格納しません。代わりに、未処理の情報を大容量ストレージのフラットな階層に格納します。データレイクは、テキストドキュメント、画像、動画、音声など、さまざまな種類の生の情報を格納します。
データアナリストは、非構造化データから予測分析を実行するために、データレイクを使用します。例えば、データレイクには、企業が感情分析に使用できるソーシャルメディアのレビューのテキストが保存されている場合があります。データアナリストは、感情分析を使用して、企業に関する否定的な意見の傾向を検出できます。
データマートとデータレイク
データレイクには未処理のデータが格納されるため、一部の情報が重複していたり、会社にとって意味のない情報が存在していたりすることがあります。一方、データマートには、特定のニーズを満たす処理済みのデータが格納されます。データレイクはデータマートのソースになる可能性があります。企業はデータマートの履歴データを見てデータの傾向を判断しますが、データレイクを使用して保存された情報を深く分析します。
OLAP
オンライン分析処理 (OLAP) は、データを複数のディメンションで表現する方法です。例えば、データアナリストは OLAP キューブを使用して、月、都市、製品に基づく売上高を同時に表示します。OLAP データ構造は広く、フィールドはファクトまたはディメンションとして分類され、データの重複が発生します。 これは、構造が狭く、データ重複がわずかであることを好む従来のリレーショナルデータベースとは対照的です。
データマートとOLAP キューブ
OLAP は、データをワイドテーブルに非正規化する特定の情報ストレージ戦略です。OLAP は、多次元データの複雑な表現を簡素化します。一部のデータマートは OLAP を使用して情報を構造化できますが、他のデータマートは従来の正規化された構造を使用します。ビジネスアナリストは、OLAP 構造の恩恵を受けて、データマートからの情報を視覚化します。
運用データストア
運用データストア (ODS) は、データソースとデータウェアハウスの間の仲介役として機能する情報ストレージです。データアナリストは ODS を使用して、トランザクションデータに関するほぼリアルタイムのレポートを提供します。ODS は単純なクエリをサポートし、限られた量の情報のみを提供します。例えば、ODS は過去 12 時間の売上記録のみを保存する場合があります。
データマートとODS
データマートはデータウェアハウスからサブジェクト指向の情報を抽出しますが、ODS は処理のためにデータウェアハウスに情報を送信します。データマートは分析可能な履歴情報を提供しますが、ODS は現在の運用の最新ビューを提供します。例えば、データマートを使用して前四半期の売上パターンを特定し、ODS から 1 時間ごとの売上高の更新を受け取ることができます。
データマートが重要なのはなぜですか?
企業がデータマートを使用する正当な理由として考えられるものをいくつか次に示します。
データをより効率的に取得する
データマートを使用することで、企業は特定の情報により効率的にアクセスできます。データウェアハウスと比較して、データマートには、部門が頻繁にアクセスする関連性のある詳細な情報が含まれています。したがって、ビジネスマネージャーは、業績報告やグラフィックスを生成するためにデータウェアハウス全体を検索する必要はありません。
意思決定を合理化する
企業は、データマートを使用してデータウェアハウスからデータのサブセットを作成できます。その後、部門内の従業員は、データを分析し、同じ一連の情報に基づいて意思決定を行うことができます。
情報をより効果的に管理する
データマートは、非常にきめ細かなアクセス権限を従業員に付与します。つまり、会社は、特定の個人に対して、特定のデータを表示または取得することを承認できます。これは、企業がデータガバナンスを改善し、情報アクセスポリシーを強制適用するのに役立ちます。例えば、データマートを使用して、データウェアハウス内の特定の情報に対するユーザーアクセス権を従業員に付与できます。
データを柔軟に管理する
データマートは、データウェアハウスよりも小規模で、含まれているテーブル数も少ないです。つまり、データエンジニアは、データベースに大きな変更を加えることなく、データマートの情報を管理および変更できます。
データマートはどのように機能しますか?
データマートは、特定のビジネス部門のために、生の情報を構造化された意味のあるコンテンツに変換します。そのために、データエンジニアは、データウェアハウスから、または外部データソースから直接情報を受け取るようにデータマートを設定します。
データウェアハウスに接続すると、データマートはビジネスユニットに関連する厳選された情報を取得します。多くの場合、情報には概要データが含まれており、不要なデータや詳細なデータは除外されます。
ETL
抽出、変換、ロード (ETL) は、さまざまなデータソースからの情報を単一の物理データベースに統合し、送信するプロセスです。データマートは、情報がデータウェアハウスからのものではない場合、ETL を使用して外部ソースから情報を取得します。このプロセスには、次のステップが含まれます。
- 抽出: さまざまなソースから生の情報を収集する
- 変換: 情報を共通の形式に構造化する
- ロード: 処理されたデータをデータベースに送信する
ETL ツールは、スプレッドシート、アプリケーション、テキストドキュメントなどの外部ソースから情報をコピーします。データマートは、情報を構造化された形式で処理、整理、および保存します。
分析
ビジネスアナリストは、ソフトウェアツールを使用して、データマートからデータを取得、分析、および表現します。例えば、データマートに保存されている情報を、ビジネスインテリジェンス分析、レポートダッシュボード、およびクラウドアプリケーションのために使用します。
各データマートは少数のユーザーにサービスを提供します。例えば、マーケティングマネージャーとシニアマーケティング担当者はデータマートにアクセスできるため、レポートやグラフを生成したり、予測分析を実行したりするのにかかる時間が短縮されます。
データマートのタイプにはどのようなものがありますか?
さまざまなタイプのデータマートを次に示します。
従属型データマート
従属型データマートは、一元化されたデータウェアハウスからの情報のサブセットをストレージに格納します。データウェアハウスは、データソースからすべての情報を収集します。その後、データマートは、データウェアハウスからサブジェクト固有の情報をクエリして取得します。
メリットとデメリット
ほとんどのデータ管理および管理作業は、データウェアハウスで実行されます。つまり、ビジネスアナリストは、データマートの情報を使用するために、データベース管理の高度なスキルを備えておく必要はありません。従属型データマートは、はるかに簡単に情報を取得できるようにしますが、単一障害点となります。データウェアハウスに障害が発生すると、接続されているすべてのデータマートにも障害が発生します。
独立型データマート
独立型データマートは、中心的なデータウェアハウスや他のデータマートに依存しません。各データマートは、データウェアハウスからではなく、そのソースから情報を収集します。独立型データマートは、小規模な事業体であって、かつ、特定の部門のみが情報にアクセスして分析する必要がある場合に適しています。
メリットとデメリット
企業は独立型データマートを比較的簡単に設定できます。しかし、それらを管理するのは難しいかもしれません。これは、ビジネスアナリストが各データマートでデータベース管理作業を行う必要があるためです。データ共有などの戦略を使用して、異なるデータマート間でデータを共有するのは簡単です。部門は別の部門のデータを読み取ったり、独自のデータでそれを補強したりすることもできます。 しかし、各部門が何を目にしているのかを確実に理解できるようにするには、強力なデータカタログ戦略を策定する必要があります。
ハイブリッドデータマート
ハイブリッドデータマートは、データウェアハウスおよび外部ソースから情報を収集します。これにより、企業はデータをデータウェアハウスに送る前に、独立データソースを柔軟にテストできます。
例えば、新製品をリリースし、その初期売上データを分析するとします。データマートは、e コマースソフトウェアから直接得られる売上情報を使用し、データマートから他の製品の売上記録を取得します。その製品が店舗に恒久的に置かれるようになったら、取引の詳細をデータウェアハウスに送ります。
データマートの構造はどのようになっていますか?
データマートは、次の構造を使用して情報を格納し、表現します。
スター
スター構造の中心にはファクトテーブルがあり、複数のディメンションテーブルに分岐します。この結果、星型に接続されることになります。ファクトテーブルは、分析の目的で使用できる概要データを含むデータテーブルです。一方、ディメンションテーブルは、ファクトテーブルに説明的な情報を保持します。各ディメンションテーブルは、外部キーを持つファクトテーブルにリンクしています。外部キーは、製品 ID やサプライヤー ID などの一意の識別子です。
例えば、販売取引のファクトテーブルには次の列が含まれます。
- 売上 ID
- 製品 ID
- サプライヤー ID
- 売上金額
製品のディメンションテーブルには、次の情報が格納されます。
- 製品 ID
- 製品名
- 製品コスト
サプライヤ分析コードテーブルには次の列が含まれます。
- サプライヤー ID
- サプライヤー名
- 市
メリット
スター構造では、ディメンションテーブルは非正規化され、追加のテーブルには拡張されません。これは、ディメンションテーブルには冗長なデータが含まれる可能性があるが、検索と取得の速度が向上することを意味します。また、ディメンションテーブルを格納する領域も少なくて済みます。
ビジネスアナリストは、スター構造のデータマートを使用して、複雑なクエリを簡単にすることができます。特定の売上記録を検索すると、データ管理システムはファクトテーブルを検索します。データマートシステムが正しいレコードを見つけると、製品 ID とサプライヤー ID を使用して、それぞれのディメンションテーブルからデータをクエリします。
非正規化
非正規化構造は、すべての関連データを 1 つのテーブルに格納します。ファクトテーブルとディメンションテーブルの間に複雑な結合はありません。データアナリストは、クエリ速度を改善するために、非正規化データマートを使用します。例えば、売上記録の検索は、次のように単一の非正規化テーブルで実行されます。
- 売上 ID
- 製品
- 製品名
- 製品コスト
- モデル名
- 重量
- サイズ
- サプライヤー
- サプライヤー名
- 市
- 売上金額
非正規化データマートは、単一テーブルアプローチのため、リアルタイムレポートに適しています。ただし、データマートを非正規化すると、データの冗長性が生じます。例えば、同じ製品名が複数のレコードで表示される場合があります。これにより、使用するストレージ領域が増大し、実装コストが高くなります。
データマートを実装するには、どのようなステップを実行する必要がありますか?
クラウドデータエンジニアは、次を実行してデータマートをセットアップします。
- クラウドネイティブのデータプラットフォームを立ち上げます。
- データマートにビジネスデータを入力します。これにより、データが正しい形式となっており、ビジネスユーザーに関連しているようにすることができます。
- 複数のユーザーがデータマートからデータにアクセスできるように、データマートを設定します。例えば、データマートにレポートダッシュボードをインストールします。
- データマートが稼働しても、問題のモニタリング、最適化、解決を継続します。
AWS でデータマートを実装するにはどうすればよいですか?
企業は、増加し続けるデータ量を処理する必要があります。これにより、従来のデータマートストレージは限界に追いやられます。オンプレミスサーバーにインストールされているデータマートは、スケールが困難です。クラウドアーキテクチャは、データマート向けに、より低コストかつスケーラブルで、管理しやすいエンタープライズレベルの統合を提供します。
Amazon Redshift は、クラウドでデータマートを実装するために使用できるデータウェアハウスソリューションです。運用データベース、データレイク、データウェアハウス、および数千に及ぶサードパーティーのデータセット全体にわたり、複雑でスケールされたデータに対してリアルタイムの予測分析を実行することによって、統合インサイトを得ることができます。機械学習 (ML) モデルを簡単かつ自動的に作成、トレーニング、デプロイできます。Amazon Redshift でデータマートを作成し、それを使用してよりスマートな意思決定を行うことができます。
Amazon Redshift がデータマートに最適なソリューションであるのは、いくつかの重要な機能があるからです。
- Amazon Redshift Serverless では、クラスターのサイズとスケールに関する考慮事項が自動的に処理されます。
- ネイティブのデータ共有により、データマート内のデータはデータウェアハウス内のデータにアクセスしたり、データウェアハウスに共有したりできます。
今すぐ AWS アカウントを作成して、データマートの使用を開始しましょう。