データガバナンスとは何ですか?
データガバナンスには、データがビジネスイニシアティブと運用をサポートするために適切な状態であるようにするプロセスとポリシーが含まれます。現代の組織は、運用とサービスの提供を強化するために、さまざまなソースから大規模にデータを収集します。ただし、データ駆動型の意思決定は、データが必要な質と完全性の基準を満たしている場合にのみ有効です。
データガバナンスは、データの利用に関する役割、責任、基準を決定します。どのユーザーが、どのデータに対して、どのような方法を使用して、どのような状況で、どのようなアクションを実行できるかの概要を定めます。AI と機械学習 (ML) のユースケースをサポートするために使用されるデータが増えていく中で、すべてのデータ利用において、規制と倫理の要件を満たすことが重要になっています。データガバナンスは、データセキュリティと戦術的および戦略的目標のバランスを取り、最大限の効果を実現します。
分析ガバナンスとは何ですか?
分析ガバナンスは、分析アプリケーションで使用されるデータを管理することであると同時に、分析システムの使用を管理することでもあります。分析ガバナンスチームは、分析レポートのバージョニングや文書化などのガバナンスメカニズムを確立できます。いつものように、規制要件を把握し、会社の方針を定め、組織のより広範囲にガードレールを提供してください。
データガバナンスが重要なのはなぜですか?
データガバナンスプログラムは、これまで、データの漏えいや悪用を防ぐことを目的として、サイロ内のデータをロックダウンするために使用されてきました。しかし、データがサイロ化されると、正当なユーザーは必要なときに障壁を乗り越えてデータにアクセスする必要があります。うっかりすると、データ主導のイノベーションは抑制されてしまいます。
MIT CDOIQ は、350 人の CDO、および CDO と同等の職務を対象とした 2024 年の調査で、Chief Data Officer の 45% がデータガバナンスを最優先事項として挙げていることを明らかにしました。これらのデータリーダーは、適切なコントロールを実装してデータを安全かつセキュアに保ちながら、必要なときに適切な人やアプリケーションにデータを提供できるようにするデータガバナンスフレームワークを確立したいと考えています。
アクセスとコントロールのバランスを取る
ガバナンスをイノベーションの推進要因にするには、アクセスと制御という2つの手段があります。成功の鍵は、この 2 つの間の適切なバランスを見つけることです。バランスのポイントは組織ごとに異なります。制御しすぎると、データがサイロに閉じ込められ、ユーザーは必要なときにデータにアクセスできなくなります。これは創造性を阻害するほか、データが古いままでセキュリティが確保されていないシャドー IT システムを生み出す可能性があります。対照的に、アクセスを過度に提供すると、アプリケーションやデータストア全体でデータリスクをコントロールできなくなり、不正アクセスのリスクが高まり、データの質に悪影響を及ぼします。
データガバナンスプロセスは、アクセスとコントロールのバランスを取り、ユーザーがデータを信頼し、自信をもって利用できるようにします。適切な検出、キュレーション、保護、データ共有を促進し、データを保護しながらイノベーションを促進します。
機械学習 (ML) のガバナンスとは何ですか?
ML ガバナンスは、同じデータガバナンス慣行の多くを ML に適用します。データ品質とデータ統合には、モデルのトレーニングと本番環境へのデプロイに必要なデータを提供する必要があります (特徴量ストアはその重要な側面の 1 つです)。責任ある人工知能 (AI) は、機密データをモデル構築に使用することに特に注意を払っています。その他の ML ガバナンス機能には、モデルの構築、デプロイ、監視にユーザーが参加できるようにすること、モデルのトレーニング、バージョニング、サポートされるユースケース、倫理的なモデル使用の指針を文書化すること、運用中のモデルの正確性、ドリフト、オーバーフィッティング、不適合がないかどうかを監視することが含まれます。
生成系 AI には、トレーニングや推論のための基盤モデルの適応を支援するデータの質と完全性、生成系 AI の毒性とバイアスのガバナンス、基盤モデル (FM) の運用 (FMOps) など、追加のデータガバナンス機能が必要です。
同じデータガバナンスプログラムで AI/ML をサポートできます。データを AI/ML モデルがトレーニングや本番環境の推論に使用できる形式に変換するには、データ準備が必要です。しかし、最も効率的なデータ準備は、ユーザーが行う必要のない準備です。データサイエンティストは、ユースケースごとにデータを準備するのに多くの時間を費やしています。データガバナンスチームが、この差別化されていない面倒な作業を軽減する手助けをしてくれます。さらに、データガバナンスは、AI と ML のユースケース全体で使用される形作られた特徴量ストアの作成を監督できます。
最後に、機密データを適切に保護する必要があります。そうすれば、チームは機密データが基盤モデルのトレーニングに使用されるリスクを軽減できます。
一般的なアナリティクスと同様に、構築またはカスタマイズする AI/ML モデルの使用を管理する必要があります。理想的には、これを分析ガバナンスと密接に関連させる必要があります。なぜなら、その機能はさまざまなビジネス分野をサポートする方法を知っているからです。
データガバナンスにはどのような利点がありますか?
データガバナンスは、組織全体でデータを管理するための構造化されたフレームワークを提供します。主な利点を次に示します。
データ品質を改善する
データガバナンスは、データの正確性、完全性、一貫性の基準を確立します。すべてのステークホルダーによって信頼される、関連性が高く、最新の、解釈しやすいデータが得られます。この質の高いデータにより、エラーが減り、戦略的および運用上の意思決定に役立つ正確かつ適時のインサイトが生成されます。
データ駆動型の文化をサポートする
効果的なデータガバナンス戦略は、データを重視する文化を育み、すべての従業員が仕事でデータを利用し、理解することを奨励します。ビジネスコミュニティへの参加を促し、参加するビジネス領域全体でデータ統合を促進します。データエンジニアとビジネスユーザー間の連携により、組織全体のデータリテラシーと分析能力が強化されます。
業務効率を高める
データガバナンスは、適切な運用モデル、特に必要な集中化と分散化のレベルを決定するのに役立ちます。運用を合理化する、一貫性のあるデータ管理プラクティスを確立できます。データの所有権とアクセス権が明確に定義されているため、部門間のコラボレーションが促進され、全員が信頼性の高い同じデータソースを使用して作業できるようになります。チーム間で足並みを揃えることで、重複を減らし、運用コストを削減して、生産性を高めることができます。
規制コンプライアンスをサポートする
データガバナンスフレームワークは、リスク管理に対してプロアクティブなアプローチを採用し、データプラクティスが法令や業界の規制に確実に準拠するようにします。データにアクセスしたり、データを変更したりできるユーザーに関するポリシーを一元的に定義することで、不正アクセスを防止できます。データガバナンスツールは、機密データを保護するためのプライバシー関連規制への準拠をサポートします。
データガバナンスを構築するのは誰かですか?
堅牢なデータガバナンス戦略を構築するには、多くの役割が必要です。
エグゼクティブスポンサー
組織全体でデータガバナンスの原則、標準、ポリシーを特定して確立します。また、企業のロードマップ上の多くのビジネスイニシアティブを理解しており、データガバナンス活動を推進するための優先順位を決定するのをサポートします。
データスチュワード
ビジネス部門から選出され、プロジェクトの日常的な詳細に携わっています。目的のビジネスイニシアティブで課題を引き起こす可能性があるデータの問題を理解するのに役立ちます。また、プロジェクトでデータガバナンスプロセスを実装し、データが適切に管理されるようにします。従業員と顧客のコンプライアンスをモニタリングし、問題が発生した場合はエスカレーションします。
データ所有者
誰がどのような状況でアクセスできるべきか、どのように規制を解釈して適用するか、主要な用語の定義など、データに関するポリシーを作成します。また、データセットの技術的な管理とアクセスコントロールに責任を負います。
データエンジニア
IT 部門から選出され、データの保護、さまざまなソースからのデータの統合、データ品質の管理、適切なデータの検索のために、最適なデータガバナンスツールを選択して実装します。
データガバナンスのスタイルとは何ですか?
データガバナンスプログラムは、一元化と分散化 (セルフサービスを含む) のバランスを取る必要があります。組織全体で、集中型ガバナンス、フェデレーション型ガバナンス、分散型ガバナンスが混在することになります。これもビジネス要件によって異なります。ドメイン間の一貫性 (データを相互にリンクする機能など) を維持しながら、ドメインチームにできる限り権限を与える必要があります。
中央集権型データガバナンス
ミッションステートメント、ポリシー、ツールの選択などについては、最終的に中央組織が責任を負います。ただし、日常の活動は多くの場合、基幹業務 (LOB) が担当します。
フェデレーションデータガバナンス
フェデレーションデータガバナンスにより、個々のビジネスユニットやイニシアティブがそれぞれのニーズに最も合った方法で運営できるようになります。ただし、小規模な中央集権型チームは、例えば企業全体のデータ品質ツールなど、頻繁に繰り返される問題の解決に重点的に取り組みます。
セルフサービスまたは分散型データガバナンス
各部門は、一元的なポリシーに準拠しながら、特定のプロジェクトに必要な取り組みを実行します。各プロジェクトは、他のプロジェクトのツールまたはプロセスが用途に適していれば、それらを使用します。データメッシュ (それ自体は分散型) などのトピックの人気が高まるにつれ、セルフサービスのデータガバナンスの人気も高まっています。
データガバナンスはどのような仕組みですか?
データガバナンスの実現においては、さまざまな機能にわたって、人間、プロセス、テクノロジーのソリューションが必要です。
データを大規模にキュレーションしてデータの無秩序な増加を制限
データの大規模なキュレーションとは、データベース、データレイク、データウェアハウスなど、極めて価値のあるデータソースを特定して管理することを意味します。重要なデータアセットの拡散と変換を制限できます。また、データをキュレーションするということは、適切なデータが正確かつ最新であり、ユーザーがデータ駆動型の意思決定やデータフィードアプリケーションに自信をもてるよう、機密情報が含まれていないようにすることでもあります。
機能: データ品質管理、データ統合、マスターデータ管理
コンテキストを踏まえてデータを検出および理解します。
データをコンテキストを踏まえて理解するということは、自信をもってデータを使用してビジネス価値を高めることができるるよう、すべてのユーザーがデータの意味を見出して理解できることを意味します。一元化されたデータカタログを使用すると、データを簡単に見つけたり、アクセスを要求したり、データを使用してビジネス上の意思決定を行うことができます。
機能: データプロファイリング、データ系列、データカタログ
コントロールと信頼性をもってデータを保護し、安全に共有します。
データを保護するということは、データのプライバシー、セキュリティ、アクセスの間で適切なバランスを取るということです。ビジネスユーザーとエンジニアリングユーザーの両方にとって直感的なツールを使用して、組織の境界を越えてデータアクセスを管理することが不可欠です。
機能: データライフサイクル、データコンプライアンス、データセキュリティ
ビジネスリスクを軽減し、規制コンプライアンスを改善します。
リスクを軽減するということは、そのデータが誰によってどのように使用されているかを理解することです。AWS サービスは、ML モデルを通じたアクセスを含め、データアクセスをモニタリングおよび監査して、データセキュリティと規制コンプライアンスを実現するのに役立ちます。また、機械学習には、責任ある使用とレポート作成の簡素化を実現するための監査の透明性も必要です。
機能: データと ML の使用状況の監査
データガバナンスチームをより良くするにはどうすればよいでしょうか?
効果的なデータガバナンスプログラムの鍵は、すでに資金提供されているビジネスイニシアチブに組み込むことです。これらのイニシアチブをサポートするためにどのデータドメイン、ソース、要素が必要かをチームが理解していることを確認してください。
- 対象を絞ったビジネスイニシアチブのサポートを示すデータガバナンスロードマップを作成します。次に、選択したビジネスイニシアチブ間で重複しているデータの特定を開始します。
- 鮮度やプライバシーの要件など、データをサポートしてフィードする必要のあるアプリケーションやビジネスインテリジェンスのユースケースを特定します。
- 選択した各ビジネスイニシアティブにおいて、目的に合ったデータがどのようなものかを理解します。
- データガバナンスプログラムを企業の運用モデルに組み込むことで、それを維持し、拡大することで、データの計画と実装が組織の運営において自然な流れになります。
- セルフサービスと一貫性を保つためにアナリティクスコミュニティを組織化します。
- データガバナンスと ML ガバナンスにより、人工知能 (AI) と機械学習 (ML) をサポートします。同じデータガバナンスプログラムを使用しますが、特徴量ストアや ML モデルにも拡張できます。
データガバナンスのベストプラクティスはどのようなものですか?
効果的なデータガバナンスの鍵は、既に資金投入されているビジネスイニシアティブに組み込むことです。これらのイニシアチブをサポートするためにどのデータドメイン、ソース、要素が必要かをチームが理解していることを確認してください。
- 対象を絞ったビジネスイニシアチブのサポートを示すデータガバナンスロードマップを作成します。次に、選択したビジネスイニシアチブ間で重複しているデータの特定を開始します。
- 鮮度やプライバシーの要件など、データをサポートしてフィードする必要のあるアプリケーションやビジネスインテリジェンスのユースケースを特定します。
- 選択した各ビジネスイニシアティブにおいて、目的に合ったデータがどのようなものかを理解します。
- データの計画と実装が組織の事業運営の自然な一部となるよう、ガバナンスを企業の運用モデルに組み込むことで維持および拡張します。
- セルフサービスと一貫性を保つためにアナリティクスコミュニティを組織化します。
- データガバナンスと ML ガバナンスにより、AI と 機械学習 (ML) をサポートします。同じデータガバナンスプログラムを使用しますが、特徴量ストアや ML モデルにも拡張できます。
データガバナンスは、分析、機械学習、人工知能にどのような影響をもたらしますか?
データガバナンスは、大量のデータを取り扱うユースケースで重要な役割を果たします。
分析ガバナンス
分析ガバナンスは、分析アプリケーションで使用されるデータを管理することであると同時に、分析システムの使用を管理することでもあります。分析ガバナンスチームは、分析レポートのバージョニングや文書化などのガバナンスメカニズムを確立できます。いつものように、規制要件を把握し、会社の方針を定め、組織のより広範囲にガードレールを提供してください。
AI ガバナンス
AI ガバナンスは、同じデータガバナンス慣行の多くを AI/ ML ユースケースに適用します。データ品質と統合は、モデルのトレーニングと本番デプロイに必要なデータを提供する必要があります (特徴量ストアはこの重要な側面の 1 つです)。責任ある AI は、機密データをモデル構築に使用することに特に注意を払っています。他の AI ガバナンス機能には、モデルの構築、デプロイ、モニタリングにユーザーが参加できるようにすること、モデルトレーニング、バージョニング、サポートされるユースケース、倫理的なモデル使用の指針を文書化すること、運用中のモデルの正確性、ドリフト、オーバーフィッティング、不適合がないかどうかをモニタリングすることが含まれます。
生成 AI には、トレーニングや推論のための基盤モデルの適応をサポートするデータの品質と完全性、生成 AI の毒性とバイアスのガバナンス、基盤モデル (FM) の運用 (FMOps) など、追加のデータガバナンス機能が必要です。
同じデータガバナンスプログラムで AI/ML をサポートできます。データを AI/ML モデルがトレーニングや本番の推論に使用できる形式に変換するには、データ準備が必要です。しかし、最も効率的なデータ準備は、ユーザーが行う必要のない準備です。データサイエンティストは、ユースケースごとにデータを準備するのに多くの時間を費やしています。データガバナンスチームが、この差別化されていない面倒な作業を軽減する手助けをしてくれます。さらに、データガバナンスは、AI と ML のユースケースのための、形作られた特徴量ストアの作成を監督できます。
最後に、チームが機密データを使用して基盤モデルをトレーニングする際のリスクを軽減できるよう、機密データは適切に保護される必要があります。
分析と同様に、構築またはカスタマイズする AI/ML モデルの使用を管理する必要があります。理想的には、これを分析ガバナンスと密接に関連させる必要があります。なぜなら、その機能はさまざまなビジネス分野をサポートする方法を知っているからです。
データガバナンスの主な課題にはどのようなものがありますか?
データガバナンスの極めて一般的な戦略的課題は、データガバナンスの価値を直接提案するのではなく、プログラムをビジネスイニシアティブに合わせることです。たとえば、エンドユーザーが探しているデータを簡単に見つけられるようにするという価値を提案したり、データ品質の問題を解決することの価値を提案したりできます。しかし、これらは問題を探すための解決策です。この方法では、支援すべきビジネスイニシアチブとの資金調達やスポンサーシップをめぐって競争することになります。代わりに、データガバナンスをビジネスイニシアチブをサポートするものと位置付けます。すべての主要なビジネスイニシアチブにはデータが必要です。データガバナンスは、データがビジネスイニシアティブの成功をサポートできる適切な状態にあるようにする必要があります。データガバナンスがこれらのイニシアチブをどのようにサポートしているかについての報告と監査の実践を見逃さないでください。
もう 1 つの一般的な戦略的課題は、データガバナンスの適用範囲を狭くしすぎないようにすることです。定義が狭すぎると、事業分野全体を広く視野に入れずに、プログラムを個々の事業分野やユースケースに合わせて調整することになりかねません。定義を狭めるということは、データガバナンスを 1 つまたは 2 つの機能だけで定義することを意味することにもなり得ます。たとえば、データカタログを持っていてもデータガバナンスプログラムを構成することにはなりません。
データガバナンス用の AWS サービスにはどのようなものがありますか?
AWS でのエンドツーエンドのデータガバナンスにより、組織はデータワークフローのあらゆる段階で、データの保存場所、アクセスできるユーザー、データを使用して何ができるかを制御できます。AWS を利用したデータガバナンスは、適切な人とアプリケーションが、必要なときに適切なデータを確実かつ安全に見つけてアクセスし、共有できるようにすることで、組織がデータ駆動型の意思決定を迅速に行うのに役立ちます。データ統合とデータ品質を自動化することでデータをキュレートし、データの急増を抑えることができます。データリテラシーを高める一元化されたカタログにより、データを発見して理解することができます。正確な権限でデータを保護できるため、安心してデータを共有できます。
データアクセスを監視および監査することで、リスクを軽減し、規制コンプライアンスを向上させることができます。
- Amazon DataZone – 組み込みのガバナンスで組織の枠を超えたデータ活用を実現
- AWS Glue – あらゆる規模ですべてのデータを検出、準備、統合
- AWS Lake Formation – 数日でデータレイクを構築、管理、保護
- Amazon QuickSight ハイパースケールの統合ビジネスインテリジェンス
- Amazon SageMaker – フルマネージドインフラストラクチャ、ツール、ワークフローを使用して、ユースケース向けの機械学習モデルを構築、トレーニング、デプロイ
- ML ガバナンスのウェブページ
- Amazon Bedrock – 基盤モデル (FM) を使用して生成 AI アプリケーションを構築およびスケール
- Amazon Macie - 機密データを大規模に検出および保護
- Amazon Simple Storage Service (Amazon S3) アクセスポイント – どこからでも任意の量のデータを取得できるように構築されたオブジェクトストレージ
- AWS Data Exchange – クラウド内のサードパーティーデータを簡単に検索、サブスクライブ、使用
- AWS Clean Rooms – 数分でクリーンルームを作成し、未加工データを共有せずにパートナーと共同作業を行う
AWS でのデータガバナンスを開始するには、今すぐ無料アカウントを作成してください。