Amazon Web Services ブログ

次世代の Amazon SageMaker と Amazon DataZone でのデータリネージの一般提供のお知らせ

12 月 3 日、2024 年 6 月のプレビューリリースに続き、Amazon DataZone でのデータリネージの一般公開についてお知らせできることを嬉しく思います。この機能は、データ、分析、AI の統合プラットフォームである次世代の Amazon SageMaker のカタログ機能の一部としても拡張されています。

従来、ビジネスアナリストはデータの出所を検証するために手作業による文書化や個人的なつながりに頼っていたため、このプロセスには一貫性がなく、時間がかかっていました。データエンジニアは、特にセルフサービス分析の採用が増えるにつれて、データアセットに対する変更の影響を評価するのに苦労してきました。さらに、データガバナンスチームは、慣行の実施やデータ移動に関する監査人の問い合わせへの対応において、困難に直面しています。

Amazon DataZone のデータリネージは、自社のデータを戦略的分析に使用することで、競争力を維持しようとする組織が直面する課題に対処します。データアセットの視覚的かつ追跡可能な履歴を提供することで、データの信頼性と検証を強化し、ビジネスアナリストが手作業で調査しなくてもデータの出所をすばやく理解できるようになります。データエンジニアにとっては、アセット間の関係を明確に示し、データフローを簡単に追跡できるため、影響分析とトラブルシューティングが容易になります。

この機能は、データ移動を包括的に把握できるようにすることで、データガバナンスとコンプライアンスの取り組みをサポートし、ガバナンスチームがコンプライアンスの問い合わせに迅速に対応して、データポリシーを適用できるようにします。これにより、データの発見と理解が深まり、消費者はデータアセットのコンテキストと関連性をより効率的に把握できるようになります。さらに、データリネージは、変更管理の改善、データリテラシーの向上、データ重複の削減、チーム間のコラボレーションの強化に役立ちます。これらの課題に取り組むことで、Amazon DataZone のデータリネージは、組織がより信頼性が高く、効率的で規制に準拠したデータエコシステムを構築することを支援し、最終的にはより効果的なデータ主導の意思決定を可能にします。

自動リネージキャプチャは、Amazon DataZone のデータリネージの主要な機能であり、AWS GlueAmazon Redshift からリネージ情報を自動的に収集してマッピングすることに重点を置いています。この自動化により、正確で最新のリネージ情報を維持するために必要な手作業を大幅に削減できます。

Amazon DataZone でデータリネージの使用を開始する
データプロデューサーとドメイン管理者は、まず AWS Glue データカタログと Amazon Redshift ソースのデータソースのジョブを Amazon DataZone で実行して、ソースカタログから定期的にメタデータを収集するように設定します。さらに、データプロデューサーは、スケジューラ、ウェアハウス、分析ツール、SQL エンジンなどの既存のパイプラインコンポーネントからの OpenLineage 互換イベントを受け入れる API を使用してカスタムリネージノードを作成し、データセット、ジョブ、実行に関するデータを直接 Amazon DataZone API エンドポイントに送信することで、プログラムでリネージ情報をハイドレイトできます。情報が送信されると、Amazon DataZone はリネージモデルの入力を開始し、それらをカタログ化済みのアセットにマッピングします。新しいリネージイベントがキャプチャされると、Amazon DataZone はキャプチャ済みのイベントのバージョンを保持するので、ユーザーは必要に応じて以前のバージョンに移動できます。

消費者の視点から見ると、リネージュは 3 つのシナリオで役立ちます。まず、アセットを閲覧しているビジネスアナリストは、Amazon DataZone ポータルにアクセスしてアセットを名前で検索し、関心のあるアセットを選択して詳細を調べることができます。まず、[ビジネスメタデータ] タブに詳細が表示され、すぐ隣のタブに移動します。リネージを表示するには、アナリストは [リネージ] タブに移動してアップストリームノードの詳細を表示し、ソースを検索できます。アナリストには、1 レベルのアップストリームとダウンストリームを使用してそのアセットのリネージが表示されます。ソースを取得するには、アナリストはアップストリームを選択し、アセットのソースにたどり着くことができます。アナリストは、これが正しいアセットであると確信したら、そのアセットをサブスクライブして、作業を続けることができます。

次に、データに関する問題が報告された場合 (ダッシュボードに顧客数の大幅な増加が予想外に表示された場合など)、データエンジニアは Amazon DataZone ポータルを使用して、関連するアセットの詳細を見つけて調べることができます。アセットの詳細ページで、データエンジニアは [リネージ] タブに移動して、対象アセットのアップストリームノードの詳細を表示します。エンジニアは、各ノードの詳細、スナップショット、各テーブルノード間の列マッピング、その間で実行されたジョブを詳しく調べたり、ジョブ実行で実行されたクエリを確認したりできます。この新しいテーブルが以前のジョブ実行のスナップショットに含まれていないことに気付いたデータエンジニアは、この情報を使用して、パイプラインに新しい入力テーブルが追加され、顧客数が増加したことを確認できます。これにより、新しいソースが追加され、ダッシュボードに表示されるデータが正確であることが明確になります。

最後に、監査人からの質問に回答したいスチュワードは、問題のアセットに移動して、そのアセットの [リネージ] タブに移動できます。スチュワードはアップストリームのグラフをたどってデータの出所を確認すると、そのデータが 2 つの異なるチーム (2 つの異なるオンプレミスデータベースなど) からのものであることを理解します。これらのチームには、パイプラインがマージされるまで独自のパイプラインがあります。スチュワードは、リネージグラフを適切に操作しながら、列を展開して、変換プロセス中に機密性の高い列が削除されるようにしたり、詳細について監査人に適時に回答したりできます。

Amazon DataZone がリネージコレクションを自動化する方法
Amazon DataZone ではリネージイベントの自動キャプチャが可能になり、データプロデューサーと管理者は AWS Glue と Amazon Redshift リソース全体にわたるデータ関係と変換の追跡を効率化できるようになりました。一部のジョブまたは接続はテスト用であり、リネージをキャプチャする必要がない場合があるため、AWS Glue と Amazon Redshift からのリネージイベントの自動キャプチャを許可するには、オプトインする必要があります。統合されたエクスペリエンスが利用できるため、サービスでは、構成設定でリネージイベントの収集と Amazon DataZone への直接送信にオプトインするオプションが提供されるようになります。

これらのイベントでは、列定義によるテーブル作成、スキーマの変更、集計やフィルタリングを含む変換クエリなど、テーブルやその他のオブジェクトに対して実行するさまざまなデータ変換操作をキャプチャする必要があります。これらのリネージイベントを処理エンジンから直接取得することで、Amazon DataZone は一貫性のある正確なデータリネージ情報の基盤を構築できます。これにより、データ作成者は、より広範なビジネスデータカタログ機能の一部として、リネージデータをさらにキュレーションできるようになります。

管理者は、組み込みの DefaultDataLake または DefaultDataWarehouse ブループリントを設定するときにリネージを有効にできます。

データプロデューサーは、データソースの実行を設定しながら、自動リネージのステータスを確認できます。

最近、次世代の Amazon SageMaker がリリースされたことで、Amazon SageMaker Unified Studio (プレビュー) のカタログ機能の 1 つとしてデータリネージを利用できるようになりました。データユーザーは接続を使用してリネージを設定できます。その構成により、プラットフォーム内のリネージのキャプチャが自動化され、すべてのユーザーがデータを参照および理解できるようになります。次世代 Amazon SageMaker のデータリネージは次のように表示されます。

今すぐご利用いただけます
この機能の使用を開始すると、データエコシステムに関するより深いインサイトが得られ、より多くの情報に基づくデータ主導の意思決定が可能になります。

データリネージは、Amazon DataZone が一般提供されているすべてのAWS リージョンでご利用いただけます。Amazon DataZone ドメインをプロビジョニングできるリージョンの一覧については、「AWS サービス (リージョン別)」にアクセスしてください。

データリネージのコストは、ストレージ使用量と API リクエストによって異なります。これらは Amazon DataZone の料金モデルに既に含まれています。詳細については、「Amazon DataZone の料金」にアクセスしてください。

Amazon DataZone のデータリネージの使用を開始するには、「Amazon DataZone ユーザーガイド」をご覧ください。

– Esra

原文はこちらです。