Amazon Web Services ブログ
Amazon SageMaker Lakehouse の統合アクセスコントロールが Amazon Athena フェデレーションクエリで利用可能に
12 月 3 日、データ、分析、AI の統合プラットフォームである次世代の Amazon SageMaker を発表しました。Amazon SageMaker には、広く採用されている AWS の機械学習と分析機能が統合されています。中核となるのは SageMaker Unified Studio (プレビュー) です。これは、データ探索、準備と統合、ビッグデータ処理、高速 SQL 分析、モデル開発とトレーニング、生成 AI アプリケーション開発のための単一のデータおよび AI 開発環境です。この発表には、データレイクとデータウェアハウス全体のデータを統合する機能である Amazon SageMaker Lakehouse が含まれています。これにより、強力な分析や、人工知能と機械学習 (AI/ML) アプリケーションを単一のデータのコピー上で構築できます。
これらの発表に加えて、Amazon SageMaker Lakehouse のデータカタログとアクセス許可機能を発表できることを嬉しく思います。これにより、データソースへの接続、検索、アクセス権限の管理を一元的に行えるようになります。
現代の組織は、さまざまなシステムにデータを保存し、特定のユースケースや拡張要件に合わせて最適化しています。その結果、データレイク、データウェアハウス、データベース、ストリーミングサービス間でデータサイロ化が発生することがよくあります。アナリストやデータサイエンティストは、これらの多様なソースのデータに接続して分析しようとするときに、課題に直面します。データソースごとに専用のコネクターをセットアップし、複数のアクセスポリシーを管理する必要があります。また、多くの場合、データのコピーに頼る必要があり、これはコストの増加やデータの一貫性の低下につながります。
この新機能は、一般的なデータソースへの接続、カタログ化、権限の適用、データを SageMaker Lakehouse と Amazon Athena を通じて分析できるようにするプロセスを簡素化することで、これらの課題に対処します。AWS Glue データカタログは、場所に関係なく、すべてのデータソースの単一のメタデータストアとして使用できます。これにより、利用可能なすべてのデータを一元的に表示できます。
データソース接続は一度作成すれば再利用できるため、接続を繰り返し設定する必要はありません。データソースに接続すると、データベースとテーブルが自動的にカタログ化され、AWS Lake Formation に登録されます。カタログを作成したら、それらのデータベースとテーブルへのアクセスをデータアナリストに許可します。これにより、データアナリストは各データソースに接続する個別の手順を踏む必要がなく、組み込みのデータソースシークレットを把握する必要もありません。Lake Formation の権限を使用して、データレイク、データウェアハウス、オンライントランザクション処理 (OLTP) データソースにわたる、きめ細かなアクセス制御 (FGAC) ポリシーを定義できるため、Athena でクエリを実行する際に一貫した適用が可能になります。データは元の場所に残るため、コストと時間のかかるデータ転送や複製が不要になります。データカタログで既存のデータソース接続を作成または再利用し、Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Amazon Aurora、Amazon DynamoDB (プレビュー)、Google BigQuery などを含む複数のデータソースへの 組み込みコネクターを設定できます。
Athena と Lake Formation の統合を開始する
この機能を紹介するために、Amazon DynamoDB をデータソースとして組み込んだ事前設定済みの環境を使用します。機能を効果的に実証するため、適切なテーブルとデータを使用して環境をセットアップします。このデモンストレーションでは、SageMaker Unified Studio (プレビュー) インターフェイスを使用します。
まず、Amazon SageMaker ドメインを通じて SageMaker Unified Studio (プレビュー) にアクセスします。ここで、共有ワークスペースとして機能するプロジェクトを作成および管理できます。これらのプロジェクトにより、チームメンバーは共同でデータを操作し、ML モデルを開発できるようになります。プロジェクトを作成すると、AWS Glue データカタログのデータベースが自動的にセットアップされ、Redshift Managed Storage (RMS) データのカタログが確立され、必要な権限がプロビジョニングされます。
プロジェクトを管理するには、[すべてのプロジェクトを閲覧] を選択して既存のプロジェクトの包括的なリストを表示するか、[コピーを作成] を選択して新しいプロジェクトを作成できます。私は既存の 2 つのプロジェクトを使用します。管理者がすべてのデータへのフルアクセス権を持つセールスグループと、アナリストが制限されたデータアクセス権限で作業を行うマーケティングプロジェクトです。この設定は、管理者アクセスレベルと制限付きユーザーアクセスレベルの違いを効果的に示しています。
このステップでは、ターゲットデータソースである Amazon DynamoDB のフェデレーションカタログを設定します。左側のナビゲーションペインの [データ] に移動し、+ (プラス) 記号を選択して、[データを追加] を選択します。[接続を追加] を選択し、[次へ] を選択します。
[Amazon DynamoDB] を選択し、[次へ] を選択します。
詳細を入力して [データを追加] を選択します。これで、SageMaker Lakehouse で Amazon DynamoDB フェデレーションカタログが作成されました。ここで管理者はリソースポリシーを使用してアクセスを許可します。この環境では既にリソースポリシーを設定済みです。それでは、SageMaker Unified Studio (プレビュー) でのきめ細かなアクセス制御の仕組みについて説明します。
まず、管理者が顧客データを管理し、フルアクセスできる sales-group プロジェクトを選択します。このデータセットには、郵便番号、顧客 ID、電話番号などのフィールドが含まれています。このデータを分析するには、[Athena を使用してクエリ] を使用することで、クエリを実行します。
[Athena を使用してクエリ] を選択すると、クエリエディタが自動的に起動し、レイクハウスに対して SQL クエリを作成して実行できるワークスペースが表示されます。この統合クエリ環境により、データの探索と分析をシームレスに行うことができます。
第 2 部では、[marketing-project] に切り替えて、アナリストがクエリを実行したときにどのような体験をするかを表示し、きめ細かなアクセス制御許可が設定されていて機能していることを確認します。
第 2 部では、[marketing-project] 環境に切り替えて、アナリストの視点を示します。これにより、きめ細かなアクセス制御権限が適切に実装され、データアクセスが意図したとおりに効果的に制限されていることを確認できます。クエリ例を通じて、アナリストが確立されたセキュリティ管理の対象でありながら、データを操作する方法を観察できます。
[Athena を使用してクエリ] オプションを使用し、テーブルで SELECT ステートメントを実行してアクセス制御を確認します。結果から、予想どおり zipcode 列と cust_id 列しか表示できず、phone 列は設定された許可に基づき制限されたままであることを確認しました。
Amazon SageMaker Lakehouse のこれらの新しいデータカタログとアクセス許可機能により、データエコシステム全体でデータの整合性とコンプライアンスを維持しながら、データ運用の合理化、セキュリティガバナンスの強化、AI/ML 開発の加速を行うことが可能になります。
今すぐご利用いただけます
Amazon SageMaker Lakehouse のデータカタログとアクセス許可は、統合カタログに接続するときにフェデレーテッドクエリによるインタラクティブな分析を簡素化し、複数のデータソースにわたるデータカタログとアクセス権限により、データレイク、データウェアハウス、OLTP データソース全体にわたってきめ細かなセキュリティポリシーを一元的に定義して適用し、高パフォーマンスのクエリエクスペリエンスを実現します。
この機能は、米国東部 (バージニア北部)、米国西部 (オレゴン)、米国東部 (オハイオ)、欧州 (アイルランド)、アジアパシフィック (東京) の AWS リージョンでご利用いただけます。
この新機能の使用を開始するには、Amazon SageMaker Lakehouse のドキュメントをご覧ください。
原文はこちらです。