Amazon Web Services ブログ

Amazon S3 Tables と Amazon SageMaker Lakehouse の統合の一般提供を開始

re:Invent 2024 では、表形式データの保存を大規模に効率化する組み込みの Apache Iceberg サポートを備えた初のクラウドオブジェクトストアである Amazon S3 Tables と、オープンで安全な統合データレイクハウスで分析と AI を簡素化する Amazon SageMaker Lakehouse をリリースしました。また、Amazon AthenaAmazon Data FirehoseAmazon EMRAWS GlueAmazon RedshiftAmazon QuickSight を利用して S3 Tables データをストリーミング、クエリ、視覚化できるように、Amazon Web Services (AWS) 分析サービスとの S3 Tables の統合もプレビューしました。

お客様は、Apache Iceberg ストレージの管理と最適化を簡素化したいと考えており、それが S3 Tables の開発につながりました。お客様は同時に、SageMaker Lakehouse を利用して、分析のコラボレーションとインサイトの生成を妨げるデータサイロを解消することに取り組んでいました。AWS の分析サービスとの組み込み統合に加えて、S3 Tables と SageMaker Lakehouse を組み合わせると、分析と機械学習 (ML) ワークフローの両方を可能にする複数のデータソースへのアクセスを統合する包括的なプラットフォームが得られます。

3 月 13 日、さまざまな分析エンジンとツールで S3 Tables の統合データアクセスを提供する Amazon S3 Tables と Amazon SageMaker Lakehouse の統合の一般提供の開始をお知らせします。SageMaker Lakehouse には、AWS の分析および AI/ML サービスの機能とツールを統合した単一のデータおよび AI 開発環境である Amazon SageMaker Unified Studio からアクセスできます。SageMaker Lakehouse と統合されたすべての S3 テーブルデータは、SageMaker Unified Studio や、Amazon Athena、Amazon EMR、Amazon Redshift、Apache Iceberg 互換エンジン (Apache SparkPyIceberg など) などのエンジンからクエリできます。

この統合により、S3 Tables を読み書きしたり、Amazon Redshift データウェアハウスやサードパーティーおよびフェデレーテッドデータソース (Amazon DynamoDB や PostgreSQL など) のデータと結合したりできる、安全な分析ワークフローの構築を簡素化できます。

また、S3 Tables のデータと SageMaker Lakehouse の他のデータに対するきめ細かいアクセス許可を一元的に設定および管理し、すべての分析エンジンとクエリエンジンに一貫して適用することもできます。

S3 Tables と SageMaker Lakehouse の統合の実際の動作
開始するには、Amazon S3 コンソールに移動して、ナビゲーションペインから [テーブルバケット] を選択し、[統合を有効にする] を選択して、AWS の分析サービスからテーブルバケットにアクセスします。

これで、SageMaker Lakehouse と統合するテーブルバケットを作成できます。詳細については、AWS ドキュメントの「S3 Tables の開始方法」にアクセスしてください。

1.Amazon S3 コンソールで Amazon Athena を利用してテーブルを作成する
Amazon Athena を利用して、わずか数ステップでテーブルを作成し、データを入力して、Amazon S3 コンソールから直接クエリできます。テーブルバケットを選択して [Athena でテーブルを作成] を選択するか、または既存のテーブルを選択して [Athena でテーブルをクエリ] を選択します。

2. Athena を利用してテーブルを作成する

Athena を利用してテーブルを作成する場合は、まずテーブルの名前空間を指定する必要があります。S3 テーブルバケット内の名前空間は AWS Glue のデータベースに相当し、テーブルの名前空間を Athena クエリのデータベースとして使用します。

名前空間を選択し、[Athena でテーブルを作成] を選択します。Athena コンソールの [クエリエディタ] に移動します。S3 テーブルバケット内にテーブルを作成したり、テーブル内のデータをクエリしたりできます。

2. Athena を利用してクエリする

2.SageMaker Unified Studio で SageMaker Lakehouse を利用してクエリする
SageMaker Unified Studio から直接、S3 データレイク、Redshift データウェアハウス、SageMaker Lakehouse 内のサードパーティーおよびフェデレーテッドデータソース全体の統合データにアクセスできるようになりました。

開始するには、SageMaker コンソールに移動し、サンプルプロジェクトプロファイル Data Analytics and AI-ML model development を私用して、SageMaker Unified Studio ドメインとプロジェクトを作成します。詳細については、AWS ドキュメントの「Create an Amazon SageMaker Unified Studio domain」にアクセスしてください。

プロジェクトが作成されたら、プロジェクトの概要に移動し、プロジェクトの詳細まで下方向にスクロールして、プロジェクトロールの Amazon リソース名 (ARN) を書き留めます。

3. SageMaker Unified Studio のプロジェクトの詳細

AWS Lake Formation コンソールに移動し、AWS Identity and Access Management (IAM) ユーザーとロールに許可を付与します。[プリンシパル] セクションで、前の段落で書き留めた <project role ARN> を選択します。[LF タグまたはカタログリソース] セクションで [名前付きデータカタログリソース] を選択し、[カタログ] のために作成したテーブルバケット名を選択します。詳細については、AWS ドキュメントの「Overview of Lake Formation permissions」にアクセスしてください。

4. Lake Formation コンソールで許可を付与する

SageMaker Unified Studio に戻ると、プロジェクトページの左側のナビゲーションペインにある [データ] メニューの [Lakehouse] の下にテーブルバケットプロジェクトが表示されます。[アクション] を選択すると、Amazon Athena、Amazon Redshift、または JupyterLab Notebook でテーブルバケットデータをクエリする方法を選択できます。

5. Unified Studio の S3 Tables

[Athena でクエリ]を選択すると、自動的に [クエリエディタ] に移動し、Athena を利用して S3 テーブルに対してデータクエリ言語 (DQL) およびデータ操作言語 (DML) クエリを実行します。

Athena を利用したサンプルクエリを次に示します:

select * from "s3tablecatalog/s3tables-integblog-bucket”.”proddb"."customer" limit 10;
SQL

6. Unified Studio での Athena クエリ

Amazon Redshift を利用してクエリするには、データクエリ分析のために Amazon Redshift Serverless コンピューティングリソースを設定する必要があります。その後、[Redshift でクエリ] を選択し、[クエリエディタ] で SQL を実行します。JupyterLab Notebook を利用する場合は、Amazon EMR Serverless で新しい JupyterLab スペースを作成する必要があります。

3.他のソースのデータと S3 Tables データを結合する
SageMaker Lakehouse で S3 Tables データを利用できるようになったことで、データウェアハウス、リレーショナルまたは非リレーショナルデータベースなどのオンライントランザクション処理 (OLTP) ソース、Iceberg テーブル、他のサードパーティーソースのデータと結合して、より包括的で深いインサイトを得ることができるようになりました。

例えば、Amazon DocumentDB、Amazon DynamoDB、Amazon Redshift、PostgreSQL、MySQL、Google BigQuery、Snowflake などのデータソースへの接続を追加し、抽出、変換、ロード (ETL) スクリプトを使用せずに SQL を使用してデータを結合できます。

クエリエディタで SQL クエリを実行して、S3 Tables のデータと DynamoDB のデータを結合できるようになりました。

Athena と DynamoDB を結合するサンプルクエリを次に示します:

select * from "s3tablescatalog/s3tables-integblog-bucket"."blogdb"."customer",
              "dynamodb1"."default"."customer_ddb" where cust_id=pid limit 10;
SQL

この統合の詳細については、AWS ドキュメントの「Amazon S3 Tables integration with Amazon SageMaker Lakehouse」にアクセスしてください。

今すぐご利用いただけます
S3 Tables と SageMaker Lakehouse の統合は、S3 Tables が利用可能なすべての AWS リージョンで一般提供が開始されました。詳細については、S3 Tables の製品ページSageMaker Lakehouse のページにアクセスしてください。

今すぐ SageMaker Unified Studio で S3 Tables をお試しいただき、AWS re:Post for Amazon S3 および AWS re:Post for Amazon SageMaker に、または通常の AWS サポートの連絡先を通じて、フィードバックをぜひお寄せください。

Amazon S3 のリリースの毎年恒例のお祝いとして、Amazon S3 と Amazon SageMaker のすばらしいリリースをさらにご紹介する予定です。詳細については、3 月 14 日に開催される AWS Pi Day イベントにご参加ください。

Channy

ニュースブログはいかがでしたか? こちらの 1 分間のアンケートにぜひご協力ください!

(このアンケートは外部企業に委託して行われます。AWS は、AWS プライバシー通知に記載されているとおりにお客様の情報を取り扱います。AWS は、このアンケートを通じて収集したデータを所有し、収集した情報をアンケートの回答者と共有することはありません)

原文はこちらです。