Glue を選ぶ理由
AWS Glue を使用すると、クローラー (データの検出) と抽出、変換、ロード (ETL) ジョブ (データの処理とロード) に対して時間あたりの料金が秒単位で課金されます。AWS Glue データカタログの場合、メタデータの保存とアクセスに対して簡略化された月額料金のみがかかります。最初の 100 万個のオブジェクトの保存と最初の 100 万回のアクセスは無料です。ETL コードをインタラクティブに開発するために開発エンドポイントをプロビジョニングする場合は、時間あたりの料金がかかり、秒単位で課金されます。AWS Glue DataBrew の場合、インタラクティブセッションはセッションごとに請求され、DataBrew ジョブは 1 分ごとに請求されます。AWS Glue Schema レジストリは追加料金なしでご利用いただけます。
注: 料金は AWS リージョンによって異なります。
-
ETL ジョブおよびインタラクティブセッション
-
データカタログ
-
クローラー
-
DataBrew インタラクティブセッション
-
DataBrew ジョブ
-
データ品質
-
ゼロ ETL
-
ETL ジョブおよびインタラクティブセッション
-
料金の例
ETL ジョブ: AWS Glue Apache Spark ジョブが 15 分実行され、6 DPU を使用したとします。1 DPU-時間あたりの料金は 0.44 USD です。ジョブは 15 分間実行され、6 DPU が使用されたため、AWS は 6 DPU * 0.25 時間 * 0.44 USD、つまり 0.66 USD を請求します。
AWS Glue Studio Job Notebooks とインタラクティブセッション: AWS Glue Studio でノートブックを使用して、インタラクティブに ETL コードを開発するとします。インタラクティブセッションは、デフォルトで 5 DPU です。1 DPU-時間あたりの料金は 0.44 USD です。セッションを 24 分間実行し続けると、5 DPU * 0.4 時間 * 0.44 USD = 0.88 USD が課金されます。
-
データカタログ
-
AWS Glue データカタログは、Amazon S3、Amazon Redshift、サードパーティーのデータソースなど、さまざまなデータソースにわたるすべてのデータアセットのための、一元化された技術的なメタデータリポジトリです。データカタログには、データ、分析、AI 用の Amazon SageMaker Lakehouse からアクセスできます。カタログ、データベース、テーブルとしてデータを整理し、Amazon Redshift、Amazon Athena、Amazon EMR からクエリするための統合インターフェイスを提供します。データカタログの AWS Lake Formation 機能を使用すると、AWS でデータガバナンスを一元化できます。きめ細かなデータ許可と使い慣れたデータベーススタイルの機能を使用して、データアセットを管理します。
データカタログを使用する場合、テーブルメタデータの保存とアクセス、およびテーブル統計とテーブル最適化を計算するデータ処理ジョブの実行について料金が発生します。
メタデータの料金
データカタログを使用すると、最大 100 万個のメタデータオブジェクトを無料で保存できます。100 万個を超えるメタデータオブジェクトを保存する場合、100 万個を超えた 100,000 個のオブジェクトごとに 1.00 USD/月が課金されます。データカタログのメタデータオブジェクトには、テーブル、テーブルバージョン、パーティション、パーテーションインデックス、統計、データベース、カタログがあります。
テーブルのメンテナンスと統計
データカタログは、Amazon S3 オブジェクトストレージの Apache Iceberg テーブルについてマネージド圧縮を提供し、複数の小さなオブジェクトをいくつかの大きなオブジェクトに圧縮して、Amazon Redshift、Athena、Amazon EMR、AWS Glue ETL ジョブなどの AWS 分析サービスによる読み取りパフォーマンスを改善します。テーブルの圧縮に使用されるデータ処理ユニット (DPU) の数に基づいて時間あたりの料金が発生します。1 データ処理ユニット (DPU) は 4 vCPU と 16 GB のメモリを提供します。1 秒単位で課金され、最も近い秒単位に切り上げられます。実行あたりの最小期間は 1 分間です。
また、データカタログは、AWS Glue テーブルの列レベルのテーブル統計もサポートしています。これらの統計は、Athena および Amazon Redshift データレイククエリコストベースオプティマイザー (CBO) と統合されるため、クエリのパフォーマンスが改善し、コスト削減につながる可能性があります。
最適化
- Apache Iceberg テーブルの最適化には 0.44 USD/DPU-時間かかり、1 秒単位で課金され、1 分間分の最低料金がかかります。
統計:
- 統計の生成は 0.44 USD/DPU-時間であり、1 秒単位で請求され、1 分間分の最低料金がかかります。
追加の使用とコスト
ストレージ
データカタログを使用すると、Amazon S3 と Amazon Redshift でテーブルを作成および管理できます。テーブルストレージには、それぞれ Amazon S3 または Amazon Redshift の標準料金が課金されます。データカタログには追加のストレージ料金はかかりません。
1.Amazon S3 にデータを保存する場合、ストレージ、リクエスト、データ転送について Amazon S3 の標準料金が課金されます。詳細については、Amazon S3 の料金をご覧ください。2.Amazon Redshift にデータを保存する場合、ストレージについて Amazon Redshift の標準料金が課金されます。詳細については、「Amazon Redshift の料金」にアクセスしてください。
コンピューティング
Amazon EMR、AWS Glue、Athena、またはオープンソースもしくはサードパーティーの Apache Iceberg 互換エンジンから Amazon Redshift テーブルにアクセスする場合、コンピューティングリソースのためにサービスマネージド Amazon Redshift Serverless ワークグループが使用されます。Amazon Redshift Serverless マネージドワークグループはテーブル結果をフィルタリングするために使用され、お客様は、使用したコンピューティングリソースについて Amazon Redshift Serverless の標準料金に基づいて課金されます。Amazon Redshift を使用して Amazon Redshift に保存されたテーブルをクエリする場合、別途料金はかかりません。詳細については、Amazon Redshift の料金にアクセスしてください。
Lake Formation の許可
Lake Formation はデータカタログと統合し、タグベースまたは名前ベースのアクセスコントロールとアカウント間の共有を使用して、データベース、テーブル、列、行、セルレベルの許可を提供します。Lake Formation 許可を作成したり、統合 AWS サービスで Lake Formation 許可を使用したりする場合、別途料金はかかりません。
料金の例
AWS 無料利用枠のデータカタログ: ある月に、データカタログに 100 万件のメタデータオブジェクトを保存し、これらのテーブルにアクセスするために 100 万件のメタデータリクエストを実行したとします。この使用は AWS Glue データカタログの無料利用枠の対象となるため、支払いは 0 USD です。最初の 100 万個のメタデータオブジェクトの保存と毎月 100 万回のメタデータリクエストを無料で実行できます。
データカタログのスタンダード階層: ここで、メタデータストレージの使用量は 1 か月あたり 100 万個のメタデータオブジェクトで変わりませんが、リクエストは 2 倍となり、1 か月あたり 200 万件のメタデータリクエストになったとします。例えば、クローラーを使用して新しいテーブルを検索し、30 分間実行して 2 DPU を消費するとします。
最初の 100 万個のメタデータオブジェクトの保存が無料であるため、ストレージコストは 0 USD のままです。最初の 100 万回のリクエストも無料です。データカタログ無料利用枠を超える 100 万回のリクエストについて 1 USD が課金されます。
他のサービスでのデータカタログの使用:
例えば、SageMaker Lakehouse で Athena SQL を使用して Amazon Redshift のテーブルをクエリする場合、次の料金が発生します: Amazon Redshift におけるテーブルの保存 (Amazon Redshift の標準料金に基づく)、データカタログに対して実行されたメタデータリクエスト (データカタログリクエストの標準料金に基づく)、データカタログで、カタログ、データベース、およびテーブルのメタデータを保存するためのメタデータストレージ、Amazon Redshift テーブルの結果のフィルタリングについての Amazon Redshift Serverless RPU-時間 (1 秒あたりの課金、最低料金は 60 秒)、Athena クエリによってスキャンされたバイト数 (最も近い MB に丸められ、クエリデータごとに最小 10 MB (Athena の標準料金を使用))。
Amazon EMR Serverless を使用して Amazon Redshift のテーブルをクエリする別のシナリオでは、次の料金が発生します: Amazon Redshift におけるテーブルの保存 (Amazon Redshift の標準料金に基づく)、データカタログに対して実行されたメタデータリクエスト (データカタログリクエストの標準料金に基づく)、データカタログで、カタログ、データベース、およびテーブルのメタデータを保存するためのメタデータストレージ、Amazon Redshift テーブルの結果のフィルタリングについての Amazon Redshift Serverless RPU-時間 (1 秒あたりの課金、最低料金は 60 秒)、Amazon EMR アプリケーションでワーカーが消費した vCPU、メモリ、およびストレージリソースの量。
Amazon Redshift Serverless を使用して Amazon S3 オブジェクトストレージの Apache Iceberg テーブルをクエリする別のシナリオでは、次の料金が発生します: Amazon S3 における Apache Iceberg テーブルの保存 (Amazon S3 の標準料金に基づく)、データカタログに対して実行されたメタデータリクエスト (データカタログリクエストの標準料金に基づく)、データカタログで、カタログ、データベース、およびテーブルのメタデータを保存するためのメタデータストレージ、コンピューティング時間 (RPU 時間) (Amazon Redshift の標準料金に基づく)。
AWS Glue クローラーは 0.44 USD/DPU-時間で課金されるため、2 DPU * 0.5 時間 (0.44 USD/DPU-時間)、つまり 0.44 USD をお支払いいただきます。
AWS Glue テーブルの統計を生成し、統計実行に 10 分かかり、1 DPU を消費する場合、1 DPU * 0.1666 時間 * 0.44 USD /DPU-時間、つまり 0.07 USD が課金されます。
Amazon S3 オブジェクトストレージに保存されている Apache Iceberg テーブルを圧縮し、その圧縮が 30 分間実行され、2 DPU が消費された場合、2 DPU * 0.5 時間 * 0.44 USD/DPU-時間 = 0.44 USD が請求されます。
- Apache Iceberg テーブルの最適化には 0.44 USD/DPU-時間かかり、1 秒単位で課金され、1 分間分の最低料金がかかります。
-
クローラー
-
-
DataBrew インタラクティブセッション
-
料金の例
AWS Glue DataBrew: 30 分のインタラクティブセッションごとに請求される料金は 1.00 USD です。午前 9 時にセッションを開始してすぐにコンソールを離れ、午前 9 時 20 分から午前 9 時 30 分に戻る場合は、1 セッション利用で合計 1.00 USD になります。
午前 9 時にセッションを開始し、午前 9 時 50 分まで DataBrew コンソールを操作し、DataBrew プロジェクトスペースを出て、午前 10 時 15 分 に最後の操作をするために戻る場合、これは 3 セッションを使用することになり、1 セッションあたり 1 USD、合計 3 USD が請求されます。
-
DataBrew ジョブ
-
料金の例
AWS Glue DataBrew: DataBrew ジョブが 10 分間実行され、5 つの DataBrew ノードを消費する場合、料金は 0.40 USD です。ジョブは 6 分の 1 時間実行して 5 個のノードを消費したため、ノード時間あたり 0.48 USD × 5 ノード × 1/6 時間、合計 0.40 USD が請求されます。
-
データ品質
-
AWS Glue Data Quality は、高いデータ品質を実現することで、データに対する信頼性を高めます。データレイクやパイプラインのデータ品質を自動的に測定、モニタリング、管理し、欠損や陳腐化したデータ、不良データの特定を容易にします。
データカタログや AWS Glue Studio、AWS Glue API からデータ品質機能にアクセスすることができます。
データカタログにカタログ化されたデータセットのデータ品質を管理するための料金:データカタログからデータセットを選択し、レコメンデーションを生成できます。このアクションは、データ処理ユニット (DPU) をプロビジョニングするためのレコメンデーションタスクを作成します。レコメンデーションを受けたら、ルールを修正したり、新たに追加してスケジュールを組むことができます。これらのタスクはデータ品質タスクと呼ばれ、これに対して DPU をプロビジョニングします。最低 2 つの DPU が必要で、最低請求期間は 1 分です。
AWS Glue ETL で処理されるデータセットのデータ品質を管理するための料金:また、データ品質チェックを ETL ジョブに追加することで、不良データがデータレイクに入るのを防ぐことができます。これらのデータ品質ルールは ETL ジョブ内に存在するため、実行時間の増加や DPU の消費量の増加を招きます。また、SLA の影響を受けないワークロードにはフレキシブル実行を使用できます。
AWS Glue ETL で異常を検出するための料金:
異常検出:
異常検出にかかる時間には、ETL ジョブ DPU に加えて、統計ごとに 1 DPU が発生します。1 つの統計情報の異常を検出するには、平均で 10~20 秒かかります。2 つのルール (ルール 1: データ量は 1000 レコード以上、ルール 2: カラム数は 10 以上) と 1 つのアナライザー (アナライザー 1: カラムの完全性を監視) を設定したとします。この設定では、行数、列数、列の完成率という 3 つの統計情報が生成されます。異常の検出にかかる時間 (最低 1 秒) に対して、追加で 3 つの DPU が課金されます。詳細については、例 4 を参照してください。
再トレーニング:
異常検出アルゴリズムが後続の異常を正確に予測できるように、異常なジョブ実行や統計情報を除外したい場合があります。そのために、AWS Glue では統計を除外または含めることができます。再トレーニングにかかる時間に対して、モデルの再トレーニングに 1 DPU がかかります。 再トレーニングには、統計ごとに平均で 10 秒から 20 分かかります。詳細については、例 5 を参照してください。
統計ストレージ:
収集された統計情報を保存しても料金はかかりません。アカウントあたりの統計情報数は 10 万件に制限されており、2 年間保存されます。
追加料金:
AWS Glue は、Amazon Simple Storage Service (Amazon S3) から直接データを処理します。AWS Glue でデータを読み込む際、追加のストレージ料金は発生しません。ストレージ、リクエスト、データ転送に対して Amazon S3 の標準料金が発生します。お客様の設定に基づき、一時ファイル、データ品質結果、シャッフルファイルは、お客様が選択した S3 バケットに保存され、S3 の標準料金で課金もされます。
データカタログを使用する場合は、標準のデータカタログのレートで課金されます。詳細は、[データカタログの保存と要求] タブを選択してください。
料金の例
例 1 - データカタログにあるテーブルのレコメンデーションを取得する例えば、5 つの DPU を持つ推薦タスクが 10 分で完了する場合を考えてみましょう。5 DPU × 1/6 時間 × 0.44 USD、つまり 0.37 USD を支払うことになります。
例 2 - データカタログのテーブルのデータ品質を評価するレコメンデーションを確認した後、必要に応じて編集し、DPU をプロビジョニングしてデータ品質タスクをスケジュールすることができます。例えば、5 つの DPU を持つデータ品質評価タスクが 20 分で完了する場合を考えてみましょう。
5 DPU × 1/3 時間 × 0.44 USD で 0.73 USD を支払うことになります。
例 3 - AWS Glue ETL ジョブのデータ品質を評価するまた、これらのデータ品質チェックを AWS Glue の ETL ジョブに追加することで、不良データがデータレイクに入るのを防ぐことができます。AWS Glue Studio 上で Data Quality Transform を追加するか、AWS Glue Studio のノートブックでオーサリングするコード内で AWS Glue API を使用することで実現できます。パイプライン内でデータ品質ルールが設定されているところで実行される AWS Glue ジョブが、6 DPU で 20 分 (1/3時間) 実行される場合を考えてみましょう。6 DPU × 1/3 時間 × 0.44 USD、つまり 0.88 USD が課金されます。また、Flex を利用すると、6 DPU × 1/3 時間 × 0.29 USD で 0.58 USD の課金が発生します。
例 4 – 異常検出による AWS Glue ETL ジョブのデータ品質を評価する
Amazon Redshift にロードする前に、Amazon S3 からデータを読み取り、データを変換し、データ品質チェックを実行する AWS Glue ジョブを考えてみましょう。このパイプラインに 10 個のルールと 10 個のアナライザーがあり、20 個の統計情報が収集されたとします。また、抽出、変換プロセス、読み込み、統計情報の収集、データ品質評価には 20 分かかると仮定します。異常検出を有効にしていない場合、お客様には 6 DPU x 1/3 時間 (20 分) * 0.44 USD = 0.88 USD (A) が課金されます。異常検出を有効にすると、統計情報ごとに 1 DPU が追加され、異常検出には平均で 15 秒かかります。この例では、お客様には 20 件の統計情報 * 1 DPU * 15/3600 (0.0041 時間/統計情報) * 0.44 USD (1 時間あたり DPU ごとのコスト) = 0.037 USD (B) となります。ジョブの総費用は、0.88 USD (A) + 0.037 USD (B) = 0.917 USD になります。
例 5 – 再トレーニングGlue ジョブで異常が検出されたとします。異常検出アルゴリズムが将来の異常を正確に予測できるように、モデルから異常を除外することにしました。そのためには、この異常統計を除外してモデルを再トレーニングできます。モデルの再トレーニングにかかる時間には、統計情報ごとに 1 DPU がかかります。この処理には、平均で 15 秒かかります。この例では、1 つのデータポイントを除外すると仮定すると、1 個の統計 * 1 DPU * 15/3600 (0.0041 時間/統計) * 0.44 USD = 0.00185 USD が発生します。
-
ゼロ ETL
-
ゼロ ETL は、AWS によるフルマネージド統合のセットであり、分析および AI イニシアティブにおける一般的な取り込みおよびレプリケーションのユースケースのために、抽出、変換、ロード (ETL) データパイプラインを構築する必要性を最小限に抑えます。ゼロ ETL 統合について AWS から追加料金が請求されることはありません。ゼロ ETL 統合の一環として作成された変更データの作成と処理に使用されたソースおよびターゲットリソースについての料金をお支払いいただきます。
Amazon SageMaker Lakehouse と Amazon Redshift がアプリケーションからのゼロ ETL 統合をサポート
Amazon SageMaker Lakehouse と Amazon Redshift は、アプリケーションからのゼロ ETL 統合をサポートします。これは、アプリケーションから Amazon SageMaker Lakehouse と Amazon Redshift へのデータの抽出とロードを自動化します。サポートされているゼロ ETL ソースの詳細なリストについては、AWS Glue ゼロ ETL ドキュメントをご覧ください。
AWS Glue では、ゼロ ETL 統合によってサポートされているアプリケーションソースデータの取り込みについての料金がかかります。アプリケーションから挿入、更新、削除を取得するために使用される AWS Glue リソースの料金をお支払いいただきます。アプリケーションから受信したデータの量に基づいて課金され、データを取り込むリクエストの開始については課金されません。AWS Glue によって実行される各取り込みリクエストの最小ボリュームは 1 メガバイト (MB) です。
取り込まれたデータが Amazon Redshift に書き込まれた場合、ゼロ ETL 統合の一環として作成された変更済みデータの処理に使用されたリソースについて、Amazon Redshift の料金に基づいて料金をお支払いいただきます。
取り込まれたデータが SageMaker Lakehouse に書き込まれた場合、ゼロ ETL 統合の一環として作成された変更済みデータの処理に使用されたリソースについての料金をお支払いいただきます。使用されるコンピューティングリソースは、SageMaker Lakehouse 用に選択されたストレージタイプに基づきます。
- Amazon Redshift マネージドストレージの場合、Amazon Redshift Serverless コンピューティングに基づいて課金されます。詳細については、Amazon Redshift の料金をご覧ください。
- Amazon Simple Storage Service (S3) の場合、AWS Glue コンピューティングに基づいて、データ処理ユニット時間 (DPU 時間) ごとに 1 秒単位で課金され、1 分間分の最低料金がかかります。
Amazon DynamoDB と Amazon SageMaker Lakehouse のゼロ ETL 統合
Amazon DynamoDB と Amazon SageMaker Lakehouse のゼロ ETL 統合により、データの抽出とロードが自動化され、データレイクハウス内の DynamoDB テーブルからのデータの分析と AI の使用が可能になります。
DynamoDB では、DynamoDB の継続的なバックアップ (ポイントインタイムリカバリ) からデータをエクスポートする場合に料金が発生します。詳細については、Amazon DynamoDB の料金をご覧ください。
取り込まれたデータが Amazon SageMaker Lakehouse に書き込まれた場合、Amazon SageMaker Lakehouse 用に選択されたストレージタイプに基づいて、ゼロ ETL 統合の一環として作成された変更済みデータの処理に使用されたリソースについての料金をお支払いいただきます。
- Amazon Redshift マネージドストレージの場合、Amazon Redshift Serverless コンピューティングに基づいて課金されます。詳細については、Amazon Redshift の料金をご覧ください。
- Amazon Simple Storage Service (S3) の場合、AWS Glue コンピューティングに基づいて、データ処理ユニット時間 (DPU 時間) ごとに 1 秒単位で課金され、1 分間分の最低料金がかかります。
注: 料金はリージョンによって異なる場合があります。
AWS Glue の可用性の詳細については、グローバルリージョン表 をご覧ください。