投稿日: Nov 19, 2021
本日、Amazon Athena が、クエリプランニングを最適化し、クエリの実行時間を短縮するために、AWS Glue Data Catalog のパーティションインデックスをサポートするようになったことをお知らせします。多数のパーティションを含むテーブルをクエリすると、Athena は AWS Glue Data Catalog から使用可能なパーティションを取得し、クエリに必要なパーティションを特定します。新しいパーティションが追加されると、パーティションの取得に必要な時間が長くなり、クエリの実行時間が長くなる可能性があります。AWS Glue Data Catalog を使用すると、お客様はパーティションインデックスを作成して、数万から数十万のパーティションを持つテーブルのパーティションメタデータを取得およびフィルタリングするために必要な時間を短縮できます。
シンプルな 2 段階のプロセスで、Athena でパーティションインデックスを使用できます。まず、Glue Data Catalog からインデックスを作成する列を選択し、インデックスの作成を開始します。次に、テーブルでパーティションフィルタリングを有効にしてから、Athena に戻ってクエリを実行します。詳細については、AWS Glue Partition Indexing and Filtering を参照してください。
パーティションインデックスは新規および既存のテーブルでサポートされているため、パフォーマンス上のメリットを引き出すためにデータセットを再構築したり、クエリを書き直したりする必要はありません。詳細については、Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes を参照してください。
パーティションインデックスは、Amazon Athena に加えて、Amazon EMR、Amazon Redshift Spectrum、および AWS Glue で実行される分析ワークロードにも役立ちます。詳細については、Improve query performance using AWS Glue partition indexes を参照してください。