投稿日: Oct 31, 2022
Amazon EMR リリース 6.8 は、Apache Hudi 0.11.1 および Apache Iceberg 0.14.0 のサポートを開始しました。これらのフレームワークは、EC2 の Amazon EMR、EKS の Amazon EMR、また Amazon EMR Serverless でも使用できます。
Amazon EMR 6.8 での Apache Hudi 0.11.1 には Spark 3.3.0 のサポートが含まれており、マルチモーダルインデックスのサポートとメタデータテーブルによるデータスキップの追加により、ブルームフィルターと列の統計インデックスのテーブルへの追加が可能になり、クエリのパフォーマンスが大幅に向上します。Async インデクサーサービスの追加により、取り込みをブロックせずにメタデータテーブルにさまざまな種類のインデックス (ファイル、ブルームフィルター、列の統計など) を作成できるようになりました。また、Spark SQL の改善が含まれており、非プライマリキーフィールドおよび構文のタイムスタンプを介したタイムトラベルクエリを使用する Hudi テーブルのレコードを、更新または削除できるようになりました。Flink との統合も改善され、Flink 1.13.x と 1.14.x の両方をサポートし、Map や Array などの複雑なデータ型をサポートするようになりました。さらに、Hudi 0.11.1 には、Amazon EMR リリース 6.7 で利用可能な Hudi 0.11.0 に対するバグ修正が含まれています。詳細については、OSS Hudi リリースドキュメントを参照してください。
Amazon EMR 6.8 での Apache Iceberg 0.14.0 には Spark 3.3.0 のサポートが含まれており、MERGE および UPDATE ステートメントの Merge-on-read サポートが追加されました。また、Z オーダーを使用してパーティションを書き換えるサポートが追加されたため、パーティションを再編成し、複数の列のクエリ述語によって効率化し、類似データを一緒に保持することができます。さらに、Spark クエリでのスキャン計画のいくつかのパフォーマンスの改善も含まれており、Parquet ブルームフィルターを使用した行グループスキップなどのサポートも追加されました。詳細については、OSS Iceberg リリースドキュメントを参照してください。
Amazon EMR リリース 6.8 は、Amazon EMR が提供されているすべてのリージョンで一般利用が可能です。詳細については、Amazon EMR のリージョンごとの利用可否とリリースノートを参照してください。