Amazon EMR Serverless カスタムイメージの紹介: 独自ライブラリとアプリケーション依存関係の持ち込みが可能に

投稿日: Jan 6, 2023

Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、データエンジニアやデータサイエンティストが、クラスターやサーバーを構成、管理、スケーリングすることなく、オープンソースのビッグデータ分析フレームワークを簡単に実行できるようにします。本日、EMR Serverless で Apache Spark と Hive 用のイメージをカスタマイズできるようになったことを発表いたします。このことにより、アプリケーションの依存関係やカスタムコードをイメージにパッケージ化できるようになり、Spark と Hive のワークロードの実行が簡単になります。

カスタムイメージを実行すると、ビッグデータ分析の多くのユースケースが簡素化されます。例えば、データエンジニアはデフォルトのリリースイメージをカスタマイズして、一般的な依存関係、カスタムコード、特定の Java または Python バージョン、またはワークロードに必要な SSL 証明書をパッケージ化できます。そして、そのカスタマイズされたイメージを Amazon Elastic Container Repository (ECR) に保存することで、カスタム依存関係を持つ Spark ワークロードを簡単に実行できます。セキュリティエンジニアは、組織の基準に従ってこれらのイメージをスキャンできます。また、データサイエンティストは、独自のライブラリや特定の Python パッケージを含むようにランタイムイメージをカスタマイズできます。さらに、EMR Serverless のリリースを組織の Docker ビルド、テスト、デプロイプロセスと直接統合できるため、アプリケーションの継続的インテグレーションと継続的デリバリー (CI/CD) が簡単になります。

EMR ランタイムを特定のリリース用にカスタマイズして、アプリケーションの依存関係を含める方法の詳細については、AWS のドキュメントをご覧ください。

この機能は、EMR Serverless がご利用いただけるすべての AWS リージョンで利用可能です。Amazon EMR Serverless が利用可能なリージョンを確認するには、「よくある質問」を参照してください。

Amazon EMR Serverless カスタムイメージの紹介: 独自ライブラリとアプリケーション依存関係の持ち込みが可能に

Internet Explorer のサポートの終了