Amazon EMR を用いた分散処理基盤のアーキテクチャを構築したい

⽇々⽣成される⼤量のデータを蓄積し、分析するための Hadoop 分散処理基盤アーキテクチャを作成する AWS のマネージドサービス Amazon Elastic MapReduce (Amazon EMR) の構成例とその概算料金をご紹介します

この構成例のクラウドレベル:

基礎編

入門編:該当するユースケースの知識が全くない方が対象
基礎編:該当するユースケースの入門知識がある方が対象
応用編:該当するユースケースにある程度精通している方が対象

この構成例で解決できる課題・困りごと:

  • ⽇々の業務の中で⼤量のデータ⽣成されており、それを蓄積・分析するための⼤規模な分散処理基盤 が必要と感じている
  • ⼤規模な分散処理基盤を構築・運⽤する際に、AWS のマネージドサービスを有効活⽤して⼿間を減らし、本来の業務に集中出来る環境を作り、Total Cost of Ownership (TCO) の観点でコスト削減もすすめたい

この構成例の概算料金:

1592.36 ドル (月額)

この構成例のメリット:

  • Amazon EMR で取得するデータ、もしくはデータを処理した結果を保存する先として HDFS の代わりに Amazon S3 を EMR ファイルシステム (EMRFS) という形で利⽤することで、Amazon S3 のメリットである「⾼い耐久性、可⽤性、パフォーマンス、セキュリティ、および事実上無制限のスケーラビリティ性能」を低いコストで享受することができます
  • Hadoop の各エコシステムで⽤いるテーブルメタデータを保存する先として、AWS Glue (Data Catalog) を⽤いることで、これらのデータを Amazon EMR クラスター外のサーバレスサービスの配下で保存することができ、クラスターを作成し直した際にも参照できるようになります
  • Amazon EMR クラスター内の EMR Task Nodes はオートスケーリングが設定されており、データ処理量の需要に合わせて EC2 インスタンスの数が⾃動的に増減します

この構成例で使用したサービスと概算料金内訳:

サービス 項目 数量 単価 料金 (USD)
Amazon EC2
(Master Node)
インスタンス
(m7g.xlarge)
3
※ vCPU : 4, メモリ : 16 GiB
0.2108 USD/時間
(1 ヶ月間常時起動 : 730時間分)
461.652
  EBS (汎用 SSD)
[gp3 ボリューム]
79 GB * 3 = 237 GB
※ 3000 IOPS, 125 MB/秒 スループット
0.096 USD/GB 22.752
Amazon EC2
(Core & Task Node)
インスタンス
(m7g.xlarge)
4
※ vCPU : 4, メモリ : 16 GiB
0.2108 USD/時間
(1 ヶ月間常時起動 : 730時間分)
615.536
  EBS (汎用 SSD)
[gp3 ボリューム]
79 GB * 4 = 316 GB
※ 3,000 IOPS, 125 MB/秒 スループット
0.096 USD/GB 30.34
Amazon EMR (m7g.xlarge) 7
※ EMR の利用コストは使用するインスタンスのタイプによって異なります。
0.0408 USD/時間 208.49
Amazon S3 スレージの料金
(スタンダード)
10,000 GB 0.025 USD/GB 250
AWS Glue Data Catalog
(ストレージ)
※毎月 100 万オブジェクトまでは無料 (以降は 1 USD/10万オブジェクト) なので本ケースではこの無料枠に収まるものとする。 - 0
  Data Catalog
(リクエスト)
※毎月 100 万リクエストまでは無料 (以降は 1 USD/100万リクエスト)なので本ケースではこの無料枠に収まるものとする。 - 0
Amazon Kinesis
Data Firehose
データ取り込み 100 GB 0.036USD/GB 3.6

月額合計料金:1,592.36 (USD)

※ 2024 年 10 月 18 日時点での試算です。

  • 東京リージョンでのご利用を想定しています。
  • 1 ヶ月を 730 時間として計算しています。
  • EMR Cluster の環境については下記の想定で試算を行っています。
    • EMR Master Nodes は冗長化構成にするために常に 3 台を立ち上げている構成です。
    • 1 ヶ月継続的に、何かしらのワークロードが実行し続けられており、起動している Core Node と Task Node の EC2 インスタンスの台数は平均で 2 台ずつで合計 4 台となります。
    • Amazon EMR が処理を行うために Amazon S3 には 10,000 GB のデータが保存されている。
    • Kinesis Data Firehose には外部から日々データが送り込まれてきており、100 GB のデータを処理している。
    • こちらの見積もりでは EC2 インスタンスは全てオンデマンド料金での計算となるため、リザーブドインスタンス、Savings Plans、Spot Instances 等の割引オプションを有効的に活用することで、より最適化された価格での利用が可能です。

この AWS サービスに関する参考情報

最新の料金やサービスのスペックを変更した場合の料金を知りたい場合は AWS Pricing Calculator を使って想定利用金額を算出してみましょう

AWS Pricing Calculator の使い方 (基礎編 - 1 つのサービスを見積もる方法 )
AWS Pricing Calculator の使い方(応用編 - 複数のサービスの組み合わせを見積もる方法)
  • アマゾン ウェブ サービス(AWS)の利用をご検討中の皆様に向けて、無料個別相談会を実施いたします。
    今後 AWS の導入に向けて、サービス詳細や特定の業界・サービスを活用した事例の紹介をご希望の皆様、料金関連(支払方法やお見積り、課金体系)に関するご相談、具体的な構成等の技術に関するご相談等を希望される皆様は、是非ご参加ください。
    無料個別相談会に申し込む »

  • お客様のビジネスニーズに合わせて AWS が提供できるサービスと提供内容についてご説明させていただきます。
    フォームにご記入いただき、AWS 日本担当チームまでお問い合わせください。
    フォームで日本担当チームに問い合わせる »

今日から AWS を始めましょう!

コンピューティング、データベース、ストレージ、コンテンツ配信、機械学習、IoT をはじめ、
AWS では、柔軟性、スケーラビリティ、信頼性の高いアプリケーションの構築を支援するサービスをご用意しています。