Amazon EMR の使用方法
- データ処理アプリケーションを開発する。 Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR にはコードサンプルとチュートリアルが用意されており、すぐに使用を開始できます。
- アプリケーションとデータを Amazon S3 にアップロードする。 大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用したデータのアップロード) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立) の使用を検討してください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。
- クラスターを設定および起動する。 AWS マネジメントコンソール、AWS CLI、SDK、または API を使用して、クラスターにプロビジョニングする Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Apache Spark、Apache Hive、Apache HBase、Presto など)、アプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアのインストールやデフォルト設定の変更ができます。
- クラスターをモニタリングします。 マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は Amazon CloudWatch と統合してモニタリング/警告を行い、Ganglia のような一般的なモニタリングツールをサポートしています。処理するデータの量に応じて、クラスターの能力の追加と削除はいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。
- 出力を取得する。 クラスターの Amazon S3 または HDFS から出力を取得します。Amazon QuickSight、Tableau や MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。
サンプルクラスターを起動してみましょう。
こちらをクリックし、Amazon EMR マネジメントコンソールを使用してクラスターを起動します。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] をクリックします。
チュートリアル
Spark
Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS
この記事では、EC2 で Apache Kafka を設定する方法、EMR で Spark Streaming を使用して Apache Kafka トピックに投稿されるデータを処理する方法、EMR で Spark SQL を使用してストリーミングデータのクエリを実行する方法を示しています。
Large-scale machine learning with Spark on Amazon EMR
Intent Media において、Spark と Amazon EMR がモデルワークフローでどのように使用されたかをご確認ください。
HBase
Phoenix と HBase による、低遅延の SQL および二次インデックス
JDBC を使用して Phoenix に接続する方法、既存の HBase テーブルのビューを作成する方法、および読み取りパフォーマンスを向上させるための二次インデックスを作成する方法を学ぶ
NoSQL と分析ワークロード用の Hive を搭載した HBase を使用する
HBase を使用して EMR クラスターを起動し、Amazon S3 のスナップショットからテーブルを復元する方法を学ぶ
Presto
Presto と Airpal を使用して Amazon EMR クラスターを起動する
Presto クラスタを設定する方法、およびAirpal を使用して S3 に保存したデータを処理する方法を学びます。
Hive
NoSQL と分析ワークロード用の Hive を搭載した HBase を使用する
HBase を使用して EMR クラスターを起動し、Amazon S3 のスナップショットからテーブルを復元する方法を学ぶ
Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite
Amazon Elastic MapReduce 上で実行する Hive ジョブフローに接続して、レポート用および分析用の安全かつ拡張可能なプラットフォームを作成する方法を学びます。
Flink
Build a real-time stream processing pipeline with Apache Flink on AWS
このチュートリアルでは、Amazon EMR、Amazon Kinesis、Amazon Elasticsearch Service を使用し、Apache Flink に基づく安定したスケーラブルで信頼性の高いストリーム処理パイプラインのリファレンスアーキテクチャについての概要を説明します。
その他のチュートリアルを使って、自分のペースで学びましょう。
トレーニングとヘルプ
短期契約
概念実証の構築や EMR アプリケーションのチューニングでお困りですか? AWS には、EMR 専門のグローバルサポートチームがあります。短期 (2~6 週間) 有料サポート契約の詳細については、お問い合わせください。
AWS ビッグデータトレーニング
Big Data on AWS コースは、ビッグデータワークロードにアマゾン ウェブ サービスを使用する方法を実践型の演習で学習できるように計画されています。AWS では、Amazon EMR ジョブを実行し、Pig や Hive のような Hadoop ツールの広範なエコシステムを利用してデータを処理する方法を紹介します。また、Amazon DynamoDB と Amazon Redshift を利用してクラウドにビッグデータ環境を作成し、Amazon Kinesis の利点を理解し、分析、セキュリティ、費用対効果のためにビッグデータ環境を設計できるようにベストプラクティスを活用する方法を紹介します。ビッグデータコースの詳細については、こちらをクリックしてください。
追加のトレーニング
Scale Unlimited では、EMR などのビッグデータ技術の使い方を短期間で習得したいお客様に合わせてカスタマイズした、企業向けオンサイトトレーニングを提供しています。詳細については、こちらをクリックしてください。
その他のリソース
Amazon EMR リソースに関する詳細