新しい AWS コースでバッチ分析ソリューションを構築する方法を学ぶ

この記事は 2022 年 4 月 27 日にAWS Training のプロダクトマネージャー Kumar Kumaraguruparan によって投稿された Learn to build batch analytics solutions with new AWS classroom course を翻訳したものです。

ビッグデータ分析への世界の支出は、2030年までに6,841.2億ドルに達し、年平均成長率13.5パーセントで増加すると予測されていることをご存知ですか？ビッグデータスキルを持つ人材が求められています。アマゾンウェブサービス（AWS）の新しい中級コースである「Building Batch Data Analytics Solutions on AWS」は、この成長に対応し、ビッグデータのスキルを伸ばすのに役立ちます。

Apache Hadoop や Apache Spark などのオープンソース分析フレームワークを使用してデータ分析パイプラインを構築するデータエンジニアやデータアーキテクトの方には、この 1 日のバーチャルクラスルームコースがこれらのスキルの開発に役立ちます。Amazon EMR、エンタープライズグレードの Apache Spark、および Apache Hadoop マネージドサービスを使用して、モダンデータアーキテクチャを構築する方法を学びます。

今日のビッグデータ処理は何が違うのでしょうか？

ビッグデータテクノロジーは、既存のデータベースやアプリケーションがデータの量、種類、速度の予測不可能な増加に対応できなくなった場合にメリットをもたらします。分析結果を得るまでの時間は競争上の差別化要因であるため、組織はビッグデータツールを使用して大規模なデータセットをバッチとリアルタイムの両方で分析し、貴重な洞察を引き出すことができます。

Amazon EMR は、Apache Hadoop や Apache Spark などのオープンソース分析フレームワークのプロビジョニング、デプロイ、実行、管理を簡素化するマネージドクラスタープラットフォームです。また、Amazon EMR は Amazon Simple Storage Service (Amazon S3)、AWS Glue データカタログ、AWS Lake Formation と統合して、Amazon S3 データレイク内のデータを検出、カタログ化、保護を行います。マネージド型機械学習サービスを活用するには、Apache Spark で実行されている機械学習ワークロードを Amazon SageMaker と統合できます。

データが指数関数的に増加し続けるにつれて、データ分析パイプラインを高費用対効果・高パフォーマンスで運用することがさらに重要になります。Amazon EMR は、ストレージのスケーリングとコンピューティングを分離することで費用対効果の高い運用をサポートします。一方、Apache Spark 用の Amazon EMR ランタイムは、EMR ランタイムのないクラスターと比較して 2 倍パフォーマンスが向上します。

これらの機能を活用するために必要なスキルを身に付けることは、オンプレミスのオープンソース分析フレームワークから Amazon EMR に移行する組織にとっても、Amazon EMR を使用してクラウドネイティブなビッグデータソリューションを構築するお客様にとっても重要です。

このコースについて

「Building Batch Data Analytics Solutions on AWS」では、Amazon EMR を使用してバッチデータ分析パイプラインをハンズオン環境で構築する方法を、専門の AWS インストラクターの助けを借りながら学習します。3 つの主要なスキルを学びます。1) AWS のサービスを使用してトランザクションデータとストリーミングデータを取り込み、Amazon EMR 上の Apache Spark を使用してそのデータを処理する方法、2) ノートブックを活用してデータを処理および分析する方法、3) Amazon EMR を AWS Glue と統合し、AWS Lake Formation を使用してきめ細かいアクセス制御を活用する方法です。

このコースは、データの取り込みと保存から始まり、変換と分析に進み、Amazon EMR クラスターのセキュリティとモニタリングで終わります。コスト、可用性、パフォーマンスを最適化するための Amazon EMR クラスターのコンポーネントとアプローチについて学びます。AWS のインストラクターは、ラボセッションとインタラクティブセッションを使用して、Spark クラスターへの接続、AWS Step Functions によるタスクの実行とワークフローのオーケストレーション、Spark 履歴サーバーで有向非循環グラフ(DAG)と Spark メトリックスを確認するデモンストレーションを行います。また、受講生は EMR ノートブックを作成し、PySpark を使用して EMR クラスターを操作します。最後に、ビジネス上の問題を解決するためのデータ分析ソリューションを構築するためのインストラクター主導の演習に参加します。

このコースの前提条件

このコースを最大限に活用するには、受講者に Apache Hadoop や Apache Spark などのオープンソース分析フレームワークの管理経験が 1 年以上あり、AWS の基礎知識があることをお勧めします。AWS の基礎知識の要件を満たすには、「AWS Technical Essentials」コースまたは「Architecting on AWS」コースを修了し、続いて「Building Data Lakes on AWS」を修了してください。

AWS Certified Data Analytics – Specialty にチャレンジしませんか?

AWS Analytics サービスの専門知識を証明する業界で認められた認定資格を AWS から取得したい場合は、AWS Certified Data Analytics – Specialty の認定をお勧めします。「Building Batch Data Analytics Solutions on AWS」コースでは、データ分析パイプラインの取り込み、保存、処理の各段階について説明しますが、試験ガイド、サンプル問題、公式練習問題セットなど、試験の準備に役立つその他のリソースも提供しています。

詳細を知りたい場合のリソース

データ分析のための AWS トレーニングと認定サービスについて詳しく知りたい場合は、AWS データ分析スタートアップガイドをダウンロードしてください。オンデマンドの無料デジタルリソースを多数提供しているほか、データ分析に関するインストラクター主導のコースもいくつか提供しています。 Building Batch Data Analytics Solutions on AWS について詳しく学び、今すぐご登録ください。

次回の開催は 3 月、6 月です。以下のリンクからお申し込みいただけます

翻訳はシニアテクニカルトレーナー冨田修平が担当しました。

Amazon Web Services ブログ