AWS JAPAN APN ブログ

NTTデータによる Amazon SageMaker Unified Studio の機械学習モデル開発の機能検証

本稿は、以下 5 名による共著です。

  • 株式会社 NTTデータ – ソリューション事業本部 課長 齋藤祐希
  • 株式会社 NTTデータ – ソリューション事業本部 課長代理 洪元
  • 株式会社 NTTデータ – ソリューション事業本部 主任 小見山玖嘉
  • アマゾン ウェブ サービス ジャパン合同会社 – シニアアナリティクススペシャリストソリューションアーキテクト 大薗純平
  • アマゾン ウェブ サービス ジャパン合同会社 – シニアパートナーソリューションアーキテクト 江成篤

はじめに

近年の生成 AI テクノロジーの目覚ましい進化に伴い、データ活用の重要性はますます注目を集めています。一方で、その難易度もまた高まりつつあることも事実です。その背景には、ビジネスが絶えず進化を続けることで生み出されるデータ量そのものの増加とそれに伴うデータタイプの多様化により、ともすればデータが無秩序に増加しその保管・管理・アクセスが複雑化してしまうことがあります。もちろんこのような問題を回避すべく特定のユースケースに特化したツール群が存在することもまた事実ですが、そうした汎用性の低いツールの導入が余計にデータ活用のプロセスを複雑化させてしまい、コストの増加のみならずデータから洞察を得るという本来の目的の妨げになってしまうという皮肉な事態もまた回避しなければなりません。

お客様が直面しつつあるこのような課題を解決する方法の一つが、モダンデータプラットフォームです。これはデータ分析ソリューションを導入するためのスケーラブルかつ統合されたプラットフォームであり、データ管理からガバナンス・統合・活用までに至る一気通貫した UX を提供します。お客様はこのプラットフォームのガバナンス機能によって、各データ活用者がその属性ごとに適切なデータにアクセスすることを担保しながらカスタマイズされた機械学習主導型のエクスペリエンスを構築できます。

AWS はこれらを実現する手段として、2024 年 12 月 3 日に Amazon SageMaker Unified Studio を発表しました。

AWS の「AWS データと分析 コンピテンシープログラム」認定パートナーでもある株式会社 NTTデータでは早速、2024 年 12 月 4 日に SageMaker Unified Studio を活用したデータ分析基盤サービスの提供開始を発表いたしました。

以下では、Amazon SageMaker Unified Studio について深掘りし、利用手順や、NTTデータと AWS が共同で行った Amazon SageMaker Unified Studio の検証結果を紹介します。

Amazon SageMaker Unified Studio とは

Amazon SageMaker Unified Studio は、2024 年 12 月に開催された AWS の年次イベント re:Invent 2024 で発表されたデータ、分析、AI の統合プラットフォームである次世代の Amazon SageMaker のコア機能で、パブリックプレビューとしてすべてのお客様が利用できるようになっています。従来、ユーザーはビジネスニーズに合わせて様々な AWS サービスを使い分け、エンドツーエンドの分析や AI のソリューションをビルディングブロック (サービスを組み合わせてアーキテクチャを構成する思想) で構築する必要がありました。このアプローチはユーザーにとってより最適なソリューションをコスト効率高く実現できる一方で、複数の異なるサービスの中から必要なコンポーネントを選択してそれらを学習し、シームレスに接続するようにつなぎ合わせてデプロイする必要があり、アーキテクチャの観点では複雑になってしまうことがあります。統合された開発エクスペリエンスとエンドツーエンドのガバナンスを提供する Amazon SageMaker Unified Studio はこの課題を解消し、データの発見・分析・加工、モデル開発、生成 AI アプリケーションの構築などを含む、統合開発環境を提供します。

Amazon SageMaker Unified Studio が提供する代表的な機能および特徴は以下の通りです。

データカタログ

Amazon DataZone による統合されたデータガバナンスが組み込まれており、データへのアクセス権限管理が容易になります。また、必要なデータをカタログから検索し、アクセス権をリクエストすることも可能です。

クエリエディタ

新たに統合された SQL のクエリエディタを使用して、Amazon SageMaker Lakehouse で統合されたデータレイクやデータウェアハウス、その他のデータベースなどの様々なデータソースに対して直接クエリを実行可能です。

ビジュアル ETL

ビジュアル ETL 機能により、ドラッグアンドドロップで簡単にデータの統合・変換ワークフローを作成可能です。

ノートブック

新たに統合されたノートブックでは、異なるコンピューティングサービスやクラスターを単一ビューで切り替えながら、シームレスにデータ処理を行うことが可能です。

モデル開発

Amazon SageMaker AI の機能を活用でき、データ準備、モデルトレーニング、実験追跡、パイプライン作成、オーケストレーションといった機械学習タスクをオールインワンで利用可能です。

生成 AI アプリケーション開発

Amazon Bedrock IDE が統合され、基盤モデルや Amazon Bedrock Knowledge BasesAmazon Bedrock Guardrails などの高度な機能を使って、ユーザーの要件と責任ある AI のガイドラインに沿ったカスタマイズされたアプリケーションを構築可能です。

Amazon Q との統合

Amazon Q の生成 AI 機能の支援を受けながらコーディングやクエリの作成ができ、開発ライフサイクル全体でタスクを効率化できます。

このように、Amazon SageMaker Unified Studio は統合環境の中で、データ分析やモデル開発、生成 AI アプリケーション開発などをカバーし、エンドツーエンドの UX を提供します。

Amazon SageMaker Unified Studio の機能検証

機械学習モデルの開発に焦点を当て、分析環境の構築から機械学習モデルの再学習のパイプライン化に至るまでの一連の流れを検証しました。 従来の個別サービスを組み合わせる方法と比較しながら、Amazon SageMaker Unified Studio の特徴と利点を具体的に紹介していきます。

一般的に、機械学習モデルの開発は以下の 4 段階で構成されます。

  1. プロジェクトの構築
  2. 探索的データ分析とデータ加工
  3. 機械学習モデルの開発
  4. モデル再学習のパイプライン化

Amazon SageMaker Unified Studio は、これらすべての段階を単一の統合プラットフォーム上で実現可能です。この統合により、データサイエンティスト、データアナリスト、データエンジニアが円滑に協働でき、作業の効率化と生産性の向上が期待できます。それでは、Amazon SageMaker Unified Studio の各機能について、詳細な検証結果を段階ごとに解説していきます。なお、パブリックプレビューでの検証のため一般利用開始時には変更の可能性があります。

分析環境の構築

Amazon SageMaker Unified Studio では、プロジェクトが分析作業の基本単位となります。このプロジェクトは、特定の分析ユースケースに関係するリソースやコードをまとめて管理するための論理的な作業環境です。Amazon SageMaker Unified Studio において、このプロジェクトが分析作業の基本単位となります。プロジェクトを共有することにより、チームでの共同作業が容易になります。また、プロジェクトを分けることでデータや分析結果などを必要最小限のメンバーに共有することができ、安全な資材の管理が可能となります。

プロジェクトの構築において、Amazon SageMaker Unified Studio では以下を実現できます。

分析環境の構築の自動化

Amazon SageMaker Unified Studio では、プロジェクト機能により分析環境の構築プロセスが大幅に自動化されています。システム管理者が事前に設定済みのテンプレート(プロファイル)を用意し、利用者はそれらの中から適切なものを選択するだけで、迅速に分析環境を準備することが可能になります。これにより、利用者はセルフサービスで分析を即座に開始できます。

資材の集中管理

Amazon SageMaker Unified Studio は、プロジェクト内のすべての分析リソースを一元的に管理する機能を提供します。これまで Amazon SageMaker や AWS Glue など複数のサービスに散在していたクエリ、コード、ノートブックなどの資材を、プロジェクト単位で一箇所に集約することができます。この統合リポジトリにより、チーム内での資材の共有と管理が格段に容易になります。

それでは、実際の画面を通して Amazon SageMaker Unified Studio のプロジェクト構築プロセスを見ていきましょう。

  1. プロジェクトの作成
    Amazon SageMaker Unified Studio のホーム画面の右側にある [プロジェクトを作成] ボタンを選択します。
  2. プロジェクトプロファイルの選択
    Amazon SageMaker Unified Studio では、構築する分析環境の設定をプロジェクトプロファイルとして登録できます。プロジェクト作成の際には、目的や要件に応じてプロジェクトプロファイルを選択することで利用者に適した分析環境を作成可能です。ここではプロジェクトのプロファイルに [Data analytics and AI-ML model development] を選択し、[Continue] ボタンを押して次に進みます 。
  3. プロジェクトへのアクセス
    Amazon SageMaker Unified Studio による設定が完了すると、プロジェクトへアクセスできるようになります。従来、複数のサービスにまたがって保存されていた資材がこちらの分析環境に統合されます。

このように、Amazon SageMaker Unified Studio は適切なプロファイルを選択するだけで、自動的に分析環境を構築することが可能です。分析環境の構築ができたので、次のセクションでは具体的な分析フローについて詳しく見ていきます。

探索的データ分析とデータ加工

Amazon SageMaker Unified Studio は、Amazon Redshift や AWS Glue 、Amazon Athena などの複数のデータ処理エンジンを単一 UI から利用可能です。これにより、探索的データ分析やデータ加工など利用目的に応じて最適な処理エンジンを選択し、UI を切り替えることなく作業を進めることができます。

探索的データ分析とデータ加工において、Amazon SageMaker Unified Studio では以下を実現できます。

横断的なツールの統合

従来、各サービスで重複して提供されていた開発環境(クエリエディタやノートブックなど)が、Amazon SageMaker Unified Studio では統合されています。これにより、単一の UI から複数のサービスを横断的に利用することが可能となります。

それでは、具体的な機能を画面を通して見ていきましょう。

クエリエディタ

SQL を用いた探索的データ分析には、クエリエディタを使用します。

1.クエリファイルの作成
プロジェクト画面から右側にある [新規] ボタンを選択し [クエリ] ボタンをクリックすることで、新規にクエリファイルを作成できます。

2.複数サービスの利用
Amazon SageMaker Unified Studio では、Amazon Redshift や Amazon Athena など、異なるサービスのクエリを同一のエディタから実行できます。これにより、サービスを切り替えることなく効率的に探索的データ分析やデータ加工が可能です。

ノートブック

より複雑なデータ加工を実施したい場合には、ノートブックを利用します。

  1. ノートブックの作成
    プロジェクト画面から右側にある [新規] ボタンを選択し [ノートブック] ボタンをクリックすることで、新規にノートブックを作成できます。
  2. 多機能な開発環境
    Jupyter Lab ベースの画面を通じて、AWS Glue による ETL 処理から Amazon SageMaker AI を使用した AI モデル開発まで、幅広いタスクを一つの環境で実行できます。

Amazon SageMaker Unified Studio は、SQL を用いた探索的データ分析の実行から Jupyter Notebook を利用したデータ加工や AI モデルの開発に至るまで、様々なタスクを統合されたインターフェースから横断的に実行することができます。探索的データ分析とデータ加工が完了したので、次のセクションではこのデータを利用して機械学習モデルを開発する方法について詳しく見ていきます。

機械学習モデルの開発

Amazon SageMaker Unified Studio は、従来の Amazon SageMaker AI が持つ機能と統合しており、さらに拡張した環境を提供します。ここでは、Amazon SageMaker Unified Studio を利用した機械学習モデルの開発プロセスにおいて、特に Training jobs と Endpoints 機能に焦点を当てて紹介します。それでは、実際の画面を通して Amazon SageMaker Unified Studio における機械学習モデルの開発プロセスを見ていきましょう。

  1. Training jobs へのアクセス
    上部ナビゲーションから [Build] を選択し、 [Training jobs] をクリックすることで、 Training jobs にアクセスできます。
  2. ジョブの一覧表示
    Amazon SageMaker Unified Studio から直接 Amazon SageMaker AI のジョブが表示されます。
  3. 詳細情報の確認
    各ジョブの詳細情報も同様に Amazon SageMaker Unified Studio 上で確認することができます。これにより、モデルのパフォーマンスや進捗状況を一元的に管理できます。
  4. 機械学習モデルの API 化
    開発したモデルは Amazon SageMaker Endpoints を利用して API 化することが可能です。これによりリアルタイムの推論が可能となり、アプリケーションに組み込むことができます。

このように Amazon SageMaker Unified Studio は、機械学習の開発プロセスを効率的に実施可能です。データの準備からモデルのトレーニング、API 化までの一連のプロセスを単一のプラットフォーム上で完結させることができます。

次のセクションでは、Amazon SageMaker Unified Studio 上で機械学習モデルの再学習をパイプライン化する方法について解説します。

モデル再学習のパイプライン化

Amazon SageMaker Unified Studio は、データ分析やモデル開発だけでなく、パイプラインの構築や実行など、データ活用に関する全てのプロセスをカバーする統合環境を提供します。その一例として Amazon Managed Workflows for Apache Airflow (MWAA) と統合されており、画面を切り替えることなく容易にアクセスできます。

モデル再学習のワークフロー管理において、Amazon SageMaker Unified Studio では以下を実現できます。

整理された機能体系

これまでデータ分析者がパイプラインを構築する場合、AWS Management Console から適切なサービスを選択し使用する必要がありました。Amazon SageMaker Unified Studio では、関連性の低いサービスを隠し、データ分析者に最適なサービスを選びやすい環境を提供しています。これにより効率的にパイプラインを構築することが可能になります。

利用者への機能開放

Amazon SageMaker Unified Studio を利用することで、データ分析者に対して AWS マネジメントコンソールへのアクセス権を与えることなく、ジョブやパイプライン構築などのオーケストレーション機能を提供できます。これにより、従来はシステム管理者への依頼が必要だった作業も、データ分析者が自ら進められるようになります。

今回は Amazon MWAA を利用して、データ加工からモデルの再学習、エンドポイント作成までの一連のプロセスをパイプライン化する方法を見てみましょう。

  1. ワークフロー機能へのアクセス
    プロジェクト画面から右側にある [新規] ボタンを選択し [ワークフロー] ボタンをクリックすることで、ワークフロー機能へアクセスできます。
  2. Amazon MWAA のワークフローの構築
    Amazon SageMaker Unified Studio 内から直接 Amazon MWAA のワークフローを構築できます。
  3. 実行結果の確認
    ワークフローの実行結果は、同じインターフェース上で確認できます。この機能により、データ分析者自身がパイプラインの運用を行うことが可能になります。

Amazon SageMaker Unified Studio はデータ活用に関する機能を全てカバーしているため、データサイエンティストや機械学習エンジニアがインフラストラクチャの管理やツールの切り替えに時間を費やすことなく、モデル再学習のパイプライン化が可能になります。

まとめ

NTTデータは、Amazon SageMaker Unified Studio を活用したデータ分析および機械学習ソリューションを提供しています。本稿では、その一環として実施した Amazon SageMaker Unified Studio の主要な機能と特徴の検証結果を、実際の機械学習モデルの開発プロセスに沿って紹介してきました。この検証を通じて、Amazon SageMaker Unified Studio が持つお客様のデータ活用を支援する優れた機能と実用性をご理解いただけたのではないでしょうか。

Amazon SageMaker Unified Studio の最大の強みは、データ分析と機械学習の全プロセスを単一のプラットフォーム上で統合的に扱える点にあります。この統合により、以下のような利点が生まれます。

  1. 様々な用途に対応したデータ分析環境:生成 AI アプリケーション開発、機械学習モデルの構築、パイプラインの開発から運用までデータ活用に関わる全ての機能を一つのプラットフォームで提供します。
  2. 統一されたユーザーインターフェース:異なるツールやサービス間での画面の切り替えが不要となり、ユーザーの作業効率が大幅に向上します。
  3. 環境構築の効率化:複数のサービスやツールの個別管理が不要となり、IT リソースの効率的な利用と管理が可能になります。

ここまで、Amazon SageMaker Unified Studio の機械学習モデルの開発機能に焦点を当てて紹介しましたが、このサービスにはさらに多くの機能が備わっています。
是非、AWS の公式ドキュメントを参照いただき、Amazon SageMaker Unified Studio の優れた機能と特徴をご自身の手でお試しください。


NTTデータ – AWS Partner Spotlight

デジタルビジネスおよび IT サービスのグローバルリーダーである NTTデータは、AWS のプレミアサービスパートナーであり、2022 年には戦略協業を締結、AWS と開発したソリューションをもとに、お客様のシステムのモダナイゼーション、生成 AI やデータ活用などの DX の推進をしています。

NTTデータにコンタクト | パートナー概要