Amazon Web Services ブログ

Amazon SageMaker Data Wrangler flows を移行し、 Amazon SageMaker Canvas のデータ準備を高速で実施する

Amazon SageMaker Data Wrangler には、機械学習 (ML) プロジェクトで最も時間と手間のかかる作業であることが多い機械学習のデータ準備を効率化および加速するためのビジュアルインターフェイスが用意されています。Amazon SageMaker Canvas は、コードを書かなくても ML モデルを構築してデプロイできる、ローコードのビジュアルインターフェイスです。お客様からのフィードバックに基づいて、我々はSageMaker Data Wrangler の高度な ML 特有のデータ準備機能を SageMaker Canvas に統合しました。これにより、データの準備、 ML モデルの構築、デプロイのための、エンドツーエンドでコード不要のワークスペースがユーザーに提供されます。

SageMaker Canvasでは、MLワークフローの複雑な部分を抽象化することで、コードを記述しなくてもデータを準備し、モデルを構築または使用して、非常に正確なビジネスインサイトを生成できます。さらに、SageMaker Canvasでデータを準備すると、ページの読み込みが最大で10倍速くなり、データ準備のための自然言語インターフェイス、各ステップでデータのサイズと形式を表示する機能、データフローを繰り返し処理するために改善された置換処理順序変更など、多くの拡張機能が提供されます。最後に、同じインターフェイスでワンクリックでモデルを作成することも、SageMaker Canvas データセットを作成して基礎モデル (FM) を微調整することもできます。

この投稿では、既存の SageMaker Data Wrangler flows (データ変換処理の一連の流れを定義したもの) を SageMaker Studio Classic から SageMaker Canvas に移行する方法を示します。SageMaker Canvas にファイルをインポートする前の中間ステップとして、SageMaker Studio Classic から Amazon Simple Storage Service (Amazon S3) にファイルを移動する例を紹介します。

ソリューション概要

大まかな手順は次のとおりです。

  1. SageMaker Studio でターミナルを開き、フローファイルを Amazon S3 にコピーします。
  2. Amazon S3 から SageMaker Canvas にフローファイルをインポートします。

前提条件

この例では、フローファイルを Amazon S3 に移行するためのステージングフォルダとして data-wrangler-classic-flows というフォルダを使用します。移行フォルダを作成する必要はありませんが、この例では SageMaker Studio Classic のファイルシステムブラウザ部分を使用してフォルダが作成されています。フォルダーを作成したら、関連する SageMaker Data Wrangler フローファイルを慎重に移動して統合してください。次のスクリーンショットでは、左側のペインに表示されているように、移行に必要な 3 つのフローファイルが data-wrangler-classic-flows フォルダーに移動されています。これらのファイルの 1 つである titanic.flow が開き、右側のペインに表示されます。

フローファイルを Amazon S3 にコピーする

フローファイルを Amazon S3 にコピーするには、次の手順を実行します。

  1. SageMaker Studio Classic で新しいターミナルを開きます。「ファイル」メニューで「ターミナル」を選択します。
  2. 新しいターミナルを開いたら、次のコマンドを入力して、選択した Amazon S3 の場所にフローファイルをコピーします (NNNNNNNNN は AWS アカウント番号に置き換えてください)。
    cd data-wrangler-classic-flows
    target="s3://sagemaker-us-west-2-NNNNNNNNNNNN/data-wrangler-classic-flows/"
    aws s3 sync . $target --exclude "*.*" --include "*.flow"

次のスクリーンショットは、Amazon S3 同期プロセスの例を示しています。すべてのファイルがアップロードされると、確認メッセージが表示されます。上記のコードは、お客様固有の入力フォルダと Amazon S3 ロケーションのニーズに合わせて調整できます。フォルダを作成したくない場合は、ターミナルに入るときにディレクトリ変更 (cd) コマンドをスキップするだけで、元のフォルダに関係なく、SageMaker Studio Classic ファイルシステム全体のすべてのフローファイルが Amazon S3 にコピーされます。

ファイルを Amazon S3 にアップロードしたら、Amazon S3 コンソールを使用してファイルがコピーされたことを確認できます。次のスクリーンショットでは、元の 3 つのフローファイルが S3 バケットに入っていることを確認しています。

Data Wrangler フローファイルを SageMaker Canvas にインポートする

フローファイルを SageMaker Canvas にインポートするには、次の手順を実行します。

  1. SageMaker Canvas アプリケーションのナビゲーションペインで「Data Wrangler」を選択します。
  2. [Import data flows] を選択します。
  3. [Select a data source] で [Amazon S3] を選択します。
  4. [Input S3 endpoint] に、先ほど SageMaker Studio から Amazon S3 にファイルをコピーするために使用した Amazon S3 ロケーションを入力し、[Go] を選択します。下のブラウザを使用して Amazon S3 ロケーションに移動することもできます。
  5. インポートするフローファイルを選択し、[Import] を選択します。

ファイルをインポートすると、次のスクリーンショットに示すように、SageMaker Data Wrangler ページが更新され、新しくインポートされたファイルが表示されます。

SageMaker Canvas にて SageMaker Data Wrangler のデータ変換を使う

いずれかのフロー (この例では titanic.flow を選択) を選択して SageMaker Data Wranglerのトランスフォーメーションを起動します。

現在ビジュアルインターフェイス (Amazon SageMaker Canvas の ML データ準備を高速化) または自然言語インターフェイス (Amazon SageMaker Canvas の新機能で自然言語を使用してデータを探索および準備する) を使用して、データフローに分析と変換を追加できるようになりました。

データに問題がなければ、プラス記号を選択して [Create model] を選択するか、[Export] を選択してデータセットをエクスポートして ML モデルを構築して使用します。

 

別の移行方法

このブログでは、Amazon S3 を使用して SageMaker Data Wrangler フローファイルを Amazon SageMaker Studio Classic 環境から移行する方法についてのガイダンスを提供しました。AWS ドキュメントには、Data Wrangler フローファイルをインポートする他の方法が記載されています。Studio Classic と Canvas アプリケーションが同じ Amazon EFS ストレージボリュームを共有している場合、データフローを Studio Classic の Data Wrangler から SageMaker Canvas の Data Wrangler に移行するためのワンクリックインポートオプションが表示されます。

または、ローカルマシンを使用してフローファイルを転送することもできます。最後に、SageMaker Studio ツリーコントロールからローカルマシンに単一のフローファイルをダウンロードし、Canvas に手動でインポートすることもできます。正解も不正解もありません。使い慣れた方法を自由に選択してください。

Clean up

移行作業が完了したら、SageMaker Studio Classic で実行中の SageMaker Data Wrangler アプリケーションをすべてシャットダウンします。コストを節約するために、Amazon Elastic File System (Amazon EFS) ボリュームである SageMaker Studio Classic ファイルブラウザからすべてのフローファイルを削除することもできます。Amazon S3 の中間ファイルはどれでも削除できます。フローファイルが SageMaker Canvas にインポートされると、Amazon S3 にコピーされたファイルは不要になります。

完了したら SageMaker Canvas からログアウトし、再び使用する準備ができたら再起動できます。

 

まとめ

既存の SageMaker Data Wrangler flows を SageMaker Canvas に移行するのは簡単です。これにより、SageMaker Canvas のエンドツーエンドでコード不要の機械学習ワークフローを活用しながら、すでに開発したデータ準備のフローを使用できます。この記事で解説した手順に従うことで、データセットを変換する処理を SageMaker Canvas 環境にシームレスに移行できます。これにより、MLプロジェクトが合理化され、ビジネスアナリストや技術者以外のユーザーがより効率的にモデルを構築してデプロイできるようになります。

今すぐ SageMaker Canvas の活用を始めて、データ準備、モデル構築、デプロイのための統合プラットフォームの力を体験してください!

著者について

Charles Laughlin は、アマゾンウェブサービス(AWS)の主任AIスペシャリストです。Charles はサプライチェーン管理の修士号とデータサイエンスの博士号を取得しています。Charles は Amazon SageMaker サービスチームで働いており、リサーチやお客様の声をサービスロードマップの参考にしています。仕事では毎日、さまざまな AWS のお客様と協力して、最先端の AWS テクノロジーとソートリーダーシップでお客様のビジネスの変革を支援しています。

 

Dan Sinnreich は Amazon SageMaker のシニアプロダクトマネージャーで、ノーコード/ローコードサービスの拡大に注力しています。彼は ML とジェネレーティブ AI をより身近なものにし、それらを応用して困難な問題を解決することに専念しています。仕事以外では、ホッケー、スキューバダイビング、サイエンスフィクションを読んだりしています。

 

Huong Nguyen は AWS のシニアプロダクトマネージャーです。SageMaker Canvas と SageMaker データラングラーの機械学習データ準備を率いており、15 年にわたり顧客中心のデータ主導型の製品を構築してきた経験があります。

 

Davide Gallitelli は、EMEA地域のAI/MLのスペシャリストソリューションアーキテクトです。ブリュッセルを拠点とし、ベネルクス全域のお客様と緊密に連携しています。彼は幼い頃からデベロッパーとして活躍し、7 歳でコーディングを始めました。彼は大学卒業後にAI/MLを学び始め、それ以来ずっとAI/MLに夢中になっています。

 

翻訳は Solution Architect の Masanari Ikuta が担当しました。原文はこちらです