Amazon SageMaker Clarify

モデルの評価とモデル予測の説明

Amazon SageMaker Clarify とは何ですか?

SageMaker Clarify のメリット

正確性、堅牢性、毒性などの指標を使用して、お客様の生成 AI のユースケースで使用する FM を自動的に評価し、責任ある AI イニシアチブをサポートします。高度な人間による判断を必要とする基準や微妙な内容については、自社の労働力を活用するか、AWS が提供するマネージド人材を使用してモデルレスポンスを確認するかを選択できます。
モデル開発と推論の際に、入力した特徴量がモデル予測にどのように寄与するかを説明します。自動評価と人間ベースの評価を使用して、カスタマイズ中に FM を評価します。
FM カスタマイズと MLOps ワークフロー全体を通じて、わかりやすい指標、レポート、例を生成します。
ISO 42001などのガイドラインで規定されているように、データの準備中、モデルのカスタマイズ中、および導入モデルにおける潜在的なバイアスやその他のリスクを検出します。

基盤モデルを評価する

評価ウィザードとレポート

評価を開始するには、モデル、タスク、評価タイプ (人間ベースまたは自動レポート) を選択します。評価結果を利用して、ユースケースに最適なモデルを選択し、プロンプトエンジニアリング、人間のフィードバックによる強化学習 (RLHF)、検索拡張生成 (RAG)、教師あり微調整 (SFT) などのモデルカスタマイズ手法の影響を定量化します。評価レポートは複数の側面にわたるスコアを要約し、迅速な比較と決定を可能にします。より詳細なレポートには、スコアの高いモデル出力と最も低いスコアのモデル出力の例が示されるため、さらに最適化すべき点に集中できます。
評価ウィザードとレポート

カスタマイズ

Crows-Pairs、TriviaQA、WikiText などの厳選されたデータセットと、BERT スコア、ROUGE、F1 などの厳選されたアルゴリズムを使って、すぐに使用を開始しましょう。自社の生成 AI アプリケーションに合わせてプロンプトデータセットとスコアリングアルゴリズムをカスタマイズできます。自動評価は、GitHub のオープンソースライブラリとしても利用できるため、どこでも実行できます。サンプルノートブックには、AWS でホストされていないモデルを含め、あらゆる FM の評価をプログラムを使用して実行する方法や、SageMaker MLOps や SageMaker Pipelines、SageMaker Model Registry、SageMaker Model Cards などのガバナンスツールと FM 評価を統合する方法が示されています。
カスタマイズ

人間ベースの評価

評価基準の中には、微妙な違いや主観的なものもあり、評価には人間の判断が必要です。自動化されたメトリクスベースの評価に加えて、人間 (自社の従業員または AWS が管理する評価チーム) に、有用性、トーン、ブランドボイスの順守などの側面でモデルのアウトプットを評価してもらうこともできます。人間の評価担当者は、企業固有のガイドライン、命名法、ブランドボイスとの整合性をチェックすることもできます。カスタムインストラクションを設定して、評価チームにプロンプトの評価方法を指示します。たとえば、ランク付けや高評価/低評価を示すなどです。
人間ベースの評価

モデル品質評価

自動評価および/または人間による評価を使用して、FM が特定の生成 AI タスクに対して高品質な応答を提供しているかどうかを評価します。要約、質問応答 (Q&A)、分類などの特定の生成 AI タスクに合わせた、特定の評価アルゴリズム (Bert スコア、ROUGE、F1 など) を使用してモデルの精度を評価します。ButterFingers、ランダムな大文字、空白の追加と削除など、入力に対するセマンティック保存のための摂動を提示した際に、FM 出力のセマンティックな堅牢性を確認します。
モデル品質評価

モデル責任評価

FMが人種/肌の色、性別/性同一性、性的指向、宗教、年齢、国籍、障害、外見、社会経済的地位のカテゴリーに沿ってステレオタイプをエンコードしたリスクを、自動評価または人間ベースの評価を使用して評価します。有毒物質のリスクを評価することもできます。これらの評価は、自由形式の生成、要約、質疑応答など、コンテンツの生成を伴うあらゆるタスクに適用できます。

モデル責任評価

モデル予測

モデル予測を説明する

SageMaker Clarify は SageMaker Experiments と統合されており、表形式、自然言語処理 (NLP)、およびコンピュータビジョンモデルの特定の入力に関するモデル予測に最も寄与する特徴量の詳細を示すスコアを得ることができます。表形式のデータセットの場合は、SageMaker Clarify で特徴量重要度の集約図を出力することもできます。この図によって、モデルの予測プロセス全体についてのインサイトが得られます。これらの詳細は、特定のモデル入力がモデル全体の動作に予想以上の影響を与えるかどうかを判断するのに役立ちます。
SageMaker Experiments でトレーニングされたモデルの特徴の重要度グラフのスクリーンショット

動作の変化についてモデルをモニタリングする

実データが変化すると、新しいモデルの動作が起こることがあります。例えば、ある地理的リージョンのデータでトレーニングされた信用リスク予測モデルでは、他のリージョンのデータに適用された場合、さまざまな特徴量に割り当てられた重要度が変化することがあります。SageMaker Clarify は SageMaker Model Monitor と統合されており、入力特徴量の重要度が変化してモデルの動作が変化した場合に、CloudWatch などのアラートシステムを使用してユーザーに通知されます。
SageMaker Model Monitor での特徴の重要度のモニタリングのスクリーンショット

バイアスを検出

データの不均衡を特定する

SageMaker Clarify を使用すると、コードを書かなくてもデータ準備中に潜在的な偏見を特定できます。性別や年齢などの入力特徴量を指定すると、SageMaker Clarify で分析ジョブが実行され、これらの特徴量の潜在的バイアスが検出されます。潜在的バイアスのメトリクスと測定結果の説明を含む視覚的なレポートが SageMaker Clarify から出力されるので、バイアスを修正する手順を特定できます。バランスが悪い場合は、SageMaker Data Wrangler を使用してデータのバランスを取ることができます。SageMaker Data Wrangler には、バランスさせる操作が 3 つあります。ランダムアンダーサンプリング、ランダムオーバーサンプリング、および SMOTE の 3 つのバランシング演算子を提供し、不均衡なデータセットのデータをバランス化します。

SageMaker Data Wrangler でのデータ準備中のバイアスメトリクスのスクリーンショット

トレーニングされたモデルのバイアスを確認する

モデルのトレーニングをした後、 Amazon SageMaker Experiments で SageMaker Clarify バイアス分析を実行して、あるグループに対して他のグループよりも否定的な結果を出すことが多いといった潜在的なバイアスがモデルにあるかどうかを確認できます。モデル結果の偏りを測定したい入力特徴を指定すると、SageMaker が分析を実行して、各特徴のさまざまなタイプの偏りを識別する視覚的なレポートを提供します。AWS のオープンソースメソッドである Fair Bayesian Optimization は、モデルのハイパーパラメータを調整することによってバイアスを軽減するのに役立ちます。

SageMaker Experiments でトレーニングされたモデルのバイアスメトリクスのスクリーンショット

デプロイしたモデルの偏りをモニタリング

デプロイされているときにモデルが参照する実データとトレーニングデータが異なる場合に、デプロイされた ML モデルにバイアスが発生したり悪化したりすることがあります。例えば、モデルのトレーニング時の住宅ローン金利と現在の金利が異なると、住宅価格を予測するモデルの出力にバイアスが発生することがあります。SageMaker Clarify のバイアス検出機能は Amazon SageMaker Model Monitor と統合します。これにより、SageMaker が一定のしきい値を超えるバイアスを検出した場合、Amazon SageMaker Studio および Amazon CloudWatch メトリクスとアラームを通じて表示できるメトリクスを自動的に生成します。

SageMaker Model Monitor でのバイアスモニタリングのスクリーンショット

最新情報

  • 日付 (新しい順)
結果が見つかりません
1