責任ある AI に関する新しいツール、機能、リソースにより AI の信頼を促進する

本ブログは 2024 年 12 月 5 日に公開された「Advancing AI trust with new responsible AI tools, capabilities, and resources」を翻訳したものです。

生成 AI がさまざまな業界や私たちの日常生活にわたって革新を続ける中、責任ある AI の必要性がますます重要になってきています。AWS では、AI の長期的な成功は、ユーザー、顧客、そして社会からの信頼を得る能力にかかっていると考えています。この信念は、AI を責任を持って構築し使用するという私たちの長年のコミットメントの中心にあります。責任ある AI とは、リスクを軽減し、関連する基準や規制に適合させることにとどまりません。それは積極的に信頼を構築し、ビジネス価値を促進する AI の潜在能力を引き出すことです。責任ある AI への包括的なアプローチは、組織が大胆に革新し、変革的なビジネス成果を達成する力を与えます。Accenture と AWS が実施した新たな共同調査はこの点を裏付けており、責任ある AI がビジネス価値の重要な推進力であることを強調しています。製品品質、業務効率、顧客のロイヤルティ、ブランド認知度などを向上させるのです。調査対象企業のほぼ半数が、AI 関連の収益成長を推進する上で責任ある AI が重要であると認識しています。なぜでしょうか？責任ある AI は信頼を構築し、その信頼が AI の採用とイノベーションを加速させるからです。

信頼が AI 導入の礎となる中、私たちは AWS re:Invent 2024 で責任ある AI に関する新しいツール、機能、リソースの発表をお知らせします。これらは、私たちの AI サービスとモデルの安全性、セキュリティ、透明性を向上させ、お客様自身の責任ある AI の取り組みをサポートするものです。

AI のリスクを管理し、信頼と相互運用性を育むための積極的な取り組みを行う

AWS は、主要なクラウドサービスプロバイダーとして初めて、Amazon Bedrock、Amazon Q Business、Amazon Textract、Amazon Transcribe を対象とする AI サービスに関する ISO/IEC 42001 認証取得を発表しました。ISO/IEC 42001 は、組織がライフサイクルを通じて責任を持って AI システムを管理するための要件を概説する国際的なマネジメントシステム規格です。ISO/IEC 42001 のような技術的な規格は、責任ある AI の開発と展開のための共通的なフレームワークを提供し、ますますグローバル化し AI ドリブンな技術環境における信頼性と相互運用性を育むために重要です。ISO/IEC 42001 認証を取得したということは、AWS が AI の開発、展開、運用に関連するリスクと機会を管理するために積極的な措置を講じていることを、独立した第三者が検証したことを意味します。この認証により、AWS はお客様が AI を活用して責任を持ってイノベーションを実現できるよう、AI サービスの提供に対するコミットメントを強化します。

Amazon Bedrock ガードレールでの安全対策を拡張し、透明性と安全性を改善する

（訳者注：2024 年 12 月 20 日時点で、Amazon Bedrock ガードレールは英語のみをサポートしています）

2024 年 4 月に、Amazon Bedrock ガードレールの一般提供を発表しました。これにより、生成 AI アプリケーションに対する安全性と責任ある AI チェックの適用が容易になりました。Amazon Bedrock ガードレールは、基盤モデル（FM）が提供するネイティブな保護機能に加えて、有害なコンテンツを最大 85% 以上ブロックし、検索拡張生成（RAG）や要約のユースケースにおいてコンテキストに基づくグラウンディングチェックを使用してモデルからのハルシネーションを含む応答を 75% 以上フィルタリングすることで、業界をリードする安全性の保護を提供します。これらの安全対策を実装する能力は、AI システムへの信頼構築において大きな一歩でした。FM の進歩にもかかわらず、モデルはまだハルシネーションを生み出す可能性があり、これは多くのお客様が直面している課題です。正確性が重要なユースケースでは、お客様は数学的に健全な技術と説明可能な推論を使用して、正確な FM の応答を生成する必要があります。

このニーズに対応するため、私たちは Amazon Bedrock ガードレールに新しい安全対策を追加しています。これにより、FM のハルシネーションによる事実誤認を防ぎ、検証可能な証明を提供することを目指しています。Amazon Bedrock ガードレールの自動推論チェック（プレビュー）をローンチすることで、AWS は主要なクラウドプロバイダーとして初めて、生成 AI サービスに自動推論を統合しました。自動推論チェックは、健全な数学的・論理的アルゴリズムによる検証と推論プロセスを使用して、モデルが生成した情報を検証します。これにより、出力はハルシネーションや矛盾したデータにを基にせず、提供された事実に沿ったものとなります。プロンプトエンジニアリング、RAG、コンテキストに基づくグラウンディングチェックなどの他の技術と併用することで、自動推論チェックは LLM が生成する出力の精度を向上させるためのより厳密で検証可能なアプローチを追加します。ドメイン知識を構造化されたポリシーにエンコードすることで、会話型 AI アプリケーションがユーザーに信頼性の高い情報を提供することができます（訳者注：自動推論チェックを利用する過程で、組織のルール、手順、ガイドラインを構造化された数学形式にエンコードする自動推論ポリシーを作成できます。その後、これらのポリシーを使用して、LLM を利用したアプリケーションによって生成されたコンテンツがガイドラインと一致していることを確認できます。）。

以下の画像をクリックすると、Amazon Bedrock ガードレールにおける自動推論チェックのデモをご覧いただけます。

ビジネス価値の促進、意思決定の改善、カスタマーエクスペリエンスの向上を目的として、マルチモーダルデータを含むアプリケーションを使用する組織が増えるにつれ、コンテンツフィルターの必要性はテキストだけにとどまりません。Amazon Bedrock ガードレールは現在、画像コンテンツに対するマルチモーダルの有害性検出（プレビュー）をサポートしています。これは組織が安全で関連性のある視覚的要素を保持しながら、望ましくない潜在的に有害な画像コンテンツを検出してフィルタリングするのに役立ちます。マルチモーダルでの有害性検出は、画像データ用の独自の安全対策を構築したり、エラーが発生しやすく退屈な手動評価に時間を費やしたりする必要性を軽減します。Amazon Bedrock ガードレールは、ユーザーとの信頼関係を構築するのに役立ち、責任を持って生成 AI アプリケーションを作成するのを支援します。

新しい Amazon Bedrock の評価機能により生成 AI アプリケーションの応答と品質を改善する

より多くの汎用 FM が選択できるようになり、組織は現在、生成 AI アプリケーションを強化するための幅広い選択肢を持っています。しかし、特定のユースケースに最適なモデルを選択するには、組織が必要とする品質と責任ある AI の指標に基づいてモデルを効率的に比較する必要があります。評価は信頼性と透明性を構築する上で重要な部分ですが、新しいユースケースごとに多大な時間、専門知識、リソースを要するため、最も正確で安全な顧客体験を提供するモデルを選択することが困難になっています。Amazon Bedrock Evaluations によりユースケースに最適な FM を評価、比較、選択できることでこの課題に対応します。現在、モデル評価に LLM-as-a-judge（プレビュー）を使用して、データセットに対して人間のような品質でテストを実行し、評価対象とする他のモデルを評価できます。Amazon Bedrock でホストされているさまざまな LLM から “judge“ を選択でき、正確性、完全性、有害性などの品質と責任ある AI の指標が用意されています。また、独自のプロンプトデータセットを持ち込んでデータを使用して評価をカスタマイズし、評価ジョブ間で結果を比較してより迅速に決定を下すことができます。以前は、人間によるモデル評価と、完全一致や他の従来の自然言語処理（NLP）指標を使用した自動評価のいずれかを選択する必要がありました。これらの方法は高速でしたが、人間の評価者との強い相関関係はありませんでした。現在、LLM-as-a-judge を使用することで、完全な人間ベースの評価よりもはるかに低コストで人間のような評価品質を得ることができ、最大数週間の時間を節約できます。多くの組織は依然として、最終的な評価を専門家の人間のアノテーターから得ることを望んでいます（訳者注：アノテーションとは分析対象データに対してラベルを付与することを指し、これを行う役割をアノテーターといいます）。このため、Amazon Bedrockは引き続き、独自の作業チームを利用する、または AWS がカスタム評価を管理する、人間ベースの評価のオプションを提供しています。

FM に最新の、また独自の情報を提供するために、組織は RAG を使用します。これは会社のデータソースからデータを取得し、プロンプトを強化してより関連性の高い正確な応答を提供する技術です。しかし、検索と生成のコンポーネントを最適化する複雑さのため、RAG アプリケーションの評価と最適化は困難な場合があります。これに対処するため、Amazon Bedrock ナレッジベースに対する RAG 評価をサポートしました（プレビュー中）。この新しい評価機能により、データと LLM がすでに存在する環境で、RAG アプリケーションを便利かつ迅速に評価および最適化できるようになりました。LLM-as-judge の技術を活用した RAG 評価は、複数の評価用モデルと、コンテキストの関連性、コンテキストのカバレッジ、正確性、忠実性（ハルシネーションの検出）などの複数の指標を選択できます。このシームレスな統合により、定期的な評価が促進され、AI アプリケーション開発における継続的な改善と透明性の文化が育成されます。人間ベースの評価と比較してコストと時間の両方を節約することで、これらのツールは組織が AI アプリケーションを強化し、一貫した改善を通じて信頼を構築することを可能にします。

モデルと RAG の評価機能は、いずれも出力ファイルと AWS マネジメントコンソール上で各スコアに対する自然言語の説明を提供します。スコアは解釈しやすいように 0 から 1 に正規化されています。非科学者でもスコアの導出方法を理解できるように、評価基準は評価用プロンプトとともにドキュメントに完全に公開されています。モデルと RAG の評価機能の詳細については、ニュースブログをご覧ください。

責任ある AI をコアとして構築された Amazon Nova の紹介

Amazon Nova は、最先端の知能と業界をリードするコストパフォーマンスを提供する、最先端の FM です。Amazon Nova FM には、データから有害なコンテンツを検出して削除し、不適切なユーザー入力を拒否し、モデル出力をフィルタリングするための組み込みの安全対策が搭載されています。私たちは、責任ある AI のディメンションを一連の設計目標として具体化し、初期のデータ収集と事前トレーニングからモデルのアライメント、そして展開後のランタイム緩和策の実装に至るまで、モデル開発ライフサイクル全体を通じて意思決定の指針としています。Amazon Nova Canvas とAmazon Nova Reel には、責任ある AI を用いて安全性、セキュリティ、知的財産のニーズをサポートするコントロールが付属しています。これには、ウォーターマークの付与、コンテンツモデレーション、そして C2PA サポート（Amazon Nova Canvas で利用可能）が含まれ、生成された画像にデフォルトでメタデータを追加します。誤情報の拡散、児童性的虐待のコンテンツ（CSAM）、化学・生物・放射線・核（CBRN）リスクに対抗する Amazon の安全対策は、Amazon Nova モデルにも適用されています。Amazon Nova がどのように責任を持って構築されたかについての詳細は、Amazon Science ブログをご確認ください。

責任ある生成 AI を推進するための新しいリソースにより透明性を強化する

re:Invent 2024 で、Amazon の FM の透明性を高めるために、Amazon Nova Reel、Amazon Canvas、Amazon Nova Micro, Lite, and Pro、Amazon Titan Image Generator、および Amazon Titan Text Embeddings の新しい AWS AI サービスカードの提供を発表しました。これらのカードは、意図されたユースケース、制限事項、責任ある AI 設計の選択、および導入とパフォーマンス最適化のためのベストプラクティスに関する包括的な情報を提供します。Amazon の責任ある AI ドキュメンテーションの重要な構成要素である AI サービスカードは、公平さ、説明可能性、プライバシーとセキュリティ、安全性、制御性、正確性と堅牢性、ガバナンス、透明性に取り組む責任ある方法でサービスを構築するために私たちが行う開発プロセスを理解するための一元化されたリソースを、お客様と幅広い AI コミュニティに提供します。生成 AI が成長し進化し続ける中、技術がどのように開発、テスト、使用されるかについての透明性は、組織とその顧客の信頼を得るための重要な要素となるでしょう。AI の透明性を促進するリソースとして、全 16 の AI サービスカードをご覧いただけます（訳者注：最新のリソースを確認するには、上記 URL にアクセスした後、画面上部から英語に切り替えてください。日本語では最新の情報が表示されない場合があります）。

また、AWS の AI の責任ある利用のガイドも更新されました。このドキュメントでは、AI に関する広範な学びと経験に基づいて、AI システムを責任を持って設計、開発、導入、運用するための考慮事項について説明します。これは、ビルダー、意思決定者、エンドユーザーを含む（ただしこれらに限定されない）多様な AI ステークホルダーと視点を念頭に置いて作成されました。AWS では、このような透明性の高いリソースをより広いコミュニティに提供し続け、最善の方法について繰り返しフィードバックを集めることに全力を注いでいます。

信頼を最優先に、画期的なイノベーションを提供する

AWS では、AI への信頼を高め、あらゆる規模の組織が AI を効果的かつ責任を持って構築して使用できるようにすることに尽力しています。今週の re:Invent で責任ある AI のイノベーションが発表されました。Amazon Bedrock の新しい安全対策や評価手法から、最先端の Amazon Nova FM、ISO/IEC 42001 認証や新しい AWS AI サービスカードによる信頼と透明性の醸成まで、生成 AI で責任を持ってイノベーションを起こし、価値を引き出すのに役立つツール、リソース、組み込みの保護機能が豊富に用意されています。

次の新しいツールとリソースを是非お試しください。

AWS は ISO/IEC 42001 AI マネジメントシステムの認証を取得しました
数学的に正しい自動推論チェックにより、LLM のハルシネーションによる事実ミスを防ぐ (プレビュー)
Amazon Bedrock Guardrails が画像サポートによるマルチモーダル毒性検出をサポートするようになりました (プレビュー)
Amazon Bedrock の新しい RAG evaluation と LLM-as-a-judge 機能（リンク先は英語です）
Amazon Nova と責任ある AI への私たちのコミットメント（リンク先は英語です）
責任ある AI を理論から実践に変える（AWS ウェブサイト）
AWS AI Service Cards（訳者注：最新情報をご確認いただくためにリンク先の英語版のページをご確認ください）
AWS の AI の責任ある利用のガイド（リンク先は英語です）

著者について

Dr. Baskar Sridharan 博士は、AI/ML およびデータサービス・インフラストラクチャーの副社長で、Bedrock、SageMaker、そして EMR、Athena、Glue などの重要なデータプラットフォームを含む主要サービスの戦略的方向性と開発を統括しています。

Peter Hallinan は、責任ある AI の専門家チームと共に、AWS AI における責任ある AI の科学と実践に関するイニシアチブを主導しています。彼は AI（ハーバード大学博士号）と起業（Blindsight、Amazon に売却）に深い専門知識を持っています。彼のボランティア活動には、スタンフォード大学医学部の客員教授や、マダガスカルのアメリカ商工会議所の会長も含まれます。時間があれば、子供たち山に出かけ、スキー、クライミング、ハイキング、ラフティングを楽しみます。

翻訳はプロフェッショナルサービス本部の藤浦雄大が担当しました。

Amazon Web Services ブログ