Amazon Web Services ブログ

SK Telecom が Amazon Bedrock で Anthropic の Claude モデルをカスタマイズし、通信業界特有の Q&A を改善

この投稿は、SK テレコムの Seunghyun Jeong、Sunwoo Lee、Eric Davis と共同執筆した「SK Telecom improves telco-specific Q&A by fine-tuning Anthropic’s Claude models in Amazon Bedrock」を翻訳したものとなります。

SK Telecom(SKT)は、3,000 万人の顧客にサービスを提供する韓国の主要な通信会社で、AI イノベーションの最前線に立っています。SKT は、いつでもどこでも誰でも AI の可能性を引き出すことを目指す AI ピラミッド戦略に沿って、AWS Generative AI Innovation Center(GenAIIC)カスタムモデルプログラムと協力し、通信業界特有のユースケースのために Amazon Bedrock を使用してドメインに特化した訓練モデルを探求しています。

このコラボレーションは、AI の専門知識と戦略的パートナーシップを活用して革新的な AI ベースの製品やサービスを開発するという SKT のビジョンに沿ったものです。そのような取り組みの1つとして、参考文書に基づいた根拠のある質疑応答(Q&A)のためのカスタムソリューションの開発に焦点を当てました。

検索拡張生成(RAG)は Q&A タスクに人気のある技術で、事実の正確性と知識の根拠付けを向上させます。しかし、RAG は通信業界のユースケースに適した好ましいトーン、スタイル、マナーに合致した応答を生成することや、関連性のない文書を取得してしまい、不正確な応答につながる可能性があるという課題に直面しています。これに対処するため、SKT と AWS GenAIIC は、Amazon Bedrock での Anthropic Claude モデルを以下の3つの重要な分野で改善するためにモデルのカスタマイズを目指しました:

  • 簡潔で有益な回答の提供
  • 取得した文書からリンクを正しく参照すること
  • SKT に一致し、正解の回答に似たトーンとスタイルで回答すること

さらに、チームは知識蒸留と限られたラベル付き訓練データのシナリオのために、より大きな大規模言語モデル(LLM)によって生成された合成データを使用して、より小さなモデルのパフォーマンスを向上させることを探求しました。

Amazon Bedrock は、様々な LLM や基盤モデル(FM)を提供するフルマネージドサービスで、Amazon Bedrock Knowledge Bases、Amazon Bedrock Agents、Amazon Bedrock Guardrails などの機能を備えており、多くの生成 AI ユースケースを迅速に実現できます。Amazon Bedrock は、Claude モデルをファインチューニングする機能を提供する唯一のフルマネージドサービスです。Amazon Bedrock は、Anthropic の Claude モデルなどを直感的かつ安全にファインチューニングする方法を提供します。ファインチューニングされた Claude モデルは Amazon Bedrock を使用してデプロイでき、例えば通信業界特有の RAG のための Amazon Bedrock Knowledge Bases や、エージェント使用のための Amazon Bedrock Agents など、Amazon Bedrock の機能をシームレスに利用できます。

この記事では、SKT が Amazon Bedrock を使用して、SKT の電気通信関係の技術文書に関する通信業界特有の Q&A のために Anthropic Claude モデルをカスタマイズする方法を共有します。

ソリューション概要

チームは、プロンプト最適化、カスタマイズ(ファインチューニング)、合成データによるデータ拡張の組み合わせを探求しました。この多面的なアプローチは、根拠のある Q&A 生成タスクに対して各技術の利点を最大化することを目指しました。

以下のセクションでは、これらの方法をより詳しく探ります。

プロンプト最適化を伴う Anthropic の Claude カスタマイズ

Amazon Bedrock を通じて Anthropic の Claude を含む様々な FM で利用可能なファインチューニングは、事前学習された言語モデルを特定のユースケースに対して適応させられます。これは特に、応答スタイルとフォーマットの遵守を調整するのに効果的です。

チームはまず、システムプロンプトを最適化し、Anthropic モデルのプロンプト設定のベストプラクティスに基づいて、回答のフォーマットと文書の引用に関する標準化されたガイドラインを実装しました。主な焦点分野は以下の通りです:

  • システムコマンドの明確な提示
  • コードブロックフォーマットの一貫した使用
  • コンテキストに基づいてカスタマイズされた応答

このプロンプトエンジニアリングとファインチューニングの組み合わせにより、精度が大幅に改善しました:

  • ROUGE-3 スコアが 50% 以上増加
  • ROUGE-L スコアが 25% 以上改善
  • 埋め込み類似度スコアが 4% 以上増加
  • 正確な参考文献の引用に大幅な改善

反復的な改善プロセスは累積的な利点を示しました。プロンプトの更新だけで主要な指標で 35-40% の改善を示し、最終的にカスタマイズされたモデルでは一部の指標で 50-60% の改善が見られました。

この進歩は、RAG、プロンプトエンジニアリング、ファインチューニングを通じたモデルカスタマイズの累積的な利点を明確に示しています。ROUGE スコアと引用の精度の面で、ベースラインとプロンプトの更新バージョンの両方を大幅に上回るモデルになりました。ROUGE スコアは、N-gram の単語のオーバーラップを計算することにより、正解と生成された結果の類似性を測定します。以下の表はこれらの改善をまとめたものです。

LLM プロンプトの更新 ファインチューニング ベースライン(baseline)からの改善割合
ROUGE-3 ROUGE-L 引用の精度
Anthropic’s Claude 3 Sonnet baseline baseline baseline
Anthropic’s Claude 3 Sonnet +38.30% +13.4% +52.94%
Anthropic’s Claude 3 Sonnet +58.1% +26.8% +70.59%

ファインチューニングのための合成データ

高品質なラベル付き訓練データが限られているという課題に対処するため、チームは合成データの生成技術を探求しました。このアプローチは、より大きな LLM からより小さな、より対象を絞ったモデルへの知識蒸留も促進し、レイテンシーとコストの低減などの利点をもたらします。

チームは以下を使用して制御された実験を行いました:

  • 500 個の正解サンプルからなるベースラインセット
  • 500 個のオリジナルサンプルと 1,500 個の合成データのサンプルを含む拡張セット
  • 2,000 個のオリジナルサンプルからなる、より大きなセット

合成データは Anthropic の Claude Sonnet 3 を使用して生成され、正解例で使用されたのと同じ取得文書に対して新しい質問と回答のペアを作成しました。

結果は LLM ベースの比較と人間の選好評価の両方を使用して評価されました。人間の評価者は、どのモデルの出力かをみずにランク付けし、選好に基づいてスコアを割り当てました(最良:4、2 番目:3、3 番目:2、最悪:1)。以下の表は、人間の選好評価スコアの結果を示しています。

ランク モデル 累積スコア
(ベストスコア:160)
1 2,000 個のオリジナルサンプルでファインチューニング 114
2 500 個のオリジナルサンプルと 1,500 個の合成データのサンプルでファインチューニング 112
3 500 個のオリジナルサンプルでファインチューニング 85
4 ファインチューニングなし(ベースライン) 84

次のような発見がありました:

  • 小さな訓練セット(500 個のサンプル)はベースラインに対してわずかな改善しか示さなかった
  • より大きな訓練セット(2,000 個のサンプル)は大幅に高いスコアを示した
  • 合成的に拡張されたデータは、同等のサイズのオリジナルデータと同様のパフォーマンスを示した

ドメイン特有の大量の訓練データを持つことが常に理想的ですが、多くの企業は利用可能なデータセットが限られています。そのようなシナリオでは、合成データがオリジナルデータの代わりに重要な役割を果たすことができます。これは、モデルのカスタマイズにおける合成データの可能性を示しています。

結論

SK Telecom と AWS GenAIIC の協力は、通信業界の課題に対する革新的な AI ソリューションを開発するという同社のコミットメントを示しています。Amazon Bedrock を使用して Anthropic の Claude モデルをカスタマイズすることで、SKT は一からモデルを構築する必要なく、通信業界特有の韓国語ユースケースに対して大幅なパフォーマンスの向上を達成しました。実証実験では以下の大幅な改善が示されました:

  • ROUGE-3 スコアが約 58% 増加
  • ROUGE-L スコアが約 27% 増加
  • 正しい参照文書のリンクを返すことに大幅な改善

この合成データ生成技術と組み合わせたアプローチは、SKT の AI ピラミッド戦略に沿っており、新しいアプローチのより迅速なテストと開発を可能にします。SKT が個人向け AI アシスタント、AI ヘルスケア、AI データセンターなどの主要分野に引き続き焦点を当てる中、AWS とのこの協力は、彼らの AI 進化とグローバル AI 環境における長期的な競争力において重要な一歩を表しています。

AWS と同様のプロジェクトに取り組むことに興味がある方は、Generative AI イノベーションセンターをご覧ください。

翻訳はソリューションアーキテクト菊地が担当しました。


著者について

Sungmin Hong は、AWS Generative AI イノベーションセンターのシニア応用科学者で、AWS の顧客の多様なユースケースの迅速化を支援しています。Amazon に入社する前は、ハーバード医科大学のポスドクの研究員でした。ニューヨーク大学でコンピューターサイエンスの博士号を取得しています。仕事以外では、ハイキング、読書、料理を楽しんでいます。

Sujeong Cha は、AWS Generative AI イノベーションセンターのディープラーニングアーキテクトで、モデルのカスタマイズと最適化を専門としています。生成 AI や従来の AI/ML ソリューションを活用して、顧客のビジネスユースケースを解決する豊富な実践経験を持っています。ニューヨーク大学でデータサイエンスの修士号を取得しています。

Arijit Ghosh Chowdhury は、AWS Generative AI イノベーションセンターの科学者で、モデルのカスタマイズと最適化に取り組んでいます。彼のロールでは、様々な業界向けに生成 AI を実現するためのファインチューニングとモデル評価の応用研究に取り組んでいます。イリノイ大学アーバナ・シャンペーン校でコンピューターサイエンスの修士号を取得しており、その研究は質問応答、検索、ドメイン適応に焦点を当てていました。

Yiyue Qian は、AWS Generative AI イノベーションセンターの応用科学者 II で、AWS の顧客に生成 AI ソリューションを提供するサポートを行っています。この役割では、専門家チームと協力して、様々な業界の AWS 顧客向けに革新的な AI 駆動モデルを開発しています。ノートルダム大学でコンピューターサイエンスの博士号を取得しており、その研究は高度な機械学習とディープラーニング技術に焦点を当てていました。

Wei-Chih Chen は、AWS Generative AI イノベーションセンターの機械学習エンジニアで、LLM のモデルカスタマイズと最適化に取り組んでいます。また、チームが LLM 開発ライフサイクルのさまざまな側面(ファインチューニング、ベンチマーキング、負荷テストを含む)に取り組むのを支援するツールを構築し、AWS 顧客の多様なユースケースの採用を加速しています。カリフォルニア大学デービス校でコンピューターサイエンスの修士号を取得しています。

Hannah Marlowe は、AWS Generative AI イノベーションセンターのモデルカスタマイズ部門のシニアマネージャーです。彼女のチームは、顧客が独自の専有データを使用して差別化された生成 AI ソリューションを開発し、重要なビジネス成果を達成するのを支援することを専門としています。アイオワ大学で物理学の博士号を取得し、天文学の X 線分析と機器開発に焦点を当てていました。仕事以外では、コロラド州の山々でハイキング、マウンテンバイク、スキーを楽しんでいます。

Seunghyun Jeong(Steve) は、SKT のプラットフォームアプリケーションチームのチームリーダーです。AI モデルとツールを提供する Global Intelligence Platform(GIP)の商業化を担当しています。キャリアの大半で、モバイルウォレット、ファッションストリーミング、統合ログインサービスなど、SK の様々なモバイルサービスを開発する PM を務めてきました。彼のチームは、内部チームが AI を適用しやすくするためにモデルと機能の提供を拡大し、SKT の AI トランスフォーメーションに貢献しています。AI 分野に入る前は、米国と韓国向けのモバイルウォレット、ファッションストリーミング、統合ログインサービスなど、様々なモバイルサービスを開発・運営するプロダクトマネージャーでした。

Sunwoo Lee(Lois) は、SK Telecom の Global AI Tech 部門内のデータ構築・評価チームのチームリーダーです。言語モデルのトレーニングデータの設計と構築、モデルパフォーマンス評価プロセス、およびそのサービスへの適用を監督しています。彼女のキャリアは IT 内の NLP に焦点を当てており、言語学と韓国語教育のバックグラウンドとよく合致しています。世界クラスのチームと共に、言語モデルトレーニングのデータ設計の最適化方法、言語モデルのパフォーマンスを検証するためのタスクと方法の実装、AI と人間の会話の最適な設計など、魅力的な問題の探求と解決を続けています。

Eric Davis は、SKT の AI Tech Collaboration Group の副社長です。Eric は世界中のテクノロジーパートナーとの技術コラボレーションを監督し、通信ドメイン向けに大規模言語モデル(LLM)をカスタマイズしています。彼のチームは、LLM を調整するためのデータセットの設計と構築、および一般的な LLM と通信ドメイン向けの LLM のベンチマーキングを担当しています。Eric はカーネギーメロン大学の言語技術研究所でコンピューターサイエンスの理学修士号を、カリフォルニア大学ロサンゼルス校で言語学と心理学の文学士号を取得しています。