Amazon Web Services ブログ
Amazon Bedrock での Anthropic のアップグレードされた Claude 3.5 Sonnet (今すぐ利用可能)、Computer Use (パブリックベータ)、Claude 3.5 Haiku (近日提供予定)
4 か月前、AWS は Amazon Bedrock に Anthropic の Claude 3.5 を導入して、Claude 3 Sonnet のスピードとコストを維持しながら、AI モデルインテリジェンスの業界水準を引き上げました。
10 月 22 日は、Amazon Bedrock で利用できる Claude 3.5 モデルファミリーの 3 つの新しい機能をご紹介したいと思います。
アップグレードされた Claude 3.5 Sonnet – 前バージョンの長所をさらに強化し、より優れたインテリジェンスを同じコストで提供する、アップグレードされた Claude 3.5 Sonnet モデルにアクセスできるようになりました。Claude 3.5 Sonnet は、現実世界のソフトウェアエンジニアリングタスクを解決し、複雑なエージェント型ワークフローに従う能力を絶えず向上させています。アップグレードされた Claude 3.5 Sonnet は、初期設計からバグ修正、メンテナンス、そして最適化まで、ソフトウェア開発ライフサイクルの全体を支援します。これらの機能でアップグレードされた Claude 3.5 Sonnet モデルは、温かみのある人間のような口調で話す、より高度なチャットボットの構築に役立ちます。アップグレードされたモデルが能力を発揮するその他のユースケースには、ナレッジ Q&A プラットフォーム、グラフや図などの視覚的素材からのデータ抽出、反復的なタスクや操作の自動化などがあります。
Computer Use 機能 – アップグレードされた Claude 3.5 Sonnet は、Amazon Bedrock でパブリックベータ版の Computer Use を提供するようになりました。これは、Claude がコンピュータインターフェイスを認識し、やり取りすることを可能にします。開発者は、人間と同じ方法 (画面を見る、カーソルを動かす、ボタンをクリックする、テキストを入力する) でコンピュータを使用するよう Claude に指示できます。これは、キーストロークやマウスクリック、テキストファイルの編集、シェルコマンドの実行といったコンピュータアクションを返すことができる、統合されたツールへのアクセスをモデルに提供することによって機能します。ソフトウェア開発者は、アクション実行レイヤーを構築することで Computer Use をソリューションに統合し、画面にアクセスする許可を Claude 3.5 Sonnet に付与することができます。そうすることで、ソフトウェア開発者は、コンピュータアクションを実行し、複数のステップに従って、結果を確認する能力を備えたアプリケーションを構築できます。Computer Use は、AI 駆動のアプリケーションに新たな可能性を生み出します。例えば、この機能はソフトウェアのテストやバックオフィスタスクの自動化と、アプリケーションとやり取りできるより高度なソフトウェアアシスタントの実装に役立ちます。このテクノロジーは初期段階にあるため、開発者には、リスクの低いタスクの検討と、サンドボックス環境での使用が推奨されます。
Claude 3.5 Haiku – 新しい Claude 3.5 Haiku の提供が間もなく開始されます。これは、すばやい応答時間と改善された推論機能を兼ね備えているため、スピードとインテリジェンスの両方が必要になるタスクに最適です。Claude 3.5 Haiku は前バージョンの改良版であり、Claude 3 Haiku のスピードとコストで Claude 3 Opus (Claude の旧最大モデル) に匹敵するパフォーマンスを実現します。Claude 3.5 Haiku は、迅速で正確なコード提案、すばやい応答時間を必要とするカスタマーサービス向けの高度にインタラクティブなチャットボット、e コマースソリューション、教育プラットフォームなどのユースケースに役立ちます。金融、ヘルスケア、研究などの分野で大量の非構造化データを扱うお客様の場合は、Claude 3.5 Haiku が情報の効率的な処理と分類に役立ちます。
Anthropic によると、アップグレードされた Claude 3.5 Sonnet は前バージョンを全面的に改善したものであり、既に抜きん出ていた領域であるコーディングが大幅に向上されています。アップグレードされた Claude 3.5 Sonnet は、複数の業界ベンチマークで幅広い改善を示しています。コーディングでは、SWE-Bench Verified のパフォーマンスが 33% から 49% に向上しており、一般公開されているすべてのモデルを上回るスコアを獲得しています。エージェント型ツールを使用するタスクに関する TAU-bench のパフォーマンスも、小売業界では 62.6% から 69.2%、航空業界では 36.0% から 46.0% に向上しています。以下は、Anthropic 提供のモデル評価表です。
AI インタラクションにおける新境地、Computer Use
Claude では、API を使用するようにモデルを制限するのではなく、一般的なコンピュータスキルでトレーニングを行っていることから、幅広い標準ツールとソフトウェアプログラムを使用することが可能です。そのため、アプリケーションは Claude を使用してコンピュータインターフェイスを認識し、それらとやり取りすることができます。ソフトウェア開発者はこの API を統合して、Claude がプロンプト (「ローマのホテルを探して」など) を特定のコンピュータコマンド (ブラウザを開く、ウェブサイトを操作するなど) に変換できるようにすることが可能です。
具体的には、ソフトウェア開発者がこのモデルを呼び出すときに、コンピュータを操作するための仮想的な手を提供する 3 つの新しい統合ツールにアクセスできるようになります。
- コンピュータツール – このツールは、スクリーンショットやゴールを入力として受け取り、そのゴールを達成するために実行する必要があるマウスとキーボードのアクションの説明を返します。例えば、このツールは、カーソルを特定の位置に移動させる、クリックする、入力する、およびスクリーンショットを撮るように要求できます。
- テキストエディタツール – このツールを使用すると、モデルがファイルコンテンツの表示、新しいファイルの作成、テキストの置き換え、編集の取り消しといった操作の実行を要求できます。
- Bash ツール – このツールは、ユーザーによるターミナルへの入力に応じて下位レベルでやり取りするために、コンピュータシステムで実行できるコマンドを返します。
これらのツールは、データ分析やソフトウェアのテストから、コンテンツ作成やシステム管理まで、複雑なタスクの自動化に大きな可能性をもたらします。Claude 3.5 Sonnet 駆動のアプリケーションが人間と同じようにコンピュータとやり取りし、ターミナル、テキストエディタ、インターネットブラウザなどの複数のデスクトップツールを操作して、フォームへの入力やコードのデバッグにも対応できることを想像してみてください。
AWS は、ソフトウェア開発者が Amazon Bedrock でこれらの新機能を追求できるようにすることをとても楽しみにしています。この機能は今後数か月で急速に改善されることが予想されますが、コンピュータの使用における Claude の現在の能力には限界があります。アクションには、スクロール、ドラッグ、ズームなど、Claude には処理が困難なものもあるため、リスクの低いタスクの検討をお勧めします。
実際のコンピュータ環境内にあるマルチモーダルエージェントのベンチマーク、OSWorld を見てみると、アップグレードされた Claude 3.5 Sonnet のスコアは現在 14.9% です。人間レベルのスキルは、これをはるかに上回る約 70〜75% になっていますが、14.9% という結果は、同じカテゴリーで Claude 3.5 Sonnet に次ぐモデルが得た 7.7% よりも大幅に優れています。
Amazon Bedrock コンソールでのアップグレードされた Claude 3.5 Sonnet の使用
アップグレードされた Claude 3.5 Sonnet の使用を開始するには、Amazon Bedrock コンソールに移動して、ナビゲーションペインで [モデルアクセス] を選択します。そこから、新しい [Claude 3.5 Sonnet V2] へのアクセスをリクエストします。
新しいビジョン機能をテストするため、別のブラウザタブを開いて、Our World in Data ウェブサイトから Wind power generation グラフを PNG 形式でダウンロードしました。
Amazon Bedrock コンソールに戻り、ナビゲーションペインの [プレイグラウンド] で [チャット/テキスト] を選択します。モデルには、モデルプロバイダーとして [Anthropic] を選択してから、[Claude 3.5 Sonnet V2] を選択します。
チャットの入力セクションにある縦に並んだ 3 つの点を使用して、コンピュータから画像ファイルをアップロードします。その後、以下のプロンプトを入力します。
Which are the top countries for wind power generation? Answer only in JSON.
結果は、私の指示に従って、画像から抽出した情報のリストを返します。
AWS CLI と SDK でのアップグレードされた Claude 3.5 Sonnet の使用
以下は、Amazon Bedrock Converse API を使用する AWS コマンドラインインターフェイス (AWS CLI) コマンドの例です。CLI の --query
パラメータを使用して結果をフィルタリングし、出力メッセージのテキストコンテンツのみを表示します。
出力では、このテキストが応答に表示されます。
An anchor! You throw an anchor out when you want to use it to stop a boat, but you take it in (pull it up) when you don't want to use it and want to move the boat.
AWS SDK も同じようなインターフェイスを実装します。例えば、AWS SDK for Python (Boto3) を使用して、コンソールの例と同じ画像を分析することができます。
import boto3
MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"
IMAGE_NAME = "wind-generation.png"
bedrock_runtime = boto3.client("bedrock-runtime")
with open(IMAGE_NAME, "rb") as f:
image = f.read()
user_message = "Which are the top countries for wind power generation? Answer only in JSON."
messages = [
{
"role": "user",
"content": [
{"image": {"format": "png", "source": {"bytes": image}}},
{"text": user_message},
],
}
]
response = bedrock_runtime.converse(
modelId=MODEL_ID,
messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)
アプリケーションとの Computer Use の統合
Computer Use が実際にどのように機能するのかを見てみましょう。まず、Ubuntu システムのデスクトップのスナップショットを撮ります。
このスクリーンショットは、Computer Use が実装するステップの出発点になります。その仕組みを確認するため、モデルに対する入力でスクリーンショットの画像と以下のプロンプトを渡す Python スクリプトを実行します。
Find me a hotel in Rome.
このスクリプトは、Computer Use に必要な新しい構文を使用して、Amazon Bedrock 内のアップグレードされた Claude 3.5 Sonnet を呼び出します。
import base64
import json
import boto3
MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"
IMAGE_NAME = "ubuntu-screenshot.png"
bedrock_runtime = boto3.client(
"bedrock-runtime",
region_name="us-east-1",
)
with open(IMAGE_NAME, "rb") as f:
image = f.read()
image_base64 = base64.b64encode(image).decode("utf-8")
prompt = "Find me a hotel in Rome."
body = {
"anthropic_version": "bedrock-2023-05-31",
"max_tokens": 512,
"temperature": 0.5,
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_base64,
},
},
],
}
],
"tools": [
{ # new
"type": "computer_20241022", # literal / constant
"name": "computer", # literal / constant
"display_height_px": 1280, # min=1, no max
"display_width_px": 800, # min=1, no max
"display_number": 0 # min=0, max=N, default=None
},
{ # new
"type": "bash_20241022", # literal / constant
"name": "bash", # literal / constant
},
{ # new
"type": "text_editor_20241022", # literal / constant
"name": "str_replace_editor", # literal / constant
}
],
"anthropic_beta": ["computer-use-2024-10-22"],
}
# Convert the native request to JSON.
request = json.dumps(body)
try:
# Invoke the model with the request.
response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=request)
except Exception as e:
print(f"ERROR: {e}")
exit(1)
# Decode the response body.
model_response = json.loads(response["body"].read())
print(model_response)
リクエストの本文には、以下の新しいオプションが含まれています。
- Computer Use を有効化するために、値が
["computer-use-2024-10-22"]
に設定されたanthropic_beta
。 - 新しい
type
オプションをサポートするtools
セクション (設定するツールのためにcustom
になっています)。 - コンピュータツールは、画面の解像度を認識する必要があることに注意してください (
display_height_px
およびdisplay_width_px
)。
モデルは、Computer Use での私の指示に従うために、デスクトップ (入力スクリーンショットによって説明されているもの) で実行するアクションを提供します。
モデルからの応答には、最初のステップを提供する computer
ツールからの tool_use
セクションが含まれています。モデルは、スクリーンショットにある Firefox ブラウザのアイコンとマウスカーソル (矢印) の位置を把握しているため、今度はマウスを特定の座標に移動して、ブラウザを起動するように要求します。
{
"id": "msg_bdrk_01WjPCKnd2LCvVeiV6wJ4mm3",
"type": "message",
"role": "assistant",
"model": "claude-3-5-sonnet-20241022",
"content": [
{
"type": "text",
"text": "I'll help you search for a hotel in Rome.I see Firefox browser on the desktop, so I'll use that to access a travel website.",
},
{
"type": "tool_use",
"id": "toolu_bdrk_01CgfQ2bmQsPFMaqxXtYuyiJ",
"name": "computer",
"input": {"action": "mouse_move", "coordinate": [35, 65]},
},
],
"stop_reason": "tool_use",
"stop_sequence": None,
"usage": {"input_tokens": 3443, "output_tokens": 106},
}
これは最初の一歩に過ぎません。通常のツール使用リクエストと同様に、このスクリプトはツールの使用結果 (今回はマウスを動かす) で応答する必要があります。ホテルを予約するという最初のリクエストに基づいて、ホテルの予約が完了するまでは、アイコンのクリックや、ブラウザへの URL の入力などを要求するツール使用インタラクションが繰り返されます。
より詳細な例は、Anthropic が共有したこちらのリポジトリで確認できます。
知っておくべきこと
アップグレードされた Claude 3.5 Sonnet は、米国西部 (オレゴン) AWS リージョンにある Amazon Bedrock で本日から利用可能になり、アップグレード前の Claude 3.5 Sonnet と同じコストで提供されます。リージョンごとの利用可能性に関する最新情報については、Amazon Bedrock ドキュメントを参照してください。各 Claude モデルのコストに関する詳細は、Amazon Bedrock の料金ページをご覧ください。
アップグレードされたモデルのより優れたインテリジェンスに加えて、ソフトウェア開発者は Computer Use (パブリックベータ版で利用可能) をアプリケーションに統合することで、複雑なデスクトップワークフローを自動化し、ソフトウェアのテストプロセスを強化して、より高度な AI 駆動のアプリケーションを作成できるようになります。
Claude 3.5 Haiku は数週間以内にリリースされる予定で、最初はテキストのみのモデルとしてリリースされ、後ほど画像入力が追加されます。
Computer Use がコーディングにどのように役立つかについては、Anthropic の Head of Developer Relations である Alex Albert 氏の動画でご覧いただけます。
こちらのもうひとつの動画は、操作を自動化するための Computer Use について説明しています。
これらの新しい機能の詳細については、Amazon Bedrock ドキュメントの Claude モデルセクションをお読みください。Amazon Bedrock コンソールでアップグレードされた Claude 3.5 Sonnet を今すぐお試しいただき、AWS re:Post for Amazon Bedrock までフィードバックをお寄せください。community.aws では、詳しい技術コンテンツを検索し、ビルダーコミュニティが Amazon Bedrock を使用する方法を見出すことができます。これらの新機能で何を構築するのか教えてくださいね!
– Danilo
原文はこちらです。