Amazon Web Services ブログ

Stability AI の最高の画像生成モデルが Amazon Bedrock で使用可能に

9月4日より、Stability AI の 3 つの新しい Text-to-Image モデル (Stable Image Ultra、Stable Diffusion 3 Large、Stable Image Core) を Amazon Bedrock で使用できるようになりました。これらのモデルは、複数サブジェクトのプロンプト、画質、タイポグラフィのパフォーマンスを大幅に改善し、マーケティング、広告、メディア、エンターテインメント、小売など、さまざまなユースケースで質の高いビジュアルを迅速に生成するために使用できます。

これらのモデルは、すばらしいフォトリアリズムで画像を生成することに秀でており、優れたディテール、色、ライティングを誇り、リアルな手や顔をレンダリングするなどの一般的な課題に対処します。モデルの高度なプロンプト理解により、空間推論、構成、スタイルを含む複雑な指示を解釈できます。

Amazon Bedrock で使用できる 3 つの新しい Stability AI モデルは、さまざまなユースケースをカバーしています。

Stable Image Ultra – プロフェッショナルな印刷メディアや大判の用途に最適な、極めて質の高いフォトリアリスティックな出力を生成します。Stable Image Ultra は、優れたディテールとリアリズムのレンダリングに秀でています。

Stable Diffusion 3 Large – 生成速度と出力の質のバランスに優れています。ウェブサイト、ニュースレター、マーケティング資料など、ボリュームが多く、質の高いデジタルアセットを作成するのに最適です。

Stable Image Core – 高速で手頃な料金の画像生成に最適化されており、アイデア出しの最中にコンセプトを迅速にイテレーションするのに最適です。

次の表は、モデルの主な特徴をまとめたものです。

特徴 Stable Image Ultra Stable Diffusion 3 Large Stable Image Core
パラメータ 160 億 80 億 26 億
入力 テキスト テキストまたは画像 テキスト
タイポグラフィ 大規模な表示向けに
カスタマイズ
大規模な表示向けに
カスタマイズ
さまざまなサイズやアプリケーションにわたる
汎用性と読みやすさ
視覚的な
美しさ
フォトリアリスティックな
画像出力
非常にリアルで
細部まできめ細かい
優れたレンダリング、
詳細指向ではない

Stable Diffusion XL (SDXL) と比較した場合の Stable Image Ultra と Stable Diffusion 3 Large の主な改善点の 1 つは、生成された画像のテキストの質です。革新的な Diffusion Transformer アーキテクチャにより、スペルやタイポグラフィのエラーが少なくなっています。このアーキテクチャは、画像とテキストに 2 つの個別の重みセットを実装しますが、2 つのモダリティ間での情報の流れを可能にします。

これらのモデルを使用して作成された画像をいくつかご紹介します。

Stable Image Ultra – プロンプト: photo, realistic, a woman sitting in a field watching a kite fly in the sky, stormy sky, highly detailed, concept art, intricate, professional composition.

Stable Diffusion 3 Ultra – プロンプト: photo, realistic, a woman sitting in a field watching a kite fly in the sky, stormy sky, highly detailed, concept art, intricate, professional composition.

Stable Diffusion 3 Large – プロンプト: comic-style illustration, male detective standing under a streetlamp, noir city, wearing a trench coat, fedora, dark and rainy, neon signs, reflections on wet pavement, detailed, moody lighting.

Stable Diffusion 3 Large – プロンプト: comic-style illustration, male detective standing under a streetlamp, noir city, wearing a trench coat, fedora, dark and rainy, neon signs, reflections on wet pavement, detailed, moody lighting.

Stable Image Core – プロンプト: professional 3d render of a white and orange sneaker, floating in center, hovering, floating, high quality, photorealistic.

Stable Image Core – プロンプト: Professional 3d render of a white and orange sneaker, floating in center, hovering, floating, high quality, photorealistic

Amazon Bedrock の新しい Stability AI モデルのユースケース
Text-to-Image モデルは、さまざまな業界の企業に変革の可能性を提供するとともに、マーケティング部門や広告部門のクリエイティブワークフローを大幅に合理化できます。これにより、キャンペーン、ソーシャルメディアコンテンツ、製品モックアップのために、質の高いビジュアルを迅速に生成できます。クリエイティブプロセスを迅速化することで、企業は市場のトレンドにより迅速に対応し、新しい取り組みの市場投入までの時間を短縮できます。さらに、これらのモデルはブレインストーミングセッションを強化できるため、さらなるイノベーションにつながるコンセプトを、即座に、かつ、視覚的に表現できます。

e コマースビジネスでは、AI 生成画像を使用することで、多様な製品ショーケースやパーソナライズされたマーケティング資料を大規模に作成できます。ユーザーエクスペリエンスやインターフェイスデザインの領域では、これらのツールによってワイヤーフレームやプロトタイプを迅速に生成し、デザインのイテレーションプロセスを加速できます。Text-to-Image モデルを採用することで、さまざまなビジネス機能にわたるビジュアルコミュニケーションにおいて、大幅なコスト削減、生産性の向上、競争力の向上を実現できます。

さまざまな業界のユースケースの例をいくつかご紹介します。

広告とマーケティング

  • Stable Image Ultra: 高級ブランドの広告やフォトリアリスティックな製品ショーケース
  • Stable Diffusion 3 Large: 質の高い製品マーケティング画像や印刷キャンペーン
  • Use Stable Image Core: ソーシャルメディア広告のビジュアルコンセプトの迅速な A/B テスト

E コマース

  • Stable Image Ultra: 高級製品のカスタマイズやオーダーメイドの商品
  • Stable Diffusion 3 Large: e コマースサイト全体のほとんどの製品ビジュアル
  • Stable Image Core: 製品画像の迅速な生成と、リストの最新状態の維持

メディアとエンターテインメント

  • Stable Image Ultra: 超リアルなキーアート、マーケティング資料、ゲームビジュアル
  • Stable Diffusion 3 Large: 環境テクスチャ、キャラクターアート、ゲーム内アセット
  • Stable Image Core: ラピッドプロトタイピングとコンセプトアートの探索

それでは、これらの新しいモデルの実際の動作を、まずは AWS マネジメントコンソールを使用して、次に AWS コマンドラインインターフェイス (AWS CLI)AWS SDK を使用して見てみましょう。

Amazon Bedrock コンソールでの新しい Stability AI モデルの使用
Amazon Bedrock コンソールで、ナビゲーションペインから [モデルアクセス] を選択し、[Stability AI] セクションの 3 つの新しいモデルへのアクセスを有効にします。

アクセスできるようになったので、ナビゲーションペインの [プレイグラウンド] セクションで [画像] を選択します。モデルには、[Stability AI][Stable Image Ultra] を選択します。

プロンプトとして、次のように入力します。

A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says "Stable Image Ultra in Amazon Bedrock".

他のオプションはすべてデフォルト値のままにし、[実行] を選択します。数秒後、要求した内容が表示されます。画像は次のとおりです。

A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says "Stable Image Ultra in Amazon Bedrock".

AWS CLI での Stable Image Ultra の使用
コンソールの [画像プレイグラウンド] にいる間に、プレイグラウンドウィンドウの角にある 3 つの小さなドットを選択し、[API リクエストを表示] を選択します。このようにして、コンソールで実行した操作と同等の AWS コマンドラインインターフェイス (AWS CLI) コマンドを確認できます。

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says \\\"Stable Image Ultra in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
invoke-model-output.txt

Stable Image Core または Stable Diffusion 3 Large を使用するために、モデル ID を置き換えることができます。

前述のコマンドは、テキストファイル内の JSON オブジェクト内に Base64 形式で画像を出力します。

1 つのコマンドで画像を取得するために、出力 JSON ファイルを標準出力に書き込み、jq ツールを使用してエンコードされた画像を抽出し、その場でデコードできるようにします。出力は img.png ファイルに書き込まれます。完全なコマンドは次のとおりです。

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says \\\"Stable Image Ultra in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
/dev/stdout | jq -r '.images[0]' | base64 --decode > img.png

AWS SDK での Stable Image Ultra の使用
Stable Image Ultra を AWS SDK for Python (Boto3) で使用する方法は次のとおりです。このシンプルなアプリケーションは、Text-to-Image プロンプトをインタラクティブに要求し、Amazon Bedrock を呼び出して画像を生成します。

import base64
import boto3
import json
import os

MODEL_ID = "stability.stable-image-ultra-v1:0"

bedrock_runtime = boto3.client("bedrock-runtime", region_name="us-west-2")

print("Enter a prompt for the text-to-image model:")
prompt = input()

body = {
    "prompt": prompt,
    "mode": "text-to-image"
}
response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps(body))

model_response = json.loads(response["body"].read())

base64_image_data = model_response["images"][0]

i, output_dir = 1, "output"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
while os.path.exists(os.path.join(output_dir, f"img_{i}.png")):
    i += 1

image_data = base64.b64decode(base64_image_data)

image_path = os.path.join(output_dir, f"img_{i}.png")
with open(image_path, "wb") as file:
    file.write(image_data)

print(f"The generated image has been saved to {image_path}")

アプリケーションは、結果として得られる画像を output ディレクトリ (存在しない場合は作成されます) に書き込みます。既存のファイルを上書きしないように、コードは既存のファイルをチェックして、img_<number>.png 形式で使用可能な最初のファイル名を見つけます。

Stable Diffusion モデルの使用方法の他の例は、AWS ドキュメントの「コードライブラリ」でご覧いただけます。

お客様の声
Stability AI の Global Alliance Director である Ken Hoge 氏から、Stable Diffusion モデルが Text-to-Image から、動画、音声、3D へと業界をどのように再編しているか、また Amazon Bedrock がオールインワンで安全かつスケーラブルなソリューションでお客様をサポートする方法を学びましょう。

Stride Learning の Product Owner である Nicolette Han 氏とともに、読書が生き生きとした体験になる世界に足を踏み入れましょう。Amazon Bedrock と AWS のサポートにより、Stride Learning の Legend Library は、子供向けの物語の魅力的で安全なイラストを作成するために AI を使用して、若者が文学に関わり、理解する方法を変革しています。

知っておくべきこと
新しい Stability AI モデルである Stable Image UltraStable Diffusion 3 Large、および Stable Image Core は、米国西部 (オレゴン) AWS リージョンAmazon Bedrock で9月4日からご利用いただけます。このリリースにより、Amazon Bedrock は、創造性を高め、コンテンツ生成ワークフローを加速するための幅広いソリューションを提供します。ご自身のユースケースのコストを理解するには、Amazon Bedrock の料金ページをご覧ください。

Stable Diffusion 3 の詳細については、基盤となるテクノロジーを詳細に説明する研究論文をご覧ください。

まずは、「Amazon Bedrock ユーザーガイド」の Stability AI のモデルのセクションをご覧ください。他のユーザーがソリューションで生成 AI をどのように使用しているかを知り、詳細な技術コンテンツで学ぶには、community.aws にアクセスしてください。

Danilo

原文はこちらです。