Stability.ai 穩定擴散 3.5 大型 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Stability.ai 穩定擴散 3.5 大型

穩定擴散 3.5 大型模型使用 80 億個參數,並支援 100 萬像素解析度輸出,用於產生text-to-image和image-to-image。

請求內文會在請求的 body欄位中傳遞給 InvokeModel

模型調用請求內文欄位

當您使用穩定擴散 3.5 大型模型進行 InvokeModel 呼叫時,請以如下所示的 JSON 物件填入內文欄位。

  • prompt – (字串) 所需輸出影像的文字描述。最多 10,000 個字元。

    下限 最大

    0

    10,000

模型調用回應內文欄位

當您使用穩定擴散 3.5 大型模型進行InvokeModel呼叫時,回應如下所示

{ 'seeds': [2130420379], "finish_reasons":[null], "images":["..."] }

完整原因不是 的回應null會如下所示:

{ "finish_reasons":["Filter reason: prompt"] }
  • seeds – (字串) 用於為模型產生映像的種子清單。

  • finish_reasons – Enum 指出請求是否已篩選。 null會指出請求成功。目前可能的值:"Filter reason: prompt", "Filter reason: output image", "Filter reason: input image", "Inference error", null

  • 映像 – base64 字串格式的產生映像清單。

Text to image

Stability.ai Stable Diffusion 3.5 Large 模型具有下列文字text-to-image推論呼叫的推論參數。

  • prompt (字串) – 所需輸出影像的文字描述。最多 10,000 個字元。

    下限 最大
    0 10,000

選用參數

  • aspect_ratio (字串) – 控制所產生影像的長寬比。僅適用於text-to-image請求。列舉:16:9、1:1、21:9、2:3、3:2、4:5、5:4、9:16、9:21。預設 1:1。

  • mode (字串) (GenerationMode) - 預設:text-to-image。列舉:image-to-image或text-to-image。控制這是text-to-image還是image-to-image產生,這會影響需要哪些參數:

    • text-to-image 只需要提示參數。

    • image-to-image需要提示、影像和強度參數。

  • seed (number) – 用於控制產生隨機性的值。範圍從 0 到 4294967294。預設 0 (隨機種子)。

    下限 最大 預設
    0 4294967294 0
  • negative_prompt (字串) – 描述要從輸出映像中排除之元素的文字。最多 10,000 個字元。

    下限 最大
    0 10,000
  • cfg_scale (number) – 控制對提示文字的遵循。較高的值會增加提示遵循。範圍 1 到 10。預設 4。

    下限 最大 預設
    1 10 4
  • style_preset (字串) – 套用特定的視覺效果樣式。Enum: 3d-model、類比影片、anime、電影、漫畫書、數位藝術、增強、幻想藝術、等角、線藝術、低聚、建模複合、霓虹像素、origami、相片、像素藝術、圖磚紋理。

  • output_format (字串) – 輸出影像格式。列舉:jpeg、png、Webp。預設 png。

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-west-2') response = bedrock.invoke_model( modelId='us.stability.sd3-5-large-v1:0', body=json.dumps({ 'prompt': 'A car made out of vegetables.' }) )
Image to image

Stability.ai Stable Diffusion 3.5 Large 模型具有下列適用於image-to-image推論呼叫的推論參數。

  • prompt (字串) – 所需輸出影像的文字描述。最多 10,000 個字元。

    下限 最大
    0 10,000
  • image (字串) – Base64-encoded輸入影像。每邊至少 64 個像素。支援的格式:jpeg、png、Webp。

  • mode (字串) (GenerationMode) - 預設:text-to-image。列舉:image-to-image或text-to-image。控制這是text-to-image還是image-to-image產生,這會影響需要哪些參數:

    • text-to-image 只需要提示參數。

    • image-to-image需要提示、影像和強度參數。

  • strength (數字) – 控制輸入影像對輸出的影響。範圍 0 到 1。值 0 會保留輸入影像,值 1 會忽略輸入影像。

    下限 最大
    0 1
  • seed (number) – 用於控制產生隨機性的值。範圍從 0 到 4294967294。預設 0 (隨機種子)。

    下限 最大 預設
    0 4294967294 0
  • negative_prompt (字串) – 描述要從輸出映像中排除之元素的文字。最多 10,000 個字元。

    下限 最大
    0 10,000
  • cfg_scale (number) – 控制對提示文字的遵循。較高的值會增加提示遵循。範圍 1 到 10。預設 4。

    下限 最大 預設
    1 10 4
  • style_preset (字串) – 套用特定的視覺效果樣式。Enum: 3d-model、類比影片、anime、電影、漫畫書、數位藝術、增強、幻想藝術、等角、線藝術、低聚、建模複合、霓虹像素、origami、相片、像素藝術、圖磚紋理。

  • output_format (字串) – 輸出影像格式。列舉:jpeg、png、Webp。預設 png。

import boto3 import base64 import json # Load and encode image with open('input_image.jpg', 'rb') as image_file: image_base64 = base64.b64encode(image_file.read()).decode('utf-8') bedrock = boto3.client('bedrock-runtime', region_name='us-west-2') response = bedrock.invoke_model( modelId='us.stability.sd3-5-large-v1:0', body=json.dumps({ 'prompt': 'A car made out of vegetables.', 'image': image_base64, 'strength': 0.7 }) )