Stability.ai Difusão estável 3,5 grande - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Stability.ai Difusão estável 3,5 grande

O modelo Stable Diffusion 3.5 Large usa 8 bilhões de parâmetros e suporta saída de resolução de 1 megapixel para geração text-to-image e image-to-image geração.

O corpo da solicitação é passado no body campo de uma solicitação para InvokeModel.

Campo do corpo da solicitação de invocação do modelo

Ao fazer uma InvokeModel chamada usando um modelo Stable Diffusion 3.5 Large, preencha o campo body com um objeto JSON semelhante ao mostrado abaixo.

  • prompt — (string) Descrição de texto da imagem de saída desejada. Máximo de 10.000 caracteres.

    Mínimo Máximo

    0

    10.000

Campo de corpo de respostas de invocação do modelo

Quando você faz uma InvokeModel chamada usando um modelo Stable Diffusion 3.5 Large, a resposta se parece com a seguinte

{ 'seeds': [2130420379], "finish_reasons":[null], "images":["..."] }

Uma resposta com um motivo final que não seja null terá a seguinte aparência:

{ "finish_reasons":["Filter reason: prompt"] }
  • seeds: (string) lista de propagações usadas para gerar imagens para o modelo.

  • finish_reasons: enumeração indicando se a solicitação foi filtrada ou não. null indicará que a solicitação foi bem-sucedida. Valores atuais possíveis: "Filter reason: prompt", "Filter reason: output image", "Filter reason: input image", "Inference error", null.

  • images: uma lista de imagens geradas no formato de string base64.

Text to image

O modelo Stability.ai Stable Diffusion 3.5 Large tem os seguintes parâmetros de inferência para uma chamada de text-to-image inferência.

  • prompt(string) — Descrição de texto da imagem de saída desejada. Máximo de 10.000 caracteres.

    Mínimo Máximo
    0 10.000

Parâmetros opcionais

  • aspect_ratio(string) — Controla a proporção da imagem gerada. Válido somente para text-to-image solicitações. Enumeração: 16:9, 1:1, 21:9, 2:3, 3:2, 4:5, 5:4, 9:16, 9:21. Padrão 1:1.

  • mode(string) (GenerationMode) - Padrão: text-to-image. Enum: image-to-image ou text-to-image. Controla se é uma image-to-image geração text-to-image ou, o que afeta quais parâmetros são necessários:

    • text-to-image requer somente o parâmetro prompt.

    • image-to-image requer os parâmetros de alerta, imagem e intensidade.

  • seed(número) — Valor para controlar a aleatoriedade na geração. Intervalo de 0 a 4294967294. Padrão 0 (semente aleatória).

    Mínimo Máximo Padrão
    0 4294967294 0
  • negative_prompt(string) — Texto descrevendo elementos a serem excluídos da imagem de saída. Máximo de 10.000 caracteres.

    Mínimo Máximo
    0 10.000
  • cfg_scale(número) — Controla a aderência ao texto do aviso. Valores mais altos aumentam a adesão imediata. Intervalo de 1 a 10. Padrão 4.

    Mínimo Máximo Padrão
    1 10 4
  • style_preset(string) — Aplica um estilo visual específico. Enum: modelo 3D, filme analógico, anime, cinematográfico, história em quadrinhos, arte digital, aprimoramento, arte de fantasia, isométrico, arte linear, low-poly, composto de modelagem, neon-punk, origami, fotográfico, pixel-art, textura de azulejos.

  • output_format(string) — Formato da imagem de saída. Enumeração: jpeg, png, webp. PNG padrão.

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-west-2') response = bedrock.invoke_model( modelId='us.stability.sd3-5-large-v1:0', body=json.dumps({ 'prompt': 'A car made out of vegetables.' }) )
Image to image

O modelo Stability.ai Stable Diffusion 3.5 Large tem os seguintes parâmetros de inferência para uma chamada de image-to-image inferência.

  • prompt(string) — Descrição de texto da imagem de saída desejada. Máximo de 10.000 caracteres.

    Mínimo Máximo
    0 10.000
  • image(string) — Imagem de entrada codificada em Base64. Mínimo de 64 pixels por lado. Formatos suportados: jpeg, png, webp.

  • mode(string) (GenerationMode) - Padrão: text-to-image. Enum: image-to-image ou text-to-image. Controla se é uma image-to-image geração text-to-image ou, o que afeta quais parâmetros são necessários:

    • text-to-image requer somente o parâmetro prompt.

    • image-to-image requer os parâmetros de alerta, imagem e intensidade.

  • strength(número) — Controla a influência da imagem de entrada na saída. Intervalo de 0 a 1. O valor 0 preserva a imagem de entrada, o valor 1 ignora a imagem de entrada.

    Mínimo Máximo
    0 1
  • seed(número) — Valor para controlar a aleatoriedade na geração. Intervalo de 0 a 4294967294. Padrão 0 (semente aleatória).

    Mínimo Máximo Padrão
    0 4294967294 0
  • negative_prompt(string) — Texto descrevendo elementos a serem excluídos da imagem de saída. Máximo de 10.000 caracteres.

    Mínimo Máximo
    0 10.000
  • cfg_scale(número) — Controla a aderência ao texto do aviso. Valores mais altos aumentam a adesão imediata. Intervalo de 1 a 10. Padrão 4.

    Mínimo Máximo Padrão
    1 10 4
  • style_preset(string) — Aplica um estilo visual específico. Enum: modelo 3D, filme analógico, anime, cinematográfico, história em quadrinhos, arte digital, aprimoramento, arte de fantasia, isométrico, arte linear, low-poly, composto de modelagem, neon-punk, origami, fotográfico, pixel-art, textura de azulejos.

  • output_format(string) — Formato da imagem de saída. Enumeração: jpeg, png, webp. PNG padrão.

import boto3 import base64 import json # Load and encode image with open('input_image.jpg', 'rb') as image_file: image_base64 = base64.b64encode(image_file.read()).decode('utf-8') bedrock = boto3.client('bedrock-runtime', region_name='us-west-2') response = bedrock.invoke_model( modelId='us.stability.sd3-5-large-v1:0', body=json.dumps({ 'prompt': 'A car made out of vegetables.', 'image': image_base64, 'strength': 0.7 }) )