Stability.ai Stable Diffusion 3.5 Grande - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Stability.ai Stable Diffusion 3.5 Grande

El modelo Stable Diffusion 3.5 Large utiliza 8 mil millones de parámetros y admite una salida de resolución de 1 megapíxel para su text-to-image image-to-image generación.

El cuerpo de la solicitud se pasa en el body campo de una solicitud a InvokeModel.

Campo del cuerpo de la solicitud de invocación del modelo

Cuando realices una InvokeModel llamada con un modelo Stable Diffusion 3.5 Large, rellena el campo del cuerpo con un objeto JSON parecido al que se muestra a continuación.

  • prompt — (cadena) Descripción textual de la imagen de salida deseada. Máximo 10 000 caracteres.

    Mínimo Máximo

    0

    10 000

Campo del cuerpo de respuestas a la invocación del modelo

Al realizar una InvokeModel llamada con un modelo Stable Diffusion 3.5 Large, la respuesta es similar a la siguiente

{ 'seeds': [2130420379], "finish_reasons":[null], "images":["..."] }

Una respuesta con un motivo de finalización que no sea null tendrá el siguiente aspecto:

{ "finish_reasons":["Filter reason: prompt"] }
  • seeds: (cadena) lista de semillas utilizadas para generar imágenes para el modelo.

  • finish_reasons: enumeración que indica si la solicitud se ha filtrado o no. null indica que la solicitud se ha realizado correctamente. Valores posibles actuales: "Filter reason: prompt", "Filter reason: output image", "Filter reason: input image", "Inference error", null.

  • images: lista de imágenes generadas en formato de cadena base64.

Text to image

El modelo Stability.ai Stable Diffusion 3.5 Large tiene los siguientes parámetros de inferencia para una llamada de text-to-image inferencia.

  • prompt(cadena): descripción textual de la imagen de salida deseada. Máximo 10 000 caracteres.

    Mínimo Máximo
    0 10 000

Parámetros opcionales

  • aspect_ratio(cadena): controla la relación de aspecto de la imagen generada. Válido solo para text-to-image solicitudes. Enumeración: 16:9, 1:1, 21:9, 2:3, 3:2, 4:5, 5:4, 9:16, 9:21. El valor predeterminado es 1:1.

  • mode(string) (GenerationMode) - Predeterminado: text-to-image. Enum: image-to-image o. text-to-image Controla si se trata de una image-to-image generación text-to-image o, lo que afecta a los parámetros necesarios:

    • text-to-image solo requiere el parámetro prompt.

    • image-to-image requiere los parámetros de aviso, imagen y intensidad.

  • seed(número): valor para controlar la aleatoriedad en la generación. Rango de 0 a 4294967294. Predeterminado 0 (semilla aleatoria).

    Mínimo Máximo Valor predeterminado
    0 4294967294 0
  • negative_prompt(cadena): texto que describe los elementos que se van a excluir de la imagen de salida. Máximo 10 000 caracteres.

    Mínimo Máximo
    0 10 000
  • cfg_scale(número): controla la adherencia al texto del mensaje. Los valores más altos aumentan la pronta adherencia. Rango de 1 a 10. Predeterminado 4.

    Mínimo Máximo Valor predeterminado
    1 10 4
  • style_preset(cadena): aplica un estilo visual específico. Enum: modelo 3D, película analógica, anime, cine, cómic, arte digital, mejora, arte fantástico, isométrico, arte lineal, low-poly, modelado compuesto, neon-punk, origami, fotográfico, pixel-art, textura de mosaico.

  • output_format(cadena): formato de imagen de salida. Enum: jpeg, png, webp. PNG predeterminado.

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-west-2') response = bedrock.invoke_model( modelId='us.stability.sd3-5-large-v1:0', body=json.dumps({ 'prompt': 'A car made out of vegetables.' }) )
Image to image

El modelo Stability.ai Stable Diffusion 3.5 Large tiene los siguientes parámetros de inferencia para una llamada de image-to-image inferencia.

  • prompt(cadena): descripción textual de la imagen de salida deseada. Máximo 10 000 caracteres.

    Mínimo Máximo
    0 10 000
  • image(cadena): imagen de entrada codificada en Base64. Mínimo 64 píxeles por lado. Formatos compatibles: jpeg, png, webp.

  • mode(string) (GenerationMode) - Predeterminado: text-to-image. Enum: image-to-image o. text-to-image Controla si se trata de una image-to-image generación text-to-image o, lo que afecta a los parámetros necesarios:

    • text-to-image solo requiere el parámetro prompt.

    • image-to-image requiere los parámetros de aviso, imagen y intensidad.

  • strength(número): controla la influencia de la imagen de entrada en la salida. Rango de 0 a 1. El valor 0 conserva la imagen de entrada, el valor 1 ignora la imagen de entrada.

    Mínimo Máximo
    0 1
  • seed(número): valor para controlar la aleatoriedad en la generación. Rango de 0 a 4294967294. Predeterminado 0 (semilla aleatoria).

    Mínimo Máximo Valor predeterminado
    0 4294967294 0
  • negative_prompt(cadena): texto que describe los elementos que se van a excluir de la imagen de salida. Máximo 10 000 caracteres.

    Mínimo Máximo
    0 10 000
  • cfg_scale(número): controla la adherencia al texto del mensaje. Los valores más altos aumentan la pronta adherencia. Rango de 1 a 10. Predeterminado 4.

    Mínimo Máximo Valor predeterminado
    1 10 4
  • style_preset(cadena): aplica un estilo visual específico. Enum: modelo 3D, película analógica, anime, cine, cómic, arte digital, mejora, arte fantástico, isométrico, arte lineal, low-poly, modelado compuesto, neon-punk, origami, fotográfico, pixel-art, textura de mosaico.

  • output_format(cadena): formato de imagen de salida. Enum: jpeg, png, webp. PNG predeterminado.

import boto3 import base64 import json # Load and encode image with open('input_image.jpg', 'rb') as image_file: image_base64 = base64.b64encode(image_file.read()).decode('utf-8') bedrock = boto3.client('bedrock-runtime', region_name='us-west-2') response = bedrock.invoke_model( modelId='us.stability.sd3-5-large-v1:0', body=json.dumps({ 'prompt': 'A car made out of vegetables.', 'image': image_base64, 'strength': 0.7 }) )