Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Servicios de imágenes de Stability AI
Puede utilizar Stability AI Image Services con Amazon Bedrock para acceder a trece herramientas de edición de imágenes especializadas diseñadas para acelerar los flujos de trabajo creativos profesionales. Con los servicios de imágenes de Stability AI, puede generar imágenes a partir de un boceto, reestructurar y cambiar el estilo de una imagen existente o eliminar y reemplazar los objetos de una imagen.
En esta sección se describe cómo realizar llamadas de inferencia a Stability AI Image Services mediante el. InvokeModel En esta sección también se proporcionan ejemplos de código en Python y ejemplos de imágenes antes y después de usar los servicios de imágenes de Stability AI.
Los servicios de imágenes de Stability AI están disponibles en las siguientes categorías:
Edición: servicios de edición de imágenes basados en IA, que incluyen relleno de zonas con máscaras (relleno generativo) o con palabras. Incluye herramientas para la colocación y publicidad de productos, así como herramientas básicas, como la eliminación de fondos.
Control: puede utilizar peticiones, mapas y otras guías. Estos servicios aprovechan ControlNets tecnologías similares basadas en modelos Stable Diffusion.
nota
Al suscribirse a cualquier servicio de imágenes de IA de Stability, editarlo o controlarlo, se inscribirá automáticamente en los trece servicios de imágenes de IA de Stability disponibles.
Solicitud y respuesta
El cuerpo de la solicitud se pasa en el body campo de la solicitud a. InvokeModel
Campo del cuerpo de la solicitud de invocación del modelo
Cuando realices una InvokeModel llamada con Stability AI Image Services, rellena el campo del cuerpo con un objeto JSON parecido al que se muestra a continuación.
{ 'prompt': 'Create an image of a panda' }
Campo del cuerpo de respuestas a la invocación del modelo
Cuando haces una InvokeModel llamada con Stability AI Image Services, la respuesta es similar a la siguiente
{ 'seeds': [2130420379], 'finish_reasons': [null], 'images': ['...'] }
seeds: (cadena) lista de semillas utilizadas para generar imágenes para el modelo.
-
finish_reasons: enumeración que indica si la solicitud se ha filtrado o no.
nullindica que la solicitud se ha realizado correctamente. Valores posibles actuales:"Filter reason: prompt", "Filter reason: output image", "Filter reason: input image", "Inference error", null. -
images: lista de imágenes generadas en formato de cadena base64.
Para obtener más información, consulte https://platform.us.stability. ai/docs/api-reference#tag/v1 generación
Exclusivo
En la siguiente sección se describen los exclusivos servicios de imágenes de Stability AI.
Creative Upscale toma imágenes de entre 64 x 64 y 1 megapíxel y las amplía a una resolución de 4K. Este servicio puede aumentar la escala de las imágenes entre 20 y 40 veces y, al mismo tiempo, preservar la calidad y, a menudo, mejorarla. Creative Upscale funciona mejor con imágenes muy degradadas y no es adecuado para fotografías de 1 megapíxel o más, ya que permite realizar una reinvención intensiva.
Creative Upscale tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image ‐ (cadena) La imagen de Base64 que se va a ampliar. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles debe estar comprendido entre 4 096 y 1 048.576 píxeles. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
creatividad ‐ (número) Indica el grado de creatividad que debe tener el modelo a la hora de escalar una imagen. Los valores más altos harán que se añadan más detalles a la imagen durante la ampliación. Rango entre 0,1 y 0,5. Predeterminado: 0.3
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
style_preset: guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
La siguiente tabla muestra las imágenes de entrada y salida de una operación de Creative Upscale siguiendo el siguiente mensaje: Esta obra de arte digital onírica captura un pájaro vibrante y caleidoscópico en una exuberante selva tropical.
|
Input |
Output |
|---|---|
|
Conservative Upscale toma imágenes de entre 64 x 64 y 1 megapíxel y las amplía a una resolución de 4K. Este servicio puede aumentar la escala de las imágenes entre 20 y 40 veces y, al mismo tiempo, conservar todos los aspectos. Conservative Upscale minimiza las alteraciones de la imagen y no debe utilizarse para reimaginar una imagen.
Conservative Upscale tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image ‐ (cadena) La imagen de Base64 que se va a escalar. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
creatividad ‐ (número) Indica qué tan creativo debe ser el modelo al escalar una imagen. Los valores más altos harán que se añadan más detalles a la imagen durante la ampliación. Rango entre 0,1 y 0,5. Predeterminado: 0.35
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de Conservative Upscale que utiliza el siguiente mensaje: foto de un pollo gigante en un bosque.
|
Input |
Output |
|---|---|
«La icónica torre del Big Ben contra un cielo nublado» |
|
Fast Upscale mejora 4 veces la resolución de la imagen mediante la IA predictiva y generativa. Este servicio ligero y rápido es ideal para mejorar la calidad de las imágenes comprimidas, lo que lo hace adecuado para publicaciones en redes sociales y otras aplicaciones.
Fast upscale tiene los siguientes parámetros obligatorios:
image ‐ (cadena) La imagen de Base64 que se va a escalar. El ancho debe estar comprendido entre 32 y 1.536 píxeles. La altura debe estar entre 32 y 1.536 píxeles. El número total de píxeles debe estar comprendido entre 1.024 y 1.048.576 píxeles. Formatos compatibles: jpeg, png, webp.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
La siguiente tabla muestra las imágenes de entrada y salida de una operación de Fast Upscale.
|
Input |
Output |
|---|---|
«La icónica torre del Big Ben contra un cielo nublado» |
|
Edición
En la siguiente sección se describen los servicios de edición de imágenes de Stability AI.
La característica Relleno de zonas modifica las imágenes de forma inteligente rellenando o sustituyendo áreas específicas por contenido nuevo en función del contenido de la imagen de una máscara.
Relleno de zonas tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image (cadena): la imagen en Base64 que se va a rellenar. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
style_preset (cadena): guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
mask (cadena): controla la intensidad del proceso de relleno por píxel, ya sea mediante una segunda imagen (pasada a este parámetro) o mediante el canal alfa del parámetro de imagen.
Pasar una máscara: la imagen que se pase a este parámetro debe ser una imagen en blanco y negro que represente, en cualquier píxel, la intensidad del relleno en función del grado de oscuridad o claridad del píxel en cuestión. Los píxeles completamente negros representan la ausencia de relleno, mientras que los píxeles completamente blancos representan la intensidad de relleno máxima. En el caso de que la máscara tenga un tamaño diferente al del parámetro de la imagen, se redimensionará automáticamente.
Compatibilidad con el canal alfa: si no proporciona una máscara explícita, se obtendrá una del canal alfa del parámetro de imagen. Los píxeles transparentes se rellenarán mientras que los opacos se preservarán. En el caso de que se proporcione una imagen con un canal alfa junto con una máscara, la máscara tendrá prioridad.
grow_mask: amplía los bordes de la máscara hacia afuera en todas las direcciones según el número de píxeles especificado. El área expandida alrededor de la máscara se difuminará, lo que puede ayudar a suavizar la transición entre el contenido rellenado y la imagen original. El intervalo está entre 0 y 20. Valor predeterminado: 5. Pruebe este parámetro si observa bordes irregulares o uniones visibles alrededor del contenido rellenado. Tenga en cuenta que un crecimiento excesivo puede oscurecer los detalles finos de la máscara y and/or combinar las regiones enmascaradas cercanas.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de relleno de zonas.
|
Input |
Máscara |
Output |
|---|---|---|
“Hombre en metrópolis” generado por Stable Image Ultra, peticiones y ediciones de Sanwal Yousaf. Con licencia de CC BY 4.0 |
|
|
Outpaint inserta contenido adicional en una imagen para rellenar el espacio en cualquier dirección. En comparación con otros intentos automatizados o manuales de ampliar el contenido de una imagen, el servicio Outpaint minimiza los indicios de que la imagen original se ha editado.
Outpaint tiene los siguientes parámetros obligatorios:
image ‐ (string) La imagen de Base64 que se va a pintar mejor. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
nota
Se debe proporcionar al menos una dirección de pintura exterior: (izquierda, derecha, arriba o abajo) con un valor distinto de cero. Para obtener resultados de la mejor calidad, tenga en cuenta la composición y el contenido de la imagen original al elegir las direcciones de pintura exterior.
Los siguientes parámetros son opcionales:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
style_preset (cadena): guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
creatividad ‐ (número) Indica el grado de creatividad que debe tener el modelo a la hora de pintar una imagen. Los valores más altos harán que se añada más contenido creativo a la imagen durante la pintura exterior. Rango entre 0,1 y 1,0. Valor predeterminado: 0,5.
left ‐ (entero) El número de píxeles que se van a pintar más en la parte izquierda de la imagen. Debe proporcionarse al menos una dirección de pintura exterior con un valor distinto de cero. Rango de 0 a 2000. Predeterminado 0.
right ‐ (entero) El número de píxeles que se van a pintar más en el lado derecho de la imagen. Debe proporcionarse al menos una dirección de pintura exterior con un valor distinto de cero. Rango de 0 a 2000. Predeterminado 0.
up ‐ (entero) El número de píxeles que se van a pintar más en la parte superior de la imagen. Debe proporcionarse al menos una dirección de pintura exterior con un valor distinto de cero. Rango de 0 a 2000. Predeterminado 0.
down ‐ (entero) El número de píxeles que se van a pintar más en la parte inferior de la imagen. Debe proporcionarse al menos una dirección de pintura exterior con un valor distinto de cero. Rango de 0 a 2000. Predeterminado 0.
La siguiente tabla muestra las imágenes de entrada y salida de una operación de Outpaint.
|
Input |
Output |
|---|---|
«La icónica torre del Big Ben contra un cielo nublado» |
|
La función Búsqueda y cambio de color le permite cambiar el color de un objeto específico de una imagen mediante una petición. Este servicio es una versión específica de relleno de zonas que no requiere una máscara. Segmentará automáticamente el objeto y lo volverá a colorear con los colores solicitados en la petición.
La característica Búsqueda y cambio de color tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image (cadena): la imagen en Base64 que se va a cambiar de color. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
select_prompt (cadena): breve descripción de lo que se debe buscar en la imagen. Máximo 10000 caracteres.
Los siguientes parámetros son opcionales:
style_preset (cadena): guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
grow_mask: amplía los bordes de la máscara hacia afuera en todas las direcciones según el número de píxeles especificado. El área expandida alrededor de la máscara se difuminará, lo que puede ayudar a suavizar la transición entre el contenido rellenado y la imagen original. El intervalo está entre 0 y 20. Valor predeterminado: 5. Pruebe este parámetro si observa bordes irregulares o uniones visibles alrededor del contenido rellenado. Tenga en cuenta que un crecimiento excesivo puede oscurecer los detalles finos de la máscara y and/or combinar las regiones enmascaradas cercanas.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de búsqueda y cambio de color mediante la siguiente petición: pink jacket.
|
Input |
Output |
|---|---|
“Hombre con chaqueta acolchada” generado por Stable Image Ultra, peticiones y ediciones de Sanwal Yousaf. Con licencia de CC BY 4.0 |
|
La característica Búsqueda y reemplazado permite utilizar una petición de búsqueda para identificar en un lenguaje sencillo el objeto que se va a reemplazar. El servicio segmentará automáticamente el objeto y lo sustituirá por el objeto solicitado en la petición sin necesidad de utilizar una máscara.
La característica Búsqueda y reemplazo tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image (cadena): la imagen en Base64 que se va a cambiar de color. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
search_prompt (cadena): breve descripción de lo que se debe rellenar en la imagen. Máximo 10000 caracteres.
Los siguientes parámetros son opcionales:
style_preset (cadena): guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
grow_mask: amplía los bordes de la máscara hacia afuera en todas las direcciones según el número de píxeles especificado. El área expandida alrededor de la máscara se difuminará, lo que puede ayudar a suavizar la transición entre el contenido rellenado y la imagen original. El intervalo está entre 0 y 20. Valor predeterminado: 5. Pruebe este parámetro si observa bordes irregulares o uniones visibles alrededor del contenido rellenado. Tenga en cuenta que un crecimiento excesivo puede oscurecer los detalles finos de la máscara y and/or combinar las regiones enmascaradas cercanas.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de búsqueda y reemplazo mediante la siguiente petición: jacket.
|
Input |
Output |
|---|---|
«Modelo femenina con un jersey otoñal» generado por Stable Image Ultra. Peticiones y ediciones de Sanwal Yousaf. Con licencia de CC BY 4.0 |
|
El borrado permite eliminar elementos no deseados mediante máscaras de imagen y, al mismo tiempo, mantener de forma inteligente la coherencia del fondo.
La característica de borrado tiene los siguientes parámetros obligatorios:
image (cadena): la imagen en Base64 en la que se va a realizar la operación de borrado. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
mask (cadena): controla la intensidad del proceso de relleno por píxel, ya sea mediante una segunda imagen (pasada a este parámetro) o mediante el canal alfa del parámetro de imagen.
Pasar una máscara: la imagen que se pase a este parámetro debe ser una imagen en blanco y negro que represente, en cualquier píxel, la intensidad del relleno en función del grado de oscuridad o claridad del píxel en cuestión. Los píxeles completamente negros representan la ausencia de relleno, mientras que los píxeles completamente blancos representan la intensidad de relleno máxima. En el caso de que la máscara tenga un tamaño diferente al del parámetro de la imagen, se redimensionará automáticamente.
Compatibilidad con el canal alfa: si no proporciona una máscara explícita, se obtendrá una del canal alfa del parámetro de imagen. Los píxeles transparentes se rellenarán mientras que los opacos se preservarán. En el caso de que se proporcione una imagen con un canal alfa junto con una máscara, la máscara tendrá prioridad.
grow_mask: amplía los bordes de la máscara hacia afuera en todas las direcciones según el número de píxeles especificado. El área expandida alrededor de la máscara se difuminará, lo que puede ayudar a suavizar la transición entre el contenido rellenado y la imagen original. El intervalo está entre 0 y 20. Valor predeterminado: 5. Pruebe este parámetro si observa bordes irregulares o uniones visibles alrededor del contenido rellenado. Tenga en cuenta que un crecimiento excesivo puede oscurecer los detalles finos de la máscara y and/or fusionar las regiones enmascaradas cercanas.
nota
Para obtener resultados de borrado óptimos, asegúrese de que la máscara defina con precisión las áreas que se van a quitar. Si no se proporciona una máscara explícita, el servicio utilizará el canal alfa de la imagen de entrada. La máscara tendrá prioridad si se proporcionan ambas.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de borrado.
|
Input |
Máscara |
Output |
|---|---|---|
«Mesa para estudiantes» generado por Stable Image Ultra. Peticiones y ediciones de Sanwal Yousaf. Con licencia de CC BY 4.0 |
|
|
La característica Eliminación del fondo le permite aislar los sujetos del fondo con precisión.
La característica Eliminación del fondo tiene los siguientes parámetros obligatorios:
image (cadena): la imagen en Base64 de la que se va a eliminar el fondo. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de eliminación del fondo.
|
Input |
Output |
|---|---|
«Modelo femenina con un jersey otoñal» generado por Stable Image Ultra. Peticiones y ediciones de Sanwal Yousaf. Con licencia de CC BY 4.0 |
|
Controlar
En la siguiente sección se describen los servicios de control de imágenes de Stability AI.
Actualice los bocetos dibujados a mano para convertirlos en resultados refinados con un control preciso. En el caso de imágenes que no son bocetos, el control de bocetos permite una manipulación detallada del aspecto final al utilizar las líneas de contorno y los bordes de la imagen.
La característica Control de boceto tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image (cadena): la imagen en Base64 del boceto. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
control_strength (número): cuánta influencia o control tiene la imagen en la generación. Se representa como un valor flotante comprendido entre 0 y 1, donde 0 es la menor influencia y 1 es la máxima influencia. El valor predeterminado es 0,7.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
style_preset: guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
En la siguiente tabla se muestran las imágenes de entrada y salida de una llamada a la característica Control de boceto utilizando la siguiente petición: una casa con un fondo de montañas y un río que fluye cerca.
|
Input |
Output |
|---|---|
“Boceto de una casa, una montaña y un río” de Sanwal Yousaf. Con licencia de CC BY 4.0 |
|
La característica Control de estructura le permite generar imágenes manteniendo la estructura de una imagen de entrada. Esto resulta especialmente útil para escenarios avanzados de creación de contenido, como la recreación de escenas o la representación de personajes a partir de modelos.
La característica Control de estructura tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image (cadena): la imagen en Base64 del boceto. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
control_strength (número): cuánta influencia o control tiene la imagen en la generación. Se representa como un valor flotante comprendido entre 0 y 1, donde 0 es la menor influencia y 1 es la máxima influencia. El valor predeterminado es 0,7.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
style_preset: guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
En la siguiente tabla se muestran las imágenes de entrada y salida de una operación de control de estructura que utiliza la siguiente petición: estructura surrealista con chispas generadas por el movimiento que iluminan la escena.
|
Input |
Output |
|---|---|
“Persona sentada en una caja marrón” de |
|
La Guía de estilo permite extraer elementos estilísticos de una imagen de entrada y utilizarla para guiar la creación de una imagen de salida en función de la petición. El resultado es una imagen nueva con el mismo estilo que la imagen de entrada.
La Guía de estilo tiene los siguientes parámetros obligatorios:
prompt: lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul. Mínimo 0 caracteres y máximo 10 000 caracteres.
image (cadena): la imagen en Base64 del boceto. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
aspect_ratio: (cadena) controla la relación de aspecto de la imagen generada. Este parámetro solo es válido para text-to-image las solicitudes. El valor predeterminado es 1:1. Enumeración: 16:9, 1:1, 21:9, 2:3, 3:2, 4:5, 5:4, 9:16, 9:21. El valor predeterminado es 1:1.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
fidelity (número): cuánto se parece el estilo de la imagen de salida al estilo de la imagen de entrada. Intervalo del 0 al 1. Valor predeterminado: 0,5.
style_preset: guía el modelo de imagen hacia un estilo concreto. Enum: 3d-model, analog-film, anime, cinematic, modeling-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture.
En la siguiente tabla se muestran las imágenes de entrada y salida de una llamada a Guía de estilo utilizando la siguiente petición: plano panorámico de una metrópolis moderna.
|
Input |
Output |
|---|---|
“Pintura abstracta” |
|
La transferencia de estilo permite aplicar características visuales de las imágenes de estilo de referencia a las imágenes de destino. Mientras que el servicio Guía de estilo extrae los elementos estilísticos de una imagen de entrada y los utiliza para guiar la creación de una imagen de salida en función de la petición, Transferencia de estilo transforma específicamente el contenido existente al tiempo que conserva la composición original. Esta herramienta ayuda a crear contenido coherente en varios activos.
Transferencia de estilo tiene los siguientes parámetros obligatorios:
init_image (cadena): una imagen en Base64 que contiene el sujeto al que desea cambiar el estilo. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
style_image (cadena): una imagen en Base64 que contiene el sujeto al que desea cambiar el estilo. Cada lado de la imagen debe tener al menos 64 píxeles. El número total de píxeles no puede superar los 9 437 184 píxeles. La relación de aspecto debe estar entre comprendida entre 1:2.5 y 2.5:1. Formatos compatibles: jpeg, png, webp.
Los siguientes parámetros son opcionales:
prompt: (cadena) lo que desea ver en la imagen de salida. Una petición descriptiva y fuerte que defina claramente los elementos, los colores y los sujetos permitirá obtener mejores resultados. Para controlar el peso de una palabra determinada, use el formato (word:weight), donde word es la palabra cuyo peso quiere controlar y weight es un valor. Los valores 0 y 1,0 restan énfasis a la palabra y los valores comprendidos entre 1,1 y 2 enfatizan la palabra. Por ejemplo: el cielo era nítido (azul:0,3) y (verde:1,8) representaría un cielo azul y verde, pero más verde que azul.
negative_prompt (cadena): un blurb de texto que describe lo que no desea ver en la imagen de salida. Esta es una característica avanzada. Máximo 10000 caracteres.
seed (número): un valor específico que se utiliza para determinar la asignación al azar de la generación. (Omita este parámetro o pase 0 para usar una semilla aleatoria). Intervalo: de 0 a 4294967294. Valor predeterminado: 0.
output_format (cadena): indica el tipo de contenido de la imagen generada. Enum: jpeg, png, webp. Valor predeterminado: png.
composition_fidelity (número): cuánto se parece el estilo de la imagen de salida al estilo de la imagen de entrada. El intervalo está entre 0 y 1. Valor predeterminado: 0,9.
style_strength (número): este parámetro, que a veces se denomina “reducción de ruido”, controla la influencia que tiene el parámetro de la imagen sobre la imagen generada. Un valor de 0 generaría una imagen idéntica a la entrada. Un valor de 1 sería como si no hubiera pasado ninguna imagen. El intervalo está entre 0 y 1. Valor predeterminado: 1.
change_strength (número): cuánto debe cambiar la imagen original. El intervalo está entre 0,1 y 1. Valor predeterminado: 0,9.
En la siguiente tabla se muestran las imágenes de entrada y salida de una llamada a Transferencia de estilo.
|
Input |
Style (Estilo) |
Output |
|---|---|---|
“Estatua de mujer de pie” |
“Luces azules brillantes” |
|