As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Stability AI Image Services
Você pode usar o Stability AI Image Services com o Amazon Bedrock para acessar treze ferramentas especializadas de edição de imagens projetadas para acelerar fluxos de trabalho criativos profissionais. Com o Stability AI Image Services, você pode gerar imagens com base em um esboço, reestruturar e aplicar um novo estilo em uma imagem existente ou remover e substituir objetos dentro de uma imagem.
Esta seção descreve como fazer chamadas de inferência para Stability AI Image Services usando o. InvokeModel Ela também oferece exemplos de código em Python e exemplos de imagens antes e depois do uso do Stability AI Image Services.
O Stability AI Image Services está disponível nas seguintes categorias:
Edição: serviços de edição de imagem baseados em IA, como preenchimento com máscaras (preenchimento generativo) ou com palavras. Inclui ferramentas para colocação de produtos e publicidade, bem como ferramentas básicas, como remoção de plano de fundo.
Controle: pode receber prompts, mapas e outros guias. Esses serviços utilizam ControlNets tecnologias similares baseadas em modelos de difusão estável.
nota
A assinatura de qualquer edição ou controle do Stability AI Image Service inscreve você automaticamente em todos os treze Stability AI Image Services disponíveis.
Solicitação e reposta
O corpo da solicitação é passado no body campo de uma solicitação para InvokeModel.
Campo do corpo da solicitação de invocação do modelo
Ao fazer uma InvokeModel chamada usando o Stability AI Image Services, preencha o campo body com um objeto JSON semelhante ao mostrado abaixo.
{ 'prompt': 'Create an image of a panda' }
Campo de corpo de respostas de invocação do modelo
Quando você faz uma InvokeModel chamada usando o Stability AI Image Services, a resposta se parece com a seguinte
{ 'seeds': [2130420379], 'finish_reasons': [null], 'images': ['...'] }
seeds: (string) lista de propagações usadas para gerar imagens para o modelo.
-
finish_reasons: enumeração indicando se a solicitação foi filtrada ou não.
nullindicará que a solicitação foi bem-sucedida. Valores atuais possíveis:"Filter reason: prompt", "Filter reason: output image", "Filter reason: input image", "Inference error", null. -
images: uma lista de imagens geradas no formato de string base64.
Para obter mais informações, consulte https://platform.us.stability. ai/docs/api-reference#tag/v1 geração
Sofisticado
A seção a seguir descreve os sofisticados Stability AI Image Services.
O Creative Upscale captura imagens entre 64x64 e 1 megapixel e as aprimora para a resolução 4K. Esse serviço pode aprimorar as imagens em 20 a 40 vezes, preservando e, muitas vezes, aprimorando a qualidade. O Creative Upscale funciona melhor em imagens altamente degradadas e não serve para fotos de 1 megapixel ou mais, pois realiza reimaginações pesadas.
O Creative Upscale tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image ‐ (string) A imagem Base64 a ser aprimorada. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels deve estar entre 4.096 e 1.048.576 pixels. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
criatividade ‐ (número) Indica o quão criativo o modelo deve ser ao aprimorar uma imagem. Valores mais altos resultarão na adição de mais detalhes à imagem durante o aumento de escala. Intervalo entre 0,1 e 0,5. Padrão 0.3
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
style_preset: orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
A tabela a seguir mostra as imagens de entrada e saída de uma operação da Creative Upscale usando o seguinte prompt: Essa arte digital onírica captura um pássaro vibrante e caleidoscópico em uma floresta tropical exuberante.
|
Input |
Output |
|---|---|
“Torre icônica do Big Ben contra o céu nublado” |
|
O Conservative Upscale captura imagens entre 64x64 e 1 megapixel e as aprimora para resolução 4K. Esse serviço pode aprimorar as imagens em 20 a 40 vezes, preservando todos os aspectos. O Conservative Upscale minimiza as alterações na imagem e não deve ser usado para reimaginar uma imagem.
O Conservative Upscale tem os seguintes parâmetros necessários:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image ‐ (string) A imagem Base64 a ser aprimorada. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
criatividade ‐ (número) Indica o quão criativo o modelo deve ser ao aprimorar uma imagem. Valores mais altos resultarão na adição de mais detalhes à imagem durante o aumento de escala. Intervalo entre 0,1 e 0,5. Padrão 0,35
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
A tabela a seguir mostra as imagens de entrada e saída de uma operação da Conservative Upscale usando o seguinte prompt: foto de uma galinha gigante em uma floresta.
|
Input |
Output |
|---|---|
“Torre icônica do Big Ben contra o céu nublado” |
|
O Fast Upscale melhora a resolução da imagem em 4 vezes usando IA preditiva e generativa. Esse serviço leve e rápido é ideal para aprimorar a qualidade das imagens compactadas, tornando-o adequado para postagens em mídias sociais e outros aplicativos.
O Fast Upscale tem os seguintes parâmetros necessários:
image ‐ (string) A imagem Base64 a ser aprimorada. A largura deve estar entre 32 e 1.536 pixels. A altura deve estar entre 32 e 1.536 pixels. A contagem total de pixels deve estar entre 1.024 e 1.048.576 pixels. Formatos compatíveis: jpeg, png e webp.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
A tabela a seguir mostra as imagens de entrada e saída de uma operação Fast Upscale.
|
Input |
Output |
|---|---|
“Torre icônica do Big Ben contra o céu nublado” |
|
Edição
A seção a seguir descreve a edição do Stability AI Image Services.
O recurso preencher modifica imagens de forma inteligente preenchendo ou substituindo áreas especificadas por um novo conteúdo com base no conteúdo de uma imagem de máscara.
O preenchimento tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image: (string) a imagem em base64 à qual aplicar o preenchimento. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
style_preset: (string) orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
mask: (string) controla a intensidade do processo de preenchimento por pixel, seja por meio de uma segunda imagem (transmitida para esse parâmetro) ou por meio do canal alfa do parâmetro de imagem.
Transmissão de uma máscara: a imagem transmitida para esse parâmetro deve ser uma imagem em preto e branco que represente, em qualquer pixel, a intensidade do preenchimento com base em quão escuro ou claro é o pixel em questão. Os pixels totalmente pretos não representam a intensidade do preenchimento, enquanto os pixels totalmente brancos representam a intensidade máxima. Caso a máscara tenha um tamanho diferente do parâmetro da imagem, ela será redimensionada automaticamente.
Suporte ao canal alfa: se você não fornecer uma máscara explícita, uma será derivada do canal alfa do parâmetro de imagem. Os pixels transparentes serão preenchidos enquanto os pixels opacos serão preservados. Caso uma imagem com um canal alfa seja fornecida com uma máscara, a máscara terá precedência.
grow_mask: aumenta as bordas da máscara para fora em todas as direções de acordo com o número especificado de pixels. A área expandida ao redor da máscara ficará desfocada, o que pode ajudar a suavizar a transição entre o conteúdo com preenchimento e a imagem original. Varia de 0 a 20. Padrão: 5. Experimente esse parâmetro se você notar emendas ou arestas ao redor do conteúdo com preenchimento. Observe que o crescimento excessivo pode obscurecer detalhes finos na and/or mesclagem de máscaras nas regiões mascaradas próximas.
A tabela a seguir mostra as imagens de entrada e saída de uma operação de preenchimento.
|
Input |
Máscara |
Output |
|---|---|---|
“Man in metropolis”, gerada pelo Stable Image Ultra, com prompts e edições de Sanwal Yousaf. Licenciada sob a Creative Commons BY 4.0 |
|
|
O Outpaint insere conteúdo adicional em uma imagem para preencher o espaço em qualquer direção. Em comparação com outras tentativas automáticas ou manuais de expandir o conteúdo em uma imagem, o serviço Outpaint minimiza as indicações de que a imagem original foi editada.
O Outpaint tem os seguintes parâmetros necessários:
image ‐ (string) A imagem Base64 a ser pintada. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
nota
Pelo menos uma direção de pintura: (esquerda, direita, para cima ou para baixo) deve ser fornecida com um valor diferente de zero. Para obter resultados de melhor qualidade, considere a composição e o conteúdo da imagem original ao escolher as direções de pintura.
Os seguintes parâmetros são opcionais:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
style_preset: (string) orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
criatividade ‐ (número) Indica o quão criativo o modelo deve ser ao pintar uma imagem. Valores mais altos resultarão na adição de mais conteúdo criativo à imagem durante a pintura. Intervalo entre 0,1 e 1,0. Padrão: 0,5.
left ‐ (inteiro) O número de pixels a serem pintados no lado esquerdo da imagem. Pelo menos uma direção de pintura externa deve ser fornecida com um valor diferente de zero. Faixa de 0 a 2000. Padrão 0.
right ‐ (inteiro) O número de pixels a serem pintados no lado direito da imagem. Pelo menos uma direção de pintura externa deve ser fornecida com um valor diferente de zero. Faixa de 0 a 2000. Padrão 0.
up ‐ (inteiro) O número de pixels a serem pintados na parte superior da imagem. Pelo menos uma direção de pintura externa deve ser fornecida com um valor diferente de zero. Faixa de 0 a 2000. Padrão 0.
down ‐ (inteiro) O número de pixels a serem pintados na parte inferior da imagem. Pelo menos uma direção de pintura externa deve ser fornecida com um valor diferente de zero. Faixa de 0 a 2000. Padrão 0.
A tabela a seguir mostra as imagens de entrada e saída de uma operação Outpaint.
|
Input |
Output |
|---|---|
“Torre icônica do Big Ben contra o céu nublado” |
|
Pesquisar e recolorir permite que você altere a cor de um objeto específico em uma imagem usando um prompt. Esse serviço é uma versão específica do preenchimento que não requer máscara. Ele segmentará automaticamente o objeto e a aplicará uma nova cor usando as cores solicitadas no prompt.
Pesquisar e recolorir tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image: (string) a imagem em base64 que deve ser colorida novamente. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
select_prompt: (string) breve descrição do que pesquisar na imagem. Máximo de 10 mil caracteres.
Os seguintes parâmetros são opcionais:
style_preset: (string) orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
grow_mask: aumenta as bordas da máscara para fora em todas as direções de acordo com o número especificado de pixels. A área expandida ao redor da máscara ficará desfocada, o que pode ajudar a suavizar a transição entre o conteúdo com preenchimento e a imagem original. Varia de 0 a 20. Padrão: 5. Experimente esse parâmetro se você notar emendas ou arestas ao redor do conteúdo com preenchimento. Observe que o crescimento excessivo pode obscurecer detalhes finos na and/or mesclagem de máscaras nas regiões mascaradas próximas.
A tabela a seguir mostra as imagens de entrada e saída de uma operação de pesquisa e recoloração usando o seguinte prompt: pink jacket.
|
Input |
Output |
|---|---|
“Man wearing puffer jacket”, gerada pelo Stable Image Ultra, com prompts e edições de Sanwal Yousaf. Licenciada sob a Creative Commons BY 4.0 |
|
Pesquisar e substituir permite que você use um prompt de pesquisa em linguagem simples para identificar um objeto a ser substituído. O serviço segmentará automaticamente o objeto e o substituirá pelo objeto solicitado no prompt sem precisar de uma máscara.
Pesquisar e substituir tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image: (string) a imagem em base64 que deve ser colorida novamente. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
search_prompt: (string) breve descrição sobre onde aplicar preenchimento na imagem. Máximo de 10 mil caracteres.
Os seguintes parâmetros são opcionais:
style_preset: (string) orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
grow_mask: aumenta as bordas da máscara para fora em todas as direções de acordo com o número especificado de pixels. A área expandida ao redor da máscara ficará desfocada, o que pode ajudar a suavizar a transição entre o conteúdo com preenchimento e a imagem original. Varia de 0 a 20. Padrão: 5. Experimente esse parâmetro se você notar emendas ou arestas ao redor do conteúdo com preenchimento. Observe que o crescimento excessivo pode obscurecer detalhes finos na and/or mesclagem de máscaras nas regiões mascaradas próximas.
A tabela a seguir mostra as imagens de entrada e saída de uma operação de pesquisa e substituição usando o seguinte prompt: jacket.
|
Input |
Output |
|---|---|
“Female model wearing fall sweater”, gerada pelo Stable Image Ultra. Prompts e edições de Sanwal Yousaf. Licenciada sob a Creative Commons BY 4.0 |
|
Apagar permite que você remova elementos indesejados usando máscaras de imagem e mantenha a consistência do plano de fundo de forma inteligente.
Apagar tem os seguintes parâmetros obrigatórios:
image: (string) a imagem em base64 a ser apagada. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
mask: (string) controla a intensidade do processo de preenchimento por pixel, seja por meio de uma segunda imagem (transmitida para esse parâmetro) ou por meio do canal alfa do parâmetro de imagem.
Transmissão de uma máscara: a imagem transmitida para esse parâmetro deve ser uma imagem em preto e branco que represente, em qualquer pixel, a intensidade do preenchimento com base em quão escuro ou claro é o pixel em questão. Os pixels totalmente pretos não representam a intensidade do preenchimento, enquanto os pixels totalmente brancos representam a intensidade máxima. Caso a máscara tenha um tamanho diferente do parâmetro da imagem, ela será redimensionada automaticamente.
Suporte ao canal alfa: se você não fornecer uma máscara explícita, uma será derivada do canal alfa do parâmetro de imagem. Os pixels transparentes serão preenchidos enquanto os pixels opacos serão preservados. Caso uma imagem com um canal alfa seja fornecida com uma máscara, a máscara terá precedência.
grow_mask: aumenta as bordas da máscara para fora em todas as direções de acordo com o número especificado de pixels. A área expandida ao redor da máscara ficará desfocada, o que pode ajudar a suavizar a transição entre o conteúdo com preenchimento e a imagem original. Varia de 0 a 20. Padrão: 5. Experimente esse parâmetro se você notar emendas ou arestas ao redor do conteúdo com preenchimento. Observe que o crescimento excessivo pode obscurecer detalhes finos na and/or mesclagem de máscaras nas regiões mascaradas próximas.
nota
Para obter os melhores resultados de apagamento, a máscara de definir com precisão as áreas a serem removidas. Se nenhuma máscara explícita for fornecida, o serviço usará o canal alfa da imagem de entrada. A máscara terá precedência se ambos forem fornecidos.
A tabela a seguir mostra as imagens de entrada e saída de uma operação de apagamento.
|
Input |
Máscara |
Output |
|---|---|---|
“Students Desk”, gerada pelo Stable Image Ultra. Prompts e edições de Sanwal Yousaf. Licenciada sob a Creative Commons BY 4.0 |
|
|
Remover plano de fundo permite isolar os objetos do fundo com precisão.
Remover plano de fundo tem os seguintes parâmetros obrigatórios:
image: (string) a imagem em base64 da qual o plano de fundo deve ser removido. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
A tabela a seguir mostra as imagens de entrada e saída de uma operação de remoção de plano de fundo.
|
Input |
Output |
|---|---|
“Female model wearing fall sweater”, gerada pelo Stable Image Ultra. Prompts e edições de Sanwal Yousaf. Licenciada sob a Creative Commons BY 4.0 |
|
Controle
A seção a seguir descreve o controle do Stability AI Image Services.
Aprimore esboços grosseiros desenhados à mão para obter saídas refinadas com controle preciso. Para imagens sem esboço, controlar esboço permite a manipulação detalhada da aparência final, aproveitando as linhas de contorno e as bordas da imagem.
Controlar esboço tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image: (string) A imagem em base64 do esboço. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
control_strength: (número) grau de influência ou controle que a imagem tem na geração. Representado como uma número flutuante entre 0 e 1, em que 0 é a influência mínima e 1 é a máxima. Padrão: 0,7.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
style_preset: orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
A tabela a seguir mostra as imagens de entrada e saída de uma chamada de controle de esboço usando o seguinte prompt: a house with background of mountains and river flowing nearby.
|
Input |
Output |
|---|---|
“House, mountains, and river sketch”, de Sanwal Yousaf. Licenciada sob a Creative Commons BY 4.0 |
|
Controlar estrutura permite gerar imagens enquanto mantém a estrutura de uma imagem de entrada. Isso é especialmente valioso para cenários avançados de criação de conteúdo, como recriar cenas ou renderizar personagens com base em modelos.
Controlar estrutura tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image: (string) A imagem em base64 do esboço. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
control_strength: (número) grau de influência ou controle que a imagem tem na geração. Representado como uma número flutuante entre 0 e 1, em que 0 é a influência mínima e 1 é a máxima. Padrão: 0,7.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
style_preset: orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
A tabela a seguir mostra as imagens de entrada e saída de uma operação de controle de estrutura usando o seguinte prompt: surreal structure with motion generated sparks lighting the scene.
|
Input |
Output |
|---|---|
“Person sitting on brown box” |
|
O guia de estilo permite que você extraia elementos estilísticos de uma imagem de entrada e os utilize para orientar a criação de uma imagem de saída com base no prompt. O resultado é uma nova imagem no mesmo estilo da imagem de entrada.
Guia de estilo tem os seguintes parâmetros obrigatórios:
prompt: o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul. Mínimo de 0 e máximo de 10 mil caracteres.
image: (string) A imagem em base64 do esboço. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
aspect_ratio: (string) controla a proporção da imagem gerada. Esse parâmetro só é válido para text-to-image solicitações. Padrão 1:1. Enumeração: 16:9, 1:1, 21:9, 2:3, 3:2, 4:5, 5:4, 9:16, 9:21. Padrão 1:1.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
fidelity: (número) Até que ponto o estilo da imagem de saída se assemelha ao estilo da imagem de entrada. Varia de 0 a 1. Padrão: 0,5.
style_preset: orienta o modelo de imagem em direção a um estilo específico. Enumeração: 3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art e tile-texture.
A tabela a seguir mostra as imagens de entrada e saída de uma chamada do guia de estilo usando o seguinte prompt: wide shot of modern metropolis.
|
Input |
Output |
|---|---|
“Abstract Painting” |
|
A transferência de estilo permite que você aplique características visuais de imagens de estilo de referência às imagens de destino. Enquanto o serviço guia de estilo extrai elementos estilísticos de uma imagem de entrada e os utiliza para orientar a criação de uma imagem de saída com base no prompt, a transferência de estilo transforma especificamente o conteúdo existente e, ao mesmo tempo, preserva a composição original. Essa ferramenta ajuda a criar conteúdo consistente em vários ativos.
A transferência de estilo tem os seguintes parâmetros obrigatórios:
init_image: (string) uma imagem em base64 contendo o assunto que você deseja estilizar novamente. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
style_image: (string) uma imagem em base64 contendo o assunto que você deseja estilizar novamente. Cada lado da imagem deve ter pelo menos 64 pixels. A contagem total de pixels não pode ultrapassar 9.437.184 pixels. A taxa de proporção deve estar entre 1:2.5 e 2.5:1. Formatos compatíveis: jpeg, png e webp.
Os seguintes parâmetros são opcionais:
prompt: (string) o que você deseja ver na imagem de saída. Um prompt forte e descritivo que define claramente os elementos, as cores e os assuntos proporcionará melhores resultados. Para controlar o peso de determinada palavra, use o formato (word:weight), em que “word” é a palavra da qual você gostaria de controlar o peso e “weight” é um valor. Um valor entre 0 e 1,0 remove a ênfase da palavra e um valor entre 1,1 e 2 enfatiza a palavra. Por exemplo: o céu estava nítido, com a especificação (blue:0.3) e (green:1.8), significaria um céu azul e verde, mas mais verde do que azul.
negative_prompt: (string) uma sinopse de texto descrevendo o que você não deseja ver na imagem de saída. Este é um recurso avançado. Máximo de 10 mil caracteres.
seed: (número) um valor específico que é usado para orientar a “randomização” da geração. (Omita esse parâmetro ou passe 0 para usar uma propagação aleatória.) Varia de 0 a 4.294.967.295. Padrão: 0.
output_format: (string) dita o tipo de conteúdo da imagem gerada. Enumeração: jpeg, png, webp. Padrão: png.
composition_fidelity: (número) até que ponto o estilo da imagem de saída se assemelha ao estilo da imagem de entrada. Varia de 0 a 1. Padrão: 0,9.
style_strength: (número) às vezes chamado de redução de ruído, esse parâmetro controla quanta influência o parâmetro da imagem tem sobre a imagem gerada. Um valor de 0 produziria uma imagem idêntica à entrada. Um valor de 1 seria como se você não tivesse passado nenhuma imagem. Varia de 0 a 1. Padrão: 1.
change_strength: (número) quanto a imagem original deve mudar. Varia de 0,1 a 1. Padrão: 0,9.
A tabela a seguir mostra as imagens de entrada e saída de uma chamada de transferência de estilo.
|
Input |
Estilo |
Output |
|---|---|---|
“Standing Woman Statue” |
“Blue Bright Lights” |
|