Visão geral dos modelos Amazon Titan Image Generator G1 - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Visão geral dos modelos Amazon Titan Image Generator G1

O G1 do Gerador de Imagens do Amazon Titan é um modelo de geração de imagens. Ele vem em duas versões, v1 e v2.

O Gerador de Imagens do Amazon Titan v1 permite aos usuários gerar e editar imagens de maneiras versáteis. Os usuários podem criar imagens que correspondam às descrições baseadas em texto simplesmente inserindo prompts em linguagem natural. Além disso, eles podem carregar e editar imagens existentes, inclusive aplicar prompts baseados em texto sem a necessidade de uma máscara ou editar partes específicas de uma imagem usando uma máscara de imagem. O modelo também dá suporte à pintura externa, que estende os limites de uma imagem, e pintura interna, que preenche áreas não encontradas. Ele oferece a possibilidade de gerar variações de uma imagem com base em um prompt de texto opcional, bem como opções de personalização instantânea que permitem aos usuários transferir estilos usando imagens de referência ou combinar estilos de várias referências, tudo sem exigir nenhum ajuste.

O Gerador de Imagens do Titan v2 dá suporte a todos os recursos existentes do Gerador de Imagens do Titan v1 e adiciona diversos recursos novos. Ele permite aos usuários aproveitar imagens de referência para orientar a geração de imagens, em que a imagem de saída se alinha com o layout e a composição da imagem de referência enquanto segue o prompt textual. Ele também inclui um recurso para remoção automática do plano de fundo, que pode remover planos de fundo de imagens contendo vários objetos sem qualquer entrada do usuário. O modelo oferece controle preciso sobre a paleta de cores das imagens geradas, permitindo aos usuários preservar a identidade visual da marca sem a necessidade de ajuste adicional. Além disso, o recurso de consistência do assunto permite aos usuários ajustar o modelo com imagens de referência para preservar o assunto escolhido (por exemplo, animal de estimação, sapato ou bolsa) em imagens geradas. Esse conjunto abrangente de recursos capacita usuários a liberar o potencial criativo e dar vida às visões criativas.

Para obter mais informações sobre as diretrizes de engenharia de prompts do G1 do Gerador de Imagens do Amazon Titan, consulte Amazon Titan Image Generator Prompt Engineering Best Practices.

Para continuar apoiando as melhores práticas no uso responsável da IA, os Modelos da Titan Foundation (FMs) são criados para detectar e remover conteúdo prejudicial nos dados, rejeitar conteúdo impróprio na entrada do usuário e filtrar as saídas dos modelos que contêm conteúdo impróprio (como discurso de ódio, palavrões e violência). O FM do Gerador de Imagens do Titan adiciona uma marca d’água invisível e metadados C2PA a todas as imagens geradas.

Você pode usar o recurso de detecção da marca d’água no console Amazon Bedrock ou chamar a API de detecção da marca d’água do Amazon Bedrock (versão prévia) para verificar se uma imagem contém uma marca d’água do Gerador de Imagens do Titan. Você também pode usar sites como o Content Credentials Verify para verificar se uma imagem foi gerada pelo Gerador de Imagens do Titan.

Visão geral do Gerador de Imagens do Amazon Titan v1

  • ID de modelo: amazon.titan-image-generator-v1

  • Máximo de caracteres de entrada: 512 caracteres

  • Tamanho máximo da imagem de entrada: 5 MB (somente algumas resoluções específicas são compatíveis)

  • Tamanho máximo da imagem usando pintura embutida/externa: 1.408 x 1.408 px

  • Tamanho máximo da imagem usando variação de imagem: 4096x4096px

  • Idiomas: inglês

  • Tipo de saída: imagem

  • Tipos de imagem compatíveis: JPEG, JPG, PNG

  • Tipos de inferência: throughput sob demanda e provisionado

  • Casos de uso compatíveis: geração de imagens, edição de imagens, variações de imagem

Visão geral do Gerador de Imagens do Amazon Titan v2

  • ID de modelo: amazon.titan-image-generator-v2:0

  • Máximo de caracteres de entrada: 512 caracteres

  • Tamanho máximo da imagem de entrada: 5 MB (somente algumas resoluções específicas são compatíveis)

  • Tamanho máximo da imagem usando pintura interna/externa, remoção do plano de fundo, condicionamento de imagens, paleta de cores: 1.408 x 1.408 px

  • Tamanho máximo da imagem usando variação de imagem: 4096x4096px

  • Idiomas: inglês

  • Tipo de saída: imagem

  • Tipos de imagem compatíveis: JPEG, JPG, PNG

  • Tipos de inferência: throughput sob demanda e provisionado

  • Casos de uso compatíveis: geração de imagens, edição de imagens, variações de imagem, remoção do plano de fundo, conteúdo orientado por cores

Atributos

  • Text-to-image Geração (T2I) — Insira um prompt de texto e gere uma nova imagem como saída. A imagem gerada captura os conceitos descritos pelo prompt de texto.

  • Ajuste fino de um modelo T2I: importe várias imagens para capturar seu próprio estilo e personalização, depois ajuste o modelo T2I principal. O modelo ajustado gera imagens que seguem o estilo e a personalização de um usuário específico.

  • Opções de edição de imagem: inclui pintura embutida, pintura externa, geração de variações e edição automática sem máscara de imagem.

  • Pintura embutida — usa uma imagem e uma máscara de segmentação como entrada (do usuário ou estimada pelo modelo) e reconstrói a região dentro da máscara. Use a pintura embutida para remover elementos mascarados e substituí-los por pixels de plano de fundo.

  • Pintura externa — usa uma imagem e uma máscara de segmentação como entrada (do usuário ou estimada pelo modelo) e gera novos pixels que estendem perfeitamente a região. Use uma pintura externa precisa para preservar os pixels da imagem mascarada ao estender a imagem até os limites. Use a pintura externa padrão para estender os pixels da imagem mascarada até os limites da imagem com base nas configurações de segmentação.

  • Variação de imagem: usa de uma a cinco imagens e um prompt opcional como entrada. Ele gera uma nova imagem que preserva o conteúdo de uma ou mais imagens de entrada, mas diversifica o estilo e o plano de fundo.

  • Condicionamento de imagem: (somente v2) usa uma imagem de referência de entrada para orientar a geração de imagens. O modelo gera uma imagem de saída que se alinha ao layout e a composição da imagem de referência, ao mesmo tempo em que segue o prompt textual.

  • Consistência do assunto: (somente v2) a consistência do assunto permite aos usuários ajustar o modelo com imagens de referência para preservar o assunto escolhido (por exemplo, animal de estimação, sapato ou bolsa) em imagens geradas.

  • Conteúdo orientado por cores: (somente v2) você pode fornecer uma lista de códigos de cores hexadecimais com um prompt. Podem ser fornecidos entre um a dez códigos hexadecimais. A imagem retornada por Titan Image Generator G1 V2 incorporará a paleta de cores fornecida pelo usuário.

  • Remoção do plano de fundo: (somente v2) identifica automaticamente vários objetos na imagem de entrada e remove o plano de fundo. A imagem de saída tem um plano de fundo transparente.

  • Fornecimento de conteúdo: use sites como o Content Credentials Verify para verificar se uma imagem foi gerada pelo Gerador de Imagens do Titan. Isso deve indicar que a imagem foi gerada, a menos que os metadados tenham sido removidos.

nota

se estiver usando um modelo ajustado, você não poderá usar os recursos de pintura interna, pintura externa ou paleta de cores da API ou do modelo.

Parâmetros

Para obter informações sobre parâmetros de inferência dos modelos G1 do Gerador de Imagens do Amazon Titan, consulte Amazon Titan Image Generator G1 models inference parameters.

Ajuste

Para obter mais informações sobre o ajuste dos modelos G1 do Gerador de Imagens do Amazon Titan, consulte as páginas a seguir.

Ajuste e preços dos modelos G1 do Gerador de Imagens do Amazon Titan

O modelo usa a seguinte fórmula de exemplo para calcular o preço total por trabalho:

Preço total = etapas * tamanho do lote * preço por imagem vista

Valores mínimos (automático):

  • Etapas mínimas (automático): 500

  • Tamanho mínimo do lote: 8

  • Taxa de aprendizado padrão: 0,00001

  • Preço por imagem vista: 0,005

Ajuste das configurações de hiperparâmetro

Etapas: número de vezes em que o modelo é exposto a cada lote. Não há uma contagem de etapas padrão definida. Você deve selecionar um número entre 10 e 40.000 ou um valor de string “Auto”.

Configurações de etapa: automático: o Amazon Bedrock determina um valor razoável com base nas informações de treinamento. Selecione essa opção para priorizar o desempenho do modelo em relação ao custo do treinamento. O número de etapas é determinado automaticamente. Esse número normalmente será entre 1.000 e 8.000 com base no conjunto de dados. Os custos de trabalho são afetados pelo número de etapas usadas para expor o modelo aos dados. Consulte a seção dos exemplos de preços dos detalhes de preços para entender como o custo do trabalho é calculado. (Consulte a tabela de exemplo acima para ver como a contagem de etapas está relacionada ao número de imagens quando a opção Automático é selecionada.)

Configurações de etapas: personalizadas: você pode inserir o número de etapas em que deseja que o Bedrock exponha o modelo personalizado aos dados de treinamento. Este valor pode estar entre 10 e 40.000. Você pode reduzir o custo por imagem produzido pelo modelo usando um valor menor de contagem de etapas.

Tamanho do lote: o número de amostras processadas antes da atualização dos parâmetros de modelo. Este valor está entre 8 e 192 e é um múltiplo de 8.

Taxa de aprendizagem: a taxa na qual os parâmetros do modelo são atualizados após cada lote dos dados de treinamento. Este é um valor flutuante entre 0 e 1. A taxa de aprendizagem é definida como 0,00001 por padrão.

Para obter mais informações sobre o procedimento de ajuste, consulte Submit a model customization job.

Saída

Os modelos G1 do Gerador de Imagens do Amazon Titan usam o tamanho e a qualidade da imagem de saída para determinar como uma imagem é precificada. Os modelos G1 do Gerador de Imagens do Amazon Titan têm dois segmentos de preços com base no tamanho: um para imagens de 512 * 512 e outro para imagens de 1.024 * 1.024. O preço é baseado no tamanho da imagem, altura*largura, menor ou igual a 512*512 ou maior que 512*512.

Para obter mais informações sobre os preços do Amazon Bedrock, consulte Preços do Amazon Bedrock.

Detecção de marca d’água

nota

A detecção da marca d’água para o console e a API do Amazon Bedrock está disponível na versão prévia pública e só vai detectar uma marca d’água gerada pelo G1 do Gerador de Imagens do Titan. Atualmente, esse recurso está disponível apenas us-east-1 nas regiões us-west-2 e. A detecção da marca d’água é uma detecção altamente precisa da marca d’água gerada pelo G1 do Gerador de Imagens do Titan. Imagens modificadas da imagem original podem produzir resultados de detecção menos precisos.

Este modelo adiciona uma marca d’água invisível a todas as imagens geradas para reduzir a disseminação de desinformação, auxiliar na proteção de direitos autorais e rastrear o uso do conteúdo. Uma detecção de marca d’água está disponível para ajudar você a confirmar se uma imagem foi gerada pelo modelo G1 do Gerador de Imagens do Titan, que verifica a existência dessa marca d’água.

nota

A API Watermark Detection está em versão prévia e está sujeita a alterações. É recomendável criar um ambiente virtual para usar o SDK. Como a detecção de marca d'água APIs não está disponível na versão mais recente SDKs, recomendamos que você desinstale a versão mais recente do SDK do ambiente virtual antes de instalar a versão com a detecção de marca d'água. APIs

Você poderá carregar a imagem para detectar se uma marca d’água do G1 do Gerador de Imagens do Titan está presente na imagem. Use o console para detectar uma marca d’água desse modelo seguindo as etapas abaixo.

Para detectar uma marca d’água com o G1 do Gerador de Imagens do Titan:
  1. Abra o console Amazon Bedrock no console Amazon Bedrock

  2. Selecione Visão geral no painel de navegação no Amazon Bedrock. Escolha a guia Compilar e testar.

  3. Na seção Proteções, vá até Detecção de marca d’água e escolha Exibir detecção de marca d’água.

  4. Selecione Carregar imagem e localize um arquivo que esteja no formato JPG ou PNG. O tamanho máximo do arquivo é de 5 MB.

  5. Depois de carregada, uma miniatura da imagem será mostrada com o nome, o tamanho do arquivo e a data da modificação mais recente. Selecione X para excluir ou substituir a imagem da seção Carregar.

  6. Selecione Analisar para iniciar a análise de detecção da marca d’água.

  7. A imagem é visualizada em Resultados e indica se uma marca d’água foi detectada com Marca d’água detectada abaixo da imagem e um banner na imagem. Se nenhuma marca d’água for detectada, o texto abaixo da imagem dirá Marca d’água não detectada.

  8. Para carregar a próxima imagem, selecione X na miniatura da imagem na seção Carregar e escolha uma nova imagem para analisar.

Diretrizes da engenharia de prompts

Prompt de máscara: esse algoritmo classifica os pixels em conceitos. O usuário pode fornecer um prompt de texto que será usado para classificar as áreas da imagem a serem mascaradas, com base na interpretação do prompt de máscara. A opção de prompt pode interpretar prompts mais complexos e codificar a máscara no algoritmo de segmentação.

Máscara de imagem: você também pode usar uma máscara de imagem para definir os valores da máscara. A máscara de imagem pode ser combinada com o prompt de entrada da máscara para melhorar a precisão. O arquivo da máscara de imagem deve estar de acordo com os seguintes parâmetros:

  • Os valores da imagem de máscara devem ser 0 (preto) ou 255 (branco) para a imagem de máscara. A área da máscara de imagem com o valor 0 será regenerada com a imagem do prompt do usuário e/ou a imagem de entrada.

  • O campo maskImage deve ser uma string de imagem codificada em base64.

  • A imagem de máscara deve ter as mesmas dimensões da imagem de entrada (mesma altura e largura).

  • Somente arquivos PNG ou JPG podem ser usados para a imagem de entrada e a imagem de máscara.

  • A imagem de máscara deve usar somente valores de pixels em preto e branco.

  • A imagem de máscara só pode usar os canais RGB (canal alfa não compatível).

Para obter mais informações sobre engenharia de prompts do Gerador de Imagens do Amazon Titan, consulte Amazon Titan Image Generator G1 models Prompt Engineering Best Practices.

Para conferir diretrizes gerais de engenharia de prompts, consulte Diretrizes da engenharia de prompts.