Compreensão multimodal
O Amazon Nova 2 Lite pode compreender várias modalidades de entrada. Esse modelo é fornecido com recursos visuais que permitem que ele compreenda e analise imagens, documentos, vídeos e fala para inferir e responder a perguntas com base no conteúdo fornecido.
Esta seção descreve as diretrizes para trabalhar com imagens, documentos e vídeos no Amazon Nova, incluindo estratégias de pré-processamento empregadas, exemplos de código e limitações relevantes a serem consideradas.
Tipo de conteúdo compatível por modalidade
As informações a seguir detalham os formatos de arquivo compatíveis com cada tipo de arquivo de mídia e o método de entrada aceito.
| Tipo de arquivo de mídia | Formatos de arquivo compatíveis | Método de entrada | Limitações de tamanho | Número de objetos |
|---|---|---|---|---|
| Imagem | PNG, JPEG, GIF, WebP Observação: se você usar um arquivo GIF ou WebP animado, somente o primeiro quadro será usado. |
Incorporação de dados na solicitação Se você usar a API Converse, codifique dados como bytes. Se você usar a API Invoke, codifique os dados como string Base64. |
25 MB | 5 |
| URI do Amazon S3 | 2 GB no total | 1000 | ||
| Vídeo | MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP | Incorporação de dados na solicitação Se você usar a API Converse, codifique dados como bytes. Se você usar a API Invoke, codifique os dados como string Base64. |
25 MB | 1 |
| URI do Amazon S3 | 1 GB | 1 |
Compreensão de imagens
A compreensão da imagem refere-se à capacidade do Amazon Nova de processar uma imagem e realizar uma variedade de tarefas de visão computacional, como:
-
Execução de detecção de objetos
-
Respostas a perguntas sobre imagens por meio do Visual Question Answering (VQA)
-
Classificação e resumo de imagens
-
Execução da detecção de caixa delimitadora
-
Reconhecimento óptico de caracteres (OCR)
-
Contagem de objetos
As imagens podem ser incluídas como um prompt transmitido para a API como matrizes de bytes ou por meio do URI do S3.
Informações técnicas importantes
Confira a seguir as principais informações técnicas a serem observadas quando você trabalha com esse recurso.
Dimensionamento e redimensionamento de imagens
O Amazon Nova redimensiona automaticamente as imagens para otimizar a qualidade e o desempenho:
-
Determina a taxa de proporção mais próxima (como 1:1, 1:2, 2:3 etc.)
-
Redimensiona para que um lado seja ≥ 896 px ou corresponda ao lado mais curto da imagem original, o que for maior
-
Mantém a taxa de proporção
-
Compatível com a resolução de até 8.000 × 8.000 px
Coordenadas da caixa delimitadora:
-
Útil para tarefas como identificação de elementos em capturas de tela ou ancoragem de imagens
-
As coordenadas podem ser redimensionadas para corresponder às dimensões originais da imagem no pós-processamento
-
Retorna caixas delimitadoras em uma escala [0, 1000].
Estimativa do token de imagem
O Amazon Nova converte cada imagem em tokens para processamento. O número de tokens depende da resolução e da taxa de proporção da imagem.
Confira a seguir exemplos de contagens aproximadas de tokens com base na resolução da imagem:
| Resolução de imagem | Tokens estimados |
|---|---|
| 900 x 450 | 515 |
| 900 x 900 | ~1.035 |
| 1400 x 900 | ~1.600 |
| 1800 x 900 | ~2.060 |
| 1300x1300 | ~2.155 |
Exemplos de compreensão de imagens
Para obter um exemplo de como incorporar dados de imagem diretamente na solicitação, consulte o exemplo de entrada multimodal usando o ativo incorporado - API Converse (sem streaming) na Biblioteca de códigos.
Para enviar arquivos de imagem grandes ou vários arquivos de imagem, em que a carga útil geral é maior que 25 MB, use o Amazon S3. Para obter um exemplo completo de como usar referências de URI do Amazon S3 para entrada de imagem, consulte o exemplo de entrada multimodal usando o URI do S3 - API Converse (sem streaming) na Biblioteca de códigos.
nota
Ao usar o S3, certifique-se de que o serviço do Amazon Bedrock tenha permissão para acessar o bucket e o objeto.
Principais limitações
A lista a seguir descreve as limitações atuais dos modelos de compreensão de imagens:
-
Compreensão multilíngue de imagens: os modelos têm uma compreensão limitada de imagens e quadros de vídeo multilíngues e podem ter dificuldades ou alucinações em tarefas simples.
-
Identificação de pessoas: os modelos do Amazon Nova 2 não são compatíveis com o recurso de identificar ou nomear indivíduos em imagens, documentos ou vídeos.
-
Raciocínio espacial: os modelos do Amazon Nova 2 têm recursos limitados de raciocínio espacial. Eles podem ter dificuldades com tarefas que exijam localização precisa ou análise de layout.
-
Texto pequeno em imagens e vídeos: se o texto na imagem ou no vídeo for muito pequeno, considere aumentar o tamanho relativo do texto na imagem recortando a seção relevante e preservando o contexto necessário.
Compreensão de vídeos
A compreensão de vídeo refere-se à capacidade do Amazon Nova de processar entradas de vídeo e realizar uma série de tarefas de compreensão de vídeo, como:
-
Análise de quadros-chave e resumo de conteúdo de vídeo
-
Respostas a perguntas sobre segmentos de vídeo (Video Question Answering ou Video QA)
-
Detecção e rastreamento de objetos em quadros
-
Identificação de ações, cenas e eventos
-
Execução de segmentação temporal para localizar momentos específicos
-
Geração de legendas descritivas ou resumos de sequências de vídeo
Informações técnicas importantes
Confira a seguir as principais informações técnicas a serem observadas quando você trabalha com esse recurso.
Informações sobre o tamanho do vídeo
Os recursos de compreensão de vídeo do Amazon Nova são compatíveis com diversas proporções de tela. Todos os vídeos são redimensionados com distorção (aumentados ou reduzidos, com base na taxa de proporção original) para dimensões de um quadrado de 672 x 672 antes de serem inseridos no modelo.
O modelo utiliza uma estratégia de amostragem dinâmica baseada na duração do vídeo. Para vídeos de 16 minutos ou menos, o Amazon Nova 2 Lite amostra um quadro por segundo (FPS). Para vídeos com mais de 16 minutos de duração, a taxa de amostragem diminui para manter uma amostra consistente de 960 quadros, com a taxa de amostragem de quadros variando de acordo. Essa abordagem foi projetada para fornecer uma compreensão de vídeo mais precisa em nível de cena para vídeos mais curtos em comparação com o conteúdo de vídeos mais longos.
Recomendamos que você mantenha a duração do vídeo em menos de uma hora para movimentação baixa, e menos de 16 minutos para qualquer coisa com maior movimentação.
Não deve haver diferença ao analisar uma versão 4K de um vídeo e uma versão Full HD. Da mesma forma, como a taxa de amostragem é de 1 FPS, um vídeo de 60 FPS deve ter o mesmo desempenho que um vídeo de 30 FPS. Usar uma resolução e FPS acima do necessário não é benéfico devido ao limite de 1 GB no tamanho do vídeo. Isso limitará a duração do vídeo que se encaixa nesse limite de tamanho. Portanto, é recomendável pré-processar vídeos com duração maior que 1 GB.
Tokens de vídeo
A duração do vídeo é o principal fator que afeta o número de tokens gerados. Para calcular o custo aproximado, multiplique o número estimado de tokens de vídeo pelo preço por token do modelo específico que está sendo utilizado.
A seguinte tabela fornece algumas aproximações de amostragem de quadros e utilização de tokens por duração de vídeo para o Amazon Nova 2 Lite:
| Duração do vídeo | Quadros para amostragem | Taxa de amostragem fps | Tokens aproximados |
|---|---|---|---|
| 10 segundos | 10 | 1 | 2.880 |
| 30 segundos | 30 | 1 | 8.640 |
| 16 minutos | 960 | 1 | 276.480 |
| 20 minutos | 1200 | 1 | 345.600 |
| 30 minutos | 1800 | 1 | 518.400 |
| 45 minutos | 2700 | 1 | 777.600 |
Exemplos de compreensão de vídeos
Para ver um exemplo de como incorporar dados de vídeo diretamente na solicitação, consulte o exemplo de entrada multimodal usando ativo incorporado - API Converse (sem streaming) na Biblioteca de códigos.
Para ver um exemplo de como usar referências do URI do S3 na entrada de vídeo, consulte o exemplo de entrada multimodal usando o URI do S3 - API Converse (sem streaming) na Biblioteca de códigos.
Principais limitações
Confira abaixo as principais limitações dos modelos, em que a precisão e o desempenho deles podem não ser garantidos:
-
Sem suporte de áudio: atualmente, os modelos do Amazon Nova são treinados para processar e compreender o conteúdo de vídeo apenas com base nos quadros visuais. As faixas de áudio nos vídeos não são processadas nem analisadas.
-
Compreensão multilíngue de imagens: os modelos do Amazon Nova têm uma compreensão limitada de imagens e quadros de vídeo multilíngues. Eles podem ter dificuldades ou apresentar alucinações em tarefas simples.
-
Identificação de pessoas: os modelos do Amazon Nova não são compatíveis com a capacidade de identificar ou nomear indivíduos em imagens, documentos ou vídeos. Os modelos não fornecerão nomes ou identidades de pessoas no conteúdo visual.
-
Texto pequeno em vídeos: se o texto na imagem ou no vídeo for muito pequeno, considere aumentar o tamanho relativo do texto no vídeo.
-
Raciocínio espacial: os modelos do Amazon Nova 2 têm recursos limitados de raciocínio espacial. Eles podem ter dificuldades com tarefas que exijam uma compreensão precisa de posições de objetos, distâncias ou relações espaciais em vídeos.
-
Conteúdo impróprio: os modelos do Amazon Nova não processarão imagens impróprias ou explícitas que violem a Política de Uso Aceitável.
-
Aplicações de saúde: devido à natureza sensível desses artefatos, embora os modelos do Amazon Nova possam fornecer análises gerais sobre imagens ou vídeos de saúde, não recomendamos seu uso para a interpretação de imagens médicas sensíveis, como exames diagnósticos complexos. A resposta dos modelos do Amazon Nova nunca deve ser considerada um substituto do aconselhamento médico profissional.
Compreensão do documento
A capacidade de compreensão de documentos do Amazon Nova permite que você inclua documentos inteiros (PDFs, arquivos do Word, planilhas etc.) como parte do seu prompt. Isso permite que o modelo analise, resuma, extraia informações ou responda a perguntas sobre o conteúdo do documento.
O Amazon Nova 2 Lite pode interpretar tanto o texto quanto os elementos visuais (como gráficos ou tabelas) nesses documentos. Isso permite casos de uso como resposta a perguntas, resumo e análise de relatórios longos ou documentos digitalizados.
Os principais recursos da compreensão de documentos incluem uma janela de contexto muito grande (1 milhão de tokens) para documentos longos e a capacidade de lidar com vários documentos em uma consulta.
Modalidades e formatos de documentos compatíveis
O Amazon Nova distingue entre dois tipos de entradas de documentos:
-
Tipos de documentos baseados em texto, como arquivos DOC, TXT, CSV, HTML ou Markdown, são processados principalmente por seu conteúdo textual. O Amazon Nova compreende e extrai informações do texto nesses documentos.
-
Documentos baseados em mídia, como arquivos PDF ou DOCX, podem conter layouts, imagens, tabelas ou gráficos incorporados complexos. Para documentos baseados em mídia, o Amazon Nova emprega a compreensão baseada na visão para interpretar o conteúdo visual, como gráficos, tabelas, diagramas ou capturas de tela, junto com o texto do documento.
Os formatos de arquivo compatíveis incluem tipos de documentos comuns, como:
-
Texto simples e arquivos de texto estruturado: CSV, TXT
-
Planilhas: XLS, XLSX, HTML, Markdown
-
Formatos de imagem padrão (para imagens em documentos): PNG, JPG, GIF, WebP
-
Formatos de documentos: DOC, DOCX, PDF
-
PDFs que contêm codificações de imagem, como CMYK ou SVG, não são compatíveis.
Limites de tamanho do documento e diretrizes de uso
Restrição |
Limite |
|---|---|
Número máximo de documentos |
Até 5 documentos por solicitação (aplicável tanto ao upload direto quanto ao Amazon S3) |
Tamanho do documento baseado em texto |
Cada documento de texto deve ser igual ou menor que 4,5 MB |
Tamanho do documento baseado em mídia |
Para arquivos PDF e DOCX, não há limite de tamanho de arquivo individual. Ao usar o upload direto, o tamanho combinado de todos os documentos de mídia deve ser menor ou igual a 25 MB. Ao usar o Amazon S3, o tamanho combinado de todos os documentos de mídia deve ser menor ou igual a 2 GB. |
Conteúdo em PDF não suportado |
PDFs contendo perfis de cores CMYK ou imagens SVG não são compatíveis. |
Preços
O Amazon Nova usa preços baseados em tokens: você paga pelos tokens de entrada (tudo o que você envia, incluindo documentos anexados) e pelos tokens de saída (a resposta do modelo).
Estimativa de tokens para PDFs: para planejar, suponha uma página PDF padrão de 8,5 x 11 polegadas com aproximadamente 2.560 tokens de entrada (essa estimativa abrange elementos textuais e visuais em uma página comum).
Exemplos: uso da compreensão de documentos do Nova via API e S3
Para obter um exemplo de como usá-la via API, consulte o exemplo de entrada multimodal usando ativo incorporado - API Converse (sem streaming) na Biblioteca de códigos.
Para obter um exemplo de como usá-la via S3, consulte o exemplo de entrada multimodal usando o URI do S3 - API Converse (sem streaming) na Biblioteca de códigos.