Práticas recomendadas para a criação de prompts de compreensão visual

A família de modelos do Amazon Nova está equipada com novos recursos visuais que permitem que o modelo compreenda e analise imagens e vídeos, proporcionando oportunidades interessantes para uma interação multimodal. As seções a seguir descrevem as diretrizes para trabalhar com imagens e vídeos no Amazon Nova. Isso inclui as práticas recomendadas, exemplos de código e limitações relevantes a serem consideradas.

Quanto maior a qualidade das imagens ou vídeos que você fornecer, maiores serão as chances de os modelos compreenderem com precisão as informações no arquivo de mídia. Certifique-se de que as imagens ou vídeos estejam nítidos e livres de desfoque ou pixelização excessivos para garantir resultados mais precisos. Se a imagem ou os quadros de vídeo contiverem informações de texto importantes, verifique se o texto está legível e não é muito pequeno. Evite recortar o contexto visual principal apenas para ampliar o texto.

Os modelos do Amazon Nova permitem que você inclua um único vídeo na carga útil, que pode ser fornecido no formato base64 ou por meio de um URI do Amazon S3. Ao usar o método base64, o tamanho geral da carga útil deve ser menor que 25 MB. No entanto, você pode especificar um URI do Amazon S3 para compreensão de imagem, vídeo e documento. O uso do Amazon S3 permite que você aproveite o modelo para arquivos maiores e vários arquivos de mídia, sem ser limitado pela restrição geral do tamanho da carga útil. O Amazon Nova pode analisar o vídeo de entrada e responder a perguntas, classificar um vídeo e resumir as informações no vídeo com base nas instruções fornecidas.

Os modelos do Amazon Nova permitem que você inclua várias imagens na carga útil. O tamanho total da carga útil não deve exceder 25 MB. Os modelos do Amazon Nova podem analisar as imagens passadas e responder a perguntas, classificar uma imagem e resumir imagens com base nas instruções fornecidas.

Informações sobre a imagem
Tipo de arquivo de mídia	Formatos de arquivo compatíveis	Método de entrada
Imagem	PNG, JPG, JPEG, GIF, WebP	Base64 e URI do Amazon S3

Informações sobre o vídeo
Formato	Tipo MIME	Codificação de vídeo
MKV	video/x-matroska	H.264
MOV	video/quicktime	H.264 H.265 ProRES
MP4	video/mp4	DIVX/XVID H.264 H.265 J2K (JPEG2000) MPEG-2 MPEG-4 Parte 2 VP9
WEBM	video/webm	VP8 VP9
FLV	video/x-flv	FLV1
MPEG	video/mpeg	MPEG-1
MPG	vídeo/mpg	MPEG-1
WMV	vídeo/wmv	MSMPEG4v3 (MP43)
3GPP	vídeo/3gpp	H.264

Não há diferenças na contagem de tokens de entrada de vídeo, independentemente de o vídeo ser passado como Base64 (desde que esteja dentro das restrições de tamanho) ou por meio de um local do Amazon S3.

Observe que, para o formato de arquivo 3gp, o campo “format” passado na solicitação da API deve ter o formato “three_gp”.

Ao usar o Amazon S3, certifique-se de que seus metadados “Content-Type” estejam configurados para o tipo MIME correto para o vídeo

Tópicos

Vídeos longos e high-motion

O modelo realiza a compreensão de vídeo amostrando quadros de vídeos a uma taxa base de um quadro por segundo (FPS). É um equilíbrio entre capturar detalhes no vídeo e consumir os tokens de entrada utilizados, o que afeta o custo, a latência e a duração máxima do vídeo. Embora a amostragem de um evento a cada segundo deva ser suficiente para casos de uso geral, alguns casos de uso em vídeos high-motion, como vídeos de esportes, podem não ter uma boa performance.

Para lidar com vídeos mais longos, a taxa de amostragem é reduzida em vídeos com mais de 16 minutos para 960 quadros fixos, espaçados ao longo da duração do vídeo para Amazon Nova Lite e Amazon Nova Pro. Isso significa que, à medida que um vídeo ultrapassa 16 minutos, quanto menor o FPS, menos detalhes serão capturados. Isso permite casos de uso, como o resumo de vídeos mais longos, mas agrava os problemas com vídeos high-motion, em que os detalhes são importantes. Para o Amazon Nova Premier, a taxa de amostragem de 1 FPS é aplicada até um limite de 3.200 quadros.

Em muitos casos, você pode obter uma amostragem de 1 FPS em vídeos mais longos usando etapas de pré-processamento e várias chamadas. O vídeo pode ser dividido em segmentos menores e, em seguida, cada segmento é analisado usando os recursos de vários modelos do modelo. As respostas são agregadas e uma etapa final usando a conversão de texto em texto gera uma resposta final. Observe que pode haver perda de contexto ao segmentar os vídeos dessa forma. Isso é semelhante às concessões na fragmentação para casos de uso de RAG, e muitas das mesmas técnicas de mitigação são bem transferidas, como a janela deslizante.

Observe que segmentar o vídeo também pode diminuir a latência, pois a análise é feita em paralelo, mas pode gerar significativamente mais tokens de entrada, o que afeta o custo.

Latência

Os vídeos podem ser grandes em tamanho. Embora forneçamos meios para lidar com arquivos de até 1 GB enviando-os para o Amazon S3, tornando as cargas úteis de invocação muito reduzidas, os modelos ainda precisam processar um número potencialmente grande de tokens. Se você estiver usando chamadas síncronas do Amazon Bedrock, como Invoke ou Converse, certifique-se de que seu SDK esteja configurado com um tempo limite apropriado.

Independentemente disso, o URI do Amazon S3 é a forma preferencial quando a latência é um fator. Segmentar os vídeos, conforme descrito na seção anterior, é outra estratégia. O pré-processamento de vídeos de alta resolução e alta taxa de quadros também pode economizar largura de banda e processamento no tamanho do serviço, diminuindo a latência.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solucionar problemas de chamadas de ferramentas

Técnicas de geração de prompts para compreensão visual