Práticas recomendadas para a criação de prompts de compreensão visual
A família de modelos do Amazon Nova está equipada com novos recursos visuais que permitem que o modelo compreenda e analise imagens e vídeos, proporcionando oportunidades interessantes para uma interação multimodal. As seções a seguir descrevem as diretrizes para trabalhar com imagens e vídeos no Amazon Nova. Isso inclui as práticas recomendadas, exemplos de código e limitações relevantes a serem consideradas.
Quanto maior a qualidade das imagens ou vídeos que você fornecer, maiores serão as chances de os modelos compreenderem com precisão as informações no arquivo de mídia. Certifique-se de que as imagens ou vídeos estejam nítidos e livres de desfoque ou pixelização excessivos para garantir resultados mais precisos. Se a imagem ou os quadros de vídeo contiverem informações de texto importantes, verifique se o texto está legível e não é muito pequeno. Evite recortar o contexto visual principal apenas para ampliar o texto.
Os modelos do Amazon Nova permitem que você inclua um único vídeo na carga útil, que pode ser fornecido no formato base64 ou por meio de um URI do Amazon S3. Ao usar o método base64, o tamanho geral da carga útil deve ser menor que 25 MB. No entanto, você pode especificar um URI do Amazon S3 para compreensão de imagem, vídeo e documento. O uso do Amazon S3 permite que você aproveite o modelo para arquivos maiores e vários arquivos de mídia, sem ser limitado pela restrição geral do tamanho da carga útil. O Amazon Nova pode analisar o vídeo de entrada e responder a perguntas, classificar um vídeo e resumir as informações no vídeo com base nas instruções fornecidas.
Os modelos do Amazon Nova permitem que você inclua várias imagens na carga útil. O tamanho total da carga útil não deve exceder 25 MB. Os modelos do Amazon Nova podem analisar as imagens passadas e responder a perguntas, classificar uma imagem e resumir imagens com base nas instruções fornecidas.
Tipo de arquivo de mídia |
Formatos de arquivo compatíveis |
Método de entrada |
---|---|---|
Imagem |
PNG, JPG, JPEG, GIF, WebP |
Base64 e URI do Amazon S3 |
Formato |
Tipo MIME |
Codificação de vídeo |
---|---|---|
MKV |
video/x-matroska |
H.264 |
MOV |
video/quicktime |
H.264 H.265 ProRES |
MP4 |
video/mp4 |
DIVX/XVID H.264 H.265 J2K (JPEG2000) MPEG-2 MPEG-4 Parte 2 VP9 |
WEBM |
video/webm |
VP8 VP9 |
FLV |
video/x-flv |
FLV1 |
MPEG |
video/mpeg |
MPEG-1 |
MPG |
vídeo/mpg |
MPEG-1 |
WMV |
vídeo/wmv |
MSMPEG4v3 (MP43) |
3GPP |
vídeo/3gpp |
H.264 |
Não há diferenças na contagem de tokens de entrada de vídeo, independentemente de o vídeo ser passado como Base64 (desde que esteja dentro das restrições de tamanho) ou por meio de um local do Amazon S3.
Observe que, para o formato de arquivo 3gp, o campo “format” passado na solicitação da API deve ter o formato “three_gp”.
Ao usar o Amazon S3, certifique-se de que seus metadados “Content-Type” estejam configurados para o tipo MIME correto para o vídeo
Vídeos longos e high-motion
O modelo realiza a compreensão de vídeo amostrando quadros de vídeos a uma taxa base de um quadro por segundo (FPS). É um equilíbrio entre capturar detalhes no vídeo e consumir os tokens de entrada utilizados, o que afeta o custo, a latência e a duração máxima do vídeo. Embora a amostragem de um evento a cada segundo deva ser suficiente para casos de uso geral, alguns casos de uso em vídeos high-motion, como vídeos de esportes, podem não ter uma boa performance.
Para lidar com vídeos mais longos, a taxa de amostragem é reduzida em vídeos com mais de 16 minutos para 960 quadros fixos, espaçados ao longo da duração do vídeo para Amazon Nova Lite e Amazon Nova Pro. Isso significa que, à medida que um vídeo ultrapassa 16 minutos, quanto menor o FPS, menos detalhes serão capturados. Isso permite casos de uso, como o resumo de vídeos mais longos, mas agrava os problemas com vídeos high-motion, em que os detalhes são importantes. Para o Amazon Nova Premier, a taxa de amostragem de 1 FPS é aplicada até um limite de 3.200 quadros.
Em muitos casos, você pode obter uma amostragem de 1 FPS em vídeos mais longos usando etapas de pré-processamento e várias chamadas. O vídeo pode ser dividido em segmentos menores e, em seguida, cada segmento é analisado usando os recursos de vários modelos do modelo. As respostas são agregadas e uma etapa final usando a conversão de texto em texto gera uma resposta final. Observe que pode haver perda de contexto ao segmentar os vídeos dessa forma. Isso é semelhante às concessões na fragmentação para casos de uso de RAG, e muitas das mesmas técnicas de mitigação são bem transferidas, como a janela deslizante.
Observe que segmentar o vídeo também pode diminuir a latência, pois a análise é feita em paralelo, mas pode gerar significativamente mais tokens de entrada, o que afeta o custo.
Latência
Os vídeos podem ser grandes em tamanho. Embora forneçamos meios para lidar com arquivos de até 1 GB enviando-os para o Amazon S3, tornando as cargas úteis de invocação muito reduzidas, os modelos ainda precisam processar um número potencialmente grande de tokens. Se você estiver usando chamadas síncronas do Amazon Bedrock, como Invoke ou Converse, certifique-se de que seu SDK esteja configurado com um tempo limite apropriado.
Independentemente disso, o URI do Amazon S3 é a forma preferencial quando a latência é um fator. Segmentar os vídeos, conforme descrito na seção anterior, é outra estratégia. O pré-processamento de vídeos de alta resolução e alta taxa de quadros também pode economizar largura de banda e processamento no tamanho do serviço, diminuindo a latência.