Compreensão de vídeos
Os modelos do Amazon Nova permitem que você inclua um único vídeo na carga útil, que pode ser fornecido no formato Base64 ou por meio de um URI do Amazon S3. Ao usar o método base64, o tamanho geral da carga útil deve permanecer dentro de 25 MB. No entanto, você pode especificar um URI do Amazon S3 para compreensão de vídeo. Essa abordagem permite que você aproveite o modelo para vídeos mais longos (até 1 GB de tamanho) sem ser limitado pela restrição geral do tamanho da carga útil. Os modelos do Amazon Nova podem analisar o vídeo fornecido e responder a perguntas, classificar um vídeo e resumir as informações no vídeo com base nas instruções fornecidas.
Tipo de arquivo de mídia |
Formatos de arquivo compatíveis |
Método de entrada |
---|---|---|
Vídeo |
MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP |
Base64 Recomendado para carga útil de até 25 MB |
URI do Amazon S3 Recomendado para carga útil de mais 25 MB até 2 GB. Os arquivos individuais devem ser até de 1 GB. |
Não há diferenças na contagem de tokens de entrada de vídeo, independentemente de o vídeo ser passado como Base64 (desde que esteja dentro das restrições de tamanho) ou por meio de um local do Amazon S3.
Observe que, para o formato de arquivo 3GP, o campo “format” passado na solicitação da API deve ter o formato “three_gp”.
Ao usar o Amazon S3, certifique-se de definir o metadado “Content-Type” para o tipo MIME correto para o vídeo.
Informações sobre o tamanho do vídeo
Os recursos de compreensão de vídeo do Amazon Nova são compatíveis com várias taxas de proporção. Todos os vídeos são redimensionados com distorção (aumentados ou reduzidos, com base na entrada) para dimensões de um quadrado de 672 x 672 antes de serem inseridos no modelo. O modelo utiliza uma estratégia de amostragem dinâmica baseada na duração do vídeo. Para vídeos com duração menor ou igual a 16 minutos do Amazon Nova Lite e Amazon Nova Pro, emprega-se uma taxa de amostragem de um quadro por segundo (FPS). No entanto, para vídeos com mais de 16 minutos de duração, a taxa de amostragem diminui para manter uma amostra consistente de 960 quadros, com a taxa de amostragem de quadros variando de acordo. Essa abordagem foi projetada para fornecer uma compreensão de vídeo mais precisa em nível de cena para vídeos mais curtos em comparação com o conteúdo de vídeos mais longos. Recomendamos que você mantenha a duração do vídeo em menos de uma hora para movimentação baixa, e menos de 16 minutos para qualquer coisa com maior movimentação. Para o Amazon Nova Premier, a taxa de amostragem de 1 FPS é aplicada até um limite de 3.200 quadros.
Não deve haver diferença ao analisar uma versão 4K de um vídeo e uma versão Full HD. Da mesma forma, como a taxa de amostragem é de no máximo 1 FPS, um vídeo de 60 FPS deve ter o mesmo desempenho que um vídeo de 30 FPS. Devido ao limite de 1 GB no tamanho do vídeo, usar resolução e FPS acima do necessário não é benéfico e limitará a duração do vídeo que se encaixa nesse limite de tamanho. Você pode querer pré-processar vídeos com mais de 1 GB.
Tokens de vídeo
A duração do vídeo é o principal fator que afeta o número de tokens gerados. Para calcular o custo aproximado, você deve multiplicar o número estimado de tokens de vídeo pelo preço por token do modelo específico que está sendo utilizado.
A tabela a seguir fornece algumas aproximações de amostragem de quadros e utilização de tokens por duração de vídeo para o Amazon Nova Pro, Lite e Micro:
video_duration |
10 s |
30 s |
16 min |
20 min |
30 min |
45 min |
1 h |
1,5 h |
---|---|---|---|---|---|---|---|---|
frames_to_sample |
10 |
30 |
960 |
960 |
960 |
960 |
960 |
960 |
sample_rate_fps |
1 |
1 |
1 |
0,755 |
0,5 |
0,35556 |
0,14 |
0,096 |
Contagem estimada de tokens |
2.880 |
8.640 |
276.480 |
276.480 |
276.480 |
276.480 |
276.480 |
276.480 |
A tabela a seguir fornece algumas aproximações de amostragem de quadros e utilização de tokens por duração de vídeo para o Amazon Nova Premier:
video_duration |
10 s |
30 s |
16 min |
20 min |
30 min |
45 min |
1 h |
1,5 h |
---|---|---|---|---|---|---|---|---|
frames_to_sample |
10 |
30 |
960 |
1200 |
1800 |
2700 |
||
sample_rate_fps |
1 |
1 |
1 |
1 |
1 |
1 |
||
Contagem estimada de tokens |
2.880 |
8.640 |
276.480 |
345.600 |
518.400 |
777.600 |