Pemahaman video - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemahaman video

Model Amazon Nova memungkinkan Anda untuk menyertakan satu video dalam payload, yang dapat disediakan baik dalam format base64 atau melalui URI Amazon S3. Saat menggunakan metode base64, ukuran muatan keseluruhan harus tetap dalam 25 MB. Namun, Anda dapat menentukan URI Amazon S3 untuk pemahaman video. Pendekatan ini memungkinkan Anda memanfaatkan model untuk video yang lebih panjang (berukuran hingga 1 GB) tanpa dibatasi oleh batasan ukuran muatan keseluruhan. Model Amazon Nova dapat menganalisis video yang diteruskan dan menjawab pertanyaan, mengklasifikasikan video, dan meringkas informasi dalam video berdasarkan instruksi yang diberikan.

Jenis File Media

Format File yang didukung

Metode Masukan

Video

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

Direkomendasikan untuk ukuran payload kurang dari 25 MB

Amazon S3 URI

Direkomendasikan untuk muatan yang lebih besar dari 25 MB hingga 2 GB. File individual harus berukuran 1 GB atau lebih kecil.

Tidak ada perbedaan dalam jumlah token input video, terlepas dari apakah video diteruskan sebagai base64 (asalkan sesuai dengan batasan ukuran) atau melalui lokasi Amazon S3.

Perhatikan bahwa untuk format file 3GP, bidang “format” yang diteruskan dalam permintaan API harus dalam format “three_gp”.

Saat menggunakan Amazon S3, pastikan Anda menyetel metadata “Content-Type” ke jenis MIME yang benar untuk video.

Informasi ukuran video

Kemampuan pemahaman video Amazon Nova mendukung Rasio Multi-Aspek. Semua video diubah ukurannya dengan distorsi (atas atau bawah, berdasarkan input) ke 672* 672 dimensi persegi sebelum memasukkannya ke model. Model ini menggunakan strategi pengambilan sampel dinamis berdasarkan panjang video. Untuk Amazon Nova Lite dan Amazon Nova Pro, dengan durasi video kurang dari atau sama dengan 16 menit, laju pengambilan sampel 1 frame per detik (FPS) digunakan. Namun, untuk video yang berdurasi lebih dari 16 menit, laju pengambilan sampel menurun untuk mempertahankan sampel 960 frame yang konsisten, dengan laju pengambilan sampel bingkai bervariasi. Pendekatan ini dirancang untuk memberikan pemahaman video tingkat adegan yang lebih akurat untuk video yang lebih pendek dibandingkan dengan konten video yang lebih panjang. Kami menyarankan Anda menjaga panjang video kurang dari 1 jam untuk gerakan rendah, dan kurang dari 16 menit untuk apa pun dengan gerakan lebih tinggi. Untuk Amazon Nova Premier, laju pengambilan sampel 1 FPS diterapkan hingga batas 3.200 frame.

Seharusnya tidak ada perbedaan saat menganalisis versi video 4k dan versi Full HD. Demikian pula, karena laju pengambilan sampel paling banyak 1 FPS, video 60 FPS harus berkinerja sebaik video 30 FPS. Karena batas 1 GB dalam ukuran video, menggunakan resolusi yang lebih tinggi dari yang diperlukan dan FPS tidak menguntungkan dan akan membatasi panjang video yang sesuai dengan batas ukuran tersebut. Anda mungkin ingin melakukan pra-proses video lebih dari 1 GB.

Token video

Panjang video adalah faktor utama yang memengaruhi jumlah token yang dihasilkan. Untuk menghitung perkiraan biaya, Anda harus mengalikan perkiraan jumlah token video dengan harga per token dari model tertentu yang digunakan.

Tabel berikut memberikan beberapa perkiraan pengambilan sampel bingkai dan pemanfaatan token per panjang video untuk Amazon Nova Pro, Lite, dan Micro:

video_durasi

10 detik

30 detik

16 mnt

20 menit

30 menit

45 menit

1 jam

1,5 jam

frames_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0,755

0,5

0,35556

0,14

0,096

Perkiraan jumlah token

2,880

8.640

276,480

276,480

276,480

276,480

276,480

276,480

Tabel berikut memberikan beberapa perkiraan pengambilan sampel bingkai dan pemanfaatan token per panjang video untuk Amazon Nova Premier:

video_durasi

10 detik

30 detik

16 mnt

20 menit

30 menit

45 menit

1 jam

1,5 jam

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Perkiraan jumlah token

2,880

8.640

276,480

345.600

518.400

777.600