Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
TwelveLabs Marengo Embed 3.0
TwelveLabs Marengo Embed 3.0Model ini menghasilkan penyematan yang disempurnakan dari input video, teks, audio, atau gambar. Versi terbaru ini menawarkan peningkatan kinerja dan akurasi untuk pencarian kesamaan, pengelompokan, dan tugas pembelajaran mesin lainnya.
Penyedia — TwelveLabs
ID Model — twelvelabs.marengo-embed-3-0-v1:0
Marengo Embed 3.0 memberikan beberapa penyempurnaan utama:
Kapasitas pemrosesan video yang diperluas - Memproses hingga 4 jam konten video dan audio. File dapat mencapai 6 GB, yang merupakan dua kali lipat kapasitas versi sebelumnya. Ini membuatnya ideal untuk menganalisis acara olahraga penuh, video pelatihan yang diperpanjang, dan produksi film lengkap.
Analisis olahraga yang ditingkatkan — Model ini memberikan peningkatan yang signifikan. Ini memberikan pemahaman yang lebih baik tentang dinamika gameplay, gerakan pemain, dan deteksi peristiwa.
Dukungan multibahasa global - Kemampuan bahasa yang diperluas dari 12 hingga 36 bahasa. Hal ini memungkinkan organisasi global untuk membangun sistem pencarian dan pengambilan terpadu yang bekerja dengan mulus di berbagai wilayah dan pasar.
Presisi pencarian multimodal - Gabungkan gambar dan teks deskriptif dalam satu permintaan penyematan. Ini menggabungkan kesamaan visual dengan pemahaman semantik untuk memberikan hasil pencarian yang lebih akurat dan relevan secara kontekstual.
Mengurangi dimensi embedding - Dikurangi dari 1024 menjadi 512, yang dapat membantu mengurangi biaya penyimpanan.
TwelveLabs Marengo Embed 3.0Model ini mendukung operasi Amazon Bedrock Runtime dalam tabel berikut.
-
Untuk informasi selengkapnya tentang kasus penggunaan untuk metode API yang berbeda, lihatPelajari tentang kasus penggunaan untuk metode inferensi model yang berbeda.
-
Untuk informasi selengkapnya tentang jenis model, lihatCara kerja inferensi di Amazon Bedrock.
-
Untuk daftar model IDs dan untuk melihat model dan AWS Wilayah TwelveLabs Marengo Embed 3.0 yang didukung, cari model dalam tabel diModel pondasi yang didukung di Amazon Bedrock.
-
Untuk daftar lengkap profil inferensi IDs, lihatWilayah dan model yang Didukung untuk profil inferensi. ID profil inferensi didasarkan pada AWS Wilayah.
-
| Operasi API | Jenis model yang didukung | Modalitas masukan | Modalitas keluaran |
|---|---|---|---|
|
InvokeModel |
US East (Virginia N.) — Model dasar dan profil Inferensi Eropa (Irlandia) — Profil inferensi Asia Pasifik (Seoul) - Model dasar |
Teks Citra Catatan: Teks dan gambar yang disisipkan juga didukung. |
Menyematkan |
| StartAsyncInvoke | Model dasar |
Video Audio Citra Teks Catatan: Teks dan gambar yang disisipkan juga didukung. |
Menyematkan |
catatan
Gunakan InvokeModel untuk menghasilkan embeddings untuk permintaan pencarian. Gunakan StartAsyncInvoke untuk menghasilkan embeddings untuk aset dalam skala besar.
Kuota berikut berlaku untuk input:
| Modalitas masukan | Maksimum |
|---|---|
| Teks | 500 token |
| Citra | 5 MB per gambar |
| Video (S3) | 6 GB, panjang 4 jam |
| Audio (S3) | 6 GB, panjang 4 jam |
catatan
Jika Anda menentukan audio atau video sebaris menggunakan pengkodean base64-, pastikan payload isi permintaan tidak melebihi kuota pemanggilan model Amazon Bedrock 25 MB.
Topik
TwelveLabs Marengo Embed 3.0parameter permintaan
Saat Anda membuat permintaan, bidang di mana input khusus model ditentukan bergantung pada operasi API:
-
InvokeModel- Dalam permintaan
body. -
StartAsyncInvoke— Di
modelInputbidang badan permintaan.
Format input model tergantung pada modalitas input:
Perluas bagian berikut untuk detail tentang parameter input:
Modalitas untuk penyematan.
Tipe: String
Wajib: Ya
-
Nilai yang valid:
text|image|text_image|audio|video
Teks yang akan disematkan.
Tipe: String
Diperlukan: Ya (untuk jenis input yang kompatibel)
-
Jenis masukan yang kompatibel: Teks
Berisi informasi tentang sumber media.
Jenis: Objek
Diperlukan: Ya (jika tipe kompatibel)
-
Jenis input yang kompatibel: Gambar, Video, Audio
Format mediaSource objek dalam badan permintaan tergantung pada apakah media didefinisikan sebagai string yang dikodekan Base64 atau sebagai lokasi S3.
-
String yang dikodekan Base64
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String— String yang dikodekan Base64 untuk media.
-
-
Lokasi S3 — Tentukan URI S3 dan pemilik bucket.
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri— URI S3 yang berisi media. -
bucketOwner— ID AWS akun pemilik bucket S3.
-
Menentukan jenis embeddings untuk mengambil.
Tipe: Daftar
Wajib: Tidak
Nilai yang valid untuk anggota daftar:
-
visual— Penyematan visual dari video. -
audio— Penyematan audio dalam video. -
transcription— Penyematan teks yang ditranskripsi.
-
-
Nilai default:
Video: ["visual”, “audio”, “transkripsi"]
Audio: ["audio”, “transkripsi"]
-
Jenis input yang kompatibel: Video, Audio
Menentukan ruang lingkup embeddings untuk mengambil.
Tipe: Daftar
Wajib: Tidak
Nilai yang valid untuk anggota daftar:
-
clip— Mengembalikan embeddings untuk setiap klip. -
asset— Mengembalikan embeddings untuk seluruh aset.
-
-
Jenis input yang kompatibel: Video, Audio
Titik waktu dalam detik klip tempat pemrosesan harus dimulai.
Tipe: Ganda
Wajib: Tidak
Nilai minimum: 0
Nilai default: 0
-
Jenis input yang kompatibel: Video, Audio
Titik waktu dalam detik di mana pemrosesan harus berakhir.
Tipe: Ganda
Wajib: Tidak
Nilai minimum: StartSec + panjang segmen
Nilai maksimum: Durasi media
Nilai default: Durasi media
-
Jenis input yang kompatibel: Video, Audio
Mendefinisikan bagaimana media dibagi menjadi beberapa segmen untuk pembuatan embedding.
Jenis: Objek
Wajib: Tidak
-
Jenis input yang kompatibel: Video, Audio
Objek segmentasi berisi method bidang dan parameter khusus metode:
-
method— Metode segmentasi yang digunakan. Nilai yang valid:dynamic|fixed -
dynamic— Untuk video, gunakan deteksi batas bidikan untuk membagi konten secara dinamis. Berisi:-
minDurationSec— Durasi minimum untuk setiap segmen dalam hitungan detik. Jenis: Integer. Rentang: 1-5. Default: 4.
-
-
fixed— Membagi konten menjadi segmen dengan durasi yang sama. Berisi:-
durationSec— Durasi setiap segmen dalam hitungan detik. Jenis: Integer. Rentang: 1-10. Default: 6.
-
Perilaku default:
-
Video: Menggunakan segmentasi dinamis dengan deteksi batas bidikan.
-
Audio: Menggunakan segmentasi tetap. Konten dibagi serata mungkin dengan segmen mendekati 10 detik.
Pengidentifikasi unik untuk permintaan inferensi.
Tipe: String
Wajib: Tidak
TwelveLabs Marengo Embed 3.0respon
Lokasi embeddings output dan metadata terkait tergantung pada metode pemanggilan:
-
InvokeModel Dalam tubuh respon.
-
StartAsyncInvoke — Dalam bucket S3 yang ditentukan dalam
s3OutputDataConfig, setelah pekerjaan pemanggilan asinkron selesai.
Jika ada beberapa vektor embeddings, outputnya adalah daftar objek, masing-masing berisi vektor dan metadata terkait.
Format vektor embeddings output adalah sebagai berikut:
{ "data": { "embedding": [ 0.111, 0.234, ... ], "embeddingOption": ["visual", "audio", "transcription" (for video input) | "audio", "transcription" (for audio input)], "embeddingScope": ["asset" | "clip"], "startSec": 0, "endSec": 4.2 } }
Embeddings dikembalikan sebagai susunan pelampung.
Di mana Anda melihat respons ini bergantung pada metode API yang Anda gunakan:
-
InvokeModel — Muncul di badan respons.
-
StartAsyncInvoke — Muncul di lokasi S3 yang Anda tentukan dalam permintaan. Respons mengembalikan sebuah
invocationArn. Anda dapat menggunakan ini untuk mendapatkan metadata tentang pemanggilan asinkron. Ini termasuk status dan lokasi S3 di mana hasilnya ditulis.
Perluas bagian berikut untuk detail tentang parameter respons:
Embeddings vektor representasi input.
Jenis: Daftar ganda
Jenis embeddings.
Tipe: String
Nilai yang mungkin:
-
visual — Penyematan visual dari video.
-
audio — Penyematan audio dalam video.
-
transkripsi — Penyematan teks yang ditranskripsi.
-
-
Jenis input yang kompatibel: Video, Audio
Menentukan ruang lingkup embeddings untuk mengambil.
Tipe: String
Anda dapat menyertakan satu atau lebih dari nilai-nilai berikut:
-
clip: Mengembalikan embeddings untuk setiap klip.
-
aset: Mengembalikan embeddings untuk seluruh aset.
Offset awal klip.
Tipe: Ganda
-
Jenis input yang kompatibel: Video, Audio
Offset akhir klip. Tidak berlaku untuk penyematan teks, gambar, dan text_image.
Tipe: Ganda
-
Jenis input yang kompatibel: Video, Audio
TwelveLabs Marengo Embed 3.0contoh kode
Bagian ini menunjukkan cara menggunakan TwelveLabs Marengo Embed 3.0 model dengan tipe input yang berbeda menggunakan Python. Contoh menunjukkan bagaimana mendefinisikan input khusus model dan menjalankan pemanggilan model.
catatan
InvokeModel mendukung teks, gambar, dan teks dengan input gambar yang disisipkan. Untuk input video dan audio, gunakan StartAsyncInvoke.
Satukan kode Anda dalam langkah-langkah berikut:
1. Tentukan masukan khusus model
Tentukan input khusus model tergantung pada jenis input Anda:
2. Jalankan pemanggilan model menggunakan input model
Kemudian, tambahkan cuplikan kode yang sesuai dengan metode pemanggilan model pilihan Anda.