Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memilih pendekatan pemrosesan multimodal Anda
Amazon Bedrock Knowledge Bases menawarkan dua pendekatan untuk memproses konten multimodal: Nova Multimodal Embeddings untuk pencarian kesamaan visual, dan Bedrock Data Automation (BDA) untuk pemrosesan konten multimedia berbasis teks. Anda juga dapat menggunakan model foundation sebagai parser Anda jika modalitas input Anda adalah gambar tetapi tidak untuk audio atau video.
Bagian ini menjelaskan penggunaan Nova Multimodal Embeddings dan BDA sebagai pendekatan pemrosesan Anda untuk konten multimodal. Setiap pendekatan dioptimalkan untuk kasus penggunaan dan pola kueri yang berbeda.
Topik
Pendekatan pemrosesan multimodal
Tabel berikut menunjukkan perbandingan antara Nova Multimodal Embeddings dan BDA untuk memproses konten multimodal.
| Karakteristik | Embeddings Multimodal Nova | Otomasi Data Batuan Dasar (BDA) |
|---|---|---|
| Metode pengolahan | Menghasilkan embeddings tanpa konversi teks menengah | Mengonversi multimedia menjadi teks, lalu membuat embeddings |
| Jenis kueri didukung | Kueri teks atau kueri gambar | Hanya kueri teks |
| Kasus penggunaan primer | Pencarian kesamaan visual, pencocokan produk, penemuan gambar | Transkripsi ucapan, pencarian berbasis teks, analisis konten |
| Fungsionalitas RAG | Terbatas hanya untuk konten teks | RetrieveAndGenerateDukungan penuh |
| Persyaratan penyimpanan | Diperlukan tujuan penyimpanan multimodal | Tujuan penyimpanan multimodal opsional meskipun jika tidak ditentukan, hanya data teks yang akan diproses oleh BDA. Untuk input non-teks, Anda harus menentukan tujuan penyimpanan multimodal. |
Ketersediaan wilayah
| Embeddings Multimodal Nova | Otomasi Data Batuan Dasar (BDA) |
|---|---|
| Hanya US East (Virginia N.) |
|
Kriteria pemilihan berdasarkan jenis konten
Gunakan matriks keputusan ini untuk memilih pendekatan pemrosesan yang sesuai berdasarkan konten Anda dan persyaratan kasus penggunaan:
catatan
Jika Anda menggunakan parser BDA dengan model Amazon Nova Multimodal Embeddings, model embeddings akan bertindak seperti model penyematan teks. Saat bekerja dengan konten multimodal, gunakan salah satu pendekatan pemrosesan untuk hasil terbaik tergantung pada kasus penggunaan Anda.
| Jenis Konten | Embeddings Multimodal Nova | Otomasi Data Batuan Dasar (BDA) |
|---|---|---|
| Katalog dan gambar produk | Direkomendasikan - Mengaktifkan pencocokan kesamaan visual dan kueri berbasis gambar | Terbatas - Hanya mengekstrak teks melalui OCR |
| Rekaman rapat dan panggilan | Tidak dapat memproses konten ucapan secara bermakna | Direkomendasikan - Menyediakan transkripsi ucapan lengkap dan teks yang dapat dicari |
| Video pelatihan dan pendidikan | Partial - Menangani konten visual tetapi melewatkan pidato | Direkomendasikan - Menangkap transkrip ucapan dan deskripsi visual |
| Rekaman dukungan pelanggan | Tidak direkomendasikan - Konten ucapan tidak dapat diproses secara efektif | Direkomendasikan - Membuat transkrip percakapan lengkap yang dapat dicari |
| Diagram dan grafik teknis | Direkomendasikan - Sangat baik untuk kesamaan visual dan pencocokan pola | Terbatas - Mengekstrak label teks tetapi melewatkan hubungan visual |
Jenis file dan sumber data yang didukung
Jenis file yang didukung bergantung pada pendekatan pemrosesan yang Anda pilih:
| Jenis File | Embeddings Multimodal Nova | Otomasi Data Batuan Dasar (BDA) |
|---|---|---|
| Citra | .png, .jpg, .jpeg, .gif, .webp | .png, .jpg, .jpeg |
| Audio | .mp3, .ogg, .wav | .amr, .flac, .m4a, .mp3, .ogg, .wav |
| Video | .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp | .mp4, .mov |
| Dokumen | Diproses sebagai teks | .pdf (ditambah ekstraksi teks dari gambar) |
Sumber data yang didukung
Konten multimodal didukung dengan sumber data berikut:
-
Amazon S3: Dukungan penuh untuk semua jenis file multimodal
-
Sumber data khusus: Support untuk konten inline hingga 10MB base64 dikodekan
penting
Pengambilan multimodal saat ini hanya tersedia untuk sumber data Amazon S3. Sumber data lain (Confluence,, Salesforce SharePoint, Web Crawler) tidak memproses file multimodal selama konsumsi. File-file ini dilewati dan tidak akan tersedia untuk kueri multimodal.
Kemampuan dan keterbatasan
- Embeddings Multimodal Nova
-
Kemampuan kunci:
-
Pemrosesan multimodal asli mempertahankan format konten asli untuk pencocokan kesamaan visual yang optimal
-
Kueri berbasis gambar memungkinkan pengguna untuk mengunggah gambar dan menemukan konten yang mirip secara visual
-
Kinerja luar biasa untuk katalog produk, pencarian visual, dan aplikasi penemuan konten
Keterbatasan:
-
Tidak dapat memproses konten ucapan atau audio secara efektif - informasi yang diucapkan tidak dapat dicari
-
RetrieveAndGeneratedan fungsionalitas rerank terbatas pada konten teks saja -
Memerlukan konfigurasi tujuan penyimpanan multimodal khusus
-
- Otomasi Data Batuan Dasar (BDA)
-
Kemampuan kunci:
-
Transkripsi ucapan komprehensif menggunakan teknologi Automatic Speech Recognition (ASR)
-
Analisis konten visual menghasilkan teks deskriptif untuk gambar dan adegan video
-
RetrieveAndGenerateDukungan penuh memungkinkan fungsionalitas RAG lengkap di semua konten -
Pencarian berbasis teks bekerja secara konsisten di semua jenis konten multimedia
Keterbatasan:
-
Tidak ada dukungan untuk kueri berbasis gambar saat digunakan tanpa Nova Multimodal Embeddings - semua pencarian harus menggunakan input teks
-
Tidak dapat melakukan pencocokan kesamaan visual atau image-to-image pencarian
-
Waktu pemrosesan konsumsi yang lebih lama karena persyaratan konversi konten
-
Mendukung lebih sedikit format file multimedia dibandingkan dengan Nova Multimodal Embeddings
-
Pemrosesan konten ucapan
Nova Multimodal Embeddings tidak dapat secara efektif memproses konten ucapan dalam file audio atau video. Jika konten multimedia Anda berisi informasi lisan penting yang perlu dicari pengguna, pilih pendekatan BDA untuk memastikan transkripsi dan kemampuan pencarian penuh.