Memilih pendekatan pemrosesan multimodal Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memilih pendekatan pemrosesan multimodal Anda

Amazon Bedrock Knowledge Bases menawarkan dua pendekatan untuk memproses konten multimodal: Nova Multimodal Embeddings untuk pencarian kesamaan visual, dan Bedrock Data Automation (BDA) untuk pemrosesan konten multimedia berbasis teks. Anda juga dapat menggunakan model foundation sebagai parser Anda jika modalitas input Anda adalah gambar tetapi tidak untuk audio atau video.

Bagian ini menjelaskan penggunaan Nova Multimodal Embeddings dan BDA sebagai pendekatan pemrosesan Anda untuk konten multimodal. Setiap pendekatan dioptimalkan untuk kasus penggunaan dan pola kueri yang berbeda.

Pendekatan pemrosesan multimodal

Tabel berikut menunjukkan perbandingan antara Nova Multimodal Embeddings dan BDA untuk memproses konten multimodal.

Perbandingan pendekatan pemrosesan
Karakteristik Embeddings Multimodal Nova Otomasi Data Batuan Dasar (BDA)
Metode pengolahan Menghasilkan embeddings tanpa konversi teks menengah Mengonversi multimedia menjadi teks, lalu membuat embeddings
Jenis kueri didukung Kueri teks atau kueri gambar Hanya kueri teks
Kasus penggunaan primer Pencarian kesamaan visual, pencocokan produk, penemuan gambar Transkripsi ucapan, pencarian berbasis teks, analisis konten
Fungsionalitas RAG Terbatas hanya untuk konten teks RetrieveAndGenerateDukungan penuh
Persyaratan penyimpanan Diperlukan tujuan penyimpanan multimodal Tujuan penyimpanan multimodal opsional meskipun jika tidak ditentukan, hanya data teks yang akan diproses oleh BDA. Untuk input non-teks, Anda harus menentukan tujuan penyimpanan multimodal.

Ketersediaan wilayah

Ketersediaan wilayah
Embeddings Multimodal Nova Otomasi Data Batuan Dasar (BDA)
Hanya US East (Virginia N.)
  • AS Barat (Oregon)

  • US East (N. Virginia)

  • Eropa (Frankfurt)

  • Eropa (London)

  • Eropa (Irlandia)

  • Asia Pasifik (Mumbai)

  • Asia Pasifik (Sydney)

  • AWSGovCloud (AS-Barat)

Kriteria pemilihan berdasarkan jenis konten

Gunakan matriks keputusan ini untuk memilih pendekatan pemrosesan yang sesuai berdasarkan konten Anda dan persyaratan kasus penggunaan:

catatan

Jika Anda menggunakan parser BDA dengan model Amazon Nova Multimodal Embeddings, model embeddings akan bertindak seperti model penyematan teks. Saat bekerja dengan konten multimodal, gunakan salah satu pendekatan pemrosesan untuk hasil terbaik tergantung pada kasus penggunaan Anda.

Memproses rekomendasi pendekatan berdasarkan jenis konten
Jenis Konten Embeddings Multimodal Nova Otomasi Data Batuan Dasar (BDA)
Katalog dan gambar produk Direkomendasikan - Mengaktifkan pencocokan kesamaan visual dan kueri berbasis gambar Terbatas - Hanya mengekstrak teks melalui OCR
Rekaman rapat dan panggilan Tidak dapat memproses konten ucapan secara bermakna Direkomendasikan - Menyediakan transkripsi ucapan lengkap dan teks yang dapat dicari
Video pelatihan dan pendidikan Partial - Menangani konten visual tetapi melewatkan pidato Direkomendasikan - Menangkap transkrip ucapan dan deskripsi visual
Rekaman dukungan pelanggan Tidak direkomendasikan - Konten ucapan tidak dapat diproses secara efektif Direkomendasikan - Membuat transkrip percakapan lengkap yang dapat dicari
Diagram dan grafik teknis Direkomendasikan - Sangat baik untuk kesamaan visual dan pencocokan pola Terbatas - Mengekstrak label teks tetapi melewatkan hubungan visual

Jenis file dan sumber data yang didukung

Jenis file yang didukung bergantung pada pendekatan pemrosesan yang Anda pilih:

Jenis file yang didukung dengan pendekatan pemrosesan
Jenis File Embeddings Multimodal Nova Otomasi Data Batuan Dasar (BDA)
Citra .png, .jpg, .jpeg, .gif, .webp .png, .jpg, .jpeg
Audio .mp3, .ogg, .wav .amr, .flac, .m4a, .mp3, .ogg, .wav
Video .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp .mp4, .mov
Dokumen Diproses sebagai teks .pdf (ditambah ekstraksi teks dari gambar)
Sumber data yang didukung

Konten multimodal didukung dengan sumber data berikut:

  • Amazon S3: Dukungan penuh untuk semua jenis file multimodal

  • Sumber data khusus: Support untuk konten inline hingga 10MB base64 dikodekan

penting

Pengambilan multimodal saat ini hanya tersedia untuk sumber data Amazon S3. Sumber data lain (Confluence,, Salesforce SharePoint, Web Crawler) tidak memproses file multimodal selama konsumsi. File-file ini dilewati dan tidak akan tersedia untuk kueri multimodal.

Kemampuan dan keterbatasan

Embeddings Multimodal Nova

Kemampuan kunci:

  • Pemrosesan multimodal asli mempertahankan format konten asli untuk pencocokan kesamaan visual yang optimal

  • Kueri berbasis gambar memungkinkan pengguna untuk mengunggah gambar dan menemukan konten yang mirip secara visual

  • Kinerja luar biasa untuk katalog produk, pencarian visual, dan aplikasi penemuan konten

Keterbatasan:

  • Tidak dapat memproses konten ucapan atau audio secara efektif - informasi yang diucapkan tidak dapat dicari

  • RetrieveAndGeneratedan fungsionalitas rerank terbatas pada konten teks saja

  • Memerlukan konfigurasi tujuan penyimpanan multimodal khusus

Otomasi Data Batuan Dasar (BDA)

Kemampuan kunci:

  • Transkripsi ucapan komprehensif menggunakan teknologi Automatic Speech Recognition (ASR)

  • Analisis konten visual menghasilkan teks deskriptif untuk gambar dan adegan video

  • RetrieveAndGenerateDukungan penuh memungkinkan fungsionalitas RAG lengkap di semua konten

  • Pencarian berbasis teks bekerja secara konsisten di semua jenis konten multimedia

Keterbatasan:

  • Tidak ada dukungan untuk kueri berbasis gambar saat digunakan tanpa Nova Multimodal Embeddings - semua pencarian harus menggunakan input teks

  • Tidak dapat melakukan pencocokan kesamaan visual atau image-to-image pencarian

  • Waktu pemrosesan konsumsi yang lebih lama karena persyaratan konversi konten

  • Mendukung lebih sedikit format file multimedia dibandingkan dengan Nova Multimodal Embeddings

Pemrosesan konten ucapan

Nova Multimodal Embeddings tidak dapat secara efektif memproses konten ucapan dalam file audio atau video. Jika konten multimedia Anda berisi informasi lisan penting yang perlu dicari pengguna, pilih pendekatan BDA untuk memastikan transkripsi dan kemampuan pencarian penuh.