Membangun basis pengetahuan untuk konten multimodal - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membangun basis pengetahuan untuk konten multimodal

Amazon Bedrock Knowledge Bases mendukung konten multimodal termasuk gambar, audio, dan file video. Anda dapat mencari menggunakan gambar sebagai kueri, mengambil konten yang mirip secara visual, dan memproses file multimedia bersama dokumen teks tradisional. Kemampuan ini memungkinkan Anda mengekstrak wawasan dari beragam tipe data—gambar mandiri, rekaman audio, dan file video yang disimpan di seluruh organisasi Anda.

Amazon Bedrock Knowledge Bases memungkinkan Anda untuk mengindeks dan mengambil informasi dari teks, visual, dan konten audio. Organizations sekarang dapat mencari katalog produk menggunakan gambar, menemukan momen tertentu dalam video pelatihan, dan mengambil segmen yang relevan dari rekaman panggilan dukungan pelanggan.

Ketersediaan wilayah

Pendekatan pemrosesan multimodal memiliki ketersediaan regional yang berbeda. Untuk detail informasi, lihat Ketersediaan wilayah.

Fitur dan kemampuan

Basis pengetahuan multimodal memberikan kemampuan kunci berikut:

Kueri berbasis gambar

Kirim gambar sebagai permintaan pencarian untuk menemukan konten yang mirip secara visual saat menggunakan Nova Multimodal Embeddings. Mendukung pencocokan produk, pencarian kesamaan visual, dan pengambilan gambar.

Pengambilan konten audio

Cari file audio menggunakan kueri teks. Ambil segmen tertentu dari rekaman dengan referensi stempel waktu. Transkripsi audio memungkinkan pencarian berbasis teks di seluruh konten lisan termasuk rapat, panggilan, dan podcast.

Ekstraksi segmen video

Temukan momen tertentu dalam file video menggunakan kueri teks. Ambil segmen video dengan stempel waktu yang tepat.

Pencarian lintas-modal

Cari di berbagai jenis data termasuk dokumen teks, gambar, audio, dan video. Ambil konten yang relevan terlepas dari format aslinya.

Referensi sumber dengan stempel waktu

Hasil pengambilan termasuk referensi ke file asli dengan metadata temporal untuk audio dan video. Memungkinkan navigasi yang tepat ke segmen yang relevan dalam konten multimedia.

Opsi pemrosesan yang fleksibel

Pilih antara penyematan multimodal asli untuk kesamaan visual atau konversi teks untuk konten berbasis ucapan. Konfigurasikan pendekatan pemrosesan berdasarkan karakteristik konten dan persyaratan aplikasi.

Cara kerjanya

Basis pengetahuan multimodal memproses dan mengambil konten melalui pipeline multi-tahap yang menangani berbagai tipe data dengan tepat:

Tertelan dan pemrosesan
  1. Koneksi sumber data: Hubungkan basis pengetahuan Anda ke bucket Amazon S3 atau sumber data khusus yang berisi dokumen teks, gambar, file audio, dan file video.

  2. Deteksi jenis file: Sistem mengidentifikasi setiap jenis file dengan ekstensi dan mengarahkannya ke pipa pemrosesan yang sesuai.

  3. Pemrosesan konten: Bergantung pada konfigurasi Anda, file diproses menggunakan salah satu dari dua pendekatan:

    • Nova Multimodal Embeddings: Mempertahankan format asli untuk pencocokan kesamaan visual dan audio. Gambar, audio, dan video disematkan secara langsung tanpa konversi ke teks.

    • Otomasi Data Batuan Dasar (BDA): Mengonversi multimedia menjadi representasi teks. Audio ditranskripsikan menggunakan Automatic Speech Recognition (ASR), video diproses untuk mengekstrak ringkasan adegan dan transkrip, dan gambar menjalani OCR dan ekstraksi konten visual.

  4. Pembuatan penyematan: Konten yang diproses diubah menjadi penyematan vektor menggunakan model penyematan yang Anda pilih. Embeddings ini menangkap makna semantik dan memungkinkan pengambilan berbasis kesamaan.

  5. Penyimpanan vektor: Embeddings disimpan dalam database vektor yang dikonfigurasi bersama dengan metadata termasuk referensi file, stempel waktu (untuk audio dan video), dan informasi jenis konten.

  6. Penyimpanan multimodal (opsional): Jika dikonfigurasi, file multimedia asli disalin ke tujuan penyimpanan multimodal khusus untuk pengambilan yang andal, memastikan ketersediaan bahkan jika file sumber dimodifikasi atau dihapus.

Kueri dan pengambilan
  1. Pemrosesan kueri: Kueri pengguna (teks atau gambar) diubah menjadi penyematan menggunakan model penyematan yang sama yang digunakan selama konsumsi.

  2. Pencarian kesamaan: Penyematan kueri dibandingkan dengan penyematan yang disimpan dalam database vektor untuk mengidentifikasi konten yang paling relevan.

  3. Pengambilan hasil: Sistem mengembalikan konten yang cocok dengan metadata termasuk:

    • URI Sumber (lokasi file asli)

    • Metadata stempel waktu (untuk segmen audio dan video)

    • Jenis konten dan informasi modalitas

  4. Pembuatan respons (opsional): Untuk RetrieveAndGenerate permintaan, konten yang diambil diteruskan ke model dasar untuk menghasilkan respons teks yang relevan secara kontekstual. Ini didukung saat menggunakan pemrosesan BDA atau ketika basis pengetahuan berisi konten teks.

penting

Sistem mengembalikan referensi untuk melengkapi file dengan metadata stempel waktu untuk konten audio dan video. Aplikasi Anda harus mengekstrak dan memainkan segmen tertentu berdasarkan stempel waktu awal dan akhir yang disediakan. Konsol Manajemen AWSMenangani ini secara otomatis.