Memecahkan masalah basis pengetahuan multimodal - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memecahkan masalah basis pengetahuan multimodal

Bagian ini memberikan panduan untuk menyelesaikan masalah umum yang dihadapi saat bekerja dengan basis pengetahuan multimodal. Informasi pemecahan masalah diatur oleh batasan umum, skenario kesalahan umum dengan penyebab dan solusinya, dan rekomendasi pengoptimalan kinerja. Gunakan informasi ini untuk mendiagnosis dan menyelesaikan masalah selama penyiapan, konsumsi, atau kueri konten multimodal Anda.

Batasan umum

Waspadai keterbatasan saat ini saat bekerja dengan basis pengetahuan multimodal:

  • Batas ukuran file: Maksimum 1,5 GB per file video, 1 GB per file audio (Nova Multimodal Embeddings), atau 1,5 GB per file (BDA)

  • File per pekerjaan konsumsi: Maksimum 15.000 file per pekerjaan (Nova Multimodal Embeddings) atau 1.000 file per pekerjaan (BDA)

  • Batas kueri: Maksimum satu gambar per kueri

  • Pembatasan sumber data: Hanya Amazon S3 dan sumber data khusus yang mendukung konten multimodal

  • Batasan chunking BDA: Saat menggunakan Otomasi Data Batuan Dasar dengan potongan ukuran tetap, pengaturan persentase tumpang tindih tidak diterapkan pada konten audio dan video

  • Batas pekerjaan bersamaan BDA: Batas default 20 pekerjaan BDA bersamaan. Untuk pemrosesan skala besar, pertimbangkan untuk meminta peningkatan kuota layanan

  • Batasan model Reranker: Model Reranker tidak didukung untuk konten multimodal

  • Keterbatasan ringkasan: Ringkasan tanggapan pengambilan yang mengandung konten non-teks tidak didukung

  • Batasan input kueri: Masukan yang berisi teks dan gambar saat ini tidak didukung. Anda dapat menggunakan kueri teks atau gambar, tetapi tidak keduanya secara bersamaan.

  • Filter konten gambar pagar pembatas: Saat menggunakan kueri gambar dengan pagar pembatas yang memiliki filter konten gambar yang dikonfigurasi, gambar input akan dievaluasi terhadap pagar pembatas dan dapat diblokir jika melanggar ambang filter yang dikonfigurasi

  • Ketidakcocokan input dan tipe: Secara default, input diasumsikan sebagai teks ketika tipe tidak ditentukan. Saat menggunakan modalitas selain teks, Anda harus menentukan jenis yang benar

Kesalahan dan solusi umum

Jika Anda mengalami masalah dengan basis pengetahuan multimodal Anda, tinjau skenario umum ini:

Kesalahan 4xx saat menggunakan kueri gambar

Penyebab: Mencoba menggunakan kueri gambar dengan model penyematan khusus teks atau basis pengetahuan yang diproses BDA.

Solusi: Pilih Amazon Nova Multimodal Embeddings saat membuat basis pengetahuan Anda untuk dukungan kueri gambar.

RAG mengembalikan kesalahan 4xx dengan konten multimodal

Penyebab: Menggunakan RetrieveAndGenerate dengan basis pengetahuan yang hanya berisi konten multimodal dan model Amazon Nova Multimodal Embeddings.

Solusi: Gunakan parser BDA untuk fungsionalitas RAG, atau pastikan basis pengetahuan Anda berisi konten teks.

Tujuan penyimpanan multimodal diperlukan kesalahan

Penyebab: Menggunakan Nova Multimodal Embeddings tanpa mengonfigurasi tujuan penyimpanan multimodal.

Solusi: Tentukan tujuan penyimpanan multimodal saat menggunakan Nova Multimodal Embeddings.

Sumber data dan penyimpanan multimodal menggunakan bucket S3 yang sama

Penyebab: Mengonfigurasi sumber data dan tujuan penyimpanan multimodal untuk menggunakan bucket Amazon S3 yang sama tanpa awalan penyertaan yang tepat.

Solusi: Gunakan bucket terpisah untuk sumber data dan penyimpanan multimodal, atau konfigurasikan awalan inklusi untuk mencegah pengambilan ulang file media yang diekstraksi.

Awalan inklusi tidak dapat dimulai dengan “aws/”

Penyebab: Menggunakan awalan inklusi yang dimulai dengan “aws/” saat sumber data dan tujuan penyimpanan multimodal berbagi bucket Amazon S3 yang sama.

Solusi: Tentukan awalan inklusi yang berbeda. Jalur “aws/” dicadangkan untuk penyimpanan media yang diekstraksi dan tidak dapat digunakan sebagai awalan inklusi untuk menghindari konsumsi ulang konten yang diproses.

Konsumsi BDA melewatkan konten multimodal

Penyebab: Basis pengetahuan dibuat tanpa tujuan penyimpanan multimodal, kemudian sumber data BDA ditambahkan dengan konten multimodal.

Solusi: Buat kembali basis pengetahuan dengan tujuan penyimpanan multimodal yang dikonfigurasi untuk memungkinkan pemrosesan BDA file audio, video, dan gambar.

Basis pengetahuan dibuat tanpa model penyematan multimodal

Penyebab: Basis pengetahuan dibuat dengan model penyematan khusus teks, membatasi kemampuan multimodal.

Solusi: Buat basis pengetahuan baru dengan Nova Multimodal Embeddings untuk mengaktifkan pemrosesan multimodal asli dan kueri berbasis gambar.

Mengelola data sementara dengan kebijakan siklus hidup Amazon S3

Saat menggunakan Nova Multimodal Embeddings, Amazon Bedrock menyimpan data sementara di tujuan penyimpanan multimodal Anda dan mencoba menghapusnya setelah pemrosesan selesai. Sebaiknya terapkan kebijakan siklus hidup pada jalur data transien untuk memastikan bahwa kebijakan tersebut telah kedaluwarsa dengan benar.

Console
Untuk membuat aturan siklus hidup menggunakan konsol
  1. Buka konsol Amazon S3.

  2. Arahkan ke tujuan penyimpanan multimodal yang telah Anda konfigurasikan untuk Pangkalan Pengetahuan Anda.

  3. Pilih tab Manajemen dan pilih Buat aturan siklus hidup.

  4. Untuk nama aturan Siklus Hidup, masukkan. Transient Data Deletion

  5. Di bawah Jenis filter, pilih Batasi cakupan aturan ini menggunakan satu atau beberapa filter.

  6. Untuk Awalan, masukkan jalur data sementara untuk basis pengetahuan dan sumber data Anda.

    Ganti nilai placeholder di awalan berikut dengan pengenal Anda yang sebenarnya:

    aws/bedrock/knowledge_bases/knowledge-base-id/data-source-id/transient_data
    penting

    Jangan menerapkan kebijakan siklus hidup ke seluruh bucket atau awalan “aws/”, karena ini akan menghapus konten multimodal Anda dan menyebabkan kegagalan pengambilan. Hanya gunakan jalur data transien tertentu yang ditunjukkan di atas.

  7. Di bawah Tindakan aturan Siklus Hidup, pilih Kedaluwarsa versi objek saat ini.

  8. Untuk Hari setelah pembuatan objek, masukkan1.

  9. Pilih Buat aturan.

AWS CLI
Untuk membuat aturan siklus hidup menggunakan AWS CLI
  1. Buat file JSON bernama lifecycle-policy.json dengan konten berikut.

    Ganti nilai placeholder dengan pengenal Anda yang sebenarnya:

    • knowledge-base-id- Pengidentifikasi basis pengetahuan Anda

    • data-source-id- Pengidentifikasi sumber data Anda

    { "Rules": [ { "ID": "TransientDataDeletion", "Status": "Enabled", "Filter": { "Prefix": "aws/bedrock/knowledge_bases/knowledge-base-id/data-source-id/transient_data" }, "Expiration": { "Days": 1 } } ] }
  2. Terapkan kebijakan siklus hidup ke bucket Anda. Ganti your-multimodal-storage-bucket dengan nama bucket Anda yang sebenarnya:

    aws s3api put-bucket-lifecycle-configuration \ --bucket your-multimodal-storage-bucket \ --lifecycle-configuration file://lifecycle-policy.json
  3. Verifikasi kebijakan siklus hidup diterapkan:

    aws s3api get-bucket-lifecycle-configuration \ --bucket your-multimodal-storage-bucket

Untuk informasi selengkapnya tentang kebijakan siklus hidup Amazon S3, lihat Mengelola siklus hidup objek di Panduan Pengguna Amazon S3.

Pertimbangan performa

Untuk kinerja optimal dengan basis pengetahuan multimodal Anda, pertimbangkan faktor-faktor ini:

  • Waktu pemrosesan: Pemrosesan BDA membutuhkan waktu lebih lama karena konversi konten

  • Latensi kueri: Kueri gambar mungkin memiliki latensi lebih tinggi daripada kueri teks

  • Durasi chunking: Durasi potongan audio/video yang lebih lama meningkatkan waktu pemrosesan tetapi dapat meningkatkan akurasi