Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menambahkan sumber data dan memulai konsumsi
Setelah membuat basis pengetahuan Anda, tambahkan sumber data yang berisi konten multimodal Anda dan mulailah pekerjaan konsumsi untuk memproses dan mengindeks konten.
Perilaku penghapusan sumber data
Saat Anda menghapus sumber data dengan kebijakan penghapusan yang disetel ke RESTAIN, konten yang dicerna tetap berada dalam database vektor dan akan terus digunakan untuk pengambilan. Konten hanya dihapus jika Anda secara eksplisit menyinkronkan basis pengetahuan setelah menghapus sumber data. Sumber data dengan kebijakan DELETE default akan secara otomatis menghapus konten dari database vektor dan penyimpanan tambahan selama penghapusan. Ini memastikan bahwa basis pengetahuan Anda terus berfungsi meskipun file sumber dimodifikasi atau dihapus, tetapi Anda harus menyadari bahwa sumber data yang dihapus dengan kebijakan RETAIN mungkin masih berkontribusi pada hasil pencarian.
Tambahkan sumber data
Tambahkan sumber data yang berisi konten multimodal Anda ke basis pengetahuan Anda.
Untuk sumber data BDA: Hanya sumber data yang dibuat setelah peluncuran audio/video dukungan yang akan memproses file audio dan video. Sumber data BDA yang ada yang dibuat sebelum peluncuran fitur ini akan terus melewati file audio dan video. Untuk mengaktifkan audio/video pemrosesan basis pengetahuan yang ada, buat sumber data baru.
- Console
-
Untuk menambahkan sumber data dari konsol
-
Dari halaman detail basis pengetahuan Anda, pilih Tambahkan sumber data.
-
Pilih Amazon S3 sebagai tipe sumber data Anda.
-
Berikan nama dan deskripsi untuk sumber data Anda.
-
Konfigurasikan lokasi Amazon S3 yang berisi file multimodal Anda dengan menyediakan URI bucket dan awalan inklusi apa pun.
-
Di bawah Parsing dan chunking Konten, konfigurasikan metode parsing dan chunking Anda:
Model penyematan teks membatasi pengambilan ke konten khusus teks, tetapi Anda dapat mengaktifkan pengambilan multimodal melalui teks dengan memilih Amazon Bedrock Data Automation (untuk audio, video, dan gambar) atau Foundation Model sebagai parser (untuk gambar).
Pilih dari tiga strategi parsing:
-
Pengurai default batuan dasar: Direkomendasikan untuk penguraian teks saja. Parser ini mengabaikan konten multimodal dan biasanya digunakan dengan model penyematan multimodal.
-
Otomasi Data Batuan Dasar sebagai parser: Memungkinkan penguraian dan penyimpanan konten multimodal sebagai file teks, pendukung, gambar PDFs, audio, dan video.
-
Model dasar sebagai parser: Menyediakan penguraian lanjutan untuk gambar dan dokumen terstruktur, pendukung, gambar PDFs, tabel, dan dokumen yang kaya secara visual.
-
Pilih Tambahkan sumber data untuk membuat sumber data.
- CLI
-
Untuk menambahkan sumber data menggunakan AWS CLI
-
Buat sumber data untuk konten multimodal Anda. Kirim CreateDataSourcepermintaan:
aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json
Untuk Nova Multimodal Embeddings (tidak perlu konfigurasi parsing khusus), gunakan konten ini: ds-multimodal.json
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source",
"description": "Data source with multimodal content",
"dataDeletionPolicy": "RETAIN"
}
Untuk pendekatan parsing BDA, gunakan konfigurasi ini:
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source_bda",
"description": "Data source with BDA multimodal parsing",
"dataDeletionPolicy": "RETAIN",
"vectorIngestionConfiguration": {
"parsingConfiguration": {
"bedrockDataAutomationConfiguration": {
"parsingModality": "MULTIMODAL"
}
}
}
}
Mulai pekerjaan menelan
Setelah menambahkan sumber data Anda, mulailah pekerjaan konsumsi untuk memproses dan mengindeks konten multimodal Anda.
- Console
-
Untuk memulai konsumsi dari konsol
-
Dari halaman detail sumber data Anda, pilih Sinkronkan.
-
Pantau status sinkronisasi pada halaman sumber data. Tertelan mungkin memakan waktu beberapa menit tergantung pada ukuran dan jumlah file multimodal Anda.
-
Setelah sinkronisasi berhasil diselesaikan, konten multimodal Anda siap untuk ditanyakan.
- CLI
-
Untuk memulai konsumsi menggunakan AWS CLI
-
Mulai pekerjaan menelan. Kirim StartIngestionJobpermintaan:
aws bedrock-agent start-ingestion-job \
--knowledge-base-id <knowledge-base-id> \
--data-source-id <data-source-id>
Ganti placeholder dengan:
-
Pantau status pekerjaan konsumsi menggunakan. GetIngestionJob
Sinkronisasi ulang setelah penghapusan sumber data
Jika Anda menghapus sumber data dan ingin menghapus kontennya dari basis pengetahuan, Anda harus secara eksplisit menyinkronkan ulang basis pengetahuan:
Untuk menghapus konten sumber data yang dihapus
-
Hapus sumber data menggunakan konsol atau DeleteDataSourceAPI.
-
Mulai pekerjaan konsumsi baru pada sumber data yang tersisa untuk memperbarui database vektor dan menghapus konten dari sumber data yang dihapus.
-
Verifikasi bahwa kueri tidak lagi mengembalikan hasil dari sumber data yang dihapus.
Tanpa sinkronisasi ulang, konten dari sumber data yang dihapus akan terus muncul di hasil pencarian meskipun sumber data sudah tidak ada lagi.