Tambahkan sumber data Mulai pekerjaan menelan Sinkronisasi ulang setelah penghapusan sumber data

Menambahkan sumber data dan memulai konsumsi

Setelah membuat basis pengetahuan Anda, tambahkan sumber data yang berisi konten multimodal Anda dan mulailah pekerjaan konsumsi untuk memproses dan mengindeks konten.

Perilaku penghapusan sumber data

Saat Anda menghapus sumber data dengan kebijakan penghapusan yang disetel ke RESTAIN, konten yang dicerna tetap berada dalam database vektor dan akan terus digunakan untuk pengambilan. Konten hanya dihapus jika Anda secara eksplisit menyinkronkan basis pengetahuan setelah menghapus sumber data. Sumber data dengan kebijakan DELETE default akan secara otomatis menghapus konten dari database vektor dan penyimpanan tambahan selama penghapusan. Ini memastikan bahwa basis pengetahuan Anda terus berfungsi meskipun file sumber dimodifikasi atau dihapus, tetapi Anda harus menyadari bahwa sumber data yang dihapus dengan kebijakan RETAIN mungkin masih berkontribusi pada hasil pencarian.

Tambahkan sumber data

Tambahkan sumber data yang berisi konten multimodal Anda ke basis pengetahuan Anda.

penting

Untuk sumber data BDA: Hanya sumber data yang dibuat setelah peluncuran audio/video dukungan yang akan memproses file audio dan video. Sumber data BDA yang ada yang dibuat sebelum peluncuran fitur ini akan terus melewati file audio dan video. Untuk mengaktifkan audio/video pemrosesan basis pengetahuan yang ada, buat sumber data baru.

Console

Untuk menambahkan sumber data dari konsol

Dari halaman detail basis pengetahuan Anda, pilih Tambahkan sumber data.
Pilih Amazon S3 sebagai tipe sumber data Anda.
Berikan nama dan deskripsi untuk sumber data Anda.
Konfigurasikan lokasi Amazon S3 yang berisi file multimodal Anda dengan menyediakan URI bucket dan awalan inklusi apa pun.
Di bawah Parsing dan chunking Konten, konfigurasikan metode parsing dan chunking Anda:

catatan
Model penyematan teks membatasi pengambilan ke konten khusus teks, tetapi Anda dapat mengaktifkan pengambilan multimodal melalui teks dengan memilih Amazon Bedrock Data Automation (untuk audio, video, dan gambar) atau Foundation Model sebagai parser (untuk gambar).

Pilih dari tiga strategi parsing:
- Pengurai default batuan dasar: Direkomendasikan untuk penguraian teks saja. Parser ini mengabaikan konten multimodal dan biasanya digunakan dengan model penyematan multimodal.
- Otomasi Data Batuan Dasar sebagai parser: Memungkinkan penguraian dan penyimpanan konten multimodal sebagai teks, mendukung file PDF, gambar, audio, dan video.
- Model dasar sebagai parser: Menyediakan penguraian lanjutan untuk gambar dan dokumen terstruktur, mendukung PDF, gambar, tabel, dan dokumen kaya visual.
Pilih Tambahkan sumber data untuk membuat sumber data.

CLI

Untuk menambahkan sumber data menggunakan AWS CLI

Buat sumber data untuk konten multimodal Anda. Kirim CreateDataSourcepermintaan:


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Untuk Nova Multimodal Embeddings (tidak perlu konfigurasi parsing khusus), gunakan konten ini: ds-multimodal.json


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

Untuk pendekatan parsing BDA, gunakan konfigurasi ini:


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

Mulai pekerjaan menelan

Setelah menambahkan sumber data Anda, mulailah pekerjaan konsumsi untuk memproses dan mengindeks konten multimodal Anda.

Sinkronisasi ulang setelah penghapusan sumber data

Jika Anda menghapus sumber data dan ingin menghapus kontennya dari basis pengetahuan, Anda harus secara eksplisit menyinkronkan ulang basis pengetahuan:

Untuk menghapus konten sumber data yang dihapus

Hapus sumber data menggunakan konsol atau DeleteDataSourceAPI.
Mulai pekerjaan konsumsi baru pada sumber data yang tersisa untuk memperbarui database vektor dan menghapus konten dari sumber data yang dihapus.
Verifikasi bahwa kueri tidak lagi mengembalikan hasil dari sumber data yang dihapus.

catatan

Tanpa sinkronisasi ulang, konten dari sumber data yang dihapus akan terus muncul di hasil pencarian meskipun sumber data sudah tidak ada lagi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Buat basis pengetahuan

Basis pengetahuan uji dan kueri

Menambahkan sumber data dan memulai konsumsi

Perilaku penghapusan sumber data

Tambahkan sumber data

penting

Untuk menambahkan sumber data dari konsol

catatan

Untuk menambahkan sumber data menggunakan AWS CLI

Mulai pekerjaan menelan

Untuk memulai konsumsi dari konsol

Untuk memulai konsumsi menggunakan AWS CLI

Sinkronisasi ulang setelah penghapusan sumber data

Untuk menghapus konten sumber data yang dihapus

catatan