Bagaimana content chunking bekerja untuk basis pengetahuan - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bagaimana content chunking bekerja untuk basis pengetahuan

Saat menelan data Anda, Amazon Bedrock pertama-tama membagi dokumen atau konten Anda menjadi potongan-potongan yang dapat dikelola untuk pengambilan data yang efisien. Potongan kemudian dikonversi menjadi embeddings dan ditulis ke indeks vektor (representasi vektor data), sambil mempertahankan pemetaan ke dokumen asli. Penyematan vektor memungkinkan teks dibandingkan secara kuantitatif.

Chunking standar

Amazon Bedrock mendukung pendekatan standar berikut untuk chunking:

catatan

Strategi chunking teks hanya berlaku untuk dokumen teks. Untuk konten multimodal (audio, video, gambar), chunking terjadi pada tingkat model embedding, bukan melalui strategi berbasis teks ini.

  • Potongan ukuran tetap: Anda dapat mengonfigurasi ukuran potongan yang diinginkan dengan menentukan jumlah token per potongan, dan persentase tumpang tindih, memberikan fleksibilitas untuk menyelaraskan dengan kebutuhan spesifik Anda. Anda dapat mengatur jumlah maksimum token yang tidak boleh melebihi potongan dan persentase tumpang tindih antara potongan berturut-turut.

    catatan

    Untuk konten yang diuraikan (seperti konten yang menggunakan parser lanjutan atau dikonversi dari HTML), Pangkalan Pengetahuan Amazon Bedrock dapat memotong konten untuk mengoptimalkan hasil terbaik. Chunker menghormati batas dokumen logis (seperti halaman atau bagian) dan tidak menggabungkan konten melintasi batas-batas ini, bahkan ketika meningkatkan ukuran token maksimum akan memungkinkan potongan yang lebih besar.

  • Chunking default: Membagi konten menjadi potongan teks sekitar 300 token. Proses chunking menghormati batas-batas kalimat, memastikan bahwa kalimat lengkap dipertahankan dalam setiap potongan.

Anda juga dapat memilih no chunking untuk dokumen Anda. Setiap dokumen diperlakukan satu potongan teks. Anda mungkin ingin pra-proses dokumen Anda dengan membaginya menjadi file terpisah sebelum memilih no chunking sebagai pendekatan/strategi chunking Anda. Jika Anda memilih no chunking untuk dokumen Anda, Anda tidak dapat melihat nomor halaman dalam kutipan atau filter berdasarkan bidang/atribut x-amz-bedrock-kb- document-page-number metadata.

Chunking hierarkis

Chunking hierarkis melibatkan pengorganisasian informasi ke dalam struktur bersarang dari potongan anak dan orang tua. Saat membuat sumber data, Anda dapat menentukan ukuran potongan induk, ukuran potongan anak, dan jumlah token yang tumpang tindih di antara setiap potongan. Selama pengambilan, sistem awalnya mengambil potongan anak, tetapi menggantinya dengan potongan induk yang lebih luas sehingga memberikan model dengan konteks yang lebih komprehensif.

Penyematan teks kecil lebih tepat, tetapi pengambilan bertujuan untuk konteks yang komprehensif. Sistem chunking hierarkis menyeimbangkan kebutuhan ini dengan mengganti potongan anak yang diambil dengan potongan induknya bila sesuai.

catatan
  • Karena potongan anak digantikan oleh potongan induk selama pengambilan, jumlah hasil yang dikembalikan mungkin kurang dari jumlah yang diminta.

  • Chunking hierarkis tidak disarankan saat menggunakan bucket vektor S3 sebagai penyimpanan vektor Anda. Saat menggunakan jumlah token yang tinggi untuk chunking (lebih dari 8000 token digabungkan), Anda mungkin mengalami batasan ukuran metadata.

Untuk chunking hierarkis, basis pengetahuan Amazon Bedrock mendukung penetapan dua level atau kedalaman berikut untuk chunking:

  • Induk: Anda mengatur ukuran token potongan induk maksimum.

  • Anak: Anda mengatur ukuran token potongan anak maksimum.

Anda juga mengatur token tumpang tindih antar potongan. Ini adalah jumlah absolut token tumpang tindih antara potongan induk berturut-turut dan potongan anak berturut-turut.

Chunking semantik

Chunking semantik adalah teknik pemrosesan bahasa alami yang membagi teks menjadi potongan-potongan yang bermakna untuk meningkatkan pemahaman dan pengambilan informasi. Ini bertujuan untuk meningkatkan akurasi pengambilan dengan berfokus pada konten semantik daripada hanya struktur sintaksis. Dengan demikian, ini dapat memfasilitasi ekstraksi dan manipulasi informasi yang relevan dengan lebih tepat.

Saat mengonfigurasi chunking semantik, Anda memiliki opsi untuk menentukan parameter hiper berikut.

  • Token maksimum: Jumlah maksimum token yang harus dimasukkan dalam satu potongan, sambil menghormati batas kalimat.

  • Ukuran buffer: Untuk kalimat tertentu, ukuran buffer mendefinisikan jumlah kalimat di sekitarnya yang akan ditambahkan untuk pembuatan embeddings. Misalnya, ukuran buffer 1 menghasilkan 3 kalimat (kalimat saat ini, sebelumnya dan berikutnya) untuk digabungkan dan disematkan. Parameter ini dapat mempengaruhi seberapa banyak teks diperiksa bersama untuk menentukan batas setiap potongan, memengaruhi granularitas dan koherensi potongan yang dihasilkan. Ukuran buffer yang lebih besar mungkin menangkap lebih banyak konteks tetapi juga dapat menimbulkan noise, sementara ukuran buffer yang lebih kecil mungkin kehilangan konteks penting tetapi memastikan chunking yang lebih tepat.

  • Ambang batas persentil breakpoint: Ambang batas persentil kalimat distance/dissimilarity untuk menggambar breakpoint antar kalimat. Ambang batas yang lebih tinggi membutuhkan kalimat agar lebih dapat dibedakan agar dapat dibagi menjadi beberapa bagian yang berbeda. Ambang batas yang lebih tinggi menghasilkan potongan yang lebih sedikit dan biasanya ukuran potongan rata-rata yang lebih besar.

    catatan

    Ada biaya tambahan untuk menggunakan chunking semantik karena penggunaan model pondasi. Biaya tergantung pada jumlah data yang Anda miliki. Lihat harga Amazon Bedrock untuk informasi lebih lanjut tentang biaya model pondasi.

Pembagian konten multimodal

Untuk konten multimodal (audio, video, gambar), perilaku chunking berbeda dari dokumen teks:

  • Penyematan multimodal Nova: Chunking terjadi pada tingkat model embedding. Anda dapat mengonfigurasi durasi potongan audio dan video dari 1-30 detik (default: 5 detik). Untuk file video, hanya durasi potongan video yang berlaku, meskipun video berisi audio. Durasi potongan audio hanya berlaku untuk file audio mandiri.

  • Pengurai Otomasi Data Batuan Dasar (BDA): Konten pertama kali dikonversi menjadi teks (transkrip dan ringkasan adegan), kemudian strategi chunking teks standar diterapkan ke teks yang dikonversi.

catatan

Saat menggunakan penyematan multimodal Nova, strategi chunking teks yang dikonfigurasi di basis pengetahuan Anda hanya memengaruhi dokumen teks di sumber data Anda, bukan file audio, video, atau gambar.