Praktik terbaik dokumentasi untuk aplikasi RAG

Mengembangkan aplikasi Retrieval-Augmented Generation (RAG) yang sukses memerlukan pertimbangan yang cermat dari berbagai faktor terkait dokumen untuk mengoptimalkan kinerjanya. Praktik terbaik di bagian ini dikuratori berdasarkan pengalaman membangun sistem RAG dengan banyak pemimpin organisasi. Berikut ini adalah beberapa praktik terbaik utama untuk dokumen untuk meningkatkan efektivitas aplikasi RAG Anda:

Gunakan judul dan subpos dengan benar — Mengatur konten Anda dengan judul dan subpos yang jelas meningkatkan keterbacaan dan membantu model RAG memahami struktur dokumen Anda. Praktik ini memungkinkan model untuk menavigasi dan mengekstrak informasi dari dokumen dengan lebih baik, yang meningkatkan kualitas respons yang dihasilkan.
Pastikan penomoran berurutan — Saat menggunakan daftar bernomor, penting untuk mempertahankan penomoran yang tepat untuk menghindari kebingungan. Pastikan bahwa setiap item daftar diberi nomor secara berurutan tanpa melewatkan angka. Ini membantu menjaga kejelasan dan koherensi dalam konten Anda.
Tambahkan transisi antara item daftar - Menyediakan transisi antara item dalam daftar berpoin atau bernomor membantu memandu LLM melalui konten. Misalnya, Anda dapat menggunakan frasa seperti “Setelah menyelesaikan langkah 2, lakukan...” untuk menghubungkan ide dan meningkatkan arus informasi.
Ganti tabel — Hindari menggunakan tabel. Format informasi ini dalam daftar berpoin multi-level atau dalam sintaks tingkat datar. Sintaks tingkat datar adalah mengatur elemen atau item pada tingkat hierarki yang sama, tanpa tingkat subordinasi bersarang. Struktur ini LLMs membantu mencerna informasi. Karena sebagian besar dokumen yang diindeks dibaca dari kiri ke kanan, sintaks tingkat datar memungkinkan informasi untuk mengikuti lebih koheren tanpa perlu referensi dimensi tambahan. Format ini lebih kondusif untuk aplikasi RAG karena menyajikan informasi secara terstruktur dan mudah dicerna.
Informasi grafis pra-proses untuk efisiensi — Multi-modal LLMs dapat menyerap gambar dan teks. Kurangi resolusi gambar, hapus gambar yang berlebihan, dan jelaskan konten elemen grafis dalam format teks. Langkah-langkah ini meningkatkan konteks yang bermakna, menghindari penggunaan token yang tidak perlu, dan meningkatkan aksesibilitas untuk model RAG.
Tambahkan pembuka sesi untuk pertanyaan umum — Saat menangani pertanyaan atau tugas umum, seperti “Bagaimana cara memesan perangkat lunak?” , tambahkan starter sesi yang mentransisikan pembaca ke dalam proses. Misalnya, Anda dapat menambahkan “Jika Anda ingin memesan perangkat lunak, ikuti langkah-langkah di bawah ini...”. Ini membantu menciptakan pencocokan semantik yang tinggi, yang membantu LLM membangun respons yang kohesif.
Tambahkan ringkasan ke setiap bagian — Setelah setiap judul atau subjudul, tambahkan ringkasan singkat dan ringkas dari konten di bagian itu. Ini dapat meningkatkan cakupan semantik dan memperkuat poin-poin penting. Hal ini meningkatkan akurasi pencarian kesamaan dalam ruang embedding, sehingga meningkatkan kinerja aplikasi RAG. Ini sangat membantu jika dokumen dimaksudkan untuk LLM dan konsumsi manusia atau jika tabel dan elemen grafis diperlukan.
Disambiguasi — Dokumen harus ringkas dan fokus. LLMs menghasilkan tanggapan berdasarkan kutipan yang diambil, sehingga disambiguasi membantu model menggunakan informasi yang jelas dan relevan. Ini menghasilkan tanggapan yang lebih akurat dan informatif.
Mendefinisikan singkatan dan mengatur konteks — LLMs dilatih pada sejumlah besar data internet, dan sebagian besar waktu, mereka tidak memiliki konteks dokumen internal perusahaan. Oleh karena itu, menetapkan konteks, mendefinisikan singkatan, dan menghindari atau mendefinisikan terminologi khusus perusahaan membantu LLM memahami data perusahaan Anda. Ini membantu LLM untuk menjawab pertanyaan dengan lebih akurat dan dapat membantu mencegah halusinasi.
Merestrukturisasi dokumen besar menjadi dokumen yang lebih kecil untuk penandaan dan pengindeksan yang efisien — Hindari pengindeksan dokumen besar yang berisi beberapa subtopik. Pertimbangkan untuk membagi dokumen besar menjadi dokumen yang lebih kecil dan mandiri yang memiliki judul yang jelas. Ini meningkatkan pengindeksan dan penandaan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tantangan dalam data sumber

Pertanyaan yang Sering Diajukan