View a markdown version of this page

Tantangan dalam data sumber yang memengaruhi aplikasi RAG - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tantangan dalam data sumber yang memengaruhi aplikasi RAG

Salah satu tantangan signifikan dalam mengembangkan aplikasi Retrieval-Augmented Generation (RAG) yang optimal terletak pada sifat data mentah atau dokumen yang digunakan. Seringkali, perusahaan menggunakan dokumen yang ada yang dibuat untuk referensi manusia. Dokumen-dokumen ini sering menyertakan hyperlink dan tangkapan layar gambar untuk mempromosikan pemahaman. Namun, elemen-elemen ini menghalangi pengambilan semantik karena batas token kutipan. Ini menghasilkan kinerja retriever yang buruk.

Berikut ini adalah tantangan dokumen mentah yang paling umum untuk aplikasi RAG yang optimal:

  • Kurangnya pemformatan dan metadata terstruktur — Dokumen mentah dapat kekurangan judul bagian, subjudul, atau metadata yang jelas. Hal ini membuat sulit untuk mengidentifikasi dan mengekstrak informasi yang relevan. Misalnya, dokumen yang panjang tanpa judul yang jelas dapat menyulitkan untuk menentukan konteks informasi tertentu.

  • Bahasa informal dan tidak konsisten — Dokumen mentah sering mengandung bahasa informal atau terminologi yang tidak konsisten. Ini dapat membingungkan model RAG. Misalnya, singkatan yang tidak didefinisikan dalam dokumen atau sudah dikenal oleh LLM dapat digunakan di seluruh dokumen.

  • Verbositas dan redundansi — Dokumen mentah mungkin bertele-tele dan berisi informasi yang tidak perlu atau berlebihan. Ini dapat membanjiri model RAG, yang mengarah ke respons yang kurang ringkas dan relevan. Contohnya termasuk dokumen yang mengulangi informasi yang sama beberapa kali atau beberapa dokumen yang berisi informasi serupa atau kontradiktif.

  • Istilah dan frasa ambigu — Dokumen mentah dapat berisi istilah atau frasa ambigu yang dapat ditafsirkan dalam berbagai cara. Ambiguitas ini dapat menyebabkan salah tafsir oleh model RAG dan tanggapan yang tidak akurat. Misalnya, dokumen yang menggunakan istilah dengan banyak arti dapat menghasilkan respons yang tidak selaras dengan makna yang dimaksudkan.

  • Injeksi elemen grafis dan hyperlink — Dokumen mentah yang berisi grafik dan informasi hyperlink bekerja dengan baik untuk konsumsi manusia. Namun, elemen-elemen ini dapat menggunakan batas token pengambilan. Hasilnya adalah kutipan mungkin tidak lengkap. Misalnya, grafik dan hyperlink URLs dikembalikan sebagai bagian dari pengambilan, yang menggunakan token pengambilan, dan informasi kunci dari paragraf berikutnya tidak ada.

  • Kurangnya pengetahuan atau konteks khusus domain - Dokumen mentah dapat kekurangan pengetahuan atau konteks khusus domain yang diperlukan untuk pembuatan yang akurat. Ini dapat membatasi kemampuan model RAG untuk menghasilkan respons yang relevan dan akurat. Contohnya adalah dokumen yang mereferensikan konsep khusus tanpa memberikan konteks. Ini mungkin mengarah pada tanggapan yang tidak berarti dalam domain yang diberikan.

Meskipun daftar ini tidak komprehensif, ini memberikan titik awal bagi perusahaan untuk memikirkan apa yang tidak berfungsi dan mengapa. Dokumen mungkin memiliki satu atau lebih dari tantangan ini. Kunci untuk mengoptimalkan aplikasi RAG adalah dengan menggunakan satu set dokumen yang mematuhi praktik terbaik penulisan yang mengoptimalkan pengambilan.