來源資料中影響 RAG 應用程式的挑戰

開發最佳擷取增強生成 (RAG) 應用程式的主要挑戰之一在於所使用的原始資料或文件。通常，企業會使用為人工參考而建立的現有文件。這些文件通常包含超連結和影像螢幕擷取畫面，以促進理解。不過，由於摘錄權杖限制，這些元素會阻礙語意擷取。這會導致擷取器效能不佳。

以下是最佳 RAG 應用程式最常見的原始文件挑戰：

缺乏結構化格式和中繼資料 – 原始文件可能缺少明確的區段標題、子標題或中繼資料。這使得識別和擷取相關資訊變得具有挑戰性。例如，沒有明確標題的長文件可能會讓您難以判斷特定資訊的內容。
非正式和不一致的語言 – 原始文件通常包含非正式語言或不一致的術語。這可能會混淆 RAG 模型。例如，未於文件中定義或 LLM 已知的縮寫可能在整個文件中使用。
動詞和備援 – 原始文件可能是詳細的，並包含不必要的或備援資訊。這可能會壓倒 RAG 模型，導致較不簡潔和相關的回應。範例包括多次重複相同資訊的文件，或包含類似或矛盾資訊的多個文件。
模棱兩可的術語和片語 – 原始文件可能包含模棱兩可的術語或片語，可能以多種方式解釋。這種模棱兩可性可能會導致 RAG 模型的錯誤解譯和不正確的回應。例如，使用具有多個意義的字詞的文件可能會導致回應不符合預期的意義。
注入圖形和超連結元素 – 包含圖形和超連結資訊的原始文件非常適合人類使用。不過，這些元素可能會使用擷取字符限制。結果是摘錄可能不完整。例如，圖形和超連結 URLs會傳回為擷取的一部分，這會使用擷取字符，而後續段落的金鑰資訊會遺失。
缺乏特定網域的知識或內容 – 原始文件可能缺乏準確產生所需的特定網域知識或內容。這可能會限制 RAG 模型產生相關且準確回應的能力。範例是參考特殊概念而不提供內容的文件。這可能會導致在指定網域中沒有意義的回應。

雖然此清單並不全面，但它為企業提供了起點，以考慮什麼無效和原因。文件可能有一個或多個這些挑戰。最佳化 RAG 應用程式的關鍵是使用一組文件，以遵循撰寫最佳化擷取的最佳實務。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

了解 LLMs和 RAG

最佳實務