View a markdown version of this page

來源資料中影響 RAG 應用程式的挑戰 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

來源資料中影響 RAG 應用程式的挑戰

開發最佳擷取增強生成 (RAG) 應用程式的主要挑戰之一在於所使用的原始資料或文件。通常,企業會使用為人工參考而建立的現有文件。這些文件通常包含超連結和影像螢幕擷取畫面,以促進理解。不過,由於摘錄權杖限制,這些元素會阻礙語意擷取。這會導致擷取器效能不佳。

以下是最佳 RAG 應用程式最常見的原始文件挑戰:

  • 缺乏結構化格式和中繼資料 – 原始文件可能缺少明確的區段標題、子標題或中繼資料。這使得識別和擷取相關資訊變得具有挑戰性。例如,沒有明確標題的長文件可能會讓您難以判斷特定資訊的內容。

  • 非正式和不一致的語言 – 原始文件通常包含非正式語言或不一致的術語。這可能會混淆 RAG 模型。例如,未於文件中定義或 LLM 已知的縮寫可能在整個文件中使用。

  • 動詞和備援 – 原始文件可能是詳細的,並包含不必要的或備援資訊。這可能會壓倒 RAG 模型,導致較不簡潔和相關的回應。範例包括多次重複相同資訊的文件,或包含類似或矛盾資訊的多個文件。

  • 模棱兩可的術語和片語 – 原始文件可能包含模棱兩可的術語或片語,可能以多種方式解釋。這種模棱兩可性可能會導致 RAG 模型的錯誤解譯和不正確的回應。例如,使用具有多個意義的字詞的文件可能會導致回應不符合預期的意義。

  • 注入圖形和超連結元素 – 包含圖形和超連結資訊的原始文件非常適合人類使用。不過,這些元素可能會使用擷取字符限制。結果是摘錄可能不完整。例如,圖形和超連結 URLs會傳回為擷取的一部分,這會使用擷取字符,而後續段落的金鑰資訊會遺失。

  • 缺乏特定網域的知識或內容 – 原始文件可能缺乏準確產生所需的特定網域知識或內容。這可能會限制 RAG 模型產生相關且準確回應的能力。範例是參考特殊概念而不提供內容的文件。這可能會導致在指定網域中沒有意義的回應。

雖然此清單並不全面,但它為企業提供了起點,以考慮什麼無效和原因。文件可能有一個或多個這些挑戰。最佳化 RAG 應用程式的關鍵是使用一組文件,以遵循撰寫最佳化擷取的最佳實務。