本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
RAG 應用程式的文件最佳實務
開發成功的擷取增強生成 (RAG) 應用程式需要仔細考慮各種文件相關因素,以最佳化其效能。本節中的最佳實務是根據與許多組織領導者一起建置 RAG 系統的經驗所策劃。以下是文件的幾個關鍵最佳實務,以增強 RAG 應用程式的有效性:
-
正確使用標題和子標題 – 整理具有清晰標題和子標題的內容可提高可讀性,並協助 RAG 模型了解文件的結構。此實務可讓模型更好地從文件中導覽和擷取資訊,從而增強產生的回應品質。
-
確保編號是循序的 – 使用編號清單時,請務必維持適當的編號以避免混淆。確保每個清單項目都按順序編號,而不會略過數字。這有助於維持內容的清晰度和一致性。
-
在清單項目之間新增轉換 – 在項目符號或編號清單中的項目之間提供轉換,有助於引導 LLM 完成內容。例如,您可以使用「在完成步驟 2 後,執行...」之類的片語來連接想法並改善資訊流程。
-
取代資料表 – 避免使用資料表。在多層項目符號清單或平面語法中格式化此資訊。平面語法是在相同的階層層級配置元素或項目,而沒有巢狀層級的次排序。這些結構可協助 LLMs 摘要資訊。由於大多數索引文件是從左到右讀取,因此平面語法可讓資訊更一致地遵循,而不需要參考額外的維度。這種格式對 RAG 應用程式更有利,因為它以結構化且易於理解的方式呈現資訊。
-
提高效率的預先處理圖形資訊 – 多模態 LLMs 可以同時擷取影像和文字。降低影像解析度、移除備援影像,並以文字格式描述圖形元素的內容。這些措施可改善有意義的內容、避免不必要的使用字符,並改善 RAG 模型的可存取性。
-
新增常見查詢的工作階段啟動者 – 解決常見問題或任務時,例如「如何訂購軟體?」,請新增工作階段啟動者,將讀取者轉換為 程序。例如,您可以新增「如果您想要訂購軟體,請遵循以下步驟...」。這有助於建立高語意比對,這有助於 LLM 建構凝聚性回應。
-
將摘要新增至每個區段 – 在每個標題或子標題 之後,新增該區段內容的簡短且簡潔摘要。這可以增加語意涵蓋範圍並強化關鍵點。這可改善內嵌空間內相似性搜尋的準確性,進而改善 RAG 應用程式的效能。如果文件同時適用於 LLM 和人工取用,或需要資料表和圖形元素,這特別有用。
-
歧義 – 文件應該簡潔且集中。LLMs 會根據擷取的摘錄產生回應,因此歧義可協助模型使用清晰的相關資訊。這會產生更準確且資訊豐富的回應。
-
定義縮寫和設定內容 – LLMs會根據大量網際網路資料進行訓練,而且大多數情況下,它們沒有企業內部文件的內容。因此,設定內容、定義縮寫,以及避免或定義公司特定的術語,有助於 LLM 了解您的企業資料。這有助於 LLM 更準確地回答問題,並有助於防止幻覺。
-
將大型文件重組為較小的文件,以有效率地標記和編製索引 – 避免將包含多個子主題的大型文件編製索引。考慮將大型文件分割成具有明確標題的小型獨立文件。這可改善索引和標記。