

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# RAG 應用程式的文件最佳實務
<a name="best-practices"></a>

開發成功的擷取增強生成 (RAG) 應用程式需要仔細考慮各種文件相關因素，以最佳化其效能。本節中的最佳實務是根據與許多組織領導者一起建置 RAG 系統的經驗所策劃。以下是文件的幾個關鍵最佳實務，以增強 RAG 應用程式的有效性：
+ **正確使用標題和子標題** – 整理具有清晰標題和子標題的內容可提高可讀性，並協助 RAG 模型了解文件的結構。此實務可讓模型更好地從文件中導覽和擷取資訊，從而增強產生的回應品質。
+ **確保編號是循序**的 – 使用編號清單時，請務必維持適當的編號以避免混淆。確保每個清單項目都按順序編號，而不會略過數字。這有助於維持內容的清晰度和一致性。
+ 在**清單項目之間新增轉換** – 在項目符號或編號清單中的項目之間提供轉換，有助於引導 LLM 完成內容。例如，您可以使用「在完成步驟 2 後，執行...」之類的片語來連接想法並改善資訊流程。
+ **取代資料表** – 避免使用資料表。在多層項目符號清單或平面語法中格式化此資訊。*平面語法*是在相同的階層層級配置元素或項目，而沒有巢狀層級的次排序。這些結構可協助 LLMs 摘要資訊。由於大多數索引文件是從左到右讀取，因此平面語法可讓資訊更一致地遵循，而不需要參考額外的維度。這種格式對 RAG 應用程式更有利，因為它以結構化且易於理解的方式呈現資訊。
+ **提高效率的預先處理圖形資訊** – 多模態 LLMs 可以同時擷取影像和文字。降低影像解析度、移除備援影像，並以文字格式描述圖形元素的內容。這些措施可改善有意義的內容、避免不必要的使用字符，並改善 RAG 模型的可存取性。
+ **新增常見查詢的工作階段啟動者** – 解決常見問題或任務時，例如「如何訂購軟體？」，請新增工作階段啟動者，將讀取者轉換為 程序。例如，您可以新增「如果您想要訂購軟體，請遵循以下步驟...」。這有助於建立高語意比對，這有助於 LLM 建構凝聚性回應。
+ **將摘要新增至每個區段** – 在每個標題或子標題** **之後，新增該區段內容的簡短且簡潔摘要。這可以增加語意涵蓋範圍並強化關鍵點。這可改善內嵌空間內相似性搜尋的準確性，進而改善 RAG 應用程式的效能。如果文件同時適用於 LLM 和人工取用，或需要資料表和圖形元素，這特別有用。
+ **歧義** – 文件應該簡潔且集中。LLMs 會根據擷取的摘錄產生回應，因此歧義可協助模型使用清晰的相關資訊。這會產生更準確且資訊豐富的回應。
+ **定義縮寫和設定內容** – LLMs會根據大量網際網路資料進行訓練，而且大多數情況下，它們沒有企業內部文件的內容。因此，設定內容、定義縮寫，以及避免或定義公司特定的術語，有助於 LLM 了解您的企業資料。這有助於 LLM 更準確地回答問題，並有助於防止幻覺。
+ **將大型文件重組為較小的文件，以有效率地標記和編製索引** –** **避免將包含多個子主題的大型文件編製索引。考慮將大型文件分割成具有明確標題的小型獨立文件。這可改善索引和標記。