本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
RAG 应用程序的文档最佳实践
开发成功的检索增强生成 (RAG) 应用程序需要仔细考虑各种与文档相关的因素,以优化其性能。本节中的最佳实践是根据与许多组织领导一起构建 RAG 系统的经验精心策划的。以下是一些关键的文档最佳实践,可提高 RAG 应用程序的有效性:
-
正确使用标题和副标题 — 使用清晰的标题和副标题整理内容可以提高可读性,并有助于 RAG 模型了解文档的结构。这种做法使模型能够更好地浏览和从文档中提取信息,从而提高生成的响应的质量。
-
确保编号是连续的-使用编号列表时,务必保持正确的编号,以免造成混淆。确保每个列表项按顺序编号,不要跳过数字。这有助于保持内容的清晰度和连贯性。
-
在@@ 列表项之间添加过渡 — 在项目符号列表或编号列表中的项目之间提供过渡有助于引导 LLM 浏览内容。例如,你可以使用 “完成第 2 步后,做...” 之类的短语来联系想法并改善信息流。
-
替换表格-避免使用表格。以多级项目符号列表或扁平语法格式化此信息。平面语法是在相同的层次结构级别上排列元素或项目,没有嵌套的从属级别。这些结构 LLMs 有助于消化信息。由于大多数索引文档都是从左向右读取的,因此扁平语法允许信息更连贯地跟踪,而无需引用其他维度。这种格式更有利于RAG应用程序,因为它以结构化且易于消化的方式呈现信息。
-
预处理图形信息以提高效率 — 多模态 LLMs 可以同时摄取图像和文本。降低图像的分辨率,删除多余的图像,并以文本格式描述图形元素的内容。这些措施改善了有意义的上下文,避免了不必要地消耗代币,并提高了RAG模型的可访问性。
-
为常见问题添加会话启动器 — 在解决常见问题或任务时,例如 “如何订购软件?” ,添加会话启动器,让读者进入流程。例如,您可以添加 “如果您要订购软件,请按照以下步骤操作...”。这有助于创建高语义匹配,从而帮助法学硕士构建有凝聚力的响应。
-
向每个部分添加摘要- 在每个标题或副标题之后,添加该部分内容的简短摘要。这可以增加语义覆盖范围并强化关键点。这提高了嵌入空间内相似度搜索的准确性,从而提高了 RAG 应用程序的性能。如果文档供法学硕士学位和人类使用,或者需要表格和图形元素,则这特别有用。
-
消除歧义 — 文件应简洁明了。 LLMs 根据检索到的摘录生成响应,因此消除歧义有助于模型使用清晰而相关的信息。这样可以得到更准确、内容更丰富的回复。
-
定义缩写和设置上下文 — LLMs 受过大量互联网数据的训练,而且大多数时候,它们没有企业内部文档的上下文。因此,设置上下文、定义缩写以及避免或定义公司特定的术语有助于法学硕士了解您的企业数据。这有助于法学硕士更准确地回答问题,并有助于防止出现幻觉。
-
将@@ 大型文档重组为较小的文档,以实现高效的标记和索引 — 避免为包含多个子主题的大型文档编制索引。可以考虑将大型文档分成标题清晰的较小、独立的文档。这改进了索引和标记。