

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 管理模型代币限制的提示
<a name="tips-for-managing-model-token-limits"></a>

注意：该解决方案不会直接尝试管理各种人施加的代币限制 LLMs。测试并确保您的提示保持在模型提供者强制执行的可用限制范围内。

要帮助控制提示的大小，请尝试以下操作：

1. 熟悉要使用的模型所施加的限制。这些值可能因型号而异，因此在开始之前了解可用预算是多少，这一点很重要。

1. 在制作初始提示时要考虑预算，并考虑要为提示的任何动态元素节省多少钱。例如，用户输入、聊天记录、文档摘录等。

1. 在提示配置页面中，设置**尾随历史记录大小**限制，以限制提示中包含的对话回合数。

1. 在知识库配置向导中设置文档返回限制。您需要尝试在为LLM提供足够的上下文来执行任务之间取得适当的平衡，但不要超过代币限制或对延迟产生负面影响。

1. 留点缓冲区。不要为典型案例做预算，要考虑和尝试边缘案例，例如长输入查询、大型文档摘录或长时间的对话。