本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
管理模型代币限制的提示
注意:该解决方案不会直接尝试管理各种人施加的代币限制 LLMs。测试并确保您的提示保持在模型提供者强制执行的可用限制范围内。
要帮助控制提示的大小,请尝试以下操作:
-
熟悉要使用的模型所施加的限制。这些值可能因型号而异,因此在开始之前了解可用预算是多少,这一点很重要。
-
在制作初始提示时要考虑预算,并考虑要为提示的任何动态元素节省多少钱。例如,用户输入、聊天记录、文档摘录等。
-
在提示配置页面中,设置尾随历史记录大小限制,以限制提示中包含的对话回合数。
-
在知识库配置向导中设置文档返回限制。您需要尝试在为LLM提供足够的上下文来执行任务之间取得适当的平衡,但不要超过代币限制或对延迟产生负面影响。
-
留点缓冲区。不要为典型案例做预算,要考虑和尝试边缘案例,例如长输入查询、大型文档摘录或长时间的对话。