本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
文本用例
直播支持
在聊天应用程序中,延迟是实现响应式用户体验的重要指标。法学硕士推断可能需要几秒钟到几分钟,这给如何最好地向客户提供内容带来了挑战。因此,一些LLM提供商允许将响应流式传输回呼叫者。无需等待整个推理完成后再返回响应,而是在每个令牌可用时返回。
为了支持此功能的使用,文本用例被设计为使用 WebSocket API 来支持聊天体验。 WebSocket 这是通过 API Gateway 部署的。使用 WebSocket API 可以在聊天会话开始时创建连接,并通过该套接字流式传输响应。这使前端应用程序能够提供更好的用户体验。
注意
即使模型提供流媒体支持,这也不一定意味着该解决方案能够通过 WebSocket API 将响应流回来。该解决方案需要启用自定义逻辑,以支持每个模型提供商的流媒体。如果直播可用,管理员用户将能够在部署时使用 enable/disable 此功能。