

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 文本用例
<a name="chat-use-case-1"></a>

## 直播支持
<a name="streaming-support"></a>

在聊天应用程序中，延迟是实现响应式用户体验的重要指标。法学硕士推断可能需要几秒钟到几分钟，这给如何最好地向客户提供内容带来了挑战。因此，一些LLM提供商允许将响应流式传输回呼叫者。无需等待整个推理完成后再返回响应，而是在每个令牌可用时返回。

为了支持此功能的使用，文本用例被设计为使用 WebSocket API 来支持聊天体验。 WebSocket 这是通过 API Gateway 部署的。使用 WebSocket API 可以在聊天会话开始时创建连接，并通过该套接字流式传输响应。这使前端应用程序能够提供更好的用户体验。

**注意**  
即使模型提供流媒体支持，这也不一定意味着该解决方案能够通过 WebSocket API 将响应流回来。该解决方案需要启用自定义逻辑，以支持每个模型提供商的流媒体。如果直播可用，管理员用户将能够在部署时使用 enable/disable 此功能。