文本用例

直播支持

在聊天应用程序中，延迟是实现响应式用户体验的重要指标。法学硕士推断可能需要几秒钟到几分钟，这给如何最好地向客户提供内容带来了挑战。因此，一些LLM提供商允许将响应流式传输回呼叫者。无需等待整个推理完成后再返回响应，而是在每个令牌可用时返回。

为了支持此功能的使用，文本用例被设计为使用 WebSocket API 来支持聊天体验。 WebSocket 这是通过 API Gateway 部署的。使用 WebSocket API 可以在聊天会话开始时创建连接，并通过该套接字流式传输响应。这使前端应用程序能够提供更好的用户体验。

即使模型提供流媒体支持，这也不一定意味着该解决方案能够通过 WebSocket API 将响应流回来。该解决方案需要启用自定义逻辑，以支持每个模型提供商的流媒体。如果直播可用，管理员用户将能够在部署时使用 enable/disable 此功能。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

部署控制面板

AWS 上的生成式 AI 应用程序生成器解决方案的工作原理