

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 文字使用案例
<a name="chat-use-case-1"></a>

## 串流支援
<a name="streaming-support"></a>

在聊天應用程式中，延遲是啟用回應式使用者體驗的重要指標。LLM 推論可能需要幾秒鐘到幾分鐘的時間，在如何為客戶提供最佳內容服務方面帶來挑戰。因此，數個 LLM 提供者允許將回應串流回發起人。在傳回回應之前，您可以先傳回每個字符，而不是等待整個推論完成。

為了支援使用此功能，文字使用案例旨在使用 WebSocket API 來支援聊天體驗。此 WebSocket 透過 API Gateway 部署。使用 WebSocket API 可在聊天工作階段開始時建立連線，並透過該通訊端串流回應。這可讓前端應用程式提供更好的使用者體驗。

**注意**  
即使模型提供串流支援，這不一定表示解決方案將能夠透過 WebSocket API 將回應串流回去。解決方案需要啟用自訂邏輯，以支援每個模型提供者的串流。如果串流可用，管理員使用者可以在部署時間啟用/停用此功能。