本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
文字使用案例
串流支援
在聊天應用程式中,延遲是啟用回應式使用者體驗的重要指標。LLM 推論可能需要幾秒鐘到幾分鐘的時間,在如何為客戶提供最佳內容服務方面帶來挑戰。因此,數個 LLM 提供者允許將回應串流回發起人。在傳回回應之前,您可以先傳回每個字符,而不是等待整個推論完成。
為了支援使用此功能,文字使用案例旨在使用 WebSocket API 來支援聊天體驗。此 WebSocket 透過 API Gateway 部署。使用 WebSocket API 可在聊天工作階段開始時建立連線,並透過該通訊端串流回應。這可讓前端應用程式提供更好的使用者體驗。
注意
即使模型提供串流支援,這不一定表示解決方案將能夠透過 WebSocket API 將回應串流回去。解決方案需要啟用自訂邏輯,以支援每個模型提供者的串流。如果串流可用,管理員使用者可以在部署時間啟用/停用此功能。