Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caso di utilizzo del testo
Supporto per lo streaming
In un'applicazione di chat, la latenza è una metrica importante per consentire un'esperienza utente reattiva. La possibilità che le inferenze LLM richiedano da secondi a minuti pone sfide su come offrire al meglio i contenuti ai clienti. Per questo motivo, diversi provider LLM consentono lo streaming delle risposte al chiamante. Invece di attendere il completamento dell'intera inferenza prima di restituire una risposta, ogni token può essere restituito quando è disponibile.
Per supportare l'uso di questa funzionalità, il caso d'uso Text è stato progettato per utilizzare un' WebSocket API a supporto dell'esperienza di chat. Questo WebSocket viene distribuito tramite API Gateway. L'uso di un' WebSocket API consente di creare una connessione all'inizio di una sessione di chat e di trasmettere le risposte attraverso quel socket. Ciò consente alle applicazioni frontend di fornire un'esperienza utente migliore.
Nota
Anche se un modello fornisce supporto per lo streaming, ciò non significa necessariamente che la soluzione sarà in grado di trasmettere le risposte tramite l' WebSocket API. È necessario che la soluzione abiliti la logica personalizzata per supportare lo streaming per ogni fornitore di modelli. Se lo streaming è disponibile, gli utenti amministratori potranno utilizzare enable/disable questa funzionalità al momento dell'implementazione.