Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Caso de uso de texto
Soporte de streaming
En una aplicación de chat, la latencia es una métrica importante para permitir una experiencia de usuario responsiva. La posibilidad de que las inferencias de LLM tarden de segundos a minutos plantea dificultades a la hora de ofrecer mejor el contenido a los clientes. Por este motivo, varios proveedores de LLM permiten transmitir las respuestas a la persona que llama. En lugar de esperar a que se complete toda la inferencia antes de devolver una respuesta, se puede devolver cada token cuando esté disponible.
Para respaldar el uso de esta función, el caso de uso de Text se ha diseñado para utilizar una WebSocket API que respalde la experiencia de chat. Esto WebSocket se implementa a través de API Gateway. El uso de una WebSocket API permite crear una conexión al principio de una sesión de chat y transmitir las respuestas a través de ese conector. Esto permite que las aplicaciones frontend proporcionen una mejor experiencia de usuario.
nota
Incluso si un modelo ofrece soporte de streaming, esto no significa necesariamente que la solución pueda transmitir las respuestas a través de la WebSocket API. Es necesario que la solución habilite una lógica personalizada para admitir la transmisión para cada proveedor de modelos. Si la transmisión está disponible, los usuarios administradores podrán utilizar enable/disable esta función en el momento de la implementación.