Caso de uso de texto

Soporte de streaming

En una aplicación de chat, la latencia es una métrica importante para permitir una experiencia de usuario responsiva. La posibilidad de que las inferencias de LLM tarden de segundos a minutos plantea dificultades a la hora de ofrecer mejor el contenido a los clientes. Por este motivo, varios proveedores de LLM permiten transmitir las respuestas a la persona que llama. En lugar de esperar a que se complete toda la inferencia antes de devolver una respuesta, se puede devolver cada token cuando esté disponible.

Para respaldar el uso de esta función, el caso de uso de Text se ha diseñado para utilizar una WebSocket API que respalde la experiencia de chat. Esto WebSocket se implementa a través de API Gateway. El uso de una WebSocket API permite crear una conexión al principio de una sesión de chat y transmitir las respuestas a través de ese conector. Esto permite que las aplicaciones frontend proporcionen una mejor experiencia de usuario.

nota

Incluso si un modelo ofrece soporte de streaming, esto no significa necesariamente que la solución pueda transmitir las respuestas a través de la WebSocket API. Es necesario que la solución habilite una lógica personalizada para admitir la transmisión para cada proveedor de modelos. Si la transmisión está disponible, los usuarios administradores podrán utilizar enable/disable esta función en el momento de la implementación.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Panel de implementación

Cómo funciona la solución Generative AI Application Builder en AWS