As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Caso de uso de texto
Suporte de streaming
Em um aplicativo de bate-papo, a latência é uma métrica importante para permitir uma experiência de usuário responsiva. A possibilidade de as inferências do LLM levarem de segundos a minutos oferece desafios sobre a melhor forma de oferecer conteúdo aos clientes. Por esse motivo, vários provedores de LLM permitem transmitir respostas de volta para o chamador. Em vez de esperar que toda a inferência seja concluída antes de retornar uma resposta, cada token pode ser retornado quando estiver disponível.
Para apoiar o uso desse recurso, o caso de uso do Text foi projetado para usar uma WebSocket API para apoiar a experiência de bate-papo. Isso WebSocket é implantado por meio do API Gateway. O uso de uma WebSocket API permite que uma conexão seja criada no início de uma sessão de bate-papo e que as respostas sejam transmitidas por esse soquete. Isso permite que os aplicativos de front-end forneçam uma melhor experiência ao usuário.
nota
Mesmo que um modelo forneça suporte de streaming, isso não significa necessariamente que a solução será capaz de transmitir respostas de volta por meio da WebSocket API. É necessário que a solução habilite a lógica personalizada para oferecer suporte ao streaming para cada provedor de modelo. Se o streaming estiver disponível, os usuários administradores poderão usar enable/disable esse recurso no momento da implantação.