Caso de uso de texto

Suporte de streaming

Em um aplicativo de bate-papo, a latência é uma métrica importante para permitir uma experiência de usuário responsiva. A possibilidade de as inferências do LLM levarem de segundos a minutos oferece desafios sobre a melhor forma de oferecer conteúdo aos clientes. Por esse motivo, vários provedores de LLM permitem transmitir respostas de volta para o chamador. Em vez de esperar que toda a inferência seja concluída antes de retornar uma resposta, cada token pode ser retornado quando estiver disponível.

Para apoiar o uso desse recurso, o caso de uso do Text foi projetado para usar uma WebSocket API para apoiar a experiência de bate-papo. Isso WebSocket é implantado por meio do API Gateway. O uso de uma WebSocket API permite que uma conexão seja criada no início de uma sessão de bate-papo e que as respostas sejam transmitidas por esse soquete. Isso permite que os aplicativos de front-end forneçam uma melhor experiência ao usuário.

nota

Mesmo que um modelo forneça suporte de streaming, isso não significa necessariamente que a solução será capaz de transmitir respostas de volta por meio da WebSocket API. É necessário que a solução habilite a lógica personalizada para oferecer suporte ao streaming para cada provedor de modelo. Se o streaming estiver disponível, os usuários administradores poderão usar enable/disable esse recurso no momento da implantação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Painel de implantação

Como funciona a solução Generative AI Application Builder na AWS