SynthesizeSpeech e StartSpeechSynthesisStream comparado

SynthesizeSpeeché uma operação de solicitação-resposta. Você fornece o texto completo em uma única solicitação e recebe o áudio sintetizado completo em uma única resposta. Ele suporta todos os mecanismos (padrão, neural, de formato longo, generativo), todos os formatos de saída, incluindo marcas de fala, e tem um limite de texto de 6.000 caracteres no total (dos quais não mais do que 3.000 caracteres podem ser cobrados) por solicitação. A resposta retorna o áudio assim que os primeiros bytes estão disponíveis. Use essa operação quando você tiver todo o texto disponível antecipadamente.

StartSpeechSynthesisStreamé uma operação de streaming bidirecional. Ele abre uma HTTP/2 conexão pela qual você envia texto de forma incremental e recebe áudio à medida que é sintetizado. Não há limite de texto por solicitação, pois o texto é transmitido continuamente. Ele requer o mecanismo generativo e não suporta marcas de fala. Use essa operação quando o texto chegar incrementalmente e você quiser que a saída de áudio comece antes que todas as entradas estejam disponíveis. Os cenários comuns incluem:

IA conversacional e assistentes de voz. Um modelo de linguagem grande gera texto de resposta em pequenos pedaços (tokens). Encaminhe cada trecho de texto para o Amazon Polly assim que ele chegar, para que o usuário ouça a fala enquanto o modelo ainda está sendo gerado.
Real-time tradução. Um sistema de tradução produz texto traduzido segmento por segmento. Transmita cada segmento para síntese sem esperar que a tradução completa seja concluída.
Long-form conteúdo que excede SynthesizeSpeech os limites. Textos com mais de 6.000 caracteres podem ser transmitidos continuamente sem se dividir em várias solicitações ou gerenciar limites de fragmentos.

Comparação de SynthesizeSpeech e StartSpeechSynthesisStream
Aspecto	SynthesizeSpeech	StartSpeechSynthesisStream
Protocolo	Request-response	Fluxo de eventos bidirecional () HTTP/2
Entrega de texto	Texto completo no corpo da solicitação	Streaming de texto de entrada por meio TextEvent de mensagens
Entrega de áudio	Resposta de streaming de áudio via corpo de resposta HTTP	Streaming de resposta de áudio por meio AudioEvent de mensagens
Suporte do motor	padrão, neural, de formato longo, generativo	somente generativo
Suporte SSML	Sim (todos os mecanismos; as tags suportadas variam de acordo com o mecanismo)	Sim (somente etiquetas de mecanismo generativas)
Léxicos	Sim	Sim
Marcas de fala	Sim	Não
Limite de texto	Total de 6.000 caracteres (3.000 cobrados) por solicitação	Total de 6.000 caracteres (3.000 cobrados) por TextEvent
AWS CLI apoio	Sim	Não (o streaming bidirecional requer um SDK)

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Streaming bidirecional

Enviando texto e recebendo áudio