View a markdown version of this page

SynthesizeSpeech e StartSpeechSynthesisStream comparado - Amazon Polly

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SynthesizeSpeech e StartSpeechSynthesisStream comparado

SynthesizeSpeeché uma operação de solicitação-resposta. Você fornece o texto completo em uma única solicitação e recebe o áudio sintetizado completo em uma única resposta. Ele suporta todos os mecanismos (padrão, neural, de formato longo, generativo), todos os formatos de saída, incluindo marcas de fala, e tem um limite de texto de 6.000 caracteres no total (dos quais não mais do que 3.000 caracteres podem ser cobrados) por solicitação. A resposta retorna o áudio assim que os primeiros bytes estão disponíveis. Use essa operação quando você tiver todo o texto disponível antecipadamente.

StartSpeechSynthesisStreamé uma operação de streaming bidirecional. Ele abre uma HTTP/2 conexão pela qual você envia texto de forma incremental e recebe áudio à medida que é sintetizado. Não há limite de texto por solicitação, pois o texto é transmitido continuamente. Ele requer o mecanismo generativo e não suporta marcas de fala. Use essa operação quando o texto chegar incrementalmente e você quiser que a saída de áudio comece antes que todas as entradas estejam disponíveis. Os cenários comuns incluem:

  • IA conversacional e assistentes de voz. Um modelo de linguagem grande gera texto de resposta em pequenos pedaços (tokens). Encaminhe cada trecho de texto para o Amazon Polly assim que ele chegar, para que o usuário ouça a fala enquanto o modelo ainda está sendo gerado.

  • Real-time tradução. Um sistema de tradução produz texto traduzido segmento por segmento. Transmita cada segmento para síntese sem esperar que a tradução completa seja concluída.

  • Long-form conteúdo que excede SynthesizeSpeech os limites. Textos com mais de 6.000 caracteres podem ser transmitidos continuamente sem se dividir em várias solicitações ou gerenciar limites de fragmentos.

Comparação de SynthesizeSpeech e StartSpeechSynthesisStream
Aspecto SynthesizeSpeech StartSpeechSynthesisStream

Protocolo

Request-response

Fluxo de eventos bidirecional () HTTP/2

Entrega de texto

Texto completo no corpo da solicitação

Streaming de texto de entrada por meio TextEvent de mensagens

Entrega de áudio

Resposta de streaming de áudio via corpo de resposta HTTP

Streaming de resposta de áudio por meio AudioEvent de mensagens

Suporte do motor

padrão, neural, de formato longo, generativo

somente generativo

Suporte SSML

Sim (todos os mecanismos; as tags suportadas variam de acordo com o mecanismo)

Sim (somente etiquetas de mecanismo generativas)

Léxicos

Sim

Sim

Marcas de fala

Sim

Não

Limite de texto

Total de 6.000 caracteres (3.000 cobrados) por solicitação

Total de 6.000 caracteres (3.000 cobrados) por TextEvent

AWS CLI apoio

Sim

Não (o streaming bidirecional requer um SDK)