As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SynthesizeSpeech e StartSpeechSynthesisStream comparado
SynthesizeSpeeché uma operação de solicitação-resposta. Você fornece o texto completo em uma única solicitação e recebe o áudio sintetizado completo em uma única resposta. Ele suporta todos os mecanismos (padrão, neural, de formato longo, generativo), todos os formatos de saída, incluindo marcas de fala, e tem um limite de texto de 6.000 caracteres no total (dos quais não mais do que 3.000 caracteres podem ser cobrados) por solicitação. A resposta retorna o áudio assim que os primeiros bytes estão disponíveis. Use essa operação quando você tiver todo o texto disponível antecipadamente.
StartSpeechSynthesisStreamé uma operação de streaming bidirecional. Ele abre uma HTTP/2 conexão pela qual você envia texto de forma incremental e recebe áudio à medida que é sintetizado. Não há limite de texto por solicitação, pois o texto é transmitido continuamente. Ele requer o mecanismo generativo e não suporta marcas de fala. Use essa operação quando o texto chegar incrementalmente e você quiser que a saída de áudio comece antes que todas as entradas estejam disponíveis. Os cenários comuns incluem:
-
IA conversacional e assistentes de voz. Um modelo de linguagem grande gera texto de resposta em pequenos pedaços (tokens). Encaminhe cada trecho de texto para o Amazon Polly assim que ele chegar, para que o usuário ouça a fala enquanto o modelo ainda está sendo gerado.
-
Real-time tradução. Um sistema de tradução produz texto traduzido segmento por segmento. Transmita cada segmento para síntese sem esperar que a tradução completa seja concluída.
-
Long-form conteúdo que excede SynthesizeSpeech os limites. Textos com mais de 6.000 caracteres podem ser transmitidos continuamente sem se dividir em várias solicitações ou gerenciar limites de fragmentos.
| Aspecto | SynthesizeSpeech | StartSpeechSynthesisStream |
|---|---|---|
Protocolo |
Request-response |
Fluxo de eventos bidirecional () HTTP/2 |
Entrega de texto |
Texto completo no corpo da solicitação |
Streaming de texto de entrada por meio TextEvent de mensagens |
Entrega de áudio |
Resposta de streaming de áudio via corpo de resposta HTTP |
Streaming de resposta de áudio por meio AudioEvent de mensagens |
Suporte do motor |
padrão, neural, de formato longo, generativo |
somente generativo |
Suporte SSML |
Sim (todos os mecanismos; as tags suportadas variam de acordo com o mecanismo) |
|
Léxicos |
Sim |
Sim |
Marcas de fala |
Sim |
Não |
Limite de texto |
Total de 6.000 caracteres (3.000 cobrados) por solicitação |
Total de 6.000 caracteres (3.000 cobrados) por TextEvent |
AWS CLI apoio |
Sim |
Não (o streaming bidirecional requer um SDK) |