

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SynthesizeSpeech e StartSpeechSynthesisStream comparado
<a name="bidirectional-streaming-choosing"></a>

**[SynthesizeSpeech](https://docs.aws.amazon.com/polly/latest/dg/API_SynthesizeSpeech.html)**é uma operação de solicitação-resposta. Você fornece o texto completo em uma única solicitação e recebe o áudio sintetizado completo em uma única resposta. Ele suporta todos os mecanismos (padrão, neural, de formato longo, generativo), todos os formatos de saída, incluindo marcas de fala, e tem um limite de texto de 6.000 caracteres no total (dos quais não mais do que 3.000 caracteres podem ser cobrados) por solicitação. A resposta retorna o áudio assim que os primeiros bytes estão disponíveis. Use essa operação quando você tiver todo o texto disponível antecipadamente.

**[StartSpeechSynthesisStream](https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisStream.html)**é uma operação de streaming bidirecional. Ele abre uma HTTP/2 conexão pela qual você envia texto de forma incremental e recebe áudio à medida que é sintetizado. Não há limite de texto por solicitação, pois o texto é transmitido continuamente. Ele requer o mecanismo generativo e não suporta marcas de fala. Use essa operação quando o texto chegar incrementalmente e você quiser que a saída de áudio comece antes que todas as entradas estejam disponíveis. Os cenários comuns incluem:
+ **IA conversacional e assistentes de voz**. Um modelo de linguagem grande gera texto de resposta em pequenos pedaços (tokens). Encaminhe cada trecho de texto para o Amazon Polly assim que ele chegar, para que o usuário ouça a fala enquanto o modelo ainda está sendo gerado.
+ **Real-time tradução**. Um sistema de tradução produz texto traduzido segmento por segmento. Transmita cada segmento para síntese sem esperar que a tradução completa seja concluída.
+ **Long-form conteúdo que excede SynthesizeSpeech os limites**. Textos com mais de 6.000 caracteres podem ser transmitidos continuamente sem se dividir em várias solicitações ou gerenciar limites de fragmentos.


**Comparação de SynthesizeSpeech e StartSpeechSynthesisStream**  

| Aspecto | SynthesizeSpeech | StartSpeechSynthesisStream | 
| --- | --- | --- | 
| Protocolo | Request-response | Fluxo de eventos bidirecional () HTTP/2 | 
| Entrega de texto | Texto completo no corpo da solicitação | Streaming de texto de entrada por meio TextEvent de mensagens | 
| Entrega de áudio | Resposta de streaming de áudio via corpo de resposta HTTP | Streaming de resposta de áudio por meio AudioEvent de mensagens | 
| Suporte do motor | padrão, neural, de formato longo, generativo | somente generativo | 
| Suporte SSML | Sim (todos os mecanismos; as [tags suportadas variam de acordo com o mecanismo](https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html)) | Sim ([somente etiquetas de mecanismo generativas](https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html)) | 
| Léxicos | Sim | Sim | 
| Marcas de fala | Sim | Não | 
| Limite de texto | Total de 6.000 caracteres (3.000 cobrados) por solicitação | Total de 6.000 caracteres (3.000 cobrados) por TextEvent | 
| AWS CLI apoio | Sim | Não (o streaming bidirecional requer um SDK) | 