SynthesizeSpeech y comparó StartSpeechSynthesisStream

SynthesizeSpeeches una operación de solicitud-respuesta. Usted proporciona el texto completo en una sola solicitud y recibe el audio sintetizado completo en una sola respuesta. Es compatible con todos los motores (estándar, neural, de formato largo y generativo) y con todos los formatos de salida, incluidos los signos de voz, y tiene un límite de texto de 6.000 caracteres en total (de los que no se pueden facturar más de 3.000 caracteres) por solicitud. La respuesta transmite el audio en cuanto están disponibles los primeros bytes. Utilice esta operación cuando tenga todo el texto disponible por adelantado.

StartSpeechSynthesisStreames una operación de transmisión bidireccional. Abre una HTTP/2 conexión a través de la cual se envía texto de forma incremental y se recibe el audio a medida que se sintetiza. No hay límite de texto por solicitud, ya que el texto se transmite de forma continua. Requiere el motor generativo y no admite marcas de voz. Utilice esta operación cuando el texto llegue de forma incremental y desee que la salida de audio comience antes de que todas las entradas estén disponibles. Los escenarios más comunes incluyen:

Asistentes de voz e IA conversacionales. Un modelo de lenguaje grande genera el texto de respuesta en pequeños fragmentos (fichas). Reenvía cada fragmento de texto a Amazon Polly a medida que llegue para que el usuario escuche la voz mientras el modelo sigue generando.
Real-time traducción. Un sistema de traducción produce el texto traducido segmento por segmento. Transmita cada segmento para su síntesis sin esperar a que se complete la traducción completa.
Long-form contenido que supera SynthesizeSpeech los límites. El texto de más de 6000 caracteres se puede transmitir de forma continua sin dividirlo en varias solicitudes ni gestionar los límites de los fragmentos.

Comparación de y SynthesizeSpeech StartSpeechSynthesisStream
Aspecto	SynthesizeSpeech	StartSpeechSynthesisStream
Protocolo	Request-response	Flujo de eventos bidireccional () HTTP/2
Entrega de texto	Texto completo en el cuerpo de la solicitud	Transmisión del texto introducido a través de TextEvent mensajes
Entrega de audio	Transmisión de la respuesta de audio a través del cuerpo de respuesta HTTP	Transmisión de la respuesta de audio a través de AudioEvent mensajes
Soporte de motor	estándar, neuronal, de formato largo, generativo	solo generativo
soporte SSML	Sí (todos los motores; las etiquetas compatibles varían según el motor)	Sí (solo etiquetas de motor generativas)
Léxicos	Sí	Sí
Marcas de voz	Sí	No
Límite de texto	6.000 caracteres en total (3.000 facturados) por solicitud	6.000 caracteres en total (3.000 facturados) por TextEvent
AWS CLI soporte	Sí	No (la transmisión bidireccional requiere un SDK)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Transmisión bidireccional

Enviar texto y recibir audio