View a markdown version of this page

SynthesizeSpeech y comparó StartSpeechSynthesisStream - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SynthesizeSpeech y comparó StartSpeechSynthesisStream

SynthesizeSpeeches una operación de solicitud-respuesta. Usted proporciona el texto completo en una sola solicitud y recibe el audio sintetizado completo en una sola respuesta. Es compatible con todos los motores (estándar, neural, de formato largo y generativo) y con todos los formatos de salida, incluidos los signos de voz, y tiene un límite de texto de 6.000 caracteres en total (de los que no se pueden facturar más de 3.000 caracteres) por solicitud. La respuesta transmite el audio en cuanto están disponibles los primeros bytes. Utilice esta operación cuando tenga todo el texto disponible por adelantado.

StartSpeechSynthesisStreames una operación de transmisión bidireccional. Abre una HTTP/2 conexión a través de la cual se envía texto de forma incremental y se recibe el audio a medida que se sintetiza. No hay límite de texto por solicitud, ya que el texto se transmite de forma continua. Requiere el motor generativo y no admite marcas de voz. Utilice esta operación cuando el texto llegue de forma incremental y desee que la salida de audio comience antes de que todas las entradas estén disponibles. Los escenarios más comunes incluyen:

  • Asistentes de voz e IA conversacionales. Un modelo de lenguaje grande genera el texto de respuesta en pequeños fragmentos (fichas). Reenvía cada fragmento de texto a Amazon Polly a medida que llegue para que el usuario escuche la voz mientras el modelo sigue generando.

  • Real-time traducción. Un sistema de traducción produce el texto traducido segmento por segmento. Transmita cada segmento para su síntesis sin esperar a que se complete la traducción completa.

  • Long-form contenido que supera SynthesizeSpeech los límites. El texto de más de 6000 caracteres se puede transmitir de forma continua sin dividirlo en varias solicitudes ni gestionar los límites de los fragmentos.

Comparación de y SynthesizeSpeech StartSpeechSynthesisStream
Aspecto SynthesizeSpeech StartSpeechSynthesisStream

Protocolo

Request-response

Flujo de eventos bidireccional () HTTP/2

Entrega de texto

Texto completo en el cuerpo de la solicitud

Transmisión del texto introducido a través de TextEvent mensajes

Entrega de audio

Transmisión de la respuesta de audio a través del cuerpo de respuesta HTTP

Transmisión de la respuesta de audio a través de AudioEvent mensajes

Soporte de motor

estándar, neuronal, de formato largo, generativo

solo generativo

soporte SSML

Sí (todos los motores; las etiquetas compatibles varían según el motor)

Sí (solo etiquetas de motor generativas)

Léxicos

Marcas de voz

No

Límite de texto

6.000 caracteres en total (3.000 facturados) por solicitud

6.000 caracteres en total (3.000 facturados) por TextEvent

AWS CLI soporte

No (la transmisión bidireccional requiere un SDK)