Sintetizar voz con transmisión bidireccional

Amazon Polly proporciona una StartSpeechSynthesisStream operación que establece una HTTP/2 conexión con comunicación bidireccional entre la aplicación y el servicio. El texto fluye desde la aplicación a Amazon Polly mientras que el audio sintetizado fluye hacia atrás. Envía el texto a medida que está disponible y Amazon Polly devuelve el audio a medida que lo sintetiza, sin que ninguna de las partes espere a que la otra termine.

Esto resulta útil cuando el texto se produce de forma progresiva y no de una sola vez. Por ejemplo, un chatbot de servicio al cliente basado en un modelo básico en Amazon Bedrock genera su respuesta token por token. Con la transmisión bidireccional, la aplicación puede reenviar cada fragmento de texto a Amazon Polly a medida que el modelo lo produce y empezar a reproducir el audio para la persona que llama mientras el modelo sigue generando el resto de la respuesta.

Esta operación requiere el motor generativo y un AWS SDK que admita las transmisiones de eventos. HTTP/2 El audio llega como una secuencia de fragmentos que la aplicación acumula en una salida de audio completa. Esta operación no admite marcas de voz.

nota

No se admiten las versiones AWS CLI (v1 y v2), AWS Herramientas para PowerShell (v4 y v5), Python y.NET v3. Puedes usar la API de streaming bidireccional con los siguientes AWS SDK: SDK para Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust y Swift.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejemplo de síntesis de voz

SynthesizeSpeech y StartSpeechSynthesisStream comparado