View a markdown version of this page

Long-form voces - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Long-form voces

Amazon Polly tiene un Long-form motor que produce voces parecidas a las humanas, altamente expresivas y emocionalmente expertas. Long-form Las voces están diseñadas para captar la atención de los oyentes con contenido más extenso, como artículos de noticias, materiales de formación o vídeos de marketing.

Las Long-form voces de Amazon Polly se desarrollan con una tecnología TTS de aprendizaje profundo de última generación. El modelo aprende a reproducir los fonemas, la prosodia, la entonación y otros aspectos fonéticos y acústicos del lenguaje humano, lo que da como resultado una salida de voz muy natural.

El Long-form motor utiliza incrustaciones de texto para interpretar el significado de un texto. Al utilizar incrustaciones de texto, el Long-form motor puede generar el énfasis, las pausas y el tono correctos de una voz natural. El resultado es una voz que combina toda la gama de elementos emocionales presentes en la comunicación humana. Esto incluye imitar la sorpresa o diferenciar el diálogo de la narración. En conjunto, esto crea un producto de voz de primera calidad que suena como el de un ser humano vivo.

nota

La tecnología de vanguardia en la que se basan estas voces se inscribe en el paradigma de la IA generativa para el modelado del lenguaje y la voz. Un efecto secundario de la tecnología es que cualquier actualización de los datos de entrenamiento y del modelo podría provocar ligeras variaciones en la forma en que suenan las voces, incluso en el caso de que la calidad general mejore con las actualizaciones del modelo. Esto podría repercutir en los casos de uso en los que distintas partes del contenido se sintetizan durante un período de tiempo prolongado (por ejemplo, una temporada de podcasts).

Voces de formato largo disponibles

Amazon Polly ofrece actualmente cuatro voces de formato largo en inglés estadounidense y dos voces de formato largo en español de España. Ambos idiomas tienen voces femeninas y masculinas disponibles. Las voces de formato largo en inglés (Daniel, Gregory y Ruth) también están disponibles en una variante NTTS conversacional.

Idioma Código de idioma Name/ID Gender

1

English (EE. UU.)

en-US

Danielle

Gregory

Ruth

Patrick

Mujer

Hombre

Mujer

Hombre

2

Español (España)

es-ES

Alba

Raúl

Mujer

Hombre

Compatibilidad con características y regiones

Las voces de formato largo de Amazon Polly están disponibles en las siguientes regiones:

  • Este de EE. UU. (Norte de Virginia): us-east-1

  • Otras regiones no están disponibles

El Long-form motor Amazon Polly admite las siguientes funciones:

  • Real-time y operaciones de síntesis de voz asíncronas.

  • Todas las marcas de voz.

  • La mayoría (pero no todas) de las etiquetas SSML son compatibles con Amazon Polly. Para obtener más información sobre las etiquetas NTTS-supported SSML, consulte Etiquetas SSML compatibles

  • Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las velocidades de muestreo válidas para las voces estándar, de formato largo y neuronales son: 8 kHz, 16 kHz, 22 kHz o 24 kHz. El valor predeterminado para las voces estándar es 22 kHz. El valor predeterminado para las voces neuronales y de formato largo es 24 kHz. Amazon Polly admite los formatos de transmisión de audio MP3, OGG (Vorbis) y PCM sin procesar.

nota

Long-form El costo de las voces se especifica en la página de información de precios de Amazon Polly.