Voces neuronales
Amazon Polly tiene un sistema de conversión de texto a voz neuronal (NTTS) que puede producir voces de mayor calidad que las voces estándar. Las voces TTS estándar utilizan síntesis concatenativa. Este método concatena los fonemas de los fragmentos grabados, lo que produce un habla sintetizada con un sonido muy natural. Sin embargo, las variaciones inevitables del habla y las técnicas utilizadas para segmentar las formas de onda limitan la calidad del habla. El sistema NTTS de Amazon Polly no utiliza la síntesis de concatenación estándar para producir voz. Este sistema tiene dos componentes:
-
Una red neuronal, que convierte una secuencia de fonemas (las unidades más básicas del lenguaje) en una secuencia de espectrogramas. (Los espectogramas son instantáneas de los niveles de energía en diferentes bandas de frecuencia).
-
Un codificador de voz, que convierte los espectrogramas en una señal de audio casi continua.
El primer componente del sistema TTS neuronal es un modelo de secuencia a secuencia. Este modelo no crea sus resultados únicamente a partir de la entrada correspondiente, sino que también considera el funcionamiento conjunto de la secuencia de los elementos de entrada. El modelo elige los espectrogramas que genera, de modo que sus bandas de frecuencia enfaticen las características acústicas que el cerebro humano utiliza al procesar el habla.
A continuación, la salida de este modelo se transfiere a un vocoder neuronal. Este convierte los espectrogramas en formas de onda de voz. Cuando se entrena el sistema con grandes conjuntos de datos utilizados para crear sistemas de síntesis de concatenación de uso general, este enfoque de secuencia a secuencia producirá voces de mayor calidad y con un sonido más natural.
Voces neuronales disponibles
Las voces neuronales están disponibles en 36 idiomas y variantes lingüísticas. En la siguiente tabla se enumeran las voces.
|
Idioma y variantes lingüísticas | Código de idioma | Nombre/ID | Sexo |
|---|---|---|---|---|
|
1 |
Árabe (Golfo) |
ar-AE |
Hala Zayd |
Mujer Hombre |
|
2 |
Neerlandés belga (flamenco) |
nl-BE |
Lisa |
Mujer |
|
3 |
Catalán |
ca-ES |
Arlet |
Mujer |
|
4 |
Checo |
cs-CZ |
Jitka |
Mujer |
|
5 |
Chino (cantonés) |
yue-CN |
Hiujin |
Mujer |
|
6 |
Chino (mandarín) |
cmn-CN |
Zhiyu |
Mujer |
|
7 |
Danés |
da-DK |
Sofie |
Mujer |
|
8 |
Neerlandés |
nl-NL |
Laura |
Mujer |
|
9 |
Inglés (Australia) |
en-AU |
Olivia |
Mujer |
|
10 |
Inglés (Reino Unido) |
en-GB |
Amy* Emma Brian Arthur |
Mujer Mujer Hombre Hombre |
|
11 |
Inglés (India) |
en-IN |
Kajal |
Mujer |
|
12 |
Inglés (irlandés) |
en-IE |
Niamh |
Mujer |
|
13 |
Inglés (Nueva Zelanda) |
en-NZ |
Aria |
Mujer |
|
14 |
Inglés (Singapur) |
en-SG |
Jasmine |
Mujer |
|
15 |
Inglés (sudafricano) |
en-ZA |
Ayanda |
Mujer |
|
16 |
English (EE. UU) |
en-US |
Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
Mujer Hombre Mujer (niña) Mujer Mujer Mujer Mujer Hombre Hombre (niño) Hombre (niño) Hombre Mujer Hombre |
|
17 |
Finés |
fi-FI |
Suvi |
Mujer |
|
18 |
Francés (belga) |
fr-BE |
Isabelle |
Mujer |
|
19 |
Francés (Canadá) |
fr-CA |
Gabrielle Liam |
Mujer Hombre |
|
20 |
francés |
fr-FR |
Léa Rémi |
Mujer Hombre |
|
21 |
Alemán |
de-DE |
Vicki Daniel |
Mujer Hombre |
|
22 |
Alemán (austriaco) |
de-AT |
Hannah |
Mujer |
|
23 |
Alemán (suizo) |
de-CH |
Sabrina |
Mujer |
|
24 |
Hindi |
hi-IN |
Kajal |
Mujer |
|
25 |
italiano |
it-IT |
Bianca Adriano |
Mujer Hombre |
|
26 |
Japonés |
ja-JP |
Takumi Kazuha Tomoko |
Hombre Mujer Mujer |
|
27 |
Coreano |
ko-KR |
Seoyeon Jihye |
Mujer Mujer |
|
28 |
Noruego |
nb-NO |
Ida |
Mujer |
|
29 |
Polaco |
pl-PL |
Ola |
Mujer |
|
30 |
Portugués (Brasil) |
pt-BR |
Camila Vitória/Vitoria Thiago |
Mujer Mujer Hombre |
|
31 |
Portugués (Europa) |
pt-PT |
Inês/Ines |
Mujer |
|
32 |
Español (España) |
es-ES |
Lucía Sergio |
Mujer Hombre |
|
33 |
Español (México) |
es-MX |
Mia Andrés |
Mujer Hombre |
|
34 |
Español (EE. UU) |
es-US |
Lupe* Pedro |
Mujer Hombre |
|
35 |
Sueco |
sv-SE |
Elin |
Mujer |
|
36 |
Turco |
tr-TR |
Burcu |
Mujer |
*Las voces de Matthew y Joanna se pueden usar con los estilos de habla Newscaster y Conversacional. Para obtener más información, consulte Aplicación de la voz de presentador.
Compatibilidad con características y regiones
Las voces neuronales no están disponibles en todas las regiones de AWS ni admiten todas las características de Amazon Polly.
Las voces neuronales se admiten en las siguientes regiones:
-
Este de EE. UU. (Norte de Virginia): us-east-1
-
EE.UU. Oeste (Oregón): us-west-2
-
África (Ciudad del Cabo) (af-south-1)
-
Asia-Pacífico (Tokio) ap-northeast-1
-
Asia-Pacífico (Seúl) ap-northeast-2
-
Asia-Pacífico (Osaka): ap-northeast-3
-
Asia-Pacífico (Bombay) ap-south-1
-
Asia-Pacífico (Singapur) ap-southeast-1
-
Asia Pacífico (Sídney): ap-southeast-2
-
Asia-Pacífico (Malasia): ap-southeast-5
-
Canadá (centro) ca-central-1
-
Europa (Fráncfort) eu-central-1
-
Europa (Irlanda) (eu-west-1)
-
Europa (Londres) eu-west-2
-
Europa (París): eu-west-3
-
Europa (España): eu-south-2
-
AWS GovCloud (Oeste de EE. UU): us-gov-west-1
Los puntos de conexión y protocolos de estas regiones son idénticos a los que se utilizan para las voces estándar. Para obtener más información, consulte Cuotas y puntos de conexión de Amazon Polly.
Se admiten las siguientes características con las voces neuronales:
-
Operaciones de síntesis de voz asíncronas y en tiempo real.
-
Estilo de habla Newscaster. Para obtener más información sobre los estilos de habla, consulte Aplicación de la voz de presentador.
-
Todas las marcas de voz.
-
La mayoría de las etiquetas SSML son compatibles con Amazon Polly, pero no todas. Para obtener más información acerca de las etiquetas SSML compatibles con NTTS, consulte Etiquetas admitidas.
Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las velocidades de muestreo válidas para las voces estándar y neuronales son 8 kHz, 16 kHz, 22 kHz o 24 kHz. El valor predeterminado para las voces estándar es 22 kHz. El valor predeterminado para las voces estándar es 24 kHz. Amazon Polly admite los formatos de transmisión de audio MP3, OGG (Vorbis) y PCM sin procesar.