Vozes neurais disponíveis Compatibilidade de recursos e regiões

Vozes neurais

O Amazon Polly tem um mecanismo de conversão de texto em fala neural (NTTS) capaz de produzir vozes ainda melhores do que as vozes padrão. As vozes do TTS padrão usam síntese concatenativa. O mecanismo padrão concatena os fonemas da fala gravada, produzindo uma fala sintetizada muito natural. No entanto, as variações inevitáveis na fala e as técnicas usadas para segmentar as formas de onda limitam a qualidade da fala. O mecanismo de NTTS do Amazon Polly não usa a síntese concatenativa padrão para produzir fala. Ele tem duas partes:

Uma rede neural, que converte uma sequência de fonemas (as unidades mais básicas da linguagem) em uma sequência de espectrogramas. Os espectogramas são snapshots dos níveis de energia em diferentes bandas de frequência.
Um vocoder, que converte espectrogramas em um sinal de áudio contínuo.

O primeiro componente do sistema TTS neural é um modelo de sequência a sequência. Esse modelo não cria seus resultados exclusivamente a partir da entrada correspondente, mas também considera como a sequência dos elementos da entrada funcionam em conjunto. O modelo escolhe os espectrogramas que ele gera para que suas faixas de frequência enfatizem os recursos acústicos que o cérebro humano usa ao processar a fala.

A saída desse modelo passa para um vocoder neural. Isso converte os espectrogramas em formas de onda de fala. Quando o treinamento é feito nos grandes conjuntos de dados usados para criar sistemas de síntese concatenativa de uso geral, essa abordagem de sequência a sequência produz vozes de melhor qualidade e mais naturais.

Vozes neurais disponíveis

As vozes neurais estão disponíveis em 36 idiomas e variantes linguísticas. A tabela a seguir lista a vozes.

	Idiomas e variantes linguísticas	Código do idioma	Name/ID	Gender
1	Árabe (Golfo)	ar-AE	Hala Zayd	Feminino Masculino
2	Holandês belga (flamengo)	nl-BE	Lisa	Feminino
3	Catalão	ca-ES	Arlet	Feminino
4	Tcheco	cs-CZ	Jitka	Feminino
5	Chinês (cantonês)	yue-CN	Hiujin	Feminino
6	Chinês (mandarim)	cmn-CN	Zhiyu	Feminino
7	Dinamarquês	da-DK	Sofie	Feminino
8	Holandês	nl-NL	Laura	Feminino
9	Inglês (australiano)	en-AU	Olivia	Feminino
10	Inglês (britânico)	en-GB	Amy* Emma Brian Arthur	Feminino Feminino Masculino Masculino
11	Inglês (indiano)	en-IN	Kajal	Feminino
12	Inglês (irlandês)	en-IE	Niamh	Feminino
13	Inglês (neozelandês)	en-NZ	Aria	Feminino
14	Inglês (singapurense)	en-SG	Jasmine	Feminino
15	Inglês (sul-africano)	en-ZA	Ayanda	Feminino
16	Inglês (EUA)	en-US	Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	Feminino Masculino Feminino (infantil) Feminino Feminino Feminino Feminino Masculino Masculino (criança) Masculino (criança) Masculino Feminino Masculino
17	Finlandês	fi-FI	Suvi	Feminino
18	Francês (belga)	fr-BE	Isabelle	Feminino
19	Francês (canadense)	fr-CA	Gabrielle Liam	Feminino Masculino
20	Francês	fr-FR	Léa Rémi	Feminino Masculino
21	Alemão	de-DE	Vicki Daniel	Feminino Masculino
22	Alemão (austríaco)	de-AT	Hannah	Feminino
23	Alemão (suíço)	de-CH	Sabrina	Feminino
24	Hindi	hi-IN	Kajal	Feminino
25	Italiano	it-IT	Bianca Adriano	Feminino Masculino
26	Japonês	ja-JP	Takumi Kazuha Tomoko	Masculino Feminino Feminino
27	Coreano	ko-KR	Seoyeon Jihye	Feminino Feminino
28	Norueguês	nb-NO	Ida	Feminino
29	Polonês	pl-PL	Ola	Feminino
30	Português (brasileiro)	pt-BR	Camila Vitó ria/Vitoria Thiago	Feminino Feminino Masculino
31	Português (europeu)	pt-PT	Inê s/Ines	Feminino
32	Espanhol (Espanha)	es-ES	Lúcia Sergio	Feminino Masculino
33	Espanhol (mexicano)	es-MX	Mia Andrés	Feminino Masculino
34	Espanhol (EUA)	es-US	Lupe* Pedro	Feminino Masculino
35	Sueco	sv-SE	Elin	Feminino
36	Turco	tr-TR	Burcu	Feminino

*As vozes Amy, Joanna, Lupe e Matthew podem ser usadas com o estilo de fala de locutor. Para obter mais informações, consulte Aplicar a voz de âncora.

Compatibilidade de recursos e regiões

As vozes neurais não estão disponíveis em todas as AWS regiões, nem oferecem suporte a todos os recursos do Amazon Polly.

As vozes neurais têm suporte nas seguintes regiões:

Leste dos EUA (Norte da Virgínia): us-east-1
Oeste dos EUA (Oregon): us-west-2
África (Cidade do Cabo): af-south-1
Ásia-Pacífico (Tóquio): ap-northeast-1
Ásia-Pacífico (Seul): ap-northeast-2
Ásia-Pacífico (Osaka): ap-northeast-3
Ásia-Pacífico (Mumbai): ap-south-1
Ásia-Pacífico (Singapura): ap-southeast-1
Ásia-Pacífico (Sydney): ap-southeast-2
Ásia-Pacífico (Malásia): ap-southeast-5
Ásia-Pacífico (Tailândia): ap-southeast-7
Canadá (Central): ca-central-1
Europa (Frankfurt): eu-central-1
Europa (Irlanda): eu-west-1
Europa (Londres): eu-west-2
Europa (Paris): eu-west-3
Europa (Espanha) eu-south-2
Europa (Zurique): eu-central-2
AWS GovCloud (US-West): us-gov-west-1

Os endpoints e protocolos para essas regiões são idênticos aos usados para vozes padrão. Para obter mais informações, consulte Endpoints e cotas do Amazon Polly.

Os seguintes recursos são compatíveis com vozes neurais:

Real-time e operações assíncronas de síntese de fala.
Estilo de locutor. Para mais informações sobre estilos de fala, consulte Aplicar a voz de âncora.
Todas as marcas de fala.
Muitas (não todas) tags SSML são compatíveis com o Amazon Polly. Para obter mais informações sobre tags NTTS-supported SSML, consulte Tags suportadas.

Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão e neurais são 8 kHz, 16 kHz, 22 kHz ou 24 kHz. O padrão para vozes padrão é 22 kHz. O padrão para vozes neurais é 24 kHz. O Amazon Polly é compatível com os formatos de stream de áudio MP3, ogg_vorbis e PCM bruto.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Long-form motor

Mecanismo padrão