Vozes generativas disponíveis Compatibilidade de recursos e regiões

Vozes generativas

O mecanismo generativo de conversão de texto em fala (TTS) do Amazon Polly oferece as vozes de conversação mais humanas, emocionais e adaptáveis disponíveis para uso por meio do console do Amazon Polly.

O mecanismo generativo é o maior modelo de TTS do Amazon Polly até o momento. Ele implanta um transformador de bilhões de parâmetros que converte texto bruto em códigos de fala, seguido por um decodificador baseado em convolução que converte esses códigos de fala em formas de onda de maneira incremental e transmissível. Esse método mostra as capacidades emergentes amplamente relatadas de grandes modelos de linguagens (LLMs) quando treinados em volumes crescentes de dados proprietários e disponíveis publicamente, abrangendo uma variedade de vozes, idiomas e estilos.

O mecanismo generativo cria uma fala sintética que é emocional, assertiva e altamente coloquial de uma maneira consideravelmente semelhante a uma voz humana. Você pode usar essas vozes como um experiente assistente para os clientes, treinador virtual ou anunciante com um discurso sintético quase humano.

nota

A tecnologia de ponta por trás dessas vozes se enquadra no paradigma da IA generativa para modelagem de linguagem e voz. Um efeito colateral da tecnologia é que qualquer atualização nos dados de treinamento e no modelo pode resultar em pequenas variações na forma como as vozes soam, mesmo no caso de sua qualidade geral melhorar com as atualizações do modelo. Isso pode ter um impacto nos casos de uso em que diferentes partes do conteúdo são sintetizadas por um longo período, por exemplo, uma temporada de podcasts.

Vozes generativas disponíveis

Atualmente, o Amazon Polly oferece 43 vozes em uma variante generativa.

	Idioma	Código do idioma	Name/ID	Gender
1	Inglês (australiano)	en-AU	Olivia	Feminino
2	Inglês (britânico)	en-GB	Amy Brian	Feminino Masculino
3	Inglês (indiano)	en-IN	Kajal	Feminino
4	Inglês (Irlanda)	en-IE	Niamh	Feminino
5	Inglês (neozelandês)	en-NZ	Aria	Feminino
6	Inglês (singapurense)	en-SG	Jasmine	Feminino
7	Inglês (sul-africano)	en-ZA	Ayanda	Feminino
8	Inglês (EUA)	en-US	Danielle Joanna Matthew Ruth Salli Stephen Tiffany	Feminino Feminino Masculino Feminino Feminino Masculino Feminino
9	Holandês (Bélgica)	nl-BE	Lisa	Feminino
10	Holandês (Países Baixos)	nl-NL	Laura	Feminino
11	Francês (belga)	fr-BE	Isabelle	Feminino
12	Francês (canadense)	fr-CA	Gabrielle Liam	Feminino Masculino
13	Francês (França)	fr-FR	Ambre Céline Florian Léa Rémi	Feminino Feminino Masculino Feminino Masculino
14	Alemão (Áustria)	de-AT	Hannah	Feminino
15	Alemão (Alemanha)	de-DE	Daniel Lennart Vicki	Masculino Masculino Feminino
16	Alemão (suíço)	de-CH	Sabrina	Feminino
17	Italiano (Itália)	it-IT	Beatriz Bianca Lorenzo	Feminino Feminino Masculino
18	Coreano (Coréia)	ko-KR	Seoyeon	Feminino
19	Polonês (Polônia)	pl-PL	Ewa Ola	Feminino Feminino
20	Português (brasileiro)	pt-BR	Camila	Feminino
21	Espanhol (mexicano)	es-MX	Andrés Mía	Masculino Feminino
22	Espanhol (Espanha)	es-ES	Lúcia Sergio	Feminino Masculino
23	Espanhol (EUA)	es-US	Lupe Pedro	Feminino Masculino

nota

O custo das vozes generativas é especificado na página de informações sobre preços do Amazon Polly.

Compatibilidade de recursos e regiões

As vozes generativas do Amazon Polly estão disponíveis nas seguintes regiões:

Leste dos EUA (Norte da Virgínia): us-east-1
Europa (Frankfurt): eu-central-1
Oeste dos EUA (Oregon): us-west-2
Ásia-Pacífico (Tóquio): ap-northeast-1
Ásia-Pacífico (Seul): ap-northeast-2
Ásia-Pacífico (Singapura): ap-southeast-1
Europa (Londres): eu-west-2
Canadá (Central): ca-central-1
Europa (Zurique): eu-central-2
Outras regiões não estão disponíveis

Os seguintes recursos são compatíveis com as vozes generativas:

A API de streaming bidirecional agora é oferecida no Generative Engine e permite streaming de entrada e saída ao mesmo tempo. Essa API está disponível nas seguintes AWS regiões: Leste dos EUA (Norte da Virgínia), Europa (Frankfurt), Oeste dos EUA (Oregon), Ásia-Pacífico (Cingapura), Europa (Londres), Canadá (Central) e Europa (Zurique). Visite a documentação para saber mais sobre como usá-lo.
Real-time e operações assíncronas de síntese de fala.
O estilo de fala de âncora não é compatível com o mecanismo Generativo.
Muitas (mas não todas) etiquetas SSML são compatíveis com o Amazon Polly. Para obter mais informações sobre tags NTTS-supported SSML, consulte Tags SSML suportadas
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão e neurais são 8 kHz, 16 kHz, 22 kHz ou 24 kHz. O padrão para vozes padrão é 22 kHz. O padrão para vozes generativas é 24 kHz. O Amazon Polly é compatível com os formatos de stream de áudio MP3, ogg_vorbis e PCM bruto.

Ainda não há suporte à geração de marcas de fala.

nota

Atualmente, as regiões da Europa (Londres), Canadá (Central) e Europa (Zurique) suportam apenas as seguintes vozes generativas: Joanna (en-US), Ruth (en-US), Salli (en-US), Stephen (en-US), Tiffany (en-US), Amy (en-GB), Brian (en-GB), Olivia (en-AU), Florian (fr-FR), Ambre (fr-FR) -fr), Lorenzo (it-IT), Beatrice (it-IT), Jasmine (en-SG), Aria (pt-NZ), Lennart (de-DE), Vicki (de-DE), Sabrina (de-CH), Hannah (de-AT), Niamh (pt-BR), Camila (pt-BR), Lisa (nl-BE) e Seoyeon (Ko-KR)

nota

Para o caso improvável de alucinação do modelo (e considerando o comportamento do modelo do mecanismo generativo de renderizar a fala token por token), há um mecanismo de parada de emergência imposta em vigor. O mecanismo integrado impede que o modelo continue a renderizar a fala. Esse recurso de segurança é baseado na análise de dados em que o modelo tem o potencial de alucinar, geralmente no final da frase.

Pode haver casos em que o modelo pensa que vai alucinar e acaba cortando uma palavra durante uma etapa de geração, renderizando assim metade da palavra. Isso pode gerar resultados inadequados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Mecanismos de voz

Long-form motor