Vozes de forma longa disponíveis Compatibilidade de recursos e regiões

Long-form vozes

O Amazon Polly tem um Long-form motor que produz vozes humanas, altamente expressivas e emocionalmente adequadas. Long-form as vozes são projetadas para cativar a atenção dos ouvintes para conteúdos mais longos, como artigos de notícias, materiais de treinamento ou vídeos de marketing.

As Long-form vozes do Amazon Polly são desenvolvidas com uma tecnologia TTS de aprendizado profundo de ponta. O modelo aprende a replicar fonemas, prosódia, entonação e outros aspectos fonéticos e acústicos da linguagem humana, resultando em uma saída de fala altamente natural.

O Long-form mecanismo usa incorporações de texto para interpretar o significado de um texto. Usando incorporações de texto, o Long-form mecanismo pode gerar a ênfase, as pausas e o tom corretos de uma voz natural. O resultado é uma voz que combina toda a gama de elementos emocionais presentes na comunicação humana. Isso inclui a imitação da surpresa ou a diferenciação entre diálogo e narração. Juntos, isso cria um produto de fala premium que soa como um ser humano vivo.

nota

A tecnologia de ponta por trás dessas vozes se enquadra no paradigma da IA generativa para modelagem de linguagem e voz. Um efeito colateral da tecnologia é que qualquer atualização nos dados de treinamento e no modelo pode resultar em pequenas variações na forma como as vozes soam, mesmo no caso de sua qualidade geral melhorar com as atualizações do modelo. Isso pode ter um impacto nos casos de uso em que diferentes partes do conteúdo são sintetizadas por um longo período, por exemplo, uma temporada de podcasts.

Vozes de forma longa disponíveis

Atualmente, o Amazon Polly oferece quatro vozes em formato longo en-US e duas es-ES. Ambos os idiomas têm vozes femininas e masculinas disponíveis. As vozes Daniel, Gregory e Ruth, que são em formato longo e em inglês, também estão disponíveis em uma variante NTTS conversacional.

	Idioma	Código do idioma	Name/ID	Gender
1	Inglês (EUA)	en-US	Danielle Gregory Ruth Patrick	Feminino Masculino Feminino Masculino
2	Espanhol (Espanha)	es-ES	Alba Raúl	Feminino Masculino

Idioma

Código do idioma

Name/ID

Gender

Inglês (EUA)

en-US

Danielle

Gregory

Ruth

Patrick

Feminino

Masculino

Feminino

Masculino

Espanhol (Espanha)

es-ES

Alba

Raúl

Feminino

Masculino

Compatibilidade de recursos e regiões

As vozes de forma longa do Amazon Polly estão disponíveis nas seguintes regiões:

Leste dos EUA (Norte da Virgínia): us-east-1
Outras regiões não disponíveis

O Long-form mecanismo Amazon Polly oferece suporte aos seguintes recursos:

Real-time e operações assíncronas de síntese de fala.
Todas as marcas de fala.
Muitas (mas não todas) etiquetas SSML são compatíveis com o Amazon Polly. Para obter mais informações sobre tags NTTS-supported SSML, consulte Tags SSML suportadas
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão, em formato longo e neurais são 8 kHz, 16 kHz, 22 kHz ou 24 kHz. O padrão para vozes padrão é 22 kHz. O padrão para vozes em formato longo e neurais é 24 kHz. O Amazon Polly é compatível com os formatos de stream de áudio MP3, ogg_vorbis e PCM bruto.

nota

Long-form o custo das vozes é especificado na página de informações de preços do Amazon Polly.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Mecanismo generativo

Mecanismo neural