As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Long-form vozes
O Amazon Polly tem um Long-form motor que produz vozes humanas, altamente expressivas e emocionalmente adequadas. Long-form as vozes são projetadas para cativar a atenção dos ouvintes para conteúdos mais longos, como artigos de notícias, materiais de treinamento ou vídeos de marketing.
As Long-form vozes do Amazon Polly são desenvolvidas com uma tecnologia TTS de aprendizado profundo de ponta. O modelo aprende a replicar fonemas, prosódia, entonação e outros aspectos fonéticos e acústicos da linguagem humana, resultando em uma saída de fala altamente natural.
O Long-form mecanismo usa incorporações de texto para interpretar o significado de um texto. Usando incorporações de texto, o Long-form mecanismo pode gerar a ênfase, as pausas e o tom corretos de uma voz natural. O resultado é uma voz que combina toda a gama de elementos emocionais presentes na comunicação humana. Isso inclui a imitação da surpresa ou a diferenciação entre diálogo e narração. Juntos, isso cria um produto de fala premium que soa como um ser humano vivo.
nota
A tecnologia de ponta por trás dessas vozes se enquadra no paradigma da IA generativa para modelagem de linguagem e voz. Um efeito colateral da tecnologia é que qualquer atualização nos dados de treinamento e no modelo pode resultar em pequenas variações na forma como as vozes soam, mesmo no caso de sua qualidade geral melhorar com as atualizações do modelo. Isso pode ter um impacto nos casos de uso em que diferentes partes do conteúdo são sintetizadas por um longo período, por exemplo, uma temporada de podcasts.
Vozes de forma longa disponíveis
Atualmente, o Amazon Polly oferece quatro vozes em formato longo en-US e duas es-ES. Ambos os idiomas têm vozes femininas e masculinas disponíveis. As vozes Daniel, Gregory e Ruth, que são em formato longo e em inglês, também estão disponíveis em uma variante NTTS conversacional.
| Idioma | Código do idioma | Name/ID | Gender | |
|---|---|---|---|---|
1 |
Inglês (EUA) |
en-US |
Danielle Gregory Ruth Patrick |
Feminino Masculino Feminino Masculino |
2 |
Espanhol (Espanha) |
es-ES |
Alba Raúl |
Feminino Masculino |
Compatibilidade de recursos e regiões
As vozes de forma longa do Amazon Polly estão disponíveis nas seguintes regiões:
-
Leste dos EUA (Norte da Virgínia): us-east-1
-
Outras regiões não disponíveis
O Long-form mecanismo Amazon Polly oferece suporte aos seguintes recursos:
-
Real-time e operações assíncronas de síntese de fala.
-
Todas as marcas de fala.
-
Muitas (mas não todas) etiquetas SSML são compatíveis com o Amazon Polly. Para obter mais informações sobre tags NTTS-supported SSML, consulte Tags SSML suportadas
-
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão, em formato longo e neurais são 8 kHz, 16 kHz, 22 kHz ou 24 kHz. O padrão para vozes padrão é 22 kHz. O padrão para vozes em formato longo e neurais é 24 kHz. O Amazon Polly é compatível com os formatos de stream de áudio MP3, ogg_vorbis e PCM bruto.
nota
Long-form o custo das vozes é especificado na página de informações de preços do Amazon Polly