View a markdown version of this page

Long-form voix - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Long-form voix

Amazon Polly dispose d'un Long-form moteur qui produit des voix humaines, hautement expressives et émotionnellement compétentes. Long-form les voix sont conçues pour attirer l'attention des auditeurs sur des contenus plus longs, tels que des articles de presse, du matériel de formation ou des vidéos marketing.

Les Long-form voix Amazon Polly sont développées à l'aide d'une technologie TTS de pointe basée sur le deep learning. Le modèle apprend à reproduire les phonèmes, la prosodie, l'intonation et d'autres aspects phonétiques et acoustiques du langage humain, ce qui permet d'obtenir une sortie vocale très naturelle.

Le Long-form moteur utilise des intégrations de texte pour interpréter le sens d'un texte. À l'aide de l'intégration de texte, le Long-form moteur peut générer l'accent, les pauses et le ton corrects d'une voix naturelle. Le résultat est une voix qui combine la gamme complète des éléments émotionnels présents dans la communication humaine. Cela inclut l'imitation de la surprise ou la différenciation entre le dialogue et la narration. Ensemble, cela crée un produit vocal haut de gamme qui ressemble à un être humain vivant.

Note

La technologie de pointe qui sous-tend ces voix s'inscrit dans le paradigme de l'IA générative pour la modélisation du langage et de la voix. L'un des effets secondaires de cette technologie est que toute mise à jour des données d'entraînement et du modèle peut entraîner de légères variations dans le son des voix, même si leur qualité globale s'améliore avec les mises à jour du modèle. Cela pourrait avoir un impact sur les cas d'utilisation où différentes parties du contenu sont synthétisées sur une longue période, par exemple, une saison de podcasts.

Voix longues disponibles

Amazon Polly propose actuellement quatre voix en-US et deux voix es-ES de longue durée. Des voix féminines et masculines sont disponibles dans les deux langues. Les voix longues anglaises Daniel, Gregory et Ruth sont également disponibles dans une variante NTTS conversationnelle.

Langue Code de langue Name/ID Gender

1

Anglais (Etats-Unis)

en-US

Danielle

Grégory

Ruth

Patrick

Femme

Homme

Femme

Homme

2

Espagnol (Espagne)

es-ES

Alba

Raúl

Femme

Homme

Compatibilité entre les fonctionnalités et les régions

Les voix longues Amazon Polly sont disponibles dans les régions suivantes :

  • USA Est (Virginie du Nord) : us-east-1

  • Autres régions non disponibles

Le Long-form moteur Amazon Polly prend en charge les fonctionnalités suivantes :

  • Real-time et des opérations de synthèse vocale asynchrones.

  • Toutes les marques vocales.

  • De nombreuses balises SSML (mais pas toutes) sont prises en charge par Amazon Polly. Pour plus d'informations sur les balises NTTS-supported SSML, consultez la section Balises SSML prises en charge

  • Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les fréquences d'échantillonnage valides pour les voix standard, longues et neuronales sont les suivantes : 8 kHz, 16 kHz, 22 kHz ou 24 kHz. La valeur par défaut pour les voix standard est 22 kHz. La valeur par défaut pour les voix longues et neuronales est de 24 kHz. Amazon Polly prend en charge les formats de flux audio MP3, OGG (Vorbis) et PCM bruts.

Note

Long-form le coût des voix est indiqué sur la page d'informations tarifaires d'Amazon Polly.