Voci generative - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Voci generative

Il motore generativo text-to-speech (TTS) di Amazon Polly offre le voci conversazionali più simili a quelle umane, emotivamente coinvolgenti e adattive disponibili per l'uso tramite la console Amazon Polly.

Il motore Generative è il modello Amazon Polly TTS più grande mai realizzato fino ad oggi. Implementa un trasformatore da miliardi di parametri che converte il testo non elaborato in codici vocali, seguito da un decodificatore basato sulla convoluzione che converte questi codici vocali in forme d'onda in modo incrementale e semplificato. Questo metodo mostra le capacità emergenti ampiamente diffuse dei Large Language Models (LLMs) quando vengono addestrati su volumi crescenti di dati proprietari e disponibili al pubblico che comprendono una varietà di voci, lingue e stili.

Il motore generativo crea un linguaggio sintetico che è emotivamente coinvolgente, assertivo e altamente colloquiale in un modo notevolmente simile a una voce umana. Puoi usare queste voci come un assistente clienti esperto, un trainer virtuale o un inserzionista con un linguaggio sintetico quasi umano.

Nota

La state-of-the-art tecnologia alla base di queste voci rientra nel paradigma dell'intelligenza artificiale generativa per la modellazione del linguaggio e della voce. Un effetto collaterale della tecnologia è che qualsiasi aggiornamento ai dati di addestramento e al modello potrebbe comportare lievi variazioni nel modo in cui le voci suonano, anche nel caso in cui la loro qualità complessiva migliori con gli aggiornamenti del modello. Ciò potrebbe avere un impatto sui casi d'uso con diverse parti di contenuto sintetizzate per un lungo periodo di tempo, ad esempio una stagione di podcast.

Voci generative disponibili

Amazon Polly offre attualmente 27 voci in una variante generativa. Queste voci generative sono disponibili anche in una variante NTTS conversazionale.

Lingua Codice lingua Nome/ID Gender

1

Inglese (Australia)

en-AU

Olivia

Femmina

2

Inglese (India)

en-IN

Kajal

Femmina

3

Inglese (Sud Africa)

en-ZA

Ayanda

Femmina

4

Inglese (Regno Unito)

en-GB

Amy

Femmina

5

Inglese (Stati Uniti)

it-IT

Danielle

Joanna

Matthew

Ruth**

Salli

Stephen**

Femmina

Femmina

Maschio

Femmina

Femmina

Maschio

6

Francese (belga)

fr-BE

Isabelle

Femmina

7

Francese (Canada)

fr-CA

Gabrielle

Liam

Femmina

Maschio

8

Francese (Francia)

fr-FR

Céline

Léa

Rémi**

Femmina

Femmina

Maschio

9

Tedesco (Germania)

de-DE

Daniele

Vicki

Maschio

Femmina

10

Italiano (Italia)

it-IT

Bianca

Femmina

11

polacco (Polonia)

pl-PL

Ewa

Ola

Femmina

Femmina

12

Spagnolo (messicano)

es-MX

Andres**

Mía

Maschio

Femmina

13

Spagnolo (Spagna)

es-ES

Lucia

Sergio**

Femmina

Maschio

14

Spagnolo (Stati Uniti)

es-US

Lupe

Pedro

Femmina

Maschio

Nota

Il costo delle voci generative è specificato nella pagina di informazioni sui prezzi di Amazon Polly.

Compatibilità tra funzionalità e aree geografiche

Le voci generative di Amazon Polly sono disponibili nelle seguenti regioni:

  • Stati Uniti orientali (Virginia settentrionale): us-east-1

  • Europa (Francoforte): eu-central-1

  • Stati Uniti occidentali (Oregon): us-west-2

  • Altre regioni non sono disponibili

Le seguenti funzionalità sono supportate per le voci generative:

  • Operazioni di sintesi vocale asincrona e in tempo reale.

  • Lo stile di pronuncia di Newscaster non è supportato nel motore Generative.

  • Molti tag SSML (ma non tutti) sono supportati da Amazon Polly. Per ulteriori informazioni sui tag SSML supportati da NTTS, consulta Tag SSML supportati

  • Come per le voci standard, puoi scegliere tra diverse frequenze di campionamento per ottimizzare la larghezza di banda e la qualità audio della tua applicazione. Le frequenze di campionamento valide per le voci standard e neurali sono 8 kHz, 16 kHz, 22 kHz o 24 kHz. Il valore predefinito per le voci standard è 22 kHz. L'impostazione predefinita per le voci generative è 24 kHz. Amazon Polly supporta i formati di MP3 streaming audio OGG (Vorbis) e PCM non elaborati.

Il supporto per la generazione di contrassegni vocali non è attualmente disponibile.

Nota

Nell'improbabile eventualità che si verifichi un'allucinazione del modello (e con il comportamento del motore Generative che prevede la riproduzione vocale token per token), viene imposto un meccanismo di arresto di emergenza. Il meccanismo integrato impedisce al modello di riprodurre ulteriormente il parlato. Questa funzionalità di sicurezza si basa sull'analisi dei dati in cui il modello può generare allucinazioni, di solito alla fine della frase.

Potrebbero verificarsi casi in cui il modello pensa di provocare allucinazioni e poi finisce per tagliare una parola durante una fase generazionale, restituendo così metà della parola. Ciò potrebbe generare risultati inappropriati.