Voci generative disponibili Compatibilità tra funzionalità e aree geografiche

Voci generative

Il motore generativo di sintesi vocale (TTS) di Amazon Polly offre le voci conversazionali più simili a quelle umane, emotivamente coinvolgenti e adattive disponibili per l'uso tramite la console Amazon Polly.

Il motore Generative è il modello Amazon Polly TTS più grande mai realizzato fino ad oggi. Implementa un trasformatore da miliardi di parametri che converte il testo non elaborato in codici vocali, seguito da un decodificatore basato sulla convoluzione che converte questi codici vocali in forme d'onda in modo incrementale e semplificato. Questo metodo mostra le capacità emergenti ampiamente diffuse dei Large Language Models (LLM) quando vengono addestrati su volumi crescenti di dati proprietari e disponibili al pubblico che comprendono una varietà di voci, lingue e stili.

Il motore generativo crea un linguaggio sintetico che è emotivamente coinvolgente, assertivo e altamente colloquiale in un modo notevolmente simile a una voce umana. Puoi usare queste voci come un assistente clienti esperto, un trainer virtuale o un inserzionista con un linguaggio sintetico quasi umano.

Nota

La tecnologia all'avanguardia alla base di queste voci rientra nel paradigma dell'intelligenza artificiale generativa per la modellazione del linguaggio e della voce. Un effetto collaterale della tecnologia è che qualsiasi aggiornamento dei dati di addestramento e del modello potrebbe comportare lievi variazioni nel modo in cui le voci suonano, anche nel caso in cui la loro qualità complessiva migliori con gli aggiornamenti del modello. Ciò potrebbe avere un impatto sui casi d'uso con diverse parti di contenuto sintetizzate per un lungo periodo di tempo, ad esempio una stagione di podcast.

Voci generative disponibili

Amazon Polly offre attualmente 43 voci in una variante generativa.

	Lingua	Codice lingua	Name/ID	Gender
1	Inglese (Australia)	en-AU	Olivia	Femmina
2	Inglese (Regno Unito)	en-GB	Amy Brian	Femmina Maschio
3	Inglese (India)	en-IN	Kajal	Femmina
4	Inglese (Irlanda)	en-IN	Niamh	Femmina
5	Inglese (Nuova Zelanda)	en-NZ	Aria	Femmina
6	Inglese (singaporiano)	en-SG	Gelsomino	Femmina
7	Inglese (Sud Africa)	en-ZA	Ayanda	Femmina
8	Inglese (Stati Uniti)	it-IT	Danielle Joanna Matthew Ruth Salli Stephen Tiffany	Femmina Femmina Maschio Femmina Femmina Maschio Femmina
9	Olandese (Belgio)	nl-BE	Lisa	Femmina
10	Olandese (Paesi Bassi)	nl-NL	Laura	Femmina
11	Francese (belga)	fr-BE	Isabelle	Femmina
12	Francese (Canada)	fr-CA	Gabrielle Liam	Femmina Maschio
13	Francese (Francia)	fr-FR	Ambre Celine Florian Léa Rémi**	Femmina Femmina Maschio Femmina Maschio
14	Tedesco (Austria)	de-AT	Hannah	Femmina
15	Tedesco (Germania)	de-DE	Daniele Lennart Vicki	Maschio Maschio Femmina
16	Tedesco (svizzero)	de-CH	Sabrina	Femmina
17	Italiano (Italia)	it-IT	Beatrice Bianca Lorenzo	Femmina Femmina Maschio
18	Coreano (Corea)	ko-KR	Seoyeon	Femmina
19	polacco (Polonia)	pl-PL	Ewa Ola	Femmina Femmina
20	Portoghese (Brasile)	pt-BR	Camila	Femmina
21	Spagnolo (messicano)	es-MX	Andres** Mía	Maschio Femmina
22	Spagnolo (Spagna)	es-ES	Lucia Sergio**	Femmina Maschio
23	Spagnolo (Stati Uniti)	es-US	Lupe Pedro	Femmina Maschio

Nota

Il costo delle voci generative è specificato nella pagina di informazioni sui prezzi di Amazon Polly.

Compatibilità tra funzionalità e aree geografiche

Le voci generative di Amazon Polly sono disponibili nelle seguenti regioni:

Stati Uniti orientali (Virginia settentrionale): us-east-1
Europa (Francoforte): eu-central-1
Stati Uniti occidentali (Oregon): us-west-2
Asia Pacifico (Tokyo): ap-northeast-1
Asia Pacifico (Seoul): ap-northeast-2
Asia Pacifico (Singapore): ap-southeast-1
Europa (Londra): eu-west-2
Canada (Centrale): ca-central-1
Altre regioni non sono disponibili

Le seguenti funzionalità sono supportate per le voci generative:

L'API di streaming bidirezionale è ora disponibile nel motore generativo e consente lo streaming di input e output contemporaneamente. Questa API è disponibile nelle seguenti AWS regioni: Stati Uniti orientali (Virginia settentrionale), Europa (Francoforte), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Europa (Londra) e Canada (Centrale). Consulta la documentazione per saperne di più su come utilizzarla.
Real-time e operazioni asincrone di sintesi vocale.
Lo stile di pronuncia di Newscaster non è supportato nel motore Generative.
Molti tag SSML (ma non tutti) sono supportati da Amazon Polly. Per ulteriori informazioni sui tag SSML, consulta Tag NTTS-supported SSML supportati
Come per le voci standard, puoi scegliere tra diverse frequenze di campionamento per ottimizzare la larghezza di banda e la qualità audio della tua applicazione. Le frequenze di campionamento valide per le voci standard e neurali sono 8 kHz, 16 kHz, 22 kHz o 24 kHz. Il valore predefinito per le voci standard è 22 kHz. L'impostazione predefinita per le voci generative è 24 kHz. Amazon Polly supporta i formati di flusso audio MP3, OGG (Vorbis) e PCM raw.

Il supporto per la generazione di contrassegni vocali non è attualmente disponibile.

Nota

Attualmente le regioni Europa (Londra) e Canada (Centrale) supportano solo le seguenti voci generative: Joanna (en-US), Ruth (en-US), Salli (en-US), Stephen (en-US), Tiffany (en-US), Amy (en-GB), Brian (en-GB), Olivia (en-AU), Florian (fr-FR), Ambre (fr-FR), Lorenzo (it-FR) Beatrice (it-IT), Jasmine (it-SG), Aria (it-IT), Lennart (it-IT), Vicki (it-IT), Sabrina (de-CH), Hannah (it-IT), Niamh (it-IT), Camila (pt-BR), Lisa (nl-BE) e Seoyeon (ko-KR)

Nota

Nell'improbabile eventualità di un'allucinazione del modello (e con il comportamento modello del motore Generative di rendere il discorso token per token), viene imposto un meccanismo di arresto di emergenza. Il meccanismo integrato impedisce al modello di riprodurre ulteriormente il parlato. Questa funzionalità di sicurezza si basa sull'analisi dei dati in cui il modello può generare allucinazioni, di solito alla fine della frase.

Potrebbero verificarsi casi in cui il modello pensa di provocare allucinazioni e poi finisce per tagliare una parola durante una fase generazionale, restituendo così metà della parola. Ciò potrebbe generare risultati inappropriati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Motori vocali

Long-form motore