Verfügbare generative Stimmen Kompatibilität mit Funktionen und Regionen

Generative Stimmen

Die generative Text-to-Speech-Engine (TTS) von Amazon Polly bietet die menschenähnlichsten, emotionalsten und anpassungsfähigsten Konversationsstimmen, die für die Nutzung über die Amazon Polly Polly-Konsole verfügbar sind.

Die Generative Engine ist das bisher größte Amazon Polly TTS-Modell. Sie verwendet einen Transformator mit Milliarden Parametern, der Rohtext in Sprachcodes umwandelt, gefolgt von einem auf Faltung basierenden Decoder, der diese Sprachcodes schrittweise und streamfähig in Wellenformen umwandelt. Diese Methode zeigt, welche Fähigkeiten Large Language Models (LLMs) häufig entwickeln, wenn sie mit immer größeren Mengen öffentlich verfügbarer und urheberrechtlich geschützter Daten trainiert werden, die eine Vielzahl von Stimmen, Sprachen und Stilen beinhalten.

Die Generative Engine erzeugt synthetische Sprache, die emotional engagiert, durchsetzungsfähig und sehr umgangssprachlich ist, und zwar auf eine Weise, die der menschlichen Stimme bemerkenswert ähnlich ist. Sie können diese Stimmen als sachkundigen Kundenassistenten, als virtuellen Trainer oder als Werbetreibender mit einer fast menschlichen synthetischen Sprache verwenden.

Anmerkung

Die hochmoderne Technologie, die diesen Stimmen zugrunde liegt, fällt in das Paradigma der generativen KI für Sprach- und Stimmmodellierung. Ein Nebeneffekt der Technologie besteht darin, dass jegliche Aktualisierung der Trainingsdaten und des Modells zu geringfügigen Abweichungen im Klang der Stimmen führen kann, selbst wenn sich ihre Gesamtqualität durch Modellaktualisierungen verbessert. Dies könnte sich auf Anwendungsfälle auswirken, bei denen verschiedene Inhaltsteile über einen langen Zeitraum synthetisiert wurden — beispielsweise eine Podcast-Saison.

Verfügbare generative Stimmen

Amazon Polly bietet derzeit 43 Stimmen in einer generativen Variante an.

	Sprache	Sprachcode	Name/ID	Gender
1	Englisch (australisch)	en-AU	Olivia	Weiblich
2	Englisch (britisch)	en-GB	Amy Brian	Weiblich Männlich
3	Englisch (indisch)	en-IN	Kajal	Weiblich
4	Englisch (Irland)	en-IE	Niamh	Weiblich
5	Englisch (Neuseeland)	en-NZ	Aria	Weiblich
6	Englisch (Singapurisch)	en-SG	Jasmin	Weiblich
7	Englisch (Südafrikanisch)	en-ZA	Ayanda	Weiblich
8	Englisch (amerikanisch)	en-US	Danielle Joanna Matthew Ruth Salli Stephen Tiffany	Weiblich Weiblich Männlich Weiblich Weiblich Männlich Weiblich
9	Niederländisch (Belgien)	nl-BE	Lisa	Weiblich
10	Niederländisch (Niederlande)	nl-NL	Laura	Weiblich
11	Französisch (Belgisch)	fr-BE	Isabelle	Weiblich
12	Kanadisches Französisch	fr-CA	Gabrielle Liam	Weiblich Männlich
13	Französisch (Frankreich)	fr-FR	Ambre Céline Florian Léa Remi	Weiblich Weiblich Männlich Weiblich Männlich
14	Deutsch (Österreich)	de-AT	Hannah	Weiblich
15	Deutsch (Deutschland)	de-DE	Daniel Lennart Vicki	Männlich Männlich Weiblich
16	Deutsch (Schweizerisch)	de-CH	Sabrina	Weiblich
17	Italienisch (Italien)	it-IT	Beatrice Bianca Lorenzo	Weiblich Weiblich Männlich
18	Koreanisch (Korea)	ko-KR	Seoyeon	Weiblich
19	Polnisch (Polen)	pl-PL	Ewa Ola	Weiblich Weiblich
20	Portugiesisch (brasilianisch)	pt-BR	Camila	Weiblich
21	Spanisch (Mexikanisch)	es-MX	Andrés Mia	Männlich Weiblich
22	Spanisch (Spanien)	es-ES	Lucia Sergio	Weiblich Männlich
23	Spanisch (USA)	es-US	Lupe Pedro	Weiblich Männlich

Anmerkung

Die Kosten für Generative Stimmen sind auf der Preisinformationsseite von Amazon Polly angegeben.

Kompatibilität mit Funktionen und Regionen

Generative Stimmen von Amazon Polly sind in den folgenden Regionen verfügbar:

USA Ost (Nord-Virginia): us-east-1
Europa (Frankfurt): eu-central-1
USA West (Oregon): us-west-2
Asien-Pazifik (Tokio): ap-northeast-1
Asien-Pazifik (Seoul): ap-northeast-2
Asien-Pazifik (Singapur): ap-southeast-1
Europa (London): eu-west-2
Kanada (Zentral): ca-central-1
Andere Regionen sind nicht verfügbar

Die folgenden Funktionen werden für generative Stimmen unterstützt:

Die bidirektionale Streaming-API wird jetzt in der Generative Engine angeboten und ermöglicht das gleichzeitige Streamen von Eingabe und Ausgabe. Diese API ist in den folgenden AWS Regionen verfügbar: USA Ost (Nord-Virginia), Europa (Frankfurt), USA West (Oregon), Asien-Pazifik (Singapur), Europa (London) und Kanada (Zentral). Besuchen Sie die Dokumentation, um mehr darüber zu erfahren, wie Sie sie verwenden können.
Real-time und asynchrone Sprachsyntheseoperationen.
Der Sprechstil von Newscaster wird von der Generative Engine nicht unterstützt.
Viele (aber nicht alle) SSML-Tags werden von Amazon Polly unterstützt. Weitere Informationen zu NTTS-supported SSML-Tags finden Sie unter Unterstützte SSML-Tags
Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Samplingraten für Standard- und neuronale Stimmen sind 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für generative Stimmen ist 24 kHz. Amazon Polly unterstützt die Audiostreamformate MP3, OGG (Vorbis) und PCM-Rohdaten.

Support für die Generierung von Sprachmarken ist derzeit nicht verfügbar.

Anmerkung

Derzeit unterstützen die Regionen Europa (London) und Kanada (Zentral) nur die folgenden generativen Stimmen: Joanna (en-US), Ruth (en-US), Salli (en-US), Stephen (en-US), Tiffany (en-US), Amy (en-GB), Brian (en-GB), Olivia (en-AU), Florian (fr-FR), Ambre (fr-FR), Lorenzo (it-IT), Beatrice (it-IT), Jasmine (de-SG), Aria (de-DE), Lennart (de-DE), Vicki (de-DE), Sabrina (de-CH), Hannah (de-AT), Niamh (de-DE), Camila (de-DE), Lisa (nl-BE) und Seoyeon (ko-KR)

Anmerkung

Im unwahrscheinlichen Fall einer Modellhalluzination (und aufgrund des Modellverhaltens der Generative Engine, die Sprache Zeichen für Zeichen wiederzugeben) ist ein erzwungener Not-Aus-Mechanismus vorhanden. Der eingebaute Mechanismus verhindert, dass das Modell Sprache weiter wiedergibt. Dieses Sicherheitsmerkmal basiert auf einer Datenanalyse, bei der das Modell halluzinieren kann, normalerweise am Ende des Satzes.

Es kann Fälle geben, in denen das Modell denkt, es würde halluzinieren, und dann während eines Generationsschritts ein Wort herausschneiden und so die Hälfte des Wortes wiedergeben. Dies könnte möglicherweise zu unangemessenen Ergebnissen führen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Sprachmaschinen

Long-form Motor