Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Long-form Stimmen
Amazon Polly verfügt über eine Long-form Engine, die menschenähnliche, ausdrucksstarke und emotional versierte Stimmen erzeugt. Long-form Stimmen sind so konzipiert, dass sie die Aufmerksamkeit der Zuhörer auf längere Inhalte wie Nachrichtenartikel, Schulungsmaterial oder Marketingvideos lenken.
Amazon Polly Long-form Polly-Stimmen wurden mit einer hochmodernen Deep-Learning-TTS-Technologie entwickelt. Das Modell lernt, Phoneme, Prosodie, Intonation und andere phonetische und akustische Aspekte der menschlichen Sprache nachzubilden, was zu einer sehr natürlichen Sprachausgabe führt.
Die Long-form Engine verwendet Texteinbettungen, um die Bedeutung eines Textes zu interpretieren. Mithilfe von Texteinbettungen kann die Long-form Engine die richtige Betonung, die richtigen Pausen und den richtigen Ton für eine natürliche Stimme erzeugen. Das Ergebnis ist eine Stimme, die die gesamte Bandbreite der emotionalen Elemente der menschlichen Kommunikation kombiniert. Dazu gehört die Nachahmung überraschender Dialoge oder die Differenzierung von Erzählungen. Zusammen entsteht so ein erstklassiges Sprachprodukt, das wie ein lebender Mensch klingt.
Anmerkung
Die hochmoderne Technologie, die diesen Stimmen zugrunde liegt, fällt unter das Paradigma der generativen KI für Sprach- und Stimmmodellierung. Ein Nebeneffekt der Technologie besteht darin, dass jegliche Aktualisierung der Trainingsdaten und des Modells zu geringfügigen Abweichungen im Klang der Stimmen führen kann, selbst wenn sich ihre Gesamtqualität durch Modellaktualisierungen verbessert. Dies könnte sich auf Anwendungsfälle auswirken, bei denen verschiedene Inhaltsteile über einen langen Zeitraum synthetisiert wurden — beispielsweise eine Podcast-Saison.
Verfügbare Stimmen in Langform
Amazon Polly bietet derzeit vier Langform-Stimmen en-US und zwei es-ES an. In beiden Sprachen sind Frauen- und Männerstimmen verfügbar. Die englischen Langformstimmen Daniel, Gregory und Ruth sind auch in einer NTTS-Variante für Konversationen erhältlich.
| Sprache | Sprachcode | Name/ID | Gender | |
|---|---|---|---|---|
1 |
Englisch (amerikanisch) |
en-US |
Danielle Gregor Ruth Patrick |
Weiblich Männlich Weiblich Männlich |
2 |
Spanisch (Spanien) |
es-ES |
Alba Raul |
Weiblich Männlich |
Kompatibilität mit Funktionen und Regionen
Langform-Stimmen von Amazon Polly sind in den folgenden Regionen erhältlich:
-
USA Ost (Nord-Virginia): us-east-1
-
Andere Regionen sind nicht verfügbar
Die Amazon Polly Long-form Polly-Engine unterstützt die folgenden Funktionen:
-
Real-time und asynchrone Sprachsyntheseoperationen.
-
Alle Sprachzeichen.
-
Viele (aber nicht alle) SSML-Tags werden von Amazon Polly unterstützt. Weitere Informationen zu NTTS-supported SSML-Tags finden Sie unter Unterstützte SSML-Tags
-
Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard-, Langform- und neuronale Stimmen sind: 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für Langform- und neuronale Stimmen ist 24 kHz. Amazon Polly unterstützt die Audiostreamformate MP3, OGG (Vorbis) und PCM-Rohdaten.
Anmerkung
Long-form Die Kosten für Voices sind auf der Preisinformationsseite von Amazon Polly