View a markdown version of this page

Long-form Stimmen - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Long-form Stimmen

Amazon Polly verfügt über eine Long-form Engine, die menschenähnliche, ausdrucksstarke und emotional versierte Stimmen erzeugt. Long-form Stimmen sind so konzipiert, dass sie die Aufmerksamkeit der Zuhörer auf längere Inhalte wie Nachrichtenartikel, Schulungsmaterial oder Marketingvideos lenken.

Amazon Polly Long-form Polly-Stimmen wurden mit einer hochmodernen Deep-Learning-TTS-Technologie entwickelt. Das Modell lernt, Phoneme, Prosodie, Intonation und andere phonetische und akustische Aspekte der menschlichen Sprache nachzubilden, was zu einer sehr natürlichen Sprachausgabe führt.

Die Long-form Engine verwendet Texteinbettungen, um die Bedeutung eines Textes zu interpretieren. Mithilfe von Texteinbettungen kann die Long-form Engine die richtige Betonung, die richtigen Pausen und den richtigen Ton für eine natürliche Stimme erzeugen. Das Ergebnis ist eine Stimme, die die gesamte Bandbreite der emotionalen Elemente der menschlichen Kommunikation kombiniert. Dazu gehört die Nachahmung überraschender Dialoge oder die Differenzierung von Erzählungen. Zusammen entsteht so ein erstklassiges Sprachprodukt, das wie ein lebender Mensch klingt.

Anmerkung

Die hochmoderne Technologie, die diesen Stimmen zugrunde liegt, fällt unter das Paradigma der generativen KI für Sprach- und Stimmmodellierung. Ein Nebeneffekt der Technologie besteht darin, dass jegliche Aktualisierung der Trainingsdaten und des Modells zu geringfügigen Abweichungen im Klang der Stimmen führen kann, selbst wenn sich ihre Gesamtqualität durch Modellaktualisierungen verbessert. Dies könnte sich auf Anwendungsfälle auswirken, bei denen verschiedene Inhaltsteile über einen langen Zeitraum synthetisiert wurden — beispielsweise eine Podcast-Saison.

Verfügbare Stimmen in Langform

Amazon Polly bietet derzeit vier Langform-Stimmen en-US und zwei es-ES an. In beiden Sprachen sind Frauen- und Männerstimmen verfügbar. Die englischen Langformstimmen Daniel, Gregory und Ruth sind auch in einer NTTS-Variante für Konversationen erhältlich.

Sprache Sprachcode Name/ID Gender

1

Englisch (amerikanisch)

en-US

Danielle

Gregor

Ruth

Patrick

Weiblich

Männlich

Weiblich

Männlich

2

Spanisch (Spanien)

es-ES

Alba

Raul

Weiblich

Männlich

Kompatibilität mit Funktionen und Regionen

Langform-Stimmen von Amazon Polly sind in den folgenden Regionen erhältlich:

  • USA Ost (Nord-Virginia): us-east-1

  • Andere Regionen sind nicht verfügbar

Die Amazon Polly Long-form Polly-Engine unterstützt die folgenden Funktionen:

  • Real-time und asynchrone Sprachsyntheseoperationen.

  • Alle Sprachzeichen.

  • Viele (aber nicht alle) SSML-Tags werden von Amazon Polly unterstützt. Weitere Informationen zu NTTS-supported SSML-Tags finden Sie unter Unterstützte SSML-Tags

  • Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard-, Langform- und neuronale Stimmen sind: 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für Langform- und neuronale Stimmen ist 24 kHz. Amazon Polly unterstützt die Audiostreamformate MP3, OGG (Vorbis) und PCM-Rohdaten.

Anmerkung

Long-form Die Kosten für Voices sind auf der Preisinformationsseite von Amazon Polly angegeben.