View a markdown version of this page

SynthesizeSpeech und verglichen StartSpeechSynthesisStream - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SynthesizeSpeech und verglichen StartSpeechSynthesisStream

SynthesizeSpeechist eine Anfrage-Antwort-Operation. Sie stellen den vollständigen Text in einer einzigen Anfrage bereit und erhalten das vollständige synthetisierte Audio in einer einzigen Antwort. Es unterstützt alle Engines (Standard, Neural, Langform, Generativ), alle Ausgabeformate, einschließlich Sprachzeichen, und hat ein Textlimit von insgesamt 6.000 Zeichen (von denen nicht mehr als 3.000 fakturierte Zeichen sein können) pro Anfrage. Die Antwort streamt Audio zurück, sobald die ersten Byte verfügbar sind. Verwenden Sie diesen Vorgang, wenn Sie den gesamten Text im Voraus verfügbar haben.

StartSpeechSynthesisStreamist ein bidirektionaler Streaming-Vorgang. Es öffnet eine HTTP/2 Verbindung, über die Sie inkrementell Text senden und Audio empfangen, während es synthetisiert wird. Es gibt kein Textlimit pro Anfrage, da Text kontinuierlich gestreamt wird. Es erfordert die Generative Engine und unterstützt keine Sprachzeichen. Verwenden Sie diesen Vorgang, wenn Text inkrementell ankommt und Sie möchten, dass die Audioausgabe beginnt, bevor alle Eingaben verfügbar sind. Zu den gängigen Szenarien gehören:

  • Konversations-KI und Sprachassistenten. Ein großes Sprachmodell generiert Antworttext in kleinen Blöcken (Tokens). Leiten Sie jeden eingehenden Textblock an Amazon Polly weiter, sodass der Benutzer Sprache hört, während das Modell noch generiert wird.

  • Real-time Übersetzung. Ein Übersetzungssystem erzeugt den übersetzten Text Segment für Segment. Streamen Sie jedes Segment zur Synthese, ohne auf den Abschluss der vollständigen Übersetzung warten zu müssen.

  • Long-form Inhalt, der SynthesizeSpeech Grenzen überschreitet. Text, der länger als 6.000 Zeichen ist, kann kontinuierlich gestreamt werden, ohne dass er in mehrere Anfragen aufgeteilt wird oder Abschnittsgrenzen verwaltet werden müssen.

Vergleich von und SynthesizeSpeech StartSpeechSynthesisStream
Aspekt SynthesizeSpeech StartSpeechSynthesisStream

Protocol (Protokoll)

Request-response

Bidirektionaler Eventstream () HTTP/2

Lieferung von Text

Volltext im Anfragetext

Eingabetext über TextEvent Nachrichten streamen

Audioübertragung

Audioantwort über HTTP-Antworttext streamen

Audioantwort über AudioEvent Nachrichten streamen

Motorunterstützung

Standard, neuronal, langförmig, generativ

nur generativ

SSML-Unterstützung

Ja (alle Engines; die unterstützten Tags variieren je nach Engine)

Ja (nur generative Engine-Tags)

Lexika

Ja

Ja

Sprachzeichen

Ja

Nein

Textlimit

Insgesamt 6.000 Zeichen (3.000 in Rechnung gestellt) pro Anfrage

Insgesamt 6.000 Zeichen (3.000 in Rechnung gestellt) pro TextEvent

AWS CLI Unterstützung

Ja

Nein (bidirektionales Streaming erfordert ein SDK)