SynthesizeSpeech und verglichen StartSpeechSynthesisStream

SynthesizeSpeechist eine Anfrage-Antwort-Operation. Sie stellen den vollständigen Text in einer einzigen Anfrage bereit und erhalten das vollständige synthetisierte Audio in einer einzigen Antwort. Es unterstützt alle Engines (Standard, Neural, Langform, Generativ), alle Ausgabeformate, einschließlich Sprachzeichen, und hat ein Textlimit von insgesamt 6.000 Zeichen (von denen nicht mehr als 3.000 fakturierte Zeichen sein können) pro Anfrage. Die Antwort streamt Audio zurück, sobald die ersten Byte verfügbar sind. Verwenden Sie diesen Vorgang, wenn Sie den gesamten Text im Voraus verfügbar haben.

StartSpeechSynthesisStreamist ein bidirektionaler Streaming-Vorgang. Es öffnet eine HTTP/2 Verbindung, über die Sie inkrementell Text senden und Audio empfangen, während es synthetisiert wird. Es gibt kein Textlimit pro Anfrage, da Text kontinuierlich gestreamt wird. Es erfordert die Generative Engine und unterstützt keine Sprachzeichen. Verwenden Sie diesen Vorgang, wenn Text inkrementell ankommt und Sie möchten, dass die Audioausgabe beginnt, bevor alle Eingaben verfügbar sind. Zu den gängigen Szenarien gehören:

Konversations-KI und Sprachassistenten. Ein großes Sprachmodell generiert Antworttext in kleinen Blöcken (Tokens). Leiten Sie jeden eingehenden Textblock an Amazon Polly weiter, sodass der Benutzer Sprache hört, während das Modell noch generiert wird.
Real-time Übersetzung. Ein Übersetzungssystem erzeugt den übersetzten Text Segment für Segment. Streamen Sie jedes Segment zur Synthese, ohne auf den Abschluss der vollständigen Übersetzung warten zu müssen.
Long-form Inhalt, der SynthesizeSpeech Grenzen überschreitet. Text, der länger als 6.000 Zeichen ist, kann kontinuierlich gestreamt werden, ohne dass er in mehrere Anfragen aufgeteilt wird oder Abschnittsgrenzen verwaltet werden müssen.

Vergleich von und SynthesizeSpeech StartSpeechSynthesisStream
Aspekt	SynthesizeSpeech	StartSpeechSynthesisStream
Protocol (Protokoll)	Request-response	Bidirektionaler Eventstream () HTTP/2
Lieferung von Text	Volltext im Anfragetext	Eingabetext über TextEvent Nachrichten streamen
Audioübertragung	Audioantwort über HTTP-Antworttext streamen	Audioantwort über AudioEvent Nachrichten streamen
Motorunterstützung	Standard, neuronal, langförmig, generativ	nur generativ
SSML-Unterstützung	Ja (alle Engines; die unterstützten Tags variieren je nach Engine)	Ja (nur generative Engine-Tags)
Lexika	Ja	Ja
Sprachzeichen	Ja	Nein
Textlimit	Insgesamt 6.000 Zeichen (3.000 in Rechnung gestellt) pro Anfrage	Insgesamt 6.000 Zeichen (3.000 in Rechnung gestellt) pro TextEvent
AWS CLI Unterstützung	Ja	Nein (bidirektionales Streaming erfordert ein SDK)

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bidirektionales Streaming

Text senden und Audio empfangen