Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SynthesizeSpeech und verglichen StartSpeechSynthesisStream
SynthesizeSpeechist eine Anfrage-Antwort-Operation. Sie stellen den vollständigen Text in einer einzigen Anfrage bereit und erhalten das vollständige synthetisierte Audio in einer einzigen Antwort. Es unterstützt alle Engines (Standard, Neural, Langform, Generativ), alle Ausgabeformate, einschließlich Sprachzeichen, und hat ein Textlimit von insgesamt 6.000 Zeichen (von denen nicht mehr als 3.000 fakturierte Zeichen sein können) pro Anfrage. Die Antwort streamt Audio zurück, sobald die ersten Byte verfügbar sind. Verwenden Sie diesen Vorgang, wenn Sie den gesamten Text im Voraus verfügbar haben.
StartSpeechSynthesisStreamist ein bidirektionaler Streaming-Vorgang. Es öffnet eine HTTP/2 Verbindung, über die Sie inkrementell Text senden und Audio empfangen, während es synthetisiert wird. Es gibt kein Textlimit pro Anfrage, da Text kontinuierlich gestreamt wird. Es erfordert die Generative Engine und unterstützt keine Sprachzeichen. Verwenden Sie diesen Vorgang, wenn Text inkrementell ankommt und Sie möchten, dass die Audioausgabe beginnt, bevor alle Eingaben verfügbar sind. Zu den gängigen Szenarien gehören:
-
Konversations-KI und Sprachassistenten. Ein großes Sprachmodell generiert Antworttext in kleinen Blöcken (Tokens). Leiten Sie jeden eingehenden Textblock an Amazon Polly weiter, sodass der Benutzer Sprache hört, während das Modell noch generiert wird.
-
Real-time Übersetzung. Ein Übersetzungssystem erzeugt den übersetzten Text Segment für Segment. Streamen Sie jedes Segment zur Synthese, ohne auf den Abschluss der vollständigen Übersetzung warten zu müssen.
-
Long-form Inhalt, der SynthesizeSpeech Grenzen überschreitet. Text, der länger als 6.000 Zeichen ist, kann kontinuierlich gestreamt werden, ohne dass er in mehrere Anfragen aufgeteilt wird oder Abschnittsgrenzen verwaltet werden müssen.
| Aspekt | SynthesizeSpeech | StartSpeechSynthesisStream |
|---|---|---|
Protocol (Protokoll) |
Request-response |
Bidirektionaler Eventstream () HTTP/2 |
Lieferung von Text |
Volltext im Anfragetext |
Eingabetext über TextEvent Nachrichten streamen |
Audioübertragung |
Audioantwort über HTTP-Antworttext streamen |
Audioantwort über AudioEvent Nachrichten streamen |
Motorunterstützung |
Standard, neuronal, langförmig, generativ |
nur generativ |
SSML-Unterstützung |
Ja (alle Engines; die unterstützten Tags variieren je nach Engine) |
|
Lexika |
Ja |
Ja |
Sprachzeichen |
Ja |
Nein |
Textlimit |
Insgesamt 6.000 Zeichen (3.000 in Rechnung gestellt) pro Anfrage |
Insgesamt 6.000 Zeichen (3.000 in Rechnung gestellt) pro TextEvent |
AWS CLI Unterstützung |
Ja |
Nein (bidirektionales Streaming erfordert ein SDK) |