View a markdown version of this page

Synthetisieren von Sprache mit bidirektionalem Streaming - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Synthetisieren von Sprache mit bidirektionalem Streaming

Amazon Polly bietet einen StartSpeechSynthesisStream Vorgang, der eine HTTP/2 Verbindung mit bidirektionaler Kommunikation zwischen Ihrer Anwendung und dem Service herstellt. Text fließt von Ihrer Anwendung zu Amazon Polly, während synthetisiertes Audio zurückfließt. Sie senden Text, sobald er verfügbar ist, und Amazon Polly gibt Audio zurück, während es synthetisiert wird, ohne dass eine Seite darauf wartet, dass die andere Seite fertig ist.

Dies ist nützlich, wenn Text schrittweise und nicht auf einmal erzeugt wird. Beispielsweise generiert ein Kundenservice-Chatbot, der auf einem Foundation-Modell auf Amazon Bedrock basiert, seine Antwort Token für Token. Mit bidirektionalem Streaming kann Ihre Anwendung jeden Textblock an Amazon Polly weiterleiten, während das Modell ihn erzeugt, und mit der Audiowiedergabe für den Anrufer beginnen, während das Modell den Rest der Antwort generiert.

Für diesen Vorgang sind die Generative Engine und ein AWS SDK erforderlich, das Event-Streams unterstützt. HTTP/2 Das Audio wird als Folge von Blöcken empfangen, die Ihre Anwendung zu einer vollständigen Audioausgabe zusammenfasst. Sprachzeichen werden von diesem Vorgang nicht unterstützt.

Anmerkung

AWS CLI (v1 und v2), AWS Tools für PowerShell (v4 und v5), Python und .NET v3 werden nicht unterstützt. Sie können die bidirektionale Streaming-API mit den folgenden SDKs verwenden: AWS SDK for Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust und Swift.