Synthetisieren von Sprache mit bidirektionalem Streaming

Amazon Polly bietet einen StartSpeechSynthesisStream Vorgang, der eine HTTP/2 Verbindung mit bidirektionaler Kommunikation zwischen Ihrer Anwendung und dem Service herstellt. Text fließt von Ihrer Anwendung zu Amazon Polly, während synthetisiertes Audio zurückfließt. Sie senden Text, sobald er verfügbar ist, und Amazon Polly gibt Audio zurück, während es synthetisiert wird, ohne dass eine Seite darauf wartet, dass die andere Seite fertig ist.

Dies ist nützlich, wenn Text schrittweise und nicht auf einmal erzeugt wird. Beispielsweise generiert ein Kundenservice-Chatbot, der auf einem Foundation-Modell auf Amazon Bedrock basiert, seine Antwort Token für Token. Mit bidirektionalem Streaming kann Ihre Anwendung jeden Textblock an Amazon Polly weiterleiten, während das Modell ihn erzeugt, und mit der Audiowiedergabe für den Anrufer beginnen, während das Modell den Rest der Antwort generiert.

Für diesen Vorgang sind die Generative Engine und ein AWS SDK erforderlich, das Event-Streams unterstützt. HTTP/2 Das Audio wird als Folge von Blöcken empfangen, die Ihre Anwendung zu einer vollständigen Audioausgabe zusammenfasst. Sprachzeichen werden von diesem Vorgang nicht unterstützt.

Anmerkung

AWS CLI (v1 und v2), AWS Tools für PowerShell (v4 und v5), Python und .NET v3 werden nicht unterstützt. Sie können die bidirektionale Streaming-API mit den folgenden SDKs verwenden: AWS SDK for Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust und Swift.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beispiel für Sprachsynthese

SynthesizeSpeech und StartSpeechSynthesisStream verglichen