Sintetizzazione vocale con streaming bidirezionale

Amazon Polly fornisce un'StartSpeechSynthesisStreamoperazione che stabilisce una HTTP/2 connessione con comunicazione bidirezionale tra l'applicazione e il servizio. Il testo scorre dall'applicazione ad Amazon Polly mentre l'audio sintetizzato torna indietro. Invii il testo non appena diventa disponibile e Amazon Polly restituisce l'audio mentre viene sintetizzato, senza che nessuna delle parti aspetti che l'altra finisca.

Ciò è utile quando il testo viene prodotto progressivamente anziché tutto in una volta. Ad esempio, un chatbot di assistenza clienti basato su un modello di base su Amazon Bedrock genera la risposta token per token. Con lo streaming bidirezionale, l'applicazione può inoltrare ogni blocco di testo ad Amazon Polly man mano che il modello lo produce e iniziare a riprodurre l'audio al chiamante mentre il modello sta ancora generando il resto della risposta.

Questa operazione richiede il motore generativo e un SDK che supporti i flussi di AWS eventi. HTTP/2 L'audio arriva come una sequenza di blocchi che l'applicazione accumula in un'uscita audio completa. I segni vocali non sono supportati da questa operazione.

Nota

Le AWS CLI versioni (v1 e v2), AWS Tools for PowerShell (v4 e v5), Python e.NET v3 non sono supportate. Puoi utilizzare l'API di streaming bidirezionale con i seguenti SDK: SDK for AWS Java 2.x JavaScript , v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust e Swift.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esempio di sintesi vocale

SynthesizeSpeech e StartSpeechSynthesisStream confrontato