SynthesizeSpeech e confrontato StartSpeechSynthesisStream

SynthesizeSpeechè un'operazione di richiesta-risposta. Fornisci il testo completo in un'unica richiesta e ricevi l'audio sintetizzato completo in un'unica risposta. Supporta tutti i motori (standard, neurali, estesi, generativi), tutti i formati di output, compresi i contrassegni vocali, e ha un limite di testo di 6.000 caratteri totali (di cui non più di 3.000 possono essere fatturati) per richiesta. La risposta restituisce l'audio non appena i primi byte sono disponibili. Utilizzate questa operazione quando avete tutto il testo disponibile in anticipo.

StartSpeechSynthesisStreamè un'operazione di streaming bidirezionale. Apre una HTTP/2 connessione tramite la quale si invia testo in modo incrementale e si riceve l'audio man mano che viene sintetizzato. Non esiste un limite di testo per richiesta poiché il testo viene trasmesso in streaming in modo continuo. Richiede il motore generativo e non supporta i segni vocali. Utilizzate questa operazione quando il testo arriva in modo incrementale e desiderate che l'uscita audio inizi prima che tutti gli input siano disponibili. Gli scenari più comuni includono:

IA conversazionale e assistenti vocali. Un modello linguistico di grandi dimensioni genera il testo di risposta in piccoli blocchi (token). Inoltra ogni blocco di testo ad Amazon Polly non appena arriva in modo che l'utente ascolti il parlato mentre il modello è ancora in fase di generazione.
Real-time traduzione. Un sistema di traduzione produce il testo tradotto segmento per segmento. Trasmetti in streaming ogni segmento per la sintesi senza attendere il completamento della traduzione completa.
Long-form contenuti che superano SynthesizeSpeech i limiti. Il testo più lungo di 6.000 caratteri può essere trasmesso in streaming continuo senza suddividerlo in più richieste o gestire i limiti dei blocchi.

SynthesizeSpeech Confronto tra e StartSpeechSynthesisStream
Aspetto	SynthesizeSpeech	StartSpeechSynthesisStream
Protocollo	Request-response	Flusso di eventi bidirezionale () HTTP/2
Invio di testo	Testo completo nel corpo della richiesta	Streaming del testo di input tramite TextEvent messaggi
Consegna audio	Streaming della risposta audio tramite il corpo della risposta HTTP	Streaming della risposta audio tramite AudioEvent messaggi
Supporto al motore	standard, neurale, di forma lunga, generativa	solo generativo
supporto SSML	Sì (tutti i motori; i tag supportati variano in base al motore)	Sì (solo tag generativi del motore)
Lessici	Sì	Sì
Segni vocali	Sì	No
Limite di testo	6.000 caratteri totali (3.000 fatturati) per richiesta	6.000 caratteri totali (3.000 fatturati) per TextEvent
AWS CLI supporto	Sì	No (lo streaming bidirezionale richiede un SDK)

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Streaming bidirezionale

Invio di testo e ricezione di audio