View a markdown version of this page

SynthesizeSpeech e confrontato StartSpeechSynthesisStream - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SynthesizeSpeech e confrontato StartSpeechSynthesisStream

SynthesizeSpeechè un'operazione di richiesta-risposta. Fornisci il testo completo in un'unica richiesta e ricevi l'audio sintetizzato completo in un'unica risposta. Supporta tutti i motori (standard, neurali, estesi, generativi), tutti i formati di output, compresi i contrassegni vocali, e ha un limite di testo di 6.000 caratteri totali (di cui non più di 3.000 possono essere fatturati) per richiesta. La risposta restituisce l'audio non appena i primi byte sono disponibili. Utilizzate questa operazione quando avete tutto il testo disponibile in anticipo.

StartSpeechSynthesisStreamè un'operazione di streaming bidirezionale. Apre una HTTP/2 connessione tramite la quale si invia testo in modo incrementale e si riceve l'audio man mano che viene sintetizzato. Non esiste un limite di testo per richiesta poiché il testo viene trasmesso in streaming in modo continuo. Richiede il motore generativo e non supporta i segni vocali. Utilizzate questa operazione quando il testo arriva in modo incrementale e desiderate che l'uscita audio inizi prima che tutti gli input siano disponibili. Gli scenari più comuni includono:

  • IA conversazionale e assistenti vocali. Un modello linguistico di grandi dimensioni genera il testo di risposta in piccoli blocchi (token). Inoltra ogni blocco di testo ad Amazon Polly non appena arriva in modo che l'utente ascolti il parlato mentre il modello è ancora in fase di generazione.

  • Real-time traduzione. Un sistema di traduzione produce il testo tradotto segmento per segmento. Trasmetti in streaming ogni segmento per la sintesi senza attendere il completamento della traduzione completa.

  • Long-form contenuti che superano SynthesizeSpeech i limiti. Il testo più lungo di 6.000 caratteri può essere trasmesso in streaming continuo senza suddividerlo in più richieste o gestire i limiti dei blocchi.

SynthesizeSpeech Confronto tra e StartSpeechSynthesisStream
Aspetto SynthesizeSpeech StartSpeechSynthesisStream

Protocollo

Request-response

Flusso di eventi bidirezionale () HTTP/2

Invio di testo

Testo completo nel corpo della richiesta

Streaming del testo di input tramite TextEvent messaggi

Consegna audio

Streaming della risposta audio tramite il corpo della risposta HTTP

Streaming della risposta audio tramite AudioEvent messaggi

Supporto al motore

standard, neurale, di forma lunga, generativa

solo generativo

supporto SSML

Sì (tutti i motori; i tag supportati variano in base al motore)

Sì (solo tag generativi del motore)

Lessici

Segni vocali

No

Limite di testo

6.000 caratteri totali (3.000 fatturati) per richiesta

6.000 caratteri totali (3.000 fatturati) per TextEvent

AWS CLI supporto

No (lo streaming bidirezionale richiede un SDK)