Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SynthesizeSpeech e confrontato StartSpeechSynthesisStream
SynthesizeSpeechè un'operazione di richiesta-risposta. Fornisci il testo completo in un'unica richiesta e ricevi l'audio sintetizzato completo in un'unica risposta. Supporta tutti i motori (standard, neurali, estesi, generativi), tutti i formati di output, compresi i contrassegni vocali, e ha un limite di testo di 6.000 caratteri totali (di cui non più di 3.000 possono essere fatturati) per richiesta. La risposta restituisce l'audio non appena i primi byte sono disponibili. Utilizzate questa operazione quando avete tutto il testo disponibile in anticipo.
StartSpeechSynthesisStreamè un'operazione di streaming bidirezionale. Apre una HTTP/2 connessione tramite la quale si invia testo in modo incrementale e si riceve l'audio man mano che viene sintetizzato. Non esiste un limite di testo per richiesta poiché il testo viene trasmesso in streaming in modo continuo. Richiede il motore generativo e non supporta i segni vocali. Utilizzate questa operazione quando il testo arriva in modo incrementale e desiderate che l'uscita audio inizi prima che tutti gli input siano disponibili. Gli scenari più comuni includono:
-
IA conversazionale e assistenti vocali. Un modello linguistico di grandi dimensioni genera il testo di risposta in piccoli blocchi (token). Inoltra ogni blocco di testo ad Amazon Polly non appena arriva in modo che l'utente ascolti il parlato mentre il modello è ancora in fase di generazione.
-
Real-time traduzione. Un sistema di traduzione produce il testo tradotto segmento per segmento. Trasmetti in streaming ogni segmento per la sintesi senza attendere il completamento della traduzione completa.
-
Long-form contenuti che superano SynthesizeSpeech i limiti. Il testo più lungo di 6.000 caratteri può essere trasmesso in streaming continuo senza suddividerlo in più richieste o gestire i limiti dei blocchi.
| Aspetto | SynthesizeSpeech | StartSpeechSynthesisStream |
|---|---|---|
Protocollo |
Request-response |
Flusso di eventi bidirezionale () HTTP/2 |
Invio di testo |
Testo completo nel corpo della richiesta |
Streaming del testo di input tramite TextEvent messaggi |
Consegna audio |
Streaming della risposta audio tramite il corpo della risposta HTTP |
Streaming della risposta audio tramite AudioEvent messaggi |
Supporto al motore |
standard, neurale, di forma lunga, generativa |
solo generativo |
supporto SSML |
Sì (tutti i motori; i tag supportati variano in base al motore) |
|
Lessici |
Sì |
Sì |
Segni vocali |
Sì |
No |
Limite di testo |
6.000 caratteri totali (3.000 fatturati) per richiesta |
6.000 caratteri totali (3.000 fatturati) per TextEvent |
AWS CLI supporto |
Sì |
No (lo streaming bidirezionale richiede un SDK) |