Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SynthesizeSpeech et StartSpeechSynthesisStream comparé
SynthesizeSpeechest une opération de demande-réponse. Vous fournissez le texte complet en une seule demande et recevez le son synthétisé complet en une seule réponse. Il prend en charge tous les moteurs (standard, neuronal, long format, génératif), tous les formats de sortie, y compris les marques vocales, et dispose d'une limite de texte de 6 000 caractères au total (dont pas plus de 3 000 caractères peuvent être facturés) par demande. La réponse renvoie le son dès que les premiers octets sont disponibles. Utilisez cette opération lorsque tout le texte est disponible dès le départ.
StartSpeechSynthesisStreamest une opération de diffusion bidirectionnelle. Il ouvre une HTTP/2 connexion par laquelle vous envoyez du texte de manière incrémentielle et recevez du son au fur et à mesure de sa synthèse. Il n'y a pas de limite de texte par demande puisque le texte est diffusé en continu. Il nécessite le moteur génératif et ne prend pas en charge les marques vocales. Utilisez cette opération lorsque le texte arrive de manière incrémentielle et que vous souhaitez que la sortie audio commence avant que toutes les entrées ne soient disponibles. Les scénarios courants incluent :
-
IA conversationnelle et assistants vocaux. Un modèle de langage de grande taille génère le texte de réponse en petits morceaux (jetons). Transférez chaque fragment de texte à Amazon Polly dès son arrivée afin que l'utilisateur entende la parole pendant que le modèle est encore en cours de génération.
-
Real-time traduction. Un système de traduction produit le texte traduit segment par segment. Diffusez chaque segment à des fins de synthèse sans attendre la fin de la traduction complète.
-
Long-form contenu dépassant SynthesizeSpeech les limites. Le texte de plus de 6 000 caractères peut être diffusé en continu sans être scindé en plusieurs demandes ou sans gérer de limites partielles.
| Aspect | SynthesizeSpeech | StartSpeechSynthesisStream |
|---|---|---|
Protocole |
Request-response |
Flux d'événements bidirectionnel () HTTP/2 |
Livraison de SMS |
Texte intégral dans le corps de la demande |
Streaming de texte d'entrée via TextEvent des messages |
Diffusion audio |
Réponse audio en streaming via le corps de réponse HTTP |
Réponse audio en streaming via AudioEvent des messages |
Support moteur |
standard, neuronal, de forme longue, génératif |
génératif uniquement |
Support SSML |
Oui (tous les moteurs ; les balises prises en charge varient selon le moteur) |
|
Lexiques |
Oui |
Oui |
Marques vocales |
Oui |
Non |
Limite de texte |
6 000 caractères au total (3 000 facturés) par demande |
6 000 caractères au total (3 000 facturés) par TextEvent |
AWS CLI soutien |
Oui |
Non (le streaming bidirectionnel nécessite un SDK) |