SynthesizeSpeech et StartSpeechSynthesisStream comparé

SynthesizeSpeechest une opération de demande-réponse. Vous fournissez le texte complet en une seule demande et recevez le son synthétisé complet en une seule réponse. Il prend en charge tous les moteurs (standard, neuronal, long format, génératif), tous les formats de sortie, y compris les marques vocales, et dispose d'une limite de texte de 6 000 caractères au total (dont pas plus de 3 000 caractères peuvent être facturés) par demande. La réponse renvoie le son dès que les premiers octets sont disponibles. Utilisez cette opération lorsque tout le texte est disponible dès le départ.

StartSpeechSynthesisStreamest une opération de diffusion bidirectionnelle. Il ouvre une HTTP/2 connexion par laquelle vous envoyez du texte de manière incrémentielle et recevez du son au fur et à mesure de sa synthèse. Il n'y a pas de limite de texte par demande puisque le texte est diffusé en continu. Il nécessite le moteur génératif et ne prend pas en charge les marques vocales. Utilisez cette opération lorsque le texte arrive de manière incrémentielle et que vous souhaitez que la sortie audio commence avant que toutes les entrées ne soient disponibles. Les scénarios courants incluent :

IA conversationnelle et assistants vocaux. Un modèle de langage de grande taille génère le texte de réponse en petits morceaux (jetons). Transférez chaque fragment de texte à Amazon Polly dès son arrivée afin que l'utilisateur entende la parole pendant que le modèle est encore en cours de génération.
Real-time traduction. Un système de traduction produit le texte traduit segment par segment. Diffusez chaque segment à des fins de synthèse sans attendre la fin de la traduction complète.
Long-form contenu dépassant SynthesizeSpeech les limites. Le texte de plus de 6 000 caractères peut être diffusé en continu sans être scindé en plusieurs demandes ou sans gérer de limites partielles.

Comparaison de SynthesizeSpeech et StartSpeechSynthesisStream
Aspect	SynthesizeSpeech	StartSpeechSynthesisStream
Protocole	Request-response	Flux d'événements bidirectionnel () HTTP/2
Livraison de SMS	Texte intégral dans le corps de la demande	Streaming de texte d'entrée via TextEvent des messages
Diffusion audio	Réponse audio en streaming via le corps de réponse HTTP	Réponse audio en streaming via AudioEvent des messages
Support moteur	standard, neuronal, de forme longue, génératif	génératif uniquement
Support SSML	Oui (tous les moteurs ; les balises prises en charge varient selon le moteur)	Oui (balises de moteur génératives uniquement)
Lexiques	Oui	Oui
Marques vocales	Oui	Non
Limite de texte	6 000 caractères au total (3 000 facturés) par demande	6 000 caractères au total (3 000 facturés) par TextEvent
AWS CLI soutien	Oui	Non (le streaming bidirectionnel nécessite un SDK)

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Streaming bidirectionnel

Envoi de texte et réception audio