View a markdown version of this page

SynthesizeSpeech et StartSpeechSynthesisStream comparé - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SynthesizeSpeech et StartSpeechSynthesisStream comparé

SynthesizeSpeechest une opération de demande-réponse. Vous fournissez le texte complet en une seule demande et recevez le son synthétisé complet en une seule réponse. Il prend en charge tous les moteurs (standard, neuronal, long format, génératif), tous les formats de sortie, y compris les marques vocales, et dispose d'une limite de texte de 6 000 caractères au total (dont pas plus de 3 000 caractères peuvent être facturés) par demande. La réponse renvoie le son dès que les premiers octets sont disponibles. Utilisez cette opération lorsque tout le texte est disponible dès le départ.

StartSpeechSynthesisStreamest une opération de diffusion bidirectionnelle. Il ouvre une HTTP/2 connexion par laquelle vous envoyez du texte de manière incrémentielle et recevez du son au fur et à mesure de sa synthèse. Il n'y a pas de limite de texte par demande puisque le texte est diffusé en continu. Il nécessite le moteur génératif et ne prend pas en charge les marques vocales. Utilisez cette opération lorsque le texte arrive de manière incrémentielle et que vous souhaitez que la sortie audio commence avant que toutes les entrées ne soient disponibles. Les scénarios courants incluent :

  • IA conversationnelle et assistants vocaux. Un modèle de langage de grande taille génère le texte de réponse en petits morceaux (jetons). Transférez chaque fragment de texte à Amazon Polly dès son arrivée afin que l'utilisateur entende la parole pendant que le modèle est encore en cours de génération.

  • Real-time traduction. Un système de traduction produit le texte traduit segment par segment. Diffusez chaque segment à des fins de synthèse sans attendre la fin de la traduction complète.

  • Long-form contenu dépassant SynthesizeSpeech les limites. Le texte de plus de 6 000 caractères peut être diffusé en continu sans être scindé en plusieurs demandes ou sans gérer de limites partielles.

Comparaison de SynthesizeSpeech et StartSpeechSynthesisStream
Aspect SynthesizeSpeech StartSpeechSynthesisStream

Protocole

Request-response

Flux d'événements bidirectionnel () HTTP/2

Livraison de SMS

Texte intégral dans le corps de la demande

Streaming de texte d'entrée via TextEvent des messages

Diffusion audio

Réponse audio en streaming via le corps de réponse HTTP

Réponse audio en streaming via AudioEvent des messages

Support moteur

standard, neuronal, de forme longue, génératif

génératif uniquement

Support SSML

Oui (tous les moteurs ; les balises prises en charge varient selon le moteur)

Oui (balises de moteur génératives uniquement)

Lexiques

Oui

Oui

Marques vocales

Oui

Non

Limite de texte

6 000 caractères au total (3 000 facturés) par demande

6 000 caractères au total (3 000 facturés) par TextEvent

AWS CLI soutien

Oui

Non (le streaming bidirectionnel nécessite un SDK)