

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Marques vocales
<a name="speechmarks"></a>

Les *marques vocales* sont des métadonnées qui décrivent le discours que vous synthétisez, par exemple l'emplacement de début et de fin d'une phrase ou d'un mot dans un flux audio. Lorsque vous demandez des marques vocales pour votre texte, Amazon Polly renvoie ces métadonnées au lieu de la synthèse vocale. En utilisant des marques vocales avec votre flux audio de synthèse vocale, vous pouvez améliorer l'expérience visuelle dans vos applications. 

Par exemple, la combinaison des métadonnées avec le flux audio de votre texte peut vous permettre de synchroniser la parole avec l'animation faciale (synchronisation labiale) ou de surligner des mots écrits au fur et à mesure qu'ils sont prononcés.

Les Speechmarks sont disponibles lorsque vous utilisez des moteurs neuronaux, longs ou standard. text-to-speech

**Topics**
+ [Types de marques vocales](using-speechmarks.md)
+ [Visemes et Amazon Polly](viseme.md)
+ [Sortie Speech Mark](output.md)
+ [Demande de marques vocales](speechmarksconsole.md)
+ [Exemples de marques vocales sans SSML](sp-mks-example1.md)
+ [Exemple de marques vocales avec SSML](sp-mks-example2.md)

# Types de marques vocales
<a name="using-speechmarks"></a>

Vous demandez des marques vocales à l'aide de l'[SpeechMarkTypes](https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisTask.html#polly-StartSpeechSynthesisTask-request-SpeechMarkTypes)option correspondant aux [StartSpeechSynthesisTask](https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisTask.html)commandes [SynthesizeSpeech](https://docs.aws.amazon.com/polly/latest/dg/API_SynthesizeSpeech.html)ou. Spécifiez les éléments de métadonnées que votre texte d'entrée doit renvoyer. Vous pouvez demander jusqu'à quatre types de métadonnées, mais en spécifier au moins un par demande. Aucune sortie audio n'est générée avec la demande.

Dans le AWS CLI, par exemple :

```
--speech-mark-types='["sentence", "word", "viseme", "ssml"]'
```

Amazon Polly génère des marques vocales à l'aide des éléments suivants :
+  **phrase** — Indique un élément de phrase dans le texte saisi. 
+  **word** — Indique un élément de mot dans le texte. 
+  **viseme** — Décrit les mouvements du visage et de la bouche correspondant à chaque phonème prononcé. Pour de plus amples informations, veuillez consulter [Visemes et Amazon Polly](viseme.md). 
+  **ssml** — Décrit un <mark>élément du texte d'entrée SSML. Pour de plus amples informations, veuillez consulter [Génération de discours à partir de documents SSML](ssml.md).

# Visemes et Amazon Polly
<a name="viseme"></a>

Un *visème* représente la position du visage et de la bouche dans la prononciation d'un mot. C'est l'équivalent visuel d'un phonème, qui est l'unité acoustique de base à partir de laquelle un mot est formé. Les visèmes sont les blocs de construction visuels de base du discours.

Chaque langue possède un ensemble de visèmes correspondant à ses phonèmes spécifiques. Dans une langue, chaque phonème a un visème correspondant qui représente la forme que prend la bouche pour former le son. Cependant, tous les visèmes ne peuvent pas être mis en correspondance avec un phonème spécifique, car bon nombre de phonèmes paraissent identiques lorsqu'ils sont prononcés bien qu'ils semblent différents. Par exemple, en anglais, les mots « pet » et « bet » sont différents du point de vue acoustique. Cependant, leur apparence visuelle (sans le son) est exactement la même.

Le graphique suivant présente une vue partielle des phonèmes IPA (International Phonetic Alphabet) et des symboles X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet), ainsi que les visèmes correspondants pour les voix en anglais américain.

Pour afficher la totalité du tableau ainsi que les tableaux pour toutes les langues disponibles, consultez [Langues d'Amazon Polly](supported-languages.md).


| IPA | X-SAMPA | Description | Exemple | Visème | 
| --- | --- | --- | --- | --- | 
|  **Consonnes**  | 
| b | b | Plosive bilabiale sonore | **b**ed | p | 
| d | d | Plosive alvéolaire sonore | **d**ig | t | 
| d͡ʒ | dZ | Fricative post-alvéolaire sonore | **j**ump |  S | 
| ð | D | Fricative dentale sonore | **then** | T | 
| f | f | Fricative labio-dentale sourde | **f**ive | f | 
| g | g | Plosive vélaire sonore | **g**ame | k | 
| h | h | Fricative glottale sourde | **h**ouse | k | 
| ... | ... | ... | ... | ... | 

# Sortie Speech Mark
<a name="output"></a>

Amazon Polly renvoie les objets de marque vocale dans un flux JSON délimité par des lignes. Chaque objet de marque vocale contient les champs suivants :
+  **time** — l'horodatage en millisecondes à compter du début du flux audio correspondant
+  **type** : type de marque vocale (phrase, mot, visème ou ssml)
+  **début** : décalage en octets (et non en caractères) du début de l'objet dans le texte saisi (sans compter les marques de visème)
+  **fin** : le décalage en octets (et non en caractères) de la fin de l'objet dans le texte saisi (sans compter les marques de visème) 
+  **valeur** : elle varie en fonction du type de marque vocale
  +  **SSML** : balise SSML <mark>
  +  **viseme** : le nom du visème
  +  **word** ou **sentence** : sous-chaîne du texte d'entrée, telle que délimitée par les champs de début et de fin

Par exemple, Amazon Polly génère l'objet de marque `word` vocale suivant à partir du texte « Mary had a little lamb » :

```
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
```

Le mot décrit (« had ») commence 373 millisecondes après le début du flux audio à l'octet 5 et se termine à l'octet 8 du texte d'entrée. 

**Note**  
Cette métadonnée correspond au voice-id `Joanna`. Si vous utilisez une autre voix avec le même texte d'entrée, la métadonnée peut être différente.

# Demande de marques vocales
<a name="speechmarksconsole"></a>

Vous pouvez utiliser la console ou la `synthesize-speech` commande pour demander des marques vocales à Amazon Polly. Vous pouvez ensuite afficher les métadonnées ou les enregistrer dans un fichier.

------
#### [ Console ]

**Pour générer des marques vocales sur la console**

1. Connectez-vous à la console Amazon Polly AWS Management Console et ouvrez-la à l'adresse. [https://console.aws.amazon.com/polly/](https://console.aws.amazon.com/polly/)

1. Choisissez l'onglet **Text-to-Speech (Synthèse vocale)**.

1. Activez le protocole **SSML** pour utiliser le protocole SSML.

1. Saisissez ou collez votre texte dans la zone d'entrée.

1. Dans **Langue**, choisissez la langue de votre texte.

1. Pour **Voice**, choisissez la voix que vous souhaitez utiliser.

1. Pour modifier la prononciation du texte, développez **les paramètres supplémentaires**, activez **Personnaliser la prononciation** et, dans **Appliquer le lexique**, choisissez le lexique souhaité. 

1. Pour vérifier le discours, choisissez **Écouter**. 

1. Activez les **paramètres de format de fichier vocal**. 
**Note**  
Le téléchargement MP3, les formats OGG ou PCM ne génèrent pas de marques vocales.

1. Pour **Format de fichier**, sélectionnez **Signes vocaux**. 

1. Pour les **types de marques vocales**, choisissez les types de marques vocales à générer. L'option permettant de choisir les métadonnées **SSML** n'est disponible que lorsque le protocole **SSML est activé**. Pour plus d'informations sur l'utilisation de SSML avec Amazon [Génération de discours à partir de documents SSML](ssml.md) Polly, consultez. 

1. Choisissez **Téléchargement**. 

------
#### [ AWS CLI ]

Outre le texte saisi, les éléments suivants sont nécessaires pour renvoyer ces métadonnées :
+ `output-format`

  Amazon Polly prend uniquement en charge le format JSON lors du renvoi de marques vocales. 

  ```
  --output-format json
  ```

  Si vous utilisez un format de sortie non pris en charge, Amazon Polly génère une exception.
+ `voice-id`

  Pour que les métadonnées correspondent bien au flux audio associé, spécifiez la même voix que celle qui est utilisée pour générer le flux audio de la synthèse vocale. Les voix disponibles n'ont pas les mêmes débits de parole. Si vous utilisez une voix différente de celle qui est utilisée pour générer le discours, les métadonnées ne correspondront pas au flux audio.

  ```
  --voice-id Joanna
  ```
+ `speech-mark-types`

  Spécifiez le ou les types de marques vocales voulues. Vous pouvez demander une partie ou la totalité des types de marques vocales, mais vous devez spécifier au moins un type.

  ```
  --speech-mark-types='["sentence", "word", "viseme", "ssml"]'
  ```
+ `text-type`

  Le texte brut est le texte d'entrée par défaut pour Amazon Polly. Vous devez donc l'utiliser `text-type ssml` si vous souhaitez renvoyer des marques vocales SSML.
+ `outfile`

  Spécifiez le fichier de sortie dans lequel les métadonnées sont enregistrées.

  ```
  MaryLamb.txt 
  ```

L' AWS CLI exemple suivant est formaté pour Unix, Linux et macOS. Pour Windows, remplacez le caractère de continuation Unix (\$1) à la fin de chaque ligne par un curseur (^) et utilisez des guillemets complets («) autour du texte saisi par des guillemets simples (') pour les balises intérieures.

```
aws polly synthesize-speech \
  --output-format json \
  --voice-id Voice ID \
  --text 'Input text' \
  --speech-mark-types='["sentence", "word", "viseme"]' \
  outfile
```

------

# Exemples de marques vocales sans SSML
<a name="sp-mks-example1"></a>

L'exemple suivant montre à quoi ressemblent les métadonnées demandées sur votre écran pour la phrase « Mary had a little lamb. » Pour simplifier, cet exemple n'inclut pas de marques vocales SSML.

L' AWS CLI exemple suivant est formaté pour Unix, Linux et macOS. Pour Windows, remplacez le caractère de continuation Unix (\$1) à la fin de chaque ligne par un curseur (^) et utilisez des guillemets complets («) autour du texte saisi par des guillemets simples (') pour les balises intérieures.

```
aws polly synthesize-speech \
  --output-format json \
  --voice-id Joanna \
  --text 'Mary had a little lamb.' \
  --speech-mark-types='["viseme", "word", "sentence"]' \
  MaryLamb.txt
```

Lorsque vous faites cette demande, Amazon Polly renvoie les informations suivantes dans le fichier .txt :

```
{"time":0,"type":"sentence","start":0,"end":23,"value":"Mary had a little lamb."}
{"time":6,"type":"word","start":0,"end":4,"value":"Mary"}
{"time":6,"type":"viseme","value":"p"}
{"time":73,"type":"viseme","value":"E"}
{"time":180,"type":"viseme","value":"r"}
{"time":292,"type":"viseme","value":"i"}
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
{"time":373,"type":"viseme","value":"k"}
{"time":460,"type":"viseme","value":"a"}
{"time":521,"type":"viseme","value":"t"}
{"time":604,"type":"word","start":9,"end":10,"value":"a"}
{"time":604,"type":"viseme","value":"@"}
{"time":643,"type":"word","start":11,"end":17,"value":"little"}
{"time":643,"type":"viseme","value":"t"}
{"time":739,"type":"viseme","value":"i"}
{"time":769,"type":"viseme","value":"t"}
{"time":799,"type":"viseme","value":"t"}
{"time":882,"type":"word","start":18,"end":22,"value":"lamb"}
{"time":882,"type":"viseme","value":"t"}
{"time":964,"type":"viseme","value":"a"}
{"time":1082,"type":"viseme","value":"p"}
```

Dans cette sortie, chaque partie du texte est divisée selon les marques vocales :
+ La phrase « Mary had a little lamb. »
+ Chaque mot du texte : « Mary », « had », « a », « little » et « lamb. »
+ Le visème de chaque son dans le flux audio correspondant : « p », « E », « r », « i », et ainsi de suite. Pour plus d'informations sur les visèmes, consultez la section [Visemes et Amazon Polly](viseme.md).

# Exemple de marques vocales avec SSML
<a name="sp-mks-example2"></a>

Le processus de génération du texte amélioré par SSML est similaire à celui qui ne fait pas appel au SSML. Utilisez la commande `synthesize-speech` et spécifiez le texte amélioré par SSML et le type de marques vocales voulu, comme le montre l'exemple suivant : Pour faciliter la lecture de l'exemple, nous n'incluons pas les marques vocales viseme, mais celles-ci pourraient également être incluses.

L' AWS CLI exemple suivant est formaté pour Unix, Linux et macOS. Pour Windows, remplacez le caractère de continuation Unix (\$1) à la fin de chaque ligne par un curseur (^) et utilisez des guillemets complets («) autour du texte saisi par des guillemets simples (') pour les balises intérieures.

```
aws polly synthesize-speech \
  --output-format json \
  --voice-id Joanna \
  --text-type ssml \
  --text '<speak><prosody volume="+20dB">Mary had <break time="300ms"/>a little <mark name="animal"/>lamb</prosody></speak>' \
  --speech-mark-types='["sentence", "word", "ssml"]' \
  output.txt
```

Lorsque vous faites cette demande, Amazon Polly renvoie les informations suivantes dans le fichier .txt :

```
{"time":0,"type":"sentence","start":31,"end":95,"value":"Mary had <break time=\"300ms\"\/>a little <mark name=\"animal\"\/>lamb"}
{"time":6,"type":"word","start":31,"end":35,"value":"Mary"}
{"time":325,"type":"word","start":36,"end":39,"value":"had"}
{"time":897,"type":"word","start":40,"end":61,"value":"<break time=\"300ms\"\/>"}
{"time":1291,"type":"word","start":61,"end":62,"value":"a"}
{"time":1373,"type":"word","start":63,"end":69,"value":"little"}
{"time":1635,"type":"ssml","start":70,"end":91,"value":"animal"}
{"time":1635,"type":"word","start":91,"end":95,"value":"lamb"}
```