

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 语音标记输出


Amazon Polly 将返回以换行符分隔的 JSON 流中的语音标记对象。语音标记对象包含以下字段：
+  **time** – 相应音频流开头的时间戳（以毫秒为单位）
+  **type** – 语音的类型（句子、单词、语音视位或 ssml 标记）。
+  **start** – 输入文本中对象开头的偏移量（以字节而不是字符为单位，不包括语音视位标记）
+  **end** – 输入文本中对象末尾的偏移量（以字节而不是字符为单位，不包括语音视位标记） 
+  **value** – 根据语音标记类型变化
  +  **SSML**：<mark> SSML 标签
  +  **viseme**：语音视位名称
  +  **word** 或 **sentence**：输入文本的子字符串，由开始和结束字段分隔

例如，Amazon Polly 从文本“Mary had a little lamb”（玛丽有一只小羊羔）生成以下 `word` 语音标记对象：

```
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
```

所描述的单词（“had”（具有））开始于音频流开始后 373 毫秒，并从输入文本的字节 5 处开始，在字节 8 处结束。

**注意**  
此元数据用于 `Joanna` 语音 ID。如果您使用另一个有相同输入文本的声音，元数据可能有所不同。