

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 转录流式音频
<a name="streaming"></a>

使用 Amazon Transcribe 流媒体，您可以为媒体内容制作实时转录。与涉及上传媒体文件的批量转录不同，流媒体是实时传送到 Amazon Transcribe 的。 Amazon Transcribe 然后返回笔录，也是实时的。

流式媒体可以包括预先录制的媒体（电影、音乐和播客）和实时媒体（新闻直播）。常见的直播用例 Amazon Transcribe 包括体育赛事的直播隐藏式字幕和呼叫中心音频的实时监控。

流式媒体内容以一系列顺序数据包或“组块”的形式传送， Amazon Transcribe 即时转录这些内容。与批处理相比，使用流媒体的优势包括应用程序中的实时 speech-to-text功能和更快的转录时间。但是，在某些情况下，这种速度的提高可能会影响准确性。

Amazon Transcribe 提供以下直播选项：
+ [SDKs](getting-started-sdk.md)（首选）
+ [HTTP/2](streaming-setting-up.md#streaming-http2)
+ [WebSockets](streaming-setting-up.md#streaming-websocket)
+ [AWS 管理控制台](https://console.aws.amazon.com/transcribe/)

要在中转录流式音频 AWS 管理控制台，请对着电脑麦克风说话。

**提示**  
有关 SDK 代码示例，请参阅上的[AWS 示例存储库](https://github.com/orgs/aws-samples/repositories?language=&q=transcribe&sort=&type=all) GitHub。

流式转录支持的音频格式有：
+ FLAC
+ Ogg 容器中的 Opus 编码音频
+ PCM（仅带签名的 16 位小端音频格式，**不包括** WAV）

建议使用无损格式（FLAC 或 PCM）。

**注意**  
并非所有语言都支持流式转录。有关详细信息，请参阅[支持的语言表](supported-languages.md)中的“数据输入”列。

要查看流媒体转录的 Amazon Transcribe 区域可用性，请参阅：[Amazon Transcribe 终端节点和配额。](https://docs.aws.amazon.com/general/latest/gr/transcribe.html#transcribe_region)

## 最佳实践
<a name="best-practices"></a>

以下建议可提高流式转录的效率：
+ 如果可能，请使用 PCM 编码的音频。
+ 请确保您的音频流尽可能接近实时传输。
+ 延迟取决于音频组块的大小。如果您能够使用音频类型（例如使用 PCM）指定组块大小，请将每个组块设置为 50 毫秒到 200 毫秒之间。您可以通过以下公式计算音频块大小：

  ```
  chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  ```
+ 使用统一的组块大小。
+ 确保正确指定了音频声道的数量。
+ 对于单声道 PCM 音频，每个样本由两个字节组成，因此每个组块应由偶数字节组成。
+ 对于双声道 PCM 音频，每个样本由四个字节组成，因此每个组块应是 4 字节的倍数。
+ 当您的音频流不包含语音时，请编码并发送相同数量的无声音频。例如，PCM 的无声音频是一个零字节的音频流。
+ 确保为音频指定正确的采样率。如果可能，请以 16000 Hz 的采样率进行录制；这在通过网络发送的质量和数据量之间做到了最佳折衷。请注意，大多数高端麦克风的录音频率为 44100 Hz 或 48000 Hz。