数据输入和输出

Amazon Transcribe 将音频数据作为 Amazon S3 存储桶或媒体流中的媒体文件，然后将其转换为文本数据。

如果您正在转录存储在存储 Amazon S3 桶中的媒体文件，则是在执行批量转录。如果您要转录媒体流，则将执行流式转录。这两个过程有不同的规则和要求。

对于批量转录，如果您不需要并发处理所有转录作业，请使用作业队列。这样可以 Amazon Transcribe 跟踪您的转录作业，并在空位可用时对其进行处理。

注意

Amazon Transcribe 可能会临时存储您的内容，以持续提高其分析模型的质量。要了解更多信息，请参阅 Amazon Transcribe 常见问题。要请求删除可能已由存储的内容 Amazon Transcribe，请使用打开案例支持。

媒体格式

批量转录和流式转录支持的媒体类型有所不同，但建议两者都使用无损格式。有关详细信息，请参见下表：

	Batch	流式传输
支持的格式	AMR FLAC M4A MP3 MP4 Ogg WebM WAV	FLAC Ogg Opus PCM 编码
建议的格式	FLAC 采用 PCM 16 位编码的 WAV	FLAC PCM 签名的 16 位小端音频（请注意，这不包括 WAV）

为了获得最佳效果，请使用无损格式，如 FLAC 或采用 PCM 16 位编码的 WAV。

注意

并非所有语言都支持流式转录。有关详细信息，请参阅支持的语言表中的“数据输入”列。

音频声道

Amazon Transcribe 支持单通道和双通道媒体。目前不支持包含两个以上声道的媒体。

如果您的音频在一个声道上包含多个发言者，并且您想在转录输出中对每个发言者进行划分和标记，则可以使用发言者划分（分类）。

如果您的音频在两个独立声道上都有语音，则可以使用声道识别在转录中分别转录每个声道。

这两个选项都会生成一个转录文件。

注意

如果您未启用发言者划分或声道识别，则您的转录文本将作为一个连续的部分提供。

采样率

对于批量转录作业，您可以选择提供采样率，尽管此参数是可选参数。如果您在请求中包含该值，请确保您提供的值与音频中的实际采样率相匹配。如果您提供的采样率与您的音频不匹配，则您的作业可能会失败。

对于流式转录，您必须在请求中包含采样率。与批量转录作业一样，请确保您提供的值与音频中的实际采样率相匹配。

低保真音频（例如电话录音）的采样率通常使用 8000 Hz。对于高保真音频， Amazon Transcribe 支持介于 16,000 Hz 和 48,000 Hz 之间的值。

Output

转录输出采用 JSON 格式。转录的第一部分包含转录本身（段落形式），然后是关于每个单词和标点符号的其它数据。提供的数据取决于您在请求中包含的特征。您的转录至少包含每个单词的开始时间、结束时间和置信度分数。以下部分显示了基本转录请求的输出示例，其中不包含任何其它选项或特征。

所有批处理记录都存储在存储 Amazon S3 桶中。您可以选择将成绩单保存在自己的 Amazon S3 存储桶中，也可以 Amazon Transcribe 使用安全的默认存储桶。要了解有关创建和使用 Amazon S3 存储桶的更多信息，请参阅使用存储桶。

如果您希望将笔录存储在您拥有的存储 Amazon S3 桶中，请在转录请求中指定该存储桶的 URI。在开始批量转录作业之前，请务必授予此存储桶的 Amazon Transcribe 写入权限。如果您指定自己的存储桶，则您的转录将保留在该存储桶中，直到您将其删除。

如果您未指定 Amazon S3 存储桶，则 Amazon Transcribe 使用安全的服务托管存储桶，并为您提供一个临时 URI，供您用来下载脚本。请注意，临时 URI 的有效期为 15 分钟。如果您在使用所提供的 URI 时遇到 AccessDenied 错误，请发送 GetTranscriptionJob 请求为您的转录获取新的临时 URI。

如果您选择默认存储桶，则转录会在作业到期（90 天）时删除。如果您想在到期日期之后继续保留转录，则必须进行下载。

流式转录通过与音频流相同的方法返回。

提示

如果你想将 JSON 输出转换为 Word 格式的逐向脚本，请参阅此GitHub 示例（适用于 Python3）。此脚本适用于通话后分析转录和标准批量转录，并启用了分类功能。

输出示例

转录以段落形式提供完整的转录，然后是逐字明细，提供关于每个单词和标点符号的数据。这包括开始时间、结束时间、置信度分数和类型（pronunciation 或 punctuation）。

以下示例来自一个简单的批量转录作业，其中不包含任何其它特征。在转录请求中每额外应用一项特征，您就可以在转录输出文件中获得额外的数据。

基本批量转录分为两个主要部分：

transcripts: 将整个转录包含在一个文本块中。
items：包含 transcripts 部分中每个单词和标点符号的信息。
audio_segments：音频片段是指录音的特定部分，该部分包含连贯的口语内容，且只有极少的停顿或中断。该片段用于捕获自然的语音流，并以起始时间和结束时间的形式记录在 audio_segments 中。音频片段中的 items 元素是一系列标识符，这些标识符对应于该片段中的各个项目。

您在转录请求每额外包含一项特征，都将会在您的转录中产生额外的信息。


{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

工作原理

转录数值