使用医学自定义词汇表转录实时音频流 - Amazon Transcribe

使用医学自定义词汇表转录实时音频流

为了提高实时音频流中的转录准确性,您可以通过 HTTP/2 或 WebSocket 音频流来使用自定义词汇表。要启动 HTTP/2 请求,请使用 StartMedicalStreamTranscription API。您可以使用 AWS 管理控制台、StartMedicalStreamTranscription API 或 WebSocket 协议实时使用自定义词汇表。

要使用 AWS 管理控制台转录医学口述的流式音频,请选择转录医学口述的选项,开始流式转录,然后开始对着麦克风说话。

转录医学口述的流式音频(AWS 管理控制台)
  1. 登录到 AWS 管理控制台

  2. 在导航窗格的 Amazon Transcribe Medical 下,选择实时转录

  3. 对于医学专科,请选择在音频流中发言的临床医生的医学专科。

  4. 对于音频输入类型,选择对话口述

  5. 对于其它设置,请选择自定义词汇表

    1. 对于词汇表选择,请选择自定义词汇表。

  6. 选择 Start streaming(开始流式传输)

  7. 对着麦克风说话。

以下是 HTTP/2 请求的参数的语法。

POST /medical-stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com authorization: Generated value x-amz-target: com.amazonaws.transcribe.Transcribe.StartMedicalStreamTranscription x-amz-content-sha256: STREAMING-MED-AWS4-HMAC-SHA256-EVENTS x-amz-date: 20220208T235959Z x-amzn-transcribe-session-id: my-first-http2-med-stream x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-name: my-first-med-vocab x-amzn-transcribe-specialty: PRIMARYCARE x-amzn-transcribe-type: CONVERSATION x-amzn-transcribe-show-speaker-label: true Content-type: application/vnd.amazon.eventstream transfer-encoding: chunked

参数描述:

  • 主机:使用您正在调用的 AWS 区域更新 AWS 区域(在前面的示例中为“us-west-2”)。有关有效的 AWS 区域的列表,请参阅 AWS 区域和端点

  • 授权:这是一个生成的字段。要了解有关创建签名的更多信息,请参阅使用签名版本 4 对 AWS 请求进行签名

  • x-amz-target:不要更改此字段;请使用前面示例中显示的内容。

  • x-amz-content-sha256:这是一个生成的字段。要了解有关计算签名的更多信息,请参阅使用使用签名版本 4 对 AWS 请求进行签名

  • x-amz-date:创建签名的日期和时间。格式为 YYYYMMDDTHHMMSSZ,其中 YYYY=year、MM=month、DD=day、HH=hour、MM=minute、SS=seconds,T 和 Z 是固定字符。有关更多信息,请参阅处理签名版本 4 中的日期

  • x-amzn-transcribe-session-id:您的流式会话的名称。

  • x-amzn-trancribe-language-code:用于输入音频的编码。有关有效值的列表,请参阅 StartMedicalStreamTranscription支持的语言和特定语言的特征

  • x-amzn-transcribe-media-encoding:用于输入音频的编码。有效值包括 pcmogg-opusflac

  • x-amzn-transcribe-sample-rate:输入音频的采样率(以赫兹为单位)。Amazon Transcribe 支持 8000 Hz 到 48000 Hz 的范围。低质量音频(例如电话音频)通常在 8000 Hz 左右。高质量音频的范围通常在 16000 Hz 到 48000 Hz 之间。请注意,您指定的采样率必须与音频的采样率相匹配。

  • x-amzn-transcribe-vocabulary-name:您想在转录中使用的词汇表的名称。

  • x-amzn-transcribe-speciality:正在转录的医学专科。

  • x-amzn-transcribe-type:选择这是口述还是对话。

  • x-amzn-transcribe-show-show speaker-label:要启用分类,此值必须为 true

  • content-type:不要更改此字段;请使用前面示例中显示的内容。

要使用 API 对 WebSocket 流式转录中的发言者进行划分,请使用以下格式创建用于启动 WebSocket 请求的预签名 URI 并将 vocabulary-name 设置为自定义词汇表的名称。

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=en-US &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean