使用医学自定义词汇表转录实时音频流 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用医学自定义词汇表转录实时音频流

要提高实时流中的转录准确性,您可以使用 HTTP/2 或直播来使用自定义词汇。 WebSocket 要启动 HTTP/2 请求,请使用 StartMedicalStreamTranscription API。您可以使用 AWS Management Console、StartMedicalStreamTranscriptionAPI 或使用 WebSocket 协议实时使用自定义词汇表。

要使用转录医疗听写的流式音频,请选择转录医疗听写的选项,开始直播,然后开始对着麦克风说话。 AWS Management Console

转录医学口述的流式音频(AWS Management Console)
  1. 登录到 AWS Management Console

  2. 在导航窗格的 “ Amazon Transcribe 医疗” 下,选择 “实时转录”。

  3. 对于医学专科,请选择在音频流中发言的临床医生的医学专科。

  4. 对于音频输入类型,选择对话口述

  5. 对于其它设置,请选择自定义词汇表

    1. 对于词汇表选择,请选择自定义词汇表。

  6. 选择 Start streaming(开始流式传输)

  7. 对着麦克风说话。

以下是 HTTP/2 请求的参数的语法。

POST /medical-stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com authorization: Generated value x-amz-target: com.amazonaws.transcribe.Transcribe.StartMedicalStreamTranscription x-amz-content-sha256: STREAMING-MED-AWS4-HMAC-SHA256-EVENTS x-amz-date: 20220208T235959Z x-amzn-transcribe-session-id: my-first-http2-med-stream x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-name: my-first-med-vocab x-amzn-transcribe-specialty: PRIMARYCARE x-amzn-transcribe-type: CONVERSATION x-amzn-transcribe-show-speaker-label: true Content-type: application/vnd.amazon.eventstream transfer-encoding: chunked

参数描述:

  • 主机:用你正在调用的更新 AWS 区域 (在前面的示例中为'us-west-2')。 AWS 区域 有关有效内容的列表 AWS 区域,请参阅AWS 区域 和终端节点

  • 授权:这是一个生成的字段。要了解有关创建签名的更多信息,请参阅使用签名版本 4 对 AWS 请求进行签名

  • x-amz-target: 请勿更改此字段;请使用前面示例中显示的内容。

  • x-amz-content-sha256:这是一个生成的字段。要了解有关计算签名的更多信息,请参阅使用签名版本 4 对 AWS 请求进行签名

  • x-amz-date:签名的创建日期和时间。格式为 YYYYMMDDTHHMMSSZ,其中 YYYY=year、MM=month、DD=day、HH=hour、MM=minute、SS=seconds,T 和 Z 是固定字符。有关更多信息,请参阅处理签名版本 4 中的日期

  • x-amzn-transcribe-session-id:您的直播会话的名称。

  • x-amzn-transcribe-language-code:用于输入音频的编码。有关有效值的列表,请参阅 StartMedicalStreamTranscription支持的语言和特定语言的特征

  • x-amzn-transcribe-media-encod ing:用于输入音频的编码。有效值包括 pcmogg-opusflac

  • x-amzn-transcribe-sample-rat e:输入音频的采样率(以赫兹为单位)。 Amazon Transcribe 支持 8,000 Hz 到 48,000 Hz 的范围。低质量音频(例如电话音频)通常在 8000 Hz 左右。高质量音频的范围通常在 16000 Hz 到 48000 Hz 之间。请注意,您指定的采样率必须与音频的采样率相匹配。

  • x-amzn-transcribe-vocabulary-nam e:要用于转录的词汇的名称。

  • x-amzn-transcribe-specialty: 正在转录的医学专业。

  • x-amzn-transcribe-type: 选择这是听写还是对话。

  • x-amzn-transcribe-show-speaker-label:要启用二进制,此值必须为。true

  • content-type:不要更改此字段;请使用前面示例中显示的内容。

要使用 API 对 WebSocket 直播中的演讲者进行分区,请使用以下格式创建用于启动 WebSocket 请求的预签名 URI,并将其设置vocabulary-name为自定义词汇表的名称。

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=en-US &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean