使用文本文件创建医学自定义词汇表 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用文本文件创建医学自定义词汇表

要创建自定义词汇表,必须准备好包含单词或短语集合的文本文件。 Amazon Transcribe Medical 使用此文本文件创建自定义词汇表,您可以使用该词汇来提高这些单词或短语的转录准确性。您可以使用 CreateMedicalVocabularyAPI 或 Amazon Transcribe 医疗控制台创建自定义词汇表。

要使用创建自定义词汇,您需要提供包含您的单词或短语的文本文件的 Amazon S3 URI。 AWS Management Console

  1. 登录到 AWS Management Console

  2. 在导航窗格的 “ Amazon Transcribe 医疗” 下,选择 “自定义词汇”。

  3. 名称中的词汇表设置 下,为您的自定义词汇表选择一个名称。

  4. 指定音频文件或视频文件在 Amazon S3中的位置:

    • 词汇表设置下的 S3 中的词汇表输入文件位置中,指定用来标识将用于创建自定义词汇表的文本文件的 Amazon S3 URI。

    • 对于 S3 中的词汇表输入文件位置,请选择浏览 S3,浏览文本文件并将其选中。

  5. 选择创建词汇表

您可以在 AWS Management Console中查看自定义词汇表的处理状态。

创建医学自定义词汇表 (API)
  • 对于 StartTranscriptionJob API,请指定以下内容。

    1. 对于 LanguageCode,请指定 en-US

    2. 对于VocabularyFileUri,请指定用于定义自定义词汇表的文本文件 Amazon S3 的位置。

    3. 对于 VocabularyName,为您的自定义词汇表指定一个名称。您指定的名称在您的名称中必须是唯一的 AWS 账户。

要查看自定义词汇表的处理状态,请使用 GetMedicalVocabulary API。

以下是使用创建自定义词汇表 适用于 Python (Boto3) 的 AWS SDK 的请求示例。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_medical_vocabulary( VocabularyName = job_name, VocabularyFileUri = 's3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-table.txt' LanguageCode = 'en-US', ) while True: status = transcribe.get_medical_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
在批量转录作业中启用发言者划分 (AWS CLI)
  • 运行以下代码。

    aws transcribe create-medical-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US