使用文本文件创建医学自定义词汇表
要创建自定义词汇表,必须准备好包含单词或短语集合的文本文件。Amazon TranscribeMedical 使用此文本文件创建自定义词汇表,可使用此词汇表提高这些单词或短语的转录准确性。您可以使用 CreateMedicalVocabulary API 或 Amazon Transcribe Medical 控制台创建自定义词汇表。
要使用 AWS 管理控制台 创建自定义词汇表,您需要提供包含您的单词或短语的文本文件的 Amazon S3 URI。
-
登录到 AWS 管理控制台
。 -
在导航窗格中的 Amazon Transcribe Medical 下,选择自定义词汇表。
-
在名称中的词汇表设置 下,为您的自定义词汇表选择一个名称。
-
指定音频文件或视频文件在 Amazon S3 中的位置:
-
在词汇表设置下的 S3 中的词汇表输入文件位置中,指定用来标识将用于创建自定义词汇表的文本文件的 Amazon S3 URI。
-
对于 S3 中的词汇表输入文件位置,请选择浏览 S3,浏览文本文件并将其选中。
-
-
选择创建词汇表。
您可以在 AWS 管理控制台 中查看自定义词汇表的处理状态。
创建医学自定义词汇表 (API)
-
对于
StartTranscriptionJobAPI,请指定以下内容。-
对于
LanguageCode,请指定en-US。 -
对于
VocabularyFileUri,请指定用于定义自定义词汇表的文本文件的 Amazon S3 位置。 -
对于
VocabularyName,为您的自定义词汇表指定一个名称。您指定的名称在您的 AWS 账户内必须是唯一的。
-
要查看自定义词汇表的处理状态,请使用 GetMedicalVocabulary API。
以下是使用 适用于 Python (Boto3) 的 AWS SDK 创建自定义词汇表的请求示例。
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_medical_vocabulary( VocabularyName = job_name, VocabularyFileUri = 's3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-table.txt' LanguageCode = 'en-US', ) while True: status = transcribe.get_medical_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
在批量转录作业中启用发言者划分 (AWS CLI)
-
运行以下代码。
aws transcribe create-medical-vocabulary \ --vocabulary-namemy-first-vocabulary\ --vocabulary-file-uri s3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-file.txt \ --language-codeen-US