テキストファイルを使用して医療用カスタム語彙を作成する - Amazon Transcribe

テキストファイルを使用して医療用カスタム語彙を作成する

カスタム語彙を作成するには、コレクションに単語やフレーズを含むテキストファイルを用意しておく必要があります。Amazon TranscribeMedical では、このテキストファイルを使用してカスタム語彙を作成します。これらの語彙を使用して、これらの単語またはフレーズの文字起こしの精度を向上できます。CreateMedicalVocabulary API または Amazon Transcribe Medical コンソールを使用してカスタム語彙を作成できます。

AWS マネジメントコンソール を使用してカスタム語彙を作成するには、単語またはフレーズを含むテキストファイルの Amazon S3 URI を指定します。

  1. AWS マネジメントコンソール にサインインします。

  2. ナビゲーションペインの Amazon Transcribe Medical で、[カスタム語彙] を選択します。

  3. 名前 を使用する場合、語彙の設定で、カスタム語彙の名前を選択します。

  4. Amazon S3 で音声ファイルまたはビデオファイルの場所を指定します。

    • 語彙の設定S3 の語彙入力ファイルの場所で、カスタムボキャブラリーの作成に使用するテキストファイルを識別する Amazon S3 URI を指定します。

    • S3 の語彙入力ファイルの場所については、S3 の参照 を選択してテキストファイルを参照し、それを選択します。

  5. [語彙の作成] を選択します。

カスタム語彙の処理ステータスが AWS マネジメントコンソール で確認できます。

医療用カスタム語彙を作成 (API)するには
  • StartTranscriptionJob API では、以下のものを指定します。

    1. LanguageCode の場合、en-US を指定します。

    2. VocabularyFileUri の場合、カスタム語彙の定義に使用するテキストファイルの Amazon S3 の場所を指定します。

    3. VocabularyName の場合、カスタム語彙の名前を指定します。指定する名前は、AWS アカウント 内で一意でなければなりません。

カスタム語彙の処理状況を表示する場合、GetMedicalVocabulary API を使用します。

以下は、カスタム語彙を作成するために AWS SDK for Python (Boto3) を使用したリクエスト例です。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_medical_vocabulary( VocabularyName = job_name, VocabularyFileUri = 's3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-table.txt' LanguageCode = 'en-US', ) while True: status = transcribe.get_medical_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
バッチ文字起こしジョブ (AWS CLI) で、スピーカーパーティショニングを有効にする
  • 以下のコードを実行します。

    aws transcribe create-medical-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US