音声ファイル内の PHI の識別 - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

音声ファイル内の PHI の識別

バッチ文字起こしジョブを使用して、音声ファイルを書き起こし、その中の個人の健康情報 (PHI) を特定します。個人の健康情報 (PHI) 識別を有効にすると、Amazon Transcribe Medical は文字起こし結果で識別した PHI にラベル付けします。Amazon Transcribe Medical が識別できる PHI の詳細については、「文字起こしにおける個人の健康情報 (PHI) の特定」を参照してください。

StartMedicalTranscriptionJob API または AWS マネジメントコンソール でバッチ文字起こしジョブを開始できます。

AWS マネジメントコンソール を使用して臨床医と患者の会話を書き起こす場合、文字起こしジョブを作成し、音声入力タイプ会話を選択します。

音声ファイルを書き起こし、PHI (AWS マネジメントコンソール) を識別するには
  1. AWS マネジメントコンソール にサインインします。

  2. ナビゲーションペインの [Amazon Transcribe Medical] で、[文字起こしジョブ] を選択します。

  3. [ジョブの作成] を選択します。

  4. [ジョブ詳細を指定] ページ内の [ジョブ設定] で次の指定を行います。

    1. 名前 - お客様の AWS アカウント に固有の文字起こしジョブの名前。

    2. 音声入力タイプ – [会話] または [ディクテーション]。

  5. 残りのフィールドには、音声ファイルの Amazon S3 の場所と、文字起こしジョブの出力を保存する場所を指定します。

  6. [次へ] を選択します。

  7. [音声設定]で、[PHI 識別] を選択します。

  8. [作成] を選択します。

バッチ文字起こしジョブ (API) を使用して音声ファイルを書き起こし、その PHI を識別するには、
  • StartMedicalTranscriptionJob API では、以下のものを指定します。

    1. MedicalTranscriptionJobName の場合、AWS アカウント に一意の名前を指定します。

    2. LanguageCode の場合、音声ファイルで話されている言語に対応する言語コードを指定します。

    3. MediaFileUri パラメータがあるMedia オブジェクトの場合、文字起こしを行う音声ファイルの名前を指定します。

    4. Specialty の場合、音声ファイルで話す臨床医の専門分野を PRIMARYCARE として指定します。

    5. Type の場合、CONVERSATION または DICTATION のいずれかを指定します。

    6. OutputBucketName の場合、文字起こし結果を保存する Amazon S3 バケットを指定します。

    以下は、リクエストの例です。音声ファイルを書き起こし、患者の PHI を識別するために AWS SDK for Python (Boto3) を使用します。

    from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = {'MediaFileUri': job_uri}, LanguageCode = 'en-US', ContentIdentificationType = 'PHI', Specialty = 'PRIMARYCARE', Type = 'type', # Specify 'CONVERSATION' for a medical conversation. Specify 'DICTATION' for a medical dictation. OutputBucketName = 'amzn-s3-demo-bucket' ) while True: status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

次のコード例は、患者 PHI を識別した場合の文字起こし結果を示しています。

{ "jobName": "my-medical-transcription-job-name", "accountId": "111122223333", "results": { "transcripts": [{ "transcript": "The patient's name is Bertrand." }], "items": [{ "id": 0, "start_time": "0.0", "end_time": "0.37", "alternatives": [{ "confidence": "0.9993", "content": "The" }], "type": "pronunciation" }, { "id": 1, "start_time": "0.37", "end_time": "0.44", "alternatives": [{ "confidence": "0.9981", "content": "patient's" }], "type": "pronunciation" }, { "id": 2, "start_time": "0.44", "end_time": "0.52", "alternatives": [{ "confidence": "1.0", "content": "name" }], "type": "pronunciation" }, { "id": 3, "start_time": "0.52", "end_time": "0.92", "alternatives": [{ "confidence": "1.0", "content": "is" }], "type": "pronunciation" }, { "id": 4, "start_time": "0.92", "end_time": "0.9989", "alternatives": [{ "confidence": "1.0", "content": "Bertrand" }], "type": "pronunciation" }, { "id": 5, "alternatives": [{ "confidence": "0.0", "content": "." }], "type": "punctuation" }], "entities": [{ "content": "Bertrand", "category": "PHI*-Personal*", "startTime": 0.92, "endTime": 1.2, "confidence": 0.9989 }], "audio_segments": [ { "id": 0, "transcript": "The patient's name is Bertrand.", "start_time": "0.0", "end_time": "0.9989", "items": [ 0, 1, 2, 3, 4, 5 ] } ] }, "status": "COMPLETED" }
バッチ文字起こしジョブ (AWS CLI) を使用して音声ファイルを書き起こし、その PHI を識別するには
  • 以下のコードを実行します。

    aws transcribe start-medical-transcription-job \ --medical-transcription-job-name my-medical-transcription-job-name\ --language-code en-US \ --media MediaFileUri="s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac" \ --output-bucket-name amzn-s3-demo-bucket \ --specialty PRIMARYCARE \ --type type \ # Choose CONVERSATION to transcribe a medical conversation. Choose DICTATION to transcribe a medical dictation. --content-identification-type PHI