音声ファイル内の PHI の識別

バッチ文字起こしジョブを使用して、音声ファイルを書き起こし、その中の個人の健康情報 (PHI) を特定します。個人健康情報 (PHI) 識別を有効にすると、 Amazon Transcribe Medical は文字起こし結果で識別した PHI にラベルを付けます。 Amazon Transcribe Medical が識別できる PHI の詳細については、「」を参照してください文字起こしにおける個人の健康情報 (PHI) の特定。

StartMedicalTranscriptionJob API または AWS マネジメントコンソールでバッチ文字起こしジョブを開始できます。

を使用して臨床医と患者の対話を AWS マネジメントコンソール文字起こしするには、文字起こしジョブを作成し、音声入力タイプの会話を選択します。

音声ファイルを書き起こし、PHI (AWS マネジメントコンソール) を識別するには

AWS マネジメントコンソールにサインインします。
ナビゲーションペインの Amazon Transcribe Medical で、文字起こしジョブを選択します。
[ジョブの作成] を選択します。
[ジョブ詳細を指定] ページ内の [ジョブ設定] で次の指定を行います。
1. 名前 – に固有の文字起こしジョブの名前 AWS アカウント。
2. 音声入力タイプ – [会話] または [ディクテーション]。
残りのフィールドでは、音声ファイル Amazon S3 の場所と、文字起こしジョブの出力を保存する場所を指定します。
[次へ] を選択します。
[音声設定]で、[PHI 識別] を選択します。
[作成] を選択します。

バッチ文字起こしジョブ (API) を使用して音声ファイルを書き起こし、その PHI を識別するには、

StartMedicalTranscriptionJob API では、以下のものを指定します。

MedicalTranscriptionJobName の場合、 AWS アカウントに一意の名前を指定します。
LanguageCode の場合、音声ファイルで話されている言語に対応する言語コードを指定します。
MediaFileUri パラメータがあるMedia オブジェクトの場合、文字起こしを行う音声ファイルの名前を指定します。
Specialty の場合、音声ファイルで話す臨床医の専門分野を PRIMARYCARE として指定します。
Type の場合、CONVERSATION または DICTATION のいずれかを指定します。
OutputBucketName の場合、文字起こし結果を保存する Amazon S3 バケットを指定します。

以下は、を使用してオーディオファイルを文字起こししし AWS SDK for Python (Boto3) 、患者の PHI を識別するリクエストの例です。



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
transcribe.start_medical_transcription_job(
      MedicalTranscriptionJobName = job_name,
      Media = {'MediaFileUri': job_uri},
      LanguageCode = 'en-US',
      ContentIdentificationType = 'PHI',
      Specialty = 'PRIMARYCARE',
      Type = 'type', # Specify 'CONVERSATION' for a medical conversation. Specify 'DICTATION' for a medical dictation.
      OutputBucketName = 'amzn-s3-demo-bucket'
  )
while True:
    status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

次のコード例は、患者 PHI を識別した場合の文字起こし結果を示しています。



{
    "jobName": "my-medical-transcription-job-name",
    "accountId": "111122223333",
    "results": {
        "transcripts": [{
            "transcript": "The patient's name is Bertrand."
        }],
        "items": [{
                "id": 0,
            "start_time": "0.0",
            "end_time": "0.37",
            "alternatives": [{
                "confidence": "0.9993",
                "content": "The"
            }],
            "type": "pronunciation"
        }, {
                "id": 1,
            "start_time": "0.37",
            "end_time": "0.44",
            "alternatives": [{
                "confidence": "0.9981",
                "content": "patient's"
            }],
            "type": "pronunciation"
        }, {
                "id": 2,
            "start_time": "0.44",
            "end_time": "0.52",
            "alternatives": [{
                "confidence": "1.0",
                "content": "name"
            }],
            "type": "pronunciation"
        }, {
                "id": 3,
            "start_time": "0.52",
            "end_time": "0.92",
            "alternatives": [{
                "confidence": "1.0",
                "content": "is"
            }],
            "type": "pronunciation"
        }, {
                "id": 4,
            "start_time": "0.92",
            "end_time": "0.9989",
            "alternatives": [{
                "confidence": "1.0",
                "content": "Bertrand"
            }],
            "type": "pronunciation"
        }, {
                "id": 5,
            "alternatives": [{
                "confidence": "0.0",
                "content": "."
            }],
            "type": "punctuation"
        }],
        "entities": [{
            "content": "Bertrand",
            "category": "PHI*-Personal*",
            "startTime": 0.92,
            "endTime": 1.2,
            "confidence": 0.9989
        }],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "The patient's name is Bertrand.",
                "start_time": "0.0",
                "end_time": "0.9989",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4,
                    5
                ]
            }
        ]
    },
    "status": "COMPLETED"
}

バッチ文字起こしジョブ (AWS CLI) を使用して音声ファイルを書き起こし、その PHI を識別するには

以下のコードを実行します。


aws transcribe start-medical-transcription-job \
--medical-transcription-job-name my-medical-transcription-job-name\
--language-code en-US \
--media MediaFileUri="s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac" \
--output-bucket-name amzn-s3-demo-bucket \
--specialty PRIMARYCARE \
--type type \ # Choose CONVERSATION to transcribe a medical conversation. Choose DICTATION to transcribe a medical dictation.
--content-identification-type PHI

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トランスクリプトで PHI を識別する

リアルタイムストリームでの PHI の識別