バッチ文字起こしで、スピーカーパーティショニングを有効にする

StartMedicalTranscriptionJob API または AWS マネジメントコンソールでバッチ文字起こしジョブをスピーカーパーティショニングを有効にできます。これにより、臨床医と患者の会話で話者ごとにテキストをパーティション化し、文字起こし出力で誰が何を言ったかを判断できます。

を使用して文字起こ AWS マネジメントコンソールしジョブでスピーカーダイアライゼーションを有効にするには、音声識別を有効にしてから、スピーカーパーティショニングを有効にします。

AWS マネジメントコンソールにサインインします。
ナビゲーションペインの Amazon Transcribe Medical で、文字起こしジョブを選択します。
[ジョブの作成] を選択します。
[ジョブの詳細を指定する] ページで、文字起こしジョブに関する情報を入力します。
[次へ] を選択します。
[音声識別] を有効にします。
音声識別タイプ では、[スピーカーパーティショニング] を選択します。
話者の最大数 では、音声ファイルで話していると思われる話者の最大数を指定します。
[作成] を選択します。

バッチ文字起こしジョブ (API) を使用して、スピーカーパーティショニングを有効にする

StartMedicalTranscriptionJob API では、以下のものを指定します。
1. MedicalTranscriptionJobName の場合、 AWS アカウントで一意の名前を指定します。
2. LanguageCode の場合、音声ファイル内で話されている言語に対応する言語コードです。
3. MediaFileUri オブジェクトの Media パラメータの場合、文字起こしを行う音声ファイルの名前を指定します。
4. Specialty の場合、音声ファイルで話す臨床医の専門分野を指定します。
5. Type の場合、CONVERSATION を指定します。
6. にはOutputBucketName、文字起こし結果を保存する Amazon S3 バケットを指定します。
7. Settings オブジェクトの場合、以下を指定します。
  1. ShowSpeakerLabels – true.
  2. MaxSpeakerLabels - オーディオ内で話していると思われるスピーカーの数を示す 2 ～ 10 の整数です。

次のリクエストでは、を使用して AWS SDK for Python (Boto3) 、スピーカーパーティショニングを有効にしたプライマリケア臨床医患者ダイアログのバッチ文字起こしジョブを開始します。



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
    MedicalTranscriptionJobName = job_name,
    Media={
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US',
    Specialty = 'PRIMARYCARE',
    Type = 'CONVERSATION',
    OutputBucketName = 'amzn-s3-demo-bucket',
Settings = {'ShowSpeakerLabels': True,
         'MaxSpeakerLabels': 2
         }
         )
while True:
    status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

次の例のコードは、スピーカーパーティショニングを有効にした文字起こしジョブの文字起こし結果を示しています。



{
    "jobName": "job ID",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Professional answer."
            }
        ],
        "speaker_labels": {
            "speakers": 1,
            "segments": [
                {
                    "start_time": "0.000000",
                    "speaker_label": "spk_0",
                    "end_time": "1.430",
                    "items": [
                        {
                            "start_time": "0.100",
                            "speaker_label": "spk_0",
                            "end_time": "0.690"
                        },
                        {
                            "start_time": "0.690",
                            "speaker_label": "spk_0",
                            "end_time": "1.210"
                        }
                    ]
                }
            ]
        },
        "items": [
            {
                "start_time": "0.100",
                "end_time": "0.690",
                "alternatives": [
                    {
                        "confidence": "0.8162",
                        "content": "Professional"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "start_time": "0.690",
                "end_time": "1.210",
                "alternatives": [
                    {
                        "confidence": "0.9939",
                        "content": "answer"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "alternatives": [
                    {
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ]
    },
    "status": "COMPLETED"
}

プライマリケアを実践している臨床医と患者との間の会話の音声ファイルを文字起こしする (AWS CLI)

以下のコードを実行します。



                    
aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

以下のコードは、example-start-command.json の内容を示しています。


{
    "MedicalTranscriptionJobName": "my-first-med-transcription-job",       
     "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",
      "Settings":{
          "ShowSpeakerLabels": true,
          "MaxSpeakerLabels": 2
        }
}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

スピーカーパーティショニングを有効にする

リアルタイムストリ―ムでスピーカーをパーティション化する