Activation du partitionnement des locuteurs dans une transcription par lots

Vous pouvez activer le partitionnement des locuteurs dans une tâche de transcription par lots à l’aide de l’API StartMedicalTranscriptionJob ou de la AWS Management Console. Cela vous permet de partitionner le texte par locuteur dans une conversation entre un médecin et son patient et de déterminer qui a dit quoi dans la sortie de la transcription.

AWS Management Console Pour activer la diarisation des haut-parleurs dans votre tâche de transcription, vous devez activer l'identification audio, puis le partitionnement des haut-parleurs.

Connectez-vous à la AWS Management Console.
Dans le volet de navigation, sous Amazon Transcribe Medical, sélectionnez Transcription jobs.
Choisissez Créer une tâche.
Sur la page Spécifier les détails de la tâche, fournissez des informations sur votre tâche de transcription.
Choisissez Suivant.
Activez Identification audio.
Pour Type d’identification audio, choisissez Partitionnement des locuteurs.
Pour Nombre maximal de locuteurs, entrez le nombre maximal de locuteurs qui, selon vous, parlent dans votre fichier audio.
Choisissez Créer.

Pour activer le partitionnement des locuteurs à l’aide d’une tâche de transcription par lots (API)

Pour l’API StartMedicalTranscriptionJob, spécifiez ce qui suit.
1. Pour MedicalTranscriptionJobName, spécifiez un nom unique dans votre Compte AWS.
2. Pour LanguageCode, spécifiez le code de langue correspondant à la langue parlée dans le fichier audio.
3. Pour le paramètre MediaFileUri de l’objet Media, spécifiez le nom du fichier audio que vous souhaitez transcrire.
4. Pour Specialty, spécifiez la spécialité médicale du médecin qui parle dans le fichier audio.
5. Pour Type, spécifiez CONVERSATION.
6. PourOutputBucketName, spécifiez le Amazon S3 compartiment dans lequel stocker les résultats de transcription.
7. Pour l’objet Settings, spécifiez ce qui suit :
  1. ShowSpeakerLabels – true.
  2. MaxSpeakerLabels – Entier compris entre 2 et 10 pour indiquer le nombre de locuteurs qui, selon vous, parlent dans votre audio.

La demande suivante utilise le AWS SDK pour Python (Boto3) pour démarrer une tâche de transcription par lots d'un dialogue entre un clinicien de soins primaires et un patient avec le partitionnement des haut-parleurs activé.



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
    MedicalTranscriptionJobName = job_name,
    Media={
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US',
    Specialty = 'PRIMARYCARE',
    Type = 'CONVERSATION',
    OutputBucketName = 'amzn-s3-demo-bucket',
Settings = {'ShowSpeakerLabels': True,
         'MaxSpeakerLabels': 2
         }
         )
while True:
    status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

L’exemple de code suivant montre les résultats de transcription d’une tâche de transcription avec le partitionnement des locuteurs activé.



{
    "jobName": "job ID",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Professional answer."
            }
        ],
        "speaker_labels": {
            "speakers": 1,
            "segments": [
                {
                    "start_time": "0.000000",
                    "speaker_label": "spk_0",
                    "end_time": "1.430",
                    "items": [
                        {
                            "start_time": "0.100",
                            "speaker_label": "spk_0",
                            "end_time": "0.690"
                        },
                        {
                            "start_time": "0.690",
                            "speaker_label": "spk_0",
                            "end_time": "1.210"
                        }
                    ]
                }
            ]
        },
        "items": [
            {
                "start_time": "0.100",
                "end_time": "0.690",
                "alternatives": [
                    {
                        "confidence": "0.8162",
                        "content": "Professional"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "start_time": "0.690",
                "end_time": "1.210",
                "alternatives": [
                    {
                        "confidence": "0.9939",
                        "content": "answer"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "alternatives": [
                    {
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ]
    },
    "status": "COMPLETED"
}

Pour transcrire un fichier audio d’une conversation entre un médecin de soins primaires et un patient (AWS CLI)

Exécutez le code suivant.



                    
aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

Le code suivant affiche le contenu du fichier example-start-command.json.


{
    "MedicalTranscriptionJobName": "my-first-med-transcription-job",       
     "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",
      "Settings":{
          "ShowSpeakerLabels": true,
          "MaxSpeakerLabels": 2
        }
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Activation du partitionnement des locuteurs

Partitionnement des locuteurs dans des flux en temps réel