Transcripción de archivos de audio multicanal Transcripción de secuencias de audio multicanal

Transcripción de audio multicanal

Si tiene un archivo o una transmisión de audio que tiene varios canales, puede usar la identificación del canal para transcribir la voz de cada uno de esos canales. Amazon Transcribe Medical transcribe el discurso de cada canal por separado. Combina las transcripciones independientes de cada canal en una única salida de transcripción.

Utilice la identificación de canales para identificar los distintos canales del audio y transcriba la voz de cada uno de esos canales. Habilite esto en situaciones como la de una persona que llama o un agente. Úselo para distinguir a la persona que llama de un agente en las grabaciones o secuencias de los centros de contacto que realizan la supervisión de la seguridad de los medicamentos.

Puede habilitar la identificación de canales tanto para el procesamiento por lotes como para la transmisión en tiempo real. La siguiente lista describe cómo habilitarla para cada método.

Transcripción por lotes AWS Management Console y StartMedicalTranscriptionJobAPI
Transcripción en WebSocket streaming: streaming y StartMedicalStreamTranscriptionAPI

Transcripción de archivos de audio multicanal

Al transcribir un archivo de audio, Amazon Transcribe Medical devuelve una lista de elementos para cada canal. Un elemento es una palabra o un signo de puntuación transcritos. Cada palabra tiene una hora de inicio y una hora de finalización. Si una persona de un canal habla por encima de otra persona de otro canal, las horas de inicio y finalización de los elementos de cada canal se superponen mientras unas personas hablan por encima de las otras.

De forma predeterminada, puede transcribir archivos de audio con dos canales. Puede solicitar un aumento de cuota si necesita transcribir archivos que tengan más de dos canales. Para obtener más información acerca de cómo solicitar un aumento de cuota, consulte cuotas de Servicio de AWS.

Para transcribir audio multicanal en un trabajo de transcripción por lotes, utilice la AWS Management Console o la API. StartMedicalTranscriptionJob

Para utilizar la AWS Management Console identificación de canales en su trabajo de transcripción por lotes, active la identificación de audio y, a continuación, la identificación de canales. La identificación de canales es un subconjunto de la identificación de audio en. AWS Management Console

Inicie sesión en la AWS Management Console.
En el panel de navegación, en Amazon Transcribe Medicina, seleccione Trabajos de transcripción.
Seleccione Crear trabajo.
En la página Especificar detalles del trabajo, proporcione información sobre su trabajo de transcripción.
Elija Siguiente.
Habilite Identificación por audio.
En Tipo de identificación de audio, seleccione Identificación de canal.
Seleccione Crear.

Para transcribir un archivo de audio multicanal (API)

Para la API de StartMedicalTranscriptionJob, especifique lo siguiente.
1. Para TranscriptionJobName, especifique un nombre único en su Cuenta de AWS.
2. Para LanguageCode, especifique el código de idioma que corresponda al idioma hablado en el archivo de audio. El valor válido es en-US.
3. Para el parámetro MediaFileUri del objeto Media, especifique el nombre del archivo multimedia que desea transcribir.
4. Para el objeto Settings, establezca ChannelIdentification en true.

A continuación, se muestra un ejemplo de solicitud que utiliza AWS SDK para Python (Boto3).



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_name = "my-first-med-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
      MedicalTranscriptionJobName = job_name,
      Media = {
        'MediaFileUri': job_uri
      },
      OutputBucketName = 'amzn-s3-demo-bucket',
      OutputKey = 'output-files/',
      LanguageCode = 'en-US',
      Specialty = 'PRIMARYCARE',
      Type = 'CONVERSATION',
      Settings = {
        'ChannelIdentification': True
      }
)
while True:
    status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Para transcribir un archivo de audio multicanal mediante un trabajo de transcripción por lotes (AWS CLI)

Ejecute el siguiente código.



                    
aws transcribe start-medical-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

El siguiente es el código de example-start-command.json.


{
      "MedicalTranscriptionJobName": "my-first-med-transcription-job",        
      "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",

        "Settings":{
          "ChannelIdentification": true
        }
}

El siguiente código muestra el resultado de la transcripción de un archivo de audio que tiene una conversación en dos canales.



{
  "jobName": "job id",
  "accountId": "111122223333",
  "results": {
    "transcripts": [
      {
        "transcript": "When you try ... It seems to ..."
      }
    ],
    "channel_labels": {
      "channels": [
        {
          "channel_label": "ch_0",
          "items": [
            {
              "start_time": "12.282",
              "end_time": "12.592",
              "alternatives": [
                {
                  "confidence": "1.0000",
                  "content": "When"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.592",
              "end_time": "12.692",
              "alternatives": [
                {
                  "confidence": "0.8787",
                  "content": "you"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.702",
              "end_time": "13.252",
              "alternatives": [
                {
                  "confidence": "0.8318",
                  "content": "try"
                }
              ],
              "type": "pronunciation"
            },
            ...
         ]
      },
      {
          "channel_label": "ch_1",
          "items": [
            {
              "start_time": "12.379",
              "end_time": "12.589",
              "alternatives": [
                {
                  "confidence": "0.5645",
                  "content": "It"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.599",
              "end_time": "12.659",
              "alternatives": [
                {
                  "confidence": "0.2907",
                  "content": "seems"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.669",
              "end_time": "13.029",
              "alternatives": [
                {
                  "confidence": "0.2497",
                  "content": "to"
                }
              ],
              "type": "pronunciation"
            },
            ...
        ]
    }
}

Transcripción de secuencias de audio multicanal

Puede transcribir audio de canales separados en cualquiera de ellos HTTP/2 o en WebSocket transmisiones mediante la API. StartMedicalStreamTranscription

De forma predeterminada, puede transcribir secuencias de audio con dos canales. Puede solicitar un aumento de cuota si necesita transcribir secuencias que tengan más de dos canales. Para obtener más información acerca de cómo solicitar un aumento de cuota, consulte Service Quotas de AWS.

Transcribir audio multicanal en una transmisión HTTP/2

Para transcribir audio multicanal en una HTTP/2 transmisión, utilice la StartMedicalStreamTranscriptionAPI y especifique lo siguiente:

LanguageCode: el código de idioma del audio. El valor válido es en-US.
MediaEncoding: la codificación del audio. Los valores válidos son ogg-opus, flac y pcm.
EnableChannelIdentification – true
NumberOfChannels: el número de canales en su streaming de audio.

Para obtener más información sobre cómo configurar una HTTP/2 transmisión para transcribir una conversación médica, consulte. Configurar una HTTP/2 transmisión

Transcripción de audio multicanal en una transmisión WebSocket

Para particionar los altavoces en las WebSocket transmisiones, utilice el siguiente formato para crear un URI prefirmado e iniciar una solicitud. WebSocket Especifique enable-channel-identification como true y el número de canales de la secuencia en number-of-channels. Un URI prefirmado contiene la información necesaria para configurar la comunicación bidireccional entre la aplicación y Medical. Amazon Transcribe



GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true
&number-of-channels=2

Las definiciones de los parámetros se encuentran en la referencia de la API; los parámetros comunes a todas las operaciones de la AWS API se enumeran en la sección Parámetros comunes.

Para obtener más información sobre WebSocket las solicitudes, consulteConfiguración de una WebSocket transmisión.

Multi-channel salida de streaming

El resultado de una transcripción en streaming es el mismo para HTTP/2 y WebSocket las solicitudes. El siguiente es un ejemplo de salida.


{
    "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX",
    "startTime": 0.11,
    "endTime": 0.66,
    "isPartial": false,
    "alternatives": [
        {
            "transcript": "Left.",
            "items": [
                {
                    "startTime": 0.11,
                    "endTime": 0.45,
                    "type": "pronunciation",
                    "content": "Left",
                    "vocabularyFilterMatch": false
                },
                {
                    "startTime": 0.45,
                    "endTime": 0.45,
                    "type": "punctuation",
                    "content": ".",
                    "vocabularyFilterMatch": false
                }
            ]
        }
    ],
    "channelId": "ch_0"
}

Para cada segmento de voz, hay una marca channelId que indica a qué canal pertenece la voz.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Partición de los hablantes en secuencias en tiempo real

Transcripción de un dictado médico