Habilitar la partición de los hablantes en secuencias en tiempo real

Para dividir los altavoces y etiquetar su discurso en una transmisión en tiempo real, utilice la Consola de administración de AWS o una solicitud de transmisión. La partición de las voces funciona mejor con entre dos y cinco hablantes en una transmisión. Aunque Amazon Transcribe Medical puede dividir más de cinco altavoces en una transmisión, la precisión de las particiones disminuye si se supera ese número.

Para iniciar una HTTP/2 solicitud, utilice la StartMedicalStreamTranscriptionAPI. Para iniciar una WebSocket solicitud, usa un URI prefirmado. El URI contiene la información necesaria para configurar la comunicación bidireccional entre la aplicación y Amazon Transcribe Medical.

Puede usarlo Consola de administración de AWS para iniciar una transmisión en tiempo real de una conversación entre el médico y el paciente, o un dictado que se escucha en el micrófono en tiempo real.

Inicie sesión en la Consola de administración de AWS.
En el panel de navegación, en Medicina, selecciona la transcripción Amazon Transcribe . Real-time
En Tipo de entrada de audio, elija el tipo de discurso médico que desee transcribir.
En Ajustes adicionales, seleccion Partición de las voces.
Elija Comenzar streaming para empezar a transcribir su audio en tiempo real.
Hable al micrófono.

Para habilitar la partición de los altavoces en una HTTP/2 transmisión de una conversación médica, utilice la StartMedicalStreamTranscriptionAPI y especifique lo siguiente:

Para LanguageCode, especifique el código de idioma que corresponda al idioma hablado en la secuencia. El valor válido es en-US.
Para MediaSampleHertz, especifique la frecuencia de muestreo del audio.
ParaSpecialty, especifique la especialidad médica del proveedor.
ShowSpeakerLabel – true

Para obtener más información sobre cómo configurar una HTTP/2 transmisión para transcribir una conversación médica, consulte. Configurar una HTTP/2 transmisión

Para particionar los altavoces en las WebSocket transmisiones con la API, usa el siguiente formato para crear un URI prefirmado para iniciar una WebSocket solicitud y show-speaker-label configurarlo. true


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature 
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&specialty=medicalSpecialty
&type=CONVERSATION
&vocabulary-name=vocabularyName
&show-speaker-label=boolean

El siguiente código muestra el ejemplo truncado de la respuesta de una solicitud de streaming.



{
  "Transcript": {
    "Results": [
      {
        "Alternatives": [
          {
            "Items": [
              {
                "Confidence": 0.97,
                "Content": "From",
                "EndTime": 18.98,
                "Speaker": "0",
                "StartTime": 18.74,
                "Type": "pronunciation",
                "VocabularyFilterMatch": false
              },
              {
                "Confidence": 1,
                "Content": "the",
                "EndTime": 19.31,
                "Speaker": "0",
                "StartTime": 19,
                "Type": "pronunciation",
                "VocabularyFilterMatch": false
              },
              {
                "Confidence": 1,
                "Content": "last",
                "EndTime": 19.86,
                "Speaker": "0",
                "StartTime": 19.32,
                "Type": "pronunciation",
                "VocabularyFilterMatch": false
              },
             ...
              {
                "Confidence": 1,
                "Content": "chronic",
                "EndTime": 22.55,
                "Speaker": "0",
                "StartTime": 21.97,
                "Type": "pronunciation",
                "VocabularyFilterMatch": false
              },
              ...
                "Confidence": 1,
                "Content": "fatigue",
                "EndTime": 24.42,
                "Speaker": "0",
                "StartTime": 23.95,
                "Type": "pronunciation",
                "VocabularyFilterMatch": false
              },
              {
                "EndTime": 25.22,
                "StartTime": 25.22,
                "Type": "speaker-change",
                "VocabularyFilterMatch": false
              },
              {
                "Confidence": 0.99,
                "Content": "True",
                "EndTime": 25.63,
                "Speaker": "1",
                "StartTime": 25.22,
                "Type": "pronunciation",
                "VocabularyFilterMatch": false
              },
              {
                "Content": ".",
                "EndTime": 25.63,
                "StartTime": 25.63,
                "Type": "punctuation",
                "VocabularyFilterMatch": false
              }
            ],
            "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True."
          }
        ],
        "EndTime": 25.63,
        "IsPartial": false,
        "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX",
        "StartTime": 18.74
      }
    ]
  }
}

Amazon Transcribe Medical divide la transmisión de audio entrante en función de los segmentos naturales de la voz, como un cambio de altavoz o una pausa en el audio. La transcripción se devuelve progresivamente a la aplicación, y cada respuesta contiene más discurso transcrito hasta que se transcribe el segmento completo. El código anterior es un ejemplo truncado de un segmento de voz completamente transcrito. Las etiquetas de las voces sólo aparecen en los segmentos totalmente transcritos.

La siguiente lista muestra la organización de los objetos y parámetros en un resultado de una transcripción en streaming.

Transcript: Cada segmento de voz tiene su propio objeto Transcript.
Results: Cada objeto Transcript tiene su propio objeto Results. Este objeto contiene el subcampo isPartial. Si su valor es false, los resultados devueltos son para un segmento de voz completo.
Alternatives: Cada objeto Results tiene un objeto Alternatives.
Items: Cada objeto Alternatives tiene su propio objeto Items que contiene información sobre cada palabra y signo de puntuación del resultado de la transcripción. Al activar la partición de los altavoces, cada palabra tiene una Speaker etiqueta para los segmentos del discurso completamente transcritos. Amazon Transcribe Medical utiliza esta etiqueta para asignar un número entero único a cada altavoz de la transmisión. El parámetro Type que tiene un valor de speaker-change indica que una persona ha dejado de hablar y que otra está a punto de empezar.
Transcript: Cada objeto de Items contiene un segmento de voz transcrito como valor del campo Transcript.

Para obtener más información sobre WebSocket las solicitudes, consulteConfiguración de una WebSocket transmisión.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Habilitar la partición de las voces en las transcripciones por lotes

Transcripción de audio multicanal