Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Transkribieren von Mehrkanal-Audio
Wenn Sie eine Audiodatei oder einen Stream mit mehreren Kanälen haben, können Sie die Kanalidentifikation verwenden, um die Sprache von jedem dieser Kanäle zu transkribieren. Amazon Transcribe Medical transkribiert die Sprache von jedem Kanal separat. Es kombiniert die separaten Transkriptionen der einzelnen Kanäle zu einer einzigen Transkriptionsausgabe.
Verwenden Sie die Kanalidentifikation, um die einzelnen Kanäle in Ihrem Audiomaterial zu identifizieren und die Sprache von jedem dieser Kanäle zu transkribieren. Aktivieren Sie dies in Situationen wie einem Anrufer- und Kundendienstmitarbeiterszenario. Verwenden Sie dies, um einen Anrufer von einem Kundendienstmitarbeiter in Aufzeichnungen oder Streams von Contact Centern zu unterscheiden, die eine Überwachung der Arzneimittelsicherheit durchführen.
Sie können die Kanalidentifizierung sowohl für die Stapelverarbeitung als auch für das Echtzeit-Streaming aktivieren. In der folgenden Liste wird beschrieben, wie man sie für jede Methode aktiviert.
-
Batch-Transkription — AWS Management Console und API
StartMedicalTranscriptionJob
-
Streaming-Transkription — WebSocket Streaming und API
StartMedicalStreamTranscription
Transkribieren von Mehrkanal-Audiodateien
Wenn Sie eine Audiodatei transkribieren, gibt Amazon Transcribe Medical eine Liste mit Elementen für jeden Kanal zurück. Ein Element ist ein transkribiertes Wort oder Interpunktionszeichen. Jedes Wort hat eine Startzeit und eine Endzeit. Wenn eine Person auf einem Kanal mit einer Person auf einem anderen Kanal spricht, überschneiden sich die Start- und Endzeiten der Elemente für jeden Kanal, während die Personen übereinander sprechen.
Standardmäßig können Sie Audiodateien mit zwei Kanälen transkribieren. Sie können eine Erhöhung des Quotas beantragen, wenn Sie Dateien mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Quotaerhöhung finden Sie unter AWS-Service -Quotas.
Um Mehrkanal-Audio in einem Batch-Transkriptionsauftrag zu transkribieren, verwenden Sie die oder die API. AWS Management Console StartMedicalTranscriptionJob
AWS Management Console Um die Kanalidentifikation in Ihrem Batch-Transkriptionsauftrag zu aktivieren, aktivieren Sie die Audioidentifikation und anschließend die Kanalidentifikation. Die Kanalidentifikation ist eine Untergruppe der Audioidentifikation in der. AWS Management Console
-
Melden Sie sich an der AWS Management Console
an. -
Wählen Sie im Navigationsbereich unter Amazon Transcribe Medizinisch die Option Transkriptionsjobs aus.
-
Wählen Sie Job erstellen aus.
-
Geben Sie auf der Seite Auftragsdetails angeben Informationen zu Ihrem Transkriptionsauftrag an.
-
Wählen Sie Weiter.
-
Aktivieren Sie die Audio-Identifikation.
-
Wählen Sie als Art der Audioidentifikation Kanalidentifikation.
-
Wählen Sie Create (Erstellen) aus.
So transkribieren Sie eine Mehrkanal-Audiodatei (API)
-
Für die
StartMedicalTranscriptionJob
-API geben Sie Folgendes an.-
Geben Sie für
TranscriptionJobName
einen eindeutigen Namen für AWS-Konto an. -
Geben Sie unter
LanguageCode
den Sprachcode an, der der Sprache entspricht, die in der Audiodatei gesprochen wird. Der gültige Wert lauteten-US
. -
Geben Sie unter
MediaFileUri
-Parameter desMedia
-Objekts den Namen der Mediendatei an, die Sie transkribieren möchten. -
Für das
Settings
-Objekt setzen SieChannelIdentification
auftrue
.
-
Nachfolgend ein Beispiel für eine Anfrage unter Verwendung von AWS SDK für Python (Boto3).
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') job_name = "my-first-transcription-job
" job_name = "my-first-med-transcription-job
" job_uri = "s3://amzn-s3-demo-bucket
/my-input-files
/my-media-file
.flac
" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket
', OutputKey = 'output-files
/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ChannelIdentification': True } ) while True: status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
So transkribieren Sie eine Mehrkanal-Audiodatei mit einem Batch-Transkriptionsauftrag (AWS CLI)
-
Führen Sie folgenden Code aus.
aws transcribe start-medical-transcription-job \ --region
us-west-2
\ --cli-input-json file://example-start-command
.jsonIm Folgenden finden Sie den Code von
example-start-command.json
.{ "MedicalTranscriptionJobName": "
my-first-med-transcription-job
", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket
/my-input-files
/my-audio-file
.flac
" }, "OutputBucketName": "amzn-s3-demo-bucket
", "OutputKey": "my-output-files
/", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "Settings":{ "ChannelIdentification": true } }
Der folgende Code zeigt die Transkriptionsausgabe für eine Audiodatei, die ein Gespräch auf zwei Kanälen enthält.
{
"jobName": "job id
",
"accountId": "111122223333",
"results": {
"transcripts": [
{
"transcript": "When you try ... It seems to ..."
}
],
"channel_labels": {
"channels": [
{
"channel_label": "ch_0",
"items": [
{
"start_time": "12.282",
"end_time": "12.592",
"alternatives": [
{
"confidence": "1.0000",
"content": "When"
}
],
"type": "pronunciation"
},
{
"start_time": "12.592",
"end_time": "12.692",
"alternatives": [
{
"confidence": "0.8787",
"content": "you"
}
],
"type": "pronunciation"
},
{
"start_time": "12.702",
"end_time": "13.252",
"alternatives": [
{
"confidence": "0.8318",
"content": "try"
}
],
"type": "pronunciation"
},
...
]
},
{
"channel_label": "ch_1",
"items": [
{
"start_time": "12.379",
"end_time": "12.589",
"alternatives": [
{
"confidence": "0.5645",
"content": "It"
}
],
"type": "pronunciation"
},
{
"start_time": "12.599",
"end_time": "12.659",
"alternatives": [
{
"confidence": "0.2907",
"content": "seems"
}
],
"type": "pronunciation"
},
{
"start_time": "12.669",
"end_time": "13.029",
"alternatives": [
{
"confidence": "0.2497",
"content": "to"
}
],
"type": "pronunciation"
},
...
]
}
}
Transkribieren von Mehrkanal-Audiostreams
Mithilfe der API können Sie Audio von separaten Kanälen entweder in HTTP/2 oder in WebSocket Streams transkribieren. StartMedicalStreamTranscription
Standardmäßig können Sie Streams mit zwei Kanälen transkribieren. Sie können eine Erhöhung des Quotas beantragen, wenn Sie Streams mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Quotaerhöhung finden Sie unter AWS -Service Quotas.
Transkription von Mehrkanal-Audio in einem HTTP/2-Stream
Um Mehrkanal-Audio in einem HTTP/2-Stream zu transkribieren, verwenden Sie die API und geben Sie Folgendes an: StartMedicalStreamTranscription
-
LanguageCode
– Der Sprachcode des Audios. Der gültige Wert lauteten-US
. -
MediaEncoding
– Die Kodierung des Audios. Gültige Werte sindogg-opus
,flac
undpcm
. -
EnableChannelIdentification
–true
-
NumberOfChannels
– Die Anzahl der Kanäle in Ihrem Audiostreaming.
Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unter Einrichten eines HTTP/2-Streams.
Transkribieren von Mehrkanal-Audio in einem Stream WebSocket
Um Lautsprecher in WebSocket Streams zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zu erstellen und eine Anfrage zu starten. WebSocket Geben Sie enable-channel-identification
als true
und die Anzahl der Kanäle in Ihrem Stream in number-of-channels
an. Eine vorsignierte URI enthält die Informationen, die für die Einrichtung einer bidirektionalen Kommunikation zwischen Ihrer Anwendung und Medical erforderlich sind. Amazon Transcribe
GET wss://transcribestreaming.
us-west-2
.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE
%2F20220208
%2Fus-west-2
%2Ftranscribe
%2Faws4_request &X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host &media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true &number-of-channels=2
Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Operationen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.
Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.
Mehrkanaliger Streaming-Ausgang
Die Ausgabe einer Streaming-Transkription ist für HTTP/2 und WebSocket Anfragen identisch. Im Folgenden finden Sie eine Beispielausgabe.
{ "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX", "startTime": 0.11, "endTime": 0.66, "isPartial": false, "alternatives": [ { "transcript": "Left.", "items": [ { "startTime": 0.11, "endTime": 0.45, "type": "pronunciation", "content": "Left", "vocabularyFilterMatch": false }, { "startTime": 0.45, "endTime": 0.45, "type": "punctuation", "content": ".", "vocabularyFilterMatch": false } ] } ], "channelId": "ch_0" }
Für jedes Sprachsegment gibt es ein channelId
-Kennzeichen, das anzeigt, zu welchem Kanal die Sprache gehört.