Mentranskripsikan file audio multi-saluran Mentranskripsikan aliran audio multi-saluran

Mentranskripsikan audio multi-saluran

Jika Anda memiliki file audio atau streaming yang memiliki beberapa saluran, Anda dapat menggunakan identifikasi saluran untuk mentranskripsikan ucapan dari masing-masing saluran tersebut. Amazon Transcribe Medis mentranskripsikan pidato dari setiap saluran secara terpisah. Ini menggabungkan transkripsi terpisah dari setiap saluran menjadi satu output transkripsi.

Gunakan identifikasi saluran untuk mengidentifikasi saluran terpisah dalam audio Anda dan transkripsikan ucapan dari masing-masing saluran tersebut. Aktifkan ini dalam situasi seperti skenario penelepon dan agen. Gunakan ini untuk membedakan penelepon dari agen dalam rekaman atau aliran dari pusat kontak yang melakukan pemantauan keamanan obat.

Anda dapat mengaktifkan identifikasi saluran untuk pemrosesan batch dan streaming waktu nyata. Daftar berikut menjelaskan cara mengaktifkannya untuk setiap metode.

Transkripsi Batch — Konsol Manajemen AWS dan API StartMedicalTranscriptionJob
Transkripsi streaming — WebSocket streaming dan API StartMedicalStreamTranscription

Mentranskripsikan file audio multi-saluran

Saat Anda mentranskripsikan file audio, Amazon Transcribe Medical mengembalikan daftar item untuk setiap saluran. Item adalah kata yang ditranskripsikan atau tanda baca. Setiap kata memiliki waktu mulai dan waktu akhir. Jika seseorang di satu saluran berbicara melalui seseorang di saluran terpisah, waktu mulai dan waktu akhir item untuk setiap saluran tumpang tindih saat individu berbicara satu sama lain.

Secara default, Anda dapat menyalin file audio dengan dua saluran. Anda dapat meminta peningkatan kuota jika perlu menyalin file yang memiliki lebih dari dua saluran. Untuk informasi tentang meminta kenaikan kuota, lihat Layanan AWS kuota.

Untuk mentranskripsikan audio multi-saluran dalam pekerjaan transkripsi batch, gunakan Konsol Manajemen AWS atau API. StartMedicalTranscriptionJob

Untuk menggunakan Konsol Manajemen AWS untuk mengaktifkan identifikasi saluran dalam pekerjaan transkripsi batch Anda, Anda mengaktifkan identifikasi audio dan kemudian identifikasi saluran. Identifikasi saluran adalah bagian dari identifikasi audio di. Konsol Manajemen AWS

Masuk ke Konsol Manajemen AWS.
Di panel navigasi, di bawah Amazon Transcribe Medis, pilih Pekerjaan transkripsi.
Pilih Buat tugas.
Pada halaman Tentukan detail pekerjaan, berikan informasi tentang pekerjaan transkripsi Anda.
Pilih Berikutnya.
Aktifkan identifikasi Audio.
Untuk jenis identifikasi Audio, pilih Identifikasi saluran.
Pilih Buat.

Untuk mentranskripsikan file audio multi-saluran (API)

Untuk StartMedicalTranscriptionJobAPI, tentukan yang berikut ini.
1. UntukTranscriptionJobName, tentukan nama yang unik untuk Anda Akun AWS.
2. UntukLanguageCode, tentukan kode bahasa yang sesuai dengan bahasa yang digunakan dalam file audio. Nilai yang valid adalahen-US.
3. Untuk MediaFileUri parameter Media objek, tentukan nama file media yang ingin Anda transkripsikan.
4. Untuk Settings objek, atur ChannelIdentification ketrue.

Berikut ini adalah contoh permintaan menggunakan AWS SDK untuk Python (Boto3).



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_name = "my-first-med-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
      MedicalTranscriptionJobName = job_name,
      Media = {
        'MediaFileUri': job_uri
      },
      OutputBucketName = 'amzn-s3-demo-bucket',
      OutputKey = 'output-files/',
      LanguageCode = 'en-US',
      Specialty = 'PRIMARYCARE',
      Type = 'CONVERSATION',
      Settings = {
        'ChannelIdentification': True
      }
)
while True:
    status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Untuk mentranskripsikan file audio multi-saluran menggunakan pekerjaan transkripsi batch ()AWS CLI

Jalankan kode berikut.



                    
aws transcribe start-medical-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

Berikut ini adalah kode dariexample-start-command.json.


{
      "MedicalTranscriptionJobName": "my-first-med-transcription-job",        
      "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",

        "Settings":{
          "ChannelIdentification": true
        }
}

Kode berikut menunjukkan output transkripsi untuk file audio yang memiliki percakapan di dua saluran.



{
  "jobName": "job id",
  "accountId": "111122223333",
  "results": {
    "transcripts": [
      {
        "transcript": "When you try ... It seems to ..."
      }
    ],
    "channel_labels": {
      "channels": [
        {
          "channel_label": "ch_0",
          "items": [
            {
              "start_time": "12.282",
              "end_time": "12.592",
              "alternatives": [
                {
                  "confidence": "1.0000",
                  "content": "When"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.592",
              "end_time": "12.692",
              "alternatives": [
                {
                  "confidence": "0.8787",
                  "content": "you"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.702",
              "end_time": "13.252",
              "alternatives": [
                {
                  "confidence": "0.8318",
                  "content": "try"
                }
              ],
              "type": "pronunciation"
            },
            ...
         ]
      },
      {
          "channel_label": "ch_1",
          "items": [
            {
              "start_time": "12.379",
              "end_time": "12.589",
              "alternatives": [
                {
                  "confidence": "0.5645",
                  "content": "It"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.599",
              "end_time": "12.659",
              "alternatives": [
                {
                  "confidence": "0.2907",
                  "content": "seems"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.669",
              "end_time": "13.029",
              "alternatives": [
                {
                  "confidence": "0.2497",
                  "content": "to"
                }
              ],
              "type": "pronunciation"
            },
            ...
        ]
    }
}

Mentranskripsikan aliran audio multi-saluran

Anda dapat mentranskripsikan audio dari saluran terpisah baik di HTTP/2 atau WebSocket streaming menggunakan API. StartMedicalStreamTranscription

Secara default, Anda dapat mentranskripsikan aliran dengan dua saluran. Anda dapat meminta peningkatan kuota jika perlu mentranskripsikan aliran yang memiliki lebih dari dua saluran. Untuk informasi tentang meminta peningkatan kuota, lihat kuota AWS layanan.

Mentranskripsikan audio multi-saluran dalam aliran HTTP/2

Untuk mentranskripsikan audio multi-saluran dalam aliran HTTP/2, gunakan StartMedicalStreamTranscriptionAPI dan tentukan yang berikut ini:

LanguageCode— Kode bahasa audio. Nilai yang valid adalahen-US.
MediaEncoding— Pengkodean audio. Nilai yang valid adalah ogg-opus, flac, dan pcm.
EnableChannelIdentification – true
NumberOfChannels— jumlah saluran dalam audio streaming Anda.

Untuk informasi lebih lanjut tentang menyiapkan aliran HTTP/2 untuk mentranskripsikan percakapan medis, lihat. Menyiapkan aliran HTTP/2

Mentranskripsikan audio multi-saluran dalam aliran WebSocket

Untuk mempartisi speaker dalam WebSocket aliran, gunakan format berikut untuk membuat URI yang telah ditandatangani sebelumnya dan memulai permintaan. WebSocket Tentukan enable-channel-identification sebagai true dan jumlah saluran dalam aliran Anda dinumber-of-channels. URI yang telah ditandatangani sebelumnya berisi informasi yang diperlukan untuk mengatur komunikasi dua arah antara aplikasi Anda dan Medis. Amazon Transcribe



GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true
&number-of-channels=2

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasi AWS API tercantum di bagian Parameter Umum.

Untuk informasi selengkapnya tentang WebSocket permintaan, lihatMenyiapkan WebSocket aliran.

Output streaming multi-saluran

Output dari transkripsi streaming sama untuk HTTP/2 dan permintaan. WebSocket Berikut ini adalah output contoh.


{
    "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX",
    "startTime": 0.11,
    "endTime": 0.66,
    "isPartial": false,
    "alternatives": [
        {
            "transcript": "Left.",
            "items": [
                {
                    "startTime": 0.11,
                    "endTime": 0.45,
                    "type": "pronunciation",
                    "content": "Left",
                    "vocabularyFilterMatch": false
                },
                {
                    "startTime": 0.45,
                    "endTime": 0.45,
                    "type": "punctuation",
                    "content": ".",
                    "vocabularyFilterMatch": false
                }
            ]
        }
    ],
    "channelId": "ch_0"
}

Untuk setiap segmen pidato, ada channelId bendera yang menunjukkan saluran mana pidato itu dimiliki.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mempartisi speaker dalam streaming waktu nyata

Mentranskripsikan dikte medis