

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Identifikasi bahasa dengan pekerjaan transkripsi batch
<a name="lang-id-batch"></a>

Gunakan identifikasi bahasa batch untuk secara otomatis mengidentifikasi bahasa, atau bahasa, dalam file media Anda.

Jika media Anda hanya berisi satu bahasa, Anda dapat mengaktifkan [identifikasi bahasa tunggal](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html#transcribe-StartTranscriptionJob-request-IdentifyLanguage), yang mengidentifikasi bahasa dominan yang digunakan dalam file media Anda dan membuat transkrip Anda hanya menggunakan bahasa ini.

Jika media Anda berisi lebih dari satu bahasa, Anda dapat mengaktifkan [identifikasi multi-bahasa](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html#transcribe-StartTranscriptionJob-request-IdentifyMultipleLanguages), yang mengidentifikasi semua bahasa yang digunakan dalam file media Anda dan membuat transkrip Anda menggunakan setiap bahasa yang diidentifikasi. Perhatikan bahwa transkrip multi-bahasa diproduksi. Anda dapat menggunakan layanan lain, seperti Amazon Translate, untuk menerjemahkan transkrip Anda.

Lihat tabel [bahasa yang didukung](supported-languages.md) untuk daftar lengkap bahasa yang didukung dan kode bahasa terkait.

Untuk hasil terbaik, pastikan file media Anda berisi setidaknya 30 detik pidato.

Untuk contoh penggunaan dengan SDK Konsol Manajemen AWS, AWS CLI, dan AWS Python, lihat. [Menggunakan identifikasi bahasa dengan transkripsi batch](#lang-id-batch-examples)

## Mengidentifikasi bahasa dalam audio multi-bahasa
<a name="lang-id-batch-multi-language"></a>

Identifikasi multi-bahasa ditujukan untuk file media multi-bahasa, dan memberi Anda transkrip yang mencerminkan semua [bahasa yang didukung](supported-languages.md) yang digunakan di media Anda. Ini berarti bahwa jika penutur mengubah bahasa di tengah percakapan, atau jika setiap peserta berbicara bahasa yang berbeda, output transkripsi Anda mendeteksi dan mentranskripsikan setiap bahasa dengan benar. Misalnya, jika media Anda berisi pembicara bilingual yang bergantian antara bahasa Inggris AS (`en-US`) dan Hindi (`hi-IN`), identifikasi multi-bahasa dapat mengidentifikasi dan mentranskripsikan bahasa Inggris AS lisan sebagai dan bahasa Hindi yang diucapkan sebagai`en-US`. `hi-IN`

Ini berbeda dari identifikasi bahasa tunggal, di mana hanya satu bahasa dominan yang digunakan untuk membuat transkrip. Dalam hal ini, bahasa lisan apa pun yang bukan bahasa dominan ditranskripsikan secara tidak benar.

**catatan**  
Redaksi dan model bahasa kustom saat ini tidak didukung dengan identifikasi multi-bahasa.

**catatan**  
Bahasa-bahasa berikut saat ini didukung dengan identifikasi multi-bahasa: en-AB, en-AU, en-GB, en-IE, en-in, en-NZ, en-US, en-WL, en-ZA, es-ES, es-US, fr-CA, fr-FR, zh-CN, zh-TW, Pt-BR, Pt-pt, de-ch, de-de, af-za, ar-Ae, da-dK, He-il, Hi-il, -Dalam, Id-ID, Fa-ir, IT-it, Ja-jp, Ko-kr, MS-saya, NL-nl, Ru-ru, Ta-in, TE-in, TH-th, Tr-tr 

Transkrip multi-bahasa memberikan ringkasan bahasa yang terdeteksi dan total waktu setiap bahasa digunakan di media Anda. Inilah contohnya:

```
"results": {
        "transcripts": [
            {
                "transcript": "welcome to Amazon transcribe. ये तो उदाहरण हैं क्या कैसे कर सकते हैं ।一つのファイルに複数の言語を書き写す"
            }
        ],

    ...

        "language_codes": [
            {
                "language_code": "en-US",
                "duration_in_seconds": 2.45
            },
            {
                "language_code": "hi-IN",
                "duration_in_seconds": 5.325
            },
            {
                "language_code": "ja-JP",
                "duration_in_seconds": 4.15
            }
        ]
}
```

## Meningkatkan akurasi identifikasi bahasa
<a name="lang-id-batch-improve-accuracy"></a>

Dengan identifikasi bahasa, Anda memiliki opsi untuk memasukkan daftar bahasa yang menurut Anda mungkin ada di media Anda. Menyertakan opsi bahasa (`LanguageOptions`) membatasi Amazon Transcribe penggunaan hanya bahasa yang Anda tentukan saat mencocokkan audio Anda dengan bahasa yang benar, yang dapat mempercepat identifikasi bahasa dan meningkatkan akurasi yang terkait dengan penetapan dialek bahasa yang benar.

Jika Anda memilih untuk memasukkan kode bahasa, Anda harus menyertakan setidaknya dua. Tidak ada batasan jumlah kode bahasa yang dapat Anda sertakan, tetapi sebaiknya gunakan antara dua dan lima untuk efisiensi dan akurasi yang optimal.

**catatan**  
Jika Anda menyertakan kode bahasa dengan permintaan Anda dan tidak ada kode bahasa yang Anda berikan yang cocok dengan bahasa, atau bahasa, yang diidentifikasi dalam audio Anda, Amazon Transcribe memilih kecocokan bahasa terdekat dari kode bahasa yang Anda tentukan. Kemudian menghasilkan transkrip dalam bahasa itu. Misalnya, jika media Anda dalam bahasa Inggris AS (`en-US`) dan Anda memberikan Amazon Transcribe kode bahasa,, dan `zh-CN` `fr-FR``de-DE`, Amazon Transcribe kemungkinan akan mencocokkan media Anda dengan bahasa Jerman (`de-DE`) dan menghasilkan transkripsi berbahasa Jerman. Ketidakcocokan kode bahasa dan bahasa lisan dapat mengakibatkan transkrip yang tidak akurat, jadi sebaiknya berhati-hati saat menyertakan kode bahasa.

## Menggabungkan identifikasi bahasa dengan Amazon Transcribe fitur lain
<a name="lang-id-batch-features"></a>

Anda dapat menggunakan identifikasi bahasa batch dalam kombinasi dengan Amazon Transcribe fitur lainnya. Jika menggabungkan identifikasi bahasa dengan fitur lain, Anda terbatas pada bahasa yang didukung dengan fitur tersebut. Misalnya, jika menggunakan identifikasi bahasa dengan redaksi konten, Anda terbatas pada bahasa Inggris AS (`en-US`) atau Spanyol AS (`es-US`), karena ini hanya bahasa yang tersedia untuk redaksi. Lihat [Bahasa yang didukung dan fitur khusus bahasa](supported-languages.md) untuk informasi lebih lanjut.

**penting**  
Jika Anda menggunakan identifikasi bahasa otomatis dengan redaksi konten diaktifkan dan audio Anda berisi bahasa selain bahasa Inggris AS (`en-US`) atau Spanyol AS (`es-US`), hanya konten Inggris AS atau Spanyol AS yang disunting dalam transkrip Anda. Bahasa lain tidak dapat disunting dan tidak ada peringatan atau kegagalan pekerjaan.



**Model bahasa kustom, kosakata kustom, dan filter kosakata kustom**

Jika Anda ingin menambahkan satu atau lebih model bahasa kustom, kosakata kustom, atau filter kosakata kustom ke permintaan identifikasi bahasa Anda, Anda harus menyertakan parameter. [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html) Anda kemudian dapat menentukan kode bahasa dengan model bahasa kustom yang sesuai, kosakata kustom, dan filter kosakata kustom. Perhatikan bahwa identifikasi multi-bahasa tidak mendukung model bahasa khusus.

Disarankan agar Anda menyertakan `LanguageOptions` saat menggunakan [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html)untuk memastikan bahwa dialek bahasa yang benar diidentifikasi. Misalnya, jika Anda menentukan kosakata `en-US` khusus, tetapi Amazon Transcribe menentukan bahwa bahasa yang digunakan di media Anda`en-AU`, kosakata khusus Anda *tidak diterapkan* pada transkripsi Anda. Jika Anda menyertakan `LanguageOptions` dan menentukan `en-US` sebagai satu-satunya dialek bahasa Inggris, kosakata khusus Anda *diterapkan* pada transkripsi Anda.

Untuk contoh [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html)dalam permintaan, lihat Opsi 2 di panel **AWS CLI**dan **AWS SDKs**tarik-turun di bagian[Menggunakan identifikasi bahasa dengan transkripsi batch](#lang-id-batch-examples).

## Menggunakan identifikasi bahasa dengan transkripsi batch
<a name="lang-id-batch-examples"></a>

Anda dapat menggunakan identifikasi bahasa otomatis dalam pekerjaan transkripsi batch menggunakan **Konsol Manajemen AWS**, **AWS CLI**, atau **AWS SDKs**; lihat contoh berikut:

### Konsol Manajemen AWS
<a name="lang-id-console-batch"></a>

1. Masuk ke [Konsol Manajemen AWS](https://console.aws.amazon.com/transcribe/).

1. Di panel navigasi, pilih **Pekerjaan transkripsi**, lalu pilih **Buat pekerjaan** (kanan atas). Ini membuka halaman **Tentukan detail pekerjaan**.

1. Di panel **Pengaturan pekerjaan**, temukan bagian **Pengaturan bahasa** dan pilih **Identifikasi bahasa otomatis atau Identifikasi** **beberapa bahasa otomatis**.

   Anda memiliki opsi untuk memilih beberapa opsi bahasa (dari kotak tarik-turun *Pilih bahasa*) jika Anda tahu bahasa mana yang ada di file audio Anda. Menyediakan pilihan bahasa dapat meningkatkan akurasi, tetapi tidak diperlukan.  
![\[Amazon Transcribe tangkapan layar konsol: panel 'pengaturan pekerjaan' di halaman 'tentukan detail pekerjaan'.\]](http://docs.aws.amazon.com/id_id/transcribe/latest/dg/images/lang-id-batch1.png)

1. Isi kolom lain yang ingin Anda sertakan di halaman **Tentukan detail pekerjaan**, lalu pilih **Berikutnya**. Ini membawa Anda ke halaman **Konfigurasi pekerjaan - *opsional***.  
![\[Amazon Transcribe tangkapan layar konsol: halaman 'konfigurasi pekerjaan'.\]](http://docs.aws.amazon.com/id_id/transcribe/latest/dg/images/lang-id-configure-batch.png)

1. Pilih **Buat pekerjaan** untuk menjalankan pekerjaan transkripsi Anda. 

### AWS CLI
<a name="lang-id-cli"></a>

Contoh ini menggunakan [start-transcription-job](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/transcribe/start-transcription-job.html)perintah dan `IdentifyLanguage` parameter. Untuk informasi selengkapnya, lihat [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html) dan [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html).

**Opsi 1**: Tanpa `language-id-settings` parameter. Gunakan opsi ini jika Anda **tidak** menyertakan model bahasa khusus, kosakata khusus, atau filter kosakata khusus dalam permintaan Anda. `language-options`bersifat opsional, tetapi direkomendasikan.

```
aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \    
--identify-language \  (or --identify-multiple-languages) \
--language-options "en-US" "hi-IN"
```

**Opsi 2**: Dengan `language-id-settings` parameter. **Gunakan opsi ini jika Anda menyertakan model bahasa khusus, kosakata khusus, atau filter kosakata khusus dalam permintaan Anda.**

```
aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--identify-language \  (or --identify-multiple-languages)
--language-options "en-US" "hi-IN" \
--language-id-settings en-US=VocabularyName=my-en-US-vocabulary,en-US=VocabularyFilterName=my-en-US-vocabulary-filter,en-US=LanguageModelName=my-en-US-language-model,hi-IN=VocabularyName=my-hi-IN-vocabulary,hi-IN=VocabularyFilterName=my-hi-IN-vocabulary-filter
```

Berikut contoh lain menggunakan [start-transcription-job](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/transcribe/start-transcription-job.html)perintah, dan badan permintaan yang mengidentifikasi bahasa.

```
aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://filepath/my-first-language-id-job.json
```

File *my-first-language-id-job.json berisi badan permintaan* berikut.

**Opsi 1**: Tanpa `LanguageIdSettings` parameter. Gunakan opsi ini jika Anda **tidak** menyertakan model bahasa khusus, kosakata khusus, atau filter kosakata khusus dalam permintaan Anda. `LanguageOptions`bersifat opsional, tetapi direkomendasikan.

```
{
  "TranscriptionJobName": "my-first-transcription-job",  
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
   },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "IdentifyLanguage": true,  (or "IdentifyMultipleLanguages": true),
  "LanguageOptions": [
        "en-US", "hi-IN"  
  ]
}
```

**Opsi 2**: Dengan `LanguageIdSettings` parameter. **Gunakan opsi ini jika Anda menyertakan model bahasa khusus, kosakata khusus, atau filter kosakata khusus dalam permintaan Anda.**

```
{
   "TranscriptionJobName": "my-first-transcription-job",  
   "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
   },
   "OutputBucketName": "amzn-s3-demo-bucket",
   "OutputKey": "my-output-files/", 
   "IdentifyLanguage": true,  (or "IdentifyMultipleLanguages": true)
   "LanguageOptions": [
        "en-US", "hi-IN"  
   ],
   "LanguageIdSettings": { 
         "en-US" : { 
            "LanguageModelName": "my-en-US-language-model",
            "VocabularyFilterName": "my-en-US-vocabulary-filter",
            "VocabularyName": "my-en-US-vocabulary"
         },
         "hi-IN": {
             "VocabularyName": "my-hi-IN-vocabulary",
             "VocabularyFilterName": "my-hi-IN-vocabulary-filter"
         }
    }
}
```

### AWS SDK untuk Python (Boto3)
<a name="lang-id-python-batch"></a>

Contoh ini menggunakan AWS SDK untuk Python (Boto3) untuk mengidentifikasi bahasa file Anda menggunakan `IdentifyLanguage` argumen untuk metode [start\$1transcription\$1job](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/transcribe.html#TranscribeService.Client.start_transcription_job). Untuk informasi selengkapnya, lihat [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html) dan [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_LanguageIdSettings.html).

Untuk contoh tambahan menggunakan AWS SDKs, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. [Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs](service_code_examples.md)

**Opsi 1**: Tanpa `LanguageIdSettings` parameter. Gunakan opsi ini jika Anda **tidak** menyertakan model bahasa khusus, kosakata khusus, atau filter kosakata khusus dalam permintaan Anda. `LanguageOptions`bersifat opsional, tetapi direkomendasikan.

```
from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/',
    MediaFormat = 'flac',
    IdentifyLanguage = True,  (or IdentifyMultipleLanguages = True),
    LanguageOptions = [
        'en-US', 'hi-IN'
    ]
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)
```

**Opsi 2**: Dengan `LanguageIdSettings` parameter. **Gunakan opsi ini jika Anda menyertakan model bahasa khusus, kosakata khusus, atau filter kosakata khusus dalam permintaan Anda.**

```
from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    MediaFormat='flac',
    IdentifyLanguage=True,  (or IdentifyMultipleLanguages=True)
    LanguageOptions = [
        'en-US', 'hi-IN'
    ],
    LanguageIdSettings={
        'en-US': {
            'VocabularyName': 'my-en-US-vocabulary',
            'VocabularyFilterName': 'my-en-US-vocabulary-filter',
            'LanguageModelName': 'my-en-US-language-model'
        },
        'hi-IN': {
            'VocabularyName': 'my-hi-IN-vocabulary',
            'VocabularyFilterName': 'my-hi-IN-vocabulary-filter'
        }   
    }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)
```