

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Klasifikasi khusus
<a name="how-document-classification"></a>

Gunakan *klasifikasi kustom* untuk mengatur dokumen Anda ke dalam kategori (kelas) yang Anda tentukan. Klasifikasi kustom adalah proses dua langkah. Pertama, Anda melatih model klasifikasi khusus (juga disebut pengklasifikasi) untuk mengenali kelas yang menarik bagi Anda. Kemudian Anda menggunakan model Anda untuk mengklasifikasikan sejumlah set dokumen.

Misalnya, Anda dapat mengkategorikan konten permintaan dukungan sehingga Anda dapat mengarahkan permintaan ke tim dukungan yang tepat. Atau Anda dapat mengkategorikan email yang diterima dari pelanggan untuk memberikan panduan berdasarkan jenis permintaan pelanggan. Anda dapat menggabungkan Amazon Comprehend dengan Amazon Transcribe untuk mengonversi ucapan menjadi teks dan kemudian mengklasifikasikan permintaan yang berasal dari panggilan telepon dukungan.

Anda dapat menjalankan klasifikasi kustom pada satu dokumen secara sinkron (secara real time) atau memulai pekerjaan asinkron untuk mengklasifikasikan sekumpulan dokumen. Anda dapat memiliki beberapa pengklasifikasi kustom di akun Anda, masing-masing dilatih menggunakan data yang berbeda. Klasifikasi kustom mendukung berbagai jenis dokumen masukan, seperti teks biasa, PDF, Word, dan gambar.

Saat Anda mengirimkan pekerjaan klasifikasi, Anda memilih model pengklasifikasi yang akan digunakan, berdasarkan jenis dokumen yang perlu Anda analisis. Misalnya, untuk menganalisis dokumen teks biasa, Anda mencapai hasil yang paling akurat dengan menggunakan model yang Anda latih dengan dokumen teks biasa. Untuk menganalisis dokumen semi-terstruktur (seperti PDF, Word, gambar, keluaran Amazon Textract, atau file yang dipindai), Anda mencapai hasil yang paling akurat dengan menggunakan model yang Anda latih dengan dokumen asli.

**Topics**
+ [Mempersiapkan data pelatihan pengklasifikasi](prep-classifier-data.md)
+ [Model klasifikasi pelatihan](training-classifier-model.md)
+ [Menjalankan analisis waktu nyata](running-class-sync.md)
+ [Menjalankan pekerjaan asinkron](running-classifiers.md)

# Mempersiapkan data pelatihan pengklasifikasi
<a name="prep-classifier-data"></a>

Untuk klasifikasi khusus, Anda melatih model dalam mode multi-kelas atau mode multi-label. Mode multi-kelas mengaitkan satu kelas dengan setiap dokumen. Mode multi-label mengaitkan satu atau lebih kelas dengan setiap dokumen. Format file input berbeda untuk setiap mode, jadi pilih mode yang akan digunakan sebelum Anda membuat data pelatihan. 

**catatan**  
Konsol Amazon Comprehend mengacu pada mode multi-kelas sebagai mode label tunggal.

Klasifikasi kustom mendukung model yang Anda latih dengan dokumen teks biasa dan model yang Anda latih dengan dokumen asli (seperti PDF, Word, atau gambar). Untuk informasi selengkapnya tentang model pengklasifikasi dan jenis dokumen yang didukung, lihat[Model klasifikasi pelatihan](training-classifier-model.md).

Untuk menyiapkan data untuk melatih model pengklasifikasi kustom: 

1. Identifikasi kelas yang Anda ingin pengklasifikasi ini untuk dianalisis. Tentukan mode mana yang akan digunakan (multi-kelas atau multi-label).

1. Tentukan jenis model pengklasifikasi, berdasarkan apakah model tersebut untuk menganalisis dokumen teks biasa atau dokumen semi-terstruktur. 

1. Kumpulkan contoh dokumen untuk masing-masing kelas. Untuk persyaratan pelatihan minimum, lihat[Kuota umum untuk klasifikasi dokumen](guidelines-and-limits.md#limits-class-general).

1. Untuk model teks biasa, pilih format file pelatihan yang akan digunakan (file CSV atau file manifes tambahan). Untuk melatih model dokumen asli, Anda selalu menggunakan file CSV. 

**Topics**
+ [Format file pelatihan pengklasifikasi](prep-class-data-format.md)
+ [Mode multi-kelas](prep-classifier-data-multi-class.md)
+ [Mode multi-label](prep-classifier-data-multi-label.md)

# Format file pelatihan pengklasifikasi
<a name="prep-class-data-format"></a>

Untuk model teks biasa, Anda dapat memberikan data pelatihan pengklasifikasi sebagai file CSV atau sebagai file manifes tambahan yang Anda buat menggunakan AI Ground Truth. SageMaker File CSV atau file manifes tambahan menyertakan teks untuk setiap dokumen pelatihan, dan label terkaitnya.

Untuk model dokumen asli, Anda menyediakan data pelatihan Classifier sebagai file CSV. File CSV menyertakan nama file untuk setiap dokumen pelatihan, dan label terkaitnya. Anda menyertakan dokumen pelatihan di folder input Amazon S3 untuk pekerjaan pelatihan.

## Berkas CSV
<a name="prep-data-csv"></a>

Anda memberikan data pelatihan berlabel sebagai teks yang disandikan UTF-8 dalam file CSV. Jangan sertakan baris header. Menambahkan baris header di file Anda dapat menyebabkan kesalahan runtime.

Untuk setiap baris dalam file CSV, kolom pertama berisi satu atau lebih label kelas, Label kelas dapat berupa string UTF-8 yang valid. Sebaiknya gunakan nama kelas yang jelas yang tidak tumpang tindih artinya. Nama dapat mencakup ruang putih, dan dapat terdiri dari beberapa kata yang dihubungkan oleh garis bawah atau tanda hubung.

Jangan tinggalkan karakter spasi sebelum atau sesudah koma yang memisahkan nilai dalam satu baris. 

Konten yang tepat dari file CSV tergantung pada mode pengklasifikasi dan jenis data pelatihan. Untuk detailnya, lihat bagian di [Mode multi-kelas](prep-classifier-data-multi-class.md) dan[Mode multi-label](prep-classifier-data-multi-label.md).

## File manifes yang diperbesar
<a name="prep-data-annotations"></a>

File augmented manifest adalah kumpulan data berlabel yang Anda buat menggunakan AI Ground SageMaker Truth. Ground Truth adalah layanan pelabelan data yang membantu Anda—atau tenaga kerja yang Anda pekerjakan—untuk membangun kumpulan data pelatihan untuk model pembelajaran mesin. 

Untuk informasi selengkapnya tentang Ground Truth dan output yang dihasilkannya, lihat [Use SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) di *Amazon SageMaker AI Developer Guide*.

File manifes yang diperbesar dalam format garis JSON. Dalam file-file ini, setiap baris adalah objek JSON lengkap yang berisi dokumen pelatihan dan label terkait. Konten yang tepat dari setiap baris tergantung pada mode pengklasifikasi. Untuk detailnya, lihat bagian di [Mode multi-kelas](prep-classifier-data-multi-class.md) dan[Mode multi-label](prep-classifier-data-multi-label.md).

Saat Anda memberikan data pelatihan ke Amazon Comprehend, Anda menentukan satu atau beberapa nama atribut label. Berapa banyak nama atribut yang Anda tentukan bergantung pada apakah file manifes tambahan Anda adalah output dari pekerjaan pelabelan tunggal atau pekerjaan pelabelan berantai.

Jika file Anda adalah output dari pekerjaan pelabelan tunggal, tentukan nama atribut label tunggal dari pekerjaan Ground Truth. 

Jika file Anda adalah output dari pekerjaan pelabelan berantai, tentukan nama atribut label untuk satu atau beberapa pekerjaan dalam rantai. Setiap nama atribut label memberikan anotasi dari pekerjaan individu. Anda dapat menentukan hingga 5 atribut ini untuk file manifes tambahan dari pekerjaan pelabelan berantai. 

Untuk informasi lebih lanjut tentang pekerjaan pelabelan berantai, dan untuk contoh output yang mereka hasilkan, lihat Pekerjaan [Pelabelan Berantai di Panduan Pengembang](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) Amazon SageMaker AI.

# Mode multi-kelas
<a name="prep-classifier-data-multi-class"></a>

Dalam mode multi-kelas, klasifikasi menetapkan satu kelas untuk setiap dokumen. Kelas individu saling eksklusif. Misalnya, Anda dapat mengklasifikasikan film sebagai komedi atau fiksi ilmiah, tetapi tidak keduanya. 

**catatan**  
Konsol Amazon Comprehend mengacu pada mode multi-kelas sebagai mode label tunggal.

**Topics**
+ [Model teks biasa](#prep-multi-class-plaintext)
+ [Model dokumen asli](#prep-multi-class-structured)

## Model teks biasa
<a name="prep-multi-class-plaintext"></a>

Untuk melatih model teks biasa, Anda dapat memberikan data pelatihan berlabel sebagai file CSV atau sebagai file manifes tambahan dari AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-class-plaintext-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV dua kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi contoh dokumen teks untuk kelas itu. Setiap baris harus diakhiri dengan\$1 n atau\$1 r\$1nkarakter.

Contoh berikut menunjukkan file CSV yang berisi tiga dokumen.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi kustom untuk mendeteksi apakah pesan email adalah spam:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### File manifes yang diperbesar
<a name="prep-multi-class-plaintext-manifest"></a>

Untuk informasi umum tentang penggunaan file manifes tambahan untuk pengklasifikasi pelatihan, lihat. [File manifes yang diperbesar](prep-class-data-format.md#prep-data-annotations)

Untuk dokumen teks biasa, setiap baris file augmented manifest adalah objek JSON lengkap yang berisi dokumen pelatihan, nama kelas tunggal, dan metadata lainnya dari Ground Truth. Contoh berikut adalah file manifes tambahan untuk melatih pengklasifikasi kustom untuk mengenali pesan email spam:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 Contoh berikut menunjukkan satu objek JSON dari file manifes ditambah, diformat untuk keterbacaan: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

Dalam contoh ini, `source` atribut menyediakan teks dokumen pelatihan, dan `MultiClassJob` atribut menetapkan indeks kelas dari daftar klasifikasi. `job-name`Atribut adalah nama yang Anda tentukan untuk pekerjaan pelabelan di Ground Truth. 

 Saat Anda memulai pekerjaan pelatihan pengklasifikasi di Amazon Comprehend, Anda menentukan nama pekerjaan pelabelan yang sama. 

## Model dokumen asli
<a name="prep-multi-class-structured"></a>

Model dokumen asli adalah model yang Anda latih dengan dokumen asli (seperti PDF, DOCX, dan gambar). Anda memberikan data pelatihan sebagai file CSV.

### File CSV
<a name="prep-multi-class-structured-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV tiga kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi nama file dokumen contoh untuk kelas ini. Kolom ketiga berisi nomor halaman. Nomor halaman adalah opsional jika dokumen contoh adalah gambar.

Contoh berikut menunjukkan file CSV yang mereferensikan tiga dokumen masukan. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi kustom untuk mendeteksi apakah pesan email adalah spam. Halaman 2 dari file PDF berisi contoh spam. 

```
SPAM,email-content-3.pdf,2
```

# Mode multi-label
<a name="prep-classifier-data-multi-label"></a>

Dalam mode multi-label, kelas individu mewakili kategori berbeda yang tidak saling eksklusif. Klasifikasi multi-label menetapkan satu atau lebih kelas untuk setiap dokumen. Misalnya, Anda dapat mengklasifikasikan satu film sebagai Dokumenter, dan film lainnya sebagai fiksi ilmiah, aksi, dan komedi. 

Untuk pelatihan, mode multi-label mendukung hingga 1 juta contoh yang berisi hingga 100 kelas unik.

**Topics**
+ [Model teks biasa](#prep-multi-label-plaintext)
+ [Model dokumen asli](#prep-multi-label-structured)

## Model teks biasa
<a name="prep-multi-label-plaintext"></a>

Untuk melatih model teks biasa, Anda dapat memberikan data pelatihan berlabel sebagai file CSV atau sebagai file manifes tambahan dari AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-label-plaintext-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV dua kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas, dan kolom kedua berisi contoh dokumen teks untuk kelas-kelas ini. Untuk memasukkan lebih dari satu kelas di kolom pertama, gunakan pembatas (seperti \$1) di antara setiap kelas.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Pembatas default antara nama kelas adalah pipa (\$1). Namun, Anda dapat menggunakan karakter yang berbeda sebagai pembatas. Pembatas harus berbeda dari semua karakter dalam nama kelas Anda. Misalnya, jika kelas Anda adalah CLASS\$11, CLASS\$12, dan CLASS\$13, garis bawah (**\$1**) adalah bagian dari nama kelas. Jadi jangan gunakan garis bawah sebagai pembatas untuk memisahkan nama kelas.

### File manifes yang diperbesar
<a name="prep-multi-label-plaintext-manifest"></a>

Untuk informasi umum tentang penggunaan file manifes tambahan untuk pengklasifikasi pelatihan, lihat. [File manifes yang diperbesar](prep-class-data-format.md#prep-data-annotations)

Untuk dokumen teks biasa, setiap baris file manifes yang ditambah adalah objek JSON lengkap. Ini berisi dokumen pelatihan, nama kelas, dan metadata lainnya dari Ground Truth. Contoh berikut adalah file manifes tambahan untuk melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 Contoh berikut menunjukkan satu objek JSON dari file manifes ditambah, diformat untuk keterbacaan: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

Dalam contoh ini, `source` atribut menyediakan teks dokumen pelatihan, dan `MultiLabelJob` atribut menetapkan indeks beberapa kelas dari daftar klasifikasi. Nama pekerjaan dalam `MultiLabelJob` metadata adalah nama yang Anda tentukan untuk pekerjaan pelabelan di Ground Truth. 

## Model dokumen asli
<a name="prep-multi-label-structured"></a>

Model dokumen asli adalah model yang Anda latih dengan dokumen asli (seperti PDF, DOCX, dan file gambar). Anda memberikan data pelatihan berlabel sebagai file CSV.

### File CSV
<a name="prep-multi-label-structured-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV tiga kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi nama file dokumen contoh untuk kelas-kelas ini. Kolom ketiga berisi nomor halaman. Nomor halaman adalah opsional jika dokumen contoh adalah gambar.

Untuk memasukkan lebih dari satu kelas di kolom pertama, gunakan pembatas (seperti \$1) di antara setiap kelas.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film. Halaman 2 dari file PDF berisi contoh comedy/teen film.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Pembatas default antara nama kelas adalah pipa (\$1). Namun, Anda dapat menggunakan karakter yang berbeda sebagai pembatas. Pembatas harus berbeda dari semua karakter dalam nama kelas Anda. Misalnya, jika kelas Anda adalah CLASS\$11, CLASS\$12, dan CLASS\$13, garis bawah (**\$1**) adalah bagian dari nama kelas. Jadi jangan gunakan garis bawah sebagai pembatas untuk memisahkan nama kelas.

# Model klasifikasi pelatihan
<a name="training-classifier-model"></a>

Untuk melatih model klasifikasi kustom, Anda menentukan kategori dan memberikan contoh dokumen untuk melatih model kustom. Anda melatih model dalam mode multi-kelas atau multi-label. Mode multi-kelas mengaitkan satu kelas dengan setiap dokumen. Mode multi-label mengaitkan satu atau lebih kelas dengan setiap dokumen.

Klasifikasi kustom mendukung dua jenis model pengklasifikasi: model teks biasa dan model dokumen asli. Model teks biasa mengklasifikasikan dokumen berdasarkan konten teksnya. Model dokumen asli juga mengklasifikasikan dokumen berdasarkan konten teks. Model dokumen asli juga dapat menggunakan sinyal tambahan, seperti dari tata letak dokumen. Anda melatih model dokumen asli dengan dokumen asli untuk model untuk mempelajari informasi tata letak. 

Model teks biasa memiliki karakteristik sebagai berikut: 
+ Anda melatih model menggunakan dokumen teks yang dikodekan UTF-8. 
+ Anda dapat melatih model menggunakan dokumen dalam salah satu bahasa berikut: Inggris, Spanyol, Jerman, Italia, Prancis, atau Portugis. 
+ Dokumen pelatihan untuk pengklasifikasi tertentu semuanya harus menggunakan bahasa yang sama. 
+ Dokumen pelatihan adalah teks biasa, jadi tidak ada biaya tambahan untuk ekstraksi teks. 

Model dokumen asli memiliki karakteristik sebagai berikut: 
+ Anda melatih model menggunakan dokumen semi-terstruktur, yang mencakup jenis dokumen berikut:
  + Dokumen PDF digital dan pindaian.
  + Dokumen Word (DOCX).
  + Gambar: File JPG, file PNG, dan file TIFF satu halaman.
  + File JSON keluaran API Textract.
+ Anda melatih model menggunakan dokumen bahasa Inggris. 
+ Jika dokumen pelatihan Anda menyertakan file dokumen yang dipindai, Anda dikenakan biaya tambahan untuk ekstraksi teks. Lihat halaman Harga [Amazon Comprehend](https://aws.amazon.com/comprehend/pricing) untuk detailnya. 

Anda dapat mengklasifikasikan salah satu jenis dokumen yang didukung menggunakan salah satu jenis model. Namun, untuk hasil yang paling akurat, sebaiknya gunakan model teks biasa untuk mengklasifikasikan dokumen teks biasa dan model dokumen asli untuk mengklasifikasikan dokumen semi-terstruktur.

**Topics**
+ [Latih pengklasifikasi khusus (konsol)](create-custom-classifier-console.md)
+ [Latih pengklasifikasi khusus (API)](train-custom-classifier-api.md)
+ [Uji data pelatihan](testing-the-model.md)
+ [Output pelatihan pengklasifikasi](train-classifier-output.md)
+ [Metrik pengklasifikasi khusus](cer-doc-class.md)

# Latih pengklasifikasi khusus (konsol)
<a name="create-custom-classifier-console"></a>

Anda dapat membuat dan melatih pengklasifikasi kustom menggunakan konsol, lalu menggunakan pengklasifikasi khusus untuk menganalisis dokumen Anda.

Untuk melatih pengklasifikasi khusus, Anda memerlukan satu set dokumen pelatihan. Anda memberi label pada dokumen-dokumen ini dengan kategori yang ingin dikenali oleh pengklasifikasi dokumen. Untuk informasi tentang menyiapkan dokumen pelatihan Anda, lihat[Mempersiapkan data pelatihan pengklasifikasi](prep-classifier-data.md).



**Untuk membuat dan melatih model pengklasifikasi dokumen**

1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Comprehend di [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dari menu sebelah kiri, pilih **Kustomisasi** dan kemudian pilih **Klasifikasi Kustom**.

1. Pilih **Buat model baru**.

1. Di bawah **Pengaturan model**, masukkan nama model untuk pengklasifikasi. Nama harus unik dalam akun Anda dan Wilayah saat ini.

   (Opsional) Masukkan nama versi. Nama harus unik dalam akun Anda dan Wilayah saat ini.

1. Pilih bahasa dokumen pelatihan. Untuk melihat bahasa yang didukung pengklasifikasi, lihat[Model klasifikasi pelatihan](training-classifier-model.md). 

1. **(Opsional) Jika Anda ingin mengenkripsi data dalam volume penyimpanan saat Amazon Comprehend memproses tugas pelatihan Anda, pilih Enkripsi Classifier.** Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun Anda saat ini, atau satu dari akun lain.
   + Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih ID kunci untuk **ID kunci KMS**.
   + Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk ID kunci di bawah ARN **kunci KMS**.
**catatan**  
Untuk informasi selengkapnya tentang membuat dan menggunakan kunci KMS dan enkripsi terkait, lihat [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).

1. Di bawah **Spesifikasi data**, pilih **jenis model Pelatihan** yang akan digunakan.
   + **Dokumen teks biasa:** Pilih opsi ini untuk membuat model teks biasa. Latih model menggunakan dokumen teks biasa.
   + **Dokumen asli:** Pilih opsi ini untuk membuat model dokumen asli. Latih model menggunakan dokumen asli (PDF, Word, gambar). 

1. Pilih **format Data data** pelatihan Anda. Untuk informasi tentang format data, lihat[Format file pelatihan pengklasifikasi](prep-class-data-format.md).
   + **File CSV:** Pilih opsi ini jika data pelatihan Anda menggunakan format file CSV.
   + **Manifes tambahan:** Pilih opsi ini jika Anda menggunakan Ground Truth untuk membuat file manifes tambahan untuk data pelatihan Anda. Format ini tersedia jika Anda memilih **dokumen teks biasa** sebagai jenis model pelatihan.

1. Pilih **mode Classifier** yang akan digunakan.
   + **Mode label tunggal:** Pilih mode ini jika kategori yang Anda tetapkan ke dokumen saling eksklusif dan Anda melatih pengklasifikasi Anda untuk menetapkan satu label ke setiap dokumen. Di Amazon Comprehend API, mode single-label dikenal sebagai mode multi-class.
   + **Mode multi-label:** Pilih mode ini jika beberapa kategori dapat diterapkan ke dokumen secara bersamaan, dan Anda melatih pengklasifikasi Anda untuk menetapkan satu atau beberapa label ke setiap dokumen. 

1. Jika Anda memilih **mode Multi-label**, Anda dapat memilih **Delimiter** untuk label. Gunakan karakter pembatas ini untuk memisahkan label ketika ada beberapa kelas untuk dokumen pelatihan. Pembatas default adalah karakter pipa.

1. (Opsional) Jika Anda memilih **manifes Augmented** sebagai format data, Anda dapat memasukkan hingga lima file manifes tambahan. Setiap file manifes yang ditambah berisi kumpulan data pelatihan atau kumpulan data pengujian. Anda harus menyediakan setidaknya satu kumpulan data pelatihan. Dataset uji bersifat opsional. Gunakan langkah-langkah berikut untuk mengonfigurasi file manifes yang diperbesar:

   1. Di bawah **Dataset pelatihan dan pengujian**, perluas panel **lokasi Input**.

   1. Dalam **tipe Dataset**, pilih **Data pelatihan atau Data** **uji**.

   1. **Untuk lokasi **file manifes tambahan SageMaker AI Ground Truth S3, masukkan lokasi** bucket Amazon S3 yang berisi file manifes atau navigasikan ke sana dengan memilih Browse S3.** Peran IAM yang Anda gunakan untuk izin akses untuk pekerjaan pelatihan harus memiliki izin baca untuk bucket S3. 

   1. Untuk **nama Atribut**, masukkan nama atribut yang berisi anotasi Anda. Jika file berisi anotasi dari beberapa pekerjaan pelabelan berantai, tambahkan atribut untuk setiap pekerjaan.

   1. Untuk menambahkan lokasi input lain, pilih **Tambahkan lokasi input** dan kemudian konfigurasikan lokasi berikutnya.

1. (Opsional) Jika Anda memilih **file CSV** sebagai format data, gunakan langkah-langkah berikut untuk mengonfigurasi kumpulan data pelatihan dan kumpulan data pengujian opsional:

   1. **Di bawah **Kumpulan data Pelatihan**, masukkan lokasi bucket Amazon S3 yang berisi file CSV data latihan Anda atau navigasikan ke sana dengan memilih Browse S3.** Peran IAM yang Anda gunakan untuk izin akses untuk pekerjaan pelatihan harus memiliki izin baca untuk bucket S3. 

      (Opsional) Jika Anda memilih **dokumen asli** sebagai jenis model pelatihan, Anda juga memberikan URL folder Amazon S3 yang berisi file contoh pelatihan.

   1. Di bawah **Test dataset**, pilih apakah Anda menyediakan data tambahan untuk Amazon Comprehend untuk menguji model terlatih.
      + **Autosplit**: Autosplit secara otomatis memilih 10% dari data pelatihan Anda untuk dicadangkan untuk digunakan sebagai data pengujian.
      + (Opsional) **Pelanggan disediakan**: Masukkan URL file CSV data pengujian di Amazon S3. Anda juga dapat menavigasi ke lokasinya di Amazon S3 dan memilih **Pilih** folder.

        (Opsional) Jika Anda memilih **dokumen asli** sebagai jenis model pelatihan, Anda juga memberikan URL folder Amazon S3 yang berisi file pengujian.

1. (Opsional) Untuk **mode baca Dokumen**, Anda dapat mengganti tindakan ekstraksi teks default. Opsi ini tidak diperlukan untuk model teks biasa, karena berlaku untuk ekstraksi teks untuk dokumen yang dipindai. Untuk informasi selengkapnya, lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md). 

1. (Opsional untuk model teks biasa) Untuk **data Output**, masukkan lokasi bucket Amazon S3 untuk menyimpan data keluaran pelatihan, seperti matriks kebingungan. Untuk informasi selengkapnya, lihat [Matriks kebingungan](train-classifier-output.md#conf-matrix).

   (Opsional) Jika Anda memilih untuk mengenkripsi hasil output dari pekerjaan pelatihan Anda, pilih **Enkripsi**. Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.
   + Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih alias kunci untuk ID **kunci KMS**.
   + Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk alias kunci atau ID di bawah ID kunci **KMS**.

1. Untuk **peran IAM**, pilih **Pilih peran IAM yang ada, lalu pilih peran** IAM yang sudah ada yang memiliki izin baca untuk bucket S3 yang berisi dokumen pelatihan Anda. Peran tersebut harus memiliki kebijakan kepercayaan yang dimulai dengan `comprehend.amazonaws.com` agar valid.

   Jika Anda belum memiliki peran IAM dengan izin ini, pilih **Buat peran IAM** untuk membuatnya. Pilih izin akses untuk memberikan peran ini, lalu pilih akhiran nama untuk membedakan peran dari peran IAM di akun Anda.
**catatan**  
Untuk dokumen masukan terenkripsi, peran IAM yang digunakan juga harus memiliki izin. `kms:Decrypt` Untuk informasi selengkapnya, lihat [Izin yang diperlukan untuk menggunakan enkripsi KMS](security_iam_id-based-policy-examples.md#auth-kms-permissions).

1. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend dari VPC, masukkan ID VPC di bawah VPC atau pilih ID dari **daftar** tarik-turun. 

   1. Pilih subnet di bawah **Subnet (s).** Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

   1. Di bawah **Grup Keamanan**, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.
**catatan**  
Saat Anda menggunakan VPC dengan tugas klasifikasi Anda, yang `DataAccessRole` digunakan untuk operasi Buat dan Mulai harus memiliki izin ke VPC yang mengakses dokumen input dan bucket keluaran.

1. **(Opsional) Untuk menambahkan tag ke pengklasifikasi kustom, masukkan pasangan nilai kunci di bawah Tag.** Pilih **Tambahkan tanda**. Untuk menghapus pasangan ini sebelum membuat pengklasifikasi, pilih **Hapus tag**. Untuk informasi selengkapnya, lihat [Menandai Sumber Daya Anda](tagging.md).

1. Pilih **Buat**.

Konsol menampilkan halaman **Pengklasifikasi**. Pengklasifikasi baru muncul di tabel, ditampilkan `Submitted` sebagai statusnya. Saat pengklasifikasi mulai memproses dokumen pelatihan, statusnya berubah menjadi`Training`. Saat pengklasifikasi siap digunakan, status berubah menjadi `Trained` atau`Trained with warnings`. Jika statusnya`TRAINED_WITH_WARNINGS`, tinjau folder file yang dilewati di [Output pelatihan pengklasifikasi](train-classifier-output.md) file.

Jika Amazon Comprehend mengalami kesalahan selama pembuatan atau pelatihan, status berubah menjadi. `In error` Anda dapat memilih pekerjaan pengklasifikasi dalam tabel untuk mendapatkan informasi lebih lanjut tentang pengklasifikasi, termasuk pesan kesalahan apa pun.

![\[Daftar pengklasifikasi kustom.\]](http://docs.aws.amazon.com/id_id/comprehend/latest/dg/images/class-list.png)


# Latih pengklasifikasi khusus (API)
<a name="train-custom-classifier-api"></a>

Untuk membuat dan melatih pengklasifikasi khusus, gunakan [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)operasi.

Anda dapat memantau kemajuan permintaan menggunakan [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)operasi. Setelah transisi `Status` bidang ke`TRAINED`, Anda dapat menggunakan pengklasifikasi untuk mengklasifikasikan dokumen. Jika statusnya`TRAINED_WITH_WARNINGS`, tinjau folder file yang dilewati di [Output pelatihan pengklasifikasi](train-classifier-output.md) dari `CreateDocumentClassifier` operasi.

**Topics**
+ [Pelatihan klasifikasi kustom menggunakan AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Menggunakan AWS SDK untuk Java atau SDK untuk Python](#get-started-api-customclass-java)

## Pelatihan klasifikasi kustom menggunakan AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Contoh berikut menunjukkan cara menggunakan `CreateDocumentClassifier` operasi, `DescribeDocumentClassificationJob` operasi, dan pengklasifikasi khusus lainnya APIs dengan. AWS CLI

Contohnya diformat untuk Unix, Linux, dan macOS. Untuk Windows, ganti karakter kelanjutan backslash (\$1) Unix di akhir setiap baris dengan tanda sisipan (^).

Buat pengklasifikasi kustom teks biasa menggunakan operasi. `create-document-classifier`

```
aws comprehend create-document-classifier \
     --region region \
     --document-classifier-name testDelete \
     --language-code en \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name \
     --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess
```

Untuk membuat pengklasifikasi kustom asli, berikan parameter tambahan berikut dalam `create-document-classifier` permintaan.

1. DocumentType: atur nilainya ke SEMI\$1STRUCTURED\$1DOCUMENT.

1. Dokumen: lokasi S3 untuk dokumen pelatihan (dan, secara opsional, dokumen tes).

1. OutputDataConfig: menyediakan lokasi S3 untuk dokumen output (dan kunci KMS opsional). 

1. DocumentReaderConfig: Bidang opsional untuk pengaturan ekstraksi teks.

```
aws comprehend create-document-classifier \
     --region region \
     --document-classifier-name testDelete \
     --language-code en \
     --input-data-config 
          S3Uri=s3://S3Bucket/docclass/file name \
           DocumentType \
             Documents  \
     --output-data-config S3Uri=s3://S3Bucket/docclass/file name \
     --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess
```

Dapatkan informasi tentang pengklasifikasi kustom dengan ARN pengklasifikasi dokumen menggunakan operasi. `DescribeDocumentClassifier`

```
aws comprehend describe-document-classifier \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/file name
```

Hapus pengklasifikasi khusus menggunakan `DeleteDocumentClassifier` operasi.

```
aws comprehend delete-document-classifier \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete
```

Buat daftar semua pengklasifikasi khusus di akun menggunakan `ListDocumentClassifiers` operasi.

```
aws comprehend list-document-classifiers
     --region region
```

## Menggunakan AWS SDK untuk Java atau SDK untuk Python
<a name="get-started-api-customclass-java"></a>

Untuk contoh SDK tentang cara membuat dan melatih pengklasifikasi kustom, lihat. [Gunakan `CreateDocumentClassifier` dengan AWS SDK atau CLI](example_comprehend_CreateDocumentClassifier_section.md)

# Uji data pelatihan
<a name="testing-the-model"></a>

Setelah melatih model, Amazon Comprehend menguji model pengklasifikasi khusus. Jika Anda tidak menyediakan kumpulan data pengujian, Amazon Comprehend melatih model dengan 90 persen data pelatihan. Ini mencadangkan 10 persen dari data pelatihan untuk digunakan untuk pengujian. Jika Anda menyediakan kumpulan data pengujian, data pengujian harus menyertakan setidaknya satu contoh untuk setiap label unik dalam kumpulan data pelatihan. 

Menguji model memberi Anda metrik yang dapat Anda gunakan untuk memperkirakan keakuratan model. Konsol menampilkan metrik di bagian **Kinerja Pengklasifikasi** pada halaman **detail Pengklasifikasi** di konsol. Mereka juga dikembalikan ke `Metrics` ladang yang dikembalikan oleh [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)operasi.

Dalam contoh data pelatihan berikut, ada lima label, DOCUMENTARY, DOCUMENTARY, SCIENCE\$1FICTION, DOCUMENTARY, ROMANTIC\$1COMEDY. Ada tiga kelas unik: DOCUMENTARY, SCIENCE\$1FICTION, ROMANTIC\$1COMEDY. 


| Kolom 1 | Kolom 2 | 
| --- | --- | 
| DOKUMENTER | teks dokumen 1 | 
| DOKUMENTER | teks dokumen 2 | 
| SCIENCE\$1FICTION | teks dokumen 3 | 
| DOKUMENTER | teks dokumen 4 | 
| ROMANTIS\$1KOMEDI | teks dokumen 5 | 

Untuk pemisahan otomatis (di mana Amazon Comprehend menyimpan 10 persen data pelatihan untuk digunakan untuk pengujian), jika data pelatihan berisi contoh terbatas dari label tertentu, kumpulan data pengujian mungkin berisi nol contoh label tersebut. Misalnya, jika kumpulan data pelatihan berisi 1000 instance kelas DOCUMENTARY, 900 instance SCIENCE\$1FICTION, dan satu instance kelas ROMANTIC\$1COMEDY, kumpulan data pengujian mungkin berisi 100 instance DOKUMENTER dan 90 SCIENCE\$1FICTION, tetapi tidak ada instance ROMANTIC\$1COMEDY, karena ada satu contoh yang tersedia. 

Setelah Anda selesai melatih model Anda, metrik pelatihan memberikan informasi yang dapat Anda gunakan untuk memutuskan apakah model tersebut cukup akurat untuk kebutuhan Anda. 

# Output pelatihan pengklasifikasi
<a name="train-classifier-output"></a>

Setelah Amazon Comprehend menyelesaikan pelatihan model pengklasifikasi kustom, Amazon Comprehend akan membuat file keluaran di lokasi keluaran Amazon S3 yang Anda tentukan [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)dalam permintaan API atau permintaan konsol yang setara.

Amazon Comprehend membuat matriks kebingungan saat Anda melatih model teks biasa atau model dokumen asli. Hal ini dapat membuat file output tambahan ketika Anda melatih model dokumen asli.

**Topics**
+ [Matriks kebingungan](#conf-matrix)
+ [Output tambahan untuk model dokumen asli](#train-class-output-native)

## Matriks kebingungan
<a name="conf-matrix"></a>

Saat Anda melatih model pengklasifikasi khusus, Amazon Comprehend membuat matriks kebingungan yang menyediakan metrik tentang seberapa baik kinerja model dalam pelatihan. Matriks ini menunjukkan matriks label yang diprediksi model, dibandingkan dengan label dokumen yang sebenarnya. Amazon Comprehend menggunakan sebagian data pelatihan untuk membuat matriks kebingungan.

Matriks kebingungan memberikan indikasi kelas mana yang dapat menggunakan lebih banyak data untuk meningkatkan kinerja model. Kelas dengan fraksi prediksi yang benar memiliki jumlah hasil tertinggi di sepanjang diagonal matriks. Jika angka pada diagonal adalah angka yang lebih rendah, kelas memiliki fraksi prediksi yang benar yang lebih rendah. Anda dapat menambahkan lebih banyak contoh pelatihan untuk kelas ini dan melatih model lagi. Misalnya, jika 40 persen sampel label A diklasifikasikan sebagai label D, menambahkan lebih banyak sampel untuk label A dan label D meningkatkan kinerja pengklasifikasi.

Setelah Amazon Comprehend membuat model pengklasifikasi, matriks kebingungan tersedia `confusion_matrix.json` dalam file di lokasi keluaran S3. 

Format matriks kebingungan bervariasi, tergantung pada apakah Anda melatih pengklasifikasi menggunakan mode multi-kelas atau mode multi-label.

**Topics**
+ [Matriks kebingungan untuk mode multi-kelas](#m-c-matrix)
+ [Matriks kebingungan untuk mode multi-label](#m-l-matrix)

### Matriks kebingungan untuk mode multi-kelas
<a name="m-c-matrix"></a>

Dalam mode multi-kelas, kelas individu saling eksklusif, sehingga klasifikasi memberikan satu label untuk setiap dokumen. Misalnya, hewan bisa menjadi kucing atau kucing, tetapi tidak keduanya sekaligus.

Perhatikan contoh matriks kebingungan berikut untuk pengklasifikasi terlatih multi-kelas:

```
  A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)
```

Dalam hal ini, model memprediksi hal berikut:
+ Satu label “A” diprediksi secara akurat, dua label “A” salah diprediksi sebagai label “B”, dan empat label “A” salah diprediksi sebagai label “Y”.
+ Tiga label “B” diprediksi secara akurat, dan satu label “B” salah diprediksi sebagai label “Y”.
+ Satu “X” diprediksi secara akurat.
+ Satu label “Y” diprediksi secara akurat, satu salah diprediksi sebagai label “A”, satu salah diprediksi sebagai label “B”, dan satu salah diprediksi sebagai label “X”.

Garis diagonal dalam matriks (A: A, B: B, X: X, dan Y: Y) menunjukkan prediksi yang akurat. Kesalahan prediksi adalah nilai di luar diagonal. Dalam hal ini, matriks menunjukkan tingkat kesalahan prediksi berikut: 
+ Sebuah label: 86%
+ Label B: 25%
+ Label X: 0%
+ Label Y: 75%

Pengklasifikasi mengembalikan matriks kebingungan sebagai file dalam format JSON. File JSON berikut mewakili matriks untuk contoh sebelumnya.

```
{
 "type": "multi_class",
 "confusion_matrix": [
 [1, 2, 0,4],
 [0, 3, 0, 1],
 [0, 0, 1, 0],
 [1, 1, 1, 1]],
 "labels": ["A", "B", "X", "Y"],
 "all_labels": ["A", "B", "X", "Y"]
}
```

### Matriks kebingungan untuk mode multi-label
<a name="m-l-matrix"></a>

Dalam mode multi-label, klasifikasi dapat menetapkan satu atau lebih kelas ke dokumen. Perhatikan contoh matriks kebingungan berikut untuk pengklasifikasi terlatih multi-kelas.

Dalam contoh ini, ada tiga kemungkinan label:`Comedy`,`Action`, dan`Drama`. Matriks kebingungan multi-label menciptakan satu matriks 2x2 untuk setiap label.

```
Comedy                   Action                   Drama 
     No Yes                   No Yes                   No Yes   <-(predicted label)                                      
 No  2   1                No  1   1                No  3   0                                                         
Yes  0   2               Yes  2   1               Yes  1   1   
 ^                        ^                        ^
 |                        |                        |
 |-----------(was this label actually used)--------|
```

Dalam hal ini, model mengembalikan yang berikut untuk `Comedy` label:
+ Dua contoh di mana `Comedy` label diprediksi secara akurat akan hadir. Benar positif (TP). 
+ Dua contoh di mana `Comedy` label secara akurat diprediksi tidak ada. Benar negatif (TN).
+ Nol contoh di mana `Comedy` label salah diprediksi ada. Positif palsu (FP).
+ Salah satu contoh di mana `Comedy` label salah diprediksi tidak ada. Negatif palsu (FN).

Seperti halnya matriks kebingungan multi-kelas, garis diagonal di setiap matriks menunjukkan prediksi yang akurat.

Dalam hal ini, model secara akurat memprediksi `Comedy` label 80% dari waktu (TP plus TN) dan salah memprediksinya 20% dari waktu (FP plus FN).



Pengklasifikasi mengembalikan matriks kebingungan sebagai file dalam format JSON. File JSON berikut mewakili matriks untuk contoh sebelumnya.

```
{
"type": "multi_label",
"confusion_matrix": [
 [[2, 1],        
 [0, 2]],
 [[1, 1],        
 [2, 1]],      
 [[3, 0],        
 [1, 1]]
], 
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}
```

## Output tambahan untuk model dokumen asli
<a name="train-class-output-native"></a>

Amazon Comprehend dapat membuat file output tambahan saat Anda melatih model dokumen asli.

### Keluaran Amazon Texttract
<a name="textract-output"></a>

Jika Amazon Comprehend memanggil Amazon APIs Textract untuk mengekstrak teks untuk dokumen pelatihan apa pun, Amazon Textract menyimpan file keluaran Amazon Textract di lokasi keluaran S3. Ini menggunakan struktur direktori berikut:
+ **Dokumen pelatihan:** 

  `amazon-textract-output/train/<file_name>/<page_num>/textract_output.json` 
+ **Dokumen uji:** 

  `amazon-textract-output/test/<file_name>/<page_num>/textract_output.json`

Amazon Comprehend mengisi folder pengujian jika Anda menyediakan dokumen pengujian dalam permintaan API.

### Kegagalan anotasi dokumen
<a name="failed-files-output"></a>

 Amazon Comprehend membuat file berikut di lokasi keluaran Amazon S3 (di folder skipped\$1documents/) jika ada **anotasi** yang gagal:
+ failed\$1annotations\$1train.jsonl

  File ada jika ada anotasi yang gagal dalam data pelatihan.
+ failed\$1annotations\$1test.jsonl

  File ada jika permintaan menyertakan data pengujian dan anotasi apa pun gagal dalam data pengujian.

File anotasi yang gagal adalah file JSONL dengan format berikut:

```
{
     "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."}
    {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."
  }
```

# Metrik pengklasifikasi khusus
<a name="cer-doc-class"></a>

Amazon Comprehend menyediakan metrik untuk membantu Anda memperkirakan seberapa baik kinerja pengklasifikasi kustom. Amazon Comprehend menghitung metrik menggunakan data pengujian dari pekerjaan pelatihan pengklasifikasi. Metrik secara akurat mewakili kinerja model selama pelatihan, sehingga mereka memperkirakan kinerja model untuk klasifikasi data serupa. 

Gunakan operasi API seperti [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)untuk mengambil metrik untuk pengklasifikasi kustom.

**catatan**  
Lihat [Metrik: Presisi, ingat, dan FScore](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html) untuk pemahaman tentang metrik skor Presisi, Ingat, dan F1 yang mendasarinya. Metrik ini didefinisikan pada tingkat kelas. Amazon **Comprehend** menggunakan rata-rata makro untuk menggabungkan metrik ini ke dalam set pengujian P, R, dan F1, seperti yang dibahas di bawah ini.

**Topics**
+ [Metrik-metrik](#cer-doc-class-metrics)
+ [Meningkatkan performa pengklasifikasi kustom](#improving-metrics-doc)

## Metrik-metrik
<a name="cer-doc-class-metrics"></a>

Amazon Comprehend mendukung metrik berikut: 

**Topics**
+ [Akurasi](#class-accuracy-metric)
+ [Presisi (presisi makro)](#class-macroprecision-metric)
+ [Ingat (penarikan makro)](#class-macrorecall-metric)
+ [Skor F1 (skor F1 makro)](#class-macrof1score-metric)
+ [Kehilangan Hamming](#class-hammingloss-metric)
+ [Presisi mikro](#class-microprecision-metric)
+ [Penarikan mikro](#class-microrecall-metric)
+ [Skor Micro F1](#class-microf1score-metric)

Untuk melihat metrik untuk Pengklasifikasi, buka halaman **Detail Pengklasifikasi** di konsol.

![\[Metrik Pengklasifikasi Kustom\]](http://docs.aws.amazon.com/id_id/comprehend/latest/dg/images/classifierperformance.png)


### Akurasi
<a name="class-accuracy-metric"></a>

Akurasi menunjukkan persentase label dari data uji yang diprediksi model secara akurat. Untuk menghitung akurasi, bagi jumlah label yang diprediksi secara akurat dalam dokumen pengujian dengan jumlah total label dalam dokumen pengujian.

Sebagai contoh


| Label aktual | Label yang diprediksi | Akurat/Salah | 
| --- | --- | --- | 
|  1  |  1  |  Akurat  | 
|  0  |  1  |  Salah  | 
|  2  |  3  |  Salah  | 
|  3  |  3  |  Akurat  | 
|  2  |  2  |  Akurat  | 
|  1  |  1  |  Akurat  | 
|  3  |  3  | Akurat | 

Akurasi terdiri dari jumlah prediksi akurat dibagi dengan jumlah sampel uji keseluruhan = 5/7 = 0,714, atau 71,4%

### Presisi (presisi makro)
<a name="class-macroprecision-metric"></a>

Presisi adalah ukuran kegunaan hasil pengklasifikasi dalam data uji. Ini didefinisikan sebagai jumlah dokumen yang diklasifikasikan secara akurat, dibagi dengan jumlah total klasifikasi untuk kelas. Presisi tinggi berarti bahwa pengklasifikasi mengembalikan hasil yang jauh lebih relevan daripada yang tidak relevan. 

`Precision`Metrik ini juga dikenal sebagai *Macro Precision*. 

Contoh berikut menunjukkan hasil presisi untuk set tes.


| Label | Ukuran sampel | Label presisi | 
| --- | --- | --- | 
|  Label\$11  |  400  |  0,75  | 
|  Label\$12  |  300  |  0,80  | 
|  Label\$13  |  30000  |  0,90  | 
|  Label\$14  |  20  |  0,50  | 
|  Label\$15  |  10  |  0,40  | 

Oleh karena itu, metrik Presisi (Presisi Makro) untuk model adalah:

```
Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67
```

### Ingat (penarikan makro)
<a name="class-macrorecall-metric"></a>

Ini menunjukkan persentase kategori yang benar dalam teks Anda yang dapat diprediksi oleh model. Metrik ini berasal dari rata-rata skor penarikan semua label yang tersedia. Ingat adalah ukuran seberapa lengkap hasil pengklasifikasi untuk data pengujian. 

Ingat tinggi berarti bahwa pengklasifikasi mengembalikan sebagian besar hasil yang relevan. 

`Recall`Metrik ini juga dikenal sebagai *Macro Recall*.

Contoh berikut menunjukkan hasil recall untuk set tes.


| Label | Ukuran sampel | Penarikan label | 
| --- | --- | --- | 
|  Label\$11  |  400  |  0,70  | 
|  Label\$12  |  300  |  0,70  | 
|  Label\$13  |  30000  |  0,98  | 
|  Label\$14  |  20  |  0,80  | 
|  Label\$15  |  10  |  0,10  | 

Oleh karena itu, metrik Recall (Makro Recall) untuk model adalah:

```
Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656
```

### Skor F1 (skor F1 makro)
<a name="class-macrof1score-metric"></a>

Skor F1 berasal dari `Recall` nilai `Precision` dan. Ini mengukur akurasi keseluruhan pengklasifikasi. Skor tertinggi adalah 1, dan skor terendah adalah 0. 

*Amazon Comprehend menghitung Skor Makro F1.* Ini adalah rata-rata tidak tertimbang dari skor label F1. Menggunakan set tes berikut sebagai contoh:


| Label | Ukuran sampel | Label skor F1 | 
| --- | --- | --- | 
|  Label\$11  |  400  |  0,724  | 
|  Label\$12  |  300  |  0.824  | 
|  Label\$13  |  30000  |  0,94  | 
|  Label\$14  |  20  |  0,62  | 
|  Label\$15  |  10  |  0,16  | 

Skor F1 (Skor Makro F1) untuk model dihitung sebagai berikut:

```
Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536
```

### Kehilangan Hamming
<a name="class-hammingloss-metric"></a>

Fraksi label yang salah diprediksi. Juga dilihat sebagai fraksi label yang salah dibandingkan dengan jumlah total label. Skor mendekati nol lebih baik.

### Presisi mikro
<a name="class-microprecision-metric"></a>

Asli: 

Mirip dengan metrik presisi, kecuali bahwa presisi mikro didasarkan pada skor keseluruhan dari semua skor presisi yang ditambahkan bersama-sama.

### Penarikan mikro
<a name="class-microrecall-metric"></a>

Mirip dengan metrik recall, kecuali bahwa micro recall didasarkan pada skor keseluruhan dari semua skor recall yang ditambahkan bersama-sama.

### Skor Micro F1
<a name="class-microf1score-metric"></a>

Skor Micro F1 adalah kombinasi dari metrik Micro Precision dan Micro Recall.

## Meningkatkan performa pengklasifikasi kustom
<a name="improving-metrics-doc"></a>

Metrik memberikan wawasan tentang kinerja pengklasifikasi kustom Anda selama pekerjaan klasifikasi. Jika metriknya rendah, model klasifikasi mungkin tidak efektif untuk kasus penggunaan Anda. Anda memiliki beberapa opsi untuk meningkatkan kinerja pengklasifikasi Anda:

1. Dalam data pelatihan Anda, berikan contoh konkret yang menentukan pemisahan kategori yang jelas. Misalnya, berikan dokumen yang menggunakan unik words/sentences untuk mewakili kategori. 

1. Tambahkan lebih banyak data untuk label yang kurang terwakili dalam data pelatihan Anda.

1. Cobalah untuk mengurangi kemiringan dalam kategori. Jika label terbesar dalam data Anda memiliki lebih dari 10 kali dokumen dalam label terkecil, coba tingkatkan jumlah dokumen untuk label terkecil. Pastikan untuk mengurangi rasio kemiringan menjadi paling banyak 10:1 antara kelas yang sangat terwakili dan paling tidak terwakili. Anda juga dapat mencoba menghapus dokumen masukan dari kelas yang sangat terwakili.

# Menjalankan analisis waktu nyata
<a name="running-class-sync"></a>

Setelah melatih pengklasifikasi khusus, Anda dapat mengklasifikasikan dokumen menggunakan analisis waktu nyata. Analisis real-time mengambil satu dokumen sebagai masukan dan mengembalikan hasilnya secara serempak. Klasifikasi kustom menerima berbagai jenis dokumen sebagai input untuk analisis real-time. Lihat perinciannya di [Masukan untuk analisis kustom real-time](idp-inputs-sync.md).

Jika Anda berencana untuk menganalisis file gambar atau dokumen PDF yang dipindai, kebijakan IAM Anda harus memberikan izin untuk menggunakan dua metode Amazon Textract API (dan). DetectDocumentText AnalyzeDocument Amazon Comprehend memanggil metode ini selama ekstraksi teks. Untuk contoh kebijakan, lihat [Izin yang diperlukan untuk melakukan tindakan analisis dokumen](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Anda harus membuat endpoint untuk menjalankan analisis real-time menggunakan model klasifikasi kustom. 

**Topics**
+ [Analisis real-time untuk klasifikasi kustom (konsol)](custom-sync.md)
+ [Analisis real-time untuk klasifikasi kustom (API)](class-sync-api.md)
+ [Output untuk analisis real-time](outputs-class-sync.md)

# Analisis real-time untuk klasifikasi kustom (konsol)
<a name="custom-sync"></a>

Anda dapat menggunakan konsol Amazon Comprehend untuk menjalankan analisis real-time menggunakan model klasifikasi kustom.

Anda membuat titik akhir untuk menjalankan analisis real-time. Titik akhir mencakup sumber daya terkelola yang membuat model kustom Anda tersedia untuk inferensi waktu nyata.

Untuk informasi tentang penyediaan throughput titik akhir, dan biaya terkait, lihat. [Menggunakan Amazon Comprehend endpoint](using-endpoints.md)

**Topics**
+ [Membuat titik akhir untuk klasifikasi kustom](#create-endpoint)
+ [Menjalankan klasifikasi kustom real-time](#cc-real-time-analysis)

## Membuat titik akhir untuk klasifikasi kustom
<a name="create-endpoint"></a>

**Untuk membuat titik akhir (konsol)**

1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Comprehend di [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dari menu sebelah kiri, pilih **Endpoints** dan pilih tombol **Create endpoint**. Layar **Create endpoint** terbuka.

1. Beri nama endpoint. Nama harus unik dalam Wilayah dan akun saat ini.

1. Pilih model khusus yang ingin Anda lampirkan titik akhir baru. Dari dropdown, Anda dapat mencari berdasarkan nama model.
**catatan**  
Anda harus membuat model sebelum Anda dapat melampirkan titik akhir untuk itu. Jika Anda belum memiliki model, lihat[Model klasifikasi pelatihan](training-classifier-model.md).

1. **(Opsional) untuk menambahkan tag ke titik akhir, masukkan pasangan kunci-nilai di bawah **Tag dan pilih Tambahkan tag**.** Untuk menghapus pasangan ini sebelum membuat titik akhir, pilih **Hapus tag**

1. Masukkan jumlah unit inferensi (IUs) yang akan ditetapkan ke titik akhir. Setiap unit mewakili throughput 100 karakter per detik hingga dua dokumen per detik. Untuk informasi tentang throughput titik akhir, lihat. [Menggunakan Amazon Comprehend endpoint](using-endpoints.md) 

1. (Opsional) Jika Anda membuat titik akhir baru, Anda memiliki opsi untuk menggunakan estimator IU. Bergantung pada throughput, atau jumlah karakter yang ingin Anda analisis per detik, mungkin sulit untuk mengetahui berapa banyak unit inferensi yang Anda butuhkan. Langkah opsional ini dapat membantu Anda menentukan berapa jumlah IUs permintaan. 

1. Dari **ringkasan Pembelian**, tinjau perkiraan biaya endpoint per jam, harian, dan bulanan Anda. 

1. Pilih kotak centang jika Anda memahami bahwa akun Anda dikenakan biaya untuk titik akhir dari saat dimulai hingga Anda menghapusnya.

1. Pilih **Buat titik akhir**

## Menjalankan klasifikasi kustom real-time
<a name="cc-real-time-analysis"></a>

Setelah Anda membuat endpoint, Anda dapat menjalankan analisis real-time menggunakan model kustom Anda. Ada dua cara untuk menjalankan analisis real-time dari konsol. Anda dapat memasukkan teks atau mengunggah file, seperti yang ditunjukkan pada berikut ini. 

**Untuk menjalankan analisis real-time menggunakan model kustom (konsol)**

1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Comprehend di [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dari menu sebelah kiri, pilih **Analisis waktu nyata**.

1. Di bawah **Jenis input**, pilih **Jenis **Kustom** untuk Analisis**. 

1. Di bawah **Jenis model kustom**, pilih **Klasifikasi khusus**. 

1. Untuk **Endpoint**, pilih endpoint yang ingin Anda gunakan. Titik akhir ini menautkan ke model kustom tertentu. 

1. Untuk menentukan data input untuk analisis, Anda dapat memasukkan teks atau mengunggah file.
   + Untuk memasukkan teks:

     1. Pilih **Input text**.

     1. Masukkan teks yang ingin Anda analisis. 
   + Untuk mengunggah file:

     1. Pilih **Unggah file** dan masukkan nama file yang akan diunggah.

     1. (Opsional) Di bawah **Tindakan baca lanjutan**, Anda dapat mengganti tindakan default untuk ekstraksi teks. Untuk detailnya, lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md)

   Untuk hasil terbaik, cocokkan jenis input dengan tipe model classifier. Konsol menampilkan peringatan jika Anda mengirimkan dokumen asli ke model teks biasa, atau teks biasa ke model dokumen asli. Untuk informasi selengkapnya, lihat [Model klasifikasi pelatihan](training-classifier-model.md).

1. Pilih **Analisis**. Amazon Comprehend menganalisis data input menggunakan model kustom Anda. Amazon Comprehend menampilkan kelas yang ditemukan, bersama dengan penilaian kepercayaan untuk setiap kelas. 

# Analisis real-time untuk klasifikasi kustom (API)
<a name="class-sync-api"></a>

Anda dapat menggunakan Amazon Comprehend API untuk menjalankan klasifikasi real-time dengan model kustom. Pertama, Anda membuat titik akhir untuk menjalankan analisis real-time. Setelah Anda membuat endpoint, Anda menjalankan klasifikasi real-time.

Contoh di bagian ini menggunakan format perintah untuk Unix, Linux, dan macOS. Untuk Windows, ganti karakter kelanjutan backslash (\$1) Unix di akhir setiap baris dengan tanda sisipan (^).

Untuk informasi tentang penyediaan throughput titik akhir, dan biaya terkait, lihat. [Menggunakan Amazon Comprehend endpoint](using-endpoints.md)

**Topics**
+ [Membuat titik akhir untuk klasifikasi kustom](#create-endpoint-api)
+ [Menjalankan klasifikasi kustom real-time](#cc-real-time-analysis-api)

## Membuat titik akhir untuk klasifikasi kustom
<a name="create-endpoint-api"></a>

Contoh berikut menunjukkan operasi [CreateEndpoint](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateEndpoint.html)API menggunakan AWS CLI. 

```
aws comprehend create-endpoint \
    --desired-inference-units number of inference units \
    --endpoint-name endpoint name \
    --model-arn arn:aws:comprehend:region:account-id:model/example \
    --tags Key=My1stTag,Value=Value1
```

Amazon Comprehend merespons dengan yang berikut:

```
{
   "EndpointArn": "Arn"
}
```

## Menjalankan klasifikasi kustom real-time
<a name="cc-real-time-analysis-api"></a>

Setelah membuat endpoint untuk model klasifikasi kustom, gunakan endpoint untuk menjalankan operasi [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)API. Anda dapat memberikan input teks menggunakan `bytes` parameter `text` or. Masukkan jenis input lainnya menggunakan `bytes` parameter.

Untuk file gambar dan file PDF, Anda dapat menggunakan `DocumentReaderConfig` parameter untuk mengganti tindakan ekstraksi teks default. Untuk detailnya, lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md)

Untuk hasil terbaik, cocokkan jenis input dengan tipe model classifier. Respons API menyertakan peringatan jika Anda mengirimkan dokumen asli ke model teks biasa, atau file teks biasa ke model dokumen asli. Untuk informasi selengkapnya, lihat [Model klasifikasi pelatihan](training-classifier-model.md).

### Menggunakan AWS Command Line Interface
<a name="cc-real-time-analysis-api-cli"></a>

Contoh berikut menunjukkan bagaimana menggunakan perintah CLI *classify-document*. 

#### Klasifikasi teks menggunakan AWS CLI
<a name="cc-real-time-analysis-api-run-cli1"></a>

Contoh berikut menjalankan klasifikasi real-time pada blok teks.

```
aws comprehend classify-document \
     --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name \
     --text 'From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, 
     the largest ship ever launched ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late 
     on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, 
     and several liners were near enough to catch and respond to the call.'
```

Amazon Comprehend merespons dengan yang berikut:

```
{
    "Classes": [ 
       { 
          "Name": "string",
          "Score": 0.9793661236763
       }
    ]
 }
```

#### Klasifikasi dokumen semi-terstruktur menggunakan AWS CLI
<a name="cc-real-time-analysis-api-run-cli2"></a>

Untuk menganalisis klasifikasi khusus untuk file PDF, Word, atau gambar, jalankan `classify-document` perintah dengan file input di `bytes` parameter.

Contoh berikut menggunakan gambar sebagai file input. Ini menggunakan `fileb` opsi untuk mengkodekan base-64 file byte gambar. Untuk informasi selengkapnya, lihat [Objek besar biner](https://docs.aws.amazon.com/cli/latest/userguide/cli-usage-parameters-types.html#parameter-type-blob) di Panduan AWS Command Line Interface Pengguna. 

Contoh ini juga melewati file JSON bernama `config.json` untuk mengatur opsi ekstraksi teks.

```
$ aws comprehend classify-document \
> --endpoint-arn arn \
> --language-code en \
> --bytes fileb://image1.jpg   \
> --document-reader-config file://config.json
```

**config.json**File berisi konten berikut.

```
 {
    "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION",
    "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT"    
 }
```

Amazon Comprehend merespons dengan yang berikut:

```
{
    "Classes": [ 
       { 
          "Name": "string",
          "Score": 0.9793661236763
       }
    ]
 }
```

Untuk informasi selengkapnya, lihat [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)di Referensi *API Amazon Comprehend*.

# Output untuk analisis real-time
<a name="outputs-class-sync"></a>

## Output untuk input teks
<a name="outputs-class-sync-text"></a>

Untuk input teks, output mencakup daftar kelas atau label yang diidentifikasi oleh analisis pengklasifikasi. Contoh berikut menunjukkan daftar dengan dua kelas.

```
"Classes": [
  {
     "Name": "abc",
     "Score": 0.2757999897003174,
     "Page": 1
  },
  {
    "Name": "xyz",
    "Score": 0.2721000015735626,
    "Page": 1
  }
]
```

## Output untuk input semi-terstruktur
<a name="outputs-class-sync-other"></a>

Untuk dokumen input semi-terstruktur, atau file teks, output dapat mencakup bidang tambahan berikut:
+ DocumentMetadata — Informasi ekstraksi tentang dokumen. Metadata mencakup daftar halaman dalam dokumen, dengan jumlah karakter yang diekstraksi dari setiap halaman. Bidang ini hadir dalam respons jika permintaan menyertakan `Byte` parameter.
+ DocumentType — Jenis dokumen untuk setiap halaman dalam dokumen input. Bidang ini hadir dalam respons jika permintaan menyertakan `Byte` parameter.
+ Kesalahan — Kesalahan tingkat halaman yang terdeteksi sistem saat memproses dokumen input. Bidang kosong jika sistem tidak mengalami kesalahan.
+ Peringatan — Peringatan terdeteksi saat memproses dokumen input. Respons mencakup peringatan jika ada ketidakcocokan antara jenis dokumen input dan jenis model yang terkait dengan titik akhir yang Anda tentukan. Bidang kosong jika sistem tidak menghasilkan peringatan.

Untuk detail selengkapnya tentang bidang keluaran ini, lihat [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)di Referensi *API Amazon Comprehend*.

Contoh berikut menunjukkan output untuk dokumen input PDF asli satu halaman.

```
{
  "Classes": [
      {
          "Name": "123",
          "Score": 0.39570000767707825,
          "Page": 1
      },
      {
          "Name": "abc",
          "Score": 0.2757999897003174,
          "Page": 1
      },
      {
          "Name": "xyz",
          "Score": 0.2721000015735626,
          "Page": 1
      }
  ],
  "DocumentMetadata": {
      "Pages": 1,
      "ExtractedCharacters": [
          {
              "Page": 1,
              "Count": 2013
          }
      ]
  },
  "DocumentType": [
      {
          "Page": 1,
          "Type": "NATIVE_PDF"
      }
  ]
}
```

# Menjalankan pekerjaan asinkron
<a name="running-classifiers"></a>

Setelah melatih pengklasifikasi kustom, Anda dapat menggunakan pekerjaan asinkron untuk menganalisis dokumen besar atau beberapa dokumen dalam satu batch.

Klasifikasi kustom menerima berbagai jenis dokumen masukan. Lihat perinciannya di [Masukan untuk analisis kustom asinkron](idp-inputs-async.md).

Jika Anda berencana untuk menganalisis file gambar atau dokumen PDF yang dipindai, kebijakan IAM Anda harus memberikan izin untuk menggunakan dua metode Amazon Textract API (dan). DetectDocumentText AnalyzeDocument Amazon Comprehend memanggil metode ini selama ekstraksi teks. Untuk contoh kebijakan, lihat [Izin yang diperlukan untuk melakukan tindakan analisis dokumen](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Untuk klasifikasi dokumen semi-terstruktur (gambar, PDF, atau file Docx) menggunakan model teks biasa, gunakan format input. `one document per file` Juga, sertakan `DocumentReaderConfig` parameter dalam [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)permintaan Anda.

**Topics**
+ [Format file untuk analisis asinkron](class-inputs-async.md)
+ [Pekerjaan analisis untuk klasifikasi khusus (konsol)](analysis-jobs-custom-classifier.md)
+ [Pekerjaan analisis untuk klasifikasi kustom (API)](analysis-jobs-custom-class-api.md)
+ [Output untuk pekerjaan analisis asinkron](outputs-class-async.md)

# Format file untuk analisis asinkron
<a name="class-inputs-async"></a>

Saat Anda menjalankan analisis asinkron dengan model Anda, Anda memiliki pilihan format untuk dokumen masukan: `One document per line` atau. `one document per file` Format yang Anda gunakan tergantung pada jenis dokumen yang ingin Anda analisis, seperti yang dijelaskan dalam tabel berikut.


| Deskripsi | Format | 
| --- | --- | 
| Input berisi banyak file. Setiap file berisi satu dokumen masukan. Format ini paling baik untuk koleksi dokumen besar, seperti artikel surat kabar atau makalah ilmiah. Juga, gunakan format ini untuk dokumen semi-terstruktur (gambar, PDF, atau file Docx) menggunakan pengklasifikasi dokumen asli. | Satu dokumen per file | 
|  Input adalah satu atau lebih file. Setiap baris dalam file adalah dokumen input terpisah. Format ini paling baik untuk dokumen pendek, seperti pesan teks atau posting media sosial.  | Satu dokumen per baris | 

**Satu dokumen per file**

Dengan `one document per file` format, setiap file mewakili satu dokumen input. 

**Satu dokumen per baris**

Dengan `One document per line` format, setiap dokumen ditempatkan pada baris terpisah dan tidak ada header yang digunakan. Label tidak disertakan pada setiap baris (karena Anda belum tahu label untuk dokumen). Setiap baris file (akhir dokumen individual) harus diakhiri dengan umpan baris (LF,\$1n), carriage return (CR,\$1 r), atau keduanya (CRLF,\$1 r\$1n). Jangan gunakan pemisah garis UTF-8 (u\$12028) untuk mengakhiri garis.

Contoh berikut menunjukkan format file input.

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

Untuk salah satu format, gunakan pengkodean UTF-8 untuk file teks. Setelah Anda menyiapkan file, letakkan di bucket S3 yang Anda gunakan untuk memasukkan data.

Saat memulai pekerjaan klasifikasi, Anda menentukan lokasi Amazon S3 ini untuk data input Anda. URI harus berada di Wilayah yang sama dengan titik akhir API yang Anda panggil. URI dapat menunjuk ke satu file (seperti ketika menggunakan metode “satu dokumen per baris”, atau dapat menjadi awalan untuk kumpulan file data. 

Misalnya, jika Anda menggunakan URI`S3://bucketName/prefix`, jika awalan adalah satu file, Amazon Comprehend menggunakan file tersebut sebagai input. Jika lebih dari satu file dimulai dengan awalan, Amazon Comprehend menggunakan semuanya sebagai input. 

Berikan Amazon Comprehend akses ke bucket S3 yang berisi koleksi dokumen dan file keluaran Anda. Untuk informasi selengkapnya, lihat [Izin berbasis peran yang diperlukan untuk operasi asinkron](security_iam_id-based-policy-examples.md#auth-role-permissions).

# Pekerjaan analisis untuk klasifikasi khusus (konsol)
<a name="analysis-jobs-custom-classifier"></a>

Setelah Anda membuat dan melatih [pengklasifikasi dokumen kustom](), Anda dapat menggunakan konsol untuk menjalankan tugas klasifikasi kustom dengan model.

**Untuk membuat pekerjaan klasifikasi kustom (konsol)**

1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Comprehend di [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dari menu sebelah kiri, pilih **Pekerjaan analisis** dan kemudian pilih **Buat pekerjaan**.

1. Berikan nama pekerjaan klasifikasi. Nama harus unik untuk akun Anda dan Wilayah saat ini.

1. Di bawah **Jenis analisis**, pilih **Klasifikasi khusus**.

1. Dari **Pilih pengklasifikasi**, pilih pengklasifikasi khusus yang akan digunakan.

1. **(Opsional) Jika Anda memilih untuk mengenkripsi data yang digunakan Amazon Comprehend saat memproses pekerjaan Anda, pilih Enkripsi Job.** Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.
   + Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih ID kunci untuk **ID kunci KMS**.
   + Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk ID kunci di bawah ARN **kunci KMS**.
**catatan**  
Untuk informasi selengkapnya tentang membuat dan menggunakan kunci KMS dan enkripsi terkait, lihat [Layanan manajemen kunci (KMS](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)).

1. Di bawah **Input data**, masukkan lokasi bucket Amazon S3 yang berisi dokumen masukan Anda atau navigasikan ke sana dengan memilih **Browse** S3. Bucket ini harus berada di Region yang sama dengan API yang Anda panggil. Peran IAM yang Anda gunakan untuk izin akses untuk tugas klasifikasi harus memiliki izin membaca untuk bucket S3.

   Untuk mencapai tingkat akurasi tertinggi dalam melatih model, cocokkan jenis input dengan tipe model pengklasifikasi. Pekerjaan pengklasifikasi mengembalikan peringatan jika Anda mengirimkan dokumen asli ke model teks biasa, atau dokumen teks biasa ke model dokumen asli. Untuk informasi selengkapnya, lihat [Model klasifikasi pelatihan](training-classifier-model.md).

1. (Opsional) Untuk **format Input**, Anda dapat memilih format dokumen input. Formatnya bisa satu dokumen per file, atau satu dokumen per baris dalam satu file. Satu dokumen per baris hanya berlaku untuk dokumen teks. 

1. (Opsional) Untuk **mode baca Dokumen**, Anda dapat mengganti tindakan ekstraksi teks default. Untuk informasi selengkapnya, lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md). 

1. **Di bawah **Data keluaran**, masukkan lokasi bucket Amazon S3 tempat Amazon Comprehend harus menulis data keluaran pekerjaan atau menavigasi ke sana dengan memilih Browse S3.** Bucket ini harus berada di Region yang sama dengan API yang Anda panggil. Peran IAM yang Anda gunakan untuk izin akses untuk tugas klasifikasi harus memiliki izin tulis untuk bucket S3.

1. (Opsional) Jika Anda memilih untuk mengenkripsi hasil output dari pekerjaan Anda, pilih **Enkripsi**. Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.
   + Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih alias kunci atau ID untuk ID **kunci KMS**.
   + Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk alias kunci atau ID di bawah ID kunci **KMS**.

1. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend dari VPC, masukkan ID VPC di bawah **VPC** atau pilih ID dari daftar drop-down. 

   1. Pilih subnet di bawah **Subnet (s).** Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

   1. Di bawah **Grup Keamanan**, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.
**catatan**  
Saat Anda menggunakan VPC dengan tugas klasifikasi, yang `DataAccessRole` digunakan untuk operasi Buat dan Mulai harus memberikan izin ke VPC yang mengakses bucket keluaran.

1. Pilih **Buat pekerjaan** untuk membuat pekerjaan klasifikasi dokumen.

# Pekerjaan analisis untuk klasifikasi kustom (API)
<a name="analysis-jobs-custom-class-api"></a>

Setelah [membuat dan melatih](train-custom-classifier-api.md) pengklasifikasi dokumen khusus, Anda dapat menggunakan pengklasifikasi untuk menjalankan pekerjaan analisis.

Gunakan [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)operasi untuk mulai mengklasifikasikan dokumen yang tidak berlabel. Anda menentukan bucket S3 yang berisi dokumen masukan, bucket S3 untuk dokumen keluaran, dan pengklasifikasi yang akan digunakan.

Untuk mencapai tingkat akurasi tertinggi dalam melatih model, cocokkan jenis input dengan tipe model pengklasifikasi. Pekerjaan pengklasifikasi mengembalikan peringatan jika Anda mengirimkan dokumen asli ke model teks biasa, atau dokumen teks biasa ke model dokumen asli. Untuk informasi selengkapnya, lihat [Model klasifikasi pelatihan](training-classifier-model.md).

 [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)adalah asinkron. Setelah Anda memulai pekerjaan, gunakan [DescribeDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassificationJob.html)operasi untuk memantau kemajuannya. Saat `Status` bidang dalam respons ditampilkan`COMPLETED`, Anda dapat mengakses output di lokasi yang Anda tentukan.

**Topics**
+ [Menggunakan AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Menggunakan AWS SDK untuk Java atau SDK untuk Python](#get-started-api-customclass-java)

## Menggunakan AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Berikut contoh `StartDocumentClassificationJob` operasi, dan classifier kustom lainnya APIs dengan. AWS CLI

Contoh berikut menggunakan format perintah untuk Unix, Linux, dan macOS. Untuk Windows, ganti karakter kelanjutan backslash (\$1) Unix di akhir setiap baris dengan tanda sisipan (^).

Jalankan pekerjaan klasifikasi kustom menggunakan `StartDocumentClassificationJob` operasi.

```
aws comprehend start-document-classification-job \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \
     --output-data-config S3Uri=s3://S3Bucket/output \
     --data-access-role-arn arn:aws:iam::account number:role/resource name
```

Dapatkan informasi tentang pengklasifikasi kustom dengan id pekerjaan menggunakan `DescribeDocumentClassificationJob` operasi.

```
aws comprehend describe-document-classification-job \
     --region region \
     --job-id job id
```

Buat daftar semua pekerjaan klasifikasi kustom di akun Anda menggunakan `ListDocumentClassificationJobs` operasi.

```
aws comprehend list-document-classification-jobs
     --region region
```

## Menggunakan AWS SDK untuk Java atau SDK untuk Python
<a name="get-started-api-customclass-java"></a>

Untuk contoh SDK tentang cara memulai pekerjaan pengklasifikasi kustom, lihat. [Gunakan `StartDocumentClassificationJob` dengan AWS SDK atau CLI](example_comprehend_StartDocumentClassificationJob_section.md)

# Output untuk pekerjaan analisis asinkron
<a name="outputs-class-async"></a>

Setelah pekerjaan analisis selesai, ia menyimpan hasil di bucket S3 yang Anda tentukan dalam permintaan.

## Output untuk input teks
<a name="outputs-class-async-text"></a>

Untuk salah satu format dokumen input teks (multi-kelas atau multi-label), output pekerjaan terdiri dari satu file bernama. `output.tar.gz` Ini adalah file arsip terkompresi yang berisi file teks dengan output. 

**Output multi-kelas**

Saat Anda menggunakan pengklasifikasi yang dilatih dalam mode multi-kelas, hasil Anda akan ditampilkan. `classes` Masing-masing `classes` adalah kelas yang digunakan untuk membuat kumpulan kategori saat melatih pengklasifikasi Anda.

Untuk detail selengkapnya tentang bidang keluaran ini, lihat [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)di Referensi *API Amazon Comprehend*.

Contoh berikut menggunakan kelas yang saling eksklusif berikut.

```
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
```

Jika format data input Anda adalah satu dokumen per baris, file output berisi satu baris untuk setiap baris di input. Setiap baris mencakup nama file, nomor baris berbasis nol dari baris input, dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend memiliki bahwa instance individu diklasifikasikan dengan benar.

Contoh:

```
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

Jika format data input Anda adalah satu dokumen per file, file output berisi satu baris untuk setiap dokumen. Setiap baris memiliki nama file dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend mengklasifikasikan instance individu secara akurat.

Contoh:

```
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

**Keluaran multi-label**

Saat Anda menggunakan pengklasifikasi yang dilatih dalam mode multi-label, hasil Anda akan ditampilkan. `labels` Masing-masing `labels` adalah label yang digunakan untuk membuat kumpulan kategori saat melatih pengklasifikasi Anda.

Contoh berikut menggunakan label unik ini.

```
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
```

Jika format data input Anda adalah satu dokumen per baris, file output berisi satu baris untuk setiap baris di input. Setiap baris mencakup nama file, nomor baris berbasis nol dari baris input, dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend memiliki bahwa instance individu diklasifikasikan dengan benar.

Contoh:

```
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

Jika format data input Anda adalah satu dokumen per file, file output berisi satu baris untuk setiap dokumen. Setiap baris memiliki nama file dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend mengklasifikasikan instance individu secara akurat.

Contoh:

```
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

## Output untuk dokumen input semi-terstruktur
<a name="outputs-class-async-other"></a>

Untuk dokumen input semi-terstruktur, output dapat mencakup bidang tambahan berikut:
+ DocumentMetadata — Informasi ekstraksi tentang dokumen. Metadata mencakup daftar halaman dalam dokumen, dengan jumlah karakter yang diekstraksi dari setiap halaman. Bidang ini hadir dalam respons jika permintaan menyertakan `Byte` parameter.
+ DocumentType — Jenis dokumen untuk setiap halaman dalam dokumen input. Bidang ini hadir dalam respons jika permintaan menyertakan `Byte` parameter.
+ Kesalahan — Kesalahan tingkat halaman yang terdeteksi sistem saat memproses dokumen input. Bidang kosong jika sistem tidak mengalami kesalahan.

Untuk detail selengkapnya tentang bidang keluaran ini, lihat [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)di Referensi *API Amazon Comprehend*.

Contoh berikut menunjukkan output untuk file PDF yang dipindai dua halaman.

```
[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]
```