

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menjalankan pekerjaan asinkron
<a name="running-classifiers"></a>

Setelah melatih pengklasifikasi kustom, Anda dapat menggunakan pekerjaan asinkron untuk menganalisis dokumen besar atau beberapa dokumen dalam satu batch.

Klasifikasi kustom menerima berbagai jenis dokumen masukan. Lihat perinciannya di [Masukan untuk analisis kustom asinkron](idp-inputs-async.md).

Jika Anda berencana untuk menganalisis file gambar atau dokumen PDF yang dipindai, kebijakan IAM Anda harus memberikan izin untuk menggunakan dua metode Amazon Textract API (dan). DetectDocumentText AnalyzeDocument Amazon Comprehend memanggil metode ini selama ekstraksi teks. Untuk contoh kebijakan, lihat [Izin yang diperlukan untuk melakukan tindakan analisis dokumen](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Untuk klasifikasi dokumen semi-terstruktur (gambar, PDF, atau file Docx) menggunakan model teks biasa, gunakan format input. `one document per file` Juga, sertakan `DocumentReaderConfig` parameter dalam [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)permintaan Anda.

**Topics**
+ [Format file untuk analisis asinkron](class-inputs-async.md)
+ [Pekerjaan analisis untuk klasifikasi khusus (konsol)](analysis-jobs-custom-classifier.md)
+ [Pekerjaan analisis untuk klasifikasi kustom (API)](analysis-jobs-custom-class-api.md)
+ [Output untuk pekerjaan analisis asinkron](outputs-class-async.md)

# Format file untuk analisis asinkron
<a name="class-inputs-async"></a>

Saat Anda menjalankan analisis asinkron dengan model Anda, Anda memiliki pilihan format untuk dokumen masukan: `One document per line` atau. `one document per file` Format yang Anda gunakan tergantung pada jenis dokumen yang ingin Anda analisis, seperti yang dijelaskan dalam tabel berikut.


| Deskripsi | Format | 
| --- | --- | 
| Input berisi banyak file. Setiap file berisi satu dokumen masukan. Format ini paling baik untuk koleksi dokumen besar, seperti artikel surat kabar atau makalah ilmiah. Juga, gunakan format ini untuk dokumen semi-terstruktur (gambar, PDF, atau file Docx) menggunakan pengklasifikasi dokumen asli. | Satu dokumen per file | 
|  Input adalah satu atau lebih file. Setiap baris dalam file adalah dokumen input terpisah. Format ini paling baik untuk dokumen pendek, seperti pesan teks atau posting media sosial.  | Satu dokumen per baris | 

**Satu dokumen per file**

Dengan `one document per file` format, setiap file mewakili satu dokumen input. 

**Satu dokumen per baris**

Dengan `One document per line` format, setiap dokumen ditempatkan pada baris terpisah dan tidak ada header yang digunakan. Label tidak disertakan pada setiap baris (karena Anda belum tahu label untuk dokumen). Setiap baris file (akhir dokumen individual) harus diakhiri dengan umpan baris (LF,\$1n), carriage return (CR,\$1 r), atau keduanya (CRLF,\$1 r\$1n). Jangan gunakan pemisah garis UTF-8 (u\$12028) untuk mengakhiri garis.

Contoh berikut menunjukkan format file input.

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

Untuk salah satu format, gunakan pengkodean UTF-8 untuk file teks. Setelah Anda menyiapkan file, letakkan di bucket S3 yang Anda gunakan untuk memasukkan data.

Saat memulai pekerjaan klasifikasi, Anda menentukan lokasi Amazon S3 ini untuk data input Anda. URI harus berada di Wilayah yang sama dengan titik akhir API yang Anda panggil. URI dapat menunjuk ke satu file (seperti ketika menggunakan metode “satu dokumen per baris”, atau dapat menjadi awalan untuk kumpulan file data. 

Misalnya, jika Anda menggunakan URI`S3://bucketName/prefix`, jika awalan adalah satu file, Amazon Comprehend menggunakan file tersebut sebagai input. Jika lebih dari satu file dimulai dengan awalan, Amazon Comprehend menggunakan semuanya sebagai input. 

Berikan Amazon Comprehend akses ke bucket S3 yang berisi koleksi dokumen dan file keluaran Anda. Untuk informasi selengkapnya, lihat [Izin berbasis peran yang diperlukan untuk operasi asinkron](security_iam_id-based-policy-examples.md#auth-role-permissions).

# Pekerjaan analisis untuk klasifikasi khusus (konsol)
<a name="analysis-jobs-custom-classifier"></a>

Setelah Anda membuat dan melatih [pengklasifikasi dokumen kustom](), Anda dapat menggunakan konsol untuk menjalankan tugas klasifikasi kustom dengan model.

**Untuk membuat pekerjaan klasifikasi kustom (konsol)**

1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon Comprehend di [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dari menu sebelah kiri, pilih **Pekerjaan analisis** dan kemudian pilih **Buat pekerjaan**.

1. Berikan nama pekerjaan klasifikasi. Nama harus unik untuk akun Anda dan Wilayah saat ini.

1. Di bawah **Jenis analisis**, pilih **Klasifikasi khusus**.

1. Dari **Pilih pengklasifikasi**, pilih pengklasifikasi khusus yang akan digunakan.

1. **(Opsional) Jika Anda memilih untuk mengenkripsi data yang digunakan Amazon Comprehend saat memproses pekerjaan Anda, pilih Enkripsi Job.** Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.
   + Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih ID kunci untuk **ID kunci KMS**.
   + Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk ID kunci di bawah ARN **kunci KMS**.
**catatan**  
Untuk informasi selengkapnya tentang membuat dan menggunakan kunci KMS dan enkripsi terkait, lihat [Layanan manajemen kunci (KMS](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)).

1. Di bawah **Input data**, masukkan lokasi bucket Amazon S3 yang berisi dokumen masukan Anda atau navigasikan ke sana dengan memilih **Browse** S3. Bucket ini harus berada di Region yang sama dengan API yang Anda panggil. Peran IAM yang Anda gunakan untuk izin akses untuk tugas klasifikasi harus memiliki izin membaca untuk bucket S3.

   Untuk mencapai tingkat akurasi tertinggi dalam melatih model, cocokkan jenis input dengan tipe model pengklasifikasi. Pekerjaan pengklasifikasi mengembalikan peringatan jika Anda mengirimkan dokumen asli ke model teks biasa, atau dokumen teks biasa ke model dokumen asli. Untuk informasi selengkapnya, lihat [Model klasifikasi pelatihan](training-classifier-model.md).

1. (Opsional) Untuk **format Input**, Anda dapat memilih format dokumen input. Formatnya bisa satu dokumen per file, atau satu dokumen per baris dalam satu file. Satu dokumen per baris hanya berlaku untuk dokumen teks. 

1. (Opsional) Untuk **mode baca Dokumen**, Anda dapat mengganti tindakan ekstraksi teks default. Untuk informasi selengkapnya, lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md). 

1. **Di bawah **Data keluaran**, masukkan lokasi bucket Amazon S3 tempat Amazon Comprehend harus menulis data keluaran pekerjaan atau menavigasi ke sana dengan memilih Browse S3.** Bucket ini harus berada di Region yang sama dengan API yang Anda panggil. Peran IAM yang Anda gunakan untuk izin akses untuk tugas klasifikasi harus memiliki izin tulis untuk bucket S3.

1. (Opsional) Jika Anda memilih untuk mengenkripsi hasil output dari pekerjaan Anda, pilih **Enkripsi**. Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.
   + Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih alias kunci atau ID untuk ID **kunci KMS**.
   + Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk alias kunci atau ID di bawah ID kunci **KMS**.

1. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend dari VPC, masukkan ID VPC di bawah **VPC** atau pilih ID dari daftar drop-down. 

   1. Pilih subnet di bawah **Subnet (s).** Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

   1. Di bawah **Grup Keamanan**, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.
**catatan**  
Saat Anda menggunakan VPC dengan tugas klasifikasi, yang `DataAccessRole` digunakan untuk operasi Buat dan Mulai harus memberikan izin ke VPC yang mengakses bucket keluaran.

1. Pilih **Buat pekerjaan** untuk membuat pekerjaan klasifikasi dokumen.

# Pekerjaan analisis untuk klasifikasi kustom (API)
<a name="analysis-jobs-custom-class-api"></a>

Setelah [membuat dan melatih](train-custom-classifier-api.md) pengklasifikasi dokumen khusus, Anda dapat menggunakan pengklasifikasi untuk menjalankan pekerjaan analisis.

Gunakan [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)operasi untuk mulai mengklasifikasikan dokumen yang tidak berlabel. Anda menentukan bucket S3 yang berisi dokumen masukan, bucket S3 untuk dokumen keluaran, dan pengklasifikasi yang akan digunakan.

Untuk mencapai tingkat akurasi tertinggi dalam melatih model, cocokkan jenis input dengan tipe model pengklasifikasi. Pekerjaan pengklasifikasi mengembalikan peringatan jika Anda mengirimkan dokumen asli ke model teks biasa, atau dokumen teks biasa ke model dokumen asli. Untuk informasi selengkapnya, lihat [Model klasifikasi pelatihan](training-classifier-model.md).

 [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)adalah asinkron. Setelah Anda memulai pekerjaan, gunakan [DescribeDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassificationJob.html)operasi untuk memantau kemajuannya. Saat `Status` bidang dalam respons ditampilkan`COMPLETED`, Anda dapat mengakses output di lokasi yang Anda tentukan.

**Topics**
+ [Menggunakan AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Menggunakan AWS SDK untuk Java atau SDK untuk Python](#get-started-api-customclass-java)

## Menggunakan AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Berikut contoh `StartDocumentClassificationJob` operasi, dan classifier kustom lainnya APIs dengan. AWS CLI

Contoh berikut menggunakan format perintah untuk Unix, Linux, dan macOS. Untuk Windows, ganti karakter kelanjutan backslash (\$1) Unix di akhir setiap baris dengan tanda sisipan (^).

Jalankan pekerjaan klasifikasi kustom menggunakan `StartDocumentClassificationJob` operasi.

```
aws comprehend start-document-classification-job \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \
     --output-data-config S3Uri=s3://S3Bucket/output \
     --data-access-role-arn arn:aws:iam::account number:role/resource name
```

Dapatkan informasi tentang pengklasifikasi kustom dengan id pekerjaan menggunakan `DescribeDocumentClassificationJob` operasi.

```
aws comprehend describe-document-classification-job \
     --region region \
     --job-id job id
```

Buat daftar semua pekerjaan klasifikasi kustom di akun Anda menggunakan `ListDocumentClassificationJobs` operasi.

```
aws comprehend list-document-classification-jobs
     --region region
```

## Menggunakan AWS SDK untuk Java atau SDK untuk Python
<a name="get-started-api-customclass-java"></a>

Untuk contoh SDK tentang cara memulai pekerjaan pengklasifikasi kustom, lihat. [Gunakan `StartDocumentClassificationJob` dengan AWS SDK atau CLI](example_comprehend_StartDocumentClassificationJob_section.md)

# Output untuk pekerjaan analisis asinkron
<a name="outputs-class-async"></a>

Setelah pekerjaan analisis selesai, ia menyimpan hasil di bucket S3 yang Anda tentukan dalam permintaan.

## Output untuk input teks
<a name="outputs-class-async-text"></a>

Untuk salah satu format dokumen input teks (multi-kelas atau multi-label), output pekerjaan terdiri dari satu file bernama. `output.tar.gz` Ini adalah file arsip terkompresi yang berisi file teks dengan output. 

**Output multi-kelas**

Saat Anda menggunakan pengklasifikasi yang dilatih dalam mode multi-kelas, hasil Anda akan ditampilkan. `classes` Masing-masing `classes` adalah kelas yang digunakan untuk membuat kumpulan kategori saat melatih pengklasifikasi Anda.

Untuk detail selengkapnya tentang bidang keluaran ini, lihat [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)di Referensi *API Amazon Comprehend*.

Contoh berikut menggunakan kelas yang saling eksklusif berikut.

```
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
```

Jika format data input Anda adalah satu dokumen per baris, file output berisi satu baris untuk setiap baris di input. Setiap baris mencakup nama file, nomor baris berbasis nol dari baris input, dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend memiliki bahwa instance individu diklasifikasikan dengan benar.

Contoh:

```
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

Jika format data input Anda adalah satu dokumen per file, file output berisi satu baris untuk setiap dokumen. Setiap baris memiliki nama file dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend mengklasifikasikan instance individu secara akurat.

Contoh:

```
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

**Keluaran multi-label**

Saat Anda menggunakan pengklasifikasi yang dilatih dalam mode multi-label, hasil Anda akan ditampilkan. `labels` Masing-masing `labels` adalah label yang digunakan untuk membuat kumpulan kategori saat melatih pengklasifikasi Anda.

Contoh berikut menggunakan label unik ini.

```
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
```

Jika format data input Anda adalah satu dokumen per baris, file output berisi satu baris untuk setiap baris di input. Setiap baris mencakup nama file, nomor baris berbasis nol dari baris input, dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend memiliki bahwa instance individu diklasifikasikan dengan benar.

Contoh:

```
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

Jika format data input Anda adalah satu dokumen per file, file output berisi satu baris untuk setiap dokumen. Setiap baris memiliki nama file dan kelas atau kelas yang ditemukan dalam dokumen. Itu berakhir dengan keyakinan bahwa Amazon Comprehend mengklasifikasikan instance individu secara akurat.

Contoh:

```
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

## Output untuk dokumen input semi-terstruktur
<a name="outputs-class-async-other"></a>

Untuk dokumen input semi-terstruktur, output dapat mencakup bidang tambahan berikut:
+ DocumentMetadata — Informasi ekstraksi tentang dokumen. Metadata mencakup daftar halaman dalam dokumen, dengan jumlah karakter yang diekstraksi dari setiap halaman. Bidang ini hadir dalam respons jika permintaan menyertakan `Byte` parameter.
+ DocumentType — Jenis dokumen untuk setiap halaman dalam dokumen input. Bidang ini hadir dalam respons jika permintaan menyertakan `Byte` parameter.
+ Kesalahan — Kesalahan tingkat halaman yang terdeteksi sistem saat memproses dokumen input. Bidang kosong jika sistem tidak mengalami kesalahan.

Untuk detail selengkapnya tentang bidang keluaran ini, lihat [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)di Referensi *API Amazon Comprehend*.

Contoh berikut menunjukkan output untuk file PDF yang dipindai dua halaman.

```
[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]
```