

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengatur opsi ekstraksi teks
<a name="idp-set-textract-options"></a>

 Secara default, Amazon Comprehend melakukan tindakan berikut untuk mengekstrak teks dari file, berdasarkan jenis file input: 
+ **File Word** — Amazon Comprehend parser mengekstrak teks. 
+ **File PDF digital** — Amazon Comprehend parser mengekstrak teks. 
+ **File gambar dan file PDF yang dipindai** — Amazon Comprehend menggunakan `DetectDocumentText` Amazon Textract API untuk mengekstrak teks. 

Untuk file gambar dan file PDF, Anda dapat menggunakan `DocumentReaderConfig` parameter untuk mengganti tindakan ekstraksi default ini. Parameter ini tersedia saat Anda menggunakan konsol Amazon Comprehend atau API untuk analisis kustom real-time atau asinkron.

`DocumentReaderConfig`Parameter berisi tiga bidang:
+ **DocumentReadMode**— Setel ke Amazon Comprehend `SERVICE_DEFAULT` untuk melakukan tindakan default. 

  Setel `FORCE_DOCUMENT_READ_ACTION` untuk menggunakan Amazon Ttract untuk mengurai file PDF digital.
+ **DocumentReadAction**— Menetapkan Amazon Texttract API (DetectDocumentText atau AnalyzeDocument) untuk digunakan saat Amazon Comprehend menggunakan Amazon Texttract untuk ekstraksi teks.
+ **FeatureTypes**— Jika Anda mengatur **DocumentReadAction**untuk menggunakan operasi AnalyzeDocument API, Anda dapat menambahkan salah satu atau kedua `FeatureTypes` (TABEL, FORMULIR). Fitur-fitur ini memberikan informasi tambahan tentang tabel dan formulir dalam dokumen. Untuk informasi selengkapnya tentang fitur ini, lihat [Objek Respons Analisis Dokumen Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html).

Contoh berikut menunjukkan cara mengkonfigurasi `DocumentReaderConfig` untuk kasus penggunaan tertentu:

1. Gunakan Amazon Ttract untuk semua file PDF. 

   1. **DocumentReadMode** – Atur ke `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction** – Atur ke `TEXTRACT_DETECT_DOCUMENT_TEXT`.

   1. **FeatureTypes**- Tidak diperlukan.

1. Gunakan Amazon Texttract `AnalyzeDocument` API untuk semua file PDF dan gambar. 

   1. **DocumentReadMode** – Atur ke `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction** – Atur ke `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Setel ke`TABLES`, `FORMS` atau kedua fitur.

1. Gunakan Amazon Textract `AnalyzeDocument` API untuk file PDF yang dipindai dan semua file gambar. 

   1. **DocumentReadMode** – Atur ke `SERVICE_DEFAULT`.

   1. **DocumentReadAction** – Atur ke `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Setel ke`TABLES`, `FORMS` atau kedua fitur.

Untuk informasi selengkapnya tentang opsi Amazon Textract, lihat. [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)