Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Secara otomatis mengekstrak konten dari file PDF menggunakan Amazon Ttract
Tianxia Jia, Amazon Web Services
Ringkasan
Banyak organisasi perlu mengekstrak informasi dari file PDF yang diunggah ke aplikasi bisnis mereka. Misalnya, organisasi mungkin perlu mengekstrak informasi secara akurat dari file PDF pajak atau medis untuk analisis pajak atau pemrosesan klaim medis.
Di Amazon Web Services (AWS) Cloud, Amazon Textract secara otomatis mengekstrak informasi (misalnya, teks cetak, formulir, dan tabel) dari file PDF dan menghasilkan file berformat JSON yang berisi informasi dari file PDF asli. Anda dapat menggunakan Amazon Ttract di AWS Management Console atau dengan menerapkan panggilan API. Kami menyarankan Anda menggunakan panggilan API terprogram
Saat Amazon Textract memproses file, ia membuat daftar Block objek berikut: halaman, baris dan kata-kata teks, formulir (pasangan nilai kunci), tabel dan sel, dan elemen pemilihan. Informasi objek lainnya juga disertakan, misalnya, kotak pembatas, interval kepercayaan IDs, dan hubungan. Amazon Ttract mengekstrak informasi konten sebagai string. Nilai data yang diidentifikasi dan diubah dengan benar diperlukan karena dapat lebih mudah digunakan oleh aplikasi hilir Anda.
Pola ini menjelaskan step-by-step alur kerja untuk menggunakan Amazon Ttract untuk secara otomatis mengekstrak konten dari file PDF dan memprosesnya menjadi output yang bersih. Pola menggunakan teknik pencocokan template untuk mengidentifikasi dengan benar bidang yang diperlukan, nama kunci, dan tabel, dan kemudian menerapkan koreksi pasca-pemrosesan untuk setiap tipe data. Anda dapat menggunakan pola ini untuk memproses berbagai jenis file PDF dan Anda kemudian dapat menskalakan dan mengotomatiskan alur kerja ini untuk memproses file PDF yang memiliki format yang identik.
Prasyarat dan batasan
Prasyarat
Akun AWS aktif.
Bucket Amazon Simple Storage Service (Amazon S3) yang ada untuk menyimpan file PDF setelah dikonversi ke format JPEG untuk diproses oleh Amazon Textract. Untuk informasi selengkapnya tentang bucket S3, lihat ikhtisar Bucket di dokumentasi Amazon S3.
Notebook
Textract_PostProcessing.ipynbJupyter (terlampir), diinstal dan dikonfigurasi. Untuk informasi selengkapnya tentang notebook Jupyter, lihat Membuat buku catatan Jupyter di dokumentasi Amazon. SageMakerFile PDF yang ada yang memiliki format identik.
Pemahaman tentang Python.
Batasan
File PDF Anda harus berkualitas baik dan dapat dibaca dengan jelas. File PDF asli direkomendasikan, tetapi Anda dapat menggunakan dokumen yang dipindai yang dikonversi ke format PDF jika semua kata individual jelas. Untuk informasi selengkapnya tentang ini, lihat praprosesan dokumen PDF dengan Amazon Textract: Deteksi dan penghapusan visual
di Blog AWS Machine Learning. Untuk file multipage, Anda dapat menggunakan operasi asinkron atau membagi file PDF menjadi satu halaman dan menggunakan operasi sinkron. Untuk informasi selengkapnya tentang dua opsi ini, lihat Mendeteksi dan menganalisis teks dalam dokumen multihalaman serta Mendeteksi dan menganalisis teks dalam dokumen satu halaman dalam dokumentasi Amazon Textract.
Arsitektur
Alur kerja pola ini pertama-tama menjalankan Amazon Ttract pada contoh file PDF (Jalankan pertama kali) dan kemudian menjalankannya pada file PDF yang memiliki format identik dengan PDF pertama (Ulangi jalankan). Diagram berikut menunjukkan gabungan alur kerja First-time run dan Repeat run yang secara otomatis dan berulang kali mengekstrak konten dari file PDF dengan format yang identik.

Diagram menunjukkan alur kerja berikut untuk pola ini:
Konversi file PDF ke dalam format JPEG dan simpan dalam ember S3.
Panggil Amazon Texttract API dan uraikan file JSON respons Amazon Textract.
Edit file JSON dengan menambahkan
KeyName:DataTypepasangan yang benar untuk setiap bidang yang diperlukan. BuatTemplateJSONfile untuk tahap Repeat run.Tentukan fungsi koreksi pasca-pemrosesan untuk setiap tipe data (misalnya, float, integer, dan tanggal).
Siapkan file PDF yang memiliki format yang identik dengan file PDF pertama Anda.
Hubungi Amazon Texttract API dan uraikan respons Amazon Textract JSON.
Cocokkan file JSON yang diurai dengan file.
TemplateJSONMenerapkan koreksi pasca-pemrosesan.
File keluaran JSON akhir memiliki yang benar KeyName dan Value untuk setiap bidang yang diperlukan.
Tumpukan teknologi target
Amazon SageMaker
Amazon S3
Amazon Textract
Otomatisasi dan skala
Anda dapat mengotomatiskan alur kerja Repeat run dengan menggunakan fungsi AWS Lambda yang memulai Amazon Ttract saat file PDF baru ditambahkan ke Amazon S3. Amazon Textract kemudian menjalankan skrip pemrosesan dan output akhir dapat disimpan ke lokasi penyimpanan. Untuk informasi selengkapnya tentang hal ini, lihat Menggunakan pemicu Amazon S3 untuk menjalankan fungsi Lambda dalam dokumentasi Lambda.
Alat
Amazon SageMaker adalah layanan ML yang dikelola sepenuhnya yang membantu Anda membuat dan melatih model ML dengan cepat dan mudah, lalu langsung menerapkannya ke lingkungan host yang siap produksi.
Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
Amazon Textract memudahkan untuk menambahkan deteksi dan analisis teks dokumen ke aplikasi Anda.
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Konversi file PDF. | catatanAnda juga dapat menggunakan operasi asinkron Amazon Textract ( | Ilmuwan data, Pengembang |
Mengurai respons Amazon Texttract JSON. | Buka
Parse JSON respon ke dalam bentuk dan tabel dengan menggunakan kode berikut:
| Ilmuwan data, Pengembang |
Edit file TemplateJSON. | Edit JSON yang diurai untuk masing-masing Template ini digunakan untuk setiap jenis file PDF individu, yang berarti bahwa template dapat digunakan kembali untuk file PDF yang memiliki format yang identik. | Ilmuwan data, Pengembang |
Tentukan fungsi koreksi pasca-pemrosesan. | Nilai dalam respons Amazon Textract untuk Perbaiki setiap tipe data sesuai dengan
| Ilmuwan data, Pengembang |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Siapkan file PDF. | catatanAnda juga dapat menggunakan operasi asinkron Amazon Textract ( | Ilmuwan data, Pengembang |
Hubungi Amazon Texttract API. | Hubungi Amazon Texttract API dengan menggunakan kode berikut:
| Ilmuwan data, Pengembang |
Mengurai respons Amazon Texttract JSON. | Parse JSON respon ke dalam bentuk dan tabel dengan menggunakan kode berikut:
| Ilmuwan data, Pengembang |
Muat file TemplateJSON dan cocokkan dengan JSON yang diurai. | Gunakan
| Ilmuwan data, Pengembang |
Koreksi pasca pemrosesan. | Gunakan
| Ilmuwan data, Pengembang |
Sumber daya terkait
Lampiran
Untuk mengakses konten tambahan yang terkait dengan dokumen ini, unzip file berikut: attachment.zip