Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dokumen
Output standar untuk dokumen memungkinkan Anda mengatur perincian respons yang Anda minati serta menetapkan format output dan format teks dalam output. Di bawah ini adalah beberapa output yang dapat Anda aktifkan.
catatan
BDA dapat memproses file DOCX. Untuk memproses file DOCX, mereka diubah menjadi PDFs file. Ini berarti pemetaan nomor halaman tidak akan berfungsi untuk file DOCX. Gambar yang dikonversi PDFs akan diunggah ke bucket keluaran Anda jika opsi JSON+dan granularitas halaman dipilih.
Granularitas Respon
Granularitas respons menentukan jenis respons yang ingin Anda terima dari ekstraksi teks dokumen. Setiap tingkat granularitas memberi Anda lebih banyak dan lebih banyak tanggapan terpisah, dengan halaman menyediakan semua teks yang diekstraksi bersama, dan kata menyediakan setiap kata sebagai respons terpisah. Tingkat granularitas yang tersedia adalah:
-
Granularitas tingkat halaman - Ini diaktifkan secara default. Granularitas tingkat halaman menyediakan setiap halaman dokumen dalam format output teks pilihan Anda. Jika Anda memproses PDF, mengaktifkan tingkat perincian ini akan mendeteksi dan mengembalikan hyperlink yang disematkan.
-
Granularitas tingkat elemen (Layout) - Ini diaktifkan secara default. Menyediakan teks dokumen dalam format output pilihan Anda, dipisahkan menjadi elemen yang berbeda. Elemen-elemen ini, seperti gambar, tabel, atau paragraf. Ini dikembalikan dalam urutan pembacaan logis berdasarkan struktur dokumen. Jika Anda memproses PDF, mengaktifkan tingkat perincian ini akan mendeteksi dan mengembalikan hyperlink yang disematkan.
-
Perincian tingkat kata — Memberikan informasi tentang kata-kata individual tanpa menggunakan analisis konteks yang lebih luas. Memberi Anda setiap kata dan lokasinya di halaman.
Pengaturan Output
Pengaturan output menentukan cara hasil unduhan Anda akan terstruktur. Pengaturan ini eksklusif untuk konsol. Opsi untuk pengaturan output adalah:
-
JSON — Struktur output default untuk analisis dokumen. Menyediakan file keluaran JSON dengan informasi dari pengaturan konfigurasi Anda.
-
Async InvokeDataAutomationAsyncAPI: Output JSON untuk Async API hanya S3.
-
InvokeDataAutomationAPI Sinkronisasi: Output JSON dapat diatur ke S3 atau inline dengan memanfaatkan.
outputconfigurationJika S3 dipilih, maka output JSON pergi ke S3 saja (tidak sebaris). Jika S3 tidak disediakan, output Sync API hanya mendukung JSON inline.
-
-
JSON+Files - Hanya tersedia untuk Async API. InvokeDataAutomationAsync Menggunakan pengaturan ini menghasilkan output JSON dan file yang sesuai dengan output yang berbeda. Misalnya, setelan ini memberi Anda file teks untuk ekstraksi teks secara keseluruhan, file penurunan harga untuk teks dengan penurunan harga struktural, dan file CSV untuk setiap tabel yang ditemukan dalam teks. Angka yang terletak di dalam dokumen akan disimpan serta gambar tanaman dan gambar yang diperbaiki. Juga, jika Anda memproses file DOCX dan memilih opsi ini, PDF yang dikonversi dari file DOCX Anda akan berada di folder output. Output ini terletak
standard_output/di folder output Anda.logical_doc_id/assets/
catatan
-
API sinkronisasi tidak menampilkan file tambahan apa pun di luar JSON. Output JSON hanya berisi format teks yang dipilih sebagai bagian dari format Teks Output Standar. API Sinkronisasi tidak akan menampilkan tanaman Gambar atau gambar yang diperbaiki.
-
DocX tidak didukung oleh Sync API.
Format Teks
Format teks menentukan berbagai jenis teks yang akan disediakan melalui berbagai operasi ekstraksi. Anda dapat memilih sejumlah opsi berikut untuk format teks Anda.
-
Plaintext - Pengaturan ini menyediakan output teks saja tanpa pemformatan atau elemen penurunan harga lainnya yang dicatat.
-
Teks dengan penurunan harga - Pengaturan output default untuk output standar. Menyediakan teks dengan elemen penurunan harga terintegrasi.
-
Teks dengan HTML - Menyediakan teks dengan elemen HTML terintegrasi dalam respon.
-
CSV — Menyediakan output terstruktur CSV untuk tabel dalam dokumen. Ini hanya akan memberikan respons untuk tabel, dan bukan elemen lain dari dokumen.
Kotak Bounding dan Bidang Generatif
Untuk Dokumen, ada dua opsi respons yang mengubah outputnya berdasarkan granularitas yang dipilih. Ini adalah Bounding Boxes, dan Generative Fields. Memilih Bounding Boxes akan memberikan garis besar visual dari elemen atau kata yang Anda klik di dropdown respons konsol. Ini memungkinkan Anda melacak elemen tertentu dari respons Anda dengan lebih mudah. Bounding Boxes dikembalikan dalam JSON Anda sebagai koordinat dari empat sudut kotak.
Saat Anda memilih Bidang Generatif, Anda akan menghasilkan ringkasan dokumen, baik versi 10 kata dan 250 kata. Kemudian, jika Anda memilih elemen sebagai perincian respons, Anda menghasilkan keterangan deskriptif dari setiap gambar yang terdeteksi dalam dokumen. Angka mencakup hal-hal seperti bagan, grafik, dan gambar.
Metadata format file tambahan JSON
Saat Anda menerima file tambahan dari bendera format file tambahan, Anda akan mendapatkan file JSON untuk gambar yang diperbaiki yang diekstraksi. BDA memperbaiki gambar yang diputar dengan menggunakan homografi untuk memutar gambar menjadi sudut 90 derajat. Contoh JSON adalah di bawah ini:
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
Sudut mewakili sudut gambar yang terdeteksi, digunakan untuk membentuk homografi dokumen. Homografi ini digunakan untuk memutar gambar sambil mempertahankan properti lainnya.