View a markdown version of this page

擷取階段 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

擷取階段

您的組織會識別持續產生的 PDF 檔案類型 (例如,每日操作報告)、具有相同的格式,而且您需要自動和定期從中擷取資料。若要擷取此 PDF 檔案,您需要 Amazon Simple Storage Service (Amazon S3) 儲存貯體,我們建議您建立專用 S3 儲存貯體。不過,您也可以使用現有的 S3 儲存貯體。如需詳細資訊,請參閱 Amazon S3 文件中的建立儲存貯體。

擷取新的 PDF 檔案時,S3 儲存貯體會叫用 AWS Lambda 函數。如需詳細資訊,請參閱 AWS Lambda 文件中的使用 Amazon S3 觸發程序來叫用 Lambda 函數

Lambda 函數接著會處理 PDF 檔案。本指南的 處理階段章節會說明此程序。

擷取階段的最佳實務

使用下列四個最佳實務,以確保成功擷取 PDF 檔案:

  • 將大量擷取用於歷史 PDF 檔案,並將連續擷取用於新的 PDF 檔案。

  • 對於大量擷取,請使用大量傾印 (例如,從本機磁碟機上傳 PDF 檔案)。如果您有多個 PDF 檔案類型,建議您使用不同的資料夾來保存每種類型的 PDF 檔案。我們也建議對檔案使用唯一且描述性的命名標準,例如 warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf

  • 若要持續擷取新的 PDF 檔案,您的來源系統必須連線至 S3 儲存貯體。例如,您可以設定從來源系統到 S3 儲存貯體的每日傾印。

  • 確保您的 PDF 檔案品質良好且清晰可讀。我們建議您使用原生 PDF 檔案,但如果個別單字清楚,您也可以使用轉換為 PDF 格式的掃描文件。如需詳細資訊,請參閱 AWS Machine Learning部落格上的使用 Amazon Textract:視覺效果偵測和移除進行 PDF 檔案預先處理