

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 擷取階段
<a name="ingestion-phase"></a>

您的組織會識別持續產生的 PDF 檔案類型 （例如，每日操作報告）、具有相同的格式，而且您需要自動和定期從中擷取資料。若要擷取此 PDF 檔案，您需要 Amazon Simple Storage Service (Amazon S3) 儲存貯體，我們建議您建立專用 S3 儲存貯體。不過，您也可以使用現有的 S3 儲存貯體。如需詳細資訊，請參閱 Amazon S3 文件中的[建立儲存貯](https://docs.aws.amazon.com//AmazonS3/latest/userguide/create-bucket-overview.html)體。

擷取新的 PDF 檔案時，S3 儲存貯體會叫用 AWS Lambda 函數。如需詳細資訊，請參閱 AWS Lambda 文件中的[使用 Amazon S3 觸發程序來叫用 Lambda 函數](https://docs.aws.amazon.com//lambda/latest/dg/with-s3-example.html)。

Lambda 函數接著會處理 PDF 檔案。本指南的 [處理階段](processing-phase.md)章節會說明此程序。

## 擷取階段的最佳實務
<a name="best-practices-ingestion"></a>

使用下列四個最佳實務，以確保成功擷取 PDF 檔案：
+ 將大量擷取用於歷史 PDF 檔案，並將連續擷取用於新的 PDF 檔案。
+ 對於大量擷取，請使用大量傾印 （例如，從本機磁碟機上傳 PDF 檔案）。如果您有多個 PDF 檔案類型，建議您使用不同的資料夾來保存每種類型的 PDF 檔案。我們也建議對檔案使用唯一且描述性的命名標準，例如 `warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf`。
+ 若要持續擷取新的 PDF 檔案，您的來源系統必須連線至 S3 儲存貯體。例如，您可以設定從來源系統到 S3 儲存貯體的每日傾印。
+ 確保您的 PDF 檔案品質良好且清晰可讀。我們建議您使用原生 PDF 檔案，但如果個別單字清楚，您也可以使用轉換為 PDF 格式的掃描文件。如需詳細資訊，請參閱 AWS Machine Learning部落格上的[使用 Amazon Textract：視覺效果偵測和移除進行 PDF 檔案預先處理](https://aws.amazon.com//blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/)。