

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 摄取阶段
<a name="ingestion-phase"></a>

您的组织会识别持续生成的 PDF 文件类型（例如，每日运营报告），格式相同，您需要自动定期从中提取数据。要提取此 PDF 文件，您需要一个亚马逊简单存储服务 (Amazon S3) 存储桶，我们建议您创建一个专用 S3 存储桶。但是，您也可以使用现有的 S3 存储桶。有关这方面的更多信息，请参阅 Amazon S3 文档中的[创建存储桶](https://docs.aws.amazon.com//AmazonS3/latest/userguide/create-bucket-overview.html)。

载入新的 PDF 文件时，S3 存储桶会调用一个 AWS Lambda 函数。有关这方面的更多信息，请参阅文档中的[使用 Amazon S3 触发器调用 Lambda 函数](https://docs.aws.amazon.com//lambda/latest/dg/with-s3-example.html)。 AWS Lambda 

然后，Lambda 函数会处理该 PDF 文件。本指南的[处理阶段](processing-phase.md)部分描述了此过程。

## 摄取阶段的最佳实践
<a name="best-practices-ingestion"></a>

使用以下四种最佳做法来确保成功摄取 PDF 文件：
+ 对历史 PDF 文件使用批量摄取，对新的 PDF 文件使用连续摄取。
+ 要进行批量摄取，请使用批量转储（例如，从本地驱动器上传 PDF 文件）。如果您有多种 PDF 文件类型，我们建议您使用不同的文件夹来保存每种类型的 PDF 文件。我们还建议对文件使用独特的描述性命名标准，例如`warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf`。
+ 要持续摄取新的 PDF 文件，您的源系统必须连接到 S3 存储桶。例如，您可以设置从源系统到 S3 存储桶的每日转储。
+ 确保您的 PDF 文件质量良好，可读性清晰。我们建议使用原生 PDF 文件，但如果单个单词清晰，您也可以使用转换为 PDF 格式的扫描文档。有关这方面的更多信息，请参阅 Machine Learnin AWS g 博客上的 “[使用 Amazon Textract 预处理 PDF 文件：视觉效果检测和](https://aws.amazon.com//blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/)删除”。