

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 设计用于分析 PDF 文件的自动化解决方案 AWS Cloud
<a name="welcome"></a>

*贾天霞和张燕燕，Amazon Web Services ()AWS*

*2021 年 10 月*（[文档历史记录](doc-history.md)）

Organizations 经常使用 PDF 文件来存储和传输不同的数据类型，包括文本、表格和表单。但是，自动聚合和分析来自不同 PDF 文件的数据可能很困难。例如，组织的业务应用程序可能会定期接收格式相同的不同 PDF 文件，但用户必须单独打开和阅读这些文件。这意味着用户发现很难从这些 PDF 文件中生成有用的见解，必须手动提取相关数据并使用第三方工具进行进一步分析。

在亚马逊 Web Services (AWS) 云上，[Amazon Textrac](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) t 会自动从 PDF 文件中提取信息（例如打印的文本、表单和表格），并生成包含原始 PDF 文件信息的 JSON 格式的文件。[在后期处理过程中，提取的数据存储在 [Amazon DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) 中，您可以使用 Amazon Quick 中的分析和可视化来生成业务见解。](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html)

本指南分四个阶段提供无服务器自动化 PDF 文件分析解决方案：
+ [摄取阶段](ingestion-phase.md)— 准备您的组织持续生成的 PDF 文件类型（例如，每日运营报告），并且需要定期从中提取数据。
+ [处理阶段](processing-phase.md)— 从 PDF 文件中提取下游应用程序所需的数据值。
+ [数据存储阶段](storage-phase.md)— 将提取的数据作为 JSON 文件存储在[亚马逊简单存储服务 (Amazon S3) Service](https://docs.aws.amazon.com//AmazonS3/latest/userguide/Welcome.html) 中，并作为记录存储在 DynamoDB 表中。
+ [分析阶段](analysis-phase.md)— 在 Amazon Quick 中创建控制面板以可视化数据并帮助分析数据。

[该指南使用 [Amazon S3](https://docs.aws.amazon.com//amazonglacier/latest/dev/introduction.html) 存储原始数据和处理过的数据，[AWS Lambda](https://docs.aws.amazon.com//lambda/latest/dg/welcome.html)用于计算，使用 [Amazon Textr](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) act 从 PDF 文件中提取内容，使用 DynamoDB 存储处理后的数据，使用 A [ma](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) zon Quick 进行分析和可视化。](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html)本指南适用于想要自动从 PDF 文件中提取信息并生成见解的数据科学家、机器学习 (ML) 工程师和解决方案架构师。

## 目标业务成果
<a name="targeted-business-outcomes"></a>

在设计了用于分析 PDF 文件的自动化解决方案后，您应该期望获得以下三个结果 AWS Cloud：
+ 使用自动解决方案，自动处理来自多个 PDF 文件的原始数据，该解决方案会在有新数据可用时刷新。
+ 下游建模和分析应用程序（例如 [Amazon A SageMaker I](https://docs.aws.amazon.com//sagemaker/latest/dg/whatis.html) 中的机器学习建模）可以访问提取的 PDF 文件内容。
+ 在 Quick 中向最终用户显示所有 PDF 文件内容的数据仪表板。