

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設計自動化解決方案來分析 上的 PDF 檔案 AWS 雲端
<a name="welcome"></a>

*Tianxia Jia 和 Yanyan Zhang，Amazon Web Services (AWS)*

*2021 年 10 月* ([文件歷史記錄](doc-history.md))

組織會定期使用 PDF 檔案來存放和傳輸不同的資料類型，包括文字、資料表和表單。不過，自動彙總和分析來自不同 PDF 檔案的資料可能具有挑戰性。例如，組織的商業應用程式可能會定期擷取格式相同的不同 PDF 檔案，但使用者必須個別開啟和讀取。這表示使用者發現很難從這些 PDF 檔案產生有用的洞見，而且必須手動擷取相關資料，並使用第三方工具進行進一步分析。

在 Amazon Web Services (AWS) 雲端上，[Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) 會自動從 PDF 檔案擷取資訊 （例如，列印的文字、表單和資料表），並產生 JSON 格式的檔案，其中包含原始 PDF 檔案的資訊。在後製處理期間，擷取的資料會儲存在 [Amazon DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) 中，而且您可以使用 [Amazon Quick](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) 中的分析和視覺化產生商業洞見。

本指南分四個階段提供無伺服器、自動化 PDF 檔案分析解決方案：
+ [擷取階段](ingestion-phase.md) – 準備您的組織持續產生的 PDF 檔案類型 （例如每日操作報告），您需要定期從中擷取資料。
+ [處理階段](processing-phase.md) – 從 PDF 檔案擷取下游應用程式所需的資料值。
+ [資料儲存階段](storage-phase.md) – 將擷取的資料儲存為 [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com//AmazonS3/latest/userguide/Welcome.html) 中的 JSON 檔案，以及 DynamoDB 資料表中的記錄。
+ [分析階段](analysis-phase.md) – 在 Amazon Quick 中建立儀表板，以視覺化並協助分析資料。

本指南使用 [Amazon S3](https://docs.aws.amazon.com//amazonglacier/latest/dev/introduction.html) 存放原始和已處理的資料，[AWS Lambda](https://docs.aws.amazon.com//lambda/latest/dg/welcome.html)用於運算、[Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) 從 PDF 檔案擷取內容、[DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) 存放已處理的資料，以及 [Amazon Quick](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) 用於分析和視覺化。本指南適用於希望自動擷取資訊並從 PDF 檔案產生洞見的資料科學家、機器學習 (ML) 工程師和解決方案架構師。

## 目標業務成果
<a name="targeted-business-outcomes"></a>

在設計自動化解決方案以分析 上的 PDF 檔案後，您應該預期以下三個結果 AWS 雲端：
+ 使用可在新資料可用時重新整理的自動化解決方案，以大規模自動處理來自多個 PDF 檔案的原始資料。
+ 下游建模和分析應用程式 （例如 [Amazon SageMaker AI ](https://docs.aws.amazon.com//sagemaker/latest/dg/whatis.html)中的 ML 建模） 可以存取擷取的 PDF 檔案內容。
+ 在 Quick 中向最終使用者顯示所有 PDF 檔案內容的資料儀表板。