

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# で PDF ファイルを分析するための自動ソリューションの設計 AWS クラウド
<a name="welcome"></a>

*Tianxia Jia と Yanyan Zhang、Amazon Web Services (AWS)*

*2021 年 10* 月 ([ドキュメント履歴](doc-history.md))

組織は PDF ファイルを定期的に使用して、テキスト、テーブル、フォームなど、さまざまなデータ型を保存および転送します。ただし、さまざまな PDF ファイルからのデータを自動的に集約して分析するのは難しい場合があります。たとえば、組織のビジネスアプリケーションは、異なる PDF ファイルを同じ形式で定期的に取り込む場合がありますが、ユーザーは個別に開いて読み取る必要があります。つまり、ユーザーはこれらの PDF ファイルから有用なインサイトを生成することが難しく、関連するデータを手動で抽出し、さらに分析するためにサードパーティーのツールを使用する必要があります。

Amazon Web Services (AWS) クラウドでは、[Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) は PDF ファイルから情報 (印刷されたテキスト、フォーム、テーブルなど) を自動的に抽出し、元の PDF ファイルからの情報を含む JSON 形式のファイルを生成します。後処理中、抽出されたデータは [Amazon DynamoDB ](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html)に保存され、[Amazon Quick](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) の分析と視覚化を使用してビジネスインサイトを生成できます。

このガイドでは、サーバーレスで自動化された PDF ファイル分析ソリューションを 4 つのフェーズで提供します。
+ [取り込みフェーズ](ingestion-phase.md) – 組織が継続的に生成し (日次オペレーションレポートなど）、定期的にデータを抽出する必要がある PDF ファイルタイプを準備します。
+ [処理フェーズ](processing-phase.md) – ダウンストリームアプリケーションに必要なデータ値を PDF ファイルから抽出します。
+ [データストレージフェーズ](storage-phase.md) – 抽出したデータを JSON ファイルとして [Amazon Simple Storage Service (Amazon S3) ](https://docs.aws.amazon.com//AmazonS3/latest/userguide/Welcome.html)に、レコードとして DynamoDB テーブルに保存します。
+ [分析フェーズ](analysis-phase.md) – Amazon Quick でダッシュボードを作成し、データを視覚化して分析できるようにします。

このガイドでは、[Amazon S3](https://docs.aws.amazon.com//amazonglacier/latest/dev/introduction.html) を使用して未加工データと処理済みデータを保存し、コンピューティング[AWS Lambda](https://docs.aws.amazon.com//lambda/latest/dg/welcome.html)には Amazon [Textract、PDF ファイルからコンテンツを抽出するには Amazon](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) Textract、処理済みデータを保存するには [DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html)、分析と視覚化には [Amazon Quick](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) を使用します。このガイドは、情報を自動的に抽出し、PDF ファイルからインサイトを生成したいデータサイエンティスト、機械学習 (ML) エンジニア、ソリューションアーキテクトを対象としています。

## ターゲットを絞ったビジネス成果
<a name="targeted-business-outcomes"></a>

で PDF ファイルを分析する自動ソリューションを設計した後、次の 3 つの結果が期待されます AWS クラウド。
+ 新しいデータが使用可能になったときに更新する自動ソリューションを使用して、複数の PDF ファイルからの未加工データを大規模に自動的に処理します。
+ ダウンストリームモデリングおよび分析アプリケーション ([Amazon SageMaker AI](https://docs.aws.amazon.com//sagemaker/latest/dg/whatis.html) の ML モデリングなど) は、抽出された PDF ファイルコンテンツにアクセスできます。
+ Quick でエンドユーザーにすべての PDF ファイルの内容を表示するデータダッシュボード。