

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 取り込みフェーズ
<a name="ingestion-phase"></a>

組織は、継続的に生成される PDF ファイルタイプ (日次オペレーションレポートなど）、同じ形式、自動的かつ定期的にデータを抽出する必要がある PDF ファイルタイプを識別します。この PDF ファイルを取り込むには、Amazon Simple Storage Service (Amazon S3) バケットが必要です。専用の S3 バケットを作成することをお勧めします。ただし、既存の S3 バケットを使用することもできます。詳細については、Amazon S3 ドキュメント[の「バケットの作成](https://docs.aws.amazon.com//AmazonS3/latest/userguide/create-bucket-overview.html)」を参照してください。

新しい PDF ファイルが取り込まれると、S3 バケットは AWS Lambda 関数を呼び出します。詳細については、 AWS Lambda ドキュメントの[Amazon S3トリガーを使用して Lambda 関数を呼び出す](https://docs.aws.amazon.com//lambda/latest/dg/with-s3-example.html)」を参照してください。

次に、Lambda 関数は PDF ファイルを処理します。このプロセスについては、このガイドの [処理フェーズ](processing-phase.md)セクションで説明します。

## 取り込みフェーズのベストプラクティス
<a name="best-practices-ingestion"></a>

PDF ファイルの取り込みを成功させるには、次の 4 つのベストプラクティスを使用します。
+ 履歴 PDF ファイルには一括取り込みを使用し、新しい PDF ファイルには連続取り込みを使用します。
+ 一括取り込みの場合は、一括ダンプを使用します (ローカルドライブから PDF ファイルをアップロードするなど）。複数の PDF ファイルタイプがある場合は、異なるフォルダを使用して各タイプの PDF ファイルを保持することをお勧めします。また、 などのファイルには、一意でわかりやすい命名基準を使用することをお勧めします`warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf`。
+ 新しい PDF ファイルを継続的に取り込むには、ソースシステムが S3 バケットに接続する必要があります。たとえば、ソースシステムから S3 バケットへの日次ダンプを設定できます。
+ PDF ファイルが高品質で、明確に読み取れることを確認してください。ネイティブ PDF ファイルを使用することをお勧めしますが、個々の単語が明確であれば、PDF 形式に変換されたスキャン済みドキュメントを使用することもできます。詳細については、 AWS Machine Learningブログの[「Amazon Textract: Visuals detection and remove」の「PDF ファイル前処理](https://aws.amazon.com//blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/)」を参照してください。