

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 수집 단계
<a name="ingestion-phase"></a>

조직은 지속적으로 생성되는 PDF 파일 유형(예: 일일 작업 보고서)을 식별하고, 형식이 동일하며, 데이터를 자동으로 정기적으로 추출해야 합니다. 이 PDF 파일을 수집하려면 Amazon Simple Storage Service(Amazon S3) 버킷이 필요하며 전용 S3 버킷을 생성하는 것이 좋습니다. 그러나 기존 S3 버킷을 사용할 수도 있습니다. 이에 대한 자세한 내용은 Amazon S3 설명서의 [버킷 생성을](https://docs.aws.amazon.com//AmazonS3/latest/userguide/create-bucket-overview.html) 참조하세요.

S3 버킷은 새 PDF 파일을 수집할 때 AWS Lambda 함수를 호출합니다. 이에 대한 자세한 내용은 AWS Lambda 설명서의 [ Amazon S3 트리거를 사용하여 Lambda 함수 호출을](https://docs.aws.amazon.com//lambda/latest/dg/with-s3-example.html) 참조하세요.

그러면 Lambda 함수가 PDF 파일을 처리합니다. 이 프로세스는이 가이드의 [처리 단계](processing-phase.md) 섹션에 설명되어 있습니다.

## 수집 단계의 모범 사례
<a name="best-practices-ingestion"></a>

다음 네 가지 모범 사례를 사용하여 성공적인 PDF 파일 수집을 보장합니다.
+ 기록 PDF 파일에는 대량 수집을 사용하고 새 PDF 파일에는 연속 수집을 사용합니다.
+ 대량 수집의 경우 대량 덤프를 사용합니다(예: 로컬 드라이브에서 PDF 파일 업로드). PDF 파일 유형이 두 개 이상인 경우 다른 폴더를 사용하여 각 유형의 PDF 파일을 보관하는 것이 좋습니다. 또한와 같은 파일에 대해 고유하고 설명적인 이름 지정 표준을 사용하는 것이 좋습니다`warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf`.
+ 새 PDF 파일을 지속적으로 수집하려면 소스 시스템이 S3 버킷에 연결되어야 합니다. 예를 들어 소스 시스템에서 S3 버킷으로 일일 덤프를 설정할 수 있습니다.
+ PDF 파일의 품질이 양호하고 명확하게 읽을 수 있는지 확인합니다. 기본 PDF 파일을 사용하는 것이 좋지만 개별 단어가 명확하면 PDF 형식으로 변환된 스캔된 문서를 사용할 수도 있습니다. 이에 대한 자세한 내용은 AWS Machine Learning 블로그의 [Amazon Textract를 사용한 PDF 파일 사전 처리: 시각적 객체 감지 및 제거](https://aws.amazon.com//blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/)를 참조하세요.