

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 에서 PDF 파일을 분석하기 위한 자동화된 솔루션 설계 AWS 클라우드
<a name="welcome"></a>

*Tianxia Jia 및 Yanyan Zhang, Amazon Web Services(AWS)*

*2021년 10*월([문서 기록](doc-history.md))

조직은 정기적으로 PDF 파일을 사용하여 텍스트, 테이블 및 양식을 비롯한 다양한 데이터 형식을 저장하고 전송합니다. 그러나 다른 PDF 파일의 데이터를 자동으로 집계하고 분석하는 것은 어려울 수 있습니다. 예를 들어 조직의 비즈니스 애플리케이션은 형식이 동일하지만 사용자가 개별적으로 열고 읽어야 하는 다양한 PDF 파일을 정기적으로 수집할 수 있습니다. 즉, 사용자는 이러한 PDF 파일에서 유용한 인사이트를 생성하기 어렵기 때문에 관련 데이터를 수동으로 추출하고 추가 분석을 위해 타사 도구를 사용해야 합니다.

Amazon Web Services(AWS) 클라우드에서 [Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html)는 PDF 파일에서 정보(예: 인쇄된 텍스트, 양식 및 테이블)를 자동으로 추출하고 원본 PDF 파일의 정보가 포함된 JSON 형식 파일을 생성합니다. 사후 처리 중에 추출된 데이터는 [Amazon DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html)에 저장되며 [Amazon Quick](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html)에서 분석 및 시각화를 사용하여 비즈니스 인사이트를 생성할 수 있습니다.

이 가이드는 4단계로 구성된 서버리스 자동 PDF 파일 분석 솔루션을 제공합니다.
+ [수집 단계](ingestion-phase.md) - 조직에서 지속적으로 생성하고(예: 일일 운영 보고서) 정기적으로 데이터를 추출해야 하는 PDF 파일 유형을 준비합니다.
+ [처리 단계](processing-phase.md) - 다운스트림 애플리케이션에 필요한 데이터 값을 PDF 파일에서 추출합니다.
+ [데이터 스토리지 단계](storage-phase.md) - 추출된 데이터를 [Amazon Simple Storage Service(Amazon S3)](https://docs.aws.amazon.com//AmazonS3/latest/userguide/Welcome.html)의 JSON 파일 및 DynamoDB 테이블의 레코드로 저장합니다.
+ [분석 단계](analysis-phase.md) - Amazon Quick에서 대시보드를 생성하여 데이터를 시각화하고 분석할 수 있습니다.

이 가이드에서는 [Amazon S3](https://docs.aws.amazon.com//amazonglacier/latest/dev/introduction.html)를 사용하여 원시 및 처리된 데이터를 저장하고, 컴퓨팅을 [AWS Lambda](https://docs.aws.amazon.com//lambda/latest/dg/welcome.html) 위해 [Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html)를 사용하여 PDF 파일에서 콘텐츠를 추출하고, [DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html)를 사용하여 처리된 데이터를 저장하고, [Amazon Quick](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html)을 사용하여 분석 및 시각화를 수행합니다. 이 가이드는 정보를 자동으로 추출하고 PDF 파일에서 인사이트를 생성하려는 데이터 과학자, 기계 학습(ML) 엔지니어 및 솔루션 아키텍트를 대상으로 합니다.

## 목표 비즈니스 성과
<a name="targeted-business-outcomes"></a>

에서 PDF 파일을 분석하기 위한 자동화된 솔루션을 설계한 후 AWS 클라우드다음 세 가지 결과를 기대해야 합니다.
+ 새 데이터를 사용할 수 있게 되면 새로 고치는 자동화된 솔루션을 사용하여 여러 PDF 파일의 원시 데이터를 대규모로 자동으로 처리합니다.
+ 다운스트림 모델링 및 분석 애플리케이션(예: [Amazon SageMaker AI](https://docs.aws.amazon.com//sagemaker/latest/dg/whatis.html)의 ML 모델링)은 추출된 PDF 파일 콘텐츠에 액세스할 수 있습니다.
+ Quick에서 최종 사용자에게 모든 PDF 파일 콘텐츠를 표시하는 데이터 대시보드입니다.