데이터 스토리지 단계 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 스토리지 단계

PDF 파일 콘텐츠에는 일반적으로 양식(키-값 페어), 테이블 및 자유 텍스트가 포함되므로 JSON 파일에는 PDF 파일 구조를 나타내고 추출된 데이터를 저장하기 위한 중첩된 키-값 페어가 포함되어야 합니다. PDF 파일은 비정형 또는 반정형 데이터이므로 고정된 스키마가 없습니다. 즉, PDF 파일 콘텐츠를 기존 SQL 데이터베이스에 저장하기 어려울 수 있습니다. 그러나 NoSQL 데이터베이스는 사전 정의된 스키마가 필요하지 않으므로 PDF 파일 콘텐츠를 저장하는 데 적합합니다. PDF 파일 콘텐츠를 추출하고 사후 처리한 후 Amazon DynamoDB 테이블의 각 PDF 파일에 대해 하나의 레코드로 저장할 수 있습니다.

최종 추출된 데이터를 Amazon Simple Storage Service(Amazon S3)의 JSON 파일 및 DynamoDB 테이블의 레코드로 저장하는 것이 좋습니다. 다운스트림 처리 및 분석 애플리케이션은 Amazon S3의 JSON 파일을 쉽게 참조할 수 있습니다. 예를 들어 Amazon S3를 Amazon SageMaker AI에서 ML 모델을 빌드하기 위한 데이터 소스로 사용하거나, Amazon Amazon Athena를 사용하여 JSON 파일을 직접 쿼리하거나, Amazon S3를 Amazon Quick Sight의 데이터 소스로 사용할 수 있습니다. DynamoDB 테이블에 저장된 추출된 PDF 파일 콘텐츠는 모든 규모에서 짧은 지연 시간으로 쉽게 액세스할 수 있으므로이 접근 방식을 쿼리 및 스캔에 백엔드 데이터베이스로 사용하기에 적합합니다.

데이터 스토리지 단계의 모범 사례

성공적인 데이터 스토리지 단계를 보장하려면 다음 두 가지 모범 사례를 사용하세요.

  • Amazon S3의 최종 JSON 파일을 다른 출력 폴더에 저장하고 PDF 파일 유형에 따라 이름을 사용해야 합니다.

  • DynamoDB는 기본 키를 사용하여 테이블의 각 항목을 고유하게 식별합니다. 기본 키는 단일 키(예: 파티션 키) 또는 복합 키(예: 파티션 키 및 정렬 키)일 수 있습니다. 이 솔루션의 기본 키의 경우 고유한 PDF 파일 식별자(예: PDF 파일 이름)를 파티션 키로 사용하거나 두 식별자의 조합(예: 날짜 및 웨어하우스 이름)을 파티션 키와 정렬 키로 사용하는 것이 좋습니다. 이에 대한 자세한 내용은 Amazon DynamoDB 설명서의 Amazon DynamoDB의 핵심 구성 요소를 참조하세요. DynamoDB