데이터 스토리지 단계

PDF 파일 콘텐츠에는 일반적으로 양식(키-값 페어), 테이블 및 자유 텍스트가 포함되므로 JSON 파일에는 PDF 파일 구조를 나타내고 추출된 데이터를 저장하기 위한 중첩된 키-값 페어가 포함되어야 합니다. PDF 파일은 비정형 또는 반정형 데이터이므로 고정된 스키마가 없습니다. 즉, PDF 파일 콘텐츠를 기존 SQL 데이터베이스에 저장하기 어려울 수 있습니다. 그러나 NoSQL 데이터베이스는 사전 정의된 스키마가 필요하지 않으므로 PDF 파일 콘텐츠를 저장하는 데 적합합니다. PDF 파일 콘텐츠를 추출하고 사후 처리한 후 Amazon DynamoDB 테이블의 각 PDF 파일에 대해 하나의 레코드로 저장할 수 있습니다.

최종 추출된 데이터를 Amazon Simple Storage Service(Amazon S3)의 JSON 파일 및 DynamoDB 테이블의 레코드로 저장하는 것이 좋습니다. 다운스트림 처리 및 분석 애플리케이션은 Amazon S3의 JSON 파일을 쉽게 참조할 수 있습니다. 예를 들어 Amazon S3를 Amazon SageMaker AI에서 ML 모델을 빌드하기 위한 데이터 소스로 사용하거나, Amazon Amazon Athena를 사용하여 JSON 파일을 직접 쿼리하거나, Amazon S3를 Amazon Quick Sight의 데이터 소스로 사용할 수 있습니다. DynamoDB 테이블에 저장된 추출된 PDF 파일 콘텐츠는 모든 규모에서 짧은 지연 시간으로 쉽게 액세스할 수 있으므로이 접근 방식을 쿼리 및 스캔에 백엔드 데이터베이스로 사용하기에 적합합니다.

데이터 스토리지 단계의 모범 사례

성공적인 데이터 스토리지 단계를 보장하려면 다음 두 가지 모범 사례를 사용하세요.

Amazon S3의 최종 JSON 파일을 다른 출력 폴더에 저장하고 PDF 파일 유형에 따라 이름을 사용해야 합니다.
DynamoDB는 기본 키를 사용하여 테이블의 각 항목을 고유하게 식별합니다. 기본 키는 단일 키(예: 파티션 키) 또는 복합 키(예: 파티션 키 및 정렬 키)일 수 있습니다. 이 솔루션의 기본 키의 경우 고유한 PDF 파일 식별자(예: PDF 파일 이름)를 파티션 키로 사용하거나 두 식별자의 조합(예: 날짜 및 웨어하우스 이름)을 파티션 키와 정렬 키로 사용하는 것이 좋습니다. 이에 대한 자세한 내용은 Amazon DynamoDB 설명서의 Amazon DynamoDB의 핵심 구성 요소를 참조하세요. DynamoDB

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

처리 단계

분석 단계