

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 의 Apache Iceberg용 참조 아키텍처 AWS
<a name="reference-architectures"></a>

이 섹션에서는 배치 수집 및 배치와 스트리밍 데이터 수집을 결합하는 데이터 레이크와 같은 다양한 사용 사례에 모범 사례를 적용하는 방법의 예를 제공합니다.

## 야간 배치 수집
<a name="batch-ingestion"></a>

이 가상 사용 사례의 경우 Iceberg 테이블이 매일 밤 신용 카드 거래를 수집한다고 가정해 보겠습니다. 각 배치에는 증분 업데이트만 포함되며, 대상 테이블에 병합해야 합니다. 매년 여러 번 전체 기록 데이터가 수신됩니다. 이 시나리오에서는 다음 아키텍처 및 구성을 사용하는 것이 좋습니다.

참고: 이것은 예시일 뿐입니다. 최적의 구성은 데이터 및 요구 사항에 따라 달라집니다.

![\[Data flow diagram showing raw storage to Amazon EMR and AWS Glue ETL, then to AWS Glue Data Catalog and data lake.\]](http://docs.aws.amazon.com/ko_kr/prescriptive-guidance/latest/apache-iceberg-on-aws/images/nightly-batch-ingestion.png)


권장 사항:
+ 파일 크기: 128MB, Apache Spark 태스크는 128MB 청크로 데이터를 처리하기 때문입니다.
+ 쓰기 유형: copy-on-write. 이 가이드의 앞부분에서 설명한 대로이 접근 방식은 데이터가 읽기 최적화 방식으로 작성되도록 하는 데 도움이 됩니다.
+ 파티션 변수: year/month/day. 가상 사용 사례에서는 최근 데이터를 가장 자주 쿼리하지만, 지난 2년간의 데이터에 대해 전체 테이블 스캔을 실행하는 경우가 있습니다. 파티셔닝의 목표는 사용 사례의 요구 사항에 따라 빠른 읽기 작업을 구동하는 것입니다.
+ 정렬 순서: 타임스탬프
+ 데이터 카탈로그: AWS Glue Data Catalog

## 배치 수집과 실시간에 가까운 수집을 결합한 데이터 레이크
<a name="batch-real-time-ingestion"></a>

계정 및 리전 간에 배치 및 스트리밍 데이터를 공유하는 Amazon S3의 데이터 레이크를 프로비저닝할 수 있습니다. 아키텍처 다이어그램 및 세부 정보는 AWS 블로그 게시물 [Build a transactional data lake using Apache Iceberg AWS Glue, and AWS Lake Formation Amazon Athena를 사용한 교차 계정 데이터 공유](https://aws.amazon.com/blogs/big-data/build-a-transactional-data-lake-using-apache-iceberg-aws-glue-and-cross-account-data-shares-using-aws-lake-formation-and-amazon-athena/)를 참조하세요.