최신 데이터 레이크

Apache Iceberg 소개

Apache Iceberg는 데이터베이스 또는 데이터 웨어하우스에서만 사용할 수 있었던 데이터 레이크 테이블의 기능을 제공하는 오픈 소스 테이블 형식입니다. 확장 및 성능을 위해 설계되었으며 수백 기가바이트가 넘는 테이블을 관리하는 데 적합합니다. Iceberg 테이블의 몇 가지 주요 기능은 다음과 같습니다.

삭제, 업데이트 및 병합. Iceberg는 데이터 레이크 테이블에 사용할 데이터 웨어하우징을 위한 표준 SQL 명령을 지원합니다.
빠른 스캔 계획 및 고급 필터링. Iceberg는 엔진에서 쿼리 계획 및 실행 속도를 높이는 데 사용할 수 있는 파티션 및 열 수준 통계와 같은 메타데이터를 저장합니다.
전체 스키마 진화. Iceberg는 부작용 없이 열 추가, 삭제, 업데이트 또는 이름 변경을 지원합니다.
파티션 진화. 데이터 볼륨 또는 쿼리 패턴이 변경되면 테이블의 파티션 레이아웃을 업데이트할 수 있습니다. Iceberg는 테이블이 분할된 열을 변경하거나, 복합 파티션에 열을 추가하거나, 복합 파티션에서 열을 제거할 수 있도록 지원합니다.
숨겨진 파티셔닝. 이 기능은 불필요한 파티션을 자동으로 읽는 것을 방지합니다. 따라서 사용자가 테이블의 파티셔닝 세부 정보를 이해하거나 쿼리에 추가 필터를 추가할 필요가 없습니다.
버전 롤백. 사용자는 트랜잭션 전 상태로 되돌려 문제를 신속하게 해결할 수 있습니다.
시간 이동. 사용자는 테이블의 특정 이전 버전을 쿼리할 수 있습니다.
직렬화 가능한 격리. 테이블 변경은 원자성이므로 독자는 부분 또는 커밋되지 않은 변경 사항을 볼 수 없습니다.
동시 라이터. Iceberg는 낙관적 동시성을 사용하여 여러 트랜잭션이 성공할 수 있도록 합니다. 충돌이 발생할 경우 작성자 중 한 명이 트랜잭션을 다시 시도해야 합니다.
파일 형식을 엽니다. Iceberg는 Apache Parquet, Apache Avro 및 Apache ORC를 비롯한 여러 오픈 소스 파일 형식을 지원합니다.

요약하면 Iceberg 형식을 사용하는 데이터 레이크는 트랜잭션 일관성, 속도, 규모 및 스키마 진화의 이점을 누릴 수 있습니다. 이러한 기능 및 기타 Iceberg 기능에 대한 자세한 내용은 Apache Iceberg 설명서를 참조하세요.

AWS Apache Iceberg에 대한 지원

Apache Iceberg는 Amazon EMR, Amazon Amazon Athena Redshift, AWS Glue및 Amazon SageMaker AWS 서비스 와 같은에서 지원됩니다. 다음 다이어그램은 Iceberg를 기반으로 하는 데이터 레이크의 간소화된 참조 아키텍처를 보여줍니다.

Apache Iceberg용 트랜잭션 데이터 레이크 아키텍처가 켜져 있습니다 AWS.

다음은 네이티브 Iceberg 통합을 AWS 서비스 제공합니다. 간접적으로 또는 Iceberg 라이브러리를 패키징하여 Iceberg와 상호 작용할 수 AWS 서비스 있는 추가 기능이 있습니다.

Amazon S3는 내구성, 가용성, 확장성, 보안, 규정 준수 및 감사 기능으로 인해 데이터 레이크를 빌드하기에 가장 적합합니다. Iceberg는 Amazon S3와 원활하게 상호 작용하도록 설계 및 구축되었으며 Iceberg 설명서에 나열된 많은 Amazon S3 기능을 지원합니다. 또한 Amazon S3 Tables는 Iceberg 지원이 내장된 첫 번째 클라우드 객체 스토어를 제공하고 대규모 테이블 형식 데이터 저장을 간소화합니다. Iceberg에 대한 S3 Tables 지원을 사용하면 인기 AWS 있는 타사 쿼리 엔진을 사용하여 테이블 형식 데이터를 쉽게 쿼리할 수 있습니다.
차세대 SageMaker는 Amazon S3 데이터 레이크, Amazon Redshift 데이터 웨어하우스, 타사 및 페더레이션 데이터 소스 전반의 데이터 액세스를 통합하는 오픈 레이크하우스 아키텍처를 기반으로 구축되었습니다. 이러한 기능을 사용하면 단일 데이터 사본에서 강력한 분석 및 AI/ML 애플리케이션을 구축할 수 있습니다. 레이크하우스는 Iceberg와 완벽하게 호환되므로 Iceberg REST API를 사용하여 현재 위치에 있는 데이터에 액세스하고 쿼리할 수 있는 유연성이 있습니다.
Amazon EMR은 Apache Spark, Flink, Trino 및 Hive와 같은 오픈 소스 프레임워크를 사용하여 페타바이트 규모의 데이터 처리, 대화형 분석 및 기계 학습을 위한 빅 데이터 솔루션입니다. Amazon EMR은 사용자 지정 Amazon Elastic Compute Cloud(Amazon EC2) 클러스터, Amazon Elastic Kubernetes Service(Amazon EKS), AWS Outposts또는 Amazon EMR Serverless에서 실행할 수 있습니다.
Amazon Athena는 오픈 소스 프레임워크를 기반으로 구축된 서버리스 대화형 분석 서비스입니다. 오픈 테이블 및 파일 형식을 지원하며 페타바이트 단위의 데이터를 분석하는 간단하고 유연한 방법을 제공합니다. Athena는 Iceberg에 대한 읽기, 시간 이동, 쓰기 및 DDL 쿼리를 기본적으로 지원하고 Iceberg 메타스토어 AWS Glue Data Catalog 에를 사용합니다.
Amazon Redshift는 클러스터 기반 및 서버리스 배포 옵션을 모두 지원하는 페타바이트 규모의 클라우드 데이터 웨어하우스입니다. Amazon Redshift Spectrum은에 등록 AWS Glue Data Catalog 되고 Amazon S3에 저장된 외부 테이블을 쿼리할 수 있습니다. Redshift Spectrum은 Iceberg 스토리지 형식도 지원합니다.
AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 더 쉽게 검색, 준비, 이동 및 통합할 수 있는 서버리스 데이터 통합 서비스입니다. Iceberg와 완전히 통합됩니다. 특히 AWS Glue 작업을 사용하여 Iceberg 테이블에서 읽기 및 쓰기 작업을 수행하고, AWS Glue Data Catalog (Hive 메타스토어 호환)를 통해 테이블을 관리하고, AWS Glue 크롤러를 사용하여 테이블을 자동으로 검색 및 등록하고, Data Quality 기능을 통해 Iceberg 테이블의 AWS Glue 데이터 품질을 평가할 수 있습니다. AWS Glue Data Catalog 또한는 열 통계 수집, Iceberg 테이블의 각 열에 대한 고유 값(NDVs) 수 계산 및 업데이트, 자동 테이블 최적화(압축, 스냅샷 보존, 분리된 파일 삭제)를 지원합니다.는 AWS 서비스 및 타사 애플리케이션 목록에서 Iceberg 테이블로의 제로 ETL 통합 AWS Glue 도 지원합니다.
Amazon Data Firehose는 Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Amazon OpenSearch Serverless, Splunk, Apache Iceberg 테이블과 같은 대상과 Datadog, Dynatrace, LogicMonitor, MongoDB, New Relic, Coralogix, Elastic 등 지원되는 타사 서비스 공급자가 소유한 모든 사용자 지정 HTTP 또는 HTTP 엔드포인트에 실시간 스트리밍 데이터를 제공하기 위한 완전 관리형 서비스입니다. Firehose를 사용하면 애플리케이션을 작성하거나 리소스를 관리할 필요가 없습니다. 데이터 생산자가 데이터를 Firehose로 보내도록 구성하면 지정한 대상으로 데이터를 자동 전송합니다. 전송 전에 데이터를 변환하도록 Firehose를 구성할 수도 있습니다.
Amazon Managed Service for Apache Flink는 Apache Flink 애플리케이션을 사용하여 스트리밍 데이터를 처리할 수 있는 완전 관리형 Amazon 서비스입니다. Iceberg 테이블에서 읽고 쓸 수 있으며 실시간 데이터 처리 및 분석을 지원합니다.
Amazon SageMaker AI는 Iceberg 형식을 사용하여 Amazon SageMaker AI 특성 저장소에 특성 세트를 저장할 수 있도록 지원합니다.
AWS Lake Formation는 Athena 또는 Amazon Redshift에서 사용하는 Iceberg 테이블을 포함하여 데이터에 액세스할 수 있는 거칠고 세분화된 액세스 제어 권한을 제공합니다. Iceberg 테이블의 권한 지원에 대한 자세한 내용은 Lake Formation 설명서를 참조하세요.

AWS 에는 Iceberg를 지원하는 다양한 서비스가 있지만 이러한 모든 서비스를 다루는 것은이 가이드의 범위를 벗어납니다. 다음 섹션에서는 Amazon EMR 및 Athena SQL의 Spark(배치 및 구조화된 스트리밍) AWS Glue에 대해 설명합니다. 다음 섹션에서는 Athena SQL의 Iceberg 지원을 간략하게 살펴봅니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

소개

Athena SQL에서 Iceberg 테이블 시작하기

최신 데이터 레이크

최신 데이터 레이크의 고급 사용 사례

Apache Iceberg 소개

AWS Apache Iceberg에 대한 지원