

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Hudi
<a name="emr-hudi"></a>

[Apache Hudi](https://hudi.apache.org/)는 증분 데이터 처리 및 데이터 파이프라인 개발을 간소화하는 데 사용되는 오픈 소스 데이터 관리 프레임워크로, 레코드 수준의 삽입, 업데이트, 업서트 및 삭제 기능을 제공합니다. *Upsert*란 레코드가 존재하지 않은 경우 기존 데이터 세트에 레코드를 삽입하거나 레코드가 존재하는 경우 레코드를 업데이트할 수 있는 기능입니다. Hudi를 이용해 Amazon S3에 데이터를 배치하는 방법을 효율적으로 관리함으로써 거의 실시간으로 데이터를 수집하고 업데이트할 수 있습니다. Hudi에서는 데이터 세트에 수행된 작업의 메타데이터가 세심히 관리되므로 작업의 원자성 및 일관성을 보장하는 데 도움이 됩니다.

Hudi는 [Apache Spark](https://aws.amazon.com/emr/features/spark/), [Apache Hive](https://hive.apache.org/), [Presto](https://prestodb.github.io)와 통합됩니다. Amazon EMR 릴리스 버전 6.1.0 이상에서 Hudi는 [Trino(PrestoSQL)](https://trino.io/)와도 통합되었습니다.

Amazon EMR 릴리스 버전 5.28.0 이상에서 EMR은 Spark, Hive, Presto 또는 Flink가 설치된 경우 기본적으로 Hudi 구성 요소를 설치합니다. Spark 또는 Hudi DeltaStreamer 유틸리티를 사용하여 Hudi 데이터 세트를 만들거나 업데이트할 수 있습니다. Hive, Spark, Presto 또는 Flink를 사용하여 Hudi 데이터 세트를 대화식으로 쿼리하거나 *증분 풀*을 사용하여 데이터 처리 파이프라인을 구축할 수 있습니다. 증분 풀이란 두 작업 간에 변경된 데이터만 가져올 수 있는 기능입니다.

이러한 기능을 통해 다음 사용 사례에서 Hudi를 사용하여 유리합니다.
+ 특정 데이터 삽입 및 업데이트 이벤트가 필요한 센서 및 기타 사물 인터넷(IoT) 디바이스에서의 스트리밍 데이터 작업.
+ 사용자가 데이터 사용 방법에 대한 동의를 잊어버릴 수 있거나 수정할 수도 있는 애플리케이션의 데이터 프라이버시 규정 준수.
+ 시간이 지남에 따라 데이터 세트에 변경 사항을 적용할 수 있는 [데이터 캡처 변경(CDC) 시스템](https://en.wikipedia.org/wiki/Change_data_capture) 구현.

다음 테이블에는 Amazon EMR이 Hudi를 통해 설치하는 구성 요소와 함께 Amazon EMR 7.x 시리즈의 최신 릴리스에 포함된 Hudi의 버전이 나열되어 있습니다.

이 릴리스에서 Hudi와 함께 설치된 구성 요소의 버전은 [릴리스 7.13.0 구성 요소 버전을 참조하세요](emr-7130-release.md).


**emr-7.13.0용 Hudi 버전 정보**  

| Amazon EMR 릴리스 레이블 | Hudi 버전 | Hudi와 함께 설치된 구성 요소 | 
| --- | --- | --- | 
| emr-7.13.0 | Hudi 1.0.2-amzn-2 | Not available. | 

다음 테이블에는 Amazon EMR이 Hudi를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 Hudi의 버전이 나열되어 있습니다.

이 릴리스에서 Hudi와 함께 설치된 구성 요소의 버전은 [릴리스 6.15.0 구성 요소 버전](emr-6150-release.md)을 참조하세요.


**emr-6.15.0용 Hudi 버전 정보**  

| Amazon EMR 릴리스 레이블 | Hudi 버전 | Hudi와 함께 설치된 구성 요소 | 
| --- | --- | --- | 
| emr-6.15.0 | Hudi 0.14.0-amzn-0 | Not available. | 

**참고**  
Amazon EMR 릴리스 6.8.0은 [Apache Hudi](https://hudi.apache.org/) 0.11.1과 함께 제공되지만, Amazon EMR 6.8.0 클러스터는 Hudi 0.12.0의 오픈 소스 `hudi-spark3.3-bundle_2.12`와도 호환됩니다.

다음 테이블에는 Amazon EMR이 Hudi를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 Hudi의 버전이 나열되어 있습니다.

이 릴리스에서 Hudi와 함께 설치된 구성 요소의 버전은 [릴리스 5.36.2 구성 요소 버전](emr-5362-release.md)을 참조하세요.


**emr-5.36.2용 Hudi 버전 정보**  

| Amazon EMR 릴리스 레이블 | Hudi 버전 | Hudi와 함께 설치된 구성 요소 | 
| --- | --- | --- | 
| emr-5.36.2 | Hudi 0.10.1-amzn-1 | Not available. | 

**Topics**
+ [Hudi 작동 방식](emr-hudi-how-it-works.md)
+ [Amazon EMR 기반 Hudi 사용 시 고려 사항 및 제한 사항](emr-hudi-considerations.md)
+ [Hudi가 설치된 클러스터 생성](emr-hudi-installation-and-configuration.md)
+ [Hudi 데이터 세트 작업](emr-hudi-work-with-dataset.md)
+ [Hudi CLI 사용](emr-hudi-cli.md)
+ [Hudi 릴리스 기록](Hudi-release-history.md)