

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Hudi
<a name="emr-hudi"></a>

[Apache Hudi](https://hudi.apache.org/) 是一個開放原始碼資料管理架構，提供記錄層級的插入、更新、upsert 和刪除功能，可用於簡化增量資料處理和資料管道開發。*Upsert* 是指將記錄插入現有資料集 (如果記錄不存在)，或者更新記錄 (如果記錄已存在) 的能力。透過有效地管理資料在 Amazon S3 中的配置方式，Hudi 可讓資料以近乎即時的方式被擷取和更新。Hudi 仔細維護在資料集上執行的動作的中繼資料，以協助確保動作是不可部分完成且一致的。

Hudi 與 [Apache Spark](https://aws.amazon.com/emr/features/spark/)、[Apache Hive](https://hive.apache.org/) 和 [Presto](https://prestodb.github.io) 整合。在 Amazon EMR 發行版本 6.1.0 及更新版本中，Hudi 也與 [Trino (PrestoSQL)](https://trino.io/) 整合。

使用 Amazon EMR 發行版本 5.28.0 及更新版本時，如果已安裝 Spark、Hive、Presto 或 Flink，依預設，EMR 會安裝 Hudi 元件。您可以使用 Spark 或 Hudi DeltaStreamer 公用程式來建立或更新 Hudi 資料集。您可以使用 Hive、Spark、Presto 或 Flink 以互動的方式查詢 Hudi 資料集，或使用*增量提取*建置資料處理管道。增量提取是指僅提取在兩個動作之間變更的資料的能力。

這些功能使 Hudi 適用於下列使用案例：
+ 處理來自感應器和其他物聯網 (IoT) 裝置的串流資料，這些資料需要特定的資料插入和更新事件。
+ 在應用程式中遵守資料隱私權法規，使用者可能會選擇忘記或修改其對於資料使用方式的同意。
+ 實作[變更資料擷取 (CDC) 系統](https://en.wikipedia.org/wiki/Change_data_capture)，可讓您在一段時間內將變更套用至資料集。

以下表格列出了 Amazon EMR 7.x 系列最新版本中包含的 Hudi 版本，以及 Amazon EMR 隨 Hudi 一起安裝的元件。

如需此版本中與 Hudi 一起安裝的元件版本，請參閱[發行版本 7.13.0 元件版本。](emr-7130-release.md)


**emr-7.13.0 的 Hudi 版本資訊**  

| Amazon EMR 發行標籤 | Hudi 版本 | 與 Hudi 一起搭配安裝的元件 | 
| --- | --- | --- | 
| emr-7.13.0 | Hudi 1.0.2-amzn-2 | Not available. | 

下表列出 Amazon EMR 6.x 系列最新版本中包含的 Hudi 版本，以及 Amazon EMR 隨 Hudi 一起安裝的元件。

如需此版本中與 Hudi 一起搭配安裝的元件版本，請參閱[發行版本 6.15.0 元件版本](emr-6150-release.md)。


**emr-6.15.0 的 Hudi 版本資訊**  

| Amazon EMR 發行標籤 | Hudi 版本 | 與 Hudi 一起搭配安裝的元件 | 
| --- | --- | --- | 
| emr-6.15.0 | Hudi 0.14.0-amzn-0 | Not available. | 

**注意**  
Amazon EMR 6.8.0 版隨附 [Apache Hudi](https://hudi.apache.org/) 0.11.1；但是，Amazon EMR 6.8.0 叢集也與 Hudi 0.12.0 中的開放原始碼 `hudi-spark3.3-bundle_2.12` 相容。

下表列出 Amazon EMR 5.x 系列最新版本中包含的 Hudi 版本，以及 Amazon EMR 隨 Hudi 一起安裝的元件。

如需此版本中與 Hudi 一起安裝的元件版本，請參閱[發行版本 5.36.2 元件版本。](emr-5362-release.md)


**emr-5.36.2 的 Hudi 版本資訊**  

| Amazon EMR 發行標籤 | Hudi 版本 | 與 Hudi 一起搭配安裝的元件 | 
| --- | --- | --- | 
| emr-5.36.2 | Hudi 0.10.1-amzn-1 | Not available. | 

**Topics**
+ [Hudi 的運作方式](emr-hudi-how-it-works.md)
+ [在 Amazon EMR 上使用 Hudi 的考量與限制](emr-hudi-considerations.md)
+ [建立已安裝 Hudi 的叢集](emr-hudi-installation-and-configuration.md)
+ [使用 Hudi 資料集](emr-hudi-work-with-dataset.md)
+ [使用 Hudi CLI](emr-hudi-cli.md)
+ [Hudi 版本歷史記錄](Hudi-release-history.md)