

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Hudi
<a name="emr-hudi"></a>

[Apache Hudi](https://hudi.apache.org/) は、増分データの処理とデータパイプラインの開発をシンプルにするオープンソースのデータ管理フレームワークであり、レコードレベルの挿入、更新、アップサート、および削除機能を備えています。*アップサート*とは、既存のデータセットにレコードがまだ存在しない場合は挿入し、存在する場合は更新する機能を指します。Amazon S3 でのデータのレイアウト方法を効率的に管理することで、Hudi はデータをほぼリアルタイムで取り込んで更新できます。Hudi は、データセットに対して実行されたアクションのメタデータをきめ細かく管理して、アクションをアトミックで整合性のある状態にするのに役立ちます。

Hudi は、[Apache Spark](https://aws.amazon.com/emr/features/spark/)、[Apache Hive](https://hive.apache.org/)、および [Presto](https://prestodb.github.io) と統合されています。Amazon EMR リリースバージョン 6.1.0 以降では、Hudi は [Trino (PrestoSQL)](https://trino.io/) とも統合されています。

Amazon EMR リリースバージョン 5.28.0 以降では、EMR は Spark、Hive、Presto、または Flink のインストール時に、デフォルトで Hudi コンポーネントをインストールします。Spark または Hudi DeltaStreamer ユーティリティを使用して、Hudi データセットを作成したり更新したりできます。Hive、Spark、Presto、または Flink を使用して、Hudi データセットをインタラクティブにクエリしたり、増分プルを使用してデータ処理パイプラインを構築したりできます。増分プルとは、2 つのアクション間で変更されたデータのみをプルする機能を指します。

これらの機能により、Hudi は以下のユースケースに適しています。
+ 特定のデータの挿入および更新イベントを必要とするセンサーやその他のモノのインターネット (IoT) デバイスからのストリーミングデータを操作する。
+ ユーザーがデータの使用方法について忘れたり、同意を変更したりする可能性のあるアプリケーションのデータプライバシー規制を遵守する。
+ 経時的に変更をデータセットに適用できる[変更データキャプチャ (CDC) システム](https://en.wikipedia.org/wiki/Change_data_capture)を実装する。

次の表は、Amazon EMR 7.x シリーズの最新リリースに含まれている Hudi のバージョンと、Amazon EMR で Hudi と共にインストールされるコンポーネントを示しています。

このリリースで Hudi と共にインストールされるコンポーネントのバージョンについては、[「リリース 7.13.0 コンポーネントバージョン](emr-7130-release.md)」を参照してください。


**emr-7.13.0 の Hudi バージョン情報**  

| Amazon EMR リリースラベル | Hudi バージョン | Hudi でインストールされるコンポーネント | 
| --- | --- | --- | 
| emr-7.13.0 | Hudi 1.0.2-amzn-2 | Not available. | 

次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Hudi のバージョンと、Amazon EMR で Hudi と共にインストールされるコンポーネントを示しています。

このリリースで Hudi と共にインストールされるコンポーネントのバージョンについては、「[リリース 6.15.0 コンポーネントバージョン](emr-6150-release.md)」を参照してください。


**emr-6.15.0 の Hudi バージョン情報**  

| Amazon EMR リリースラベル | Hudi バージョン | Hudi でインストールされるコンポーネント | 
| --- | --- | --- | 
| emr-6.15.0 | Hudi 0.14.0-amzn-0 | Not available. | 

**注記**  
Amazon EMR リリース 6.8.0 には [Apache Hudi](https://hudi.apache.org/) 0.11.1 が付属していますが、Amazon EMR 6.8.0 クラスターは Hudi 0.12.0 のオープンソース `hudi-spark3.3-bundle_2.12` とも互換性があります。

次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Hudi のバージョンと、Amazon EMR で Hudi と共にインストールされるコンポーネントを示しています。

このリリースで Hudi と共にインストールされるコンポーネントのバージョンについては、「[Release 5.36.2 Component Versions](emr-5362-release.md)」を参照してください。


**emr-5.36.2 の Hudi バージョン情報**  

| Amazon EMR リリースラベル | Hudi バージョン | Hudi でインストールされるコンポーネント | 
| --- | --- | --- | 
| emr-5.36.2 | Hudi 0.10.1-amzn-1 | Not available. | 

**Topics**
+ [Hudi の仕組み](emr-hudi-how-it-works.md)
+ [Amazon EMR で Hudi を使用する際の考慮事項と制限事項](emr-hudi-considerations.md)
+ [Hudi がインストールされたクラスターを作成する](emr-hudi-installation-and-configuration.md)
+ [Hudi データセットを操作する](emr-hudi-work-with-dataset.md)
+ [Hudi CLI を使用する](emr-hudi-cli.md)
+ [Hudi リリース履歴](Hudi-release-history.md)