View a markdown version of this page

AWS Apache Spark のランタイム (emr-spark-8.0.0) - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Apache Spark のランタイム (emr-spark-8.0.0)

emr-spark-8.0.0 でサポートされているライフサイクル

次の表は、Amazon EMR Spark 8.0.0 でサポートされているライフサイクルの日付を示しています。

サポートフェーズ 日付
初回リリース日 2026 年 5 月 21 日
標準サポートの終了日 2027 年 5 月 20 日
ライフサイクル終了 2027 年 5 月 20 日

emr-spark-8.0.0 アプリケーションバージョン

このリリースには、、AmazonCloudWatchAgent、、DeltaHudiIcebergJupyterEnterpriseGatewayLivy、および のアプリケーションが含まれていますSpark

以下の表は、Amazon EMR のこのリリースで利用可能なアプリケーションバージョンと、前の 3 つの Amazon EMR リリース (該当する場合) で利用可能なアプリケーションバージョンを示しています。

Amazon EMR の各リリースのアプリケーションバージョンの包括的な履歴については、以下のトピックを参照してください。

アプリケーションバージョン情報
emr-spark-8.0.0
AWS SDK for Java 2.41.32
Python 3.11、3.12、3.13
Scala 2.13.16
AmazonCloudWatchAgent1.300032.2-amzn-0
Delta4.0.0-amzn-1-spark
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0-incubating
Spark4.0.2-amzn-0

emr-spark-8.0.0 リリースノート

次のリリースノートには、Apache Spark 4.0.2 を搭載した Amazon EMR リリース 8.0.0 (emr-spark-8.0.0) に関する情報が含まれています。

最新情報

  • Apache Spark 4.0.2 GA — パフォーマンス、セキュリティ、統合のための Amazon パッチを備えた branch-4.0 アップストリームブランチに基づく、Amazon EMR での Spark 4.x の最初の本番環境対応リリース。

  • EC2、EKS、および Serverless で使用可能 — このリリースは、すべての Amazon EMR デプロイモードで使用できます。

  • ANSI SQL モード — デフォルトではより厳格な型処理が有効になっているため、SQL の正確性と標準の SQL 動作との互換性が向上します。

  • SQL PIPE 構文 — より読みやすいパイプラインスタイルの構文で SQL オペレーションを連鎖させるための新しい |> 演算子。

  • VARIANT データ型 — VARIANT 型を使用した半構造化 JSON データのネイティブサポートにより、明示的なschema-on-readパターンが可能になります。

  • SQL スクリプト — Spark SQL 内の手続き型 SQL ロジックのフローステートメント (IF/ELSE、WHILE、FOR) とセッション変数を制御します。

  • SQL ユーザー定義関数 — Scala/Python コードを必要とせずに、SQL で UDFsを直接定義します。

  • ストリーミングの機能強化 — transformWithState 演算子と強化された RocksDB 変更ログチェックポイントを備えた任意ステートフル処理 API v2。

  • Apache Iceberg v3 サポート — Iceberg テーブルでの VARIANT データ型サポート、 AWS S3 Tables 統合。

  • ネイティブのきめ細かなアクセスコントロールとフルテーブルアクセス (FTA) — Iceberg、Delta Lake、および Hive テーブルでサポートされています。

  • JDK 17 デフォルト — Amazon Corretto 17 がデフォルトの JVM です。JDK 21 も利用可能です。

  • Scala 2.13 — Spark 4.x は Scala 2.12 のサポートを終了します。すべてのコンポーネントは Scala 2.13 に対して構築されています。

emr-spark-8.0-preview 以降の変更と機能強化

  • インタラクティブなワークロードアプリケーションとして利用可能な Livy と JupyterEnterpriseGateway

  • 永続的な Spark History Server のサポート

既知の問題と制限

  • ネイティブ FGAC をサポートする Spark Connect セキュアエンドポイントは、このリリースでは利用できません。

  • AL2023 にはシステム Python として Python 3.9 が付属していますが、PySpark ワークロードではサポートされていません。

EMR 7.x (Spark 3.5.x) からの移行

EMR 7.x (Spark 3.5.x を使用) から emr-spark-8.0.0 (Spark 4.0.2) に移行する場合は、Spark アップグレードエージェントを使用して移行を支援することを検討してください。

  • ANSI SQL モードがデフォルト — より厳格な型強制。以前に成功した暗黙的なキャストがエラーをスローするようになりました。

  • Scala 2.13 — Spark 4.x のすべてのビルドで Scala 2.13 が使用されます。Scala 2.12 に対して構築されたカスタム JARs を再コンパイルします。

  • JDK 17 デフォルト — Spark 4.0.2 は JDK 17 (デフォルト) と JDK 21 のみをサポートしています。

  • Python 3.11 デフォルト — Python 3.9 は PySpark のデフォルトではなくなりました。Python 依存関係の互換性を検証します。

  • AWS SDK — AWS SDK v1 for Java が削除されました。 AWS SDK v2 を使用するようにアプリケーションを更新して、パフォーマンスとリソース管理を向上させます。

  • S3 アクセス — EMRFS は使用できなくなりました。パフォーマンスと互換性を向上させるために、S3A コネクタを使用して Amazon S3 に永続データを書き込みます。「EMR S3A を使用した Apache Spark の Amazon EMR ランタイムの最適化」を参照してください。emr-s3-select は削除されました。

  • インタラクティブ開発 — JupyterHub、Zeppelin、Hue は含まれなくなりました。インタラクティブな Spark 開発には、EMR Studio、Livy、JupyterEnterpriseGateway を使用します。

  • 個別のリリーストレーニング — リリースラベルは emr-spark-8.0.0 であり、emr-8.0.0 ではありません。このリリースでは、Spark に焦点を当てています。Flink、HBase、Phoenix、Tez、Trino、Presto の場合は、EMR 7.x を使用して、今後の emr-8.0.0 マルチエンジンリリースを待ちます。Pig と Oozie は含まれません。

  • EMR クラスター通信用の VPC エンドポイント — Amazon EMR Spark 8.0.0 以降、EC2 上の Amazon EMR は、プライベートサブネットでクラスターを起動するときに Amazon EMR サービスとクラスター間の通信用に VPC エンドポイントをプロビジョニングします。Amazon EMR サービスロールには ec2:CreateVpcEndpointおよび アクセスec2:ModifyVpcEndpoint許可を含めるか、クラスターを起動する前に VPC エンドポイントを手動で作成する必要があります。VPC エンドポイントサービス名は ですaws.api.region.emr-service-cell01

    • この変更により、プライベートサブネットクラスターのネットワーク要件が更新されます。

      • VPC エンドポイントにアタッチされたサービスアクセスセキュリティグループ (ElasticMapReduce-ServiceAccess) には、VPC CIDR ブロックからのインバウンド HTTPS (ポート 443) が必要です。Amazon EMR リリース 7.x 以前で使用されるポート 8443/9443 ルールは不要になりました。

      • プライマリインスタンスのセキュリティグループには、サービスアクセスセキュリティグループへのアウトバウンド HTTPS (ポート 443) が必要です。

      • Amazon EMR リリース 7.x 以前で使用されるインバウンドポート 8443 およびアウトバウンドポート 9443 ルールは、プライマリ、コア、およびタスクインスタンスのセキュリティグループでは不要になりました。

      • Amazon S3 にカスタム VPC エンドポイントポリシーを使用する場合は、Amazon EMR インスタンスデータバケット (aws157-instance-data-0-prod-region および ) へのアクセスを許可する必要がありますaws157-instance-data-1-prod-region

    • 詳細については、「Amazon EMR 管理ガイド」の「プライベートサブネットの EMR クラスター」、「Amazon EMR マネージドセキュリティグループ」、および「プライベートサブネットの最小 Amazon S3 ポリシー」を参照してください。

emr-spark-8.0.0 のデフォルト Java バージョン

アプリケーションJava/Amazon Corretto バージョン (デフォルトは太字)
Spark17、21
Livy17、11、8
Hadoop17、11、8

emr-spark-8.0.0 コンポーネントバージョン

このリリースで Amazon EMR がインストールするコンポーネントを以下に示します。そのうちいくつかは、ビッグデータアプリケーションパッケージの一部としてインストールされます。その他は Amazon EMR に固有であり、システムプロセスと機能に対してインストールされます。これらは通常、emr または aws で開始されます。通常、最新の Amazon EMR リリースのビッグデータアプリケーションパッケージは、コミュニティにある最新バージョンです。コミュニティリリースは、できるだけ早く Amazon EMR で入手可能になるようにしています。

Amazon EMR の一部のコンポーネントは、コミュニティバージョンとは異なります。これらのコンポーネントには、CommunityVersion-amzn-EmrVersion の形式のバージョンラベルがあります。EmrVersion は 0 から始まります。例えば、バージョン 2.2 の myapp-component というオープンソースコミュニティコンポーネントが、異なる Amazon EMR リリースに組み込むために 3 回変更された場合、そのリリースバージョンは 2.2-amzn-2 として表示されます。

コンポーネント バージョン 説明
adot-java-agent1.31.0アプリケーションデーモンからメトリクスを収集する Java エージェント。
delta4.0.0-amzn-1-sparkDelta Lake は、膨大な分析データセット用のオープンテーブル形式です。
emr-amazon-cloudwatch-agent1.300032.2-amzn-0Amazon EC2 インスタンスから内部システムレベルのメトリクスとカスタムアプリケーションメトリクスを収集するアプリケーション。
emr-ddb6.0.0Hadoop エコシステムアプリケーション用の Amazon DynamoDB コネクター。
emr-goodies3.22.0-sparkHadoop エコシステムに役立つ追加のライブラリ。
emr-notebook-env1.18.0Jupyter エンタープライズゲートウェイを含む emr ノートブック用 Conda env
emr-s3-dist-cp2.44.0Amazon S3 に最適化された分散コピーアプリケーション。
hadoop-client3.4.2-amzn-1'hdfs'、'hadoop'、'yarn' などの Hadoop コマンドラインクライアント。
hadoop-hdfs-datanode3.4.2-amzn-1ブロックを保存する HDFS ノードレベルのサービス。
hadoop-hdfs-library3.4.2-amzn-1HDFS コマンドラインクライアントとライブラリ
hadoop-hdfs-namenode3.4.2-amzn-1ファイル名を追跡し、場所をブロックする HDFS サービス。
hadoop-hdfs-zkfc3.4.2-amzn-1HA モードのネームノードを追跡するための ZKFC サービス。
hadoop-hdfs-journalnode3.4.2-amzn-1HA クラスター上の Hadoop ファイルシステムジャーナルを管理するための HDFS サービス。
hadoop-httpfs-server3.4.2-amzn-1HDFS オペレーションの HTTP エンドポイント。
hadoop-kms-server3.4.2-amzn-1Hadoop の KeyProvider API に基づく暗号キー管理サーバー。
hadoop-mapred3.4.2-amzn-1MapReduce アプリケーションを実行する MapReduce 実行エンジンライブラリ。
hadoop-yarn-nodemanager3.4.2-amzn-1個別のノードでコンテナを管理する YARN サービス。
hadoop-yarn-resourcemanager3.4.2-amzn-1クラスターリソースおよび分散アプリケーションを割り当て、管理する YARN サービス。
hadoop-yarn-timeline-server3.4.2-amzn-1YARN アプリケーションの現在の情報と履歴情報を取得するためのサービス。
hudi1.1.0-amzn-0データパイプラインを強化する低レイテンシーかつ高効率な増分処理フレームワーク。
hudi-spark1.1.0-amzn-0Spark を Hudi で実行するためのバンドルライブラリ。
iceberg1.10.1-amzn-0Apache Iceberg は、膨大な分析データセット用のオープンテーブル形式です。
livy-server0.8.0-incubatingApache Spark を操作するための REST インターフェイス
nginx1.12.1nginx [engine x] は HTTP およびリバースプロキシサーバー
mariadb-server5.5.68+MariaDB データベースサーバー。
nvidia-cuda12.5.0Nvidia ドライバーと Cuda ツールキット
r4.3.2統計的コンピューティング用 R プロジェクト
spark-client4.0.2-amzn-0Spark コマンドラインクライアント。
spark-history-server4.0.2-amzn-0完了した Spark アプリケーションの有効期間にログに記録されたイベントを表示するウェブ UI。
spark-on-yarn4.0.2-amzn-0YARN のメモリ内実行エンジン。
spark-yarn-slave4.0.2-amzn-0YARN スレーブで必要な Apache Spark ライブラリ。
spark-rapids26.02.2-amzn-0GPU で Apache Spark を高速化する Nvidia Spark RAPIDS プラグイン。
zookeeper-server3.9.3-amzn-6設定情報を維持し、名前を付け、分散化された同期を提供し、グループサービスを提供する一元化されたサービス。
zookeeper-client3.9.3-amzn-6ZooKeeper コマンドラインクライアント。

emr-spark-8.0.0 設定分類

設定分類を使用すると、アプリケーションをカスタマイズできます。これらは多くの場合、hive-site.xml などのアプリケーションの構成 XML ファイルに対応します。詳細については、「アプリケーションの設定」を参照してください。

再設定アクションは、実行中のクラスターのインスタンスグループの設定を指定すると発生します。Amazon EMR によって、変更した分類に対してのみ再設定アクションが開始されます。詳細については、「実行中のクラスター内のインスタンスグループの再設定」を参照してください。

emr-spark-8.0.0 分類
分類 説明 再設定アクション

capacity-scheduler

Hadoop の capacity-scheduler.xml ファイルの値を変更します。

Restarts the ResourceManager service.

container-executor

Hadoop YARN の container-executor.cfg ファイルの値を変更します。

Not available.

container-log4j

Hadoop YARN の container-log4j.properties ファイルの値を変更します。

Not available.

core-site

Hadoop の core-site.xml ファイルの値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Docker 関連の設定を変更します。

Not available.

hadoop-env

Hadoop のすべてのコンポーネントに対する Hadoop 環境の値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Hadoop の log4j.properties ファイルの値を変更します。

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Hadoop ssl のサーバー設定を変更します。

Not available.

hadoop-ssl-client

Hadoop ssl のクライアント設定を変更します。

Not available.

hdfs-encryption-zones

HDFS 暗号化ゾーンを設定します。

This classification should not be reconfigured.

hdfs-env

HDFS 環境の値を変更します。

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

HDFS の hdfs-site.xml の値を変更します。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

HTTPFS 環境の値を変更します。

Restarts Hadoop Httpfs service.

httpfs-site

Hadoop の httpfs-site.xml ファイルの値を変更します。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Hadoop の kms-acls.xml ファイルの値を変更します。

Not available.

hadoop-kms-env

Hadoop KMS 環境の値を変更します。

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Hadoop の KMS java ホームを変更します。

Not available.

hadoop-kms-log4j

Hadoop の kms-log4j.properties ファイルの値を変更します。

Not available.

hadoop-kms-site

Hadoop の kms-site.xml ファイルの値を変更します。

Restarts Hadoop-KMS.

hudi-env

Hudi 環境の値を変更します。

Not available.

hudi-defaults

Hudi の hudi-defaults.conf ファイルの値を変更します。

Not available.

iceberg-defaults

Iceberg の iceberg-defaults.conf ファイルの値を変更します。

Not available.

delta-defaults

Delta の delta-defaults.conf ファイルの値を変更します。

Not available.

jupyter-notebook-conf

Jupyter Notebook の jupyter_notebook_config.py ファイルの値を変更します。

Not available.

jupyter-s3-conf

Jupyter Notebook の S3 の永続性を設定します。

Not available.

jupyter-sparkmagic-conf

Sparkmagic の config.json ファイルの値を変更します。

Not available.

livy-conf

Livy の livy.conf ファイルの値を変更します。

Restarts Livy Server.

livy-env

Livy 環境の値を変更します。

Restarts Livy Server.

livy-log4j2

Livy の log4j2.properties の設定を変更します。

Restarts Livy Server.

mapred-env

MapReduce アプリケーションの環境の値を変更します。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

MapReduce アプリケーションの mapred-site.xml ファイルの値を変更します。

Restarts Hadoop MapReduce-HistoryServer.

spark

Apache Spark 用の Amazon EMR-curated 設定。

This property modifies spark-defaults. See actions there.

spark-defaults

Spark の spark-defaults.conf ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

spark-env

Spark 環境の値を変更します。

Restarts Spark history server and Spark thrift server.

spark-hive-site

Spark の hive-site.xml ファイルの値を変更します

Not available.

spark-log4j2

Spark の log4j2.properties ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

spark-metrics

Spark の metrics.properties ファイルの値を変更します。

Restarts Spark history server and Spark thrift server.

yarn-env

YARN 環境の値を変更します。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

YARN の yarn-site.xml ファイルの値を変更します。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

ZooKeeper の zoo.cfg ファイルの値を変更します。

Restarts Zookeeper server.

zookeeper-logback

ZooKeeper の logback.xml ファイルの値を変更します。

Restarts Zookeeper server.

cloudwatch-logs

EMR クラスターノードの CloudWatch Logs 統合を設定します。

Not available.

emr-metrics

このノードの emr メトリクス設定を変更します。

Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 変更ログ

EMR Spark 8.0.0 の変更ログ
日付[Event] (イベント)説明
2026-05-21ドキュメント公開Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) リリースノートが最初に公開されました