Von emr-spark-8.0.0 unterstützter Lebenszyklus emr-spark-8.0.0 Anwendungsversionen Versionshinweise zu emr-spark-8.0.0 Standard-Java-Versionen von emr-spark-8.0.0 Komponentenversionen von emr-spark-8.0.0 Klassifizierungen der Konfiguration von emr-spark-8.0.0 EMR Spark 8.0.0 Änderungsprotokoll

AWS Laufzeit für Apache Spark (emr-spark-8.0.0)

Von emr-spark-8.0.0 unterstützter Lebenszyklus

In der folgenden Tabelle werden die unterstützten Lebenszyklusdaten für Amazon EMR Spark 8.0.0 beschrieben.

Unterstützungsphase	Date
Erstes Veröffentlichungsdatum	21. Mai 2026
Standard-Support bis	20. Mai 2027
Ende der Lebensdauer	20. Mai 2027

emr-spark-8.0.0 Anwendungsversionen

Diese Version umfasst die folgenden Anwendungen: AmazonCloudWatchAgent,,,, Delta Hudi, Icebergund. JupyterEnterpriseGateway Livy Spark

In der folgenden Tabelle sind die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen der vorherigen drei Amazon-EMR-Versionen (sofern zutreffend) aufgeführt.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Themen:

Informationen zur Anwendungsversion
	emr-spark-8.0.0
AWS SDK for Java	2.41.32
Python	3,11, 3,12, 3,13
Scala	2.13,16
AmazonCloudWatchAgent	1,300032,2-amzn-0
Delta	4.0.0-amzn-1-spark
Hudi	1.1.0-amzn-0
Iceberg	1.10.1-amzn-0
JupyterEnterpriseGateway	2.6.0
Livy	0.8.0-inkubieren
Spark	4.0.2-amzn-0

Versionshinweise zu emr-spark-8.0.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 8.0.0 (emr-spark-8.0.0) mit Apache Spark 4.0.2.

Was ist neu

Apache Spark 4.0.2 GA — Erste produktionsreife Version von Spark 4.x auf Amazon EMR, basierend auf dem Branch-4.0-Upstream-Zweig mit Amazon-Patches für Leistung, Sicherheit und Integration.
Verfügbar für EC2, EKS und Serverless — Diese Version ist in allen Amazon EMR-Bereitstellungsmodi verfügbar.
ANSI SQL-Modus — Striktere Typbehandlung ist standardmäßig aktiviert, wodurch die SQL-Korrektheit und Kompatibilität mit dem Standard-SQL-Verhalten verbessert wird.
SQL PIPE-Syntax — Neuer |>-Operator für die Verkettung von SQL-Operationen in einer besser lesbaren Syntax im Pipeline-Stil.
VARIANT-Datentyp — Systemeigene Unterstützung für halbstrukturierte JSON-Daten, die den VARIANT-Typ verwenden, wodurch Schema-on-Read-Muster ohne explizite Schemadefinitionen ermöglicht werden.
SQL Scripting — Steuern Sie Flow-Anweisungen (IF/ELSE, WHILE, FOR) und Sitzungsvariablen für die prozedurale SQL-Logik in Spark SQL.
User-Defined SQL-Funktionen — Definieren Sie UDFs direkt in SQL, ohne dass Code erforderlich ist Scala/Python .
Streaming-Verbesserungen — Arbitrary Stateful Processing API v2 mit WithState Transformationsoperator und verbessertem RocksDB-Changelog-Checkpointing.
Apache Iceberg v3-Unterstützung — Support des VARIANT-Datentyps in Iceberg-Tabellen, Integration von AWS S3-Tabellen.
Native Fine-grained Zugriffskontrolle und vollständiger Tabellenzugriff (FTA) — Unterstützt für Iceberg-, Delta Lake- und Hive-Tabellen.
JDK 17 Standard — Amazon Corretto 17 ist die Standard-JVM; JDK 21 ist ebenfalls verfügbar.
Scala 2.13 — Spark 4.x stellt die Unterstützung für Scala 2.12 ein; alle Komponenten wurden gegen Scala 2.13 entwickelt.

Änderungen und Verbesserungen seit emr-spark-8.0-preview

Livy und als interaktive Workload-Anwendungen verfügbar JupyterEnterpriseGateway
Dauerhafte Unterstützung für Spark History Server

Bekannte Probleme und Einschränkungen

Der sichere Spark Connect-Endpunkt mit nativer FGAC-Unterstützung ist in dieser Version nicht verfügbar.
Native Fine-grained Access Control (FGAC) ist für Iceberg-Tabellen, die den VARIANT-Datentyp verwenden, nicht verfügbar.
Glue Managed Compaction wird in Iceberg-Tabellen, die den VARIANT-Datentyp verwenden, nicht unterstützt.
AL2023 liefert Python 3.9 als System-Python aus, wird aber für PySpark Workloads nicht unterstützt.
Die maximale Anzahl von Schritten, die Sie pro Anfrage hinzufügen oder stornieren können, beträgt 100.

Migration von EMR 7.x (Spark 3.5.x)

Ziehen Sie bei der Migration von EMR 7.x (das Spark 3.5.x verwendet) auf emr-spark-8.0.0 (Spark 4.0.2) in Betracht, den Spark Upgrade Agent als Unterstützung bei der Migration zu verwenden.

Der ANSI-SQL-Modus ist Standard — Strengere Typenzwänge; implizite Umwandlungen, die zuvor erfolgreich waren, können nun zu Fehlern führen.
Scala 2.13 — Alle Spark 4.x-Builds verwenden Scala 2.13. Kompilieren Sie alle benutzerdefinierten JAR-Dateien, die für Scala 2.12 erstellt wurden, neu.
JDK 17-Standard — Spark 4.0.2 unterstützt nur JDK 17 (Standard) und JDK 21.
Python 3.11-Standard — Python 3.9 ist nicht mehr der Standard für PySpark. Überprüfen Sie die Kompatibilität Ihrer Python-Abhängigkeiten.
AWS SDK — AWS SDK v1 für Java wurde entfernt. Aktualisieren Sie Ihre Anwendung so, dass sie AWS SDK v2 für ein verbessertes Leistungs- und Ressourcenmanagement verwendet.
S3-Zugriff — EMRFS ist nicht mehr verfügbar. Verwenden Sie den S3A-Connector, um persistente Daten in Amazon S3 zu schreiben, um eine bessere Leistung und Kompatibilität zu erzielen. Weitere Informationen finden Sie unter Optimieren der Amazon EMR-Laufzeit für Apache Spark mit EMR S3A. emr-s3-select wurde entfernt.
Interaktive Entwicklung — JupyterHub, Zeppelin und Hue sind nicht mehr enthalten. Verwenden Sie für die interaktive Spark-Entwicklung EMR Studio, Livy und. JupyterEnterpriseGateway
Separater Release-Train — Das Release-Label lautet emr-spark-8.0.0, nicht emr-8.0.0. Diese Version konzentriert sich auf Spark. Verwenden Sie für Flink, HBase, Phoenix, Tez, Trino, Presto EMR 7.x und warten Sie auf die future Multi-Engine-Version emr-8.0.0. Pig und Oozie sind nicht enthalten.
VPC-Endpunkt für EMR-Cluster-Kommunikation — Ab Amazon EMR Spark 8.0.0 stellt Amazon EMR on EC2 einen VPC-Endpunkt in Ihrer VPC für die Kommunikation zwischen dem Amazon EMR-Service und Ihrem Cluster bereit, wenn Sie einen Cluster in privaten Subnetzen starten. Ihre Amazon EMR-Servicerolle muss ec2:ModifyVpcEndpoint Berechtigungen enthaltenec2:CreateVpcEndpoint, oder Sie müssen den VPC-Endpunkt manuell erstellen, bevor Sie einen Cluster starten. Der VPC-Endpunktdienstname lautetaws.api.region.emr-service-cell01.
- Diese Änderung aktualisiert die Netzwerkanforderungen für private Subnetzcluster:
  - Die Sicherheitsgruppe für den Dienstzugriff (ElasticMapReduce-ServiceAccess), die an den VPC-Endpunkt angehängt ist, benötigt eingehendes HTTPS (Port 443) aus dem VPC-CIDR-Block. Die in Amazon EMR-Versionen 7.x und früheren Versionen verwendeten 8443/9443 Portregeln sind nicht mehr erforderlich.
  - Die primäre Instance-Sicherheitsgruppe benötigt ausgehendes HTTPS (Port 443) zur Sicherheitsgruppe für den Servicezugriff.
  - Die Regeln für eingehenden Port 8443 und ausgehenden Port 9443, die in Amazon EMR-Versionen 7.x und früheren Versionen verwendet wurden, sind für primäre Sicherheitsgruppen, Core- und Task-Instance-Sicherheitsgruppen nicht mehr erforderlich.
  - Wenn Sie eine benutzerdefinierte VPC-Endpunktrichtlinie für Amazon S3 verwenden, müssen Sie den Zugriff auf die Amazon EMR-Instance-Daten-Buckets (aws157-instance-data-0-prod-regionund) zulassen. aws157-instance-data-1-prod-region
- Weitere Informationen finden Sie unter EMR-Cluster in privaten Subnetzen, EMR-managed Amazon-Sicherheitsgruppen und Amazon S3-Mindestrichtlinie für private Subnetze im Amazon EMR Management Guide.

Standard-Java-Versionen von emr-spark-8.0.0

Anwendung	Java-/Amazon-Corretto-Version (Standard ist fett gedruckt)
Spark	17, 21
Livy	17, 11, 8
Hadoop	17, 11, 8

Komponentenversionen von emr-spark-8.0.0

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und -Features installiert. Diese beginnen in der Regel mit oder. emr aws Big-data Anwendungspakete in der neuesten Amazon EMR-Version sind normalerweise die neueste Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon-EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente	Version	Description
adot-java-agent	1.31.0	Ein Java-Agent, der Metriken von Anwendungs-Daemons sammelt.
delta	4.0.0-amzn-1-Spark	Delta Lake ist ein offenes Tabellenformat für riesige analytische Datensätze
emr-amazon-cloudwatch-agent	1,300032,2-amzn-0	Eine Anwendung, die interne Metriken auf Systemebene und benutzerdefinierte Anwendungsmetriken von Amazon-EC2-Instances erfasst.
emr-ddb	6.0.0	Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies	3.22.0-Funke	Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-notebook-env	1.18.0	Conda Env für EMR-Notebooks, das Jupyter Enterprise Gateway enthält
emr-s3-dist-cp	2,44,0	Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
hadoop-client	3.4.2-amzn-1	Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode	3.4.2-amzn-1	HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library	3.4.2-amzn-1	HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode	3.4.2-amzn-1	HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-zkfc	3.4.2-amzn-1	ZKFC-Dienst zum Verfolgen von Namenodes für den HA-Modus.
hadoop-hdfs-journalnode	3.4.2-amzn-1	HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server	3.4.2-amzn-1	HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server	3.4.2-amzn-1	Kryptografischer Schlüsselverwaltungsserver, der auf der Hadoop-API basiert. KeyProvider
hadoop-mapred	3.4.2-amzn-1	MapReduce Execution Engine-Bibliotheken zum Ausführen einer Anwendung. MapReduce
hadoop-yarn-nodemanager	3.4.2-amzn-1	YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager	3.4.2-amzn-1	YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server	3.4.2-amzn-1	Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hudi	1.1.0-amzn-0	Inkrementelles Verarbeitungs-Framework zur Versorgung der Datenpipline mit geringer Latenz und hoher Effizienz.
hudi-spark	1.1.0-amzn-0	Bündel-Bibliothek zum Ausführen von Spark mit Hudi.
iceberg	1.10.1-amzn-0	Apache Iceberg ist ein offenes Tabellenformat für sehr große analytische Datensätze
livy-server	0.8.0-inkubieren	REST-Schnittstelle für die Interaktion mit Apache Spark
nginx	1.12.1	nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mariadb-server	5.5.68+	MariaDB-Datenbankserver.
nvidia-cuda	12,5,0	Nvidia-Treiber und Cuda-Toolkit
r	4.3.2	The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client	4.0.2-amzn-0	Spark-Befehlszeilen-Clients.
spark-history-server	4.0.2-amzn-0	Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn	4.0.2-amzn-0	In-memory Ausführungs-Engine für YARN.
spark-yarn-slave	4.0.2-amzn-0	Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
spark-rapids	26.02.2-amzn-0	Nvidia-Spark-RAPIDS-Plugin, das Apache Spark mit GPUs beschleunigt.
zookeeper-server	3.9.3-amzn-6	Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client	3.9.3-amzn-6	ZooKeeper Befehlszeilen-Client.

Klassifizierungen der Konfiguration von emr-spark-8.0.0

Mithilfe von Konfigurationsklassifizierungen können Sie Anwendungen anpassen. Diese entsprechen häufig einer XML-Konfigurationsdatei für die Anwendung, z. B. hive-site.xml Weitere Informationen finden Sie unter Anwendungen konfigurieren.

Aktionen zur Neukonfiguration treten auf, wenn Sie eine Konfiguration für Instance-Gruppen in einem laufenden Cluster angeben. Amazon EMR initiiert nur Rekonfigurationsaktionen für die Klassifizierungen, die Sie ändern. Weitere Informationen finden Sie unter Eine Instance-Gruppe in einem laufenden Cluster neu konfigurieren.

emr-spark-8.0.0-Klassifizierungen
Klassifizierungen	Description	Aktionen zur Neukonfiguration
capacity-scheduler	Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.	Restarts the ResourceManager service.
container-executor	Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN.	Not available.
container-log4j	Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.	Not available.
core-site	Ändert die Werte in der core-site.xml-Datei in Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
docker-conf	Ändern Sie die Docker-bezogenen Einstellungen.	Not available.
hadoop-env	Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
hadoop-log4j	Ändert die Werte in der log4j.properties-Datei in Hadoop.	Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
hadoop-ssl-server	Ändert die SSL-Server-Konfiguration in Hadoop.	Not available.
hadoop-ssl-client	Ändert die SSL-Client-Konfiguration in Hadoop.	Not available.
hdfs-encryption-zones	Konfiguriert die HDFS-Verschlüsselungszonen.	This classification should not be reconfigured.
hdfs-env	Ändert die Werte in der HDFS-Umgebung.	Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.
hdfs-site	Ändert die Werte in der hdfs-site.xml-Datei in HDFS.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.
httpfs-env	Ändert die Werte in der HTTPFS-Umgebung.	Restarts Hadoop Httpfs service.
httpfs-site	Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.	Restarts Hadoop Httpfs service.
hadoop-kms-acls	Ändert die Werte in der kms-acls.xml-Datei in Hadoop.	Not available.
hadoop-kms-env	Ändert die Werte in der KMS-Umgebung in Hadoop.	Restarts Hadoop-KMS service.
hadoop-kms-java-home	Das KMS-Java-Home von Hadoop ändern	Not available.
hadoop-kms-log4j	Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.	Not available.
hadoop-kms-site	Ändert die Werte in der kms-site.xml-Datei in Hadoop.	Restarts Hadoop-KMS.
hudi-env	Ändern der Werte in der Hudi-Umgebung.	Not available.
hudi-defaults	Ändern Sie die Werte in der hudi-defaults.conf-Datei in Hudi.	Not available.
iceberg-defaults	Ändern Sie die Werte in der iceberg-defaults.conf-Datei von Iceberg.	Not available.
delta-defaults	Ändern Sie die Werte in der delta-defaults.conf-Datei von Delta.	Not available.
jupyter-notebook-conf	Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.	Not available.
jupyter-s3-conf	Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.	Not available.
jupyter-sparkmagic-conf	Ändert die Werte in der config.json-Datei in Sparkmagic.	Not available.
livy-conf	Ändert die Werte in der livy.conf-Datei von Livy.	Restarts Livy Server.
livy-env	Ändert die Werte in der Livy-Umgebung.	Restarts Livy Server.
livy-log4j2	Ändern Sie die log4j2.properties-Einstellungen für Livy.	Restarts Livy Server.
mapred-env	Ändern Sie die Werte in der Anwendungsumgebung. MapReduce	Restarts Hadoop MapReduce-HistoryServer.
mapred-site	Ändern Sie die Werte in der Datei mapred-site.xml der MapReduce Anwendung.	Restarts Hadoop MapReduce-HistoryServer.
spark	EMR-curated Amazon-Einstellungen für Apache Spark.	This property modifies spark-defaults. See actions there.
spark-defaults	Ändert die Werte in der spark-defaults.conf-Datei in Spark.	Restarts Spark history server and Spark thrift server.
spark-env	Ändert die Werte in der Spark-Umgebung.	Restarts Spark history server and Spark thrift server.
spark-hive-site	Ändert die Werte in der hive-site.xml-Datei in Spark.	Not available.
spark-log4j2	Ändern Sie die Werte in der log4j2.properties-Datei in Spark.	Restarts Spark history server and Spark thrift server.
spark-metrics	Ändert die Werte in der metrics.properties-Datei in Spark.	Restarts Spark history server and Spark thrift server.
yarn-env	Ändert die Werte in der YARN-Umgebung.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
yarn-site	Ändert die Werte in der yarn-site.xml-Datei in YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.
zookeeper-config	Ändern Sie die Werte in ZooKeeper der Datei zoo.cfg.	Restarts Zookeeper server.
zookeeper-logback	Ändern Sie die Werte in ZooKeeper der Datei logback.xml.	Restarts Zookeeper server.
cloudwatch-logs	Konfigurieren Sie die CloudWatch Log-Integration für EMR-Clusterknoten.	Not available.
emr-metrics	Ändern Sie die EMR-Metrikeinstellungen für diesen Knoten.	Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 Änderungsprotokoll

Änderungsprotokoll für EMR Spark 8.0.0
Date	Veranstaltung	Description
2026-05-21	Veröffentlichung von Dokumenten	Erste Veröffentlichung der Versionshinweise zu Amazon EMR Spark 8.0.0 (emr-spark-8.0.0)

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Anwendungsversionen in AWS Laufzeit für Apache Spark-Versionen

Amazon-EMR-7.x-Versionen