View a markdown version of this page

AWS Laufzeit für Apache Spark (emr-spark-8.0.0) - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Laufzeit für Apache Spark (emr-spark-8.0.0)

Von emr-spark-8.0.0 unterstützter Lebenszyklus

In der folgenden Tabelle werden die unterstützten Lebenszyklusdaten für Amazon EMR Spark 8.0.0 beschrieben.

Unterstützungsphase Date
Erstes Veröffentlichungsdatum 21. Mai 2026
Standard-Support bis 20. Mai 2027
Ende der Lebensdauer 20. Mai 2027

emr-spark-8.0.0 Anwendungsversionen

Diese Version umfasst die folgenden Anwendungen: AmazonCloudWatchAgent,,,, DeltaHudi, Icebergund. JupyterEnterpriseGatewayLivySpark

In der folgenden Tabelle sind die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen der vorherigen drei Amazon-EMR-Versionen (sofern zutreffend) aufgeführt.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Themen:

Informationen zur Anwendungsversion
emr-spark-8.0.0
AWS SDK for Java 2.41.32
Python 3,11, 3,12, 3,13
Scala 2.13,16
AmazonCloudWatchAgent1,300032,2-amzn-0
Delta4.0.0-amzn-1-spark
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0-inkubieren
Spark4.0.2-amzn-0

Versionshinweise zu emr-spark-8.0.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 8.0.0 (emr-spark-8.0.0) mit Apache Spark 4.0.2.

Was ist neu

  • Apache Spark 4.0.2 GA — Erste produktionsreife Version von Spark 4.x auf Amazon EMR, basierend auf dem Branch-4.0-Upstream-Zweig mit Amazon-Patches für Leistung, Sicherheit und Integration.

  • Verfügbar für EC2, EKS und Serverless — Diese Version ist in allen Amazon EMR-Bereitstellungsmodi verfügbar.

  • ANSI SQL-Modus — Striktere Typbehandlung ist standardmäßig aktiviert, wodurch die SQL-Korrektheit und Kompatibilität mit dem Standard-SQL-Verhalten verbessert wird.

  • SQL PIPE-Syntax — Neuer |>-Operator zur Verkettung von SQL-Operationen in einer besser lesbaren Syntax im Pipeline-Stil.

  • VARIANT-Datentyp — Systemeigene Unterstützung für halbstrukturierte JSON-Daten, die den VARIANT-Typ verwenden, wodurch Schema-on-Read-Muster ohne explizite Schemadefinitionen ermöglicht werden.

  • SQL Scripting — Steuern Sie Flow-Anweisungen (IF/ELSE, WHILE, FOR) und Sitzungsvariablen für die prozedurale SQL-Logik in Spark SQL.

  • User-Defined SQL-Funktionen — Definieren Sie UDFs direkt in SQL, ohne dass Code erforderlich ist Scala/Python .

  • Streaming-Verbesserungen — Arbitrary Stateful Processing API v2 mit WithState Transformationsoperator und verbessertem RocksDB-Changelog-Checkpointing.

  • Apache Iceberg v3-Unterstützung — Support des VARIANT-Datentyps in Iceberg-Tabellen, Integration von AWS S3-Tabellen.

  • Native Fine-grained Zugriffskontrolle und vollständiger Tabellenzugriff (FTA) — Unterstützt für Iceberg-, Delta Lake- und Hive-Tabellen.

  • JDK 17 Standard — Amazon Corretto 17 ist die Standard-JVM; JDK 21 ist ebenfalls verfügbar.

  • Scala 2.13 — Spark 4.x stellt die Unterstützung für Scala 2.12 ein; alle Komponenten wurden gegen Scala 2.13 entwickelt.

Änderungen und Verbesserungen seit emr-spark-8.0-preview

  • Livy und als interaktive Workload-Anwendungen verfügbar JupyterEnterpriseGateway

  • Dauerhafte Unterstützung für Spark History Server

Bekannte Probleme und Einschränkungen

  • Der sichere Spark Connect-Endpunkt mit nativer FGAC-Unterstützung ist in dieser Version nicht verfügbar.

  • AL2023 liefert Python 3.9 als System-Python aus, wird aber für PySpark Workloads nicht unterstützt.

Migration von EMR 7.x (Spark 3.5.x)

Ziehen Sie bei der Migration von EMR 7.x (das Spark 3.5.x verwendet) auf emr-spark-8.0.0 (Spark 4.0.2) in Betracht, den Spark Upgrade Agent als Unterstützung bei der Migration zu verwenden.

  • Der ANSI-SQL-Modus ist Standard — Strengere Typenzwänge; implizite Umwandlungen, die zuvor erfolgreich waren, können nun zu Fehlern führen.

  • Scala 2.13 — Alle Spark 4.x-Builds verwenden Scala 2.13. Kompilieren Sie alle benutzerdefinierten JAR-Dateien, die für Scala 2.12 erstellt wurden, neu.

  • JDK 17-Standard — Spark 4.0.2 unterstützt nur JDK 17 (Standard) und JDK 21.

  • Python 3.11-Standard — Python 3.9 ist nicht mehr der Standard für PySpark. Überprüfen Sie die Kompatibilität Ihrer Python-Abhängigkeiten.

  • AWS SDK — AWS SDK v1 für Java wurde entfernt. Aktualisieren Sie Ihre Anwendung so, dass sie AWS SDK v2 für ein verbessertes Leistungs- und Ressourcenmanagement verwendet.

  • S3-Zugriff — EMRFS ist nicht mehr verfügbar. Verwenden Sie den S3A-Connector, um persistente Daten in Amazon S3 zu schreiben, um eine bessere Leistung und Kompatibilität zu erzielen. Siehe Optimieren der Amazon EMR-Laufzeit für Apache Spark mit EMR S3A. emr-s3-select wurde entfernt.

  • Interaktive Entwicklung — JupyterHub, Zeppelin und Hue sind nicht mehr enthalten. Verwenden Sie für die interaktive Spark-Entwicklung EMR Studio, Livy und. JupyterEnterpriseGateway

  • Separater Release-Train — Das Release-Label lautet emr-spark-8.0.0, nicht emr-8.0.0. Diese Version konzentriert sich auf Spark. Verwenden Sie für Flink, HBase, Phoenix, Tez, Trino, Presto EMR 7.x und warten Sie auf die future Multi-Engine-Version emr-8.0.0. Pig und Oozie sind nicht enthalten.

  • VPC-Endpunkt für EMR-Cluster-Kommunikation — Ab Amazon EMR Spark 8.0.0 stellt Amazon EMR on EC2 einen VPC-Endpunkt in Ihrer VPC für die Kommunikation zwischen dem Amazon EMR-Service und Ihrem Cluster bereit, wenn Sie einen Cluster in privaten Subnetzen starten. Ihre Amazon EMR-Servicerolle muss ec2:ModifyVpcEndpoint Berechtigungen enthaltenec2:CreateVpcEndpoint, oder Sie müssen den VPC-Endpunkt manuell erstellen, bevor Sie einen Cluster starten. Der VPC-Endpunktdienstname lautetaws.api.region.emr-service-cell01.

    • Diese Änderung aktualisiert die Netzwerkanforderungen für private Subnetzcluster:

      • Die Sicherheitsgruppe für den Dienstzugriff (ElasticMapReduce-ServiceAccess), die an den VPC-Endpunkt angehängt ist, benötigt eingehendes HTTPS (Port 443) aus dem VPC-CIDR-Block. Die in Amazon EMR-Versionen 7.x und früheren Versionen verwendeten 8443/9443 Portregeln sind nicht mehr erforderlich.

      • Die primäre Instance-Sicherheitsgruppe benötigt ausgehendes HTTPS (Port 443) zur Sicherheitsgruppe für den Servicezugriff.

      • Die Regeln für eingehenden Port 8443 und ausgehenden Port 9443, die in Amazon EMR-Versionen 7.x und früheren Versionen verwendet wurden, sind für primäre Sicherheitsgruppen, Core- und Task-Instance-Sicherheitsgruppen nicht mehr erforderlich.

      • Wenn Sie eine benutzerdefinierte VPC-Endpunktrichtlinie für Amazon S3 verwenden, müssen Sie den Zugriff auf die Amazon EMR-Instance-Daten-Buckets (aws157-instance-data-0-prod-regionund) zulassen. aws157-instance-data-1-prod-region

    • Weitere Informationen finden Sie unter EMR-Cluster in privaten Subnetzen, EMR-managed Amazon-Sicherheitsgruppen und Amazon S3-Mindestrichtlinie für private Subnetze im Amazon EMR Management Guide.

Standard-Java-Versionen von emr-spark-8.0.0

AnwendungJava-/Amazon-Corretto-Version (Standard ist fett gedruckt)
Spark17, 21
Livy17, 11, 8
Hadoop17, 11, 8

Komponentenversionen von emr-spark-8.0.0

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und -Features installiert. Diese beginnen normalerweise mit oder. emr aws Big-data Anwendungspakete in der neuesten Amazon EMR-Version sind normalerweise die neueste Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon-EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Description
adot-java-agent1.31.0Ein Java-Agent, der Metriken von Anwendungs-Daemons sammelt.
delta4.0.0-amzn-1-SparkDelta Lake ist ein offenes Tabellenformat für riesige analytische Datensätze
emr-amazon-cloudwatch-agent1,300032,2-amzn-0Eine Anwendung, die interne Metriken auf Systemebene und benutzerdefinierte Anwendungsmetriken von Amazon-EC2-Instances erfasst.
emr-ddb6.0.0Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies3.22.0-FunkePraktische Bibliotheken für das Hadoop-Ökosystem.
emr-notebook-env1.18.0Conda Env für EMR-Notebooks, das Jupyter Enterprise Gateway enthält
emr-s3-dist-cp2,44,0Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
hadoop-client3.4.2-amzn-1Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode3.4.2-amzn-1HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library3.4.2-amzn-1HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode3.4.2-amzn-1HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-zkfc3.4.2-amzn-1ZKFC-Dienst zum Verfolgen von Namenodes für den HA-Modus.
hadoop-hdfs-journalnode3.4.2-amzn-1HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server3.4.2-amzn-1HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server3.4.2-amzn-1Kryptografischer Schlüsselverwaltungsserver, der auf der Hadoop-API basiert. KeyProvider
hadoop-mapred3.4.2-amzn-1MapReduce Execution Engine-Bibliotheken zum Ausführen einer Anwendung. MapReduce
hadoop-yarn-nodemanager3.4.2-amzn-1YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager3.4.2-amzn-1YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server3.4.2-amzn-1Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hudi1.1.0-amzn-0Inkrementelles Verarbeitungs-Framework zur Versorgung der Datenpipline mit geringer Latenz und hoher Effizienz.
hudi-spark1.1.0-amzn-0Bündel-Bibliothek zum Ausführen von Spark mit Hudi.
iceberg1.10.1-amzn-0Apache Iceberg ist ein offenes Tabellenformat für sehr große analytische Datensätze
livy-server0.8.0-inkubierenREST-Schnittstelle für die Interaktion mit Apache Spark
nginx1.12.1nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mariadb-server5.5.68+MariaDB-Datenbankserver.
nvidia-cuda12,5,0Nvidia-Treiber und Cuda-Toolkit
r4.3.2The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client4.0.2-amzn-0Spark-Befehlszeilen-Clients.
spark-history-server4.0.2-amzn-0Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn4.0.2-amzn-0In-memory Ausführungs-Engine für YARN.
spark-yarn-slave4.0.2-amzn-0Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
spark-rapids26.02.2-amzn-0Nvidia-Spark-RAPIDS-Plugin, das Apache Spark mit GPUs beschleunigt.
zookeeper-server3.9.3-amzn-6Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client3.9.3-amzn-6ZooKeeper Befehlszeilen-Client.

Klassifizierungen der Konfiguration von emr-spark-8.0.0

Mithilfe von Konfigurationsklassifizierungen können Sie Anwendungen anpassen. Diese entsprechen häufig einer XML-Konfigurationsdatei für die Anwendung, z. B. hive-site.xml Weitere Informationen finden Sie unter Anwendungen konfigurieren.

Aktionen zur Neukonfiguration treten auf, wenn Sie eine Konfiguration für Instance-Gruppen in einem laufenden Cluster angeben. Amazon EMR initiiert nur Rekonfigurationsaktionen für die Klassifizierungen, die Sie ändern. Weitere Informationen finden Sie unter Eine Instance-Gruppe in einem laufenden Cluster neu konfigurieren.

emr-spark-8.0.0-Klassifizierungen
Klassifizierungen Description Aktionen zur Neukonfiguration

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

Restarts the ResourceManager service.

container-executor

Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN.

Not available.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

Not available.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Ändern Sie die Docker-bezogenen Einstellungen.

Not available.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

Not available.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

Not available.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

This classification should not be reconfigured.

hdfs-env

Ändert die Werte in der HDFS-Umgebung.

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

Restarts Hadoop Httpfs service.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

Not available.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Das KMS-Java-Home von Hadoop ändern

Not available.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

Not available.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

Restarts Hadoop-KMS.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

Not available.

hudi-defaults

Ändern Sie die Werte in der hudi-defaults.conf-Datei in Hudi.

Not available.

iceberg-defaults

Ändern Sie die Werte in der iceberg-defaults.conf-Datei von Iceberg.

Not available.

delta-defaults

Ändern Sie die Werte in der delta-defaults.conf-Datei von Delta.

Not available.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

Not available.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

Not available.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

Not available.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

Restarts Livy Server.

livy-env

Ändert die Werte in der Livy-Umgebung.

Restarts Livy Server.

livy-log4j2

Ändern Sie die log4j2.properties-Einstellungen für Livy.

Restarts Livy Server.

mapred-env

Ändern Sie Werte in der Anwendungsumgebung. MapReduce

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

Ändern Sie die Werte in der Datei mapred-site.xml der MapReduce Anwendung.

Restarts Hadoop MapReduce-HistoryServer.

spark

EMR-curated Amazon-Einstellungen für Apache Spark.

This property modifies spark-defaults. See actions there.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

Restarts Spark history server and Spark thrift server.

spark-env

Ändert die Werte in der Spark-Umgebung.

Restarts Spark history server and Spark thrift server.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

Not available.

spark-log4j2

Ändern Sie die Werte in der log4j2.properties-Datei in Spark.

Restarts Spark history server and Spark thrift server.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

Restarts Spark history server and Spark thrift server.

yarn-env

Ändert die Werte in der YARN-Umgebung.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

Ändern Sie die Werte in ZooKeeper der Datei zoo.cfg.

Restarts Zookeeper server.

zookeeper-logback

Ändern Sie die Werte in ZooKeeper der Datei logback.xml.

Restarts Zookeeper server.

cloudwatch-logs

Konfigurieren Sie die CloudWatch Log-Integration für EMR-Clusterknoten.

Not available.

emr-metrics

Ändern Sie die EMR-Metrikeinstellungen für diesen Knoten.

Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 Änderungsprotokoll

Änderungsprotokoll für EMR Spark 8.0.0
DateVeranstaltungDescription
2026-05-21Veröffentlichung von DokumentenErste Veröffentlichung der Versionshinweise zu Amazon EMR Spark 8.0.0 (emr-spark-8.0.0)