View a markdown version of this page

AWS Apache Spark의 런타임(emr-spark-8.0.0) - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Apache Spark의 런타임(emr-spark-8.0.0)

emr-spark-8.0.0 지원 수명 주기

다음 표에서는 Amazon EMR Spark 8.0.0에 지원되는 수명 주기 날짜를 설명합니다.

지원 단계 Date
초기 릴리스 날짜 2026년 5월 21일
표준 지원 종료 시점 2027년 5월 20일
수명 종료 2027년 5월 20일

emr-spark-8.0.0 애플리케이션 버전

이 릴리스에는 AmazonCloudWatchAgent, , Delta, Hudi, Iceberg, JupyterEnterpriseGateway및 애플리케이션이 포함되어 Livy있습니다Spark.

아래 테이블에는 이번 Amazon EMR 릴리스에서 사용할 수 있는 애플리케이션 버전과 이전 세 가지 Amazon EMR 릴리스(해당하는 경우)의 애플리케이션 버전이 나와 있습니다.

각 Amazon EMR 릴리스에서 애플리케이션 버전의 전체 기록은 다음 주제를 참조하세요.

애플리케이션 버전 정보
emr-spark-8.0.0
AWS Java용 SDK 2.41.32
Python 3.11, 3.12, 3.13
Scala 2.13.16
AmazonCloudWatchAgent1.300032.2-amzn-0
Delta4.0.0-amzn-1-spark
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0-incubating
Spark4.0.2-amzn-0

emr-spark-8.0.0 릴리스 정보

다음 릴리스 정보에는 Apache Spark 4.0.2가 탑재된 Amazon EMR 릴리스 8.0.0(emr-spark-8.0.0)에 대한 정보가 포함되어 있습니다.

새로운 기능

  • Apache Spark 4.0.2 GA - 성능, 보안 및 통합을 위한 Amazon 패치가 있는 브랜치 4.0 업스트림 브랜치를 기반으로 하는 Amazon EMR 기반 Spark 4.x의 최초 프로덕션 지원 릴리스입니다.

  • EC2, EKS 및 Serverless에서 사용 가능 -이 릴리스는 모든 Amazon EMR 배포 모드에서 사용할 수 있습니다.

  • ANSI SQL 모드 - 기본적으로 더 엄격한 유형 처리가 활성화되어 SQL 정확성과 표준 SQL 동작과의 호환성이 향상됩니다.

  • SQL PIPE 구문 - 더 읽기 쉬운 파이프라인 스타일 구문으로 SQL 작업을 연결하기 위한 새로운 |> 연산자입니다.

  • VARIANT 데이터 유형 - VARIANT 유형을 사용하여 반정형 JSON 데이터를 기본적으로 지원하므로 명시적 schema-on-read 패턴을 사용할 수 있습니다.

  • SQL 스크립팅 - Spark SQL 내의 절차적 SQL 로직에 대한 제어 흐름 문(IF/ELSE, WHILE, FOR) 및 세션 변수입니다.

  • SQL 사용자 정의 함수 - Scala/Python 코드 없이 SQL에서 직접 UDFs를 정의합니다.

  • 스트리밍 기능 향상 - transformWithState 연산자 및 향상된 RocksDB 변경 로그 체크포인트를 사용하는 임의 상태 저장 처리 API v2입니다.

  • Apache Iceberg v3 지원 - Iceberg 테이블, AWS S3 Tables 통합에서 VARIANT 데이터 유형 지원.

  • 기본 세분화된 액세스 제어 및 전체 테이블 액세스(FTA) - Iceberg, Delta Lake 및 Hive 테이블에 지원됩니다.

  • JDK 17 기본값 - Amazon Corretto 17이 기본 JVM이며 JDK 21도 사용할 수 있습니다.

  • Scala 2.13 - Spark 4.x는 Scala 2.12 지원을 중단합니다. 모든 구성 요소는 Scala 2.13을 기반으로 구축되었습니다.

emr-spark-8.0-preview 이후 변경 사항 및 개선 사항

  • 대화형 워크로드 애플리케이션으로 사용 가능한 Livy 및 JupyterEnterpriseGateway

  • 영구 Spark 기록 서버 지원

알려진 문제 및 제한

  • 기본 FGAC 지원이 포함된 Spark Connect 보안 엔드포인트는이 릴리스에서 사용할 수 없습니다.

  • AL2023은 Python 3.9를 시스템 Python으로 제공하지만 PySpark 워크로드에는 지원되지 않습니다.

EMR 7.x(Spark 3.5.x)에서 마이그레이션

EMR 7.x(Spark 3.5.x 사용)에서 emr-spark-8.0.0(Spark 4.0.2)으로 마이그레이션할 때는 Spark 업그레이드 에이전트를 사용하여 마이그레이션을 지원하는 것이 좋습니다.

  • ANSI SQL 모드는 기본값 - 더 엄격한 유형의 강제입니다. 이전에 성공한 암시적 캐스트는 이제 오류가 발생할 수 있습니다.

  • Scala 2.13 - 모든 Spark 4.x 빌드는 Scala 2.13을 사용합니다. Scala 2.12를 기반으로 구축된 사용자 지정 JARs 다시 컴파일합니다.

  • JDK 17 기본값 - Spark 4.0.2는 JDK 17(기본값) 및 JDK 21만 지원합니다.

  • Python 3.11 기본값 - Python 3.9는 더 이상 PySpark의 기본값이 아닙니다. Python 종속성의 호환성을 확인합니다.

  • AWS SDK - Java용 AWS SDK v1이 제거되었습니다. 성능 및 리소스 관리를 개선하기 위해 AWS SDK v2를 사용하도록 애플리케이션을 업데이트합니다.

  • S3 액세스 - EMRFS를 더 이상 사용할 수 없습니다. S3A 커넥터를 사용하여 Amazon S3에 영구 데이터를 기록하여 성능과 호환성을 높입니다. EMR S3A를 사용하여 Apache Spark용 Amazon EMR 런타임 최적화를 참조하세요. emr-s3-select가 제거되었습니다.

  • 대화형 개발 - JupyterHub, Zeppelin 및 Hue는 더 이상 포함되지 않습니다. 대화형 Spark 개발의 경우 EMR Studio, Livy 및 JupyterEnterpriseGateway를 사용합니다.

  • 별도의 릴리스 트레인 - 릴리스 레이블은 emr-8.0.0이 아닌 emr-spark-8.0.0입니다. 이 릴리스는 Spark에 중점을 둡니다. Flink, HBase, Phoenix, Tez, Trino, Presto의 경우 EMR 7.x를 사용하고 향후 emr-8.0.0 다중 엔진 릴리스를 기다립니다. Pig와 Oozie는 포함되지 않습니다.

  • EMR 클러스터 통신을 위한 VPC 엔드포인트 - Amazon EMR Spark 8.0.0부터 Amazon EMR on EC2는 프라이빗 서브넷에서 클러스터를 시작할 때 Amazon EMR 서비스와 클러스터 간의 통신을 위해 VPC에 VPC 엔드포인트를 프로비저닝합니다. Amazon EMR 서비스 역할에 ec2:CreateVpcEndpointec2:ModifyVpcEndpoint 권한이 포함되거나 클러스터를 시작하기 전에 VPC 엔드포인트를 수동으로 생성해야 합니다. VPC 엔드포인트 서비스 이름은 입니다aws.api.region.emr-service-cell01.

    • 이 변경 사항은 프라이빗 서브넷 클러스터의 네트워킹 요구 사항을 업데이트합니다.

      • VPC 엔드포인트에 연결된 서비스 액세스 보안 그룹(ElasticMapReduce-ServiceAccess)에는 VPC CIDR 블록의 인바운드 HTTPS(포트 443)가 필요합니다. Amazon EMR 릴리스 7.x 이하에서 사용되는 포트 8443/9443 규칙은 더 이상 필요하지 않습니다.

      • 기본 인스턴스 보안 그룹에는 서비스 액세스 보안 그룹에 대한 아웃바운드 HTTPS(포트 443)가 필요합니다.

      • Amazon EMR 릴리스 7.x 이하에 사용되는 인바운드 포트 8443 및 아웃바운드 포트 9443 규칙은 기본, 코어 및 태스크 인스턴스 보안 그룹에 더 이상 필요하지 않습니다.

      • Amazon S3에 대한 사용자 지정 VPC 엔드포인트 정책을 사용하는 경우 Amazon EMR 인스턴스 데이터 버킷(aws157-instance-data-0-prod-regionaws157-instance-data-1-prod-region)에 대한 액세스를 허용해야 합니다.

    • 자세한 내용은 Amazon EMR 관리 안내서의 프라이빗 서브넷의 EMR 클러스터, Amazon EMR 관리형 보안 그룹프라이빗 서브넷에 대한 최소 Amazon S3 정책을 참조하세요.

emr-spark-8.0.0 기본 Java 버전

애플리케이션Java 및 Amazon Corretto 버전(기본값은 굵은체로 표시)
Spark17, 21
Livy17, 11, 8
Hadoop17, 11, 8

emr-spark-8.0.0 구성 요소 버전

이 릴리스를 통해 Amazon EMR이 설치하는 구성 요소는 다음과 같습니다. 일부는 빅 데이터 애플리케이션 패키지의 일부로 설치됩니다. 나머지는 Amazon EMR에 고유하며 시스템 프로세스 및 기능을 위해 설치됩니다. 이는 일반적으로 emr 또는 aws로 시작됩니다. 최근 Amazon EMR 릴리스의 빅 데이터 애플리케이션 패키지는 일반적으로 커뮤니티에서 발견된 최신 버전입니다. 가능한 한 빨리 Amazon EMR에서 커뮤니티 릴리스를 제공합니다.

Amazon EMR의 일부 구성 요소는 커뮤니티 버전과 다릅니다. 이러한 구성 요소에는 CommunityVersion-amzn-EmrVersion 양식의 버전 레이블이 있습니다. EmrVersion은 0에서 시작합니다. 예를 들어, 버전 2.2의 myapp-component라는 오픈 소스 커뮤니티 구성 요소가 다른 Amazon EMR 릴리스에 포함되도록 세 번 수정된 경우 해당 릴리스 버전은 2.2-amzn-2로 나열됩니다.

구성 요소 버전 설명
adot-java-agent1.31.0애플리케이션 대몬(daemon)에서 지표를 수집하는 Java 에이전트입니다.
delta4.0.0-amzn-1-sparkDelta Lake는 방대한 분석 데이터 세트를 위한 오픈 테이블 형식입니다.
emr-amazon-cloudwatch-agent1.300032.2-amzn-0Amazon EC2 인스턴스에서 내부 시스템 수준 지표와 사용자 지정 애플리케이션 지표를 수집하는 애플리케이션입니다.
emr-ddb6.0.0하둡 에코시스템 애플리케이션용 Amazon DynamoDB 커넥터
emr-goodies3.22.0-spark편리한 하둡 에코시스템용 추가 라이브러리
emr-notebook-env1.18.0Jupyter Enterprise Gateway가 포함된 EMR 노트북용 Conda 환경
emr-s3-dist-cp2.44.0Amazon S3용으로 최적화된 분사 복사 애플리케이션.
hadoop-client3.4.2-amzn-1'hdfs', 'hadoop', 'yarn' 등과 같은 하둡 명령줄 클라이언트
hadoop-hdfs-datanode3.4.2-amzn-1블록을 저장하는 HDFS 노드 수준 서비스
hadoop-hdfs-library3.4.2-amzn-1HDFS 명령줄 클라이언트 및 라이브러리
hadoop-hdfs-namenode3.4.2-amzn-1파일 이름 및 블록 위치를 추적하는 HDFS 서비스
hadoop-hdfs-zkfc3.4.2-amzn-1HA 모드의 네임노드를 추적하기 위한 ZKFC 서비스입니다.
hadoop-hdfs-journalnode3.4.2-amzn-1HA 클러스터에서 하둡 파일 시스템 저널을 관리하기 위한 HDFS 서비스
hadoop-httpfs-server3.4.2-amzn-1HDFS 작업에 대한 HTTP 엔드포인트
hadoop-kms-server3.4.2-amzn-1하둡의 KeyProvider API를 기반으로 하는 암호화 키 관리 서버
hadoop-mapred3.4.2-amzn-1MapReduce 애플리케이션을 실행하는 MapReduce 실행 엔진 라이브러리
hadoop-yarn-nodemanager3.4.2-amzn-1개별 노드의 컨테이너를 관리하는 YARN 서비스
hadoop-yarn-resourcemanager3.4.2-amzn-1클러스터 리소스 및 분산 애플리케이션을 할당 및 관리하는 YARN 서비스
hadoop-yarn-timeline-server3.4.2-amzn-1YARN 애플리케이션의 현재 및 기록 정보를 가져오는 서비스
hudi1.1.0-amzn-0짧은 지연 시간 및 높은 효율성으로 데이터 파이프라인을 구동하는 증분 처리 프레임워크.
hudi-spark1.1.0-amzn-0Hudi와 함께 Spark를 실행하기 위한 번들 라이브러리.
iceberg1.10.1-amzn-0Apache Iceberg는 방대한 분석 데이터 세트를 위한 오픈 테이블 형식입니다.
livy-server0.8.0-incubatingApache Spark와 상호작용하기 위한 REST 인터페이스
nginx1.12.1HTTP인 nginx [engine x] 및 역방향 프록시 서버
mariadb-server5.5.68 이상MariaDB 데이터베이스 서버.
nvidia-cuda12.5.0Nvidia 드라이버와 Cuda 도구 키트
r4.3.2통계 컴퓨팅용 R 프로젝트
spark-client4.0.2-amzn-0Spark 명령줄 클라이언트.
spark-history-server4.0.2-amzn-0완료된 Spark 애플리케이션의 수명에 대해 기록된 이벤트를 조회하는 웹 UI.
spark-on-yarn4.0.2-amzn-0YARN용 인 메모리 실행 엔진.
spark-yarn-slave4.0.2-amzn-0YARN 슬레이브에서 필요한 Apache Spark 라이브러리.
spark-rapids26.02.2-amzn-0GPU로 Apache Spark를 가속화하는 Nvidia Spark RAPIDS 플러그인.
zookeeper-server3.9.3-amzn-6구성 정보 유지 관리, 이름 지정, 분산 동기화 제공 및 그룹 서비스 제공을 위한 중앙 집중식 서비스.
zookeeper-client3.9.3-amzn-6ZooKeeper 명령줄 클라이언트.

emr-spark-8.0.0 구성 분류

구성 분류를 사용하면 애플리케이션을 사용자 지정할 수 있습니다. 이는 종종 hive-site.xml과 같이 애플리케이션의 구성 XML 파일에 해당합니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.

재구성 작업은 실행 중인 클러스터의 인스턴스 그룹에 대한 구성을 지정할 때 수행됩니다. Amazon EMR은 사용자가 수정한 분류에 대한 재구성 작업만 시작합니다. 자세한 내용은 실행 중인 클러스터에서 인스턴스 그룹 재구성 단원을 참조하십시오.

emr-spark-8.0.0 분류
분류 설명 재구성 작업

capacity-scheduler

Hadoop capacity-scheduler.xml 파일에서 값을 변경합니다.

Restarts the ResourceManager service.

container-executor

Hadoop YARN container-executor.cfg 파일에서 값을 변경합니다.

Not available.

container-log4j

Hadoop YARN container-log4j.properties 파일에서 값을 변경합니다.

Not available.

core-site

Hadoop core-site.xml 파일에서 값을 변경합니다.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Docker 관련 설정을 변경합니다.

Not available.

hadoop-env

모든 Hadoop 구성 요소에 대한 Hadoop 환경에서 값을 변경합니다.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Hadoop log4j.properties 파일에서 값을 변경합니다.

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

hadoop ssl 서버 구성을 변경합니다.

Not available.

hadoop-ssl-client

hadoop ssl 클라이언트 구성을 변경합니다.

Not available.

hdfs-encryption-zones

HDFS 암호화 영역을 구성합니다.

This classification should not be reconfigured.

hdfs-env

HDFS 환경에서 값을 변경합니다.

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

HDFS hdfs-site.xml에서 값을 변경합니다.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

HTTPFS 환경에서 값을 변경합니다.

Restarts Hadoop Httpfs service.

httpfs-site

Hadoop httpfs-site.xml 파일에서 값을 변경합니다.

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Hadoop kms-acls.xml 파일에서 값을 변경합니다.

Not available.

hadoop-kms-env

Hadoop KMS 환경에서 값을 변경합니다.

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Hadoop의 KMS java 홈 변경

Not available.

hadoop-kms-log4j

Hadoop kms-log4j.properties 파일에서 값을 변경합니다.

Not available.

hadoop-kms-site

Hadoop kms-site.xml 파일에서 값을 변경합니다.

Restarts Hadoop-KMS.

hudi-env

Hudi 환경에서 값을 변경합니다.

Not available.

hudi-defaults

Hudi hudi-defaults.conf 파일에서 값을 변경합니다.

Not available.

iceberg-defaults

Iceberg iceberg-defaults.conf 파일에서 값을 변경합니다.

Not available.

delta-defaults

Delta delta-defaults.conf 파일에서 값을 변경합니다.

Not available.

jupyter-notebook-conf

Jupyter Notebook jupyter_notebook_config.py 파일에서 값을 변경합니다.

Not available.

jupyter-s3-conf

Jupyter Notebook S3 지속성 구성

Not available.

jupyter-sparkmagic-conf

Sparkmagic config.json 파일에서 값을 변경합니다.

Not available.

livy-conf

Livy livy.conf 파일에서 값을 변경합니다.

Restarts Livy Server.

livy-env

Livy 환경에서 값을 변경합니다.

Restarts Livy Server.

livy-log4j2

Livy log4j2.properties 설정을 변경합니다.

Restarts Livy Server.

mapred-env

MapReduce 애플리케이션 환경에서 값을 변경합니다.

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

MapReduce 애플리케이션 mapred-site.xml 파일에서 값을 변경합니다.

Restarts Hadoop MapReduce-HistoryServer.

spark

Apache Spark에 대한 Amazon EMR 큐레이트 설정입니다.

This property modifies spark-defaults. See actions there.

spark-defaults

Spark spark-defaults.conf 파일에서 값을 변경합니다.

Restarts Spark history server and Spark thrift server.

spark-env

Spark 환경에서 값을 변경합니다.

Restarts Spark history server and Spark thrift server.

spark-hive-site

Spark hive-site.xml 파일에서 값을 변경합니다.

Not available.

spark-log4j2

Spark log4j2.properties 파일에서 값을 변경합니다.

Restarts Spark history server and Spark thrift server.

spark-metrics

Spark metrics.properties 파일에서 값을 변경합니다.

Restarts Spark history server and Spark thrift server.

yarn-env

YARN 환경에서 값을 변경합니다.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

YARN yarn-site.xml 파일에서 값을 변경합니다.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

ZooKeeper zoo.cfg 파일에서 값을 변경합니다.

Restarts Zookeeper server.

zookeeper-logback

ZooKeeper logback.xml 파일에서 값을 변경합니다.

Restarts Zookeeper server.

cloudwatch-logs

EMR 클러스터 노드에 대한 CloudWatch Logs 통합을 구성합니다.

Not available.

emr-metrics

이 노드에 대한 emr 지표 설정을 변경합니다.

Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 변경 로그

EMR Spark 8.0.0에 대한 변경 로그
Date이벤트설명
2026-05-21문서 게시Amazon EMR Spark 8.0.0(emr-spark-8.0.0) 릴리스 정보가 처음 게시됨