기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Apache Spark의 런타임(emr-spark-8.0.0)
emr-spark-8.0.0 지원 수명 주기
다음 표에서는 Amazon EMR Spark 8.0.0에 지원되는 수명 주기 날짜를 설명합니다.
| 지원 단계 | Date |
|---|---|
| 초기 릴리스 날짜 | 2026년 5월 21일 |
| 표준 지원 종료 시점 | 2027년 5월 20일 |
| 수명 종료 | 2027년 5월 20일 |
emr-spark-8.0.0 애플리케이션 버전
이 릴리스에는 AmazonCloudWatchAgent, , Delta
아래 테이블에는 이번 Amazon EMR 릴리스에서 사용할 수 있는 애플리케이션 버전과 이전 세 가지 Amazon EMR 릴리스(해당하는 경우)의 애플리케이션 버전이 나와 있습니다.
각 Amazon EMR 릴리스에서 애플리케이션 버전의 전체 기록은 다음 주제를 참조하세요.
| emr-spark-8.0.0 | |
|---|---|
| AWS Java용 SDK | 2.41.32 |
| Python | 3.11, 3.12, 3.13 |
| Scala | 2.13.16 |
| AmazonCloudWatchAgent | 1.300032.2-amzn-0 |
| Delta | 4.0.0-amzn-1-spark |
| Hudi | 1.1.0-amzn-0 |
| Iceberg | 1.10.1-amzn-0 |
| JupyterEnterpriseGateway | 2.6.0 |
| Livy | 0.8.0-incubating |
| Spark | 4.0.2-amzn-0 |
emr-spark-8.0.0 릴리스 정보
다음 릴리스 정보에는 Apache Spark 4.0.2가 탑재된 Amazon EMR 릴리스 8.0.0(emr-spark-8.0.0)에 대한 정보가 포함되어 있습니다.
새로운 기능
Apache Spark 4.0.2 GA - 성능, 보안 및 통합을 위한 Amazon 패치가 있는 브랜치 4.0 업스트림 브랜치를 기반으로 하는 Amazon EMR 기반 Spark 4.x의 최초 프로덕션 지원 릴리스입니다.
EC2, EKS 및 Serverless에서 사용 가능 -이 릴리스는 모든 Amazon EMR 배포 모드에서 사용할 수 있습니다.
ANSI SQL 모드 - 기본적으로 더 엄격한 유형 처리가 활성화되어 SQL 정확성과 표준 SQL 동작과의 호환성이 향상됩니다.
SQL PIPE 구문 - 더 읽기 쉬운 파이프라인 스타일 구문으로 SQL 작업을 연결하기 위한 새로운 |> 연산자입니다.
VARIANT 데이터 유형 - VARIANT 유형을 사용하여 반정형 JSON 데이터를 기본적으로 지원하므로 명시적 schema-on-read 패턴을 사용할 수 있습니다.
SQL 스크립팅 - Spark SQL 내의 절차적 SQL 로직에 대한 제어 흐름 문(IF/ELSE, WHILE, FOR) 및 세션 변수입니다.
SQL 사용자 정의 함수 - Scala/Python 코드 없이 SQL에서 직접 UDFs를 정의합니다.
스트리밍 기능 향상 - transformWithState 연산자 및 향상된 RocksDB 변경 로그 체크포인트를 사용하는 임의 상태 저장 처리 API v2입니다.
Apache Iceberg v3 지원 - Iceberg 테이블, AWS S3 Tables 통합에서 VARIANT 데이터 유형 지원.
기본 세분화된 액세스 제어 및 전체 테이블 액세스(FTA) - Iceberg, Delta Lake 및 Hive 테이블에 지원됩니다.
JDK 17 기본값 - Amazon Corretto 17이 기본 JVM이며 JDK 21도 사용할 수 있습니다.
Scala 2.13 - Spark 4.x는 Scala 2.12 지원을 중단합니다. 모든 구성 요소는 Scala 2.13을 기반으로 구축되었습니다.
emr-spark-8.0-preview 이후 변경 사항 및 개선 사항
대화형 워크로드 애플리케이션으로 사용 가능한 Livy 및 JupyterEnterpriseGateway
영구 Spark 기록 서버 지원
알려진 문제 및 제한
기본 FGAC 지원이 포함된 Spark Connect 보안 엔드포인트는이 릴리스에서 사용할 수 없습니다.
AL2023은 Python 3.9를 시스템 Python으로 제공하지만 PySpark 워크로드에는 지원되지 않습니다.
EMR 7.x(Spark 3.5.x)에서 마이그레이션
EMR 7.x(Spark 3.5.x 사용)에서 emr-spark-8.0.0(Spark 4.0.2)으로 마이그레이션할 때는 Spark 업그레이드 에이전트를 사용하여 마이그레이션을 지원하는 것이 좋습니다.
ANSI SQL 모드는 기본값 - 더 엄격한 유형의 강제입니다. 이전에 성공한 암시적 캐스트는 이제 오류가 발생할 수 있습니다.
Scala 2.13 - 모든 Spark 4.x 빌드는 Scala 2.13을 사용합니다. Scala 2.12를 기반으로 구축된 사용자 지정 JARs 다시 컴파일합니다.
JDK 17 기본값 - Spark 4.0.2는 JDK 17(기본값) 및 JDK 21만 지원합니다.
Python 3.11 기본값 - Python 3.9는 더 이상 PySpark의 기본값이 아닙니다. Python 종속성의 호환성을 확인합니다.
AWS SDK - Java용 AWS SDK v1이 제거되었습니다. 성능 및 리소스 관리를 개선하기 위해 AWS SDK v2를 사용하도록 애플리케이션을 업데이트합니다.
S3 액세스 - EMRFS를 더 이상 사용할 수 없습니다. S3A 커넥터를 사용하여 Amazon S3에 영구 데이터를 기록하여 성능과 호환성을 높입니다. EMR S3A를 사용하여 Apache Spark용 Amazon EMR 런타임 최적화
를 참조하세요. emr-s3-select가 제거되었습니다. 대화형 개발 - JupyterHub, Zeppelin 및 Hue는 더 이상 포함되지 않습니다. 대화형 Spark 개발의 경우 EMR Studio, Livy 및 JupyterEnterpriseGateway를 사용합니다.
별도의 릴리스 트레인 - 릴리스 레이블은 emr-8.0.0이 아닌 emr-spark-8.0.0입니다. 이 릴리스는 Spark에 중점을 둡니다. Flink, HBase, Phoenix, Tez, Trino, Presto의 경우 EMR 7.x를 사용하고 향후 emr-8.0.0 다중 엔진 릴리스를 기다립니다. Pig와 Oozie는 포함되지 않습니다.
EMR 클러스터 통신을 위한 VPC 엔드포인트 - Amazon EMR Spark 8.0.0부터 Amazon EMR on EC2는 프라이빗 서브넷에서 클러스터를 시작할 때 Amazon EMR 서비스와 클러스터 간의 통신을 위해 VPC에 VPC 엔드포인트를 프로비저닝합니다. Amazon EMR 서비스 역할에
ec2:CreateVpcEndpoint및ec2:ModifyVpcEndpoint권한이 포함되거나 클러스터를 시작하기 전에 VPC 엔드포인트를 수동으로 생성해야 합니다. VPC 엔드포인트 서비스 이름은 입니다aws.api..region.emr-service-cell01이 변경 사항은 프라이빗 서브넷 클러스터의 네트워킹 요구 사항을 업데이트합니다.
VPC 엔드포인트에 연결된 서비스 액세스 보안 그룹(
ElasticMapReduce-ServiceAccess)에는 VPC CIDR 블록의 인바운드 HTTPS(포트 443)가 필요합니다. Amazon EMR 릴리스 7.x 이하에서 사용되는 포트 8443/9443 규칙은 더 이상 필요하지 않습니다.기본 인스턴스 보안 그룹에는 서비스 액세스 보안 그룹에 대한 아웃바운드 HTTPS(포트 443)가 필요합니다.
Amazon EMR 릴리스 7.x 이하에 사용되는 인바운드 포트 8443 및 아웃바운드 포트 9443 규칙은 기본, 코어 및 태스크 인스턴스 보안 그룹에 더 이상 필요하지 않습니다.
Amazon S3에 대한 사용자 지정 VPC 엔드포인트 정책을 사용하는 경우 Amazon EMR 인스턴스 데이터 버킷(
aws157-instance-data-0-prod-및regionaws157-instance-data-1-prod-)에 대한 액세스를 허용해야 합니다.region
자세한 내용은 Amazon EMR 관리 안내서의 프라이빗 서브넷의 EMR 클러스터, Amazon EMR 관리형 보안 그룹 및 프라이빗 서브넷에 대한 최소 Amazon S3 정책을 참조하세요.
emr-spark-8.0.0 기본 Java 버전
| 애플리케이션 | Java 및 Amazon Corretto 버전(기본값은 굵은체로 표시) |
|---|---|
| Spark | 17, 21 |
| Livy | 17, 11, 8 |
| Hadoop | 17, 11, 8 |
emr-spark-8.0.0 구성 요소 버전
이 릴리스를 통해 Amazon EMR이 설치하는 구성 요소는 다음과 같습니다. 일부는 빅 데이터 애플리케이션 패키지의 일부로 설치됩니다. 나머지는 Amazon EMR에 고유하며 시스템 프로세스 및 기능을 위해 설치됩니다. 이는 일반적으로 emr 또는 aws로 시작됩니다. 최근 Amazon EMR 릴리스의 빅 데이터 애플리케이션 패키지는 일반적으로 커뮤니티에서 발견된 최신 버전입니다. 가능한 한 빨리 Amazon EMR에서 커뮤니티 릴리스를 제공합니다.
Amazon EMR의 일부 구성 요소는 커뮤니티 버전과 다릅니다. 이러한 구성 요소에는 양식의 버전 레이블이 있습니다. CommunityVersion-amzn-EmrVersion은 0에서 시작합니다. 예를 들어, 버전 2.2의 EmrVersionmyapp-component라는 오픈 소스 커뮤니티 구성 요소가 다른 Amazon EMR 릴리스에 포함되도록 세 번 수정된 경우 해당 릴리스 버전은 2.2-amzn-2로 나열됩니다.
| 구성 요소 | 버전 | 설명 |
|---|---|---|
| adot-java-agent | 1.31.0 | 애플리케이션 대몬(daemon)에서 지표를 수집하는 Java 에이전트입니다. |
| delta | 4.0.0-amzn-1-spark | Delta Lake는 방대한 분석 데이터 세트를 위한 오픈 테이블 형식입니다. |
| emr-amazon-cloudwatch-agent | 1.300032.2-amzn-0 | Amazon EC2 인스턴스에서 내부 시스템 수준 지표와 사용자 지정 애플리케이션 지표를 수집하는 애플리케이션입니다. |
| emr-ddb | 6.0.0 | 하둡 에코시스템 애플리케이션용 Amazon DynamoDB 커넥터 |
| emr-goodies | 3.22.0-spark | 편리한 하둡 에코시스템용 추가 라이브러리 |
| emr-notebook-env | 1.18.0 | Jupyter Enterprise Gateway가 포함된 EMR 노트북용 Conda 환경 |
| emr-s3-dist-cp | 2.44.0 | Amazon S3용으로 최적화된 분사 복사 애플리케이션. |
| hadoop-client | 3.4.2-amzn-1 | 'hdfs', 'hadoop', 'yarn' 등과 같은 하둡 명령줄 클라이언트 |
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | 블록을 저장하는 HDFS 노드 수준 서비스 |
| hadoop-hdfs-library | 3.4.2-amzn-1 | HDFS 명령줄 클라이언트 및 라이브러리 |
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | 파일 이름 및 블록 위치를 추적하는 HDFS 서비스 |
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | HA 모드의 네임노드를 추적하기 위한 ZKFC 서비스입니다. |
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | HA 클러스터에서 하둡 파일 시스템 저널을 관리하기 위한 HDFS 서비스 |
| hadoop-httpfs-server | 3.4.2-amzn-1 | HDFS 작업에 대한 HTTP 엔드포인트 |
| hadoop-kms-server | 3.4.2-amzn-1 | 하둡의 KeyProvider API를 기반으로 하는 암호화 키 관리 서버 |
| hadoop-mapred | 3.4.2-amzn-1 | MapReduce 애플리케이션을 실행하는 MapReduce 실행 엔진 라이브러리 |
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | 개별 노드의 컨테이너를 관리하는 YARN 서비스 |
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | 클러스터 리소스 및 분산 애플리케이션을 할당 및 관리하는 YARN 서비스 |
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | YARN 애플리케이션의 현재 및 기록 정보를 가져오는 서비스 |
| hudi | 1.1.0-amzn-0 | 짧은 지연 시간 및 높은 효율성으로 데이터 파이프라인을 구동하는 증분 처리 프레임워크. |
| hudi-spark | 1.1.0-amzn-0 | Hudi와 함께 Spark를 실행하기 위한 번들 라이브러리. |
| iceberg | 1.10.1-amzn-0 | Apache Iceberg는 방대한 분석 데이터 세트를 위한 오픈 테이블 형식입니다. |
| livy-server | 0.8.0-incubating | Apache Spark와 상호작용하기 위한 REST 인터페이스 |
| nginx | 1.12.1 | HTTP인 nginx [engine x] 및 역방향 프록시 서버 |
| mariadb-server | 5.5.68 이상 | MariaDB 데이터베이스 서버. |
| nvidia-cuda | 12.5.0 | Nvidia 드라이버와 Cuda 도구 키트 |
| r | 4.3.2 | 통계 컴퓨팅용 R 프로젝트 |
| spark-client | 4.0.2-amzn-0 | Spark 명령줄 클라이언트. |
| spark-history-server | 4.0.2-amzn-0 | 완료된 Spark 애플리케이션의 수명에 대해 기록된 이벤트를 조회하는 웹 UI. |
| spark-on-yarn | 4.0.2-amzn-0 | YARN용 인 메모리 실행 엔진. |
| spark-yarn-slave | 4.0.2-amzn-0 | YARN 슬레이브에서 필요한 Apache Spark 라이브러리. |
| spark-rapids | 26.02.2-amzn-0 | GPU로 Apache Spark를 가속화하는 Nvidia Spark RAPIDS 플러그인. |
| zookeeper-server | 3.9.3-amzn-6 | 구성 정보 유지 관리, 이름 지정, 분산 동기화 제공 및 그룹 서비스 제공을 위한 중앙 집중식 서비스. |
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper 명령줄 클라이언트. |
emr-spark-8.0.0 구성 분류
구성 분류를 사용하면 애플리케이션을 사용자 지정할 수 있습니다. 이는 종종 hive-site.xml과 같이 애플리케이션의 구성 XML 파일에 해당합니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.
재구성 작업은 실행 중인 클러스터의 인스턴스 그룹에 대한 구성을 지정할 때 수행됩니다. Amazon EMR은 사용자가 수정한 분류에 대한 재구성 작업만 시작합니다. 자세한 내용은 실행 중인 클러스터에서 인스턴스 그룹 재구성 단원을 참조하십시오.
| 분류 | 설명 | 재구성 작업 |
|---|---|---|
capacity-scheduler | Hadoop capacity-scheduler.xml 파일에서 값을 변경합니다. | Restarts the ResourceManager service. |
container-executor | Hadoop YARN container-executor.cfg 파일에서 값을 변경합니다. | Not available. |
container-log4j | Hadoop YARN container-log4j.properties 파일에서 값을 변경합니다. | Not available. |
core-site | Hadoop core-site.xml 파일에서 값을 변경합니다. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Docker 관련 설정을 변경합니다. | Not available. |
hadoop-env | 모든 Hadoop 구성 요소에 대한 Hadoop 환경에서 값을 변경합니다. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
hadoop-log4j | Hadoop log4j.properties 파일에서 값을 변경합니다. | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | hadoop ssl 서버 구성을 변경합니다. | Not available. |
hadoop-ssl-client | hadoop ssl 클라이언트 구성을 변경합니다. | Not available. |
hdfs-encryption-zones | HDFS 암호화 영역을 구성합니다. | This classification should not be reconfigured. |
hdfs-env | HDFS 환경에서 값을 변경합니다. | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | HDFS hdfs-site.xml에서 값을 변경합니다. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
httpfs-env | HTTPFS 환경에서 값을 변경합니다. | Restarts Hadoop Httpfs service. |
httpfs-site | Hadoop httpfs-site.xml 파일에서 값을 변경합니다. | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Hadoop kms-acls.xml 파일에서 값을 변경합니다. | Not available. |
hadoop-kms-env | Hadoop KMS 환경에서 값을 변경합니다. | Restarts Hadoop-KMS service. |
hadoop-kms-java-home | Hadoop의 KMS java 홈 변경 | Not available. |
hadoop-kms-log4j | Hadoop kms-log4j.properties 파일에서 값을 변경합니다. | Not available. |
hadoop-kms-site | Hadoop kms-site.xml 파일에서 값을 변경합니다. | Restarts Hadoop-KMS. |
hudi-env | Hudi 환경에서 값을 변경합니다. | Not available. |
hudi-defaults | Hudi hudi-defaults.conf 파일에서 값을 변경합니다. | Not available. |
iceberg-defaults | Iceberg iceberg-defaults.conf 파일에서 값을 변경합니다. | Not available. |
delta-defaults | Delta delta-defaults.conf 파일에서 값을 변경합니다. | Not available. |
jupyter-notebook-conf | Jupyter Notebook jupyter_notebook_config.py 파일에서 값을 변경합니다. | Not available. |
jupyter-s3-conf | Jupyter Notebook S3 지속성 구성 | Not available. |
jupyter-sparkmagic-conf | Sparkmagic config.json 파일에서 값을 변경합니다. | Not available. |
livy-conf | Livy livy.conf 파일에서 값을 변경합니다. | Restarts Livy Server. |
livy-env | Livy 환경에서 값을 변경합니다. | Restarts Livy Server. |
livy-log4j2 | Livy log4j2.properties 설정을 변경합니다. | Restarts Livy Server. |
mapred-env | MapReduce 애플리케이션 환경에서 값을 변경합니다. | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | MapReduce 애플리케이션 mapred-site.xml 파일에서 값을 변경합니다. | Restarts Hadoop MapReduce-HistoryServer. |
spark | Apache Spark에 대한 Amazon EMR 큐레이트 설정입니다. | This property modifies spark-defaults. See actions there. |
spark-defaults | Spark spark-defaults.conf 파일에서 값을 변경합니다. | Restarts Spark history server and Spark thrift server. |
spark-env | Spark 환경에서 값을 변경합니다. | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Spark hive-site.xml 파일에서 값을 변경합니다. | Not available. |
spark-log4j2 | Spark log4j2.properties 파일에서 값을 변경합니다. | Restarts Spark history server and Spark thrift server. |
spark-metrics | Spark metrics.properties 파일에서 값을 변경합니다. | Restarts Spark history server and Spark thrift server. |
yarn-env | YARN 환경에서 값을 변경합니다. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | YARN yarn-site.xml 파일에서 값을 변경합니다. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zookeeper-config | ZooKeeper zoo.cfg 파일에서 값을 변경합니다. | Restarts Zookeeper server. |
zookeeper-logback | ZooKeeper logback.xml 파일에서 값을 변경합니다. | Restarts Zookeeper server. |
cloudwatch-logs | EMR 클러스터 노드에 대한 CloudWatch Logs 통합을 구성합니다. | Not available. |
emr-metrics | 이 노드에 대한 emr 지표 설정을 변경합니다. | Restarts the CloudWatchAgent service. |
EMR Spark 8.0.0 변경 로그
| Date | 이벤트 | 설명 |
|---|---|---|
| 2026-05-21 | 문서 게시 | Amazon EMR Spark 8.0.0(emr-spark-8.0.0) 릴리스 정보가 처음 게시됨 |