

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Apache Spark
<a name="emr-spark"></a>

[Apache Spark](https://aws.amazon.com/emr/features/spark/)는 Amazon EMR 클러스터에서 기계 학습, 스트림 처리 또는 그래픽 분석을 수행하는 데 도움이 되는 분산 처리 프레임워크 및 프로그래밍 모델입니다. Apache Hadoop과 마찬가지로, Spark는 빅 데이터 워크로드에 일반적으로 사용되는 오픈 소스 분산형 처리 시스템입니다. 하지만 Spark와 Hadoop MapReduce 간에는 다른 몇 가지 큰 차이가 있습니다. Spark에는 최적화된 비순환 방향 그래프(DAG) 실행 엔진이 있고 메모리 안에 데이터를 능동적으로 캐시하므로 특히 특정 알고리즘 및 대화형 쿼리의 성능이 향상됩니다.

Spark는 기본적으로 Scala, Python 및 Java로 작성된 애플리케이션을 지원합니다. 여기에는 SQL용 여러 통합 라이브러리([Spark](https://spark.apache.org/sql/)), 기계 학습([MLlib](https://spark.apache.org/mllib/)), 스트림 처리([Spark streaming](https://spark.apache.org/streaming/)) 및 그래프 처리([GraphX](https://spark.apache.org/graphx/))도 포함됩니다. 이러한 도구를 사용하면 다양한 사용 사례에 대해 Spark 프레임워크를 보다 쉽게 활용할 수 있습니다.

Amazon EMR 클러스터에 다른 Hadoop 애플리케이션과 함께 Spark를 설치할 수 있으며, Amazon EMR 파일 시스템(EMRFS)을 활용하여 Amazon S3에서 데이터에 직접 액세스할 수도 있습니다. Hive도 Spark와 통합되므로 HiveContext 객체를 사용하여 Spark에서 Hive 스크립트를 실행할 수 있습니다. Hive 컨텍스트는 spark-shell에 `sqlContext`로 포함됩니다.

Spark로 EMR 클러스터를 설정하고 샘플 데이터 세트를 분석하는 예제 자습서는 AWS 뉴스 블로그의 [자습서: Amazon EMR 시작하기](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html)를 참조하세요.

Apache Spark 문제 해결 에이전트를 사용하여 EC2 및 EMR Serverless의 EMR에서 Apache Spark 애플리케이션의 문제를 해결할 수 있습니다. 자세한 내용은 단원을 참조하십시오[Amazon EMR용 Apache Spark 문제 해결 에이전트란?](spark-troubleshoot.md).

**중요**  
Amazon EMR 릴리스 5.16.0부터 사용할 수 있는 Apache Spark 버전 2.3.1은 [CVE-2018-8024](https://nvd.nist.gov/vuln/detail/CVE-2018-8024) 및 [CVE-2018-1334](https://nvd.nist.gov/vuln/detail/CVE-2018-1334)를 처리합니다. Spark의 이전 버전을 Spark 버전 2.3.1 이상으로 마이그레이션하는 것이 좋습니다.

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 7.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 [릴리스 7.13.0 구성 요소 버전을 참조하세요](emr-7130-release.md).


**emr-7.13.0용 Spark 버전 정보**  

| Amazon EMR 릴리스 레이블 | Spark 버전 | Spark와 함께 설치된 구성 요소 | 
| --- | --- | --- | 
| emr-7.13.0 | Spark 3.5.6-amzn-2 | delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 [릴리스 6.15.0 구성 요소 버전](emr-6150-release.md)을 참조하세요.


**emr-6.15.0용 Spark 버전 정보**  

| Amazon EMR 릴리스 레이블 | Spark 버전 | Spark와 함께 설치된 구성 요소 | 
| --- | --- | --- | 
| emr-6.15.0 | Spark 3.4.1-amzn-2 | aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**참고**  
Amazon EMR 릴리스 6.8.0은 Apache Spark 3.3.0과 함께 제공됩니다. 이번 Spark 릴리스에서는 Apache Log4j 2 및 `log4j2.properties` 파일을 사용하여 Spark 프로세스에서 Log4j를 구성합니다. 클러스터에서 Spark를 사용하거나 사용자 지정 구성 파라미터를 사용하여 EMR 클러스터를 생성하고 Amazon EMR 릴리스 6.8.0으로 업그레이드하려는 경우 Apache Log4j 2의 새로운 `spark-log4j2` 구성 분류 및 키 형식으로 마이그레이션해야 합니다. 자세한 내용은 [Apache Log4j 1.x에서 Log4j 2.x로 마이그레이션](emr-spark-configure.md#spark-migrate-logj42) 단원을 참조하십시오.

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 [릴리스 5.36.2 구성 요소 버전](emr-5362-release.md)을 참조하세요.


**emr-5.36.2용 Spark 버전 정보**  

| Amazon EMR 릴리스 레이블 | Spark 버전 | Spark와 함께 설치된 구성 요소 | 
| --- | --- | --- | 
| emr-5.36.2 | Spark 2.4.8-amzn-2 | aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Topics**
+ [Apache Spark가 설치된 클러스터 생성](emr-spark-launch.md)
+ [Amazon EMR 6.x에서 Docker를 사용하여 Spark 애플리케이션 실행](emr-spark-docker.md)
+ [Amazon EMR에서 Spark와 함께 AWS Glue 데이터 카탈로그 사용](emr-spark-glue.md)
+ [Amazon EMR에서 Spark를 사용하여 AWS Glue Data Catalog의 다중 카탈로그 계층 구조 작업](emr-multi-catalog.md)
+ [Spark 구성](emr-spark-configure.md)
+ [Amazon EMR용 Apache Spark 문제 해결 에이전트란?](spark-troubleshoot.md)
+ [Spark 성능 최적화](emr-spark-performance.md)
+ [Spark 결과 조각 캐싱](emr-spark-fragment-result-caching.md)
+ [Apache Spark용 Nvidia RAPIDS 액셀러레이터 사용](emr-spark-rapids.md)
+ [Spark 쉘에 액세스](emr-spark-shell.md)
+ [기계 학습에 Amazon SageMaker Spark 사용](emr-spark-sagemaker.md)
+ [Spark 애플리케이션 작성](emr-spark-application.md)
+ [Amazon S3를 사용하여 Spark 성능 개선](emr-spark-s3-performance.md)
+ [Spark 단계 추가](emr-spark-submit-step.md)
+ [Spark 애플리케이션 기록 보기](emr-spark-application-history.md)
+ [Spark 웹 UI에 액세스](emr-spark-webui.md)
+ [Spark 구조화된 스트리밍 Amazon Kinesis Data Streams 커넥터 사용](emr-spark-structured-streaming-kinesis.md)
+ [Amazon EMR에서 Apache Spark용 Amazon Redshift 통합 사용](emr-spark-redshift.md)
+ [Spark 릴리스 기록](Spark-release-history.md)
+ [Amazon EMR에서 구체화된 뷰 사용](emr-spark-materialized-views.md)