

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon S3를 사용하여 Spark 성능 개선
<a name="emr-spark-s3-performance"></a>

Amazon EMR은 Amazon S3에 저장된 데이터를 쿼리, 읽기 및 쓰기 위해 Spark를 사용할 때 성능을 최적화하는 기능을 제공합니다.

[S3 Select](https://aws.amazon.com/blogs/aws/s3-glacier-select/)는 Amazon S3로 처리를 '푸시다운'하여 일부 애플리케이션의 CSV 및 JSON 파일에 대한 쿼리 성능을 향상시킬 수 있습니다.

EMRFS Amazon S3 최적화 커미터는 [OutputCommitter](https://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/OutputCommitter.html) 클래스의 대안으로, EMRFS의 멀티파트 업로드 기능을 사용하여 Spark, DataFrames 및 Datasets를 사용하여 Parquet 파일을 Amazon S3에 쓸 때 성능을 향상시킵니다.

**Topics**
+ [S3 Select와 함께 Spark를 사용하여 쿼리 성능 향상](emr-spark-s3select.md)
+ [EMR Spark MagicCommitProtocol](emr-spark-magic-commit-protocol.md)
+ [EMRFS S3 최적화 커미터 사용](emr-spark-s3-optimized-committer.md)
+ [EMRFS S3 최적화된 커밋 프로토콜 사용](emr-spark-s3-optimized-commit-protocol.md)
+ [EMRFS로 Amazon S3 요청 재시도](emr-spark-emrfs-retry.md)