

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Studio에서 Amazon EMR Serverless 애플리케이션 또는 Amazon EMR 클러스터를 사용하여 대규모 데이터 준비
<a name="studio-emr-data-preparation"></a>

Amazon SageMaker Studio와 레거시 버전인 Studio Classic은 데이터 과학자와 기계 학습(ML) 엔지니어에게 대규모로 데이터 분석 및 데이터 준비를 수행할 수 있는 도구를 제공합니다. 대량의 데이터를 분석, 변환, 준비하는 것은 모든 데이터 과학 및 ML 워크플로우의 기본 단계입니다. Studio와 Studio Classic 모두 Amazon EMR과의 통합 기능이 기본 제공되어 있으므로 사용자가 JupyterLab 노트북 내에서 대규모 대화형 데이터 준비 및 기계 학습 워크플로를 관리할 수 있습니다.

[Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)은 [Apache Spark](https://aws.amazon.com/emr/features/spark), [Apache Hive](https://aws.amazon.com/emr/features/hive), [Presto](https://aws.amazon.com/emr/features/presto), HBase, Flink 등 AWS 에서 오픈 소스 분석 프레임워크를 사용하여 페타바이트 규모의 분산형 데이터 처리 작업을 실행하는 데 도움이 되는 리소스를 갖춘 관리형 빅 데이터 플랫폼입니다. Studio 및 Studio Classic과 Amazon EMR의 통합을 통해, JupyterLab 노트북이나 Studio Classic 노트북을 떠나지 않고도 Amazon EMR 클러스터를 만들고, 검색하고, 탐색하고, 연결할 수 있습니다. 또한, 노트북 내에서 곧바로 Spark UI에 클릭 한 번으로 액세스하여 Spark 워크로드를 모니터링하고 디버깅할 수 있습니다.

대량의 데이터를 포함하는 대규모, 장기 실행 또는 복잡한 데이터 처리 요구 사항이 있거나, 광범위한 사용자 지정 및 다른 서비스와의 통합이 필요하거나, 사용자 지정 애플리케이션을 실행해야 하거나, Apache Spark 이외의 다양한 분산 데이터 처리 프레임워크를 실행할 계획인 경우 데이터 준비 워크로드에 Amazon EMR 클러스터를 고려해야 합니다.

[SageMaker 배포 이미지](sagemaker-distribution.md) `1.10` 이상을 사용하면 SageMaker AI Studio의 JupyterLab 노트북에서 직접 대화형 [EMR Serverless](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html) 애플리케이션에 연결할 수 있습니다. Studio를 EMR Serverless와 통합하면 Amazon EMR 클러스터를 구성, 관리 또는 규모 조정하지 않고도 [Apache Spark](https://aws.amazon.com/emr/features/spark) 및 [Apache Hive](https://aws.amazon.com/emr/features/hive)와 같은 오픈 소스 빅 데이터 분석 프레임워크를 실행할 수 있습니다. EMR Serverless는 EMR Serverless 애플리케이션의 요구 사항에 따라 기본 컴퓨팅 및 메모리 리소스를 자동으로 프로비저닝하고 관리합니다. 리소스를 동적으로 스케일 업 및 스케일 다운하여 애플리케이션에서 사용하는 vCPU, 메모리 및 스토리지 리소스의 양에 대해 비용을 부과합니다. 이 서버리스 접근 방식을 사용하면 클러스터 관리에 대한 걱정 없이 JupyterLab 노트북에서 [대화형 데이터 준비 워크로드를 실행](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/interactive-workloads.html)하는 동시에 인스턴스 사용률과 비용 효율성을 높일 수 있습니다.

워크로드가 수명이 짧거나 간헐적이고 영구 클러스터가 필요하지 않은 경우, 인프라 관리 오버헤드를 피하면서 자동 리소스 프로비저닝 및 종료 기능을 제공하는 서버리스 환경을 선호하는 경우, 대화형 데이터 준비 작업이 주로 Apache Spark를 중심으로 수행되는 경우 대화형 데이터 준비 워크로드에 대해 EMR Serverless를 고려해야 합니다.

**Topics**
+ [Amazon EMR 클러스터에 대한 네트워크 액세스 구성](studio-notebooks-emr-networking.md)
+ [EMR Serverless를 사용하여 데이터 준비](studio-notebooks-emr-serverless.md)
+ [Amazon EMR을 사용한 데이터 준비](studio-notebooks-emr-cluster.md)