

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Studio 中使用 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料
<a name="studio-emr-data-preparation"></a>

Amazon SageMaker Studio 及其舊版 (Studio Classic) 為資料科學家和機器學習 (ML) 工程師提供大規模執行資料分析和資料準備的工具。分析、轉換和準備大量資料是任何資料科學和機器學習 (ML) 工作流程的基礎步驟。Studio 和 Studio Classic 都隨附與 Amazon EMR 的內建整合，可讓使用者在其 JupyterLab 筆記本內管理大規模的互動式資料準備和機器學習工作流程。

[Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) 是一項受管的巨量資料平台，提供資源以協助您使用 AWS 上的開放原始碼分析架構 (例如 [Apache Spark](https://aws.amazon.com/emr/features/spark)、[Apache Hive](https://aws.amazon.com/emr/features/hive)、[Presto](https://aws.amazon.com/emr/features/presto)、HBase 和 Flink 等) 執行 PB 級分散式資料處理任務。透過 Studio 和 Studio Classic 與 Amazon EMR 整合，您可以建立、瀏覽、探索和連線至 Amazon EMR 叢集，而無需離開 JupyterLab 或 Studio Classic 筆記本。您還可以透過直接從筆記本中一鍵式存取 Spark UI，來監控和偵錯 Spark 工作負載。

如果您有大規模、長時間執行或複雜資料處理要求，其中涉及大量資料、需要廣泛的自訂以及與其他服務的整合、需要執行自訂應用程式，或計劃執行 Apache Spark 以外的各種分散式資料處理架構，則應考慮為您的資料準備工作負載使用 Amazon EMR 叢集。

或者，您也可以使用 [SageMaker Distribution 映像](sagemaker-distribution.md) `1.10` 或更新版本，直接從 SageMaker AI Studio 中的 JupyterLab 筆記本連線至互動式 [EMR Serverless](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html) 應用程式。Studio 與 EMR Serverless 的整合可讓您執行開放原始碼巨量資料分析架構，例如 [Apache Spark](https://aws.amazon.com/emr/features/spark) 和 [Apache Hive](https://aws.amazon.com/emr/features/hive)，而無需設定、管理或擴展 Amazon EMR 叢集。EMR Serverless 會根據 EMR Serverless 應用程式的需求，自動佈建和管理基礎運算和記憶體資源。它會動態擴增和縮減資源，根據應用程式所耗用的 vCPU、記憶體和儲存資源數量向您收費。這種無伺服器方法可讓您從 JupyterLab 筆記本[執行互動式資料準備工作負載](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/interactive-workloads.html)，而無需擔心叢集管理，同時實現高執行個體使用率和成本效益。

如果您的工作負載是短期或間歇性，而且不需要持久性叢集，則您應該考慮為您的互動式資料準備工作負載使用 EMR Serverless；您偏好自動資源佈建和終止的無伺服器體驗，以避免管理基礎設施的負荷；或者您的互動式資料準備任務主要圍繞 Apache Spark 進行。

**Topics**
+ [設定 Amazon EMR 叢集的網路存取](studio-notebooks-emr-networking.md)
+ [使用 EMR Serverless 準備資料](studio-notebooks-emr-serverless.md)
+ [使用 Amazon EMR 進行資料準備](studio-notebooks-emr-cluster.md)