

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon EMR 進行資料準備
<a name="studio-notebooks-emr-cluster"></a>

**重要**  
Amazon SageMaker Studio 和 Amazon SageMaker Studio Classic 是兩種機器學習環境，可用來與 SageMaker AI 互動。  
如果您的網域是在 2023 年 11 月 30 日之後建立的，則 Studio 是您的預設體驗。  
如果您的網域是在 2023 年 11 月 30 日之前建立的，Amazon SageMaker Studio Classic 是您的預設體驗。若要在 Amazon SageMaker Studio Classic 是您的預設體驗時使用 Studio，請參閱[從 Amazon SageMaker Studio Classic 遷移](studio-updated-migrate.md)。  
當您從 Amazon SageMaker Studio Classic 遷移至 Amazon SageMaker Studio 時，功能可用性不會有任何損失。Studio Classic 也會以應用程式的形式存在於 Amazon SageMaker Studio 內，以協助您執行舊版機器學習工作流程。

Amazon SageMaker Studio 和 Studio Classic 隨附與 [Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) 的內建整合。在 JupyterLab 和 Studio Classic 筆記本內，資料科學家和資料工程師可以探索並連線至現有的 Amazon EMR 叢集，然後使用 [Apache Spark](https://aws.amazon.com/emr/features/spark)、[Apache Hive](https://aws.amazon.com/emr/features/hive) 或 [Presto](https://aws.amazon.com/emr/features/presto)，以互動方式探索、視覺化和準備機器學習的大規模資料。只需按一下，他們就可以存取 Spark UI 來監控 Spark 任務的狀態和指標，而無需離開筆記本。

管理員可以建立定義 Amazon EMR 叢集的 [CloudFormation 範本](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html)。然後，他們可以在 [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/userguide/end-user-console.html) 中將這些叢集範本提供給 Studio 和 Studio Classic 使用者以啟動。然後，資料科學家可以選擇預先定義的範本，直接從其Studio 環境自行佈建 Amazon EMR 叢集。管理員可以進一步參數化範本，讓使用者在預先定義值內選擇叢集的各個層面。例如，使用者可能想要指定核心節點的數量，或從下拉式功能表中選取節點的執行個體類型。

 CloudFormation管理員可以使用 控制 Amazon EMR 叢集的組織、安全和聯網設定。然後，資料科學家和資料工程師可以為其工作負載自訂這些範本，直接從 Studio 和 Studio Classic 建立隨需 Amazon EMR 叢集，而無需設定複雜的組態。使用者也可以在使用之後終止 Amazon EMR 叢集。
+ **如果您是管理員**：

  確定您已啟用 Studio 或 Studio Classic 與 Amazon EMR 叢集之間的通訊。如需指示，請參閱[設定 Amazon EMR 叢集的網路存取](studio-notebooks-emr-networking.md)區段。一旦啟用了此通訊，您就可以：
  + [在 Service Catalog 中設定 Amazon EMR CloudFormation 範本](studio-notebooks-set-up-emr-templates.md)
  + [設定列出 Amazon EMR 叢集](studio-notebooks-configure-discoverability-emr-cluster.md)
+ **如果您是資料科學家或資料工程師**，您可以：
  + [從 Studio 或 Studio Classic 啟動 Amazon EMR 叢集](studio-notebooks-launch-emr-cluster-from-template.md)
  + [從 Studio 或 Studio Classic 列出 Amazon EMR 叢集](discover-emr-clusters.md)
  + [從 SageMaker Studio 或 Studio Classic 連線至 Amazon EMR 叢集](connect-emr-clusters.md)
  + [從 Studio 或 Studio Classic 終止 Amazon EMR 叢集](terminate-emr-clusters.md)
  + [從 Studio 或 Studio Classic 存取 Spark UI](studio-notebooks-access-spark-ui.md)

**Topics**
+ [快速入門：建立 SageMaker AI 沙盒網域以在 Studio 中啟動 Amazon EMR 叢集](studio-notebooks-emr-cluster-quickstart.md)
+ [管理員指南](studio-emr-admin-guide.md)
+ [使用者指南](studio-emr-user-guide.md)
+ [部落格和白皮書](studio-notebooks-emr-resources.md)
+ [疑難排解](studio-notebooks-emr-troubleshooting.md)