在 Studio 中使用 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料

Amazon SageMaker Studio 及其舊版 (Studio Classic) 為資料科學家和機器學習 (ML) 工程師提供大規模執行資料分析和資料準備的工具。分析、轉換和準備大量資料是任何資料科學和機器學習 (ML) 工作流程的基礎步驟。Studio 和 Studio Classic 都隨附與 Amazon EMR 的內建整合，可讓使用者在其 JupyterLab 筆記本內管理大規模的互動式資料準備和機器學習工作流程。

Amazon EMR 是一項受管的巨量資料平台，提供資源以協助您使用 AWS 上的開放原始碼分析架構 (例如 Apache Spark、Apache Hive、Presto、HBase 和 Flink 等) 執行 PB 級分散式資料處理任務。透過 Studio 和 Studio Classic 與 Amazon EMR 整合，您可以建立、瀏覽、探索和連線至 Amazon EMR 叢集，而無需離開 JupyterLab 或 Studio Classic 筆記本。您還可以透過直接從筆記本中一鍵式存取 Spark UI，來監控和偵錯 Spark 工作負載。

如果您有大規模、長時間執行或複雜資料處理要求，其中涉及大量資料、需要廣泛的自訂以及與其他服務的整合、需要執行自訂應用程式，或計劃執行 Apache Spark 以外的各種分散式資料處理架構，則應考慮為您的資料準備工作負載使用 Amazon EMR 叢集。

或者，您也可以使用 SageMaker Distribution 映像 1.10 或更新版本，直接從 SageMaker AI Studio 中的 JupyterLab 筆記本連線至互動式 EMR Serverless 應用程式。Studio 與 EMR Serverless 的整合可讓您執行開放原始碼巨量資料分析架構，例如 Apache Spark 和 Apache Hive，而無需設定、管理或擴展 Amazon EMR 叢集。EMR Serverless 會根據 EMR Serverless 應用程式的需求，自動佈建和管理基礎運算和記憶體資源。它會動態擴增和縮減資源，根據應用程式所耗用的 vCPU、記憶體和儲存資源數量向您收費。這種無伺服器方法可讓您從 JupyterLab 筆記本執行互動式資料準備工作負載，而無需擔心叢集管理，同時實現高執行個體使用率和成本效益。

如果您的工作負載是短期或間歇性，而且不需要持久性叢集，則您應該考慮為您的互動式資料準備工作負載使用 EMR Serverless；您偏好自動資源佈建和終止的無伺服器體驗，以避免管理基礎設施的負荷；或者您的互動式資料準備任務主要圍繞 Apache Spark 進行。

內容

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

連線參數

設定網路存取