View a markdown version of this page

在 Studio 中使用 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Studio 中使用 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料

Amazon SageMaker Studio 及其舊版 (Studio Classic) 為資料科學家和機器學習 (ML) 工程師提供大規模執行資料分析和資料準備的工具。分析、轉換和準備大量資料是任何資料科學和機器學習 (ML) 工作流程的基礎步驟。Studio 和 Studio Classic 都隨附與 Amazon EMR 的內建整合,可讓使用者在其 JupyterLab 筆記本內管理大規模的互動式資料準備和機器學習工作流程。

Amazon EMR 是一項受管的巨量資料平台,提供資源以協助您使用 AWS 上的開放原始碼分析架構 (例如 Apache SparkApache HivePresto、HBase 和 Flink 等) 執行 PB 級分散式資料處理任務。透過 Studio 和 Studio Classic 與 Amazon EMR 整合,您可以建立、瀏覽、探索和連線至 Amazon EMR 叢集,而無需離開 JupyterLab 或 Studio Classic 筆記本。您還可以透過直接從筆記本中一鍵式存取 Spark UI,來監控和偵錯 Spark 工作負載。

如果您有大規模、長時間執行或複雜資料處理要求,其中涉及大量資料、需要廣泛的自訂以及與其他服務的整合、需要執行自訂應用程式,或計劃執行 Apache Spark 以外的各種分散式資料處理架構,則應考慮為您的資料準備工作負載使用 Amazon EMR 叢集。

或者,您也可以使用 SageMaker Distribution 映像 1.10 或更新版本,直接從 SageMaker AI Studio 中的 JupyterLab 筆記本連線至互動式 EMR Serverless 應用程式。Studio 與 EMR Serverless 的整合可讓您執行開放原始碼巨量資料分析架構,例如 Apache SparkApache Hive,而無需設定、管理或擴展 Amazon EMR 叢集。EMR Serverless 會根據 EMR Serverless 應用程式的需求,自動佈建和管理基礎運算和記憶體資源。它會動態擴增和縮減資源,根據應用程式所耗用的 vCPU、記憶體和儲存資源數量向您收費。這種無伺服器方法可讓您從 JupyterLab 筆記本執行互動式資料準備工作負載,而無需擔心叢集管理,同時實現高執行個體使用率和成本效益。

如果您的工作負載是短期或間歇性,而且不需要持久性叢集,則您應該考慮為您的互動式資料準備工作負載使用 EMR Serverless;您偏好自動資源佈建和終止的無伺服器體驗,以避免管理基礎設施的負荷;或者您的互動式資料準備任務主要圍繞 Apache Spark 進行。