本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Studio 中使用 Amazon EMR Serverless 應用程式或 Amazon EMR 叢集大規模準備資料
Amazon SageMaker Studio 及其舊版 (Studio Classic) 為資料科學家和機器學習 (ML) 工程師提供大規模執行資料分析和資料準備的工具。分析、轉換和準備大量資料是任何資料科學和機器學習 (ML) 工作流程的基礎步驟。Studio 和 Studio Classic 都隨附與 Amazon EMR 的內建整合,可讓使用者在其 JupyterLab 筆記本內管理大規模的互動式資料準備和機器學習工作流程。
Amazon EMR 是一項受管的巨量資料平台,提供資源以協助您使用 AWS 上的開放原始碼分析架構 (例如 Apache Spark
如果您有大規模、長時間執行或複雜資料處理要求,其中涉及大量資料、需要廣泛的自訂以及與其他服務的整合、需要執行自訂應用程式,或計劃執行 Apache Spark 以外的各種分散式資料處理架構,則應考慮為您的資料準備工作負載使用 Amazon EMR 叢集。
或者,您也可以使用 SageMaker Distribution 映像 1.10 或更新版本,直接從 SageMaker AI Studio 中的 JupyterLab 筆記本連線至互動式 EMR Serverless 應用程式。Studio 與 EMR Serverless 的整合可讓您執行開放原始碼巨量資料分析架構,例如 Apache Spark
如果您的工作負載是短期或間歇性,而且不需要持久性叢集,則您應該考慮為您的互動式資料準備工作負載使用 EMR Serverless;您偏好自動資源佈建和終止的無伺服器體驗,以避免管理基礎設施的負荷;或者您的互動式資料準備任務主要圍繞 Apache Spark 進行。