本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon EMR 進行資料準備
重要
Amazon SageMaker Studio 和 Amazon SageMaker Studio Classic 是兩種機器學習環境,可用來與 SageMaker AI 互動。
如果您的網域是在 2023 年 11 月 30 日之後建立的,則 Studio 是您的預設體驗。
如果您的網域是在 2023 年 11 月 30 日之前建立的,Amazon SageMaker Studio Classic 是您的預設體驗。若要在 Amazon SageMaker Studio Classic 是您的預設體驗時使用 Studio,請參閱從 Amazon SageMaker Studio Classic 遷移。
當您從 Amazon SageMaker Studio Classic 遷移至 Amazon SageMaker Studio 時,功能可用性不會有任何損失。Studio Classic 也會以應用程式的形式存在於 Amazon SageMaker Studio 內,以協助您執行舊版機器學習工作流程。
Amazon SageMaker Studio 和 Studio Classic 隨附與 Amazon EMR 的內建整合。在 JupyterLab 和 Studio Classic 筆記本內,資料科學家和資料工程師可以探索並連線至現有的 Amazon EMR 叢集,然後使用 Apache Spark
管理員可以建立定義 Amazon EMR 叢集的 CloudFormation 範本。然後,他們可以在 AWS Service Catalog 中將這些叢集範本提供給 Studio 和 Studio Classic 使用者以啟動。然後,資料科學家可以選擇預先定義的範本,直接從其Studio 環境自行佈建 Amazon EMR 叢集。管理員可以進一步參數化範本,讓使用者在預先定義值內選擇叢集的各個層面。例如,使用者可能想要指定核心節點的數量,或從下拉式功能表中選取節點的執行個體類型。
CloudFormation管理員可以使用 控制 Amazon EMR 叢集的組織、安全和聯網設定。然後,資料科學家和資料工程師可以為其工作負載自訂這些範本,直接從 Studio 和 Studio Classic 建立隨需 Amazon EMR 叢集,而無需設定複雜的組態。使用者也可以在使用之後終止 Amazon EMR 叢集。
-
如果您是管理員:
確定您已啟用 Studio 或 Studio Classic 與 Amazon EMR 叢集之間的通訊。如需指示,請參閱設定 Amazon EMR 叢集的網路存取區段。一旦啟用了此通訊,您就可以:
-
如果您是資料科學家或資料工程師,您可以: