本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 EMR Serverless 準備資料
從 SageMaker Distribution 映像版本 1.10 開始,Amazon SageMaker Studio 與 EMR Serverless 整合。在 SageMaker Studio 的 JupyterLab 筆記本內,資料科學家和資料工程師可以探索並連線至 EMR Serverless 應用程式,然後以互動方式探索、視覺化和準備大規模 Apache Spark 或 Apache Hive 工作負載。此整合允許大規模執行互動式資料預先處理,以準備 ML 模型訓練和部署。
具體而言,SageMaker AI Distribution1.10 中的更新版本 sagemaker-studio-analytics-extension
重要
使用 Studio 時,您只能針對從私有空間啟動的 JupyterLab 應用程式探索並連線至 EMR Serverless 應用程式。確保 EMR Serverless 應用程式與您的 Studio 環境位於相同的AWS區域。
先決條件
開始從 JupyterLab 筆記本中使用 EMR Serverless 執行互動式工作負載之前,請確定您符合下列先決條件:
-
您的 JupyterLab 空間必須使用 SageMaker Distribution 映像版本
1.10或更高版本。 -
使用 Amazon EMR 版本
6.14.0或更新版本建立 EMR Serverless 互動式應用程式。您可以遵循從 Studio 建立 EMR Serverless 應用程式中的步驟,從 Studio 使用者介面建立 EMR Serverless 應用程式。注意
如需最簡單的設定,您可以在 Studio UI 中建立 EMR Serverless 應用程式,而無需變更虛擬私有雲端 (VPC) 選項的任何預設設定。這允許在您的網域 VPC 內建立應用程式,而不需要任何聯網組態。在此情況下,您可以略過下列聯網設定步驟。
-
在設定 Amazon EMR 叢集的網路存取中檢閱聯網和安全要求。具體而言,請確定您:
-
在 Studio 帳戶與 EMR Serverless 帳戶之間建立 VPC 對等互連。
-
將路由新增至這兩個帳戶中的私有子網路路由表。
-
設定連接到 Studio 網域的安全群組以允許傳出流量,以及設定 VPC 的安全群組,您計劃在其中執行 EMR Serverless,以允許來自 Studio 執行個體安全群組的傳入 TCP 流量。
-
-
若要在 EMR Serverless 上存取您的互動式應用程式,並在 SageMaker Studio 中執行從 JupyterLab 筆記本提交的工作負載,您必須指派特定許可和角色。如需必要角色和許可的詳細資訊,請參閱設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式一節。