使用 EMR Serverless 準備資料 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 EMR Serverless 準備資料

SageMaker Distribution 映像版本 1.10 開始,Amazon SageMaker Studio 與 EMR Serverless 整合。在 SageMaker Studio 的 JupyterLab 筆記本內,資料科學家和資料工程師可以探索並連線至 EMR Serverless 應用程式,然後以互動方式探索、視覺化和準備大規模 Apache Spark 或 Apache Hive 工作負載。此整合允許大規模執行互動式資料預先處理,以準備 ML 模型訓練和部署。

具體而言,SageMaker AI Distribution 映像版本 1.10 中的更新版本 sagemaker-studio-analytics-extension 會利用 Apache Livy 與 EMR Serverless 之間的整合,允許透過 JupyterLab 筆記本連線至 Apache Livy 端點。本節假設事先了解 EMR Serverless 互動式應用程式

重要

使用 Studio 時,您只能針對從私有空間啟動的 JupyterLab 應用程式探索並連線至 EMR Serverless 應用程式。確保 EMR Serverless 應用程式與您的 Studio 環境位於相同的AWS區域。

先決條件

開始從 JupyterLab 筆記本中使用 EMR Serverless 執行互動式工作負載之前,請確定您符合下列先決條件:

  1. 您的 JupyterLab 空間必須使用 SageMaker Distribution 映像版本 1.10 或更高版本。

  2. 使用 Amazon EMR 版本 6.14.0 或更新版本建立 EMR Serverless 互動式應用程式。您可以遵循從 Studio 建立 EMR Serverless 應用程式中的步驟,從 Studio 使用者介面建立 EMR Serverless 應用程式。

    注意

    如需最簡單的設定,您可以在 Studio UI 中建立 EMR Serverless 應用程式,而無需變更虛擬私有雲端 (VPC) 選項的任何預設設定。這允許在您的網域 VPC 內建立應用程式,而不需要任何聯網組態。在此情況下,您可以略過下列聯網設定步驟。

  3. 設定 Amazon EMR 叢集的網路存取中檢閱聯網和安全要求。具體而言,請確定您:

    • 在 Studio 帳戶與 EMR Serverless 帳戶之間建立 VPC 對等互連。

    • 將路由新增至這兩個帳戶中的私有子網路路由表。

    • 設定連接到 Studio 網域的安全群組以允許傳出流量,以及設定 VPC 的安全群組,您計劃在其中執行 EMR Serverless,以允許來自 Studio 執行個體安全群組的傳入 TCP 流量。

  4. 若要在 EMR Serverless 上存取您的互動式應用程式,並在 SageMaker Studio 中執行從 JupyterLab 筆記本提交的工作負載,您必須指派特定許可和角色。如需必要角色和許可的詳細資訊,請參閱設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式一節。