從 Studio 連線至 EMR Serverless 應用程式 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

從 Studio 連線至 EMR Serverless 應用程式

資料科學家和資料工程師可以直接從 Studio 使用者介面探索 EMR Serverless 應用程式,然後連線至其中。開始之前,請先遵循從 Studio 建立 EMR Serverless 應用程式中的指示,確認您已建立 EMR Serverless 應用程式。

您可以將 EMR Serverless 應用程式直接從 Studio UI 連線至新的 JupyterLab 筆記本,或選擇在執行中 JupyterLab 應用程式的筆記本中啟動連線。

重要

使用 Studio 時,您只能針對從私有空間啟動的 JupyterLab 應用程式探索並連線至 EMR Serverless 應用程式。確保 EMR Serverless 應用程式與您的 Studio 環境位於相同的AWS區域。您的 JupyterLab 空間必須使用 SageMaker Distribution 映像版本 1.10 或更高版本。

若要從 Studio UI 將 EMR Serverless 應用程式連線至新的 JupyterLab 筆記本:
  1. 在 Studio UI 中,導覽至左側面板,並在左側導覽功能表中選取資料節點。然後,捲動並選擇 Amazon EMR 應用程式和叢集選項。這會開啟一個頁面,其中顯示您可以從 Studio 環境內無伺服器應用程式索引標籤下存取的 Amazon EMR 應用程式。

    注意

    如果您或您的管理員已設定允許跨帳戶存取 EMR Serverless 應用程式的許可,您可以檢視您已授予 Studio 存取權之所有帳戶的合併應用程式清單。

  2. 選取您要將其連線至新筆記本的 EMR Serverless 應用程式,然後選擇連接至筆記本。這會開啟一個模態視窗,其中顯示 JupyterLab 空間的清單。

    • 選取您要從中啟動 JupyterLab 應用程式的私有空間,然後選擇開啟筆記本。這會從您選擇的空間啟動 JupyterLab 應用程式,並開啟新的筆記本。

    • 或者,您也可以選擇模態視窗頂端的建立新空間按鈕來建立新的私有空間。輸入空間的名稱,然後選擇建立空間並開啟筆記本。這會建立一個具有預設執行個體類型和最新可用 SageMaker Distribution 映像的私有空間、啟動 JupyterLab 應用程式,並開啟新的筆記本。

  3. 選擇 EMR Serverless 應用程式可以為任務執行而擔任的 IAM 執行時期執行角色名稱。選擇後,連線命令會填入筆記本的第一個儲存格,並啟動與 EMR Serverless 應用程式的連線。

    重要

    若要成功將 JupyterLab 筆記本連線至 EMR Serverless 應用程式,您必須先將執行時期角色清單與您的網域或使用者設定檔建立關聯,如設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式中所述。若無法完成此步驟,將阻止您建立連線。

    一旦連線成功,訊息就會確認連線、啟動 EMR Serverless 應用程式,以及啟動 Spark 工作階段。

    注意

    當您連線至 EMR Serverless 應用程式時,其狀態會從 StoppedCreated 轉換為 Started

或者,您可以從 JupyterLab 筆記本連線至叢集。
  1. 選擇筆記本右上角的叢集按鈕。這會開啟模態視窗,列出您可以存取的 EMR Serverless 應用程式。您可以在無伺服器應用程式索引標籤中查看應用程式。

  2. 選取要連線的叢集,然後選擇連線

  3. EMR Serverless 支援在設定所需許可時預先載入的執行時期 IAM 角色,如設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式中所述。若無法完成此步驟,將阻止您建立連線。

    您可以從 Amazon EMR 執行角色下拉式功能表中選取您的角色。當您連線至叢集時,Studio 會將程式碼區塊新增至筆記本的作用中儲存格,以建立連線。

  4. 作用中儲存格會填入並執行。此儲存格包含連線魔術命令,可將您的筆記本連線至應用程式。

    一旦連接成功,將顯示一則訊息確認連線並啟動 Spark 應用程式。您可以開始將資料處理任務提交至 EMR Serverless 應用程式。