使用 Studio Classic 使用者介面為表格式資料建立迴歸或分類 Autopilot 實驗 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Studio Classic 使用者介面為表格式資料建立迴歸或分類 Autopilot 實驗

重要

自 2023 年 11 月 30 日起,Autopilot 的使用者介面將移至 Amazon SageMaker Canvas,作為更新的 Amazon SageMaker Studio 體驗的一部分。SageMaker Canvas 為分析師和公民資料科學家提供無程式碼功能,例如資料準備、特徵工程、演算法選擇、訓練和調校、推論等。使用者可以利用內建視覺效果和假設分析,探索其資料和不同案例,並透過自動化預測輕鬆產生模型。Canvas 支援各種使用案例,包括電腦視覺、需求預測、智慧搜尋和生成式 AI。

Amazon SageMaker Studio Classic (Studio 的先前體驗) 的使用者可以繼續使用 Studio Classic 的 Autopilot 使用者介面。具編碼經驗的使用者可以繼續使用任何支援 SDK 中的 API 參考,以進行技術實作。

如果您在 Studio Classic 中一直使用 Autopilot,並且想遷移至 SageMaker Canvas,您可能需要將其他許可授予使用者設定檔或 IAM 角色,以建立和使用 SageMaker Canvas 應用程式。如需更多詳細資訊,請參閱 (選用) 從 Studio Classic 中的 Autopilot 遷移至 SageMaker Canvas

本指南中所有使用者介面相關的指示,均涉及移至 Amazon SageMaker Canvas 之前的 Autopilot 獨立功能。遵循這些指示的使用者應使用 Studio Classic

您可以使用 Amazon SageMaker Studio Classic 使用者介面,為表格式資料的分類或迴歸問題建立 Autopilot 實驗。使用者介面可協助您指定實驗的名稱、提供輸入和輸出資料的位置,以及指定要預測的目標資料。或者,您也可以選擇指定要解決的問題類型 (迴歸、分類、多類別分類)、選擇建模策略 (堆疊整合超參數最佳化)、選取 Autopilot 任務用來訓練資料的演算法清單等等。

使用者介面具有說明、切換開關、下拉式功能表、選項按鈕等,可協助您瀏覽建立候選模型。實驗執行之後,您可以比較試驗,並深入研究每個模型的預處理步驟、演算法和超參數範圍的詳細資訊。或者,您也可以選擇下載其可解釋性效能報告。使用提供的筆記本來查看自動化資料探索或候選模型定義的結果。

或者,您也可以使用使用 AutoML API 建立表格式資料的迴歸或分類任務中的 Autopilot AutoML API。

使用 Studio Classic 使用者介面建立 Autopilot 實驗
  1. 登入 https://console.aws.amazon.com/sagemaker/,從左側導覽窗格選擇 Studio,選取您的網域和使用者設定檔,然後選擇開啟 Studio

  2. 在 Studio 中,選擇左上角導覽窗格中的 Studio Classic 圖示。這會開啟 Studio Classic 應用程式。

  3. 從您選擇的空間執行或開啟 Studio Classic 應用程式,或建立 Studio Classic 空間。在首頁索引標籤,選取 AutoML。這會開啟新的 AutoML 索引標籤。

  4. 選取建立 AutoML 實驗。這會開啟新的建立實驗索引標籤。

  5. 實驗和資料詳細資訊 區段,輸入下列資訊:

    1. 實驗名稱–在目前 AWS 區域 帳戶必須是唯一的,並且最多包含 63 個英數字元。可以包含連字號 (-),但不能包含空格。

    2. 輸入資料 – 提供輸入資料的 Amazon Simple Storage Service (Amazon S3) 儲存貯體位置。此 S3 儲存貯體必須位於您目前的 AWS 區域。URL 必須是 Amazon SageMaker AI 具有寫入許可的 s3:// 格式。檔案必須採用 CSV 或 Parquet 格式,且至少包含 500 列。選取瀏覽以捲動可用的路徑,選取預覽以查看輸入資料的範例。

    3. 您的 S3 輸入是清單檔案嗎? –資訊清單檔案包含輸入資料的中繼資料。中繼資料指定資料在 Amazon S3 中的位置。它還指定資料的格式以及訓練模型時要使用資料集中的哪些屬性。當您的標籤資料在 Pipe 模式進行串流傳輸時,您可以使用清單檔案作為預處理的替代方法。

    4. 自動拆分資料? –Autopilot 可以將您的資料分為 80-20%,用於訓練和驗證資料。如果您偏好自訂分割,您可以選擇指定分割比例。若要使用自訂資料集進行驗證,請選擇提供驗證集

    5. 輸出資料位置 (S3 儲存貯體)–您要存放輸出資料的 S3 儲存貯體位置的名稱。此儲存貯體的 URL 必須是 Amazon S3 格式,其中 Amazon SageMaker AI 具有寫入許可。S3 儲存貯體必須位於目前 AWS 區域。Autopilot 也可以在與輸入資料相同的位置為您建立此資料。

  6. 選擇下一步:目標和特徵目標和特徵索引標籤隨即開啟。

  7. 目標和特徵區段:

    • 選取要設定為模型預測目標的欄位。

    • 或者,您可以在樣本權重區段傳遞範例權重欄位的名稱,以要求在訓練和評估期間對您的資料集行進行加權。如需可用目標指標的詳細資訊,請參閱Autopilot 加權指標

      注意

      僅在整合模式下支援樣本權重。

    • 您還可以選取要進行訓練的特徵並變更其資料類型。可用的資料類型如下:TextNumericalCategoricalDatetimeSequenceAuto。根據預設,會選取所有特徵。

  8. 選擇下一步:訓練方法訓練方法索引標籤隨即開啟。

  9. 訓練方法區段,選取您的訓練選項:整合超參數最佳化(HPO)自動,讓 Autopilot 依據資料集大小自動選擇訓練方法。每種訓練模式都會在您的資料集執行一組預先定義的演算法來訓練候選模型。根據預設,Autopilot 會預先選取指定訓練模式的所有可用演算法。您可以使用所有演算法執行 Autopilot 訓練實驗,也可以選擇自己的子集。

    有關訓練模式和可用演算法的詳細資訊,請參閱訓練模式和演算法頁面中的 Autopilot 訓練模式區段。

  10. 選擇下一步:部署和進階設定以開啟部署和進階設定索引標籤。設定包括自動顯示端點名稱、機器學習問題類型,以及執行實驗的其他選項。

    1. 部署設定–Autopilot可以自動建立端點並為您部署模型。

      若要自動部署到自動產生的端點,或為自訂部署提供端點名稱,請將自動部署?的切換設定為。如果您從 Amazon SageMaker Data Wrangler 匯入資料,您可以使用其他選項來自動部署最佳模型,無論是否經過 Data Wrangler 的轉換。

      注意

      如果您的 Data Wrangler 流程包含多列作業 (例如 groupbyjoinconcatenate),則無法使用這些轉換進行自動部署。有關詳情,請參閱在資料流程自動訓練模型

    2. 進階設定 (選用) – Autopilot 提供額外的控制項以手動設定實驗參數,例如定義問題類型、Autopilot 任務與試驗的時間限制、安全性和加密設定。

      注意

      Autopilot 支援設定預設值,以簡化使用 Studio Classic 使用者介面的 Autopilot 實驗的組態。系統管理員可以使用 Studio Classic 生命週期組態 (LCC) 在組態檔中設定基礎結構、網路與安全性值,並預先填入 AutoML 任務的進階設定

      若要了解管理員如何自動自訂 Autopilot 實驗,請參閱設定 Autopilot 實驗的預設參數 (適用於管理員)

      1. 機器學習問題類型 – Autopilot 可以從您的資料集自動推論監督式學習問題的類型。如果您想要手動選擇,您可以透過選取機器學習問題類型下拉式功能表。請注意,預設為自動。在某些情況下,SageMaker AI 無法準確推論。發生這種情況時,您必須為任務的成功提供價值。特別是,您可以從以下類型進行選擇:

        • 二進位分類–二進位分類會根據其屬性 (例如根據診斷測試結果判斷某人患有疾病的診斷測試結果),將輸入資料分配給兩個預先定義且互斥的類別之一。

        • 迴歸 – 迴歸建立輸入變數 (也稱為自變數或特徵) 與目標變數 (也稱為從屬變數) 之間的關係。此關係透過將輸入變數對應至連續輸出的數學函式或模型擷取。它通常用於根據平方英尺及浴室數量、股市趨勢等特徵預測房價或估計銷售數據等任務。

        • 多類別分類 – 多類別分類會根據其屬性將輸入資料指派給其中一個類別,例如與文字文件最相關的主題 (例如政治、金融或哲學) 的預測。

      2. 執行期–您可以定義最大時間限制。達到時間限制時,超過時間限制的試驗及任務會自動停止。

      3. 存取 – 您可以選擇 Amazon SageMaker Studio Classic 所扮演的角色,以代表您暫時存取 AWS 服務 (特別是 SageMaker AI 和 Amazon S3)。如果沒有明確定義角色,Studio Classic 會自動使用附加至您的使用者設定檔的預設 SageMaker AI 執行角色。

      4. 加密 – 若要增強靜態資料的安全性並防止未經授權的存取,您可以指定加密金鑰來加密 Amazon S3 儲存貯體以及附加到 Studio Classic 網域的 Amazon Elastic Block Store (Amazon EBS) 磁碟區的資料。

      5. 安全性 – 您可以選擇執行 SageMaker AI 任務的虛擬私有雲 (Amazon VPC)。確保 Amazon VPC 有權存取您的輸入與輸出 Amazon S3 儲存貯體。

      6. 專案–指定要與此 Autopilot 實驗與模型輸出相關聯的 SageMaker AI 專案名稱。當您指定專案時,Autopilot 會將專案標記為實驗。這可讓您知道哪些模型輸出與此專案相關聯。

      7. 標籤–標籤是鍵值對的陣列。使用標籤對 AWS 服務 的資源進行分類,例如其用途、擁有者或環境。

    3. 選取下一步:檢視並建立以在建立 Autopilot 實驗之前取得其摘要。

  11. 選取建立實驗。建立實驗會在 SageMaker AI 中啟動 Autopilot 工作。Autopilot 提供實驗的狀態、筆記本中資料探索程序和候選模型的資訊、產生模型及其報告的清單,以及用於建立模型的工作設定檔。

    如需 Autopilot 任務所產生之筆記本的相關資訊,請參閱為管理 AutoML 任務而產生的 Autopilot 筆記本。有關每個候選模型及其報告的詳細資訊,請參閱檢視模型詳細資訊檢視 Autopilot 模型效能報告

注意

若要避免產生不必要的費用:如果您部署不再需要的模型,請刪除在該部署期間建立的端點和資源。如需按區域定價執行個體的相關資訊,請參閱 Amazon SageMaker 定價