本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker Autopilot
重要
自 2023 年 11 月 30 日起,Autopilot 的使用者介面將移至 Amazon SageMaker Canvas,作為更新的 Amazon SageMaker Studio 體驗的一部分。SageMaker Canvas 為分析師和公民資料科學家提供無程式碼功能,例如資料準備、特徵工程、演算法選擇、訓練和調校、推論等。使用者可以利用內建視覺效果和假設分析,探索其資料和不同案例,並透過自動化預測輕鬆產生模型。Canvas 支援各種使用案例,包括電腦視覺、需求預測、智慧搜尋和生成式 AI。
Amazon SageMaker Studio Classic (Studio 的先前體驗) 的使用者可以繼續使用 Studio Classic 的 Autopilot 使用者介面。具編碼經驗的使用者可以繼續使用任何支援 SDK 中的 API 參考,以進行技術實作。
如果您在 Studio Classic 中一直使用 Autopilot,並且想遷移至 SageMaker Canvas,您可能需要將其他許可授予使用者設定檔或 IAM 角色,以建立和使用 SageMaker Canvas 應用程式。如需詳細資訊,請參閱(選用) 從 Studio Classic 中的 Autopilot 遷移至 SageMaker Canvas。
本指南中所有使用者介面相關的指示,均涉及移至 Amazon SageMaker Canvas 之前的 Autopilot 獨立功能。遵循這些指示的使用者應使用 Studio Classic。
Amazon SageMaker Autopilot 是一種功能集,可透過自動化建置和部署機器學習模型 (AutoML) 的程序,簡化並加速機器學習工作流程的各個階段。下頁說明 Amazon SageMaker Autopilot 的重要資訊。
Autopilot 會執行下列可在 Autopilot 上使用的關鍵任務,或是在不同程度的人工指引下使用執行下列關鍵任務:
-
資料分析和預先處理:Autopilot 可識別您的特定問題類型、處理缺少值、標準化資料、選取功能,並準備總體資料進行模型訓練。
-
模型選取:Autopilot 探索各種演算法,並使用交叉驗證重新取樣技術來產生指標,這些指標根據預先定義的目標指標來評估演算法的預測品質。
-
超參數最佳化:Autopilot 可自動化搜尋最佳的超參數組態。
-
模型訓練與評估:Autopilot 可自動化訓練和評估各種模型候選項目的程序。它會將資料分割成訓練集和驗證集,使用訓練資料來訓練選取的模型候選項目,並評估驗證集看不到之資料上的效能。最後,它會根據效能對最佳化模型候選項目進行排名,並識別最佳執行模型。
-
模型部署:Autopilot 已識別最佳執行模型後,會產生模型成品和公開 API 的端點,提供自動部署模型的選項。外部應用程式可以將資料傳送到端點,並收到相對應的預測或推論。
Autopilot 支援在高達數百 GB 的大型資料集建立機器學習模型。
下圖概述了由 Autopilot 管理的此 AutoML 程序的任務。
取決於您對機器學習程序和編碼體驗的舒適程度,您可以以不同方式使用 Autopilot:
-
使用 Studio Classic 使用者介面,使用者可以選擇無需編寫程式碼的操作體驗,也可以保留一定程度的人為輸入。
注意
只有建立來源是迴歸或分類等問題類型之表格式資料的實驗,才能透過 Studio Classic 使用者介面取得。
-
使用 AutoML API,具有編寫程式碼經驗的使用者可以使用提供的 SDK 來建立 AutoML 任務。此方法提供更大的彈性和自訂選項,適用於所有問題類型。
Autopilot 目前支援下列問題類型:
注意
針對涉及表格式資料的迴歸或分類問題,使用者可以在兩個選項之間進行選擇:使用 Studio Classic 使用者介面或 API 參考。
文字和影像分類、時間序列預測以及大型語言模型的微調等任務,僅能透過 AutoML REST API 第 2 版獨家取得。如果您選擇的語言是 Python,您可以直接參考 適用於 Python (Boto3) 的 AWS SDK
偏好使用者介面便利性的使用者,可以使用 Amazon SageMaker Canvas 存取預先訓練的模型、生成式 AI 基礎模型,或建立針對特定文字、影像分類、預測需求或生成式 AI 量身打造的自訂模型。
-
具有表格式資料格式為 CSV 或 Parquet 檔案的迴歸、二元分類和多類別分類,其中每一欄都包含具有特定資料類型的特徵,且每一列都包含一個觀察。已接受的欄位資料類型包含由逗號分隔數字字串組成的數字、分類、文字和時間序列。
-
若要使用 SageMaker API 參考建立 Autopilot 任務做為試驗實驗,請參閱使用 AutoML API 建立表格式資料的迴歸或分類任務。
-
若要使用 Studio Classic 使用者介面建立 Autopilot 任務作為試點實驗,請參閱使用 Studio Classic 使用者介面為表格式資料建立迴歸或分類 Autopilot 實驗。
-
如果您是想要在 Studio Classic 使用者介面預先設定 Autopilot 實驗的預設基礎結構、網路或安全性參數的管理員,請參閱設定 Autopilot 實驗的預設參數 (適用於管理員)。
-
-
具有資料格式為 CSV 或 Parquet 檔案的文字分類,其中一欄會提供要分類的句子,而另一欄則應提供對應的類別標籤。請參閱 使用 API 建立用於文字分類的 AutoML 任務。
-
具有 PNG、JPEG 或兩者組合等影像格式的影像分類。請參閱使用 AutoML API 建立影像分類任務。
-
使用格式化為 CSV 或 Parquet 檔案的時間序列資料進行時間序列預測。請參閱使用 API 建立用於時間序列預測的 AutoML 任務。
-
使用格式為 CSV 或 Parquet 檔案的資料對大型語言模型 (LLM) 進行微調,以產生文字。請參閱使用 API 建立微調文字生成模型的 AutoML 任務。
此外,Autopilot 透過自動產生顯示每個單獨功能之重要性的報告,協助使用者了解模型如何進行預測。這對影響預測的因素提供透明度和深入分析,風險和合規團隊以及外部監管機構可以使用這些因素。Autopilot 也提供模型效能報告,其中包含評估指標總結、混淆矩陣、接收器操作特性曲線和精確重新呼叫曲線等各種視覺化等。每份報告的具體內容取決於 Autopilot 實驗的問題類型而有所不同。
Autopilot 實驗中最佳模型候選的可解釋性和效能報告適用於文字、圖像和表格資料分類問題類型。
針對迴歸或分類等表格式資料使用案例,Autopilot 透過產生包含用於探索資料並尋找最佳執行模型程式碼的筆記本,提供資料如何編寫以及如何選取、訓練和調校模型候選項目的額外可見性。這些筆記本提供互動式探索環境,可協助您了解各種輸入的影響或在實驗中取得的權衡。您可以自行修改 Autopilot 所提供的資料探勘和候選定義筆記本,進一步實驗較高的執行模型候選項目。
使用 Amazon SageMaker AI,您只需按實際用量付費。根據您的用量,您需要支付 SageMaker AI 或其他AWS服務中的基礎運算和儲存資源。如需使用 SageMaker AI 成本的詳細資訊,請參閱 Amazon SageMaker AI 定價