本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自訂模型的運作方式
使用 Amazon SageMaker Canvas 以已匯入的資料集上建立自訂模型。使用您建立的模型來對新資料進行預測。SageMaker Canvas 會使用資料集中的資訊建立最多 250 個模型,並選擇效能最佳的模型。
開始建立模型時,Canvas 會自動建議一個或多個模型類型。模型類型屬於下列其中一種類別:
-
數值預測 — 這在機器學習中稱為迴歸。當您要預測數值資料時,請使用數值預測模型類型。例如,您可能想要根據房屋的平方英尺等功能來預測房價。
-
分類預測 — 這在機器學習中稱為分類。當您要將資料分類為群組時,請使用分類預測模型類型:
-
2 類別預測 — 當您有兩個要預測資料的類別時,請使用 2 類別預測模型類型 (在機器學習中也稱為二進制分類)。例如您可能想要判斷客戶是否可能流失。
-
3+ 類別預測 — 當您有三個以上要預測資料的類別時,請使用 3+ 類別預測模型類型 (在機器學習中也稱為多類別分類)。例如,您可能想要根據先前付款等功能來預測客戶的貸款狀態。
-
-
時間序列預測 — 當您想要預測一段時間內的狀況時,請使用時間序列預測。例如,您可能想要預測下一季出售的物品數量。如需有關時間序列預測的資訊,請參閱 Amazon SageMaker Canvas 中的時間序列預測。
-
影像預測 — 當您要為影像指派標籤時,請使用單一標籤影像預測模型類型 (在機器學習中也稱為單一標籤影像分類)。例如,您可能想要分類產品影像中不同類型的製造瑕疵。
-
文字預測 — 當您要將指派標籤給文字段落時,請使用多類文字預測模型類型 (在機器學習中也稱為多類別文字分類)。例如,您可能有產品的客戶評論資料集,並且您想要決定客戶是否喜歡或不喜歡該產品。您可能會讓模型預測指定的文字段落是
Positive、Negative或Neutral。
如需每個模型類型支援之輸入資料類型的資料表,請參閱自訂模型。
針對您建立的每個表格式資料模型 (包括數值、分類、時間序列預測和文字預測模型),您可以選擇目標欄。目標欄是包含您要預測之資訊的資料欄。例如,如果您正在建立模型以預測人們是否已取消訂閱,則目標欄包含關於某人取消狀態為 yes 或 no 的資料點。
針對影像預測模型,您可以使用已指派標籤的影像資料集來建立模型。針對您提供的未標籤影像,模型會預測標籤。例如,如果您要建立模型來預測影像是貓還是狗,則您會在建置模型時會提供標示為貓或狗的影像。然後該模型可以接受未標籤的影像,並預測其為貓或狗。
建立模型時會出現的情況
若要建立模型,您可以選擇快速建置或標準建置。快速建置的建置時間較短,但標準建置的準確性通常更高。
針對表格式和時間序列預測模型,Canvas 會使用縮減取樣,分別減少大於 5 GB 或 30 GB 的資料集大小。Canvas 使用分層取樣方法縮減取樣。下表依模型類型列出縮減取樣的大小。若要控制取樣程序,您可以使用 Canvas 中的 Data Wrangler,以您偏好的取樣技術進行取樣。針對時間序列資料,您可以重新取樣以彙總資料點。如需取樣的詳細資訊,請參閱抽樣。如需重新取樣時間序列資料的詳細資訊,請參閱重新取樣時間序列資料。
如果您選擇在超過 50,000 個資料列的資料集上執行快速建置,則 Canvas 會將您的資料取樣量降到 50,000 個資料列,以縮短模型訓練時間。
下表摘要說明模型建置程序的關鍵特性,包括每個模型和建置類型的平均建置時間、使用大型資料集建置模型時的縮減取樣大小,以及針對每個建置類型,您應具有的資料點數量下限和上限。
| 限制 | 數值和分類預測 | 時間序列預測 | 影像預測 | 文字預測 |
|---|---|---|---|---|
快速建置時間 |
2 - 20 分鐘 |
2 - 20 分鐘 |
15 - 30 分鐘 |
15 - 30 分鐘 |
標準建置時間 |
2 - 4 小時 |
2 - 4 小時 |
2 - 5 小時 |
2 - 5 小時 |
縮減取樣大小 (Canvas 縮減取樣後大型資料集減少的大小) |
5 GB |
30 GB |
N/A |
N/A |
快速建置的項目數下限 (列) |
2 個類別:500 列 3 個以上類別、數值、時間序列:N/A |
N/A |
N/A |
N/A |
標準建置的項目數下限 (列、影像或文件) |
250 |
50 |
50 |
N/A |
快速建置的項目數上限 (列、影像或文件) |
N/A |
N/A |
5000 |
7500 |
標準建置的項目數上限 (列、影像或文件) |
N/A |
150,000 |
180,000 |
N/A |
欄數上限 |
1,000 |
1,000 |
N/A |
N/A |
Canvas 會透過使用在資料集其餘部分的資訊來預測值,取決於模型類型:
-
針對分類預測,Canvas 將每一列放入目標欄中列出的其中一個類別中。
-
針對數值預測,Canvas 會使用資料集中的資訊來預測目標欄中的數值。
-
針對時間序列預測,Canvas 使用歷史資料來預測未來的目標欄數值。
-
針對影像預測,Canvas 使用已指派標籤的影像來預測未標籤影像的標籤。
-
針對文字預測,Canvas 會分析已指派標籤的文字資料,以預測未標籤文字段落的標籤。
可協助您建置模型的其他功能
在建置您的模型之前,您可以使用 Canvas 中的 Data Wrangler,利用 300 多個內建轉換和運算子來準備資料。Data Wrangler 同時支援表格式和影像資料集的轉換。此外,您可以連線至 Canvas 外部的資料來源、建立任務以將轉換套用至整個資料集,以及匯出完全準備和清理的資料,以便在 Canvas 外部的 ML 工作流程中使用。如需詳細資訊,請參閱資料準備。
若要查看視覺化和分析如何探索您的資料,並判斷您的模型中要包含哪些功能,您可以使用 Data Wrangler 的內建分析。您也可以存取資料品質和洞見報告,其中強調資料集的潛在問題,並提供如何修正這些問題的建議。如需詳細資訊,請參閱執行探索性資料分析 (EDA)。
除了透過 Data Wrangler 提供的更進階資料準備和探索功能之外,Canvas 還提供了一些您可以使用的基本功能:
若要篩選您的資料並存取一組基本資料轉換,請參閱準備用於模型建置的資料。
若要存取簡單的視覺化和分析進行功能探索,請參閱資料探索和分析。
若要進一步了解其他功能,例如預覽模型、驗證資料集,以及變更用於建立模型的隨機範例大小,請參閱預覽模型。
針對具有多個資料欄的表格式資料集 (例如用於建立分類、數值或時間序列預測模型類型的資料集),您可能會有遺失資料點的資料列。當 Canvas 建置模型時,它會自動新增缺少值。Canvas 會使用資料集中的值來執行缺少值的數學近似值。為了獲得最高的模型精確度,我們建議您在加入遺失資料中 (如果可以找到)。請注意,文字預測或影像預測模型不支援遺失資料功能。
開始使用
若要開始建置自訂模型,請參閱建立模型並遵循您要建置之模型類型的程序。