Amazon SageMaker 中的內建演算法和預先訓練模型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker 中的內建演算法和預先訓練模型

Amazon SageMaker 提供一套內建演算法、預先訓練的模型和預先建置的解決方案範本,協助資料科學家和機器學習從業人員快速開始訓練和部署機器學習模型。對於 SageMaker 來說,為您的特定用例選擇正確的算法可能是一項具有挑戰性的任務。下表提供快速備忘單,顯示如何從範例問題或使用案例開始,並尋找 SageMaker 提供的適當內建演算法,該演算法適用於該問題類型。表格下方各節提供了由學習範式 (監督式和無監督) 和重要資料網域 (文字和影像) 所組織的其他指引。

表格:將使用案例對應至內建演算法

學習範式或領域 問題類型 範例問題和使用案例 資料輸入格式 內建演算法
預先訓練的模型和預建的解決方案範本

影像分類

表格分類

表格迴歸

文字分類

Object Detection

文字嵌入

問題回答

句子對分類

圖像嵌入

具名實體辨識

實例分割

產生文字

文字摘要

Semantic Segmentation

機器翻譯

以下是 Amazon SageMaker JumpStart 提供的預先訓練模型和預先建置解決方案範本可以解決的 15 個問題類型中的幾個範例:

問題回答:輸出特定問題答案的聊天機器人。

文字分析:分析特定於產業領域 (例如財務) 模型的文字。

圖像,文字,表格

受歡迎的機型,包括動員網,YOLO,更快的 R-CNN,BERT,lightGBM, 和 CatBoost

如需可用的預先訓練模型清單,請參閱 JumpStart 模型。

如需可用的預先建置解決方案範本清單,請參閱 JumpStart解決方案

監督式學習

二進制/多類別分類

預測項目是否屬於某個類別:電子郵件垃圾郵件過濾器

表格式

AutoGluon - 自列表格, CatBoost, Factorization Machines 演算法, K 近鄰 (k-NN) 演算法, LightGBM, 線性學習程式演算法, TabTransformer, XGBoost 演算法搭配 Amazon SageMaker AI

迴歸

預測數值/連續值:估計房子的價值

表格式

AutoGluon - 自列表格, CatBoost, Factorization Machines 演算法, K 近鄰 (k-NN) 演算法, LightGBM, 線性學習程式演算法, TabTransformer, XGBoost 演算法搭配 Amazon SageMaker AI

時間序列預測

根據行為的歷史資料,預測未來行為:根據先前的銷售資料預測新產品的銷售額。

表格式

使用 SageMaker AI DeepAR 預測演算法

嵌入:將高維對象轉換為低維空間。

改進高維度對象的資料嵌入:識別重複的支援票證或根據工單中的文字的相似性找到正確的路由

表格式 Object2Vec 演算法
無監督學習

特徵工程:尺寸減少

從與標籤/目標變量有弱關係的資料集中刪除這些列:預測其里程時汽車的顏色。

表格式

主成分分析 (PCA) 演算法

異常偵測

檢測應用中的異常行為:當 IoT 傳感器發送異常讀數時發現

表格式

隨機分割森林 (RCF) 演算法

IP 異常偵測

保護您的應用程式免受可疑使用者的攻擊:偵測存取服務的 IP 位址是否來自不良行為者

表格式

IP 深入分析

叢集或分組

將類似物件/資料分組在一起:從交易歷史記錄中尋找高、中和低支出客戶

表格式

K 平均數演算法

主題建模

將一組文件組織成主題 (未預先知道):根據文件中使用的術語,將文件標記為屬於醫療類別。

文字

隱含狄利克雷分布 (LDA) 演算法, 神經主題模型 (NTM) 演算法

文字分析

文字分類

為語料庫中的文件分配預先定義的類別:將圖書館中的書籍分類為學術學科

文字

BlazingText 演算法, 文字分類 - TensorFlow

機器翻譯

演算法

將文字從一種語言轉換為其他語言:西班牙文到英文

文字

序列對序列演算法

文字摘要

總結一個長文字語料庫:研究論文的摘要

文字

序列對序列演算法

語音轉文字

將音訊檔案轉換為文字:轉錄客服中心對話以供進一步分析

文字

序列對序列演算法

影像處理

圖像和多標籤分類

根據圖像內容標籤/標籤圖像:有關圖像中成人內容的警報

影像

影像分類 - MXNet

Image classification

使用轉移學習對圖像中的東西進行分類。

影像

影像分類 - TensorFlow

物體檢測和分類

檢測圖像中的人和物體:警察為失踪的人審核大型照片庫

影像

物件偵測 - MXNet, 物件偵測 - TensorFlow

電腦視覺

使用類別單獨標記圖像的每個像素:自動駕駛汽車準備以自己的方式識別物體

影像

語意分割演算法

如需 SageMaker AI 提供的所有內建演算法常見的下列項目重要資訊,請參閱內建演算法的參數

  • Docker 登錄檔路徑

  • 資料格式

  • 建議的 Amazon EC2 執行個體類型

  • CloudWatch 日誌

以下各節針對 Amazon SageMaker AI 內建演算法提供其他指引,並依其所屬的監督式和無監督學習範例分組。有關這些學習範式及其相關問題類型的說明,請參閱演算法類型。另外也提供 SageMaker AI 內建演算法的章節,可用來解決兩個重要的機器學習領域:文字分析和影像處理。

預先訓練的模型和解決方案範本

Amazon SageMaker JumpStart 提供各種預先訓練的模型、預先建置的解決方案範本,以及熱門問題類型的範例。這些範例使用 SageMaker SDK 以及 Studio Classic。如需這些模型、解決方案和 Amazon SageMaker JumpStart 所提供範例筆記本的詳細資訊,請參閱 SageMaker JumpStart 預先訓練模型

監督式學習

Amazon SageMaker AI 提供多種內建的一般用途演算法,可用於分類或迴歸問題。

  • AutoGluon - 自列表格 - 為開放原始碼 AutoML 框架,透過合併模型並將它們堆疊在多個圖層中來成功運作。

  • CatBoost - 為梯度提升樹演算法的實作,該算法引入了有序增強和用於處理分類功能的創新算法。

  • Factorization Machines 演算法 - 為線性模型的擴展,旨在高維度稀疏資料集內,以經濟實惠方式擷取各特徵之間的互動。

  • K 近鄰 (k-NN) 演算法 - 一種非參數方法,使用最接近 k 標籤點來指派值。對於分類,它是新資料點的標籤。對於迴歸,它是來自 k 最近點平均值的預測目標值。

  • LightGBM - 為梯度提升樹演算法的實作,該演算法增加了兩種新穎的技術以提高效率和可擴展性 這兩種新穎技術為:基於梯度的單側採樣 (GOSS) 和互斥特徵綁定 (EFB)。

  • 線性學習程式演算法 - 學習用於迴歸的線性函式,或用於分類的線性閾值函式。

  • TabTransformer - 建立在基於自我關注的變形金剛的新型深度表格資料建模架構。

  • XGBoost 演算法搭配 Amazon SageMaker AI——為梯度提升樹演算法的實作,該算法結合了來自一組簡單和較弱的模型的估計值。

Amazon SageMaker AI 也提供數種內建的監督式學習演算法,用於在特徵工程和時間序列資料預測期間執行更專業的任務。

  • Object2Vec 演算法 - 用於特徵工程的新型高度可自訂多用途演算法。它可以學習高維度物件的低維度密集嵌入,以產生可提高下游模型訓練效率的功能。雖然這是一種監督式演算法,因為它需要標籤的資料進行訓練,在許多情況下,關係標籤可以純粹從資料中的自然聚類中獲得,而無需任何明確的人工註釋。儘管它需要標記的資料來進行訓練,但這可以在沒有明確的人工註釋情況下發生。

  • 使用 SageMaker AI DeepAR 預測演算法 — 一種監督式學習演算法,利用遞迴神經網絡 (RNN) 來預測純量 (單一維度) 時間序列。

無監督學習

Amazon SageMaker AI 提供多種內建演算法,可用於各種無監督學習任務。這些任務包括叢集、降維、模式辨識和異常偵測等項目。

  • 主成分分析 (PCA) 演算法—透過將資料點投影到前幾個主體元件上,減少資料集內的維數 (特徵數量)。目標是保留盡可能多的資訊或變化。對於數學家來說,主分量是資料協方差矩陣的特徵向量。

  • K 平均數演算法—尋找資料中的離散分組。這種情況發生在一個群組內的成員盡可能彼此相似,而又與其他群組的成員盡可能不同的時候。

  • IP 深入分析——學習 IPv4 位址的使用模式。它旨在擷取 IPv4 地址和各種實體之間的關聯,例如使用者 ID 或帳戶號碼。

  • 隨機分割森林 (RCF) 演算法 - 檢測資料集中的異常資料點,這些資料點與其他結構良好或模式化的資料分歧。

文字分析

SageMaker AI 提供專為文字文件分析量身打造的演算法。這包括自然語言處理、文件分類或摘要、主題建模或分類以及語言轉錄或翻譯中使用的文字。

影像處理

SageMaker AI 還提供用於影像分類、物件偵測和電腦視覺的影像處理演算法。

  • 影像分類 - MXNet——使用含有答案的範例資料 (稱為監督式演算法)。使用此演算法分類影像。

  • 影像分類 - TensorFlow - 使用預先訓練的 TensorFlow Hub 模型來微調特定任務 (稱為監督式演算法)。使用此演算法分類影像。

  • 語意分割演算法 - 提供細微的像素層級方式,開發電腦視覺應用程式。

  • 物件偵測 - MXNet - 使用單個深度神經網路偵測和分類圖像中的物件。這是一種監督式學習演算法,可將影像做為輸入,並識別影像場景內的所有物件執行個體。

  • 物件偵測 - TensorFlow - 檢測圖像中的邊界框和物件標籤。這是一種監督式學習演算法,可透過預先訓練的 TensorFlow 模型支援轉移學習。