Amazon SageMaker の組み込みアルゴリズムと事前トレーニング済みモデル - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker の組み込みアルゴリズムと事前トレーニング済みモデル

Amazon SageMaker は、データサイエンティストや機械学習の実践者が機械学習モデルのトレーニングとデプロイを迅速に開始できるようにする一連の組み込みアルゴリズム、トレーニング済みモデルおよび構築済みソリューションテンプレートを提供しています。SageMaker を初めて使う方にとって、特定のユースケースに適したアルゴリズムを選択するのは難しい作業です。次の表に、サンプル問題またはユースケースから開始し、その問題タイプに有効な SageMaker によって提供される適切な組み込みアルゴリズムを見つける方法を示すクイックチートシートを示します。学習パラダイム (教師ありと教師なし) と重要なデータドメイン (テキストとイメージ) によって構成される追加のガイダンスについては、表の次のセクションを参照してください。

表: 組み込みアルゴリズムへのユースケースのマッピング

学習パラダイムまたはドメイン 問題タイプ 問題とユースケース例 データ入力形式 組み込みアルゴリズム
トレーニング済みのモデルと構築済みのソリューションテンプレート

イメージ分類

表形式分類

表形式回帰

テキスト分類

オブジェクト検出

テキスト埋め込み

質問への回答

センテンスペア分類

画像埋め込み

固有表現認識

インスタンスセグメンテーション

テキスト生成

テキスト要約

セマンティックセグメンテーション

機械翻訳

ここでは、Amazon SageMaker JumpStart が提供する事前トレーニング済みのモデルと構築済みのソリューションテンプレートで対処できる 15 の問題タイプのうち、いくつかの例を示します。

質問への回答: 指定された質問に対する回答を出力するチャットボット。

テキスト分析: 金融などの業界ドメイン固有のモデルからのテキストを分析します。

画像、テキスト、表形式

Mobilenet、YOLO、Faster R-CNN、BERT、LightGBM、CatBoost などの人気モデル

利用可能なトレーニング済みモデルのリストについては、「JumpStart Models」を参照してください。

利用可能な構築済みソリューションテンプレートのリストについては、「JumpStart Solutions」を参照してください。

教師あり学習

二項/複数クラス分類

項目がカテゴリに属しているかどうかを予測する: メールスパムフィルター

表形式

AutoGluon-Tabular, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, Amazon SageMaker AI の XGBoost アルゴリズム

リグレッション

数値/連続値を予測する: 家の価値を推定

表形式

AutoGluon-Tabular, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, Amazon SageMaker AI の XGBoost アルゴリズム

時系列予測

行動の履歴データに基づいて将来の行動を予測する: 以前の売上データに基づいて新製品の売上を予測

表形式

SageMaker AI DeepAR 予測アルゴリズムを使用する

埋め込み: 高次元のオブジェクトを低次元空間に変換します。

高次元オブジェクトのデータ埋め込みを改善する: 重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを検出

表形式 Object2Vec アルゴリズム
教師なし学習

特徴量エンジニアリング: 次元縮退

ラベル/ターゲット変数と関係が弱い列をデータセットからドロップする: 走行距離の予測時の車の色

表形式

主成分分析法 (PCA) アルゴリズム

異常検出

アプリケーションの異常動作を検出する: IoT センサーが異常な読み取り値を送信することを特定

表形式

ランダムカットフォレスト (RCF) アルゴリズム

IP 異常検出

疑わしいユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターによるものかどうかを検出

表形式

IP Insights

クラスタリングまたはグループ化

類似するオブジェクト/データをグループ化する: トランザクション履歴から高、中、低支出の顧客を検出

表形式

K-Means アルゴリズム

トピックのモデリング

一連のドキュメントをトピックに整理する (事前に確認できない): ドキュメントで使用されている用語に基づいてドキュメントを医療カテゴリに属するものとしてタグ付け

テキスト

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

テキスト分析

テキスト分類

コーパス内のドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を学問分野別に分類

テキスト

BlazingText アルゴリズム, テキスト分類 - TensorFlow

機械翻訳

アルゴリズム

ある言語から別の言語にテキストを変換する: スペイン語から英語

テキスト

Sequence to Sequence アルゴリズム

テキスト要約

長いテキストコーパスを要約する: 研究論文の要約

テキスト

Sequence to Sequence アルゴリズム

音声をテキストに

オーディオファイルをテキストに変換する: コールセンターの会話を書き起こしてさらに分析

テキスト

Sequence to Sequence アルゴリズム

画像処理

イメージおよびマルチラベル分類

イメージのコンテンツに基づいてイメージにラベル/タグを付ける: イメージ内のアダルトコンテンツに関するアラート

Image

画像分類 - MXNet

イメージ分類

転移学習を使用して画像内の何かを分類します。

Image

画像分類 - TensorFlow

オブジェクトの検出と分類

イメージ内の人や物体を検出する: 警察が行方不明の人物について大きなフォトギャラリーをレビュー

Image

オブジェクト検出 - MXNet, オブジェクト検出 - TensorFlow

コンピュータビジョン

画像のすべてのピクセルにカテゴリを個別にタグ付けする: 自動運転車が道中で物体を識別する準備を整える

Image

セマンティックセグメンテーションアルゴリズム

SageMaker AI が提供するすべての組み込みアルゴリズムに共通する以下の項目の重要な情報については、「組み込みアルゴリズムのパラメータ」を参照してください。

  • Docker レジストリパス

  • データ形式

  • 推奨される Amazon EC2 インスタンスタイプ

  • CloudWatch ログ

次のセクションでは、属している教師あり学習パラダイムと教師なし学習パラダイム別にグループ化された Amazon SageMaker AI 組み込みアルゴリズムに関する追加のガイダンスを示します。これらの学習パラダイムとそれに関連する問題タイプの詳細については、「アルゴリズムのタイプ」を参照してください。また、テキスト解析と画像処理という 2 つの重要な機械学習ドメインに対処するために使用できる SageMaker AI 組み込みアルゴリズムに関するセクションも用意されています。

事前トレーニング済みモデルとソリューションテンプレート

Amazon SageMaker JumpStart は、トレーニング済みのさまざまなモデル、構築済みのソリューションテンプレート、一般的な問題タイプの例を提供します。これらは SageMaker SDK と Studio Classic を使用します。Amazon SageMaker JumpStart が提供するモデル、ソリューション、サンプルノートブックの詳細については、「」を参照してくださいSageMaker JumpStart の事前トレーニング済みモデル

教師あり学習

Amazon SageMaker AI には、分類問題または回帰問題に使用できる組み込みの汎用アルゴリズムがいくつか用意されています。

  • AutoGluon-Tabular — モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。

  • CatBoost - 順序付けされたブースティングとカテゴリ別機能を処理するための革新的なアルゴリズムを導入する勾配ブーストツリーアルゴリズムの実装。

  • 因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。

  • K 最近傍 (k-NN) アルゴリズム — K 個の最も近いラベル付きポイントを使用して値を割り当てるノンパラメトリック手法。分類の場合は、新しいデータポイントに対するラベルとなり、リグレッションの場合は、K 個の最も近いポイントの平均から予測されるターゲット値となります。

  • LightGBM — 効率とスケーラビリティを向上させるための 2 つの新しい技法を追加した勾配ブーストツリーアルゴリズムの実装。2 つの新しい技法は、Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB) です。

  • 線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。

  • TabTransformer — セルフアテンションベースの Transformers で構築された、新しい深層表形式データモデル化アーキテクチャ。

  • Amazon SageMaker AI の XGBoost アルゴリズム - より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。

Amazon SageMaker AI には、時系列データからの特徴量エンジニアリングおよび予測時のより特殊なタスクに使用される、教師あり学習アルゴリズムもいくつか組み込まれています。

  • Object2Vec アルゴリズム — 特徴量エンジニアリングに使用される新しい高度にカスタマイズ可能な汎用アルゴリズム。高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上する特徴を生成できます。教師ありアルゴリズムではあるものの、データ内の自然なクラスタリングから関係ラベルを単純に取得できるシナリオが多数あります。トレーニングのためにラベル付きデータが必要ですが、人間による明示的な注釈なしの学習が可能です。

  • SageMaker AI DeepAR 予測アルゴリズムを使用する - 予測アルゴリズムは、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測する教師あり学習アルゴリズム。

教師なし学習

Amazon SageMaker AI には、多様な教師なし学習タスクに使用できる組み込みアルゴリズムがいくつか用意されています。これらのタスクには、クラスタリング、次元削減、パターン認識、異常検出などが含まれます。

  • 主成分分析法 (PCA) アルゴリズム - データポイントを最初のいくつかの主成分に射影することにより、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。

  • K-Means アルゴリズム — データ内にある離散グループを検出します。同一グループのメンバーができるだけ類似し、かつ他のグループのメンバーとできるだけ異なるものを特定します。

  • IP Insights - IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。

  • ランダムカットフォレスト (RCF) アルゴリズム - その他の高度に構造化またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker AI は、テキスト文書の分析用に調整されたアルゴリズムを提供しています。対象となるのは、自然言語処理、文書の分類または要約、トピックのモデリングまたは分類、言語の文字起こしまたは翻訳で使用されるテキストです。

  • BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くの下流の自然言語処理 (NLP) タスクに役立ちます。

  • Sequence to Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。

  • テキスト分類 - TensorFlow — テキスト分類用のトレーニング済みモデルを使用して転移学習をサポートする教師ありアルゴリズム。

画像処理

SageMaker AI は、イメージ分類、オブジェクト検出、コンピュータビジョンに使用される画像処理アルゴリズムも提供しています。

  • 画像分類 - MXNet - 回答を含むサンプルデータを使用します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。

  • 画像分類 - TensorFlow — トレーニング済 TensorFlow Hub モデルを使用して、特定のタスクに合わせて微調整します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム - コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。

  • オブジェクト検出 - MXNet — 1 つの深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。

  • オブジェクト検出 - TensorFlow — 画像内の境界ボックスとオブジェクトラベルを検出します。これは教師あり学習アルゴリズムで、利用可能なトレーニング済み TensorFlow モデルによる転移学習をサポートします。