Amazon SageMaker AI で Triton Inference Server を使用するためのリソース

SageMaker AI では、NVIDIA Triton Inference Server を使用するカスタムコードを使ってモデルをデプロイできます。SageMaker AI で Triton Inference Server を使用する方法の詳細については、以下のリソースを参照してください。

Triton Inference Server コンテナの開発を通してこの機能を利用できます。これらのコンテナには、NVIDIA Triton Inference Server、一般的な ML フレームワークのサポート、SageMaker AI でのパフォーマンスを最適化できる便利な環境変数が含まれています。使用可能な Deep Learning Containers イメージの完全なリストについては、「使用可能な Deep Learning Containers イメージ」を参照してください。Deep Learning Containers イメージは保守されており、セキュリティパッチで定期的に更新されています。

SageMaker Python SDK では、Triton Inference Server コンテナを SageMaker AI モデル内の他のコンテナと同じように使用できます。ただし、SageMaker Python SDK の使用は任意です。Triton 推論サーバーコンテナは、 AWS CLIおよびで使用できますAWS SDK for Python (Boto3)。

NVIDIA Triton Inference Server の詳細については、Triton ドキュメントを参照してください。

推論

注記

Triton Python バックエンドは、共有メモリ (SHMEM) を使用してコードを Triton に接続します。SageMaker AI Inference はインスタンスメモリの最大半分を SHMEM として提供するため、メモリ容量の大きいインスタンスを使用して SHMEM サイズを増大できます。

推論では、トレーニング済みの Triton Inference Server モデルまたは事前トレーニング済みの Triton Inference Server モデルのいずれかを使って、SageMaker AI に推論ジョブをデプロイできます。

Triton Inference Server コンテナの主な機能は次のとおりです。

複数フレームワークのサポート: Triton は、すべての主要な機械学習フレームワークからのモデルのデプロイに使用できます。Triton は TensorFlow GraphDef、SavedModel、ONNX、PyTorch TorchScript、TensorRT、カスタムの Python/C++ のモデル形式をサポートしています。
モデルのパイプライン: Triton のモデルアンサンブルは、事前/事後処理ロジックと、それらの間の入力および出力テンソルの接続を持つ、1 モデルからなるパイプラインを意味します。アンサンブルが 1 件の推論リクエストを受け取ると、パイプライン全体の実行がトリガーされます。
モデルの同時実行: 同じモデルの複数のインスタンスを、同じ GPU または複数の GPU で同時に実行できます。
動的バッチ処理: Triton には複数の組み込みスケジューリングアルゴリズムとバッチ処理アルゴリズムがあり、バッチ処理をサポートするモデルでは、個々の推論リクエストをまとめて、推論スループットを向上させます。これらのスケジューリングおよびバッチ処理の決定は、推論をリクエストするクライアントには透過的です。
多様な CPU と GPU のサポート: 柔軟性を最大化し、不均一なコンピューティング要件をサポートするために、モデルは CPU または GPU で実行できるようになっています。

何をしたいですか?

SageMaker AI に独自のトレーニング済み PyTorch モデルをデプロイしたい。: Jupyter Notebook の例については、Triton 推論サーバーの例を使用した PyTorch Resnet50 モデルのデプロイを参照してください。
SageMaker AI に独自のトレーニング済み Hugging Face モデルをデプロイしたい。: Jupyter Notebook の例については、Triton 推論サーバーの例を使用した PyTorch BERT モデルのデプロイを参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

TensorFlow

API リファレンス