

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon SageMaker AI による推論の次のステップ
<a name="deploy-model-next-steps"></a>

エンドポイントを用意し、一般的な推論ワークフローを理解したら、SageMaker AI の以下の機能を使用して推論ワークフローを改善させることができます。

## モニタリング
<a name="deploy-model-next-steps-monitoring"></a>

モデルの精度やドリフトなどの指標を使用してモデルを時系列的に追跡するには、Model Monitor を使用します。Model Monitor では、モデルの品質に偏差がある場合に通知するアラートを設定できます。詳細については、 [モデルモニタードキュメント](https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor.html)を参照してください。

モデルのデプロイおよびエンドポイントを変更するイベントの監視に使用できるツールの詳細については、「[Monitor Amazon SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-overview.html)」を参照してください。たとえば、Amazon CloudWatch メトリクスを使用して、呼び出しエラーやモデルレイテンシーなどのメトリクスによりエンドポイントの状態を監視できます。[SageMaker AI エンドポイント呼び出しメトリクス](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-endpoint-invocation)は、エンドポイントのパフォーマンスに関する貴重な情報を提供できます。

## モデルのデプロイのための CI/CD
<a name="deploy-model-next-steps-cicd"></a>

SageMaker AI の機械学習ソリューションをまとめるには、[SageMaker AI MLOps](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-projects.html) を使用します。この機能を使用すると、機械学習ワークフローのステップを自動化して、CI/CD を実践できます。[MLOps プロジェクトテンプレート](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-projects-templates.html)を使用すると、SageMaker AI MLOps プロジェクトのセットアップと実装に役立ちます。SageMaker AI では、CI/CD システムを作成するための独自の[サードパーティ Git リポジトリ](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-projects-walkthrough-3rdgit.html)を使用に対応しています。

ML パイプラインについては、[モデルレジストリ](https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry.html)を使用してモデルバージョンとモデルのデプロイと自動化を管理します。

## デプロイガードレール
<a name="deploy-model-next-steps-guardrails"></a>

本番環境に影響を与えずに本番稼働中にモデルを更新する場合、デプロイガードレールを使用できます。デプロイガードレールは、本番環境で機械学習モデルを更新するための SageMaker AI 推論の一連のモデルデプロイオプションです。このフルマネージドデプロイオプションを使うと、本番環境の現在のモデルから新しいモデルへの切り替えをコントロールできます。トラフィックシフトモードを使用すると、トラフィックシフトプロセスをきめ細かく制御できます。また、自動ロールバックなどの組み込みの保護機能により、問題を早期に発見できます。

デプロイガードレールの詳細については、[デプロイガードレールのドキュメント](https://docs.aws.amazon.com/sagemaker/latest/dg/deployment-guardrails.html)を参照してください。

## Inferentia
<a name="deploy-model-next-steps-inferentia"></a>

大規模な機械学習や深層学習のアプリケーションを実行する必要がある場合は、リアルタイムエンドポイントを備えた `Inf1` インスタンスを使用できます。このインスタンスタイプは、画像や音声の認識、自然言語処理 (NLP)、パーソナライゼーション、予測、不正検出などのユースケースに適しています。

`Inf1` インスタンスは、機械学習推論アプリケーションをサポートし、Inferentia チップを搭載するように構築されています。 AWS `Inf1`インスタンスは、GPU ベースのインスタンスよりもスループットが高く、推論あたりのコストが低くなります。

`Inf1` インスタンスにモデルをデプロイするには、SageMaker Neo でモデルをコンパイルし、デプロイオプションとして `Inf1` インスタンスを選択します。詳細については、「[Optimize model performance using SageMaker Neo (SageMaker Neo を使用してモデルのパフォーマンスを最適化する)](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html)」を参照してください。

## モデルパフォーマンスの最適化
<a name="deploy-model-next-steps-optimize"></a>

SageMaker AI は、機械学習モデルを導入する際にリソースを管理し、推論性能を最適化する機能を提供します。SageMaker AI の[組み込みアルゴリズムおよび構築済みモデル](https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html)のほか、機械学習用に開発された構築済みの [Docker イメージ](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-prebuilt.html)も使用できます。

モデルをトレーニングし、デプロイ用に最適化するには、「[Prebuilt Docker images](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-prebuilt.html)」および「[Optimize model performance using SageMaker Neo](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html)」を参照してください。SageMaker Neo では、TensorFlow、Apache MXNet、PyTorch、ONNX、XGBoost のモデルをトレーニングし、最適化して ARM、Intel、および Nvidia プロセッサ上にデプロイできます。

## 自動スケーリング
<a name="deploy-model-next-steps-autoscaling"></a>

エンドポイントへのトラフィックの量が変化する場合は、オートスケーリングを試してください。例えば、ピーク時には、リクエストを処理するためにインスタンス数を増やす必要がありますが、トラフィックが少ない時間帯には、コンピューティングリソースの使用を減らしたい場合が考えられます。ワークロードの変動に応じて、プロビジョニングされたインスタンスの数を動的に調整するには、[Amazon SageMaker AI モデルの自動スケーリング](endpoint-auto-scaling.md) を参照してください。

トラフィックパターンを予測できない場合や、スケーリングポリシーを設定しない場合は、エンドポイントに対してサーバーレス推論を使用することもできます。その場合は、SageMaker AI が自動スケーリングを管理します。SageMaker AI は、トラフィックが少ない期間にはエンドポイントをスケールダウンし、トラフィックが増加すると、エンドポイントをスケールアップします。詳細については、[Amazon SageMaker Serverless Inference を使用してモデルをデプロイする](serverless-endpoints.md) ドキュメントを参照してください。