マルチコンテナエンドポイントをオートスケーリングする - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

マルチコンテナエンドポイントをオートスケーリングする

InvocationsPerInstance メトリクスを使って、マルチコンテナエンドポイントのオートスケーリングを設定する場合、各コンテナでは、推論リクエストに対して同様の CPU 使用率とレイテンシーを示すモデルを使うことをお勧めします。これが推奨されるのは、マルチコンテナエンドポイントへのトラフィックが CPU 使用率が低いモデルから CPU 使用率が高いモデルに変化しても、全体的な呼び出しボリュームが同じままである場合、エンドポイントはスケールアウトされないためです。また、CPU 使用率が高いモデルに対するすべてのリクエストを処理するインスタンスが足りなくなる可能性があります。エンドポイントをオートスケーリングする方法については、「Amazon SageMaker AI モデルの自動スケーリング」を参照してください。