直接呼び出しが設定されたマルチコンテナエンドポイントのメトリクス - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

直接呼び出しが設定されたマルチコンテナエンドポイントのメトリクス

Amazon CloudWatch における Amazon SageMaker AI メトリクス」に示されているエンドポイントメトリックスに加えて、SageMaker AI はコンテナ単位のメトリクスも提供します。

直接呼び出しが設定されたマルチコンテナエンドポイントのコンテナ単位のメトリクスは CloudWatch にあり、AWS/SageMakeraws/sagemaker/Endpoints の 2 つの名前空間に分類されています。AWS/SageMaker 名前空間には、呼び出し関連のメトリクスが含まれており、aws/sagemaker/Endpoints 名前空間には、メモリおよび CPU 使用率のメトリクスが含まれています。

次の表は、直接呼び出しが設定されたマルチコンテナエンドポイントの、コンテナ単位のメトリクスを示しています。すべてのメトリクスは [EndpointName, VariantName, ContainerName] ディメンションを使います。特定のバリアントと特定のコンテナに対応するディメンションは、特定のエンドポイントのメトリクスをフィルタリングします。これらのメトリクスは、推論パイプラインのメトリクス名と同じメトリクス名を共有しますが、共有レベルはコンテナ単位 [EndpointName, VariantName, ContainerName] です。

メトリクス名 説明 ディメンション NameSpace
Invocations エンドポイント内のコンテナに送信された InvokeEndpoint リクエストの数。そのコンテナに送信されたリクエストの合計数を得るには、Sum 統計を使います。単位: なし、有効な統計: SumSample Count EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation4XX Errors 特定のコンテナについて、モデルが 4xx HTTP レスポンスコードを返した InvokeEndpoint リクエスト数。各 4xx レスポンスに、SageMaker AI は 1 を送信します。単位: なし、有効な統計: AverageSum EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation5XX Errors 特定のコンテナについて、モデルが 5xx HTTP レスポンスコードを返した InvokeEndpoint リクエスト数。各 5xx レスポンスに、SageMaker AI は 1 を送信します。単位: なし、有効な統計: AverageSum EndpointName, VariantName, ContainerName AWS/SageMaker
ContainerLatency SageMaker AI から見たときに、ターゲットコンテナが応答にかかった時間。ContainerLatency には、リクエストを送信し、モデルのコンテナからレスポンスを取得するのにかかった時間と、コンテナ内で推論を完了するのにかかる時間が含まれます。単位: マイクロ秒、有効な統計: AverageSumMinMaxSample Count EndpointName, VariantName, ContainerName AWS/SageMaker
OverheadLatency オーバーヘッドのため、SageMaker AI によるクライアントリクエストへの応答にかかった時間に加算される時間。OverheadLatency は、SageMaker AI がリクエストを受信してからクライアントにレスポンスを返すまでの時間から ModelLatency を引いたものです。オーバーヘッドのレイテンシーは、リクエストとレスポンスのペイロードサイズ、リクエストの頻度、リクエストの認証、認可などの要因によって異なります。単位: マイクロ秒、有効な統計: AverageSumMinMax、Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
CPUUtilization インスタンスで実行されているコンテナが使っている CPU ユニットの割合。値の範囲は 0%~100% で、CPU の数で乗算されます。例えば、CPU が 4 つの場合、CPUUtilization は 0%~400% になります。直接呼び出しが設定されたエンドポイントの場合、CPUUtilization メトリクスの数は、そのエンドポイント内のコンテナの数と等しくなります。単位: パーセント EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints
MemoryUtilizaton インスタンスで実行されているコンテナが使っているメモリの割合。この値は 0%~100% です。CPUUtilization と同様に、直接呼び出しが設定されたエンドポイントの場合、MemoryUtilization メトリクスの数は、そのエンドポイント内のコンテナの数と等しくなります。単位: パーセント EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints

上表のすべてのメトリクスは、直接呼び出しが設定されたマルチコンテナエンドポイントに固有のものです。これらの特別なコンテナ単位のメトリクスの他に、表内のすべてのメトリクスには、ディメンション [EndpointName, VariantName] のバリアントレベルのメトリクスもあります (ContainerLatency を除く)。