翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon CloudWatch における Amazon SageMaker AI メトリクス
<a name="monitoring-cloudwatch"></a>

Amazon CloudWatch を使用して Amazon SageMaker AI をモニタリングすることで、raw データを収集し、リアルタイムに近い読み取り可能なメトリクスに加工できます。これらの統計は 15 か月間保持されます。これを利用して履歴情報にアクセスすることで、ウェブアプリケーションやサービスの動作をより的確に把握できます。ただし、 Amazon CloudWatch コンソールでは、検索が過去 2 週間以内に更新されたメトリクスに制限されます。この制限により、最新のジョブが名前空間に表示されるようになります。

検索を使用せずにメトリクスをグラフ化するには、ソースビューでその正確な名前を指定します。また、特定のしきい値を監視するアラームを設定し、これらのしきい値に達したときに通知を送信したりアクションを実行したりできます。詳細については、「[Amazon CloudWatch ユーザーガイド](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/)」を参照してください。


**Topics**
+ [SageMaker AI エンドポイントメトリクス](#cloudwatch-metrics-endpoints)
+ [SageMaker AI エンドポイント呼び出しメトリクス](#cloudwatch-metrics-endpoint-invocation)
+ [SageMaker AI 推論コンポーネントのメトリクス](#cloudwatch-metrics-inference-component)
+ [SageMaker AI マルチモデルエンドポイントメトリクス](#cloudwatch-metrics-multimodel-endpoints)
+ [SageMaker AI ジョブメトリクス](#cloudwatch-metrics-jobs)
+ [SageMaker Inference Recommender ジョブメトリクス](#cloudwatch-metrics-inference-recommender)
+ [SageMaker Ground Truth メトリクス](#cloudwatch-metrics-ground-truth)
+ [Amazon SageMaker Feature Store メトリクス](#cloudwatch-metrics-feature-store)
+ [SageMaker パイプラインメトリクス](#cloudwatch-metrics-pipelines)

## SageMaker AI エンドポイントメトリクス
<a name="cloudwatch-metrics-endpoints"></a>

`/aws/sagemaker/Endpoints` 名前空間には、エンドポイントインスタンスの以下のメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

**注記**  
Amazon CloudWatch は[高解像度カスタムメトリクス](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)をサポートし、その最高分解能は 1 秒です。ただし、分解能が細かいほど、CloudWatch メトリクスの寿命は短くなります。1 秒の頻度の分解能の場合は、CloudWatch メトリックスを使用できるのは 3 時間です。CloudWatch メトリクスの分解能と寿命の詳細については、「Amazon CloudWatch API リファレンス」の「[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)」を参照してください。**


**エンドポイントメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| CPUReservation |  インスタンスのコンテナによって予約された CPU の合計。 このメトリクスは、アクティブな推論コンポーネントをホストするエンドポイントに対してのみ提供されます。 値の範囲は 0% ～ 100% です。推論コンポーネントの設定では、`NumberOfCpuCoresRequired` パラメータを使用して CPU 予約を設定します。例えば、4 つの CPU があり、2 つが予約されている場合、`CPUReservation` メトリクスは 50% です。  | 
| CPUUtilization |  個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0～100 です。例えば、CPU が 4 つの場合、`CPUUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。 単位: パーセント  | 
| CPUUtilizationNormalized |  個々の CPU コアの使用率の正規化された合計。 このメトリクスは、アクティブな推論コンポーネントをホストするエンドポイントに対してのみ提供されます。 値の範囲は 0% ～ 100% です。例えば、4 つの CPU があり、`CPUUtilization` メトリクスが 200% の場合、`CPUUtilizationNormalized` メトリクスは 50% です。  | 
| DiskUtilization | インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%～100% です。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。単位: パーセント | 
| GPUMemoryUtilization |  インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUMemoryUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。 単位: パーセント  | 
| GPUMemoryUtilizationNormalized |  インスタンス上のコンテナによって使用されている GPU メモリの正規化された割合。 このメトリクスは、アクティブな推論コンポーネントをホストするエンドポイントに対してのみ提供されます。 値の範囲は 0% ～ 100% です。例えば、4 つの GPU があり、`GPUMemoryUtilization` メトリクスが 200% の場合、`GPUMemoryUtilizationNormalized` メトリクスは 50% です。  | 
| GPUReservation |  インスタンスのコンテナによって予約された GPU の合計。 このメトリクスは、アクティブな推論コンポーネントをホストするエンドポイントに対してのみ提供されます。 値の範囲は 0% ～ 100% です。推論コンポーネントの設定では、`NumberOfAcceleratorDevicesRequired` によって GPU 予約を設定します。例えば、4 つの GPU があり、2 つが予約されている場合、`GPUReservation` メトリクスは 50% です。  | 
| GPUUtilization |  インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。 単位: パーセント  | 
| GPUUtilizationNormalized |  インスタンス上のコンテナによって使用されている GPU の正規化された割合。 このメトリクスは、アクティブな推論コンポーネントをホストするエンドポイントに対してのみ提供されます。 値の範囲は 0% ～ 100% です。例えば、4 つの GPU があり、`GPUUtilization` メトリクスが 200% の場合、`GPUUtilizationNormalized` メトリクスは 50% です。  | 
| MemoryReservation |  インスタンスのコンテナによって予約されたメモリの合計。 このメトリクスは、アクティブな推論コンポーネントをホストするエンドポイントに対してのみ提供されます。 値の範囲は 0% ～ 100% です。推論コンポーネントの設定では、`MinMemoryRequiredInMb` パラメータを使用してメモリ予約を設定します。例えば、32 GiB のインスタンスが 1024 MB を予約した場合、`MemoryReservation` メトリクスは 3.125% です。  | 
| MemoryUtilization |  インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%～100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。 単位: パーセント  | 


**エンドポイントメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| EndpointName, VariantName |  指定されたエンドポイントとバリアント`ProductionVariant`の のエンドポイントメトリクスをフィルタリングします。  | 

## SageMaker AI エンドポイント呼び出しメトリクス
<a name="cloudwatch-metrics-endpoint-invocation"></a>

`AWS/SageMaker` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) への呼び出しからの次のリクエストメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

次の図は、SageMaker AI エンドポイントが Amazon SageMaker ランタイム API とどのようにやり取りするかを示しています。エンドポイントにリクエストを送信してからレスポンスを受信するまでの全体の所要時間は、次の 3 つの要素によって異なります。
+ ネットワークレイテンシー — SageMaker ランタイム API にリクエストを送信してから、レスポンスを受信するまでにかかる時間です。
+ オーバーヘッドレイテンシー — SageMaker ランタイム API からモデルコンテナにリクエストを転送してから、そのレスポンスが返されるまでにかかる時間です。
+ モデルレイテンシー — モデルコンテナがリクエストを処理してレスポンスを返すまでにかかる時間です。

![\[\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/cloudwatch-latency-types.png)


合計レイテンシーの詳細については、「[Best practices for load testing Amazon SageMaker AI real-time inference endpoints](https://aws.amazon.com/blogs/machine-learning/best-practices-for-load-testing-amazon-sagemaker-real-time-inference-endpoints/)」を参照してください。CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)


**エンドポイント呼び出しのメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| ConcurrentRequestsPerCopy |  推論コンポーネントが受信する同時リクエストの数。推論コンポーネントのコピーごとに正規化されます。 有効な統計: 最小、最大  | 
| ConcurrentRequestsPerModel |  モデルが受信する同時リクエストの数。 有効な統計: 最小、最大  | 
| Invocation4XXErrors |  4xx HTTP レスポンスコードを返したモデルの `InvokeEndpoint` リクエスト数。各 4xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。 単位: なし 有効な統計: 合計、平均  | 
| Invocation5XXErrors |  5xx HTTP レスポンスコードを返したモデルの `InvokeEndpoint` リクエスト数。各 5xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。 単位: なし 有効な統計: 合計、平均  | 
| InvocationModelErrors |  2XX HTTP レスポンスに至らなかったモデル呼び出しリクエストの数。これには、4XX/5XX ステータスコード、低レベルのソケットエラー、不正な HTTP レスポンス、リクエストタイムアウトが含まれます。各エラーレスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。 単位: なし 有効な統計: 合計、平均  | 
| Invocations |  モデルエンドポイントに送信された `InvokeEndpoint` リクエスト数。 モデルエンドポイントに送信されたリクエストの合計数を得るには、Sum 統計を使用します。 単位: なし 有効な統計: Sum  | 
| InvocationsPerCopy |  推論コンポーネントのコピーごとに正規化された呼び出しの数。 有効な統計: Sum  | 
| InvocationsPerInstance |  各 ProductionVariant で `InstanceCount` によって正規化された、モデルに送信された呼び出しの数。各リクエストで値として 1/`numberOfInstances` が送信されます。`numberOfInstances` はリクエスト時にエンドポイントの背後にある ProductionVariant のアクティブなインスタンスの数です。 単位: なし 有効な統計: Sum  | 
| ModelLatency |  モデルが SageMaker ランタイム API リクエストに応答するのにかかる時間間隔。この間隔には、リクエストを送信し、モデルのコンテナからレスポンスを取得するのにかかるローカル通信時間が含まれます。また、コンテナ内で推論を完了するのにかかる時間も含まれます。 単位: マイクロ秒 有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル  | 
| ModelSetupTime |  サーバーレスエンドポイントの新しいコンピューティングリソースを起動するのにかかる時間。時間は、モデルのサイズ、モデルのダウンロードにかかる時間、コンテナの起動時間によって異なります。 単位: マイクロ秒 有効な統計: 平均、最小、最大、サンプル数、パーセンタイル  | 
| OverheadLatency |  クライアントリクエストへの応答にかかる時間に、SageMaker AI のオーバーヘッドによって追加される時間間隔。この間隔は、SageMaker AI がリクエストを受信してからクライアントにレスポンスを返すまでの時間から `ModelLatency` を引いたものです。オーバーヘッドレイテンシーは、リクエストとレスポンスのペイロードサイズ、リクエストの頻度、リクエストの認証/認可など、複数の要因によって異なります。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count  | 
|  MidStreamErrors  |  最初のレスポンスが顧客に送信されてからレスポンスストリーミング中に発生するエラーの数。 単位: なし 有効な統計: 合計、平均  | 
|  FirstChunkLatency  |  リクエストが SageMaker AI エンドポイントに到着してからレスポンスの最初のチャンクが顧客に送信されるまでの経過時間。このメトリクスは、双方向ストリーミング推論リクエストに適用されます。 単位: マイクロ秒 有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル  | 
|  FirstChunkModelLatency  |  モデルコンテナがリクエストを処理し、レスポンスの最初のチャンクを返すのにかかる時間。これは、リクエストがモデルコンテナに送信されてからモデルから最初のバイトが受信されるまで測定されます。このメトリクスは、双方向ストリーミング推論リクエストに適用されます。 単位: マイクロ秒 有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル  | 
|  FirstChunkOverheadLatency  |  モデル処理時間を除く最初のチャンクのオーバーヘッドレイテンシー。これは`FirstChunkModelLatency`、SageMaker AI プラットフォーム内のルーティング、前処理、後処理オペレーションに費やされた時間を表す`FirstChunkLatency`マイナス として計算されます。オーバーヘッドレイテンシーは、リクエストの頻度、ロード、リクエストの認証/認可など、複数の要因によって異なる場合があります。このメトリクスは、双方向ストリーミング推論リクエストに適用されます。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、サンプル数、パーセンタイル  | 


**エンドポイント呼び出しメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| EndpointName, VariantName |  指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。  | 
| InferenceComponentName |  推論コンポーネントの呼び出しメトリクスをフィルタリングします。  | 

## SageMaker AI 推論コンポーネントのメトリクス
<a name="cloudwatch-metrics-inference-component"></a>

`/aws/sagemaker/InferenceComponents` 名前空間には、推論コンポーネントをホストするエンドポイントの [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) に対する呼び出しからの、次のメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。


**推論コンポーネントのメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| CPUUtilizationNormalized |  推論コンポーネントのコピーごとにレポートされる `CPUUtilizationNormalized` メトリクスの値。値の範囲は 0% ～ 100% です。推論コンポーネントのコピーの設定で `NumberOfCpuCoresRequired` パラメータを設定すると、このメトリクスは予約に対する使用率を示します。それ以外の場合、このメトリクスは上限に対する使用率を示します。  | 
| GPUMemoryUtilizationNormalized |  推論コンポーネントのコピーごとにレポートされる `GPUMemoryUtilizationNormalized` メトリクスの値。  | 
| GPUUtilizationNormalized |  推論コンポーネントのコピーごとにレポートされる `GPUUtilizationNormalized` メトリクスの値。推論コンポーネントのコピーの設定で `NumberOfAcceleratorDevicesRequired` パラメータを設定すると、このメトリクスは予約に対する使用率を示します。それ以外の場合、このメトリクスは上限に対する使用率を示します。  | 
| MemoryUtilizationNormalized |  推論コンポーネントのコピーごとにレポートされる `MemoryUtilizationNormalized` の値。推論コンポーネントのコピーの設定で `MinMemoryRequiredInMb` パラメータを設定すると、このメトリクスは予約に対する使用率を示します。それ以外の場合、このメトリクスは上限に対する使用率を示します。  | 


**推論コンポーネントメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| InferenceComponentName |  推論コンポーネントのメトリクスをフィルタリングします。  | 

## SageMaker AI マルチモデルエンドポイントメトリクス
<a name="cloudwatch-metrics-multimodel-endpoints"></a>

`AWS/SageMaker` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) の呼び出しからの次のモデル読み込みメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)


**マルチモデルエンドポイントモデルのロードメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| ModelLoadingWaitTime  |  推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機した時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelUnloadingTime  |  コンテナの `UnloadModel` API コールを介してモデルをアンロードするのにかかった時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelDownloadingTime |  Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelLoadingTime  |  コンテナの `LoadModel` API コールを介してモデルをロードするのにかかった時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelCacheHit  |  モデルが既にロードされているマルチモデルエンドポイントに送信された `InvokeEndpoint` リクエストの数。 Average 統計は、モデルが既にロードされていたリクエストの比率を示します。 単位: なし 有効な統計: Average、Sum、Sample Count  | 


**マルチモデルエンドポイントモデルのロードメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| EndpointName, VariantName |  指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。  | 

`/aws/sagemaker/Endpoints` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) の呼び出しからの次のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)


**マルチモデルエンドポイントモデルインスタンスメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| LoadedModelCount  |  マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。 モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。 単位: なし 有効な統計: Average、Sum、Min、Max、Sample Count  | 


**マルチモデルエンドポイントモデルのロードメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| EndpointName, VariantName |  指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。  | 

## SageMaker AI ジョブメトリクス
<a name="cloudwatch-metrics-jobs"></a>

`/aws/sagemaker/ProcessingJobs`、`/aws/sagemaker/TrainingJobs`、および `/aws/sagemaker/TransformJobs`名前空間には、処理ジョブ、トレーニングジョブ、バッチ変換ジョブに関する以下のメトリクスが含まれています。

メトリクスは、1 分間隔で利用できます。

**注記**  
Amazon CloudWatch は[高解像度カスタムメトリクス](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)をサポートし、その最高分解能は 1 秒です。ただし、分解能が細かいほど、CloudWatch メトリクスの寿命は短くなります。1 秒の頻度の分解能の場合は、CloudWatch メトリックスを使用できるのは 3 時間です。CloudWatch メトリクスの分解能と寿命の詳細については、「Amazon CloudWatch API リファレンス」の「[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)」を参照してください。**

**ヒント**  
100 ミリ秒 (0.1 秒) の粒度まで細かい分解能でトレーニングジョブをプロファイリングし、トレーニングメトリクスをいつでもカスタム分析できるよう無期限に Amazon S3 に保存する場合は、[Amazon SageMaker Debugger](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html) の使用を検討してください。SageMaker Debugger には、一般的なトレーニング問題を自動的に検出するためのルールが組み込まれており、このルールが、ハードウェアリソースの使用率の問題 (CPU、GPU、I/O のボトルネックなど) を検出します。また、モデルが収束しない問題 (オーバーフィット、勾配の消失、テンソルの爆発など) も検出します。SageMaker Debugger は、Studio Classic とそのプロファイリングレポートを通じて可視化機能も提供します。デバッガーの可視化機能を確認するには、「[SageMaker デバッガーインサイトダッシュボードのチュートリアル](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights.html)」、「[デバッガープロファイリングレポートのチュートリアル](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-report.html)」、「[SMDebug クライアントライブラリを使用してデータを分析する](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)」を参照してください。


**処理ジョブ、トレーニングジョブ、バッチ変換ジョブのメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| CPUUtilization | 個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0～100 です。例えば、CPU が 4 つの場合、CPUUtilization の範囲は 0%～400% になります。処理ジョブの場合、値はインスタンス上の処理コンテナの CPU 使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの CPU 使用率です。バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの CPU 使用率です。 マルチインスタンスジョブの場合、インスタンスごとに CPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 CPU 使用率が表示されます。 単位: パーセント | 
| DiskUtilization | インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%～100% です。このメトリクスは、バッチ変換ジョブではサポートされていません。処理ジョブの場合、値はインスタンス上の処理コンテナのディスク容量使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのディスク容量使用率です。単位: パーセント マルチインスタンスジョブの場合、インスタンスごとにディスク使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均ディスク使用率が表示されます。  | 
| GPUMemoryUtilization | インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUMemoryUtilization` の範囲は 0%～400% になります。処理ジョブの場合、値はインスタンス上の処理コンテナの GPU メモリ使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU メモリ使用率です。バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU メモリ使用率です。 マルチインスタンスジョブの場合、インスタンスごとに GPU メモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU メモリ使用率が表示されます。 単位: パーセント | 
| GPUUtilization | インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUUtilization` の範囲は 0%～400% になります。処理ジョブの場合、値はインスタンス上の処理コンテナの GPU 使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU 使用率です。バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU 使用率です。 マルチインスタンスジョブの場合、インスタンスごとに GPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU 使用率が表示されます。 単位: パーセント | 
| MemoryUtilization | インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%～100% です。処理ジョブの場合、値はインスタンス上の処理コンテナのメモリ使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのメモリ使用率です。バッチ変換ジョブの場合、値はインスタンス上の変換コンテナのメモリ使用率です。単位: パーセント マルチインスタンスジョブの場合、インスタンスごとにメモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均メモリ使用率が表示されます。  | 


**ジョブメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| Host |  処理ジョブの場合、このディメンションの値は `[processing-job-name]/algo-[instance-number-in-cluster]` の形式になります。このディメンションを使用して、指定された処理ジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、`/aws/sagemaker/ProcessingJobs` 名前空間にのみ存在します。 トレーニングジョブの場合、このディメンションの値は `[training-job-name]/algo-[instance-number-in-cluster]` の形式になります。このディメンションを使用して、指定されたトレーニングジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、`/aws/sagemaker/TrainingJobs` 名前空間にのみ存在します。 バッチ変換ジョブの場合、このディメンションの値は `[transform-job-name]/[instance-id]` の形式になります。このディメンションを使用して、指定されたバッチ変換ジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、`/aws/sagemaker/TransformJobs` 名前空間にのみ存在します。  | 

## SageMaker Inference Recommender ジョブメトリクス
<a name="cloudwatch-metrics-inference-recommender"></a>

`/aws/sagemaker/InferenceRecommendationsJobs` 名前空間には、推論レコメンデーションジョブの以下のメトリクスが含まれます。


**Inference Recommender メトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| ClientInvocations |  Inference Recommender が確認した、モデルエンドポイントに送信された `InvokeEndpoint` リクエストの数。 単位: なし 有効な統計: Sum  | 
| ClientInvocationErrors |  Inference Recommender が確認した、失敗した `InvokeEndpoint` リクエストの数。 単位: なし 有効な統計: Sum  | 
| ClientLatency |  Inference Recommender が確認した、`InvokeEndpoint` 呼び出しの送信からレスポンスの受信までにかかった時間間隔。時間はミリ秒単位であるのに対し、`ModelLatency` エンドポイント呼び出しメトリックはマイクロ秒単位であることに注意してください。 単位: ミリ秒 有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル  | 
| NumberOfUsers |  モデルエンドポイントに `InvokeEndpoint` リクエストを送信する同時ユーザーの数。 単位: なし 有効な統計: 最大、最小、平均  | 


**Inference Recommender ジョブメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| JobName |  指定した Inference Recommender ジョブの Inference Recommender ジョブメトリクスをフィルタリングします。  | 
| EndpointName |  指定したエンドポイントの Inference Recommender ジョブメトリクスをフィルタリングします。  | 

## SageMaker Ground Truth メトリクス
<a name="cloudwatch-metrics-ground-truth"></a>


**Ground Truth メトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| ActiveWorkers |  プライベート作業チームの 1 人のアクティブなワーカーが、タスクを送信、リリース、または拒否しました。アクティブなワーカーの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の `ActiveWorkers` イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスはアクティブなワーカーの総数を報告しないことがあります。 単位: なし 有効な統計: Sum、Sample Count  | 
| DatasetObjectsAutoAnnotated |  ラベル付けジョブで自動注釈が付けられたデータセットオブジェクトの数。このメトリクスは、自動ラベル付けが有効になっている場合にのみ出力されます。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位: なし 有効な統計: Max  | 
| DatasetObjectsHumanAnnotated |  ラベル付けジョブで人間によって注釈が付けられたデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位: なし 有効な統計: Max  | 
| DatasetObjectsLabelingFailed |  ラベル付けジョブでラベリングに失敗したデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位: なし 有効な統計: Max  | 
| JobsFailed |  1 つのラベル付けジョブが失敗しました。失敗したラベル付けジョブの総数を取得するには、Sum 統計を使用します。 単位: なし 有効な統計: Sum、Sample Count  | 
| JobsSucceeded |  1 つのラベル付けジョブが成功しました。成功したラベル付けジョブの総数を取得するには、Sum 統計を使用します。 単位: なし 有効な統計: Sum、Sample Count  | 
| JobsStopped |  1 つのラベル付けジョブが停止されました。停止したラベル付けジョブの総数を取得するには、Sum 統計を使用します。 単位: なし 有効な統計: Sum、Sample Count  | 
| TasksAccepted |  1 つのタスクがワーカーによって受け入れられました。ワーカーによって受け入れられたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の `TaskAccepted` イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは受け入れられたタスクの総数を報告しないことがあります。 単位: なし  有効な統計: Sum、Sample Count  | 
| TasksDeclined |  1 つのタスクがワーカーによって拒否されました。ワーカーによって拒否されたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の `TasksDeclined` イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは拒否されたタスクの総数を報告しないことがあります。 単位: なし 有効な統計: Sum、Sample Count  | 
| TasksReturned |  1 つのタスクが返されました。返されたタスクの合計数を取得するには、Sum 統計を使用します。Ground Truth は、個々の `TasksReturned` イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは返されたタスクの総数を報告しないことがあります。 単位: なし  有効な統計: Sum、Sample Count  | 
| TasksSubmitted |  1 つのタスクがプライベートワーカーによって送信/完了されました。ワーカーによって送信されたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の `TasksSubmitted` イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは送信されたタスクの総数を報告しないことがあります。 単位: なし 有効な統計: Sum、Sample Count  | 
| TimeSpent |  プライベートワーカーによって完了したタスクにかかった時間。このメトリクスには、ワーカーが一時停止または休憩した時間は含まれません。Ground Truth は、各 `TimeSpent` イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは費やされた合計時間を報告しないことがあります。 単位: 秒 有効な統計: Sum、Sample Count  | 
| TotalDatasetObjectsLabeled |  ラベル付けジョブで正常にラベリングされたデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位: なし 有効な統計: Max  | 


**データセットオブジェクトメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| LabelingJobName |  ラベル付けジョブのデータセットオブジェクト数メトリクスをフィルタリングします。  | 

## Amazon SageMaker Feature Store メトリクス
<a name="cloudwatch-metrics-feature-store"></a>


**Feature Store の消費メトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| ConsumedReadRequestsUnits |  指定した期間に消費された読み取り単位の数。Feature Store のランタイム操作とそれに対応する特徴グループの消費された読み取り単位を取得できます。 単位: なし 有効な統計: すべて  | 
| ConsumedWriteRequestsUnits |  指定した期間に消費された書き込み単位の数。Feature Store のランタイム操作とそれに対応する特徴グループの消費された書き込み単位を取得できます。 単位: なし 有効な統計: すべて  | 
| ConsumedReadCapacityUnits |  指定した期間に消費されたプロビジョニング済み読み取りキャパシティユニットの数。Feature Store のランタイム操作とそれに対応する特徴量グループの消費された読み取りキャパシティユニットを取得できます。 単位: なし 有効な統計: すべて  | 
| ConsumedWriteCapacityUnits |  指定した期間に消費されたプロビジョニング済み書き込みキャパシティユニットの数。Feature Store のランタイム操作とそれに対応する特徴量グループの消費された書き込みキャパシティユニットを取得できます。 単位: なし 有効な統計: すべて  | 


**Feature Store の消費メトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| FeatureGroupName, OperationName |  指定した特徴量グループおよび操作の Feature Store ランタイム消費メトリクスをフィルタリングします。  | 


**Feature Store の運用メトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| Invocations |  指定した期間に Feature Store ランタイムオペレーションに対して行われたリクエストの数。 単位: なし 有効な統計: Sum  | 
| Operation4XXErrors |  Feature Store ランタイムオペレーションに対するリクエストのうち、オペレーションが 4xx HTTP レスポンスコードを返したリクエストの数。各 4xx レスポンスでは 1 が送信され、それ以外の場合は 0 が送信されます。 単位: なし 有効な統計: 合計、平均  | 
| Operation5XXErrors |  Feature Store ランタイムオペレーションで 5xx HTTP レスポンスコードが返されたリクエストの数。各 5xx レスポンスでは 1 が送信され、それ以外の場合は 0 が送信されます。 単位: なし 有効な統計: 合計、平均  | 
| ThrottledRequests |  リクエストがスロットリングされた Feature Store ランタイムオペレーションに対して行われたリクエストの数。スロットリングされた各リクエストでは 1 が送信され、それ以外の場合は 0 が送信されます。 単位: なし 有効な統計: 合計、平均  | 
| Latency |  Feature Store ランタイムオペレーションへのリクエストを処理する時間間隔。この間隔は、SageMaker AI がリクエストを受信してからクライアントにレスポンスを返すまでの時間で測定されます。 単位: マイクロ秒 有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル  | 


**Feature Store の運用メトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
|  `FeatureGroupName`, `OperationName`  | 指定した特徴量グループと操作の Feature Store ランタイムオペレーションメトリクスをフィルタリングします。これらのディメンションは、GetRecord、PutRecord、DeleteRecord などの非バッチオペレーションに使用できます。 | 
| OperationName |  指定した操作の Feature Store ランタイムオペレーションメトリクスをフィルタリングします。このディメンションは BatchGetRecord などのバッチオペレーションに使用できます。  | 

## SageMaker パイプラインメトリクス
<a name="cloudwatch-metrics-pipelines"></a>

`AWS/Sagemaker/ModelBuildingPipeline` 名前空間には、次のパイプライン実行のメトリクスが含まれます。

パイプライン実行メトリクスには 2 つのカテゴリがあります。
+  **すべてのパイプラインの実行メトリクス** - アカウントレベルのパイプライン実行メトリクス (現在のアカウントのすべてのパイプライン)
+  **パイプライン別の実行メトリクス** - パイプラインごとのパイプライン実行メトリクス

メトリクスは、1 分間隔で利用できます。


**パイプライン実行メトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| ExecutionStarted |  開始されたパイプライン実行の数。 単位: カウント 有効な統計: 合計、平均  | 
| ExecutionFailed |  失敗したパイプライン実行の数。 単位: カウント 有効な統計: 合計、平均  | 
| ExecutionSucceeded |  成功したパイプライン実行の数。 単位: カウント 有効な統計: 合計、平均  | 
| ExecutionStopped |  停止したパイプライン実行の数。 単位: カウント 有効な統計: 合計、平均  | 
| ExecutionDuration |  パイプライン実行が実行された時間 (ミリ秒) 。 単位: ミリ秒 有効な統計: Average、Sum、Min、Max、Sample Count  | 


**パイプライン実行メトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| PipelineName |  指定したパイプラインのパイプライン実行メトリクスをフィルタリングします。  | 

`AWS/Sagemaker/ModelBuildingPipeline` 名前空間には、次のパイプラインステップのメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。


**パイプラインステップメトリクス**  

| メトリクス | 説明 | 
| --- | --- | 
| StepStarted |  開始されたステップの数。 単位: カウント 有効な統計: 合計、平均  | 
| StepFailed |  失敗したステップの数。 単位: カウント 有効な統計: 合計、平均  | 
| StepSucceeded |  成功したステップの数。 単位: カウント 有効な統計: 合計、平均  | 
| StepStopped |  停止したステップの数。 単位: カウント 有効な統計: 合計、平均  | 
| StepDuration |  ステップが実行された時間 (ミリ秒) 。 単位: ミリ秒 有効な統計: Average、Sum、Min、Max、Sample Count  | 


**パイプラインステップメトリクスのディメンション**  

| ディメンション | 説明 | 
| --- | --- | 
| PipelineName, StepName |  指定したパイプラインとステップのステップメトリクスをフィルタリングします。  |