本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon CloudWatch 中的 Amazon SageMaker AI 指標
您可以使用 Amazon CloudWatch 監控 Amazon SageMaker AI,由 Amazon CloudWatch 收集原始資料,並將該資料處理成近乎即時的可讀取指標。這些統計資料會保留 15 個月。透過它們,您可以存取歷史資訊,並更清楚 Web 應用程式或服務的執行效能。不過,Amazon CloudWatch 主控台僅限搜尋過去 2 週內更新的指標。此限制可確保您的命名空間顯示最新的任務。
若要繪製指標圖形,但不使用搜尋,請在來源檢視中指定其確切名稱。您也可以設定留意特定閾值的警示,當滿足這些閾值時傳送通知或採取動作。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南。
SageMaker AI 指標和維度
SageMaker AI 端點指標
/aws/sagemaker/Endpoints 命名空間包含端點執行個體的下列指標。
指標是以 1 分鐘的頻率提供。
注意
Amazon CloudWatch 支援高解析度自訂指標,其最佳解析度為 1 秒。然而,解析度越好,CloudWatch 指標的壽命就越短。對於 1 秒頻率解析度,CloudWatch 指標的可用時間為 3 小時。有關 CloudWatch 指標的分辨率和使用壽命的詳細資訊,請參閱GetMetricStatistics在Amazon CloudWatch API 參考。
| 指標 | Description |
|---|---|
CPUReservation |
執行個體上容器保留的 CPU 總和。 此指標僅適用於託管作用中推論元件的端點。 值的範圍介於 0%–100% 之間。在推論元件的設定中,您可以使用 |
CPUUtilization |
每個個別 CPU 核心使用率的總和。每個核心範圍的 CPU 利用率為 0 到 100。例如,如果有四個 CPU,則 對於端點變體,值為執行個體上主要容器與輔助容器的 CPU 利用率總和。 單位:百分比 |
CPUUtilizationNormalized |
每個個別 CPU 核心使用率的標準化總和。 此指標僅適用於託管作用中推論元件的端點。 值的範圍介於 0%–100% 之間。例如,如果有四個 CPU,且 |
DiskUtilization |
執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。 針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。單位:百分比 |
GPUMemoryUtilization |
執行個體上的容器使用的 GPU 記憶體的百分比。取值為 0 - 100 ,並乘以 GPU 數量。例如,如有四個 GPU, 對於端點變體,值為執行個體上主要容器與輔助容器的 GPU 記憶體利用率總和。 單位:百分比 |
GPUMemoryUtilizationNormalized |
執行個體上的容器使用的 GPU 記憶體的標準化百分比。 此指標僅適用於託管作用中推論元件的端點。 值的範圍介於 0%–100% 之間。例如,如果有四個 GPU,且 |
GPUReservation |
執行個體上容器保留的 GPU 總和。 此指標僅適用於託管作用中推論元件的端點。 值的範圍介於 0%–100% 之間。在推論元件的設定中,您透過 |
GPUUtilization |
執行個體上的容器使用的 GPU 單位的百分比。該值的範圍在 0 和 100 之間,並乘以 GPU 數量。例如,如有四個 GPU, 對於端點變體,值為執行個體上主要容器與輔助容器的 GPU 利用率總和。 單位:百分比 |
GPUUtilizationNormalized |
執行個體上的容器使用的 GPU 單位的標準化百分比。 此指標僅適用於託管作用中推論元件的端點。 值的範圍介於 0%–100% 之間。例如,如果有四個 GPU,且 |
MemoryReservation |
執行個體上容器保留的記憶體總和。 此指標僅適用於託管作用中推論元件的端點。 值的範圍介於 0%–100% 之間。在推論元件的設定中,您可以使用 |
MemoryUtilization |
執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。 對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。 單位:百分比 |
| 維度 | Description |
|---|---|
EndpointName, VariantName |
篩選指定端點和變體之 |
SageMaker AI 端點調用指標
AWS/SageMaker 命名空間包含從呼叫到 InvokeEndpoint 的下列請求指標。
指標是以 1 分鐘的頻率提供。
下圖顯示 SageMaker AI 端點如何與 Amazon SageMaker AI 執行期 API 互動。發送請求到端點和接收回應之間的總時間,取決於下列三個要素。
-
網路延遲 — 向 SageMaker 執行期執行期 API 發出請求和接收回應之間所需的時間。
-
額外負荷延遲 — 將請求傳送到模型容器並將回應傳回 SageMaker 執行期執行期 API 所需的時間。
-
模型延遲 — 模型容器處理請求,並傳回回應所花費的時間。
如需有關總延遲的更多相關資訊,請參閱載入測試 Amazon SageMaker AI 即時推論端點的最佳實務
| 指標 | Description |
|---|---|
ConcurrentRequestsPerCopy |
推論元件接收的並行請求數量,由推論元件的每個副本標準化。 有效統計資訊:Min、Max |
ConcurrentRequestsPerModel |
模型正在接收的並行請求數量。 有效統計資訊:Min、Max |
Invocation4XXErrors |
單位:無 有效的統計資訊:平均、總和 |
Invocation5XXErrors |
單位:無 有效的統計資訊:平均、總和 |
InvocationModelErrors |
未產生 2XX HTTP 回應的模型調用請求數。這包含 4XX/5XX 狀態碼、低階插槽錯誤、格式錯誤的 HTTP 回應,以及要求逾時。對於每個錯誤回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Invocations |
傳送到模型端點的 若要取得傳送至模型端點的請求總數量,請使用總和統計。 單位:無 有效的統計資訊:總和 |
InvocationsPerCopy |
每個推論元件複本標準化的調用次數。 有效的統計資訊:總和 |
InvocationsPerInstance |
傳送至每個 ProductionVariant 模型的調用次數,以 單位:無 有效的統計資訊:總和 |
ModelLatency |
模型回應 SageMaker 執行期 API 請求所花費的時間間隔。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間。它還包括在容器中完成推論所需的時間。 單位:微秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
ModelSetupTime |
為無伺服器端點啟動新運算資源的所需時間。時間可能有所差異,取決於模型大小、下載模型的所需時間以及容器的啟動時間。 單位:微秒 有效的統計資料:平均、下限、上限、樣本計數與百分位數 |
OverheadLatency |
因 SageMaker AI 額外負荷而新增到回應用戶端請求所需時間的時間間隔。此間隔的計算方式是從 SageMaker AI 收到請求到傳回用戶端回應,再減去 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
MidStreamErrors
|
在將初始回應傳送給客戶之後,在回應串流期間發生的錯誤數目。 單位:無 有效的統計資訊:平均、總和 |
FirstChunkLatency
|
從請求到達 SageMaker AI 端點到回應的第一個區塊傳送給客戶所經過的時間。此指標適用於雙向串流推論請求。 單位:微秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
FirstChunkModelLatency
|
模型容器處理請求並傳回回應的第一個區塊所花費的時間。這是從將請求傳送到模型容器時開始測量,直到從模型接收到第一個位元組為止。此指標適用於雙向串流推論請求。 單位:微秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
FirstChunkOverheadLatency
|
第一個區塊的額外負荷延遲,不包括模型處理時間。計算方式為 單位:微秒 有效統計資料:平均、總和、最小值、最大值、範例計數、百分位數 |
| 維度 | Description |
|---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
InferenceComponentName |
篩選推論元件調用指標。 |
SageMaker AI 推論元件指標
/aws/sagemaker/InferenceComponents 命名空間包含託管推論元件之端點的 InvokeEndpoint 呼叫的下列指標。
指標是以 1 分鐘的頻率提供。
| 指標 | Description |
|---|---|
CPUUtilizationNormalized |
每個推論元件複本所報告的 |
GPUMemoryUtilizationNormalized |
每個推論元件複本所報告的 |
GPUUtilizationNormalized |
每個推論元件複本所報告的 |
MemoryUtilizationNormalized |
每個推論元件複本所報告的 |
| 維度 | Description |
|---|---|
InferenceComponentName |
篩選推論元件指標。 |
SageMaker AI 多模型端點指標
AWS/SageMaker 命名空間包含下列從呼叫到 InvokeEndpoint 的模型載入指標。
指標是以 1 分鐘的頻率提供。
如需資訊了解 CloudWatch 指標的保留期間,請參閱 Amazon CloudWatch API 參考的 GetMetricStatistics。
| 指標 | Description |
|---|---|
ModelLoadingWaitTime |
調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelUnloadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelDownloadingTime |
從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelLoadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelCacheHit |
傳送到已載入模型之多模型端點的 平均統計資料會顯示已載入模型的請求比率。 單位:無 有效的統計資料:平均、總和、範例計數 |
| 維度 | Description |
|---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
/aws/sagemaker/Endpoints 命名空間包含下列從呼叫到 InvokeEndpoint 的執行個體指標。
指標是以 1 分鐘的頻率提供。
如需資訊了解 CloudWatch 指標的保留期間,請參閱 Amazon CloudWatch API 參考的 GetMetricStatistics。
| 指標 | Description |
|---|---|
LoadedModelCount |
多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。 週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。 總和統計資料會說明端點的所有執行個體中所載入的模型總數目。 此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。 單位:無 有效的統計資訊:平均、總和、下限、上限與範例計數 |
| 維度 | Description |
|---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
SageMaker AI 任務指標
/aws/sagemaker/ProcessingJobs、 /aws/sagemaker/TrainingJobs和 /aws/sagemaker/TransformJobs命名空間包含下列處理任務、訓練任務和批次轉換任務的指標。
指標是以 1 分鐘的頻率提供。
注意
Amazon CloudWatch 支援高解析度自訂指標,其最佳解析度為 1 秒。然而,解析度越好,CloudWatch 指標的壽命就越短。對於 1 秒頻率解析度,CloudWatch 指標的可用時間為 3 小時。有關 CloudWatch 指標的分辨率和使用壽命的詳細資訊,請參閱GetMetricStatistics在Amazon CloudWatch API 參考。
提示
若想以更精細的解析度 (最小到 100 毫秒) (0.1 秒) 的粒度來分析訓練任務,並隨時在 Amazon S3 中無限期存放訓練指標以進行自訂分析,請考慮使用 Amazon SageMaker Debugger。SageMaker Debugger 提供內建規則,可自動偵測常見的訓練問題。它可偵測硬體資源使用率問題 (例如 CPU、GPU 和 I/O 瓶頸)。它也能偵測非收斂模型問題 (例如過度擬合、梯度消失和張量爆炸)。SageMaker Debugger 也會透過 Studio Classic 及其分析報告提供視覺效果。要瀏覽 Debugger 視覺化效果,請參閱 SageMaker 除錯器見解儀表板演練、除錯器性能分析報告演練,以及使用 SMDebug 用戶端資料庫分析資料。
| 指標 | Description |
|---|---|
CPUUtilization |
每個個別 CPU 核心使用率的總和。每個核心範圍的 CPU 利用率為 0 到 100。例如,如果有四個 CPU,則 CPUUtilization 的範圍為 0% 到 400%。針對處理任務,值為執行個體上處理容器的 CPU 使用率。針對訓練任務,值為執行個體上演算法容器的 CPU 利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的 CPU 利用率總和。 注意若為多執行個體任務,則每個執行個體會報告 CPU 利用率指標。但是,在 CloudWatch 的預設檢視,會顯示在所有執行個體中平均 CPU 利用率。 單位:百分比 |
DiskUtilization |
執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。批次轉換任務不支援這個指標。 針對處理任務,值為執行個體上處理容器的磁碟空間使用率。針對訓練任務,值為執行個體上演算法容器的磁碟空間利用率總和。 單位:百分比 注意若為多執行個體任務,則每個執行個體會報告磁碟使用率指標。但是,在 CloudWatch 的預設檢視,會顯示在所有執行個體中平均磁碟使用率。 |
GPUMemoryUtilization |
執行個體上的容器使用的 GPU 記憶體的百分比。取值為 0 - 100 ,並乘以 GPU 數量。例如,如有四個 GPU, 針對訓練任務,值為執行個體上演算法容器的 GPU 記憶體利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的 GPU 記憶體利用率總和。 注意若為多執行個體任務,則每個執行個體會報告 GPU 記憶體使用率指標。不過, 的預設檢視會顯示所有執行個體的平均 GPU 記憶體使用率。 單位:百分比 |
GPUUtilization |
執行個體上的容器使用的 GPU 單位的百分比。該值的範圍在 0 和 100 之間,並乘以 GPU 數量。例如,如有四個 GPU, 針對訓練任務,值為執行個體上演算法容器的 GPU 利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的 GPU 利用率總和。 注意若為多執行個體任務,則每個執行個體會報告 GPU 使用率指標。但是,在 CloudWatch 的預設檢視,會顯示在所有執行個體中平均 CPU 利用率。 單位:百分比 |
MemoryUtilization |
執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。 針對處理任務,值為執行個體上處理容器的記憶體使用率。針對訓練任務,值為執行個體上演算法容器的記憶體利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的記憶體利用率總和。 單位:百分比 注意若為多執行個體任務,則每個執行個體會報告記憶體使用率指標。但是,在 CloudWatch 的預設檢視,會顯示在所有執行個體中平均記憶體利用率。 |
| 維度 | Description |
|---|---|
Host |
針對訓練任務,此維度的值格式為 對於訓練任務,此維度的值格式為 針對批次轉換任務,此維度的值格式為 |
SageMaker 推論建議程式任務指標
/aws/sagemaker/InferenceRecommendationsJobs 命名空間包含下列推論建議程式的任務指標。
| 指標 | Description |
|---|---|
ClientInvocations |
根據推論建議程式觀察所得,傳送至模型端點的 單位:無 有效的統計資訊:總和 |
ClientInvocationErrors |
根據推論建議程式觀察所得,傳送至模型端點的失敗 單位:無 有效的統計資訊:總和 |
ClientLatency |
推論建議程式所觀察到的傳送 單位:毫秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
NumberOfUsers |
傳送 單位:無 有效的統計資料:上限、下限、平均 |
| 維度 | Description |
|---|---|
JobName |
篩選推論建議程式任務的指定推論建議程式任務指標。 |
EndpointName |
篩選指定端點的推論建議程式任務指標。 |
SageMaker Ground Truth 指標
| 指標 | Description |
|---|---|
ActiveWorkers |
私有工作團隊中,單一使用中工作者已提交、釋放或拒絕任務。若要取得使用中工作者的總數,請使用總和統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
DatasetObjectsAutoAnnotated |
標籤工作中自動註釋的資料集物件數量。這個指標只會在啟用自動化標籤時發出。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
DatasetObjectsHumanAnnotated |
標籤工作中人工註釋的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
DatasetObjectsLabelingFailed |
標籤工作中無法標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
JobsFailed |
單一標籤工作失敗。請使用總和統計資料取得失敗的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
JobsSucceeded |
單一標籤工作成功。請使用總和統計資料取得成功的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
JobsStopped |
單一標籤工作已停止。請使用總和統計資料取得已停止的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
TasksAccepted |
工作者接受了單一任務。若要取得工作者接受的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksDeclined |
工作者拒絕了單一任務。若要取得工作者拒絕的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksReturned |
傳回單一任務。若要取得工作者已傳回的任務數量,請使用總和統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksSubmitted |
單一任務是由私有工作者提交/完成的。若要取得工作者已提交的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TimeSpent |
私有工作者完成任務所花費的時間。此量度不包含工作者暫停或休息的時間。Ground Truth 嘗試傳遞 單位:秒 有效統計資訊:總和、範例數量 |
TotalDatasetObjectsLabeled |
標籤工作中成功標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
| 維度 | Description |
|---|---|
LabelingJobName |
標籤工作的篩選條件資料集物件計數指標。 |
Amazon SageMaker Feature Store 指標
| 指標 | Description |
|---|---|
ConsumedReadRequestsUnits |
在指定期間內,消耗的讀取單位數量。您可以擷取 Feature Store 執行期操作,及其對應的特徵群組所消耗的讀取單位。 單位:無 有效的統計資訊:All |
ConsumedWriteRequestsUnits |
在指定期間內,消耗的寫入單位數量。您可以擷取 Feature Store 執行期操作,及其對應特徵群組的所消耗的寫入單位。 單位:無 有效的統計資訊:All |
ConsumedReadCapacityUnits |
在指定期間內消耗的佈建讀取容量單位數量。您可以擷取 Feature Store 執行期操作,及其對應的特徵群組所消耗的讀取容量單位。 單位:無 有效的統計資訊:All |
ConsumedWriteCapacityUnits |
在指定期間內消耗的佈建寫入容量單位數量。您可以擷取 Feature Store 執行期操作,及其對應特徵群組的所消耗的寫入容量單位。 單位:無 有效的統計資訊:All |
| 維度 | Description |
|---|---|
FeatureGroupName, OperationName |
篩選所指定的 Feature Store 執行期使用量指標及特徵群組。 |
| 指標 | Description |
|---|---|
Invocations |
指定期間內對 Feature Store 執行期操作發出的請求數。 單位:無 有效的統計資訊:總和 |
Operation4XXErrors |
對 Feature Store 執行期操作發出的請求數,其中操作會傳回 4xx HTTP 回應碼。對於每個 4xx 回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Operation5XXErrors |
對 Feature Store 執行期操作發出的請求數,其中操作會傳回 5xx HTTP 回應碼。對於每個 5xx 回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
ThrottledRequests |
在 Feature Store 執行期操作中受節制的請求數。對於每個調節請求,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Latency |
處理對 Feature Store 執行期操作發出請求的時間間隔。此間隔的計算方式是從 SageMaker AI 收到請求到傳回用戶端回應。 單位:微秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
| 維度 | Description |
|---|---|
|
|
篩選所指定的 Feature Store 執行期操作指標及特徵群組。您可以將這些維度用於非批次作業,例如 GetRecord、PutRecord 和 DeleteRecord。 |
OperationName |
篩選指定操作的 Feature Store 執行期操作指標。您可以將此維度使用於批次作業,例如批次取得記錄。 |
SageMaker 管道指標
AWS/Sagemaker/ModelBuildingPipeline 命名空間包含下列管道執行的指標。
有兩種管道執行指標可用:
-
所有管道執行指標 — 帳戶層級管道執行指標 (適用於目前帳戶中的所有管道)
-
依管道分類的執行指標 — 每個管道的管道執行指標
指標是以 1 分鐘的頻率提供。
| 指標 | Description |
|---|---|
ExecutionStarted |
管道執行啟動的數量。 單位:Count 有效的統計資訊:平均、總和 |
ExecutionFailed |
管道執行失敗的數量。 單位:Count 有效的統計資訊:平均、總和 |
ExecutionSucceeded |
管道執行成功的數量。 單位:Count 有效的統計資訊:平均、總和 |
ExecutionStopped |
管道執行已停止的數量。 單位:Count 有效的統計資訊:平均、總和 |
ExecutionDuration |
管道執行的持續時間 (以毫秒為單位)。 單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
| 維度 | Description |
|---|---|
PipelineName |
篩選指定管道的管道執行指標。 |
AWS/Sagemaker/ModelBuildingPipeline 命名空間包含下列管道步驟的指標。
指標是以 1 分鐘的頻率提供。
| 指標 | Description |
|---|---|
StepStarted |
已啟動的步驟數。 單位:Count 有效的統計資訊:平均、總和 |
StepFailed |
已失敗的步驟數。 單位:Count 有效的統計資訊:平均、總和 |
StepSucceeded |
已成功的步驟數。 單位:Count 有效的統計資訊:平均、總和 |
StepStopped |
已停止的步驟數。 單位:Count 有效的統計資訊:平均、總和 |
StepDuration |
步驟執行的持續時間 (以毫秒為單位)。 單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
| 維度 | Description |
|---|---|
PipelineName, StepName |
篩選指定管道和步驟的步驟指標。 |