本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控 Amazon SageMaker AI 中的AWS資源
監控是維護 SageMaker AI 和其他AWS解決方案可靠性、可用性和效能的重要部分。 AWS提供下列監控工具來監看 SageMaker AI、在發生錯誤時回報,並適時採取自動動作:
-
Amazon CloudWatch AWS會即時監控您的 AWS資源和您在 上執行的應用程式。您可以收集和追蹤指標、建立自訂儀板表,以及設定警示,在特定指標達到您指定的閾值時通知您或採取動作。例如,您可以讓 CloudWatch 追蹤 CPU 使用量或其他 Amazon EC2 執行個體指標,並在需要時自動啟動新的執行個體。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南。
-
Amazon CloudWatch Logs 可讓您監控、存放和存取 EC2 執行個體AWS CloudTrail和其他來源的日誌檔案。CloudWatch Logs 可監控日誌檔案中的資訊,並在達到特定閾值時通知您。您也可以將日誌資料存檔在高耐用性的儲存空間。如需詳細資訊,請參閱 Amazon CloudWatch Logs 使用者指南。
-
AWS CloudTrail 會擷取由AWS您的帳戶發出或代表發出的 API 呼叫和相關事件,並將日誌檔案交付至您指定的 Amazon S3 儲存貯體。您可以識別呼叫的使用者和帳戶AWS、進行呼叫的來源 IP 地址,以及呼叫的時間。如需詳細資訊,請參閱「AWS CloudTrail 使用者指南」。
-
CloudWatch Events 提供近乎即時的系統事件串流,說明AWS資源的變更。建立 CloudWatch 事件規則,對 SageMaker AI 訓練、超參數調校或批次轉換工作中建立對狀態變更做出反應