AMS 中基準監控的提醒 - AMS 進階使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AMS 中基準監控的提醒

了解 AMS 監控預設值。如需詳細資訊,請參閱AMS 中的監控和事件管理

下表顯示監控的項目,以及預設提醒閾值。您可以在決定您想要的變更並訂閱相關 CloudWatch Amazon SNS 主題之後,使用管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 變更提醒閾值。如需建立和訂閱主題的詳細資訊,請參閱訂閱主題。如需一般資訊,請參閱 Amazon SNS FAQs。若要在警示超過閾值時直接收到通知,除了 AMS 的標準警示程序之外,請遵循有關如何覆寫警示組態 的這些指示接收 AMS 產生的提醒

Amazon CloudWatch 提供指標的延長保留。如需詳細資訊,請參閱 CloudWatch 限制

注意

AMS 會定期校正其基準監控。新帳戶一律使用最新的基準監控加入,而表格說明新加入帳戶的基準監控。AMS 會定期更新現有帳戶中的基準監控,而且在進行更新之前,您可能會遇到時間延遲。如需詳細資訊,請參閱檢視 AMS 帳戶的監控組態

注意

EC2 執行個體提醒預設為Non-root volume usage停用。如果您需要根據此警示產生提醒,則必須使用 RFC 變更類型 ct-0erkoad6uyvg 啟用它

基準監控的提醒

服務

安全性提醒

警示名稱和觸發條件

備註

對於星號 (*) 警示,AMS 會盡可能主動評估影響並修復;如果無法修復,則 AMS 會建立事件。當自動化無法修正問題時,AMS 會通知您事件案例並聘請 AMS 工程師。此外,這些提醒可以直接傳送到您的電子郵件 (如果您已選擇加入 Direct-Customer-Alerts SNS 主題)。

Application Load Balancer (ALB) 執行個體

RejectedConnectionCount

總和 > 0,持續 1 分鐘,連續 5 次。

如果因負載平衡器達到其上限而遭到拒絕的連線數目,CloudWatch 會發出警示。

Application Load Balancer (ALB) 目標

TargetConnectionErrorCount

總和 > 0,持續 1 分鐘,連續 5 次。

如果負載平衡器和已註冊執行個體之間的連線數目未成功建立,則 CloudWatch 會發出警示。

Amazon EC2 執行個體 – Windows

SecureChannelFailure

過去 15 個資料點中的 10 個 > 0.0。

Windows 執行個體上的 CloudWatch 警示會在安全頻道連線失敗時發出警示。

Aurora 執行個體

CPUUtilization

> 85% 持續 5 分鐘,連續 2 次。

CloudWatch 警示。

AWS Backup

DeleteRecoveryPoint

非預期的 IAM 角色主體或 IAM 使用者主體已刪除 AWS Backup 復原點。

CloudWatch 事件。刪除備份復原點時發出。

AWS Outposts

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80%,持續 5 分鐘,連續 12 次。

資源之執行個體系列容量可用性的 CloudWatch AWS Outposts 警示。

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80%,持續 5 分鐘,連續 12 次。

資源之執行個體類型容量可用性的 CloudWatch AWS Outposts 警示。

AMSOutpostsConnectedStatusConnectedStatus

< 1 表示 5 分鐘,連續 1 次。

AWS Outposts 服務連結連線上的 CloudWatch 警示,少於 1 個會受損。

AMSOutpostsCapacityExceptionCapacityExceptions

0 表示 5 分鐘,連續 1 次。

執行個體啟動 AWS Outposts s 資源時容量不足錯誤的 CloudWatch 警示

.

EC2 執行個體 - OSs

CPUUtilization*

>= 95%,持續 5 分鐘,連續 6 次。

CloudWatch 警示。高 CPU 使用率是應用程式狀態變更的指標,例如死鎖、無限迴圈、惡意攻擊和其他異常。

StatusCheckFailed

> 0 持續 5 分鐘,連續 3 次。

CloudWatch 警示。

根磁碟區用量

>= 95%,持續 5 分鐘,連續 6 次。

非根磁碟區用量

> 85% 持續 5 分鐘,連續 2 次。

預設停用;如需其他資訊,請參閱 https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info

記憶體可用*

MemoryFree < 5% 持續 5 分鐘,連續 6 次。

EPS 惡意軟體

執行個體上發現惡意軟體。

CloudWatch 事件。

Amazon EC2 執行個體 - Linux

根磁碟區 Inode 用量

平均 >= 95%,持續 5 分鐘,連續 6 次。

CloudWatch 警示。僅適用於 Linux 執行個體。

免費交換*

記憶體交換 < 5% 持續 5 分鐘,連續 6 次。

ElastiCache 叢集

CurrConnections = 65000

此警示會通知 AMS ElastiCache 主機的最大連線限制。

CloudWatch 警示。如果您想要更新此閾值,請聯絡 AMS 支援。

ElastiCache 節點

CPUUtilization

平均 > 15 分鐘的預先定義值,連續 2 次。

CloudWatch 警示。預設為 90。如果是 Redis,請根據執行個體類型使用下列其中一個值:

  • cache.t1.micro:90%

  • cache.m1.small:90%

  • cache.m1.medium:90%

  • cache.m1.large:45%

  • cache.m1.xlarge:22.5%

  • cache.m2.xlarge:45%

  • cache.m2.4xlarge:11.25%

  • cache.c1.xlarge:11.25%

  • cache.t2.micro:90%

  • cache.t2.small:90%

  • cache.t2.medium:45%

  • cache.m3.medium:90%

  • cache.m3.large:45%

  • cache.m3.xlarge:22.5%

  • cache.m3.2xlarge:11.25%

  • cache.r3.large:45%

  • cache.r3.xlarge:22.5%

  • cache.r3.2xlarge:11.25%

  • cache.r3.4xlarge:5.625%

  • cache.r3.8xlarge:2.8125%

ElastiCache 節點 - memcached

SwapUsage

最大 > 50,000,000 位元組,持續 5 分鐘,連續 5 次。

CloudWatch 警示。僅適用於 memcached。

OpenSearch 叢集

ClusterStatus.red

最大值為 >= 1,持續 1 分鐘,連續 1 次。

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

CloudWatch 警示。至少一個主要碎片及其複本不會分配到節點。若要進一步了解,請參閱 Red Cluster 狀態

OpenSearch 網域

KMSKeyError

>= 1 表示 1 分鐘,連續 1 次。

CloudWatch 警示。用於在您的網域中加密靜態資料的 KMS 加密金鑰停用。重新啟用它來恢復正常操作。若要進一步了解,請參閱 OpenSearch Service Service 的靜態資料加密

ClusterStatus.yellow

最大值為 >= 1,持續 1 分鐘,連續 1 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

至少一個複本碎片不會分配到節點。若要進一步了解,請參閱黃色叢集狀態

FreeStorageSpace

最小值為 <= 20480,持續 1 分鐘,連續 1 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

您叢集內的節點縮減至 20 GiB 的可用儲存空間。若要進一步了解,請參閱缺少可用的儲存空間

ClusterIndexWritesBlocked

>= 1 持續 5 分鐘,連續 1 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

叢集正在封鎖寫入請求。若要進一步了解,請參閱 ClusterBlockException

節點

最小值為 < x,持續 1 天,連續 1 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。若要進一步了解,請參閱失敗的叢集節點

CPUUtilization

平均 >= 80%,持續 15 分鐘,連續 3 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

100% 的 CPU 使用率很常見,但持續高平均值是有問題的。可考慮使用較大的執行個體類型或新增執行個體。

JVMMemoryPressure

最大值 >= 80%,持續 5 分鐘,連續 3 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

如果使用量增加,叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。Amazon ES 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小上限為 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。

MasterCPUUtilization

平均 >= 50%,持續 15 分鐘,連續 3 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

請考慮為您的專用主節點使用較大的執行個體類型。由於其在叢集穩定性和藍/綠部署中扮演的角色,專用主節點的平均 CPU 用量應該低於資料節點。

MasterJVMMemoryPressure

最大值 >= 80%,持續 15 分鐘,連續 1 次

當觸發此提醒時,AMS 會採取主動動作來降低操作影響。

請考慮為您的專用主節點使用較大的執行個體類型。由於其在叢集穩定性和藍/綠部署中扮演的角色,專用主節點的平均 CPU 用量應該低於資料節點。

OpenSearch 執行個體

AutomatedSnapshotFailure

最大值為 >= 1,持續 1 分鐘,連續 1 次。

CloudWatch 警示。自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱紅色叢集狀態

Elastic Load Balancing 執行個體

SurgeQueueLength

> 100 持續 1 分鐘,連續 15 次。

如果待定路由的請求數量過多,CloudWatch 會發出警示。

HTTPCode_ELB_5XX_Count

總和 > 0,持續 5 分鐘,連續 3 次。

來自負載平衡器之過多 HTTP 5XX 回應碼的 CloudWatch 警示。

SpilloverCount

> 1 持續 1 分鐘,連續 15 次。

如果因為突增佇列已滿而拒絕的請求數量過多,CloudWatch 會發出警示。

GuardDuty 服務

不適用;所有調查結果 (威脅目的) 都會受到監控。每個問題清單對應至 提醒。

GuardDuty 調查結果的變更。這些變更包括新產生的問題清單或後續出現的現有問題清單。

支援的 GuardDuty 調查結果類型清單位於 GuardDuty 作用中調查結果類型上。

醫療保健

各有不同

AWS Health Dashboard

與 AMS 支援的基準服務相關的 AWS Health Dashboard (AWS Health) 事件狀態變更時,會傳送通知。如需詳細資訊,請參閱支援的 服務

AWS Managed Microsoft AD

Active Directory 狀態

AWS Managed Microsoft AD 執行個體會傳送作用中狀態事件。

服務事件。當目錄在事件後正常運作時發出。

目錄狀態受損

AWS Managed Microsoft AD 執行個體會傳送受損的目錄狀態事件。

服務事件。當目錄以降級狀態執行時發出。已偵測到一個或多個問題,且並非所有目錄操作都能以完整的操作容量運作;

無法運作的目錄狀態

AWS Managed Microsoft AD 執行個體會傳送無法操作的狀態事件。

服務事件。當目錄無法運作時發出。所有目錄端點均已回報問題。

刪除目錄狀態

AWS Managed Microsoft AD 執行個體會傳送刪除目錄狀態事件。

服務事件。當目錄目前正在刪除時發出。

失敗的目錄狀態

AWS Managed Microsoft AD 執行個體會傳送失敗狀態事件。

服務事件。當無法建立目錄時發出。

RestoreFailed Directory 狀態

AWS Managed Microsoft AD 執行個體會傳送還原失敗的目錄狀態事件。

服務事件。從快照還原目錄時發出失敗。

Amazon RDS 執行個體

低儲存提醒會在資料庫執行個體的配置儲存用盡時觸發。

RDS-EVENT-0007,請參閱使用 Amazon RDS 事件通知的詳細資訊。

資料庫執行個體失敗

因為不相容的組態或基礎儲存問題,資料庫執行個體已失敗。開始資料庫執行個體的時間點還原。

服務事件。RDS-EVENT-0031、Amazon RDS 事件類別和事件訊息

未嘗試容錯移轉

Amazon RDS 不會因為資料庫執行個體最近發生的容錯移轉,而嘗試請求的容錯移轉。

服務事件。RDS-EVENT-0034、Amazon RDS 事件類別和事件訊息

資料庫執行個體的參數無效

例如,MySQL 無法啟動,因為此執行個體類別的記憶體相關參數設定過高,因此客戶動作會是修改記憶體參數並重新啟動資料庫執行個體。

服務事件。RDS-EVENT-0035、Amazon RDS 事件類別和事件訊息

無效的子網路 IDs 資料庫執行個體

資料庫執行個體位於不相容的網路中。部分指定的子網路 ID 無效或不存在。

服務事件。RDS-EVENT-0036、Amazon RDS 事件類別和事件訊息

資料庫執行個體僅供讀取複本錯誤

僅供讀取複寫程序發生錯誤。如需更多詳細資訊,請參閱事件訊息。如需有關對僅供讀取複本錯誤進行故障診斷的資訊,請參閱對 MySQL 僅供讀取複本問題進行故障診斷

服務事件。RDS-EVENT-0045、Amazon RDS 事件類別和事件訊息

資料庫執行個體讀取複寫已結束

僅供讀取複本上的複寫已結束。

服務事件。RDS-EVENT-0057、Amazon RDS 事件類別和事件訊息

建立 statspack 使用者帳戶時發生錯誤

建立 Statspack 使用者帳戶 PERFSTAT 時發生錯誤。在新增 Statspack 選項之前捨棄帳戶。

服務事件。RDS-EVENT-0058、Amazon RDS 事件類別和事件訊息

資料庫執行個體復原開始

SQL Server 資料庫執行個體正在重新建立其鏡像。將會降低效能,直到鏡像重新建立完成。找到含有非 FULL 還原模型的資料庫。復原模型已變更回 FULL,並開始鏡像復原。(<dbname>:<recovery model found>【,...】)。

服務事件。RDS-EVENT-0066、Amazon RDS 事件類別和事件訊息

資料庫叢集的容錯移轉已失敗。

RDS-EVENT-0069,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

無效的許可復原 S3 儲存貯體

您用來為 SQL Server 原生備份與還原存取 Amazon S3 儲存貯體的 IAM 角色設定不正確。如需詳細資訊,請參閱設定原生備份和還原

服務事件。RDS-EVENT-0081、Amazon RDS 事件類別和事件訊息

Aurora 無法從 Amazon S3 儲存貯體複製備份資料。

RDS-EVENT-0082,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

資料庫執行個體耗用其配置儲存體的 90% 以上時,會發出低儲存提醒

RDS-EVENT-0089,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Aurora Serverless 資料庫叢集擴展失敗時的通知服務。

RDS-EVENT-0143,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

資料庫執行個體處於無效狀態。無需採取任何動作。稍後將重試自動擴展。

RDS-EVENT-0219,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

資料庫執行個體已達到儲存已滿閾值,且資料庫已關閉。

RDS-EVENT-0221,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

此事件表示 RDS 執行個體儲存體自動擴展無法擴展,可能有多個原因導致自動擴展失敗。

RDS-EVENT-0223,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

儲存自動擴展已觸發將達到最大儲存閾值的擱置擴展儲存任務。

RDS-EVENT-0224,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

資料庫執行個體具有目前在可用區域中無法使用的儲存類型。稍後將重試自動擴展。

RDS-EVENT-0237,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

RDS 無法佈建代理的容量,因為子網路中沒有足夠的可用 IP 地址。

RDS-EVENT-0243,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

您 AWS 帳戶的儲存體已超過允許的儲存體配額。

RDS-EVENT-0254,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

CPUUtilization

平均 CPU 使用率 > 90%,持續 15 分鐘,連續 2 次。

CloudWatch 警示。

DiskQueueDepth

總和 > 75 持續 1 分鐘,連續 15 次。

FreeStorageSpace

平均 < 1,073,741,824 位元組,持續 5 分鐘,連續 2 次。

SwapUsage

平均 >= 104,857,600 個位元組,持續 5 分鐘,連續 2 次。

Amazon Redshift 叢集

RedshiftClusterStatus

叢集在 5 分鐘內未處於維護模式 < 1 時的運作狀態。

1 代表運作狀態良好的叢集。

Amazon Macie

新產生的提醒和現有提醒的更新。

Macie 會在問題清單中找到任何變更。這些變更包括新產生的問題清單或後續出現的現有問題清單。

Amazon Macie 提醒。如需支援的 Macie 提醒類型清單,請參閱分析 Amazon Macie 調查結果。請注意,並非所有帳戶都啟用 Macie。

觸發此提醒時,AMS 會採取主動動作 (擴展叢集)。

如需修補工作的資訊,請參閱 AMS 自動修復提醒