AMS 中基準監控的提醒 - AMS Accelerate 使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AMS 中基準監控的提醒

了解 AMS Accelerate 監控預設值。如需詳細資訊,請參閱AMS Accelerate 中的監控和事件管理

下表顯示監控的項目和預設提醒閾值。您可以使用自訂組態文件變更提醒閾值,或提交服務請求。如需變更自訂警示組態的指示,請參閱 變更加速警示組態。若要在警示超過閾值時接收通知,除了 AMS 的標準警示程序之外,您還可以覆寫警示組態。如需說明,請參閱加速警示管理員

Amazon CloudWatch 提供指標的延長保留。如需詳細資訊,請參閱 CloudWatch 限制

注意

AMS Accelerate 會定期校正其基準監控。新帳戶一律使用最新的基準監控加入,而表格說明新加入帳戶的基準監控。AMS Accelerate 會定期更新現有帳戶中的基準監控,而且在進行更新之前,您可能會遇到延遲。

基準監控的提醒

服務/資源類型

警示來源和觸發條件

提醒名稱和備註

對於星號 (*) 警示,AMS 會盡可能主動評估影響並修復;如果無法修復,AMS 會建立事件。當自動化無法修正問題時,AMS 會通知您事件案例,並聘請 AMS 工程師。此外,如果您選擇加入 Direct-Customer-Alerts SNS 主題,則這些提醒會直接傳送到您的電子郵件。

Application Load Balancer 執行個體

ApplicationLoadBalancerErrorCount

(HTTPCode_ELB_5XX_Count/RequestCount)*100

總和 > 15%,持續 1 分鐘,連續 5 次。

Application LoadBalancer HTTP 5XX 錯誤計數

Loadbalancer 產生的過多 HTTP 5XX 回應代碼的 CloudWatch 警示。

Application Load Balancer 執行個體

RejectedConnectionCount

總和 > 0%,持續 1 分鐘,連續 5 次。

Application LoadBalancer 拒絕的連線計數

如果因負載平衡器達到其上限而遭到拒絕的連線數目,則 CloudWatch 警示

Application Load Balancer 目標

TargetConnectionErrorCount

(HTTPCode_Target_5XX_Count/RequestCount)*100

總和 > 15%,持續 1 分鐘,連續 5 次。

${ElasticLoadBalancingV2::TargetGroup::FullName} - Application LoadBalancer 目標連線錯誤計數 - ${ElasticLoadBalancingV2::TargetGroup::UUID}

目標產生的過多 HTTP 5XX 回應碼的 CloudWatch 警示。

Application Load Balancer 目標

ApplicationLoadBalancerTargetGroupErrorCount

總和 > 0%,持續 1 分鐘,連續 5 次。

${ElasticLoadBalancingV2::TargetGroup::FullName} - Application LoadBalancer Target HTTP 5XX 錯誤計數 - ${ElasticLoadBalancingV2::TargetGroup::UUID}

如果負載平衡器和已註冊執行個體之間的連線數目未成功建立,則 CloudWatch 會發出警示。

Amazon EC2 執行個體 - 所有OSs

CPUUtilization*

> 95% 持續 5 分鐘,連續 6 次。

${EC2::InstanceId}:CPU 太高

CloudWatch 警示。高 CPU 使用率是應用程式狀態變更的指標,例如死鎖、無限迴圈、惡意攻擊和其他異常。

這些是 Direct-Customer-Alerts 警示。

Amazon EC2 執行個體 - 所有OSs

StatusCheckFailed

> 0% 持續 5 分鐘,連續 3 次。

${EC2::InstanceId}:狀態檢查失敗

CloudWatch 警示。狀態檢查失敗表示具有指定 ID 的 Amazon EC2 執行個體已失敗其一或多個自動狀態檢查。這表示執行個體發生問題,導致無法正常運作或無法連線。

Amazon EC2 執行個體 - Linux

最小 mem_used_percent

>= 95%,持續 5 分鐘,連續 6 次。

${EC2::InstanceId}:記憶體可用

CloudWatch 警示。Memory Free 表示指定 Amazon EC2 執行個體上的可用記憶體 (RAM) 已低於定義的閾值。這可能會導致記憶體問題、系統當機,並指出執行個體可能需要更多 RAM。

這些是 Direct-Customer-Alerts 警示。

Amazon EC2 執行個體 - Linux

平均 swap_used_percent

>= 95%,持續 5 分鐘,連續 6 次。

${EC2::InstanceId}:交換免費

CloudWatch 警示。Amazon EC2 執行個體的平均 swap_used_percent 表示目前使用中配置的交換空間的平均百分比已超過預先定義的閾值。這可能會導致效能降低、瓶頸和記憶體問題。

這些是 Direct-Customer-Alerts 警示。

Amazon EC2 執行個體 - Linux

disk_used_percent 上限

>= 95%,持續 5 分鐘,連續 6 次。

${EC2::InstanceId}:磁碟用量太高 - ${EC2::Disk::UUID}

CloudWatch 警示。磁碟用量太高表示特定 Amazon EC2 或已識別磁碟上的磁碟使用率接近其容量。這可能會導致效能降低、應用程式錯誤和系統不穩定。

這些是 Direct-Customer-Alerts 警示。

Amazon EC2 執行個體 - Windows

使用中已遞交位元組的記憶體百分比下限

>= 95%,持續 5 分鐘,連續 6 次。

${EC2::InstanceId}:記憶體可用

CloudWatch 警示。Memory Free 表示指定 Amazon EC2 執行個體上的可用記憶體 (RAM) 已低於定義的閾值。這可能會導致記憶體問題、系統當機,並指出執行個體可能需要更多 RAM。

這些是 Direct-Customer-Alerts 警示。

Amazon EC2 執行個體 - Windows

LogicalDisk % 可用空間上限

<= 5%,持續 5 分鐘,連續 6 次。

${EC2::InstanceId}:磁碟用量太高 - ${EC2::Disk::UUID}

CloudWatch 警示。指出 Amazon EC2 Windows 執行個體內邏輯磁碟 (檔案系統分割區) 的可用空間百分比已超過預先定義的閾值。磁碟空間不足可能會導致磁碟空間不足

這些是 Direct-Customer-Alerts 警示。

Amazon EFS

AMSEFSBurstCreditBalanceExhausted。

BurstCreditBalance 少於 1000,持續 15 分鐘。

${EFS::FileSystemId}:EFS:爆量額度餘額

Amazon EFS 檔案系統 BurstCreditBalance 上的 CloudWatch 警示。

Amazon EFS

AMSEFSClientConnectionsLimit。

ClientConnections > 24,000 15 分鐘。

${EFS::FileSystemId}:EFS:用戶端連線限制

Amazon EFS 檔案系統 ClientConnections 上的 CloudWatch 警示。

Amazon EFS

AMSEFSThroughputUtilizationLimit。

EFS 一小時輸送量使用率 > 80%。

${EFS::FileSystemId}:EFS:輸送量使用率限制

Amazon EFS 檔案系統輸送量使用率的 CloudWatch 警示。

Amazon EFS

AMSEFSPercentIOLimit。

PercentIOLimit > 95 持續七十五分鐘。

${EFS::FileSystemId}:EFS: PercentIOLimit

Amazon EFS 檔案系統之 PercentIOLimit 上的 CloudWatch 警示。

Amazon EKS

請參閱 Amazon EKS AMS Accelerate 中 Amazon EKS 監控和事件管理的基準警示

Elastic Load Balancing 執行個體

SpilloverCountBackendConnectionErrors

> 1 表示 1 分鐘,連續 15 次。

Classic LoadBalancer 溢出計數警示

如果因為突增佇列已滿而遭到拒絕的請求數量過多,CloudWatch 會發出警示。

Elastic Load Balancing 執行個體

HTTPCode_ELB_5XX_Count

總和 > 0,持續 5 分鐘,連續 3 次。

來自負載平衡器之過多 HTTP 5XX 回應碼的 CloudWatch 警示。

Elastic Load Balancing 執行個體

SurgeQueueLength

> 100 持續 1 分鐘,連續 15 次。

Classic LoadBalancer 突增佇列長度警示。

如果待定路由的請求數量過多,CloudWatch 會發出警示。

FSx for OnTAP

AMSFSXONTAPIOPSUtilization。

FSX:ONTAP IOPS 使用率 > 80%,持續兩小時。

${FSx::FileSystemId}:FSX:ONTAP IOPS 使用率

FSx for ONTAP 執行個體 IOPS 使用率限制上的 CloudWatch 警示。

FSx for OnTAP

AMSFSXONTAPThroughputUtilization。

FSX:ONTAP 輸送量使用率 > 80%,持續兩小時。

${FSx::FileSystemId}:FSX:ONTAP 輸送量使用率

FSx for ONTAP 磁碟區的輸送量限制上的 CloudWatch 警示。

FSx for OnTAP

AMSFSXONTAPVolumeInodeUtilization。

FSX:ONTAP Inode 使用率 > 80%,持續兩小時。

${FSx::FileSystemId}:${FSx::ONTAP::VolumeId} FSX:ONTAP Inode 使用率

FSx for ONTAP 磁碟區的檔案容量使用率限制上的 CloudWatch 警示。

FSx for OnTAP

AMSFSXONTAPVolumeCapacityUtilization。

FSX:ONTAP 磁碟區容量使用率 > 80%,持續兩小時。

${FSx::FileSystemId}:${FSx::ONTAP::VolumeId}

FSx for ONTAP 磁碟區的磁碟區容量使用率限制上的 CloudWatch 警示。

FSx for Windows File Server

AMSFSXWindowsThroughputUtilization。

FSX:Windows 兩小時輸送量使用率 > 80%。

${FSx::FileSystemId}:FSX:Windows 輸送量使用率

FSx for Windows File Server 執行個體輸送量限制上的 CloudWatch 警示。

FSx for Windows File Server

AMSFSXWindowsIOPSUtilization。

FSX:Windows IOPS 使用率 > 80%,持續兩小時。

${FSx::FileSystemId}:FSX:Windows IOPS 使用率

FSx for Windows File Server 執行個體 IOPS 使用率限制上的 CloudWatch 警示。

GuardDuty 服務

不適用;所有調查結果 (威脅目的) 都會受到監控。每個問題清單對應至 提醒。

GuardDuty 調查結果的變更。這些變更包括新產生的問題清單或後續出現的現有問題清單。

如需支援的 GuardDuty 調查結果類型清單,請參閱 GuardDuty 作用中調查結果類型

醫療保健

AWS Health Dashboard

與 AMS 監控的服務相關的 AWS Health Dashboard (AWS Health) 事件狀態變更時,會傳送通知。如需詳細資訊,請參閱支援的 服務

IAM

Amazon EC2 IAM 執行個體設定檔不存在。

IAM 執行個體描述檔遺失。

如需取代 Amazon EC2 IAM 執行個體描述檔的說明,請參閱取代 IAM 角色中的 IAM 文件。

IAM

Amazon EC2 IAM 執行個體描述檔的政策過多。

IAM 執行個體描述檔有 10 個政策,無法新增其他政策。

  • 修改 IAM 的服務 AWS 配額,將每個角色的受管政策數目增加到 20。如需服務配額的相關資訊,請參閱檢視服務配額

  • 透過移除與這些執行個體相關聯之 IAM 角色的不必要受管政策,將受管政策計數降至低於目前的 IAM 配額。請務必保留 AMS 所需的政策。

  • 透過合併與這些執行個體相關聯之 IAM 角色的政策,將受管政策計數降至低於目前的 IAM 配額。請務必保留 AMS 所需的政策。

如需 AMS 必要政策,請參閱 AMS Accelerate 使用者指南IAM 許可變更詳細資訊

Macie

新產生的提醒和現有提醒的更新。

Macie 會在問題清單中找到任何變更。這些變更包括新產生的問題清單或後續出現的現有問題清單。

Amazon Macie 提醒。如需支援的 Amazon Macie 警示類型清單,請參閱分析 Amazon Macie 調查結果。請注意,並非所有帳戶都啟用 Macie。

NATGateways

PacketsDropCount :如果 packetsdropcount 在 15 分鐘內 > 0 時發出警示

NatGateway PacketsDropCount

大於 0 的值可能表示,目前 NAT 閘道發生暫時性的問題。

NATGateways

ErrorPortAllocation:如果 NAT Gateways 無法配置連接埠超過 15 分鐘的評估期間,則發出警示

NatGateway ErrorPortAllocation

NAT 閘道無法配置來源連接埠的次數。大於零的值表示開啟太多並行衝突。

OpenSearch 叢集

叢集狀態

紅色最大值為 >= 1 持續 1 分鐘,連續 1 次。

ClusterStatus 紅色

CloudWatch 警示。用於加密網域中靜態資料的 AWS KMS 加密金鑰已停用。重新啟用它來恢復正常操作。若要進一步了解,請參閱 Red Cluster 狀態

OpenSearch 網域

KMSKeyError

>= 1 表示 1 分鐘,連續 1 次。

KMS 金鑰錯誤

CloudWatch 警示。至少一個主要碎片及其複本不會分配到節點。若要進一步了解,請參閱 Amazon OpenSearch Service 的靜態資料加密

OpenSearch 網域

KMSKeyInaccessible

>= 1 表示 1 分鐘,連續 1 次。

KMS 金鑰無法存取錯誤

CloudWatch 警示。至少一個主要碎片及其複本不會分配到節點。若要進一步了解,請參閱 Amazon OpenSearch Service 的靜態資料加密

OpenSearch 網域

叢集狀態

黃色最大值為 >= 1 持續 1 分鐘,連續 1 次。

ClusterStatus 黃色

至少一個複本碎片不會分配到節點。若要進一步了解,請參閱黃色叢集狀態

OpenSearch 網域

FreeStorageSpace

最小值為 <= 20480,持續 1 分鐘,連續 1 次。

可用儲存空間不足

您叢集內的節點縮減至 20 GiB 的可用儲存空間。若要進一步了解,請參閱缺少可用的儲存空間

OpenSearch 網域

ClusterIndexWritesBlocked

>= 1 持續 5 分鐘,連續 1 次。

叢集索引寫入已封鎖

叢集正在封鎖寫入請求。若要進一步了解,請參閱 ClusterBlockException

OpenSearch 網域

節點

最短 < x 持續 1 天,連續 1 次。

節點關閉

x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。若要進一步了解,請參閱失敗的叢集節點

OpenSearch 網域

CPUUtilization

平均 >= 80%,持續 15 分鐘,連續 3 次。

資料節點中的高 CPU 用量

100% CPU 使用率不稀有,但持續高平均值會有問題。請考慮調整現有執行個體類型的大小,或新增執行個體。

OpenSearch 網域

JVMMemoryPressure

最大值 >= 80%,持續 5 分鐘,連續 3 次。

資料節點中的高記憶體用量

如果使用量增加,叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小上限為 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。

OpenSearch 網域

MasterCPUUtilization

平均 >= 50%,持續 15 分鐘,連續 3 次。

主節點 CPU 使用率高

請考慮為您的專用主節點使用較大的執行個體類型。因為其在叢集穩定性中的角色和藍/綠部署,專用主節點應該具有比資料節點較低的平均 CPU 使用量。

OpenSearch 網域

MasterJVMMemoryPressure

最大值 >= 80%,持續 15 分鐘,連續 1 次。

主節點 JVM 記憶體壓力過高

請考慮為您的專用主節點使用較大的執行個體類型。因為其在叢集穩定性中的角色和藍/綠部署,專用主節點應該具有比資料節點較低的平均 CPU 使用量。

OpenSearch 執行個體

AutomatedSnapshotFailure

最大值為 >= 1,持續 1 分鐘,連續 1 次。

自動化快照失敗

CloudWatch 警示。自動快照失敗。此故障通常是紅色叢集運作狀態的結果。若要進一步了解,請參閱 Red Cluster 狀態

Amazon RDS

平均 CPU 使用率

> 90%,持續 15 分鐘,連續 2 次。

${RDS::DBInstanceIdentifier}:CPUUtilization

CloudWatch 警示。

Amazon RDS

DiskQueueDepth 的總和

> 75%,持續 1 分鐘,連續 15 次。

${RDS::DBInstanceIdentifier}:DiskQueue

CloudWatch 警示。

Amazon RDS

平均 FreeStorageSpace

< 1,073,741,824 位元組,持續 5 分鐘,連續 2 次。

${RDS::DBInstanceIdentifier}:FreeStorageSpace

CloudWatch 警示。

Amazon RDS

低儲存提醒

當資料庫執行個體的配置儲存體用盡時觸發。

RDS-EVENT-0007,請參閱使用 Amazon RDS 事件通知的詳細資訊。

Amazon RDS

資料庫執行個體失敗

因為不相容的組態或基礎儲存問題,資料庫執行個體已失敗。開始資料庫執行個體的時間點還原。

RDS-EVENT-0031,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

未嘗試 RDS -0034 容錯移轉。

Amazon RDS 不會因為資料庫執行個體最近發生的容錯移轉,而嘗試請求的容錯移轉。

RDS-EVENT-0034,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

RDS - 0035 資料庫執行個體無效的參數

例如,MySQL 無法啟動,因為此執行個體類別的記憶體相關參數設定過高,因此您的動作會是修改記憶體參數並重新啟動資料庫執行個體。

RDS-EVENT-0035,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

無效的子網路 IDs 資料庫執行個體

資料庫執行個體位於不相容的網路中。部分指定的子網路 ID 無效或不存在。

服務事件。RDS-EVENT-0036,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

RDS-0045 資料庫執行個體僅供讀取複本錯誤

僅供讀取複寫程序發生錯誤。如需更多詳細資訊,請參閱事件訊息。如需有關對僅供讀取複本錯誤進行故障診斷的資訊,請參閱對 MySQL 僅供讀取複本問題進行故障診斷

RDS-EVENT-0045,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

RDS-0057 建立 statspack 使用者帳戶時發生錯誤

僅供讀取複本上的複寫已結束。

服務事件。RDS-EVENT-0057,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

RDS-0058 資料庫執行個體讀取複寫已結束

建立 Statspack 使用者帳戶 PERFSTAT 時發生錯誤。在新增 Statspack 選項之前捨棄帳戶。

服務事件。RDS-EVENT-0058,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

資料庫執行個體復原開始

SQL Server 資料庫執行個體正在重新建立其鏡像。將會降低效能,直到鏡像重新建立完成。找到含有非 FULL 還原模型的資料庫。復原模型已變更回 FULL 並開始鏡像復原。(<dbname>:<recovery model found>【,...】)

服務事件。RDS-EVENT-0066 請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

資料庫叢集的容錯移轉已失敗。

RDS-EVENT-0069,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

無效的許可復原 S3 儲存貯體

您用來為 SQL Server 原生備份與還原存取 Amazon S3 儲存貯體的 IAM 角色設定不正確。如需詳細資訊,請參閱設定原生備份和還原

服務事件。RDS-EVENT-0081 在 Amazon RDS 事件類別和事件訊息中查看詳細資訊。

Amazon RDS

Aurora 無法從 Amazon S3 儲存貯體複製備份資料。

RDS-EVENT-0082,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

資料庫執行個體耗用其配置儲存體的 90% 以上時,會發出低儲存提醒。

服務事件。RDS-EVENT-0089 在 Amazon RDS 事件類別和事件訊息中查看詳細資訊。

Amazon RDS

Aurora Serverless 資料庫叢集擴展失敗時的通知服務。

服務事件。RDS-EVENT-0143 在 Amazon RDS 事件類別和事件訊息中查看詳細資訊。

Amazon RDS

資料庫執行個體處於無效狀態。無需採取任何動作。稍後將重試自動擴展。

RDS-EVENT-0219,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

資料庫執行個體已達到儲存已滿閾值,且資料庫已關閉。

RDS-EVENT-0221,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

此事件表示 Amazon RDS 執行個體儲存體自動擴展無法擴展,可能有多個原因導致自動擴展失敗。

RDS-EVENT-0223,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

儲存自動擴展已觸發將達到最大儲存閾值的擱置擴展儲存任務。

RDS-EVENT-0224,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

資料庫執行個體具有目前在可用區域中無法使用的儲存類型。稍後將重試自動擴展。

RDS-EVENT-0237,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

Amazon RDS 無法佈建代理的容量,因為子網路中沒有足夠的 IP 地址可用。

RDS-EVENT-0243,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon RDS

的儲存 AWS 帳戶 體已超過允許的儲存體配額。

RDS-EVENT-0254,請參閱 Amazon RDS 事件類別和事件訊息的詳細資訊。

Amazon Redshift 叢集

未處於維護模式時的叢集運作狀態

< 1 持續 5 分鐘

RedshiftClusterHealthStatus

如需詳細資訊,請參閱使用 CloudWatch 指標監控 Amazon Redshift

站台對站台 VPN

VPNTunnelDown

TunnelState <= 0,持續 1 分鐘,連續 20 次。

${AWS::EC2::VpnConnectionId} - VPNTunnelDown

兩個通道都關閉時 TunnelState 為 0,一個通道啟動時為 .5,兩個通道都啟動時為 1.0。

Systems Manager 代理程式

非由 Systems Manager 管理的 EC2 執行個體

未安裝 SSM 代理程式。SSM 代理程式已安裝在執行個體上,但代理程式服務未執行。SSM 代理程式沒有 AWS Systems Manager 服務的網路路由。

還有其他條件會導致 Systems Manager Agent 中斷;如需詳細資訊,請參閱對受管節點可用性進行故障診斷

如需修補工作的資訊,請參閱 AMS 自動修復提醒