AMS 自動修復提醒 - AMS Accelerate 使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AMS 自動修復提醒

驗證後,AWS Managed Services (AMS) 會根據本節所述的特定條件和程序,自動修復特定提醒。

提醒名稱 描述 閾值 動作

狀態檢查失敗

可能的硬體故障或執行個體的故障狀態。

系統在過去 15 分鐘內至少偵測到一次失敗狀態。

AMS 自動修復會先驗證執行個體是否可存取。如果無法存取執行個體,則會停止並重新啟動執行個體。停止和啟動可讓執行個體遷移至新的基礎硬體。如需詳細資訊,請參閱下列「EC2 狀態檢查失敗修復自動化」一節。

AMSLinuxDiskUsage

當 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時觸發。

閾值在過去 30 分鐘超過定義的值 6 次。

AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。

AMSWindowsDiskUsage

當 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時。

閾值在過去 30 分鐘內超過定義的值 6 次。

AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。

RDS-EVENT-0089

資料庫執行個體已消耗超過其分配儲存容量的 90%。

儲存空間配置超過 90%。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

資料庫執行個體的配置儲存體已用盡。若要解決此問題,請配置額外的儲存空間。

儲存空間是 100% 配置。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

請求的配置儲存達到或超過設定的最大儲存閾值。

資料庫執行個體的最大儲存閾值已用盡,或大於或等於請求的已配置儲存。

AMS 自動修復會先驗證請求的 RDS 儲存量是否超過最大儲存閾值。如果確認,AMS 會嘗試使用 CloudFormation 變更集將最大儲存閾值提高 30%,如果資源未透過 CloudFormation 佈建,則請直接 RDS API。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-Storage-Capacity

少於 1GB 會保留在資料庫執行個體的配置儲存體中。

已配置 99% 的儲存空間。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

EC2 狀態檢查失敗:修復自動化備註

AMS 自動修復如何與 EC2 狀態檢查失敗問題搭配使用:

  • 如果您的 Amazon EC2 執行個體無法連線,執行個體必須停止並再次啟動,才能遷移至新的硬體並復原。

  • 如果問題的根目錄在作業系統中 (缺少 fstab 中的裝置、核心損毀等),自動化將無法復原您的執行個體。

  • 如果您的執行個體屬於 Auto Scaling 群組,自動化不會採取任何動作,AutoScalingGroup 擴展動作會取代執行個體。

  • 如果您的執行個體已啟用 EC2 Auto Recovery,則修復不會採取動作。

EC2 磁碟區用量修復自動化

AWS Managed Services (AMS) 自動修復如何處理 EC2 磁碟區用量問題:

  • 自動化會先驗證是否需要磁碟區擴展,以及是否可以執行。如果認為擴展是適當的,自動化可以增加磁碟區容量。此自動化程序會平衡成長需求與受控制的有限擴展。

  • 在擴展磁碟區之前,自動化會在執行個體上執行清除任務 (Windows:磁碟清理程式、Linux:Logrotate + Simple Service Manager 代理程式日誌移除),以嘗試釋放空間。

    注意

    清理任務不會在 EC2 "T" 系列執行個體上執行,因為它們依賴 CPU 點數來持續運作。

  • 在 Linux 上,自動化僅支援擴展類型為 EXT2, EXT3, EXT4和 XFS 的檔案系統。

  • 在 Windows 上,自動化僅支援新技術檔案系統 (NTFS) 和彈性檔案系統 (ReFS)。

  • 自動化不會擴展屬於邏輯磁碟區管理員 (LVM) 或 RAID 陣列一部分的磁碟區。

  • 自動化不會擴展執行個體存放區磁碟區。

  • 如果受影響的磁碟區已大於 2 TiB,則自動化不會採取動作。

  • 透過自動化的擴展限制為每週最多三次,系統生命週期內總計五次。

  • 如果先前的擴展在過去六小時內發生,自動化不會擴展磁碟區。

當這些規則阻止自動化採取動作時,AMS 會透過傳出服務請求與您聯絡,以決定要採取的下一個動作。

Amazon RDS 低儲存體事件修復自動化

AWS Managed Services (AMS) 自動修復如何與 Amazon RDS 低儲存體事件問題搭配使用:

  • 在嘗試擴展 Amazon RDS 執行個體儲存體之前,自動化會執行多項檢查,以確保 Amazon RDS 執行個體處於可修改且可用,或儲存已滿的狀態。

  • 在偵測到 CloudFormation 堆疊偏離之處,修復會透過 Amazon RDS API 進行。

  • 修復動作不會在下列情況下執行:

    • Amazon RDS 執行個體狀態不是「可用」或「完整儲存」。

    • Amazon RDS 執行個體儲存體目前無法修改 (例如在過去六小時內修改儲存體時)。

    • Amazon RDS 執行個體已啟用自動擴展儲存。

    • Amazon RDS 執行個體不是 CloudFormation 堆疊中的資源。

  • 修補限制為每六小時一次擴展,且在滾動十四天內不超過三次擴展。

  • 當這些案例發生時,AMS 會透過傳出事件與您聯絡,以判斷下一個動作。