View a markdown version of this page

提醒的 AMS 自動修復 - AMS Accelerate 使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

提醒的 AMS 自動修復

驗證後,AWS Managed Services (AMS) 會根據本節所述的特定條件和程序,自動修復特定提醒。

提醒名稱 Description 閾值 Action

狀態檢查失敗

可能的硬體故障或執行個體的故障狀態。

系統在過去 15 分鐘內至少偵測到一次失敗狀態。

AMS 自動修復會先驗證執行個體是否可存取。如果無法存取執行個體,則會停止並重新啟動執行個體。停止和啟動可讓執行個體遷移至新的基礎硬體。如需詳細資訊,請參閱下列「EC2 狀態檢查失敗修復自動化」一節。

AMSLinuxDiskUsage

當 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時觸發。

閾值在過去 30 分鐘超過定義的值 6 次。

AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。

AMSWindowsDiskUsage

當 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時。

閾值在過去 30 分鐘內超過定義的值 6 次。

AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。

RDS-EVENT-0089

資料庫執行個體已消耗超過其分配儲存容量的 90%。

儲存空間配置超過 90%。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

資料庫執行個體的配置儲存空間已用盡。若要解決此問題,請配置額外的儲存空間。

儲存是 100% 配置。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

請求的配置儲存達到或超過設定的最大儲存閾值。

資料庫執行個體的最大儲存閾值已用盡,或大於或等於請求的配置儲存。

AMS 自動修復會先驗證請求的 RDS 儲存量是否超過最大儲存閾值。如果確認,AMS 會嘗試使用 CloudFormation 變更集將最大儲存閾值提高 30%,如果資源未透過 CloudFormation 佈建,則請直接 RDS API。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-Storage-Capacity

少於 1GB 會保留在資料庫執行個體的配置儲存體中。

已配置 99% 的儲存空間。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

AMSFSXONTAPVolumeCapacityUtilization

Amazon FSx for NetApp ONTAP 磁碟區已耗用超過預設配置的儲存空間 (80%)。

ONTAP 磁碟區容量使用率的 FSx 在兩小時內大於 80% (預設值)。

AMS 自動修復會先驗證磁碟區生命週期狀態為可修改狀態,然後將磁碟區大小擴展 10%,同時驗證檔案系統的最大容量。如果檔案系統沒有足夠的儲存容量進行磁碟區擴展,則磁碟區和檔案系統都會一起擴展。此擴展限制在任何七天期間內最多三次。AMS Automation 擴展至 的最大儲存限制為 5120 GiB。

注意

如果在磁碟區上方設定 iSCSI LUN,請在作業系統層級展開 iSCSI LUN。如需詳細資訊,請參閱為什麼我的 FSx for ONTAP LUN 處於唯讀模式?

EC2 狀態檢查失敗:修復自動化備註

AMS 自動修復如何與 EC2 狀態檢查失敗問題搭配使用:

  • 如果您的 Amazon EC2 執行個體無法連線,執行個體必須停止並再次啟動,才能遷移至新的硬體並復原。

  • 如果問題的根目錄在作業系統中 (缺少 fstab 中的裝置、核心損毀等),則自動化無法復原您的執行個體。

  • 如果您的執行個體屬於 Auto Scaling 群組,自動化不會採取任何動作,AutoScalingGroup 擴展動作會取代執行個體。

  • 如果您的執行個體已啟用 EC2 Auto Recovery,則修復不會採取動作。

EC2 磁碟區用量修復自動化

AWS Managed Services (AMS) 自動修復如何解決 EC2 磁碟區用量問題:

  • 自動化會先驗證是否需要磁碟區擴展,以及是否可以執行。如果認為擴展是適當的,自動化可以增加磁碟區容量。此自動化程序會平衡成長需求與受控制的有限擴展。

  • 在擴展磁碟區之前,自動化會在執行個體上執行清除任務 (Windows:磁碟清理程式、Linux:Logrotate + Simple Service Manager 代理程式日誌移除),以嘗試釋放空間。

    注意

    清理任務不會在 EC2 "T" 系列執行個體上執行,因為它們依賴 CPU 點數來持續運作。

  • 在 Linux 上,自動化僅支援擴展類型為 EXT2, EXT3, EXT4和 XFS 的檔案系統。

  • 在 Windows 上,自動化僅支援新技術檔案系統 (NTFS) 和彈性檔案系統 (ReFS)。

  • 自動化不會擴展屬於邏輯磁碟區管理員 (LVM) 或 RAID 陣列一部分的磁碟區。

  • 自動化不會擴展執行個體存放區磁碟區。

  • 如果受影響的磁碟區已大於 2 TiB,則自動化不會採取動作。

  • 透過自動化的擴展限制為每週最多三次,系統生命週期內總計五倍。

  • 如果先前的擴展在過去六小時內發生,自動化不會擴展磁碟區。

當這些規則阻止自動化採取動作時,AMS 會透過傳出服務請求與您聯絡,以決定要採取的下一個動作。

Amazon RDS 低儲存事件修復自動化

AWS Managed Services (AMS) 自動修復如何與 Amazon RDS 低儲存體事件問題搭配使用:

  • 在嘗試擴展 Amazon RDS 執行個體儲存體之前,自動化會執行數項檢查,以確保 Amazon RDS 執行個體處於可修改和可用,或儲存已滿狀態。

  • 偵測到 CloudFormation 堆疊偏離時,修復會透過 Amazon RDS API 進行。

  • 根據觸發事件,修復會修改屬性 MaxAllocatedStorageAllocatedStorageIopsStorageThroughput。不會修改其他 Amazon RDS 執行個體屬性。如需詳細資訊,請參閱資料庫執行個體的設定

  • 修復動作不會在下列情況下執行:

    • Amazon RDS 執行個體狀態不是「可用」或「完整儲存」。

    • Amazon RDS 執行個體儲存體目前無法修改 (例如在過去六小時內修改儲存體時)。

    • Amazon RDS 執行個體已啟用自動擴展儲存。

  • 修復限制為每六小時一次擴展,且在滾動十四天期間內不超過三次擴展。

  • 當這些案例發生時,AMS 會透過傳出事件與您聯絡,以判斷下一個動作。

ONTAP 磁碟區容量修復自動化

AWS Managed Services (AMS) 自動修復如何解決 ONTAP 磁碟區容量問題:

  • 在擴展磁碟區之前,自動化會驗證磁碟區生命週期狀態為可修改狀態。

  • 自動化會將磁碟區大小擴展 10%,同時針對檔案系統容量上限進行驗證。

  • 如果檔案系統的儲存容量不足以容納磁碟區擴展,則磁碟區和檔案系統容量都會擴展。

  • 修復限制在七天期間內不超過三次更新。

  • AMS Automation 擴展到 的最大儲存限制為 5120 GiB。

  • 如果在磁碟區上方設定 iSCSI LUN,您必須在自動修復完成後,在作業系統層級手動展開 iSCSI LUN。如需詳細資訊,請參閱為什麼我的 FSx for ONTAP LUN 處於唯讀模式?