AMS 自動修復提醒 - AMS 進階使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AMS 自動修復提醒

驗證後,AWS Managed Services (AMS) 會根據本節所述的特定條件和程序,自動修復特定提醒。

提醒名稱 描述 閾值 動作

中斷的安全頻道

當執行個體與 AD 網域控制器失去連線時,會在 Windows EC2 執行個體上觸發中斷的安全頻道警示。

閾值在過去 15 分鐘內超過定義的值 10 次。

AMS 自動修復會驗證執行個體是否在 SSM 中上線、主機名稱是否重複,以及 AD 電腦物件是否與 CloudFormation 堆疊 對齊。修復會修復安全通道連線,以還原對執行個體的存取。

狀態檢查失敗

可能的硬體故障或執行個體的故障狀態。

系統在過去 15 分鐘內至少偵測到一次失敗狀態。

AMS 自動修復會先驗證執行個體是否可存取。如果無法存取執行個體,則會停止並重新啟動執行個體。停止和啟動可讓執行個體遷移至新的基礎硬體。如需詳細資訊,請參閱下列「EC2 狀態檢查失敗修復自動化」一節。

AMSLinuxDiskUsage

在 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時觸發。

閾值在過去 30 分鐘超過定義的值 6 次。

AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。

AMSWindowsDiskUsage

當 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時。

閾值在過去 30 分鐘內超過定義的值 6 次。

AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。

RDS-EVENT-0089

資料庫執行個體已消耗超過其分配儲存容量的 90%。

儲存空間配置超過 90%。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

資料庫執行個體的配置儲存體已用盡。若要解決此問題,請配置額外的儲存空間。

儲存空間是 100% 配置。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

請求的已配置儲存達到或超過設定的最大儲存閾值。

資料庫執行個體的最大儲存閾值已用盡,或大於或等於請求的已配置儲存。

AMS 自動修復會先驗證請求的 RDS 儲存量是否超過最大儲存閾值。如果確認,AMS 會嘗試使用 CloudFormation 變更集將最大儲存閾值提高 30%,如果資源未透過 CloudFormation 佈建,則請直接 RDS API。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-Storage-Capacity

少於 1GB 會保留在資料庫執行個體的配置儲存體中。

已配置 99% 的儲存空間。

AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。

將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

Amazon EC2 中斷安全通道:修復自動化備註

在 AWS Managed Services (AMS) 自動修復對 Amazon EC2 Windows 中斷安全通道問題執行修復之前,自動化會執行下列預先檢查,並建立事件報告以進行進一步調查:

  • 驗證 Amazon EC2 執行個體 SSM 狀態是否為「線上」。

  • 驗證 Amazon EC2 執行個體是否屬於 Auto Scaling 群組,以及 Auto Scaling 群組中的所有執行個體是否具有相同的主機名稱。

  • 檢查 Amazon EC2 執行個體是否為用來佈建的 CloudFormation 堆疊的一部分。如果執行個體已從 CloudFormation 堆疊中移除,自動化會驗證相關聯的 Active Directory 組織單位 (OU) 是否仍在參考堆疊。

通過上述驗證後,自動化會繼續修復中斷的安全頻道。

修復步驟:

  • 自動修復會嘗試修復 EC2 執行個體和 AD 網域之間的安全通道,還原對執行個體的存取。

  • 修復後,自動化會檢查是否已建立安全頻道。如果失敗,AMS 會建立事件並委託 AMS 操作進行調查。

EC2 狀態檢查失敗:修復自動化備註

AMS 自動修復如何與 EC2 狀態檢查失敗問題搭配使用:

  • 如果您的 Amazon EC2 執行個體無法連線,執行個體必須停止並再次啟動,才能遷移至新的硬體並復原。

  • 如果問題的根目錄在作業系統中 (缺少 fstab 中的裝置、核心損毀等),則自動化無法復原您的執行個體。

  • 如果您的執行個體屬於 Auto Scaling 群組,自動化不會採取任何動作,AutoScalingGroup 擴展動作會取代執行個體。

  • 如果您的執行個體已啟用 EC2 Auto Recovery,則修復不會採取動作。

EC2 磁碟區用量修復自動化

AWS Managed Services (AMS) 自動修復如何解決 EC2 磁碟區用量問題:

  • 自動化會先驗證是否需要磁碟區擴展,以及是否可以執行。如果認為擴展是適當的,自動化可以增加磁碟區容量。此自動化程序會平衡成長需求與受控制、有限的擴展。

  • 在擴展磁碟區之前,自動化會在執行個體上執行清除任務 (Windows:磁碟清理程式、Linux:Logrotate + Simple Service Manager 代理程式日誌移除),以嘗試釋放空間。

    注意

    清理任務不會在 EC2 "T" 系列執行個體上執行,因為它們依賴 CPU 點數來持續運作。

  • 在 Linux 上,自動化僅支援擴展類型為 EXT2, EXT3, EXT4和 XFS 的檔案系統。

  • 在 Windows 上,自動化僅支援新技術檔案系統 (NTFS) 和彈性檔案系統 (ReFS)。

  • 自動化不會擴展屬於邏輯磁碟區管理員 (LVM) 或 RAID 陣列一部分的磁碟區。

  • 自動化不會擴展執行個體存放區磁碟區。

  • 如果受影響的磁碟區已大於 2 TiB,則自動化不會採取動作。

  • 透過自動化的擴展限制為每週最多三次,系統生命週期內總計五倍。

  • 如果先前的擴展在過去六小時內發生,自動化不會擴展磁碟區。

當這些規則阻止自動化採取動作時,AMS 會透過傳出服務請求與您聯絡,以決定要採取的下一個動作。

Amazon RDS 低儲存事件修復自動化

AWS Managed Services (AMS) 自動修復如何與 Amazon RDS 低儲存體事件問題搭配使用:

  • 在嘗試擴展 Amazon RDS 執行個體儲存體之前,自動化會執行多項檢查,以確保 Amazon RDS 執行個體處於可修改且可用,或儲存已滿的狀態。

  • 在偵測到 CloudFormation 堆疊偏離之處,修復會透過 Amazon RDS API 進行。

  • 修復動作不會在下列情況下執行:

    • Amazon RDS 執行個體狀態不是「可用」或「完整儲存」。

    • Amazon RDS 執行個體儲存體目前無法修改 (例如在過去六小時內修改儲存體時)。

    • Amazon RDS 執行個體已啟用自動擴展儲存。

    • Amazon RDS 執行個體不是 CloudFormation 堆疊中的資源。

  • 修補限制為每六小時一次擴展,且在滾動十四天期間內不超過三次擴展。

  • 當這些案例發生時,AMS 會透過傳出事件與您聯絡,以判斷下一個動作。