本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AMS 自動修復提醒
驗證後,AWS Managed Services (AMS) 會根據本節所述的特定條件和程序,自動修復特定提醒。
| 提醒名稱 | 描述 | 閾值 | 動作 |
|---|---|---|---|
中斷的安全頻道 |
當執行個體與 AD 網域控制器失去連線時,會在 Windows EC2 執行個體上觸發中斷的安全頻道警示。 |
閾值在過去 15 分鐘內超過定義的值 10 次。 |
AMS 自動修復會驗證執行個體是否在 SSM 中上線、主機名稱是否重複,以及 AD 電腦物件是否與 CloudFormation 堆疊 對齊。修復會修復安全通道連線,以還原對執行個體的存取。 |
狀態檢查失敗 |
可能的硬體故障或執行個體的故障狀態。 |
系統在過去 15 分鐘內至少偵測到一次失敗狀態。 |
AMS 自動修復會先驗證執行個體是否可存取。如果無法存取執行個體,則會停止並重新啟動執行個體。停止和啟動可讓執行個體遷移至新的基礎硬體。如需詳細資訊,請參閱下列「EC2 狀態檢查失敗修復自動化」一節。 |
AMSLinuxDiskUsage |
在 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時觸發。 |
閾值在過去 30 分鐘超過定義的值 6 次。 |
AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。 |
AMSWindowsDiskUsage |
當 EC2 執行個體上 1 個掛載點 (磁碟區上的指定空間) 的磁碟用量填滿時。 |
閾值在過去 30 分鐘內超過定義的值 6 次。 |
AMS 自動修復會先刪除暫存檔案。如果這無法釋放足夠的磁碟空間,它會擴展磁碟區,以防止在磁碟區已滿時停機。 |
RDS-EVENT-0089 |
資料庫執行個體已消耗超過其分配儲存容量的 90%。 |
儲存空間配置超過 90%。 |
AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。 將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: |
RDS-EVENT-0007 |
資料庫執行個體的配置儲存體已用盡。若要解決此問題,請配置額外的儲存空間。 |
儲存空間是 100% 配置。 |
AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。 將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: |
RDS-EVENT-0224 |
請求的已配置儲存達到或超過設定的最大儲存閾值。 |
資料庫執行個體的最大儲存閾值已用盡,或大於或等於請求的已配置儲存。 |
AMS 自動修復會先驗證請求的 RDS 儲存量是否超過最大儲存閾值。如果確認,AMS 會嘗試使用 CloudFormation 變更集將最大儲存閾值提高 30%,如果資源未透過 CloudFormation 佈建,則請直接 RDS API。 將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: |
RDS-Storage-Capacity |
少於 1GB 會保留在資料庫執行個體的配置儲存體中。 |
已配置 99% 的儲存空間。 |
AMS 自動修復會先驗證資料庫是否處於可修改且可用或完整儲存狀態。然後,它會嘗試透過 CloudFormation 變更集增加配置的儲存、IOPS 和儲存輸送量。如果偵測到堆疊偏離,則會回到 RDS API 以防止停機時間。 將下列標籤新增至 RDS 資料庫執行個體,即可選擇退出此功能: |
Amazon EC2 中斷安全通道:修復自動化備註
在 AWS Managed Services (AMS) 自動修復對 Amazon EC2 Windows 中斷安全通道問題執行修復之前,自動化會執行下列預先檢查,並建立事件報告以進行進一步調查:
驗證 Amazon EC2 執行個體 SSM 狀態是否為「線上」。
驗證 Amazon EC2 執行個體是否屬於 Auto Scaling 群組,以及 Auto Scaling 群組中的所有執行個體是否具有相同的主機名稱。
檢查 Amazon EC2 執行個體是否為用來佈建的 CloudFormation 堆疊的一部分。如果執行個體已從 CloudFormation 堆疊中移除,自動化會驗證相關聯的 Active Directory 組織單位 (OU) 是否仍在參考堆疊。
通過上述驗證後,自動化會繼續修復中斷的安全頻道。
修復步驟:
自動修復會嘗試修復 EC2 執行個體和 AD 網域之間的安全通道,還原對執行個體的存取。
修復後,自動化會檢查是否已建立安全頻道。如果失敗,AMS 會建立事件並委託 AMS 操作進行調查。
EC2 狀態檢查失敗:修復自動化備註
AMS 自動修復如何與 EC2 狀態檢查失敗問題搭配使用:
如果您的 Amazon EC2 執行個體無法連線,執行個體必須停止並再次啟動,才能遷移至新的硬體並復原。
如果問題的根目錄在作業系統中 (缺少 fstab 中的裝置、核心損毀等),則自動化無法復原您的執行個體。
如果您的執行個體屬於 Auto Scaling 群組,自動化不會採取任何動作,AutoScalingGroup 擴展動作會取代執行個體。
如果您的執行個體已啟用 EC2 Auto Recovery,則修復不會採取動作。
EC2 磁碟區用量修復自動化
AWS Managed Services (AMS) 自動修復如何解決 EC2 磁碟區用量問題:
自動化會先驗證是否需要磁碟區擴展,以及是否可以執行。如果認為擴展是適當的,自動化可以增加磁碟區容量。此自動化程序會平衡成長需求與受控制、有限的擴展。
在擴展磁碟區之前,自動化會在執行個體上執行清除任務 (Windows:磁碟清理程式、Linux:Logrotate + Simple Service Manager 代理程式日誌移除),以嘗試釋放空間。
注意
清理任務不會在 EC2 "T" 系列執行個體上執行,因為它們依賴 CPU 點數來持續運作。
在 Linux 上,自動化僅支援擴展類型為 EXT2, EXT3, EXT4和 XFS 的檔案系統。
在 Windows 上,自動化僅支援新技術檔案系統 (NTFS) 和彈性檔案系統 (ReFS)。
自動化不會擴展屬於邏輯磁碟區管理員 (LVM) 或 RAID 陣列一部分的磁碟區。
自動化不會擴展執行個體存放區磁碟區。
如果受影響的磁碟區已大於 2 TiB,則自動化不會採取動作。
透過自動化的擴展限制為每週最多三次,系統生命週期內總計五倍。
如果先前的擴展在過去六小時內發生,自動化不會擴展磁碟區。
當這些規則阻止自動化採取動作時,AMS 會透過傳出服務請求與您聯絡,以決定要採取的下一個動作。
Amazon RDS 低儲存事件修復自動化
AWS Managed Services (AMS) 自動修復如何與 Amazon RDS 低儲存體事件問題搭配使用:
在嘗試擴展 Amazon RDS 執行個體儲存體之前,自動化會執行多項檢查,以確保 Amazon RDS 執行個體處於可修改且可用,或儲存已滿的狀態。
在偵測到 CloudFormation 堆疊偏離之處,修復會透過 Amazon RDS API 進行。
修復動作不會在下列情況下執行:
Amazon RDS 執行個體狀態不是「可用」或「完整儲存」。
Amazon RDS 執行個體儲存體目前無法修改 (例如在過去六小時內修改儲存體時)。
Amazon RDS 執行個體已啟用自動擴展儲存。
Amazon RDS 執行個體不是 CloudFormation 堆疊中的資源。
修補限制為每六小時一次擴展,且在滾動十四天期間內不超過三次擴展。
當這些案例發生時,AMS 會透過傳出事件與您聯絡,以判斷下一個動作。