亚马逊 EVS 主机维护 - 亚马逊弹性 VMware 服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 EVS 主机维护

由于 Amazon EVS 是一项自我管理服务,因此您负责维护在主机上运行的 C VMware loud Foundation (VCF) 软件、监控主机运行状况和修复主机问题,包括在主机出现故障时更换主机。有关在 Cloud F VMware oundation (VCF) 中管理 ESXi 主机的更多信息,请参阅 Cloud F VMware oundation 文档中的主机管理

检查底层 EC2 实例的运行状况

Ama EC2 zon 会自动检查每个正在运行的 EC2 实例,以识别硬件和软件问题。您可以在 EC2 控制台中查看这些状态检查的结果,也可以确定可检测 AWS CLI 到的具体问题。有关更多信息,请参阅《亚马逊 EC2 用户指南》和《 AWS CLI 命令行参考describe-instance-status中的 “查看亚马逊 EC2 实例的状态检查”。

您可以创建 CloudWatch 警报,以便在特定实例的状态检查失败时向您发出警报。有关更多信息,请参阅《亚马逊 EC2 用户指南》中的为状态检查失败的亚马逊 EC2 实例创建 CloudWatch 警报

关于 EC2 实例的 AWS 定期维护

AWS 对底层 EC2 实例执行定期维护,以确保可靠性、可用性和性能。 EC2 裸机实例与其他 EC2 实例一样受到相同类型的计划事件的影响。 AWS 由于底层硬件问题或定期维护,可以安排事件以重启、停止和停用您的实例。这些事件不会频繁发生。有关更多信息,请参阅 Amazon EC2 用户指南中的计划事件类型

注意

在发生任何预定重启事件之前,应在 vSphere Client 中将主机置于维护模式。

如果您的一个实例将受到计划事件的影响,请使用与您的 AWS 账户关联的电子邮件地址提前通过电子邮件 AWS 通知您。 AWS 还会发送一个 AWS Health 事件,您可以使用 Amazon 对其进行监控和管理 EventBridge。有关更多信息,请参阅亚马逊 EC2 用户指南中的使用 Amazon 监控 He AWS al th 中的事件 EventBridge和亚马逊 EC2 实例的计划事件

您可以随时重新安排活动,使其在适合您的特定日期和时间举行。可以将事件重新计划到事件截止日期之前的日期。有关更多信息,请参阅 A mazon EC2 用户指南中的重新安排 EC2 实例的预定事件

使用 EC2 按需容量预留

您可以使用 EC2 按需容量预留来确保您的集群在维护期间有足够的容量。您可以在特定可用区域中预留任意持续时间的容量。有关更多信息,请参阅 Amazon EC2 用户指南中的使用 EC2 按需容量预留来预留计算容量。

有关创建容量预留的步骤,请参阅 Amazon EC2 用户指南中的创建容量预留

注意

如果您使用 EC2 按需容量预留或 EC2 专用主机,我们建议您为任务关键型工作负载保留一台备用主机。虽然容量预留可确保您访问给定可用区域中特定数量的 EC2 实例容量,但拥有备用主机可以提供额外的冗余层,这对于任务关键型工作负载至关重要。对于专用主机,即使主主机需要维护或遇到问题,备用主机也能确保您维护任务关键型工作负载的环境。

为 AWS 日程安排system-maintenanceinstance-retirement活动做准备

AWS 安排两种类型system-maintenance的事件:网络维护和电源维护。

  • 在网络维护期间,计划的实例会在短时间内失去网络连接。在维护完成后,将恢复与实例的正常网络连接。

  • 在电源维护期间,计划的实例将短时间脱机,然后重启。在 EC2 裸机实例上执行重启时,不会保留实例存储卷数据。

AWS 在检测到托管您的 EC2 实例的底层硬件性能下降时安排 EC2 instance-retirement事件。

要修复system-maintenanceinstance-retirement事件,请在维护事件发生之前使用 Amazon EVS 控制台或 AWS CLI 和 SDDC Manager 将故障主机替换为新主机。如果您等待维护事件发生并且需要重启 EC2 实例,则存储在实例存储卷上的 vSAN 数据将丢失。有关详细步骤,请参阅更换 Amazon EVS 主机

重要

EC2 控制台不应用于管理您的 Amazon EVS 主机的状态,包括停止、启动和终止。请勿尝试启动、停止或终止 Amazon EVS 部署的 EC2 实例。此操作会导致 vSAN 数据丢失。

更换 Amazon EVS 主机

按照以下步骤更换 Amazon EVS 主机。

警告

Amazon EVS 主机使用自定义供应商插件来提供重要的主机功能。当您在环境中添加主机时,该主机将具有最新版本的 Amazon EVS 定制插件。如果您的环境使用带有较旧插件版本的主机,则向 vSphere 集群添加主机将导致集群映像修复失败。有关解决此问题的步骤,请参阅解决由于集群映像不兼容而导致的添加主机失败的问题

警告

如果您在部署后更新了 ESXi 版本,则在 “委托主机” 步骤中验证 VCF 主机期间,SDDC 管理器可能会失败。有关解决此问题的步骤,请参阅SDDC 管理器在主机调试期间无法验证 VCF 主机

注意

确保正确设置每个 EVS 环境配额的 Amazon EVS 主机数量,以确保成功创建主机。如果此配额值小于您尝试在单个 Amazon EVS 环境中预置的主机数量,则主机创建失败。对于需要更换主机的维护操作,您可能需要申请增加配额。有关更多信息,请参阅 亚马逊 EVS 服务配额

Amazon EVS console and SDDC Managuer UI
  1. 前往 Amazon EVS 控制台。

  2. 在导航窗格中,选择环境

  3. 选择包含要替换的主机的环境。

  4. 选择 “主机” 选项卡。

  5. 选择 Create host (创建主机)

  6. 指定主机详细信息并选择创建主机

  7. 要验证是否完成,请检查主机状态是否已更改为 “已创建”。

  8. 从 S AWS ecrets Manager 中检索 ESXi 根密码的凭证。有关检索密钥的更多信息,请参阅 Secrets Manager 用户指南中的从 S AWS ecrets Manager 获取 AWS 密钥

  9. 前往 SDDC 管理器。

  10. 使用您在上一步中检索到的 ESXi 根证书,在 SDDC 管理器中调试新主机。有关更多信息,请参阅 VMware Cloud Foundation 文档中的佣金主持人

  11. 将新主机添加到集群。有关更多信息,请参阅《vSphere》文档中的如何使用快速入门工作流程将 ESXi主机添加到 vSphere 集群

  12. 在 SDDC 管理器中停用要从 SDDC 管理器中移除的旧主机。有关更多信息,请参阅 VMware Cloud Fou ndation 文档中的停用主机

  13. 返回亚马逊 EVS 控制台。

  14. 主机选项卡下,选择故障主机,然后选择删除 > 删除主机

AWS CLI and SDDC Manager UI
  1. 打开一个新的终端会话。

  2. 创建新主机。参见下面的示例命令以供参考。

    aws evs create-environment-host \ --environment-id "env-abcde12345" \ --host '{ \ "hostName": "esxi-host-05", \ "keyName": "your-ec2-keypair-name", \ "instanceType": "i4i.metal" \ }'
  3. 从 S AWS ecrets Manager 中检索 ESXi 根密码的凭证。有关检索密钥的更多信息,请参阅 Secrets Manager 用户指南中的从 S AWS ecrets Manager 获取 AWS 密钥

  4. 前往 SDDC 管理器。

  5. 使用您在上一步中检索到的 ESXi 根证书,在 SDDC 管理器中调试新主机。有关更多信息,请参阅 VMware Cloud Foundation 文档中的佣金主持人

  6. 将新主机添加到包含受损主机的群集中。

  7. 在 SDDC 管理器中停用受损主机。有关更多信息,请参阅 VMware Cloud Fou ndation 文档中的停用主机

  8. 返回航站楼。

  9. 删除故障主机。参见下面的示例命令以供参考。

    aws evs delete-environment-host --environment-id "env-abcde12345" --host-name "esxi-host-05"

故障排查

有关故障排除指导,请参阅故障排查。如果您在查看故障排除指南后仍然遇到问题,请联系 Supp AWS ort 寻求进一步帮助。