

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 亚马逊 EVS 主机维护
<a name="evs-host-maintenance"></a>

由于 Amazon EVS 是一项自我管理服务，因此您负责维护在主机上运行的 C VMware loud Foundation (VCF) 软件、监控主机运行状况和修复主机问题，包括在主机出现故障时更换主机。有关在 Cloud F VMware oundation (VCF) 中管理 ESX 主机的更多信息，请参阅 Cloud F VMware oundation 文档中的[主机管理](https://techdocs.broadcom.com/us/en/vmware-cis/vcf/vcf-5-2-and-earlier/5-2/map-for-administering-vcf-5-2/host-management-admin.html)。

## 检查底层 EC2 实例的运行状况
<a name="evs-host-ec2-instance-health"></a>

Ama EC2 zon 会自动检查每个正在运行的 EC2 实例，以识别硬件和软件问题。您可以在 EC2 控制台中查看这些状态检查的结果，也可以确定可检测 AWS CLI 到的具体问题。有关更多信息，请参阅《[亚马逊* EC2 用户指南》和《* AWS CLI 命令行参考*》[describe-instance-status](https://docs.aws.amazon.com/cli/latest/reference/ec2/describe-instance-status.html)中的 “查看亚马逊 EC2 *实例的状态检查](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/viewing_status.html)”。

您可以创建 CloudWatch 警报，以便在特定实例的状态检查失败时向您发出警报。有关更多信息，请参阅《[亚马逊* EC2 用户指南》中的为状态检查失败的亚马逊 EC2 *实例创建 CloudWatch 警报](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/creating_status_check_alarms.html)。

## 关于 EC2 实例的 AWS 定期维护
<a name="evs-host-maintenance-about"></a>

 AWS 对底层 EC2 实例执行定期维护，以确保可靠性、可用性和性能。 EC2 裸机实例与其他 EC2 实例一样受到相同类型的计划事件的影响。 AWS 由于底层硬件问题或定期维护，可以安排事件以重启、停止和停用您的实例。这些事件不会频繁发生。有关更多信息，请参阅 *Amazon EC2 用户指南*中的[计划事件类型](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html#types-of-scheduled-events)。

**注意**  
在发生任何预定重启事件之前，应在 vSphere Client 中将主机置于维护模式。

如果您的一个实例将受到计划事件的影响，请使用与您的 AWS 账户关联的电子邮件地址提前通过电子邮件 AWS 通知您。 AWS 还会发送一个 AWS Health 事件，您可以使用 Amazon 对其进行监控和管理 EventBridge。有关更多信息，请参阅亚马逊* EC2 用户指南[中的使用 Amazon 监控 He AWS al](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) th 中的事件 EventBridge和亚马逊 EC2 *[实例的计划事件](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html)。

您可以随时重新安排活动，使其在适合您的特定日期和时间举行。可以将事件重新计划到事件截止日期之前的日期。有关更多信息，请参阅 A *mazon EC2 用户*指南中的[重新安排 EC2 实例的预定事件](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/reschedule-event.html)。

## 使用 EC2 按需容量预留
<a name="evs-host-maintenance-odcr"></a>

您可以使用 EC2 按需容量预留来确保您的集群在维护期间有足够的容量。您可以在特定可用区域中预留任意持续时间的容量。有关更多信息，请参阅 *Amazon EC2 用户指南*中的[使用 EC2 按需容量预留来预留计算](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-capacity-reservations.html)容量。

有关创建容量预留的步骤，请参阅 *Amazon EC2 用户指南*中的[创建容量预留](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/capacity-reservations-create.html)。

**注意**  
如果您使用 EC2 按需容量预留或 EC2 专用主机，我们建议您为任务关键型工作负载保留一台备用主机。虽然容量预留可确保您访问给定可用区域中特定数量的 EC2 实例容量，但拥有备用主机可以提供额外的冗余层，这对于任务关键型工作负载至关重要。对于专用主机，即使主主机需要维护或遇到问题，备用主机也能确保您维护任务关键型工作负载的环境。

## 为 AWS 日程安排`system-maintenance`和`instance-retirement`活动做准备
<a name="evs-host-preparing-aws-scheduled-maintenance"></a>

 AWS 安排两种类型`system-maintenance`的事件：网络维护和电源维护。
+ 在网络维护期间，计划的实例会在短时间内失去网络连接。在维护完成后，将恢复与实例的正常网络连接。
+ 在电源维护期间，计划的实例将短时间脱机，然后重启。在 EC2 裸机实例上执行重启时，不会保留实例存储卷数据。

 AWS 在检测到托管您的 EC2 实例的底层硬件性能下降时安排 EC2 `instance-retirement`事件。

要修复`system-maintenance`和`instance-retirement`事件，请在维护事件发生之前使用 Amazon EVS 控制台或 AWS CLI 和 SDDC Manager 将故障主机替换为新主机。如果您等待维护事件发生并且需要重启 EC2 实例，则存储在实例存储卷上的 vSAN 数据将丢失。有关详细步骤，请参阅[更换 Amazon EVS 主机](#evs-replace-host)。

**重要**  
 EC2 控制台不应用于管理您的 Amazon EVS 主机的状态，包括停止、启动和终止。请勿尝试启动、停止或终止 Amazon EVS 部署的 EC2 实例。此操作会导致 vSAN 数据丢失。

### 更换 Amazon EVS 主机
<a name="evs-replace-host"></a>

按照以下步骤更换 Amazon EVS 主机。

**警告**  
Amazon EVS 主机使用自定义供应商插件来提供重要的主机功能。当您在环境中添加主机时，该主机将具有最新版本的 Amazon EVS 定制插件。如果您的环境使用带有较旧插件版本的主机，则向 vSphere 集群添加主机将导致集群映像修复失败。有关解决此问题的步骤，请参阅[解决由于集群映像不兼容而导致的添加主机失败的问题](evs-env-ami-maintenance.md#troubleshoot-add-host-failure-cluster-image)。

**警告**  
如果您在部署后更新了 ESX 版本，则在 “委托主机” 步骤中验证 VCF 主机期间，SDDC 管理器可能会失败。有关解决此问题的步骤，请参阅[SDDC 管理器在主机调试期间无法验证 VCF 主机](troubleshooting.md#troubleshoot-sddc-failure-host-commission)。

**注意**  
确保正确设置每个 EVS 环境配额的 Amazon EVS 主机数量，以确保成功创建主机。如果此配额值小于您尝试在单个 Amazon EVS 环境中预置的主机数量，则主机创建失败。对于需要更换主机的维护操作，您可能需要申请增加配额。有关更多信息，请参阅 [亚马逊 EVS 服务配额](service-quotas-evs.md)。

**Example**  

1. 前往 [Amazon EVS 控制台。](https://console.aws.amazon.com/evs)

1. 在导航窗格中，选择**环境**。

1. 选择包含要替换的主机的环境。

1. 选择 “**主机**” 选项卡。

1. 选择 **Create host (创建主机)**。

1. 指定主机详细信息并选择**创建主机**。

1. 要验证是否完成，请检查**主机状态**是否已更改为 “已**创建**”。

1. 从 Secrets Manager 中检索 ESX 根密码的 AWS 凭证。有关检索密钥的更多信息，请参阅 Secrets Manager *用户指南中的[从 S AWS ecrets Manager 获取](https://docs.aws.amazon.com/secretsmanager/latest/userguide/retrieving-secrets.html) AWS 密钥*。

1. 前往 SDDC 管理器。

1. 使用您在上一步中检索到的 ESX 根证书，在 SDDC 管理器中调试新主机。有关更多信息，请参阅 VMware Cloud Foundation 文档中的[佣金主持人](https://techdocs.broadcom.com/us/en/vmware-cis/vcf/vcf-5-2-and-earlier/5-2/map-for-administering-vcf-5-2/host-management-admin/commission-hosts-admin.html)。

1. 将新主机添加到集群。有关更多信息，请参阅《vSphere》[文档中的如何使用快速入门工作流程将 ESX 主机添加到 vSphere 集群](https://techdocs.broadcom.com/us/en/vmware-cis/vsphere/vsphere/8-0/use-quickstart-to-add---host-to-a-cluster.html)。

1. 在 SDDC 管理器中停用要从 SDDC 管理器中移除的旧主机。有关更多信息，请参阅 VMware Cloud Fou [ndation 文档中的停用主机](https://techdocs.broadcom.com/us/en/vmware-cis/vcf/vcf-5-2-and-earlier/5-2/map-for-administering-vcf-5-2/host-management-admin/decommission-hosts-admin.html)。

1. 返回亚马逊 EVS 控制台。

1. 在**主机**选项卡下，选择故障主机，然后选择**删除** > **删除主机**。

1. 打开一个新的终端会话。

1. 创建新主机。参见下面的示例命令以供参考。

   ```
   aws evs create-environment-host \
       --environment-id "env-abcde12345" \
       --host '{ \
           "hostName": "esxi-host-05", \
           "keyName": "your-ec2-keypair-name", \
           "instanceType": "i4i.metal" \
           "esxVersion": "ESXi-8.0U3g-24859861"\
       }'
   ```

1. 从 Secrets Manager 中检索 ESX 根密码的 AWS 凭证。有关检索密钥的更多信息，请参阅 Secrets Manager *用户指南中的[从 S AWS ecrets Manager 获取](https://docs.aws.amazon.com/secretsmanager/latest/userguide/retrieving-secrets.html) AWS 密钥*。

1. 前往 SDDC 管理器。

1. 使用您在上一步中检索到的 ESX 根证书，在 SDDC 管理器中调试新主机。有关更多信息，请参阅 VMware Cloud Foundation 文档中的[佣金主持人](https://techdocs.broadcom.com/us/en/vmware-cis/vcf/vcf-5-2-and-earlier/5-2/map-for-administering-vcf-5-2/host-management-admin/commission-hosts-admin.html)。

1. 将新主机添加到包含受损主机的群集中。

1. 在 SDDC 管理器中停用受损主机。有关更多信息，请参阅 VMware Cloud Fou [ndation 文档中的停用主机](https://techdocs.broadcom.com/us/en/vmware-cis/vcf/vcf-5-2-and-earlier/5-2/map-for-administering-vcf-5-2/host-management-admin/decommission-hosts-admin.html)。

1. 返回航站楼。

1. 删除故障主机。参见下面的示例命令以供参考。

   ```
   aws evs delete-environment-host --environment-id "env-abcde12345" --host-name "esxi-host-05"
   ```

### 问题排查
<a name="evs-maintenance-troubleshooting"></a>

有关故障排除指导，请参阅[问题排查](troubleshooting.md)。如果您在查看故障排除指南后仍然遇到问题，请联系 Supp AWS ort 寻求进一步帮助。