恢复 Amazon EKS 集群 - AWS Backup

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

恢复 Amazon EKS 集群

您可以使用 AWS Backup 控制台或 CLI 恢复 EKS 集群备份。EKS 备份是复合恢复点,包括 EKS 集群状态和永久卷备份。

AWS Backup 支持多种还原体验,包括精细的命名空间级恢复。恢复是非破坏性的,不会覆盖目标 EKS 集群中任何现有的 Kubernetes 对象。恢复也不会覆盖目标 EKS 集群的 Kubernetes 版本。

EKS 备份必须恢复到目标 EKS 集群,即已预先配置的 Amazon EKS 集群。作为恢复工作流程的一部分,您可以选择创建一个新的 EKS 集群,该集群 AWS Backup 将代表您创建。

注意

AWS Backup 将提供一组有限的选项,用于在还原过程中创建新的 EKS 集群。对于所有 EKS 集群创建功能,客户可以使用 EKS 控制台创建新的 E KS 集群 APIs ,也可以选择该集群作为恢复目标。

Amazon EKS 的恢复功能

还原类型 还原目标 恢复行为
恢复现有集群 恢复到源 EKS 集群或现有 EKS 集群 将所有 Kubernetes 资源和永久卷恢复到现有的 EKS 集群。所有恢复都是非破坏性的,现有对象不会被覆盖。对于跳过的对象,您可以订阅 SNS 通知
新集群恢复 在 EKS 还原过程中创建一个新的 Amazon EKS 集群 恢复会创建新的 EKS 集群,并将所有 Kubernetes 资源和永久卷还原到新创建的集群
命名空间恢复 现有的 Amazon EKS 集群 仅恢复指定的命名空间,其 Kubernetes 资源和相应的持久存储恢复是非破坏性的,现有对象不会被覆盖。对于跳过的对象,您可以订阅 SNS 通知
永久存储恢复 依赖于永久存储 将单个永久存储作为独立还原进行恢复。参见 Amazon EBS、Amazon S3、Amazon EFS 的恢复行为。

权限

所需的权限取决于还原类型和目标目标。

  • AWS Backup的托管策略AWSBackupServiceRolePolicyForRestores包含恢复您的 Amazon EKS 集群以及 EBS 和 EFS 永久存储所需的权限。

  • 如果您的 EKS 集群包含 S3 存储桶,或者您要单独恢复子 S3 恢复点,则需要确保将以下策略或权限分配给您的角色 AWSBackupServiceRolePolicyForS3 Restore。

恢复前的注意事项

在开始 EKS 恢复任务之前,请查看以下内容。如果您要恢复已跨账户或区域复制的 EKS 备份,请务必在恢复之前检查这些注意事项,以防止恢复失败。

  1. IAM 角色:恢复到其他集群时,源集群中使用的 IAM 角色(例如 Pod 身份、IRSA)。 OIDC 提供商(配置等)必须作为目标集群存在于账户/区域中。

  2. 确保 EKS 版本和兼容性:您要恢复的对象的 API 版本应为相同版本(或尽可能接近),并且在新集群中受支持。 AWS Backup 将尽力在 EKS 版本之间进行恢复,但是在明显不同的版本之间进行恢复时可能会出现兼容性问题。

  3. 匹配的存储类别:要恢复现有 EKS 集群,请确保在恢复之前安装相应的 CSI 存储驱动程序插件

  4. S3 存储桶:使用 S3 存储桶恢复 EKS 集群时,请确保您的 S3 存储桶具有版本控制且可在目标账户或区域中访问。

  5. 映像存储库:恢复 EKS 集群时,请确保目标 EKS 集群的账户或区域可以访问在还原过程中引用的映像。检查您的注册表是否具有足够的跨区域/账户策略权限。

  6. 安全组:如果在还原过程中创建新的 EKS 集群,则应在目标账户和区域中为 ALB、Pod 身份、EKS 节点组等预先创建安全组

  7. EBS 可用区域和节点:用于恢复 EBS 卷的可用区应映射到现有 EKS 节点的可用区

  8. 非破坏性恢复:所有 EKS 恢复都将是非破坏性的,并且不会覆盖目标还原的 Kubernetes 对象。

  9. 启用 EKS 审核日志:启用 EKS 审核日志,以便在恢复之前进行其他日志记录和故障排除。您还可以订阅 SNS 通知,以便在恢复时通知已跳过或失败的对象。

EKS 配置

恢复复合 Amazon 时 AWS Backup,您可以选择还原类型和目标目标。您可以选择恢复到源 EKS 集群、现有 EKS 集群或创建新的 EKS 集群作为还原目标。对于新的 EKS 集群,您可以选择使用与备份集群相同的现有基础设施设置(例如 VPC、子网),也可以配置新的基础设施设置。 AWS Backup 将始终执行不覆盖现有资源的非破坏性恢复。

对于命名空间恢复,您最多可以指定 5 个命名空间进行选择性恢复。仅恢复命名空间范围的资源,而集群范围的资源不包括在内,相关的永久卷除外。

作为一项高级设置,你可以选择更改 Kubernetes 对象的还原顺序。默认情况下, AWS Backup 将按以下顺序恢复所有 Kubernetes 对象:

集群范围的 Kubernetes 资源

  1. 自定义资源定义

  2. 命名空间(命名空间本身,而不是该命名空间内的资源)

  3. StorageClasses

  4. PersistentVolumes

命名空间范围的 Kubernetes 资源

  1. PersistentVolumeClaims

  2. 密文

  3. ConfigMaps

  4. ServiceAccounts

  5. LimitRanges

  6. 容器组(pod)

  7. ReplicaSets

永久存储配置

作为 Amazon EKS 复合备份还原的一部分,第二步将是配置您的永久存储配置。这将根据作为 EKS 集群一部分备份的永久存储而有所不同。

对于 Amazon EBS 快照,您需要提供可用区,用于恢复和创建 Amazon EBS 卷。 AWS Backup 然后将尝试在与选定相同的可用区中创建 EKS 容器,这样您的卷就可以作为还原的一部分重新安装到 EKS 集群。

作为恢复的一部分, AWS Backup 会将您的 Amazon EBS 卷和 Amazon S3 存储桶重新安装到已恢复的 EKS 集群中。Amazon EFS 文件系统还原为随机前缀,需要在恢复后手动创建接入点才能重新安装到 EKS 集群。 AWS Backup 不会代表您创建接入点或挂载目标,请参阅此处的接入点挂载目标指南。

亚马逊 EKS 恢复程序

按照以下步骤使用 AWS Backup 控制台恢复 Amazon EKS 备份,或者 AWS CLI:

Console
恢复您的 Amazon EKS 集群
  1. https://console.aws.amazon.com/backup 上打开 AWS Backup 控制台。

  2. 在导航窗格中,选择备份保管库

  3. 选择包含您的 Amazon EKS 备份的备份保管库,然后为 Amazon EKS 备份选择恢复点。

  4. 选择还原

  5. 在 “还原选项” 窗格中,选择您的还原类型:

    • 恢复完整的 EKS 集群-恢复整个 Amazon EKS 复合恢复点

    • 选择要恢复的命名空间-最多还原五个特定的命名空间

  6. 配置目标目的地:

    • 要进行集群恢复,请选择创建新集群或使用现有集群

    • 对于新集群,请指定集群名称、Kubernetes 版本、VPC 配置、IAM 角色、子网、其他安全组、节点组设置、fargate 配置文件和 Pod 身份 IAM 角色

    • 对于现有集群,请从下拉列表中选择目标集群

    • 要恢复命名空间,请指定目标集群和命名空间名称

  7. (可选)为 Kubernetes 资源的自定义还原顺序配置高级设置。

  8. 为作业选择 IAM 还原角色。如果不使用默认角色,请确保所选角色包含 iam: PassRole 权限。

  9. 选择还原备份

AWS CLI

将该aws backup start-restore-job命令与 Amazon EKS 特有的元数据一起使用。

所需的元数据取决于您的还原类型。所有还原操作都需要该clusterName参数。

通过以下方式恢复 Amazon EKS 恢复点 AWS CLI

使用 StartRestoreJob。在 Amazon EKS 恢复期间,您可以指定以下元数据:

必填元数据:

  • clusterName-要还原到的集群的名称

可选元数据:

  • newCluster-(对/错)我们是否应该在还原期间创建一个新的 EKS 集群

    • 如果 newCluster 为 “true”,则以下元数据字段适用:

      • eksClusterVersion-如果要在还原期间增加集群版本,则需要集群的 K8s 版本

      • clusterRole-要附加到已创建的 EKS 集群的 IAM 角色 ARN

      • clusterVpcConfig-创建的 EKS 集群的 VPC/Networking 配置。此字段包含以下嵌套字段:

        • vpcId-与您的集群关联的 VPC

        • subnetIds-与您的集群关联的子网

        • securityGroupIds-与您的集群关联的其他安全组

      • nodeGroups-要在 EKS 集群上创建的托管节点组。 NodeGroups 用于还原的节点组必须与备份时的所有节点组相同,并且具有匹配的节点组 nodeGroupId。

        • nodeGroupId-节点组的 ID

        • subnetIds-为与您的节点组关联的 Auto Scaling 组指定的子网

        • instanceTypes-如果未使用启动模板部署节点组,则这是与该节点组关联的实例类型

        • nodeRole-与您的节点组关联的 IAM 角色

        • securityGroupIds-允许 SSH 访问节点的安全组 IDs

        • remoteAccessEc2SshKey-为与托管节点组中的节点进行 SSH 通信提供访问权限的 Amazon EC2 SSH 密钥名称

      • fargateProfiles-要在 EKS 集群上创建的 Fargate 配置文件。用于恢复的 Fargate 配置文件必须具有自备份时起的所有相同的 Fargate 配置文件并具有匹配的名称。

        • name-Fargate 个人资料的名称

        • subnetIds-要将 IDs Pod 启动到的子网数量

        • podExecutionRoleArn-Pod 执行角色的 IAM 角色 ARN,用于与 Fargate 配置文件中的选择器匹配的 Pod

      • podIdentityAssociations-要在 EKS 集群上创建的 Pod 身份关联

        • associationId-Pod 身份关联的 ID

        • roleArn-Pod 身份关联的 IAM 角色 ARN

  • kubernetesRestoreOrder-改写 Kubernetes 清单的恢复顺序。此顺序将优先于默认的服务恢复顺序。这遵循以下格式:group/version/kind or version/kind:

    [“v1/persistentvolumes”、“v1/pods”、” “] customresource/v2/custom

  • namespaceLevelRestore-(true/false)如果你想执行命名空间级别的恢复

  • namespaces-如果为 “true” namespaceLevelRestore 则要恢复的命名空间列表。最多可以提供 5 个命名空间进行恢复

  • restoreKubernetesManifestsOnly-(对/错)如果你只想恢复 Kubernetes 清单文件而不想恢复永久存储系统(EBS、S3、EFS 等)

  • nestedRestoreJobs-恢复复合恢复点中 PersistentVolume 存储系统所有嵌套恢复点的元数据配置。这是 RecoveryPointArn:那个恢复点 RestoreMetadata 的地图

恢复到现有集群

aws backup start-restore-job \ --recovery-point-arn "arn:aws:backup:us-west-2:123456789012:recovery-point:composite:eks/my-cluster-20240115" \ --iam-role-arn "arn:aws:iam::123456789012:role/AWSBackupServiceRolePolicyForEKSRestore" \ --metadata '{"clusterName":"existing-cluster","newCluster":false}' \ --resource-type "EKS"

恢复到新集群

aws backup start-restore-job \ --recovery-point-arn "arn:aws:backup:us-west-2:123456789012:recovery-point:composite:eks/my-cluster-20240115" \ --iam-role-arn "arn:aws:iam::123456789012:role/AWSBackupServiceRolePolicyForEKSRestore" \ --metadata '{"clusterName":"new-cluster","newCluster":true,"clusterRole":"arn:aws:iam::123456789012:role/EKSClusterRole","eksClusterVersion":"1.33","clusterVpcConfig":"{\"vpcId\":\"vpc-1234\",\"subnetIds\":[\"subnet-1\",\"subnet-2\",\"subnet-3\"],\"securityGroupIds\":[\"sg-123\"]}","nodeGroups":"[{\"nodeGroupId\":\"nodegroup-1\",\"subnetIds\":[\"subnet-1\",\"subnet-2\",\"subnet-3\"],\"nodeRole\":\"arn:aws:iam::123456789012:role/EKSNodeGroupRole\",\"instanceTypes\":[\"t3.small\"]}]","fargateProfiles":"[{\"name\":\"fargate-profile-1\",\"subnetIds\":[\"subnet-1\",\"subnet-2\",\"subnet-3\"],\"podExecutionRoleArn\":\"arn:aws:iam::123456789012:role/EKSFargateProfileRole\"}]"}' \ --resource-type "EKS"

启动恢复作业后,使用describe-restore-job来监视进度:

aws backup describe-restore-job --restore-job-id restore-job-id

您可以为失败和跳过的对象订阅通知事件以进行恢复。有关更多信息,请参阅带有的通知选项 AWS Backup。