

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 最佳实践和建议
<a name="best-practices"></a>

本节提供与自动化、就绪性、工具集成和测试相关的最佳实践：
+ [AWS 服务 用于自动化](aws-services-for-automation.md)
+ [运营准备就绪](operations-readiness.md)
+ [操作自动化](operations-automation.md)
+ [工具集成](tools-integration.md)
+ [操作测试](operations-testing.md)
+ [AIOps](aiops.md)

# AWS 服务 用于自动化
<a name="aws-services-for-automation"></a>

您可以使用许多 AWS 服务 来自动执行 IT 运营。下表按职能列出了 21 个 OI 领域，并提供相关信息来协助您根据不同运营需求选择合适的服务。

**核心运营职能：**


| **域**： | **启动焦点和工具** | 
| --- | --- | 
| 平台架构和治理 | 企业范围的治理、安全基准、多账户策略及自动合规性。通常通过部署 [AWS 登录区](https://docs.aws.amazon.com/prescriptive-guidance/latest/migration-aws-environment/understanding-landing-zones.html)解决方案、[AWS Control Tower](https://aws.amazon.com/controltower/) 或 [AWS Managed Services](https://aws.amazon.com/managed-services/) 来实施。 | 
| 事件和事件管理 | [使用[亚马逊、亚马逊简单通知服务 (Amazon SNS) 和 Ama](https://aws.amazon.com/cloudwatch/)[z](https://aws.amazon.com/sns/) on Guru 进行记录 CloudWatch、监控、自动事件响应和事件关联。 DevOps](https://aws.amazon.com/devops-guru/) | 
| 预配置和配置管理 | 使用[AWS Service Catalog](https://aws.amazon.com/servicecatalog/)、、、和实现基础设施即代码 (IaC)、自动部署和配置合规性。[AWS CloudFormation[AWS Cloud Development Kit (AWS CDK)[AWS Systems Manager[AWS Config](https://aws.amazon.com/config/)](https://aws.amazon.com/systems-manager/)](https://aws.amazon.com/cdk/)](https://aws.amazon.com/cloudformation/) | 
| 可用性及业务连续性管理 | 通过使用 [AWS Resilience Hub](https://aws.amazon.com/resilience-hub/)、[AWS Elastic Disaster Recovery](https://aws.amazon.com/disaster-recovery/) 和 [AWS Backup](https://aws.amazon.com/backup/) 实施高可用性、弹性、灾难恢复和业务连续性。 | 
| 监控和可观测性 | 使用[亚马逊 CloudWatch（指标、日志、警报）、服务配额、Amazon](https://aws.amazon.com/cloudwatch/) [Managed [Grafana 和适用于 Prometheus 的亚马逊托管](https://aws.amazon.com/grafana/)服务 [AWS X-Ray](https://aws.amazon.com/xray/)](https://docs.aws.amazon.com/servicequotas/latest/userguide/intro.html)，实现运营可见性、主动监控和自动响应[服务](https://aws.amazon.com/prometheus/)运行状况问题。[AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) | 

**安全和控制职能：**


| **域**： | **启动焦点和工具** | 
| --- | --- | 
| 变更管理 | 使用 Change [Manager（一种功能为[AWS Config](https://aws.amazon.com/config/)](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)、和），进行合规控制 AWS Systems Manager[AWS Audit Manager](https://aws.amazon.com/audit-manager/)、风险管理和跟踪更改[AWS CloudTrail](https://aws.amazon.com/cloudtrail/)。 | 
| 资产管理 | 通过使用 [AWS 资源探索器](https://aws.amazon.com/resourceexplorer/)[Inven](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-inventory.html) tory and [Fleet Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/fleet-manager.html)、的功能和自动标记策略 AWS Systems Manager[AWS Config](https://aws.amazon.com/config/)，实现透明度和资源生命周期跟踪。 | 
| Identity and access management | 通过 [AWS Identity and Access Management （IAM）](https://aws.amazon.com/iam/)实施最低权限原则，利用 [AWS IAM Identity Center](https://aws.amazon.com/iam/identity-center/) 实现单点登录，并与 [AWS Directory Service](https://aws.amazon.com/directoryservice/) 进行联合身份验证，这些通常通过安全工作流来实现。 | 
| 安全管理 | [使用[AWS Security Hub CSPM](https://aws.amazon.com/security-hub/)由安全工作团队指定的具有自动安全评估和补救功能的[亚马逊 GuardDuty、[Amazon Detec](https://aws.amazon.com/inspector/) tiv](https://aws.amazon.com/detective/)[e [AWS WAF[AWS Shield](https://aws.amazon.com/shield/)](https://aws.amazon.com/waf/)、Ama](https://aws.amazon.com/macie/) zon Inspector [AWS Network Firewall](https://aws.amazon.com/network-firewall/)、、和，进行安全控制和事件响应。](https://aws.amazon.com/guardduty/)例如，请参阅《 AWS 规范指南》 AWS Systems Manager网站上的 “在[混合云中自动修补可变实例](https://docs.aws.amazon.com/prescriptive-guidance/latest/patch-management-hybrid-cloud/)” 指南。 | 
| 合规性与风险管理 | 使用 [AWS Artifact](https://aws.amazon.com/artifact/)、[AWS Config](https://aws.amazon.com/config/)、[AWS Audit Manager](https://aws.amazon.com/audit-manager/)、[AWS Security Hub CSPM](https://aws.amazon.com/security-hub/) 和 [AWS Control Tower](https://aws.amazon.com/controltower/) 实现监管合规性、自动审计及持续风险评估。 | 
| 数据治理和主权管理 | 数据分类、区域合规要求（例如《通用数据保护条例》(GDPR)），以及[AWS GovCloud (US)](https://aws.amazon.com/govcloud-us/)用于政府工作负载、用于欧盟数据主权的[AWS 欧洲主权云](https://aws.amazon.com/compliance/europe-digital-sovereignty/)和 AWS 区域特定部署的数据驻留控制。 | 

**业务管理职能：**


| **域**： | **启动焦点和工具** | 
| --- | --- | 
| FinOps 管理 | 使用 [AWS Cost Explorer](https://aws.amazon.com/aws-cost-management/aws-cost-explorer/)、[AWS Budgets](https://aws.amazon.com/aws-cost-management/aws-budgets/)、[AWS Cost Anomaly Detection](https://aws.amazon.com/aws-cost-management/aws-cost-anomaly-detection/)、[AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/)、[AWS Billing Conductor](https://aws.amazon.com/aws-cost-management/aws-billing-conductor/) 和成本标签策略进行成本优化、治理和账单报告。 | 
| 容量规划和预测 | 使用 [AWS Cost Explorer 预测](https://docs.aws.amazon.com/cost-management/latest/userguide/ce-forecast.html)功能进行容量预测，使用 [AWS Compute Optimizer](https://aws.amazon.com/compute-optimizer/)、[AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) 和 [AWS Budgets](https://aws.amazon.com/aws-cost-management/aws-budgets/) 进行资源优化。 | 
| 组织变革管理（OCM） | 培训、沟通、转换支持、采用框架，以及[管理云转型的人员方面](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-ocm/)。 | 
| 供应商管理 | 通过 [AWS Marketplace](https://aws.amazon.com/marketplace)、[AWS License Manager](https://aws.amazon.com/license-manager/)、[AWS Partner Network](https://aws.amazon.com/partners/)、外包提供商控制与集成来管理许可证和提供商。 | 
| 可持续性管理 | 使用 [AWS 客户碳足迹工具](https://aws.amazon.com/aws-cost-management/aws-customer-carbon-footprint-tool/)监测与优化环境影响，采用 [AWS Graviton 处理器](https://aws.amazon.com/ec2/graviton/)提高每瓦特性能，实施 [AWS Well-Architected Sustainability Pillar](https://docs.aws.amazon.com/wellarchitected/latest/sustainability-pillar/sustainability-pillar.html)，并作出以可持续性为核心的架构决策。 | 
| 云端价值最大化 |  AWS 云 通过优化成本、提高运营效率和有效利用云功能，最大限度地提高业务价值。这包括通过使用 [AWS Cost Explorer](https://docs.aws.amazon.com/cost-management/latest/userguide/ce-forecast.html) 和实施战略采购方案（[节省计划](https://aws.amazon.com/savingsplans/)、[预留实例](https://aws.amazon.com/ec2/pricing/reserved-instances/)、[竞价型实例](https://aws.amazon.com/ec2/spot/)），同时利用 [AWS Compute Optimizer](https://aws.amazon.com/compute-optimizer/) 进行资源适配和总拥有成本（TCO）分析，理解成本驱动因素。目标是在成本优化与性能及创新之间取得平衡，确保云投资既能推动业务成果，又可支持增长目标。 | 

**支持性职能：**


| **域**： | **启动焦点和工具** | 
| --- | --- | 
| 报告和分析 | 使用亚马逊服务、Amazon Qu [ick、Amazon](https://aws.amazon.com/quicksight/) [[A](https://aws.amazon.com/athena/) thena 以及分析和监控来监控使用趋势[CloudWatch和 OpenSearch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html)服务](https://aws.amazon.com/opensearch-service/)运行状况。 | 
| 持续改进 | 使用 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/)[Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 和的功能来处理迭代 [OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html)，以实现卓越运营。[AWS Well-Architected Tool](https://aws.amazon.com/well-architected-tool/) AWS Systems Manager | 
| 应用程序生命周期管理 | 软件开发生命周期、人员、流程和工具集成、与 A [mazon Q](https://aws.amazon.com/q/developer/) Developer DevOps 的工作流、[AWS CodeBuild[AWS CodeDeploy](https://aws.amazon.com/codedeploy/)](https://aws.amazon.com/codebuild/)、和。[AWS CodePipeline](https://aws.amazon.com/codepipeline/) | 
| 人工智能/机器学习运营 | 通过[CloudWatch 异常检测、[CloudWatch 调查](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Investigations.html)以及用于预测性监控和问题检测](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)的 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 增强了运营能力；[AWS Security Hub CSPM](https://aws.amazon.com/security-hub/)Amazon 和 A [mazon GuardDuty](https://aws.amazon.com/guardduty/) Det [ectiv](https://aws.amazon.com/detective/) e 用于机器学习支持的威胁检测和调查；以及人工智能驱动的[文档处理](https://aws.amazon.com/ai/generative-ai/use-cases/document-processing/)和[架构可视](https://aws.amazon.com/blogs/machine-learning/build-aws-architecture-diagrams-using-amazon-q-cli-and-mcp/)化解决方案，可简化操作和改善事件响应。 | 

# 运营准备就绪
<a name="operations-readiness"></a>

研讨会是了解您当前运营模式和定义运营模式的有效方式。 AWS 

上的操作模型 AWS 可以按三个主要范式来构建：传统运营 CloudOps、和。 DevOps每种模式提供不同的云运营管理方法，

**传统运营模式**
+ 基于 IT 基础设施库（ITIL）维护传统流程
+ 开发团队与运营团队之间实行明确的职责分离
+ 使用既定的变更管理程序
+ 依赖于与之集成的现有 ITSM 工具 AWS 服务
+ 适用于处在云部署初期的组织
+ 适用于[重新托管](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-guide/migration-strategies.html#rehost)（直接迁移）和[重新放置](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-guide/migration-strategies.html#relocate)迁移策略

**CloudOps 模型**
+ 代表融合传统与云原生实践的混合方法
+ 利用 AWS特定操作能力
+ 实施自动监控与管理
+ 在采用云实践的同时保留一些传统的控制措施
+ 非常适合云转型时期的组织
+ 与[更换平台](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-guide/migration-strategies.html#replatform)和[重新购买](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-guide/migration-strategies.html#repurchase)迁移策略非常吻合
+ 在提升云成熟度的过程中用作过渡模式

**DevOps 模型**
+ 代表完全集成的开发与运营方法
+ 强调自动化和持续交付
+ 实施云原生实践及工具
+ 具备跨职能团队和协作工作流
+ 专注于快速迭代及部署
+ 最适合[重构](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-guide/migration-strategies.html#refactor)（重新构想）迁移策略
+ 代表最成熟的云运营模式

下图展示了这三种模式。

![\[传统 CloudOps、和 DevOps 运营模型。\]](http://docs.aws.amazon.com/zh_cn/prescriptive-guidance/latest/migration-operations-integration/images/ops-models.png)


应根据组织的云成熟度、迁移策略和业务目标选择运营模式。随着云之旅的发展，组织通常会通过这些模式发展——从传统运营开始，随着云能力的成熟，逐渐向前迈进 DevOps 。

下图显示了基于 [7R迁移策略](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-guide/migration-strategies.html)和方法的建议运营模型。 AWS

![\[运营模式与 7 种迁移策略的对应关系。\]](http://docs.aws.amazon.com/zh_cn/prescriptive-guidance/latest/migration-operations-integration/images/migration-strategies.png)


# 操作自动化
<a name="operations-automation"></a>

您不希望在第一天就实现所有 IT 运营的完全自动化。改为采取分阶段的方法。首先，请仔细确定下表所列的核心运营职能的优先级。使用[自动化](aws-services-for-automation.md)部分中 AWS 服务 列出的来简化现代化过程。AWS 服务 


| **核心运营职能** | **功能和注意事项** | 
| --- | --- | 
| 平台架构和治理 | [账户策略](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/design-principles-for-your-multi-account-strategy.html)、[虚拟私有云（VPC）策略](https://docs.aws.amazon.com/whitepapers/latest/building-scalable-secure-multi-vpc-network-infrastructure/welcome.html)、[多区域和多可用区策略](https://docs.aws.amazon.com/prescriptive-guidance/latest/aws-multi-region-fundamentals/introduction.html)、[标记策略](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html)、IP 寻址和连接、[安全策略](https://docs.aws.amazon.com/prescriptive-guidance/latest/security-reference-architecture/welcome.html)、审计与合规 | 
| 事件和事件管理 | 警示和警报、事件管理流程、 AWS 支持 互动、服务台、[可观测性工具集和集成](https://docs.aws.amazon.com/en_us/prescriptive-guidance/latest/strategy-accelerate-observability-outcomes/)、云运行手册 | 
| 预配置和配置管理 | 配置、持续集成和持续交付（CI/CD) pipeline and toolset, release management, testing framework and toolset, code repository, branching strategy, blue/green部署、配置管理数据库 (CMDB)、配置项目 | 
| 可用性和连续性管理 | 高可用性架构、自动扩展、[备份和恢复](https://docs.aws.amazon.com/prescriptive-guidance/latest/backup-recovery/welcome.html)、复制、恢复时间目标（RTO）和恢复点目标（RPO）、数据存储与保留策略、[灾难恢复](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-database-disaster-recovery/defining.html)、自动化和机器人、混合选项、存储网关 | 
| 监控和可观测性 | 指标、日志记录、应用程序性能、用户体验、网络监控、统一的控制面板 | 

# 工具集成
<a name="tools-integration"></a>

多数企业依赖 ITSM 工具实现本地运营自动化。当这些组织迁移到云端时，需要维护其现有的 ITSM 工具及流程。试图完全取代现有的 ITSM 工具并重新培训员工掌握新的运营流程，不仅耗费巨大且耗时费力，还可能导致迁移计划严重延误。

为了满足这一需求， AWS 提供了几种集成模式，使企业能够将其现有的 ITSM 工具与 AWS 服务之连接。借助这些集成模式，组织可以在逐步采用云功能的同时保持运营连续性。下表概述了 ITSM 工具和 AWS 服务之间的常见集成模式。这些模式提供了一种实用方法，可在不中断现有运营流程的情况下采用云。


| **场景** | **描述及 AWS 工具** | 
| --- | --- | 
| 自助服务与自助预置 | 企业用户无需登录， AWS 即可使用 ITSM 中的[AWS Service Catalog](https://aws.amazon.com/servicecatalog/)连接器自行配置资源。 AWS 管理控制台 | 
| CMDB 集成 | [AWS Config](https://aws.amazon.com/config/)并[AWS Systems Manager](https://aws.amazon.com/systems-manager/)提供用于监控持续集成 (CIs) 的本机发现服务。 AWS资源配置、合规性状态和更改可自动登录到 CMDB。 | 
| AMS–ITSM 集成 | [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) 通过使用 AWS 服务管理连接器 应用程序版本 2 进行集成，可以灵活地根据各种需求自定义集成。 | 
| 票证 | [AWS 支持 API](https://docs.aws.amazon.com/awssupport/latest/APIReference/Welcome.html) 和 ITSM 之间的双向集成使得工单能够在 AWS Enterprise Support 与 ITSM 事件之间无缝流动。与... 集成[OpsCenter。](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) | 
| 监控 | [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 警报会在 ITSM 中触发事件，以进行补救或启动工作流程。 | 
| 使用 ITSM（MAUS）加速迁移 | 您可以使用 ITSM 发现模块或 CMDB 数据为大规模迁移项目定义本地环境。可以将数据映射导入到 [AWS 迁移组合评测](https://mpa.accelerate.amazonaws.com/)中，以自动执行迁移组合分析和业务案例验证。 | 

# 操作测试
<a name="operations-testing"></a>

与产品一样，应定期对 IT 运营进行端到端的测试。尽管企业客户已对灾难恢复等活动采用了运营测试，但应将运营测试扩展到其他运营领域，例如事故和事件管理。比赛日场景（例如消防演习）是测试运营事件发生时您的流程、工具和人员如何反应的活动。

以下是一些规范性的比赛日场景，用于测试事件和事件管理： AWS
+ Amazon Elastic Compute Cloud (Amazon EC2) CPU 利用率压力测试
+ Amazon EC2 网络压力测试
+ Amazon EC2 内存压力测试
+ Amazon Elastic Container Service（Amazon ECS）任务失败场景
+ AWS Lambda 并发限制和冷启动影响
+ Amazon API Gateway 节流和延迟注入
+ Amazon Relational Database Service（Amazon RDS）记忆压力测试
+ Amazon RDS 失效转移测试
+ Amazon RDS 存储压力
+ Amazon DynamoDB 节流和热分区测试
+ 可用区故障模拟

考虑使用以下内容 AWS 服务 来运行测试场景：
+ [AWS Fault Injection Service (AWS FIS)](https://aws.amazon.com/fis/) 用于控制混沌工程实验
+ 用于应用程序端点@@ [ CloudWatch测试的 Amazon Synthetics](https://docs.aws.amazon.com/AmazonSynthetics/latest/APIReference/Welcome.html)
+ [自动化](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html)，一种功能 AWS Systems Manager，用于编排复杂场景
+ 用于评测和提高应用程序弹性的 [AWS Resilience Hub](https://aws.amazon.com/resilience-hub/)

作为最佳实践，您应该从事故和事件管理开始测试您的 IT 运营，并将测试延伸至其他运营领域。预先确定好比赛日的日程安排也很重要。下面是一些日程安排示例：

**生产或非生产时间表**

![\[生产或非生产环境的比赛日日程安排。\]](http://docs.aws.amazon.com/zh_cn/prescriptive-guidance/latest/migration-operations-integration/images/prod-or-non-prod.png)


**生产和非生产时间表**

![\[生产和非生产环境的比赛日日程安排。\]](http://docs.aws.amazon.com/zh_cn/prescriptive-guidance/latest/migration-operations-integration/images/prod-and-non-prod.png)


# AIOps
<a name="aiops"></a>

当您将工作负载迁移到时 AWS，您可以利用各种 AWS 监控服务，这些服务通过 AI 和机器学习 (ML) 功能进行了增强。尽管传统上通过 Amazon CloudWatch 事件、警报和 AWS Config 规则 提供基础见解进行监控，但机器学习技术的集成将运营智能提升到了一个新的水平。

[Amazon CloudWatch 调查](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Investigations.html)代表了 AI 和 IT 运营的融合，旨在最大限度地减少人为干预操作流程。[Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 提供主动的事件检测和建议，以帮助在潜在问题影响您的系统之前将其预防。[Amazon CloudWatch 异常检测](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)使用机器学习算法来分析历史指标模式，以检测您的 AWS 资源中的异常行为。

AI 运营 (AIOps) 服务通过三个关键维度增强运营能力：服务质量改进、主动运营和增强运营洞察力。

**服务质量改进**
+ 高级指标关联与模式分析
+ 自动警示和通知系统实施
+ 与事件管理系统无缝集成

**主动运营**
+ 基于机器学习的异常检测
+ 持续的绩效指标跟踪与趋势分析
+ 实时监控与警示

**增强运营洞察力**
+ 资源性能分析
+ 应用程序行为跟踪
+ 自动问题检测与分类

通过实施 AIOps AWS，组织可以实现更高效的运营，缩短平均解决问题的时间 (MTTR)，并通过数据驱动的、人工智能增强的运营实践提高整体服务可靠性。这种现代化的方法可以帮助组织从被动运营管理转变为主动式运营管理，同时利用所 AWS提供的强大 AI/ML 功能。