# 流程和文化
<a name="a-process-culture"></a>

**Topics**
+ [

# PERF 5. 组织实践和文化如何助力提高工作负载的性能效率？
](perf-05.md)

# PERF 5. 组织实践和文化如何助力提高工作负载的性能效率？
<a name="perf-05"></a>

 在最初构建工作负载时，您可以采用一些原则和实践，协助您更好地运行高效、高性能的云工作负载。要采用能提高云工作负载性能效率的文化，请考虑以下关键原则和实践：

**Topics**
+ [

# PERF05-BP01 建立关键性能指标（KPI）来衡量工作负载运行状况和性能
](perf_process_culture_establish_key_performance_indicators.md)
+ [

# PERF05-BP02 使用监控解决方案了解性能最为关键的方面
](perf_process_culture_use_monitoring_solutions.md)
+ [

# PERF05-BP03 制定流程来提高工作负载性能
](perf_process_culture_workload_performance.md)
+ [

# PERF05-BP04 对工作负载进行负载测试
](perf_process_culture_load_test.md)
+ [

# PERF05-BP05 使用自动化技术主动修复与性能相关的问题
](perf_process_culture_automation_remediate_issues.md)
+ [

# PERF05-BP06 让工作负载和服务保持最新状态
](perf_process_culture_keep_workload_and_services_up_to_date.md)
+ [

# PERF05-BP07 定期检查指标
](perf_process_culture_review_metrics.md)

# PERF05-BP01 建立关键性能指标（KPI）来衡量工作负载运行状况和性能
<a name="perf_process_culture_establish_key_performance_indicators"></a>

 确定用于定量和定性地衡量工作负载性能的 KPI。KPI 有助于您衡量与业务目标相关的工作负载的运行状况和性能。

 **常见反模式：**
+  只监控系统级指标来深入了解工作负载，却不了解这些指标对业务的影响。
+  认为 KPI 已作为标准指标数据发布和共享。
+  没有定义可量化、可衡量的 KPI。
+  KPI 与业务目标或策略不符。

 **建立此最佳实践的好处：**确定可反映工作负载运行状况和性能的具体 KPI，有助于调整团队的工作重点，并确定成功的业务成果。与所有部门共享这些指标可让所有人了解并一致认可阈值、期望值和业务影响。

 **在未建立这种最佳实践的情况下暴露的风险等级：**高 

## 实施指导
<a name="implementation-guidance"></a>

 利用 KPI，业务和工程团队可在衡量目标和策略以及如何将这些因素结合来取得业务成果方面达成共识。例如，网站工作负载可能会将页面加载时间用作总体性能指示。该指标将是用来衡量用户体验的多个数据点之一。除了确定页面加载时间阈值之外，您还应记录未达到理想性能要求时的预期成果或业务风险。较长的页面加载时间会直接影响最终用户的体验，降低他们的用户体验评分，并会导致客户流失。在定义 KPI 阈值时，请结合考虑行业基准和最终用户期望。例如，如果当前行业基准是两秒内加载网页，而您的最终用户希望网页在一秒内加载，那么您在建立 KPI 时应考虑这两个数据点。

 您的团队必须使用实时的精细数据和历史数据作为参考来评估工作负载 KPI，并创建控制面板来对 KPI 数据执行指标计算，从而获得运维和利用率方面的洞察。应记录 KPI，包括支持业务目标和策略的阈值，并且应与所监控的指标对应起来。当业务目标、策略或最终用户需求发生变化时，应重新审视 KPI。   

## 实施步骤
<a name="implementation-steps"></a>
+ **确定利益相关方：**确定并记录关键的业务利益相关方，包括开发和运营团队。
+ **定义目标：**与这些利益相关方合作，定义并记录工作负载目标。考虑工作负载的关键性能方面（例如吞吐量、响应时间和成本），以及业务目标（例如用户满意度）。
+ **查看行业最佳实践：**查看行业最佳实践，确定与工作负载目标相一致的相关 KPI。
+  **确定指标：**确定与工作负载目标一致且有助于衡量绩效和业务目标的指标。根据这些指标建立 KPI。示例指标包括平均响应时间或并发用户数量等衡量指标。
+ **定义并记录 KPI：**使用行业最佳实践和工作负载目标为工作负载 KPI 设定目标。使用这些信息设置 KPI 阈值的严重性或警报级别。确定并记录未满足 KPI 时带来的风险和影响。
+ **实施监控：**使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 或 [AWS Config](https://aws.amazon.com/config/) 等监控工具收集指标并衡量 KPI。
+ **直观地传达 KPI：**使用 [Amazon Quick](https://aws.amazon.com/pm/quicksight/) 等控制面板工具来可视化 KPI，并就此与利益相关方沟通。
+ **分析和优化：**定期审查并分析 KPI，确定需要从哪些方面改进工作负载。与利益相关方协作实施这些改进。
+ **重新审视和完善：**定期审查指标和 KPI，评测其有效性，尤其是在业务目标或工作负载绩效发生变化时。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [CloudWatch 文档](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [AWS Partner 监控、日志记录和性能](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+ [AWS observability tools](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/aws-observability-tools.html)
+ [The Importance of Key Performance Indicators (KPIs) for Large-Scale Cloud Migrations](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)
+ [How to track your cost optimization KPIs with the KPI Dashboard](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+  [X-Ray 文档](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Using Amazon CloudWatch dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html?ref=wellarchitected) 
+  [Quick KPI](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html) 

 **相关视频：**
+ [AWS re:Invent 2023 - Optimize cost and performance and track progress toward mitigation](https://www.youtube.com/watch?v=keAfy8f84E0)
+ [AWS re:Invent 2023 - Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)
+ [AWS re:Invent 2023 - Performance & efficiency at Pinterest: Optimizing the latest instances](https://www.youtube.com/watch?v=QSudpowE_Hs)
+ [AWS re:Invent 2022 - AWS optimization: Actionable steps for immediate results ](https://www.youtube.com/watch?v=0ifvNf2Tx3w)
+ [AWS re:Invent 2023 - Building an effective observability strategy](https://www.youtube.com/watch?v=7PQv9eYCJW8)
+ [AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS](https://www.youtube.com/watch?v=or7uFFyHIX0)
+ [AWS re:Invent 2023 - Scaling on AWS for the first 10 million users](https://www.youtube.com/watch?v=JzuNJ8OUht0)
+ [AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance](https://www.youtube.com/watch?v=_uaaCiyJCFA)
+ [Creating an Effective Metrics Strategy for Your Business \$1 AWS Events](https://www.youtube.com/watch?v=zBO-K4RvbtM)

 **相关示例：**
+  [Creating a dashboard with Quick](https://github.com/aws-samples/amazon-quicksight-sdk-proserve) 

# PERF05-BP02 使用监控解决方案了解性能最为关键的方面
<a name="perf_process_culture_use_monitoring_solutions"></a>

 了解并确定在哪些方面提高工作负载性能，会对效率或客户体验产生积极的影响。例如，拥有大量客户交互的网站会因为使用边缘服务在距离客户更近的位置向客户分发内容而受益。

 **常见反模式：**
+  认为标准计算指标（例如，CPU 利用率或内存压力）足够捕获性能问题。
+  只使用由自己选定的监控软件记录的默认指标。
+  只在出现问题时审查指标。

 **建立此最佳实践的好处：**了解关键性能领域可以帮助工作负载负责人监控 KPI 并确定具有高影响力的优先改进。

 **在未建立这种最佳实践的情况下暴露的风险等级：**高 

## 实施指导
<a name="implementation-guidance"></a>

 设置端到端的跟踪，用于确定流量模式、延迟和关键性能领域。针对速度缓慢的查询或性能欠佳的碎片和分区数据，监控数据访问模式。使用负载测试或监控来确定受约束的工作负载领域。

 通过了解架构、流量模式和数据访问模式，提高性能效率，并确定延迟和处理时间。确定随着工作负载增长可能会影响客户体验的潜在瓶颈。在研究了这些方面之后，再看看可以通过部署哪项解决方案来解决这些性能问题。

### 实施步骤
<a name="implementation-steps"></a>
+  设置端到端的监控，用于收集所有工作负载组件和指标。以下是 AWS 监控解决方案的示例。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/wellarchitected/latest/framework/perf_process_culture_use_monitoring_solutions.html)
+  执行测试以生成指标，确定流量模式、瓶颈和关键性能领域。以下是一些有关如何执行测试的示例：
  +  设置 [CloudWatch Synthetics 金丝雀](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)，使用 Linux cron 作业或 rate 表达式，通过编程方式模拟浏览器端的用户活动，从而生成一段时间内的稳定指标。
  +  使用 [AWS 分布式负载测试](https://aws.amazon.com/solutions/implementations/distributed-load-testing-on-aws/)解决方案生成峰值流量，或者在预期增长速率下测试工作负载。
+  评估指标和遥测数据，确定您的关键性能方面。与团队一起审查这些方面，讨论监控和解决方案以避免瓶颈。
+  试验性能改进，并利用数据来衡量这些更改。例如，使用 [CloudWatch Evidently](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Evidently.html) 测试新的改进以及对工作负载的性能影响。

## 资源
<a name="resources"></a>

 **相关文档：**
+ [What's new in AWS Observability at re:Invent 2023](https://aws.amazon.com/blogs/mt/whats-new-in-aws-observability-at-reinvent-2023/)
+  [Amazon Builders' Library](https://aws.amazon.com/builders-library) 
+  [X-Ray 文档](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) 
+  [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 

 **相关视频：**
+ [AWS re:Invent 2023 - [LAUNCH] Application monitoring for modern workloads ](https://www.youtube.com/watch?v=T2TovTLje8w)
+ [AWS re:Invent 2023 - Implementing application observability ](https://www.youtube.com/watch?v=IcTcwUSwIs4)
+ [AWS re:Invent 2023 - Building an effective observability strategy](https://www.youtube.com/watch?v=7PQv9eYCJW8)
+ [AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS](https://www.youtube.com/watch?v=or7uFFyHIX0)
+ [AWS re:Invent 2022 - AWS optimization: Actionable steps for immediate results ](https://www.youtube.com/watch?v=0ifvNf2Tx3w)
+  [AWS re:Invent 2022 - The Amazon Builders' Library: 25 years of Amazon operational excellence](https://www.youtube.com/watch?v=DSRhgBd_gtw) 
+ [AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance](https://www.youtube.com/watch?v=_uaaCiyJCFA)
+  [Visual Monitoring of Applications with Amazon CloudWatch Synthetics](https://www.youtube.com/watch?v=_PCs-ucZz7E) 

 **相关示例：**
+  [Measure page load time with Amazon CloudWatch Synthetics](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance) 
+  [Amazon CloudWatch RUM Web Client](https://github.com/aws-observability/aws-rum-web) 
+  [适用于 Python 的 X-Ray 开发工具包](https://github.com/aws/aws-xray-sdk-python) 
+  [AWS 上的分布式负载测试](https://aws.amazon.com/solutions/implementations/distributed-load-testing-on-aws/) 

# PERF05-BP03 制定流程来提高工作负载性能
<a name="perf_process_culture_workload_performance"></a>

 制定相应流程，对推出的新服务、设计模式、资源类型和配置进行评估。例如，对新实例产品运行现有性能测试，确定其是否有潜力改进工作负载。

 **常见反模式：**
+  认为当前架构是静态的，将来不会更新。
+  不断对架构进行更改，却不提供任何指标方面的依据。

 **建立此最佳实践的好处：**通过制定架构更改流程，您可以使用所收集的数据来影响以后的工作负载设计。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 工作负载的性能会面临一些关键约束。记录这些约束，以便了解哪些创新可以改进工作负载的性能。在知道有新的服务或技术推出时，借助这些信息来确定消除约束或瓶颈的方法。

 确定针对工作负载的关键性能约束。记录工作负载的性能约束，以便了解哪类创新可以提高工作负载的性能。

### 实施步骤
<a name="implementation-steps"></a>
+ **确定 KPI：**如 [PERF05-BP01 建立关键性能指标（KPI）来衡量工作负载运行状况和性能](perf_process_culture_establish_key_performance_indicators.md)中所述，确定工作负载性能 KPI，为工作负载建立基准。
+ **实施监控：**使用 [AWS 可观测性工具](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/aws-observability-tools.html)收集绩效指标并衡量 KPI。
+ **执行分析：**执行深入分析，确定工作负载中性能欠佳的方面（如配置和应用程序代码），如 [PERF05-BP02 使用监控解决方案了解性能最为关键的方面](perf_process_culture_use_monitoring_solutions.md)中所述。使用分析和性能工具来确定性能改进策略。
+ **验证改进：**使用沙盒环境或预生产环境来验证策略的有效性。
+ **实施变更：**在生产环境中实施变更并持续监控工作负载的性能。记录改进内容，并将变更内容传达给利益相关方。
+ **重新审视和完善：**定期审查绩效改进流程，确定需要改进的领域。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [AWS 博客](https://aws.amazon.com/blogs/) 
+  [AWS 的新功能](https://aws.amazon.com/new/?ref=wellarchitected) 
+  [AWS Skill Builder](https://explore.skillbuilder.aws/learn) 

 **相关视频：**
+ [AWS re:Invent 2022 - Delivering sustainable, high-performing architectures ](https://www.youtube.com/watch?v=FBc9hXQfat0)
+ [AWS re:Invent 2023 - Optimize cost and performance and track progress toward mitigation](https://www.youtube.com/watch?v=keAfy8f84E0)
+ [AWS re:Invent 2022 - AWS optimization: Actionable steps for immediate results ](https://www.youtube.com/watch?v=0ifvNf2Tx3w)
+ [AWS re:Invent 2022 - Optimize your AWS workloads with best-practice guidance](https://www.youtube.com/watch?v=t8yl1TrnuIk)

 **相关示例：**
+  [AWS GitHub](https://github.com/aws) 

# PERF05-BP04 对工作负载进行负载测试
<a name="perf_process_culture_load_test"></a>

 对工作负载进行负载测试，从而验证工作负载能否处理生产负载，并找出任何性能瓶颈。

 **常见反模式：**
+  对工作负载的各个部分进行单独负载测试，而不是测试整个工作负载。
+  在与生产环境不同的基础设施上进行负载测试。
+  只对预期负载而不对其他负载进行负载测试，来预测未来可能会出现问题的方面。
+  没有查阅 [Amazon EC2 Testing Policy](https://aws.amazon.com/ec2/testing/) 并提交“模拟事件提交表”，就执行负载测试。这会导致您的测试无法运行，因为它看起来像是拒绝服务事件。

 **建立此最佳实践的好处：**通过负载测试来衡量性能，可说明随着负载的增加，您将在哪些方面受到影响。这样您便可以在变更影响自己的工作负载之前，对所需进行的变更进行预测。

 **在未建立这种最佳实践的情况下暴露的风险等级：**低 

## 实施指导
<a name="implementation-guidance"></a>

 云端负载测试是在预期用户负载的实际条件下衡量云工作负载性能的过程。这一过程包括：预置类似于生产的云环境，使用负载测试工具生成负载，分析各个指标来评测工作负载处理实际负载的能力。必须使用生产数据的合成或净化版本（删除敏感信息或身份识别信息）运行负载测试。作为交付管道的一部分，自动执行负载测试，并将结果与预定义的 KPI 和阈值进行比较。这一过程有利于您持续实现所需的性能。

### 实施步骤
<a name="implementation-steps"></a>
+ **定义测试目标：**确定待评估工作负载的性能方面，例如吞吐量和响应时间。
+ **选择测试工具：**选择并配置适合工作负载的负载测试工具。
+ **设置环境：**根据生产环境设置测试环境。您可以使用 AWS 服务来运行生产规模的环境，进而测试架构。
+ **实施监控：**使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 等监控工具，收集架构中各个资源的指标。您还可以收集和发布自定义指标。
+ **定义场景：**定义负载测试场景和参数（如测试持续时间和用户数量）。
+ **执行负载测试：**大规模执行负载测试场景。利用 AWS 云 来测试工作负载，发现工作负载的哪些部分无法扩展或者是否以非线性方式扩展。例如，您可以使用竞价型实例以很低的成本生成负载，并在投入生产前发现瓶颈。
+ **分析测试结果：**对结果进行分析，确定性能瓶颈和需要改进的地方。
+ **记录和分享调查发现：**记录并报告调查发现和建议。与利益相关方共享此信息，协助他们就性能优化策略做出明智的决策。
+ **持续迭代：**应定期执行负载测试，尤其是在系统更改更新之后。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [AWS 上的分布式负载测试](https://docs.aws.amazon.com/solutions/latest/distributed-load-testing-on-aws/welcome.html) 

 **相关视频：**
+ [AWS Summit ANZ 2023: Accelerate with confidence through AWS Distributed Load Testing](https://www.youtube.com/watch?v=4J6lVqa6Yh8)
+ [AWS re:Invent 2022 - Scaling on AWS for your first 10 million users](https://www.youtube.com/watch?v=yrP3M4_13QM)
+  [Solving with AWS Solutions: Distributed Load Testing](https://www.youtube.com/watch?v=Y-2rk0sSyOM) 
+ [AWS re:Invent 2021 - Optimize applications through end user insights with Amazon CloudWatch RUM](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+  [Demo of Amazon CloudWatch Synthetics](https://www.youtube.com/watch?v=hF3NM9j-u7I) 

 **相关示例：**
+  [AWS 上的分布式负载测试](https://aws.amazon.com/solutions/implementations/distributed-load-testing-on-aws/) 

# PERF05-BP05 使用自动化技术主动修复与性能相关的问题
<a name="perf_process_culture_automation_remediate_issues"></a>

 使用关键性能指标（KPI）并结合监控和警报系统，主动解决与性能相关的问题。

 **常见反模式：**
+  只允许运营人员对工作负载进行运营更改。
+  通过设置筛选条件将所有没有主动修复行为的警报发送给运营团队。

 **建立此最佳实践的好处：**主动修复警报行为使支持人员能够集中精力处理那些无法自动完成的工作。这样一来，操作人员只需集中精力处理关键警报，从而避免因处理所有警报而变得应接不暇。

 **在未建立这种最佳实践的情况下暴露的风险等级：**低 

## 实施指导
<a name="implementation-guidance"></a>

 使用警报触发自动操作，以便在可能的情况下修复问题。如果无法实现自动响应，则将警报上报给能够响应的人员。例如，您的系统在关键性能指标（KPI）超出特定阈值时，能够预测预期 KPI 值并发出警报；或者您的工具在 KPI 超出预期值时，能够自动停止或回滚部署。

 实施相应流程，让您在工作负载运行期间了解其性能。构建监控控制面板并确定预期性能基准，以确定工作负载的性能是否达到最佳。

### 实施步骤
<a name="implementation-steps"></a>
+ **确定修复工作流程：**识别并了解可以自动修复的性能问题。使用 [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 或 AWS X-Ray 等 AWS 监控解决方案，帮助您更好地了解问题的根本原因。
+ **定义自动化流程：**创建可用于自动修复问题的分步修复流程。
+ **配置启动事件：**将事件配置为自动启动修复流程。例如，您可以定义一个触发器，以便在实例达到特定 CPU 利用率阈值时自动重启实例。
+ **自动执行修复：**使用 AWS 服务和技术自动执行修复流程。例如，[AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 提供了一种安全且可扩展的方法来自动执行修复流程。如果更改未成功解决问题，请务必使用自我修复逻辑来还原更改。
+ **测试工作流程：**在预生产环境中测试自动修复流程。
+ **实施工作流程：**在生产环境中实施自动修复。
+ **制定行动手册：**制定行动手册并记录相关内容，概述修复计划的步骤，包括启动事件、修复逻辑和采取的行动。确保对利益相关方进行培训，协助他们有效应对自动修复事件。
+ **审查和完善：**定期评测自动修复工作流程的有效性。必要时调整启动事件和修复逻辑。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [CloudWatch 文档](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [AWS Partner Network 合作伙伴监控、日志记录和性能](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 文档](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Using Alarms and Alarm Actions in CloudWatch](https://docs.aws.amazon.com/sdk-for-go/v1/developer-guide/cw-example-using-alarm-actions.html) 
+ [Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/)
+ [Automate your Amazon Redshift performance tuning with automatic table optimization](https://aws.amazon.com/blogs/big-data/automate-your-amazon-redshift-performance-tuning-with-automatic-table-optimization/)

 **相关视频：**
+ [AWS re:Invent 2023 - Strategies for automated scaling, remediation, and smart self-healing](https://www.youtube.com/watch?v=nlGyIa3UQYU)
+ [AWS re:Invent 2023 - [LAUNCH] Application monitoring for modern workloads ](https://www.youtube.com/watch?v=T2TovTLje8w)
+ [AWS re:Invent 2023 - Implementing application observability ](https://www.youtube.com/watch?v=IcTcwUSwIs4)
+  [AWS re:Invent 2021 - Intelligently automating cloud operations](https://www.youtube.com/watch?v=m0S8eAF0l54) 
+  [AWS re:Invent 2022 - Setting up controls at scale in your AWS environment](https://www.youtube.com/watch?v=NkE9_okfPG8) 
+  [AWS re:Invent 2022 - Automating patch management and compliance using AWS](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance](https://www.youtube.com/watch?v=_uaaCiyJCFA&ab_channel=AWSEvents) 
+ [AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS](https://www.youtube.com/watch?v=Ulj88e5Aqzg)
+ [AWS re:Invent 2021 -\$1New Launch\$1 Automatically detect and resolve issues with Amazon DevOps Guru](https://www.youtube.com/watch?v=iwQNQHwoXfk)
+ [AWS re:Invent 2023 - Centralize your operations](https://www.youtube.com/watch?v=9-RBjmhDdaM)

 **相关示例：**
+  [CloudWatch Logs Customize Alarms](https://github.com/awslabs/cloudwatch-logs-customize-alarms) 

# PERF05-BP06 让工作负载和服务保持最新状态
<a name="perf_process_culture_keep_workload_and_services_up_to_date"></a>

 随时了解新的云服务和功能，积极采用高效的功能，解决出现的问题并提高工作负载的整体性能效率。

 **常见反模式：**
+  认为当前架构是静态的，将来不会更新。
+  没有任何系统或定期安排来评估更新后的软件和软件包是否与工作负载兼容。

 **建立此最佳实践的好处：**通过建立流程来及时了解新服务和产品的最新情况，您可以采用新的特性和功能、解决问题并提高工作负载性能。

 **在未建立这种最佳实践的情况下暴露的风险等级：**低 

## 实施指导
<a name="implementation-guidance"></a>

 随着新的服务、设计模式和产品功能的推出，评估可提高性能的方法。通过评估、内部讨论或外部分析来确定哪些方法可以提高工作负载的性能或效率。制定相应流程，评估与工作负载相关的更新、新功能和服务。例如，使用新技术构建概念验证或咨询内部团队。在尝试新想法或新服务时，运行性能测试来衡量这些新想法或新服务对工作负载性能的影响。

## 实施步骤
<a name="implementation-steps"></a>
+ **清点工作负载：**清点工作负载软件和架构，确定需要更新的组件。
+ **确定更新资源：**确定与工作负载组件相关的资讯和更新来源。例如，您可以订阅 [AWS 的新功能博客](https://aws.amazon.com/new/)，了解与工作负载组件相匹配的产品。您可以订阅 RSS 源或管理[电子邮件订阅](https://pages.awscloud.com/communication-preferences.html)。
+ **制定更新计划：**制定计划来评估工作负载的新服务和新功能。
  +  您可以使用 [AWS Systems Manager 清单](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-inventory.html)从 Amazon EC2 实例中收集操作系统（OS）、应用程序和实例元数据，并快速了解哪些实例正在运行软件策略所需的软件和配置，以及哪些实例需要更新。
+ **评测新更新：**了解如何更新工作负载的组件。利用云中的敏捷性，快速测试新功能如何改善工作负载，从而提高性能效率。
+ **采用自动化：**采用自动化更新流程，减少部署新功能的工作量，并减少手动过程引起的错误。
  +  您可以使用 [CI/CD](https://aws.amazon.com/blogs/devops/complete-ci-cd-with-aws-codecommit-aws-codebuild-aws-codedeploy-and-aws-codepipeline/) 自动更新 AMI、容器映像以及其他与云应用程序相关的构件。
  +  您可以使用 [AWS Systems Manager 补丁管理器](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html)等工具来自动执行系统更新流程，并使用 [AWS Systems Manager Maintenance Windows](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html) 来安排活动。
+ **记录流程：**记录评估更新和新服务的流程。为负责人提供所需的时间和空间来研究、测试、试验和验证更新及新服务。回顾记录的业务要求和 KPI，帮助确定会对业务产生积极影响的更新的优先级。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [AWS 博客](https://aws.amazon.com/blogs/) 
+  [AWS 的新功能](https://aws.amazon.com/new/?ref=wellarchitected) 
+ [Implementing up-to-date images with automated EC2 Image Builder pipelines ](https://aws.amazon.com/blogs/compute/implementing-up-to-date-images-with-automated-ec2-image-builder-pipelines/)

 **相关视频：**
+ [AWS re:Inforce 2022 - Automating patch management and compliance using AWS](https://www.youtube.com/watch?v=gL3baXQJvc0)
+ [ All Things Patch: AWS Systems Manager \$1 AWS Events](https://www.youtube.com/watch?v=PhIiVsCEBu8)

 **相关示例：**
+ [Inventory and Patch Management](https://mng.workshop.aws/ssm/use-case-labs/inventory_patch_management.html)
+ [One Observability 讲习会](https://catalog.workshops.aws/observability/en-US)

# PERF05-BP07 定期检查指标
<a name="perf_process_culture_review_metrics"></a>

 作为例行维护的一部分或为了应对事件或意外事件，请检查收集到了哪些指标。通过这些检查，找出哪些指标对于解决问题至关重要，以及跟踪哪些其他指标会有助于发现、解决或预防问题。

 **常见反模式：**
+  让指标长时间保持警报状态。
+  创建自动化系统无法操作的警报。

 **建立此最佳实践的好处：**不断检查收集的指标，确认这些指标是否有助于正确地发现问题、解决问题或预防问题。如果让指标长时间保持警报状态，这些指标也会过时。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 不断改进指标收集和监控效果。在响应意外事件或事件的过程中，评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。通过这种方法，您可以提高收集的指标的质量，从而预防或更快速地解决未来发生的意外事件。

 在响应意外事件或事件的过程中，评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。这样，您可以提高收集的指标的质量，从而预防或更快速地解决未来发生的意外事件。

### 实施步骤
<a name="implementation-steps"></a>
+ **定义指标：**定义为实现工作负载目标而需要监控的关键性能指标，包括响应时间和资源利用率等指标。
+ **建立基准：**为每个指标设置基准和期望值。基准应提供参考点，用于确定偏差或异常。
+ **建立定期机制**：建立定期机制（例如每周或每月）来审核关键指标。
+ **识别性能问题：**在每次审核期间，评测趋势以及与基准值的偏差。找出任何性能瓶颈或异常情况。对于已发现的问题，深入分析根本原因，了解问题背后的主要原因。
+ **确定纠正措施：**利用分析结果来确定纠正措施。这可能包括调整参数、修复错误和扩展资源。
+ **记录调查发现：**记录调查发现，包括已确定的问题、根本原因和纠正措施。
+ **迭代和改进：**持续评测和改进指标审核流程。利用从之前审核中吸取的经验教训，不断改进流程。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [CloudWatch 文档](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [使用 CloudWatch 代理从 Amazon EC2 实例和本地部署服务器中收集指标和日志](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html?ref=wellarchitected) 
+ [使用 CloudWatch Metrics Insights 查询您的指标](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)
+  [AWS Partner Network 合作伙伴监控、日志记录和性能](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 文档](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 

 **相关视频：**
+  [AWS re:Invent 2022 - Setting up controls at scale in your AWS environment](https://www.youtube.com/watch?v=NkE9_okfPG8) 
+  [AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance](https://www.youtube.com/watch?v=_uaaCiyJCFA&ab_channel=AWSEvents) 
+ [AWS re:Invent 2023 - Building an effective observability strategy](https://www.youtube.com/watch?v=7PQv9eYCJW8)
+ [AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS](https://www.youtube.com/watch?v=or7uFFyHIX0)
+ [AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS](https://www.youtube.com/watch?v=Ulj88e5Aqzg)

 **相关示例：**
+  [Creating a dashboard with Quick](https://github.com/aws-samples/amazon-quicksight-sdk-proserve) 
+ [CloudWatch Dashboards](https://catalog.us-east-1.prod.workshops.aws/workshops/a8e9c6a6-0ba9-48a7-a90d-378a440ab8ba/en-US/300-cloudwatch/340-cloudwatch-dashboards)