View a markdown version of this page

实验结果文档 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

实验结果文档

配置

记录实验的具体配置。例如:

  • 负载生成设置为模拟 5K 用户每秒总共发出 85 个请求。

先决条件

  • 已验证宠物收养网站是否在 alpha 测试环境中运行。

  • 已验证实验模板是否已配置为对 EKS 集群中运行的 PetSite 应用程序 pod 施加 CPU 压力。  应用程序容器由 Kubernetes 标签识别。app=petsite

  • Load 已确认正在运行,每秒生成 85 个请求。

稳定状态

记录为实现稳定状态所采取的步骤以及您是如何验证稳定状态的。例如:

对于宠物收养场所的测试部署,正在生成 85 个 RPS 的负载以模拟稳定状态。在实验执行之前,对 CloudWatch RUM 和 CloudWatch 仪表板进行了审查,以验证所有业务和应用程序指标是否都在正常范围内。

可观测性数据:

预期 已观察
  • P99 请求的 LCP 时间小于 4 秒。

  • 响应延迟小于 500 毫秒。

  • 没有 4XX 或 5XX 错误。

混沌实验的稳定状态报告 1。

混沌实验的稳定状态报告 2。

故障注入

AWS FIS 用于使用实验模板注入故障(提供链接)。实验设置为运行 10 分钟,如果工作节点的 CPU 压力超过 60%,则配置回滚。

故障观察

对 CloudWatch RUM 和 CloudWatch 仪表板进行了审查,以跟踪应用程序的稳定状态(使用 LCP 指标定义)。  屏幕截图如下表所示。

可观测性数据:

预期 已观察
  • P99 的 LCP 应保持在 4 秒以内。

  • 响应时间应保持在 500 毫秒以下。

  • 不应遇到 4XX 或 5XX 错误。

混沌实验的故障观测报告 1。

混沌实验的故障观测报告 2。

恢复

消除压力后( AWS FIS 实验已完成并消除了 pod 的 CPU 压力),应用程序应恢复其正常的稳定状态。  无需手动干预。

可观测性数据:

预期 观察(屏幕截图)

LCP P99 应低于 4 秒,平均值应低于 2.5 秒。

混沌实验的样本恢复结果。