操作测试
与产品一样,应定期对 IT 运营进行端到端的测试。尽管企业客户已对灾难恢复等活动采用了运营测试,但应将运营测试扩展到其他运营领域,例如事故和事件管理。比赛日场景(例如消防演习)是测试运营事件发生时您的流程、工具和人员如何反应的活动。
以下是一些用于在 AWS 上测试事故和事件管理的规定性比赛日场景:
-
Amazon Elastic Compute Cloud (Amazon EC2) CPU 利用率压力测试
-
Amazon EC2 网络压力测试
-
Amazon EC2 内存压力测试
-
Amazon Elastic Container Service(Amazon ECS)任务失败场景
-
AWS Lambda 并发限制和冷启动影响
-
Amazon API Gateway 节流和延迟注入
-
Amazon Relational Database Service(Amazon RDS)记忆压力测试
-
Amazon RDS 失效转移测试
-
Amazon RDS 存储压力
-
Amazon DynamoDB 节流和热分区测试
-
可用区故障模拟
考虑使用以下 AWS 服务运行测试场景:
-
用于受控混沌工程实验的 AWS Fault Injection Service(AWS FIS)
-
用于应用程序端点测试的 Amazon CloudWatch Synthetics
-
用于编排复杂场景的自动化(AWS Systems Manager 的一种功能)
-
用于评测和提高应用程序弹性的 AWS Resilience Hub
作为最佳实践,您应该从事故和事件管理开始测试您的 IT 运营,并将测试延伸至其他运营领域。预先确定好比赛日的日程安排也很重要。下面是一些日程安排示例:
生产或非生产时间表
生产和非生产时间表