

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon EKS 中进行监控的最佳实践
<a name="monitoring-best-practices"></a>

## 战略实施方法
<a name="implementation"></a>

成功的 Amazon EKS 监控策略始于精心策划的分阶段实施方法。
+ 首先确定和监控直接影响业务运营和应用程序可靠性的关键指标。该基础应包括基本的基础架构指标、关键应用程序性能指标和关键安全指标。根据业务需求和经验教训逐步扩大监测范围，并确保每一项增加都能提供有意义的价值。
+ 使用 Terraform 等基础设施即代码 (IaC) 工具实施自动化部署流程，或者确保一致性和 CloudFormation 可重复性。
+ 测试和验证监控系统，以帮助保持可靠性和准确性。
+ 不断完善监控参数，以适应不断变化的业务需求。

## 有效的数据管理
<a name="data-mgmt"></a>

正确的数据管理对于维护高效且具有成本效益的监控解决方案至关重要。
+ 实施明确的数据保留政策，在历史分析需求和存储成本之间取得平衡。
+ 为不同的指标类型配置适当的采样率：关键指标的频率更高，不太关键的指标的频率较低。
+ 使用指标聚合来减少数据量，同时保持有意义的见解，特别是对于长期趋势分析。
+ 为集中式日志系统（例如 CloudWatch 日志）实施系统的日志保留和存档程序，以管理存储成本并保持对重要数据的访问权限。
**注意**  
在 Amazon EKS 1.21 或更高版本中，kubelet 会自动处理容器级别的日志轮换。
+ 考虑实施日志存储 hot-warm-cold架构，以优化访问速度和成本效益。

## 警报配置和管理
<a name="alert-config"></a>

警报配置需要仔细考虑，以便在不造成警报疲劳的情况下保持有效性。
+ 根据服务级别目标 (SLOs) 和历史性能模式定义清晰、可操作的阈值。
+ 实施分级警报严重度系统，明确区分需要立即关注的关键问题和不太紧急的问题。
+ 确保警报提供足够的背景信息和可操作的信息，以便于快速解决问题。
+ 针对不同的警报严重程度，制定明确的上报程序，明确所有权和响应时间。
+ 定期审查和完善警报配置，以帮助保持其相关性和有效性。

## 资源优化
<a name="resource"></a>

持续监控资源利用率对于维持具有成本效益的运营至关重要。
+ 对所有集群组件（包括节点、Pod 和永久卷）实施全面的资源监控。
+ 根据实际使用模式和性能要求配置自动扩展，以确保高效利用资源，同时保持性能。
+ 使用成本分配标签来跟踪不同团队、应用程序或环境的资源消耗。
+ 定期分析资源效率指标，以确定优化机会并实施改进。
+ 考虑实施成本管理工具来跟踪和优化云支出。

## 安全性
<a name="security"></a>

安全考虑应该是您的监控策略不可或缺的一部分。
+ 对所有监控组件实施[最低权限访问原则](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_permissions_least_privileges.html)，以确保用户和服务仅拥有他们需要的权限。
+ 启用全面的审核日志，以跟踪对监控系统的所有访问和更改。
+ 定期对监控配置和访问模式进行安全审查，以识别潜在的漏洞。
+ 对传输中和静态的敏感监控数据实施加密。
+ 将安全监控与现有的安全信息和事件管理 (SIEM) 系统集成，以实现全面的安全可见性。