本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控的最佳实践 AWS CloudHSM
监控最佳实践可以提高 AWS CloudHSM 集群的安全性、性能和可靠性。遵循 AWS CloudHSM 文档中的AWS CloudHSM 监控最佳实践。此外,以下是一些可以帮助您有效监控 AWS CloudHSM 资源的重要指导方针:
-
建立基准-为每个工作负载设置基准指标和阈值,例如预期的会话密钥、令牌密钥和打开会话的数量。
-
当工作负载结果面临风险时发出警报 — 配置 Amazon CloudWatch 警报,以便在工作负载指标超过既定阈值时启动通知。这些警报应通知您操作或性能问题或潜在的安全风险,例如恶意活动。
-
查看和修改指标-定期查看监控数据,以评估已建立指标的有效性。指标应反映集 AWS CloudHSM 群的运行状况和性能。根据不断变化的工作负载模式和运营要求调整指标。这促进了最佳的监控和警报功能。
本指南 AWS CloudHSM 中的监控和警报建议遵循以下 Well-Ar AWS chitected Framework 支柱中的最佳实践:
-
卓越运营支柱建议,您的工作负载设计应包括遥测和监控。 AWS CloudHSM 提供必要的信息,例如指标、日志、事件和跟踪,以便您了解资源状态。有关更多信息,请参阅 AWS CloudHSM 文档 AWS CloudHSM中的监控。操作时 AWS CloudHSM,您需要能够了解集群的运行状况、检测操作事件以及对计划内和计划外事件做出响应。 AWS 提供监控工具,可帮助您确定何时组织和业务结果可能面临风险,以便您可以在正确的时间采取适当的措施。
-
性能效率支柱建议您通过近乎实时地收集、聚合和处理与性能相关的指标来监控资源(例如 AWS CloudHSM 集群)的性能。您可以识别性能下降并修复这些因素。例如,您可能会在群集中检测到报告服务器端错误的硬件安全模块 (HSMs)。当测量值超出预期阈值时,您可以自动发出警报。我们建议您不仅要使用警报来发送通知,还要针对检测到的事件启动自动操作。例如,您可以自动增加集群 HSMs 中的数量。
-
可靠性支柱将监控和警报定义为确保您满足可用性要求的关键。您的监控解决方案必须能够有效地检测故障。当它检测到问题或故障时,其主要目标是对这些问题发出警报。对于云中的弹性架构而言,实施持续的可观察性和监控实践是当务之急。要改善您的工作负载,您必须能够对其进行衡量并了解其状态和运行状况。自动从故障中恢复、横向扩展和容量配置的设计原则取决于准确的监控和警报服务。
-
安全支柱讨论了检测和预防意外或不必要的配置更改以及意外行为。默认情况下, AWS CloudHSM 会收集您的 HSM 审核日志,并代表您将其发送到 Amazon CloudWatch Logs。您可以使用审计日志来监控集群中每个 HSM 中执行的操作。