监控的最佳实践 AWS CloudHSM

监控最佳实践可以提高 AWS CloudHSM 集群的安全性、性能和可靠性。遵循 AWS CloudHSM 文档中的AWS CloudHSM 监控最佳实践。此外，以下是一些可以帮助您有效监控 AWS CloudHSM 资源的重要指导方针：

建立基准-为每个工作负载设置基准指标和阈值，例如预期的会话密钥、令牌密钥和打开会话的数量。
当工作负载结果面临风险时发出警报 — 配置 Amazon CloudWatch 警报，以便在工作负载指标超过既定阈值时启动通知。这些警报应通知您操作或性能问题或潜在的安全风险，例如恶意活动。
查看和修改指标-定期查看监控数据，以评估已建立指标的有效性。指标应反映集 AWS CloudHSM 群的运行状况和性能。根据不断变化的工作负载模式和运营要求调整指标。这促进了最佳的监控和警报功能。

本指南 AWS CloudHSM 中的监控和警报建议遵循以下 Well-Ar AWS chitected Framework 支柱中的最佳实践：

卓越运营支柱建议，您的工作负载设计应包括遥测和监控。 AWS CloudHSM 提供必要的信息，例如指标、日志、事件和跟踪，以便您了解资源状态。有关更多信息，请参阅 AWS CloudHSM 文档 AWS CloudHSM中的监控。操作时 AWS CloudHSM，您需要能够了解集群的运行状况、检测操作事件以及对计划内和计划外事件做出响应。 AWS 提供监控工具，可帮助您确定何时组织和业务结果可能面临风险，以便您可以在正确的时间采取适当的措施。
性能效率支柱建议您通过近乎实时地收集、聚合和处理与性能相关的指标来监控资源（例如 AWS CloudHSM 集群）的性能。您可以识别性能下降并修复这些因素。例如，您可能会在群集中检测到报告服务器端错误的硬件安全模块 (HSMs)。当测量值超出预期阈值时，您可以自动发出警报。我们建议您不仅要使用警报来发送通知，还要针对检测到的事件启动自动操作。例如，您可以自动增加集群 HSMs 中的数量。
可靠性支柱将监控和警报定义为确保您满足可用性要求的关键。您的监控解决方案必须能够有效地检测故障。当它检测到问题或故障时，其主要目标是对这些问题发出警报。对于云中的弹性架构而言，实施持续的可观察性和监控实践是当务之急。要改善您的工作负载，您必须能够对其进行衡量并了解其状态和运行状况。自动从故障中恢复、横向扩展和容量配置的设计原则取决于准确的监控和警报服务。
安全支柱讨论了检测和预防意外或不必要的配置更改以及意外行为。默认情况下， AWS CloudHSM 会收集您的 HSM 审核日志，并代表您将其发送到 Amazon CloudWatch Logs。您可以使用审计日志来监控集群中每个 HSM 中执行的操作。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

简介

运营监控