故障后分析和重置 - SAP HANA on AWS

故障后分析和重置

每次出现故障后都必须进行检查,来了解故障的根源以及集群的反应。在大多数情况下,集群可以防止应用程序中断。但是,通常需要手动操作才能将集群重置为保护状态,以防后续出现任何故障。

查看日志

  • 要对集群问题进行故障排除,请使用 journalctl 检查 Pacemaker 和 corosync 日志:

    # journalctl -u pacemaker -u corosync --since "1 hour ago"
    • 使用 --since 指定时间段(例如,“2 小时前”、“今天”)

    • 添加 -f 以实时跟踪日志

    • 与 grep 结合使用可执行特定搜索

  • 系统消息和资源代理活动可在 /var/log/messages 中找到。

  • 有关 HANA 特定的问题,请查看 HANA 跟踪目录。以 <sid>adm 身份登录时,可以使用“cdtrace”进行访问。另请查阅 HANA 跟踪目录中的 DB_<tenantdb> 目录。

清理 crm 状态

如果使用 crm status 命令报告了失败的操作,并且已经对其进行了调查,您可以使用以下命令清除报告。

# crm resource cleanup <resource> <hostname>

重启出现故障的节点或 Pacemaker

建议不要自动重启出现故障(或已隔离)的节点。这样操作员才有机会调查故障,并确保集群不会对资源状态做出假设。

您需要根据自己的方法重启实例或 Pacemaker 服务。

深入分析

对于集群特定的问题,请使用 hb_report,对所有节点上的集群组件生成针对性分析:

# hb_report -f "YYYY-MM-DD HH:MM:SS" -t "YYYY-MM-DD HH:MM:SS" /tmp/hb_report

要快速分析最近的事件,您可以使用:

# crm history events # crm history log