故障后分析和重置
每次出现故障后都必须进行检查,来了解故障的根源以及集群的反应。在大多数情况下,集群可以防止应用程序中断。但是,通常需要手动操作才能将集群重置为保护状态,以防后续出现任何故障。
查看日志
-
要对集群问题进行故障排除,请使用 journalctl 检查 Pacemaker 和 corosync 日志:
# journalctl -u pacemaker -u corosync --since "1 hour ago"-
使用
--since指定时间段(例如,“2 小时前”、“今天”) -
添加
-f以实时跟踪日志 -
与 grep 结合使用可执行特定搜索
-
-
系统消息和资源代理活动可在
/var/log/messages中找到。 -
有关 HANA 特定的问题,请查看 HANA 跟踪目录。以 <sid>adm 身份登录时,可以使用“cdtrace”进行访问。另请查阅 HANA 跟踪目录中的 DB_<tenantdb> 目录。
清理 crm 状态
如果使用 crm status 命令报告了失败的操作,并且已经对其进行了调查,您可以使用以下命令清除报告。
# crm resource cleanup <resource> <hostname>
重启出现故障的节点或 Pacemaker
建议不要自动重启出现故障(或已隔离)的节点。这样操作员才有机会调查故障,并确保集群不会对资源状态做出假设。
您需要根据自己的方法重启实例或 Pacemaker 服务。
深入分析
对于集群特定的问题,请使用 hb_report,对所有节点上的集群组件生成针对性分析:
# hb_report -f "YYYY-MM-DD HH:MM:SS" -t "YYYY-MM-DD HH:MM:SS" /tmp/hb_report
要快速分析最近的事件,您可以使用:
# crm history events # crm history log
-
hb_report和crm history命令都需要在节点之间使用无密码 SSH -
有关更多信息,请参阅 SUSE 文档:Usage of hb_report for SLES HAE