故障后分析和重置

每次出现故障后都必须进行检查，来了解故障的根源以及集群的反应。在大多数情况下，集群可以防止应用程序中断。但是，通常需要手动操作才能将集群重置为保护状态，以防后续出现任何故障。

查看日志

要对集群问题进行故障排除，请使用 journalctl 检查 Pacemaker 和 corosync 日志：
```
# journalctl -u pacemaker -u corosync --since "1 hour ago"
```
- 使用 --since 指定时间段（例如，“2 小时前”、“今天”）
- 添加 -f 以实时跟踪日志
- 与 grep 结合使用可执行特定搜索
系统消息和资源代理活动可在 /var/log/messages 中找到。
有关 HANA 特定的问题，请查看 HANA 跟踪目录。以 <sid>adm 身份登录时，可以使用“cdtrace”进行访问。另请查阅 HANA 跟踪目录中的 DB_<tenantdb> 目录。

如果使用 crm status 命令报告了失败的操作，并且已经对其进行了调查，您可以使用以下命令清除报告。


# crm resource cleanup <resource> <hostname>

建议不要自动重启出现故障（或已隔离）的节点。这样操作员才有机会调查故障，并确保集群不会对资源状态做出假设。

您需要根据自己的方法重启实例或 Pacemaker 服务。

对于集群特定的问题，请使用 hb_report，对所有节点上的集群组件生成针对性分析：


# hb_report -f "YYYY-MM-DD HH:MM:SS" -t "YYYY-MM-DD HH:MM:SS" /tmp/hb_report

要快速分析最近的事件，您可以使用：


# crm history events
# crm history log

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

执行计划内维护

提醒和监控