告警解释
当出现如下情况时,产生该告警:
- 数据实例数据目录被删除。
- 数据实例Redo目录(pg_xlog)被删除。
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
37000 | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称 |
RoleName | 产生告警的角色名称 |
HostName | 产生告警的主机名 |
Instance | 产生告警的实例 |
对系统的影响
产生此告警后,因数据实例无法启动,状态为异常。
可能原因
该Coordinator节点或Datanode节点的数据目录或者Redo目录被删除。
处理步骤
- 检查告警上报实例的数据目录或者Redo目录(pg_xlog)是否被删除。
可以通过gs_om -t status --detail命令获取到集群中每一个CN或者DN实例对应的数据目录,Redo目录就是数据目录下的pg_xlog目录。
- 使用omm用户登录告警上报的节点。
- 初始化环境变量。
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
- 执行gs_om -t status --detail系统反馈类似如下信息。
- 修复损坏的数据实例(CN、DN)。具体方法请参考“实例故障处理”章节。
- 选中产生异常的节点,单击“更多操作 > 重启实例”。重启节点后等待5分钟,查看告警是否仍然存在。
- 是,执行4。
- 否,处理完毕。
收集故障信息。