Greenplum集群实例宕机问题排查
你好,我是本际云服务器推荐网的小编小本本。在生产环境中,我们所维护的Greenplum集群偶尔会出现节点实例宕停的情况。实例宕停的因素比较多,包括硬件的问题、网络波动、SQL语法的不规范等等。这些情况都可能导致集群某一个或多个mirror实例在固定的时间点宕机。以下是解决问题的排查方法。

排查方法
1. 硬件问题检查
检查日志目录/var/log/messages,查看是否是磁盘降级导致的。根据主机厂商不同,关键词可能不太一样。如果是内存或其他硬件导致的,执行以下命令:
cat /var/log/messages | grep ker
2. 数据库日志检查
使用命令gpstate -e查看宕机实例的数据库状态。需要获取详细路径,执行以下命令:
cd /数据库安装主目录/gpseg*宕机实例号/pg_log
可以看到按日期生成的.csv文件,这就是数据库日志。有些文件后缀不是000000,这是因为该实例宕停不在记录日志信息,只有把实例拉起时才会继续记录,拉起宕停实例的时间会自动生成对应的.csv文件。查看相应的日志文件,可以看到关键词”WARNING”,后面的信息就是宕停时所打印的信息。
3. SQL语句原因
在master主机部署一个记录集群会话的脚本,将宕机时间点的SQL反馈给应用让其检查是否有问题,或者将宕机时间点的会话分散执行。
以上是排查Greenplum集群实例宕机问题的方法,希望可以对你有所帮助。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6286.html
