OGG故障处理事记
我是本际云服务器推荐网的小编小本本,今天给大家分享一下我们遇到的一次OGG故障处理经历。

故障背景
一次出账期间,突然出现OGG异常抽取进程告警,无法自动拉起,有历史的长事务无法解决。
分析过程
通过查看异常进程日志viewreportname可知,无法找到序列号89241的归档日志。首先查看数据库的归档应用情况以及现有保留的归档序列号,发现已被删除,ADG没有同步到主库,需要手动传输、注册并重新应用。 然而,在应用归档后重启抽取进程,启动后却异常无法停止。只能强制停止了sendname,forcestop。原厂工程师指出,只要长事务中不涉及到抽取表的操作,可以在OGG端提交该事务或跳过该事务。
在日志中的LongRunningTransaction:XID1253.22.58349755中,确定SQLID在源端数据库中并跳过该事务。后恢复正常,但在一段时间后,发现队列文件没有增长,应用序列号也没有变换,stats统计信息也没有改变。查询资料发现是存在需要恢复的长事务,这种情况需要查阅showtransinfoname,showch根据Recoverycheckpoint找到事务ID,跟踪sql信息后,发现可以跳过。sendextractname,skiptrans1079.8.71844665后重启抽取进程,队里文件开始正常增长。
故障总结
通过本次故障处理,我们发现,主要原因是之前进程重启后出现长事务没有处理,导致后面故障重启出现多次长事务恢复需求。为了避免这种情况再次发生,我们针对OGG长事务进行监控,确保在归档保留周期外的长事务能第一时间处理。同时在存储条件有限的情况下,对归档的保留周期做了延期,让自己有充足的时间去处理。
更多精彩干货分享,请关注本际云服务器推荐网。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6070.html
