认识内存库长事务
我是本际云服务器推荐网的小编小本本,今天要和大家分享内存库长事务告警的自愈之路。首先,我们需要了解什么是内存库长事务。指的是运行时间较长、长时间未提交的事务,往往会造成主备同步延时影响主备及时性。

内存库长事务告警的处理演进历程
内存库长事务告警在不同阶段的处理方式与流程也不同。我们来回顾一下它的演进历程:
- 初学阶段:告警信息较简单,大约是这样的:TT:长事务告警:地市-主机IP-系统用户-内存库实例-库角色, 共3个, 2017/09/13 03:00,请核查。这时处理方法是内存库维护人员将应用信息反馈给应用维护人员,经授权后应用侧重启对应进程。
- 深入阶段:经过深入学习后,处理方法逐渐明确完整,告警调整成这样的:TT:长事务告警:地市-主机IP-系统用户-内存库实例-库角色-10个, 应用详情: 应用主机1.IP 应用进程号1;应用主机2.IP 应用进号2;应用主机3.IP 应用进程号3, 2018/3/16 01:11,请核查。这时,应用维护人员直接根据告警短信中的应用详情部分(进程主机IP地址、进程号),在BOSS后台进程管理界面上处理。
- 应用深入阶段:处理投入到应用维护中,再次收到了长事务告警,告警调整成这样的:TT:长事务告警:地市-主机IP-系统用户-内存库实例-库角色-2个, 应用详情: 应用主机1.IP ping 正常, 应用主机1.IP: 应用进程号1;应用主机2.IP ping 正常, 应用主机2.IP: 应用进程号2, 2019/8/24 18:50,请核查。这时应用维护人员可以直接登录进程管理界面进行处理。
- 自愈阶段:随着应用的深入学习,可以通过调用接口实现长事务告警的自愈处理。告警调整成下面这样的:内存库:TT:长事务告警:地市-主机IP-系统用户-内存库实例-库角色-2个, 应用详情: 应用主机1.IP ping 正常, 应用主机1.IP: 应用进程号1, 已重启;10.25.19.195 ping 正常, 应用主机2.IP: 应用进程号2, 已重启;2020/8/10 19:00,请核查。这时告警信息中包含了所有信息,维护人员无需进行重复性的工作。
总结与思考
内存库长事务告警的自愈处理,最开始的处理方法往往占用了大部分维护时间。随着技术的提升、角色的调整、思维的转变,在不同阶段对同一件事情往往会有不同的看法。因此,需要经常回头看下以前做的事情,不断完善。一个点带来的效率的提升可以不断正向激励自己,陆续积累的点逐渐汇聚起来,提升工作效率。
现场引入了自动化运维平台,我们期待在内存库长事务告警处理上能有更多的创新与发展。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6026.html
