消息中间件故障分析一例
我是本际云服务器推荐网的小编小本本,今天给大家分享一篇故障分析文章,文章主要围绕消息中间件故障展开。

故障原因分析
2016年10月11日,通过批量任务进行数据清理时,产生大量的delete操作,达到了切换条件,在未检测从库的情况下,自动切换部分主从,导致主从数据混乱。后续其他节点也在未检测从库情况下进行自动切换。至此整个集群数据混乱。
故障造成的影响及架构隐患
故障发生后,影响面儿较大。所有数据操作,都经过代理软件指向数据库。代理软件是否可靠,直接关系到后台数据一致性。架构存在多个隐患,包括但不限于:代理软件故障切换是否可靠、判断当前写操作位于主库还是从库是否可靠、代理软件高可用是否可靠、代理软件是否能动态加载其配置文件、是否存在全局表、代理软件是否可以跨片查询等。
解决方案及日常运维
为了应对此类故障,我们需要采取以下临时解决方案和后续整改建议,同时加强日常运维工作:
- 临时解决方案:a)不允许自动切换主从,人工切换必须检查从库延迟;b)通过innobackupex恢复备库。
- 后续整改建议:a)主从切换时,必须先检查从库是否存在延迟(10s以内);b)定期优化TopSql;c)实时检测主从同步情况;d)拆分3套代理软件对应的底层数据库;e)增加数据库监控。
- 日常运维:完善告警及加强日常巡检。
日常监控主要包括线程连接信息、查询性能相关信息、MySQL表、行信息、InnoDB相关信息、命中率、MySQL基本情况、从库延迟情况等监控项,并通过对mysql运行状态以及系统本身的细致检查,发现mysql服务可能存在的问题,提高mysql的性能,减少非计划停机时间。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5795.html
