故障现象
12月21日上午,接到短信告警,XXX库节点1实例断连。登陆环境检查后发现,在9:01分左右XXX库节点1主机发生了重启完成。

问题分析
通过对节点1集群日志的分析,我们发现从08:35分到09:01分的时间内并没有报错信息。但在09:02分到09:04秒之间,节点1开始启动集群。数据库节点1主机9点1分重启完成,Oracle集群日志显示在8点35分到9点02分发起集群启动之间无报错信息,Oracle后台日志显示数据库实例在8点51分到9点21分启动实例无报错信息。OSW日志显示节点1在8点55分左右出现断点,CPU和内存资源正常,B队列较高,发现节点1网络心跳超时,导致主机无法响应,网络通信失败。进一步检查节点1在故障时间8点55分左右IO耗尽,导致系统崩溃。通过AWR报告显示大量物理读占据大量IO资源,这是由于一些高耗SQL产生大量的directpathread异常等待事件,导致IO资源耗尽。
解决措施
针对上述问题,我们制定了以下措施:
- 应用侧核查高耗SQL模块,进行优化,数据库侧可以协助提供技术支持。
- 开发商加强上线评审,评审通过后方可上线,避免私自未经评审上线。
- 应用修改连接机制,进行数据库高可用配置(连接数据库VIP,而不是物理IP)。
此外,我们还对连接机制、应用模块进行了修改,同时对系统进行了进一步的稳定性优化,避免类似问题的再次发生。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5798.html
