1. 本际云推荐 - 专业推荐VPS、服务器,IDC点评首页
  2. 云主机运维
  3. VPS运维

RAC双节点crash回复一例

故障背景及原因

作为本次故障的小编,我要讲述的是客户现场两节点库crash告警事件。运维人员紧急将数据库拉起,应用恢复。但启动后alertlog报错ORA-16191和ORA-01031,导致该故障为DataGuard主备库密码文件不一致所致,重建密码文件后,故障解决。

RAC双节点crash回复一例

分析alertlog,发现16:32,节点1读取控制文件发现坏块,紧接着16:33分实例无法正常读取控制文件导致crash,然后实例2在16:35关闭。经检查控制文件并未存在坏块,初步判定为数据库短暂读取控制文件失败导致BUG。

发起SR,经SSC人员及SR后台专家共同确认为bug11698676,该bug与bug9549042为重复bug,并在patch9549042上被fixed。

故障处理过程

4月5日16:34,ssyy库两节点相继crash,紧急接入后确认两实例已被彻底关闭、监听仍然开启,紧急startup将两实例拉起,应用恢复连接至生产库。

检查节点1alertlog发现Check that the primary and standby are using a password file and remote_login_passwordfile is set to SHARED or EXCLUSIVE,并且SYS密码一致。提示为SYS主备库上密码文件不一致导致,重建密码文件后问题解决。

在primary-rac两个节点上执行密码文件创建语句,分别将ssyydb1和ssyydb2依次拷至standby-rac节点1和节点2。primary-rac1节点alertlog仍持续报错Errors in file/oracle/db/diag/rdbms/ssyy/ssyy1/trace/ssyy1_arc2_4134.trc:ORA-01031: insufficient privileges。查询MOS,ORA-01031仍为主备库密码文件不一致导致。怀疑主库归档进程使用了主机缓存密码文件导致,依次kill主库节点1和节点2所有归档进程,但节点1仍持续报错ORA-01031。

检查新生成的密码文件是否被应用,主库密码文件已被应用,备库密码文件未被应用。仔细检查备库密码文件,文件名未满足orapw命名规则,密码文件沿用主库密码文件,但备库实例名区别于主库实例名,修改备库密码文件名。查询MOS,参照ORA-1031 for Remote Archive Destination on Primary(DocID733793.1)解决方案操作,重启实例后,检查主库节点1和节点2alertlog,未曾重现ORA-01031和ORA-16191。

故障分析

检查两节点syslog,无异常,排除主机因素。初步怀疑为bug导致,发起SR,经SSC人员及SR后台专家共同确认,命中bug11698676。该bug与bug9549042为重复bug,在当前HP-UX Itanium64bit平台下,有现成patch9549042。

至此,本次RAC双节点crash回复一例的故障已经顺利解决,但给我们提供了有意义的经验教训。我们应该充分重视主备库密码文件不一致导致的故障,及时采取相应的解决

原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5796.html