故障现象描述
某平台数据库备库服务器系统出现大量系统配置文件报错,进而导致系统崩溃,然后宕机。

问题诊断及解决
通过在启动系统时,根据启动的信息提示,该问题的原因是系统在崩溃前,提示很多/etc目录下的配置文件为只读文件,不能正常访问和读写。当系统崩溃后,在手动尝试启动过程中,提示很多配置文件的inode号发生了混乱,导致启动时,不能正确找到相关配置文件,进而就导致了不能挂在硬盘分区,系统不能正常启动。由于系统文件损坏,系统不能正常恢复,所以考虑重新安装系统,配置dataguard备库,业务恢复正常。
在问题诊断过程中,检查主数据库和备数据库运行是否正常,发现备数据库日志报错。通过日志分析,在/emcoradata/oric/controlfile/这个路径下的文件不能进行写数据,尝试vi编辑一个文件。然而,系统发生崩溃,直接宕机,启动时提示很多配置文件的inode号发生了混乱,导致启动时,不能正确找到相关配置文件,进而就不能正常启动。重新安装系统并配置dataguard后,业务恢复正常。
改进措施
针对本次故障产生的原因,我们提出几点建议:1.巡检人员每天查看系统日志。2. 巡检人员每天查看系统文件的inode信息,防止出现inode丢失或清零。
本文作者:小本本
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6422.html
