一. 故障现象及原因分析
最近生产环境中出现了一个redis数据库服务器的ssd盘故障,导致redis实例宕掉。经过分析,发现故障的根本原因是ssd盘早期没有格式化好,4k对齐没做好。

二. 处理过程
在处理这个故障时,我们首先准备将redis的aof文件转移到一个新的盘上,并且动态更改aof目录到其他盘,结果导致redis实例挂掉。但是通过collector和redis日志的观察,redis写入已经失败,磁盘挂了后redis写入已经失败,估计有丢失数据也不多。在备份正常盘的数据后,我们对盘进行fsck修复,最后成功弄出了aof文件。
三. 故障总结
由于redis的meta信息是衔接collector采集、storm处理和hadoopcamus入库的关键信息,本次redis故障对集群影响比较大。接下来的新机房,我们将使用cluster来存储meta的redis,避免单点故障,以保障系统的可用性。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6459.html
