故障背景
本文将讲述一次k8s集群中怪异的时间修改导致的系列问题。某日,k8s上运行的一些业务反应服务出现异常,访问ceph集群也出现缓慢或者mount的fs无法读取等问题,最终问题经过简单的排查,发现业务客户端时间与当前时间相差8个小时。

分析过程
为了定位问题,我们进行以下步骤:
- 检查ceph存储情况,发现有少许客户端响应超时的问题;
- 登录mds服务器,查询具体被阻塞的客户端;
- 锁定业务W,并根据客户端IP锁定容器;
- 通知同事检查对应的IP主机上的业务容器是否正常;
- 发现容器对ceph的目录访问出现卡顿,ls等命令无法正常显示;
- 进一步检查日志,发现时间偏差告警;
- 检查服务器时间,date显示时间与当前时间相差8小时;
- 检查服务器messages日志,发现时间被更改而NTP同步暂未完成。
业务恢复和问题复盘
原因确认是时间异常,对IP-9服务器的时间进行同步并恢复,但是业务自愈性较差,对容器内的业务进程进行了重启恢复,业务恢复正常。虽然最终锁定了“真凶”是业务A,但容器更改的时间影响宿主机的原因不合理,深入分析后发现是因为业务A镜像加入集群未进行镜像安全相关的扫描和审核,导致使用的自有容器镜像默认具有很高的权限,容器中更改时间影响到了宿主机。该结论得到了经过审核的镜像中的验证。使用date命令时,需要留意命令结果中显示CST还是UTC或者其他时区,修正时间前必须先修正时区。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6238.html
