1. 本际云推荐 - 专业推荐VPS、服务器,IDC点评首页
  2. 云主机运维
  3. VPS运维

k8s–记一次“怪异”的时间修改导致的系列问题

故障背景

本文将讲述一次k8s集群中怪异的时间修改导致的系列问题。某日,k8s上运行的一些业务反应服务出现异常,访问ceph集群也出现缓慢或者mount的fs无法读取等问题,最终问题经过简单的排查,发现业务客户端时间与当前时间相差8个小时。

k8s--记一次“怪异”的时间修改导致的系列问题

分析过程

为了定位问题,我们进行以下步骤:

  • 检查ceph存储情况,发现有少许客户端响应超时的问题;
  • 登录mds服务器,查询具体被阻塞的客户端;
  • 锁定业务W,并根据客户端IP锁定容器;
  • 通知同事检查对应的IP主机上的业务容器是否正常;
  • 发现容器对ceph的目录访问出现卡顿,ls等命令无法正常显示;
  • 进一步检查日志,发现时间偏差告警;
  • 检查服务器时间,date显示时间与当前时间相差8小时;
  • 检查服务器messages日志,发现时间被更改而NTP同步暂未完成。

业务恢复和问题复盘

原因确认是时间异常,对IP-9服务器的时间进行同步并恢复,但是业务自愈性较差,对容器内的业务进程进行了重启恢复,业务恢复正常。虽然最终锁定了“真凶”是业务A,但容器更改的时间影响宿主机的原因不合理,深入分析后发现是因为业务A镜像加入集群未进行镜像安全相关的扫描和审核,导致使用的自有容器镜像默认具有很高的权限,容器中更改时间影响到了宿主机。该结论得到了经过审核的镜像中的验证。使用date命令时,需要留意命令结果中显示CST还是UTC或者其他时区,修正时间前必须先修正时区。

原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6238.html