基于智慧运维平台故障自愈场景的“探索”
我是本际云服务器推荐网的小编小本本。随着智慧运维平台的不断落地,我们基于平台能力,落地了很多场景,监控、告警、运维操作等等,但想将监控、告警能力与运维操作能力结合,形成一套完整的自动化流程,需要一定的“探索”。在本篇文章中,我们将介绍基于智慧运维平台故障自愈场景的一次小“探索”。

场景介绍
该场景基于智慧运维平台监控Weblogic Server的FullGC情况,模拟触发FullGC告警,并且基于平台ATM模块编排自愈运维操作,在告警产生后自动触发故障自愈操作,完成自愈操作。
监控自愈流程如下:

场景要素提炼
本次场景的要素包括:
- 基于AMP监控采集FullGC信息,同时配置告警触发器
- 基于ATM配置自愈操作,完成故障时刻信息搜集、Server重启绑定告警与自愈操作,使告警产生后自动触发完成自愈动作
测试验证
在测试环境下,我们部署了一套Weblogic Server,并将GC信息接入平台监控。
同时,针对JVM堆old区使用率,我们配置了告警触发器。自愈操作配置同样针对操作编排的配置。
在ATM模块中,我们配置了一个简单的Weblogic自愈操作。自愈操作包括,搜集故障时刻Server的堆栈信息treaddump、heapdump,之后进行服务重启动作。
通过平台GC信息采集看,JVM堆Old区使用率在触发FULLGC前后的变化趋势图,从10%->100%->10%,恢复到正常水平。Weblogic Server在模拟FullGC并自愈前后GC次数的变化趋势图也证明了FullGC次数迅速增加,触发自愈动作重启实例后,FULLGC再次恢复实例启动状态。
以上便是通过智慧运维平台AMP监控场景、ATM运维操作场景结合,以完成从监控,到告警产生,再到故障自愈的一次“探索”。
结尾
在实际运维中,自愈场景需要考虑的点有很多,如自动or手动触发自愈,自愈搜集哪些信息,如何确保自愈动作100%完成,风险等等,都是需要我们根据不同的故障场景,去探究分析一套安全有效的解决方案。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6054.html
