奥卡姆剃刀原则解决flink日志延时问题
我是本际云服务器推荐网的小编小本本。最近,我们遇到了flink计算业务链相关指标延迟的问题。经过初步调查,我们发现日志采集数据量上升导致了日志延时。但因为采集客户端及服务端没有相关数据量统计,无法判断问题出在哪里。而奥卡姆剃刀原则为我们提供了解决问题的方法。

问题排查过程
首先我们使用奥卡姆剃刀原则,逐步剔除多余不必要的环节,直到简单到不能再简单。我们发现问题出在flink消费kafka数据写入es这个环节。具体来说,我们逐步去掉flink解码、flink分词、flink入库这三个步骤,并对每个步骤进行测试验证。通过以上步骤测试,我们发现分词过程和开启es副本对日志采集入库延时的影响最大,而解码几乎不受数据量增长的影响。
解决方案
我们已经找到问题所在,需要优化的是flink分词过程和es副本。因此,我们采取了以下两种优化措施:优化es副本,将副本开启时间改为凌晨,在凌晨的空闲时间再生成副本,避免写入的时候产生es副本;优化flink分词过程,进一步优化分词处理过程和分词处理结果入库环节效率。
在解决以上问题的过程中,我们也发现了自己做的不足之处,比如未统计每天及每小时采集数据量做基线,在出现问题时,无法对比历史基线。因此,我们已经部署了脚本监控每天和每小时写入es的数据量,确保下次出现问题时有据可查。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5919.html
