小编笔记:本次分享以某运营商核心数据库连接数暴涨进而导致数据库hang的故障分析处理经验为例,介绍了该事件的整个发生过程以及分析处理过程。主要通过查询数据库预警文件、Trc、OSW、dbwait日志、ash视图数据等资料,最终发现问题是由于LGWR不能及时被CPU调度引起的。解决方案包括确认操作系统的补丁更新到最新版本、关闭CPU折叠的功能、将LGWR的进程直接放在RR的调度方式里以及调整log buffer的大小等。
事件背景
2020年01月13日,收到某运营商一核心数据库告警,提示数据库连接数超过预警阈值,短时间内连接数暴涨,同事也收到业务人员反馈。

分析过程
根据问题发生时段数据库预警文件、Trc、OSW、dbwait日志、ash视图数据,查询相关MOS资料。在分析过程中,先排查IO性能引发的问题,再根据MOS中相关资料,排除掉应用提交过于频繁的问题。最终结合ASH的报告,发现问题是由于LGWR不能及时被CPU调度引起的。
分析总结
确认操作系统的补丁更新到最新版本,关闭CPU折叠的功能,将LGWR的进程直接放在RR的调度方式里以及调整log buffer的大小等,可有效解决LGWR不能及时被CPU调度的问题。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/5935.html
