Linux结合Top和Grep工具挑选消耗CPU比较高的进程们
前言
最近遇到一个Bug,经常会造成启动的bash
后端shell
进程占用CPU
狂高的情况。我们知道Linux top
可以查看进程的CPU利用率,怎么利用Linux top
命令比较准确地定位到这些狂占CPU的进程呢?
分析CPU冲高
bash
后端子进程为什么狂占CPU呢?GDB attach
到异常的进程,可以看到bash
后端子进程在疯狂处理SIGTTIN
信号,而这整好与这次处理的Bug相关,暂且按下不表 😃
在出现CPU冲高时,利用GDB
attach
到出现问题的进程查看堆栈,或看看GDB有什么异常输出,是比较方便的定位CPU冲高问题的利器
pstack
工具查看进程的堆栈快照,也是一个短平快的工具
Top 工具
查看man top
在说明文档中介绍,指定-o %CPU
的命令选项,可以实现按照指定的列进行排序,如果特别指定+/-的前缀符号,例如,-o [+|-]field
,可以指定排序是按照升序还是降序。
从测试结果来看,top -o %CPU
默认按照降序方式处理,整好符合要求统计高CPU利用率的的要求 😃
最开始想的比较复杂,想着还要利用复杂的脚本处理,例如,将%CPU
列取出来进行数学计算,然后,再获得进程号。不过,觉得这样处理会稍微繁琐一点,并非可以一蹴而就,就想着能否借助grep
工具能否挑出这些异常进程出来呢?
grep
工具我们知道可以按照某种模式进行匹配行信息,那么%CPU
列是否具有模式呢?观察了一段时间之后,发现其中是有模式,而且,在行内具有唯一性。我甚至有点断定Linux top
工具,对于重点列的显现信息呈现一定的唯一性,可能也是有意为之,这样以利于结合各种Shell
工具链进行进一步处理。
代码
# 持续挑选出CPU占用率在50%以上的进程,包括超过100%的# 暂时认为最大999999.9%top -o %CPU | grep -E "[5-9][0-9]\\.[0-9] | [1-9][0-9]{2, 5}\\.[0-9]"# 结合-n选项,一次性输出top -n 1 -o %CPU | grep -E "[5-9][0-9]\\.[0-9] | [1-9][0-9]{2, 5}\\.[0-9]"# 结合awk工具获取进程号进行杀死top -n 1 -o %CPU | grep -E "[5-9][0-9]\\.[0-9] | [1-9][0-9]{2, 5}\\.[0-9]" | awk '{print $1}' | xargs -I {} -- kill -9 {}
结束语
利用
grep
工具支持的正则表达式能力和top
工具行内的唯一性特征,挑选出占用CPU高的进程