Linux 系统的内存和平均负载监控脚本
查看系统平均负载的方法
在Linux shell下,有很多命令可以看到Load Average,如 top、uptime、w、cat /proc/loadavg
例如:
# top
top - 12:50:28 up 182 days, 16:55, 2 users, load average: 0.02, 0.05, 0.00
# uptime
12:49:10 up 182 days, 16:54, 2 users, load average: 0.08, 0.04, 0.01
# w
12:49:18 up 182 days, 16:54, 2 users, load average: 0.11, 0.07, 0.01
# cat /proc/loadavg
0.21 0.27 0.24 2/306 20067
load average 字段的3个数字的含义:分别表示系统在过去1分钟、5分钟、15分钟内运行进程队列中的平均进程数量。
运行队列嘛,没有等待IO,没有WAIT,没有KILL的进程通通都进这个队列。
其中,有一个最直接的显示系统平均负载的命令
# cat /proc/loadavg
0.21 0.27 0.24 2/306 20067
除了前3个数字表示平均进程数量外,后面的1个分数,分母表示系统进程总数,分子表示正在运行的进程数;最后一个数字表示最近运行的进程ID.
系统平均负载的大白话解释
为了更好地理解系统负载,我们用交通流量来做类比。
1、单核CPU - 单车道 - load average 负载数在 0.00-1.00 之间正常
路况管理员会告知司机,如果前面比较拥堵,那司机就要等待,如果前面一路畅通,那么司机就可以驾车直接开过。
具体来说:
0.00-1.00 之间的数字表示此时路况非常良好,单核单进程没有拥堵,车辆可以毫无阻碍地通过。
1.00 表示道路还算正常,但有可能会恶化并造成拥堵。此时系统已经没有多余的资源了,管理员需要进行优化。
1.00-N 表示路况不太好了,如果到达2.00表示桥上负载多了一倍的车辆正在等待。这种情况你必须进行检查了。
2、多核CPU - 多车道 - load average 负载数数 / CPU核数的比值,在0.00-1.00之间正常
多核CPU的话,满负荷状态的数字为 "1.00 * CPU核数",即双核CPU为2.00,四核CPU为4.00 才是正常的
这里做下小结:
1)单核CPU,load average 0 - 1 正常
2)双核CPU,load average 0 - 2 正常,计算:load average / CPU核数 = 0 - 2 / 2 = 0 - 1
3)四核CPU,load average 0 - 4 正常,计算:load average / CPU核数 = 0 - 4 / 4 = 0 - 1
4)八核CPU,load average 0 - 8 正常,计算:load average / CPU核数 = 0 - 8 / 8 = 0 - 1
总之,load average 的数值不要超过CPU的核数,例如 双核CPU 的 load average 不要超过 2,以此可以作为负载监控的判断条件
3、安全的系统平均负载
统计经验值,一般认为单核负载在0.7以下是安全的,超过0.7就需要进行优化了
4、应该看哪一个数字,1分钟,5分钟还是15分钟?
米扑博客认为看1分钟、5分钟的比较好,即前面2个数字。
这样,发现了负载过量,可以及时报警处理,15分钟均值是通过1、5分钟计算的,有一定的延迟性,发现过载就晚了(有人会说要平滑峰值,实际1、5分钟已经是平均值了)
5、怎样知道我的CPU是几核呢?
使用以下命令可以直接获得CPU核心数目
grep 'model name' /proc/cpuinfo | wc -l
若想通过 top 命令查看 CPU 核数,可以输入 1,显示全部CPU核数
top - 14:20:31 up 3 days, 23:40, 4 users, load average: 0.07, 0.07, 0.13 Tasks: 93 total, 2 running, 91 sleeping, 0 stopped, 0 zombie %Cpu0 : 4.7 us, 0.5 sy, 0.0 ni, 94.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st %Cpu1 : 14.9 us, 2.6 sy, 0.0 ni, 82.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st KiB Mem : 3880952 total, 1918220 free, 1650368 used, 312364 buff/cache KiB Swap: 4095996 total, 3975444 free, 120552 used. 1978760 avail Mem
如上,top 命令后,输入 1,可以查看到双核每一个CPU运行情况;否则,是CPU合计数值
监控脚本
最后,给出一个监控剩余内存和负载数值的监控脚本
剩余内存小于 100MB 或者 load average 负载数值大于 3 (双核正常值 0 - 2 之间),则重启 httpd 进程
vim mysql_files_monitor.sh
#!/bin/bash # # modify by yanggang in 2015-01-19 # update by yanggang in 2018-08-22 # # Copyright 2014 by mimvp.com ############### monitor Mem and load average ############### function monitor_mem_load() { free_mem_num=`free -m | grep Mem | awk '{print $4}'` free_mem_MinNUM=100 load_avg_num=`uptime | awk '{print $10}' | awk -F [','] '{print $1}'` load_avg_num_int=`uptime | awk '{print $10}' | awk -F ['.'] '{print $1}'` load_avg_MaxNUM=3 echo "free_mem_num: $free_mem_num , load_avg_num: $load_avg_num , load_avg_num_int: $load_avg_num_int" >> $log idx=0 while [ "$free_mem_num" -lt "$free_mem_MinNUM" -o "$load_avg_num_int" -gt "$load_avg_MaxNUM" ]; do idx=`expr $dix + 1` if (( $idx > 5 )); then break fi echo "free_mem_num: $free_mem_num < free_mem_MinNUM: $free_mem_MinNUM , idx: $idx" >> $log echo "load_avg_num: $load_avg_num > load_avg_MaxNUM: $load_avg_MaxNUM , idx: $idx" >> $log echo "/etc/init.d/httpd restart..." >> $log /etc/init.d/httpd restart sleep 10 free_mem_num=`free -m | grep Mem | awk '{print $4}'` load_avg_num=`uptime | awk '{print $10}' | awk -F [','] '{print $1}'` load_avg_num_int=`uptime | awk '{print $10}' | awk -F ['.'] '{print $1}'` echo "restart free_mem_num: $free_mem_num , load_avg_num: $load_avg_num , load_avg_num_int: $load_avg_num_int" >> $log pid_httpd_num=`ps -ef | grep -v grep | grep "bin/httpd" | wc -l` echo "restart pid_httpd_num: $pid_httpd_num" >> $log if [ "$pid_httpd_num" -eq "1" ]; then ps -ef | grep -v grep | grep httpd | awk '{print $2}' | xargs kill -9 /etc/init.d/httpd restart fi done } monitor_mem_load
总结
取得CPU核心数目N,观察 load average 负载的前面2个数字,用数字 load average / CPU核数N,如果得到的值小于0.7即可无忧。
参考推荐:
Linux free命令:buffer 与 cache 区别
版权所有: 本文系米扑博客原创、转载、摘录,或修订后发表,最后更新于 2018-12-29 05:26:54
侵权处理: 本个人博客,不盈利,若侵犯了您的作品权,请联系博主删除,莫恶意,索钱财,感谢!