Linux系统的内存和平均负载监控脚本

查看系统平均负载的方法

在Linux shell下，有很多命令可以看到Load Average，如 top、uptime、w、cat /proc/loadavg

例如：

# top
top - 12:50:28 up 182 days, 16:55, 2 users, load average: 0.02, 0.05, 0.00

# uptime
12:49:10 up 182 days, 16:54, 2 users, load average: 0.08, 0.04, 0.01

# w
12:49:18 up 182 days, 16:54, 2 users, load average: 0.11, 0.07, 0.01

# cat /proc/loadavg
0.21 0.27 0.24 2/306 20067

load average 字段的3个数字的含义：分别表示系统在过去1分钟、5分钟、15分钟内运行进程队列中的平均进程数量。

运行队列嘛，没有等待IO，没有WAIT，没有KILL的进程通通都进这个队列。

其中，有一个最直接的显示系统平均负载的命令

# cat /proc/loadavg
0.21 0.27 0.24 2/306 20067

除了前3个数字表示平均进程数量外，后面的1个分数，分母表示系统进程总数，分子表示正在运行的进程数；最后一个数字表示最近运行的进程ID.

系统平均负载的大白话解释

为了更好地理解系统负载，我们用交通流量来做类比。

1、单核CPU - 单车道 - load average 负载数在 0.00-1.00 之间正常

路况管理员会告知司机，如果前面比较拥堵，那司机就要等待，如果前面一路畅通，那么司机就可以驾车直接开过。

具体来说：

0.00-1.00 之间的数字表示此时路况非常良好，单核单进程没有拥堵，车辆可以毫无阻碍地通过。

1.00 表示道路还算正常，但有可能会恶化并造成拥堵。此时系统已经没有多余的资源了，管理员需要进行优化。

1.00-N 表示路况不太好了，如果到达2.00表示桥上负载多了一倍的车辆正在等待。这种情况你必须进行检查了。

2、多核CPU - 多车道 - load average 负载数数 / CPU核数的比值，在0.00-1.00之间正常

多核CPU的话，满负荷状态的数字为 "1.00 * CPU核数"，即双核CPU为2.00，四核CPU为4.00 才是正常的

这里做下小结：

1）单核CPU，load average 0 - 1 正常

2）双核CPU，load average 0 - 2 正常，计算：load average / CPU核数 = 0 - 2 / 2 = 0 - 1

3）四核CPU，load average 0 - 4 正常，计算：load average / CPU核数 = 0 - 4 / 4 = 0 - 1

4）八核CPU，load average 0 - 8 正常，计算：load average / CPU核数 = 0 - 8 / 8 = 0 - 1

总之，load average 的数值不要超过CPU的核数，例如双核CPU 的 load average 不要超过 2，以此可以作为负载监控的判断条件

3、安全的系统平均负载

统计经验值，一般认为单核负载在0.7以下是安全的，超过0.7就需要进行优化了

4、应该看哪一个数字，1分钟，5分钟还是15分钟？

米扑博客认为看1分钟、5分钟的比较好，即前面2个数字。

这样，发现了负载过量，可以及时报警处理，15分钟均值是通过1、5分钟计算的，有一定的延迟性，发现过载就晚了（有人会说要平滑峰值，实际1、5分钟已经是平均值了）

5、怎样知道我的CPU是几核呢？

使用以下命令可以直接获得CPU核心数目

grep 'model name' /proc/cpuinfo | wc -l

若想通过 top 命令查看 CPU 核数，可以输入 1，显示全部CPU核数

top - 14:20:31 up 3 days, 23:40,  4 users,  load average: 0.07, 0.07, 0.13
Tasks:  93 total,   2 running,  91 sleeping,   0 stopped,   0 zombie
%Cpu0  :  4.7 us,  0.5 sy,  0.0 ni, 94.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1  : 14.9 us,  2.6 sy,  0.0 ni, 82.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  3880952 total,  1918220 free,  1650368 used,   312364 buff/cache
KiB Swap:  4095996 total,  3975444 free,   120552 used.  1978760 avail Mem

如上，top 命令后，输入 1，可以查看到双核每一个CPU运行情况；否则，是CPU合计数值

监控脚本

最后，给出一个监控剩余内存和负载数值的监控脚本

剩余内存小于 100MB 或者 load average 负载数值大于 3 （双核正常值 0 - 2 之间），则重启 httpd 进程

vim mysql_files_monitor.sh

#!/bin/bash
# 
# modify by yanggang in 2015-01-19
# update by yanggang in 2018-08-22
#
# Copyright 2014 by mimvp.com


############### monitor Mem and load average ###############
function monitor_mem_load() {
    free_mem_num=`free -m | grep Mem | awk '{print $4}'`
    free_mem_MinNUM=100
    load_avg_num=`uptime | awk '{print $10}' | awk -F [','] '{print $1}'`
    load_avg_num_int=`uptime | awk '{print $10}' | awk -F ['.'] '{print $1}'`
    load_avg_MaxNUM=3
    echo "free_mem_num: $free_mem_num , load_avg_num: $load_avg_num , load_avg_num_int: $load_avg_num_int" >> $log
    
    idx=0
    while [ "$free_mem_num" -lt "$free_mem_MinNUM" -o "$load_avg_num_int" -gt "$load_avg_MaxNUM" ]; do
        idx=`expr $dix + 1`
        if (( $idx > 5 )); then
            break
        fi

        echo "free_mem_num: $free_mem_num < free_mem_MinNUM: $free_mem_MinNUM , idx: $idx" >> $log
        echo "load_avg_num: $load_avg_num > load_avg_MaxNUM: $load_avg_MaxNUM , idx: $idx" >> $log
        echo "/etc/init.d/httpd restart..." >> $log
        
        /etc/init.d/httpd restart
        sleep 10
    
        free_mem_num=`free -m | grep Mem | awk '{print $4}'`
        load_avg_num=`uptime | awk '{print $10}' | awk -F [','] '{print $1}'`
        load_avg_num_int=`uptime | awk '{print $10}' | awk -F ['.'] '{print $1}'`
        echo "restart free_mem_num: $free_mem_num , load_avg_num: $load_avg_num , load_avg_num_int: $load_avg_num_int" >> $log
    
        pid_httpd_num=`ps -ef | grep -v grep | grep "bin/httpd" | wc -l`
        echo "restart pid_httpd_num: $pid_httpd_num" >> $log
    
        if [ "$pid_httpd_num" -eq "1" ]; then
            ps -ef | grep -v grep | grep httpd | awk '{print $2}' | xargs kill -9
            /etc/init.d/httpd restart
        fi
    done
}


monitor_mem_load

总结

取得CPU核心数目N，观察 load average 负载的前面2个数字，用数字 load average / CPU核数N，如果得到的值小于0.7即可无忧。

参考推荐：

Linux free命令：buffer 与 cache 区别

米扑博客

Most Valuable Package of Mobile Internet

标签云

打赏赞助

访客统计

分类 (24)

归档 (192)

友情链接

Linux 系统的内存和平均负载监控脚本

发表评论