Linux 网络错误 TCP: too many orphaned sockets 分析与解决
问题起因:在服务器上部署了单个golang编写的HTTPDNS实例,一个固定的端口9981对外提供服务。
当QPS达到几十万以上时,该实例(VPS、云服务器)崩溃,直接僵死状态,且无法再次启动。
使用命令 dmesg 查看系统日志,发现大量日志,如下:
# dmesg [63286.239125] TCP: too many orphaned sockets [63286.239129] TCP: too many orphaned sockets [63286.239133] TCP: too many orphaned sockets [63286.239136] TCP: too many orphaned sockets [63665.151037] net_ratelimit: 50 callbacks suppressed [63665.151063] TCP: too many orphaned sockets [63665.599039] TCP: too many orphaned sockets [63665.663052] TCP: too many orphaned sockets
备注:查看系统日志,也可以查出问题,如下:
# vim /var/log/messages 61233 Oct 28 21:58:48 localhost kernel: TCP: too many orphaned sockets 61234 Oct 28 21:58:48 localhost kernel: TCP: too many orphaned sockets 61235 Oct 28 21:58:49 localhost kernel: TCP: too many orphaned sockets 61236 Oct 28 21:58:49 localhost kernel: TCP: too many orphaned sockets 61237 Oct 28 21:58:52 localhost kernel: net_ratelimit: 56 callbacks suppressed 61238 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets 61239 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets 61240 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets
上面的日志,说明 sockets资源耗尽了
一、端口与socket
1、端口
Linux下端口号范围0~65535,其中0~1023是系统保留端口号,
1024~65535是用户可使用端口号,Linux下默认用户可用端口号范围如下:
# cat /proc/sys/net/ipv4/ip_local_port_range 32768 60999
可用端口号为 28232个(60999 - 32768 + 1 = 28232),可以通过参照https://charlescui.iteye.com/blog/341713 这个链接中的方式修改
2、socket
要明确两点:
1)端口并不等同于socket ,网络中每个通信实体的 socket 是用一个三元组标识的。
三元组指的是:协议族(地址族),网络地址、传输层端口 (某些时候其实也可以把协议族去了,理解为二元组)。socket pair(也就是一个TCP连接中两端的socket)则是(source_ip; source_port; destination_ip; destination_port)组成的四元组,socket pair唯一标识一个网络上的每个TCP连接。其中任意一元不同,都是一个新的新的连接。参考:《TCP-IP详解》卷一
2)在Linux中,一切都可以看成文件,包括磁盘、外设等,内核(kernel)利用文件描述符(file descriptor)来访问文件。文件描述符是非负整数,打开现存文件或新建文件时,内核会返回一个文件描述符。读写文件也需要使用文件描述符来指定待读写的文件。socket是一个抽象出来的概念,本质上也是一个文件描述符。参考:《unix网络编程》·卷1
二、端口耗尽
端口号的可用范围为 0~65535,1024~65535,32768~60999,是有限的,有被耗尽的风险,这种情况一般是出现在客户端机器上的。
因为一般服务端都是固定端口的,由客户端动态的使用一个端口号,与目标服务器连接。
比如下面的客户端代码:
# 创建 socket 对象 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) host = '10.32.4.95' port = 9999 # 连接服务,指定主机和端口 s.connect((host, port))
客户端都是动态的使用一个端口号,来连接服务端(10.32.4.95:9999),如果在客户端上不断的同服务端建立连接,那么客户端端口号可能被耗尽。压测的时候就算是使用短连接,也可能导致客户端端口被耗尽。
因为TCP四次挥手最后过程,主动关闭连接的一端都会处于TIME_WAIT等待2MSL,一般是60s
修改内核参数的目标就是加快TIME_WAIT状态套接字的回收,快速回收无效连接
客户端:
#开启TCP连接中TIME-WAIT套接字的快速回收 net.ipv4.tcp_tw_recycle=1 #开启重用,表示是否允许将处于TIME-WAIT状态的socket(TIME-WAIT的端口)用于新的TCP连接 。 net.ipv4.tcp_tw_reuse=1 #对于本端断开的socket连接,TCP保持在FIN-WAIT-2状态的时间(秒)。 #对方可能会断开连接或一直不结束连接或不可预料的进程死亡。 net.ipv4.tcp_fin_timeout=5 #TCP时间戳(会在TCP包头增加12个字节),以一种比重发超时更精确的方法(参考RFC 1323) #来启用对RTT 的计算,为实现更好的性能应该启用这个选项。 net.ipv4.tcp_timestamps=1 #收缩TIME_WAIT状态socket的回收时间窗口 net.ipv4.tcp_tw_timeout=3
一般也就上面这些参数,参考:
linux下TCP/IP及内核参数优化调优(TIME_WAIT)
三、socket资源耗尽
注意,是套接字资源耗尽,并不是socket耗尽,资源耗尽是指什么呢?
严格来讲,socket是一个三元组(或者说二元组),一抽象出来的东西因此我觉得不存在socket耗尽的说法,但由于socket本质是一个文件描述符,因此存在文件描述符被耗尽的可能,下面再说
引用下这个总结
Linux系统单机支持的tcp连接数主要受三个方面的限制:
1. 文件描述符的限制 (socket本质上也是一个文件描述符)
2. 系统内存限制
3. Linux内核的限制
对于上面三点,一一说明一下
文件描述符的限制:在64位的系统上,文件描述符单机可以达到20亿+,因此这个限制基本不用考虑,绝对够用
系统内存限制:一个socket连接大概占用4~10Kb内存,要想单机1百万连接,那么就至少需要大概4G内存。这个用量对于现在的服务器来说还是很轻松就满足的
因此最关键的在于 Linux内核的限制,如果突破了这个限制就会出问题。
Linux对TCP、UPD连接是做了内存限制的,通过以下命令查看
cat /proc/sys/net/ipv4/tcp_mem 186135 248180 372270 cat /proc/sys/net/ipv4/udp_mem 372270 496361 744540
上面的数据 (参考连接)
第一个:low:当TCP使用了低于该值的内存页面数时,TCP不会考虑释放内存。
第二个:pressure:当TCP使用了超过该值的内存页面数量时,TCP试图稳定其内存使用,进入pressure模式,当内存消耗低于low值时则退出pressure状态。
第三个:high:允许所有tcp sockets用于排队缓冲数据报的页面量,当内存占用超过此值,系统拒绝分配socket,后台日志输出“TCP: too many of orphaned sockets” (应该是Out of Socket memory)。
如果超过最大限制,dmesg中会报Out of Socket memory错误,且程序会被杀死
上面的数据单位是页,页大小通过以下命令查看
# getconf PAGESIZE 4096
1 page =4096 byte
计算下得到,在我的电脑上Linux默认TCP连接可使用的内存上限是:1.4GB左右,当然了这个是我笔记本上的参数,服务器上的会更大
可以通过如下图所示命令查看tcp socket使用情况
[]
tcp_mem是设定了所有tcp连接能够使用的内存大小,此外对于单个tcp连接还可以调节一下参数:
rmem_max最大的TCP数据接收缓冲
wmem_max最大的TCP数据发送缓冲
tcp_rmem
tcp_wmem
这几个是tcp读写缓冲区的大小。
echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf
对于一般情况来说,上面的操作就已经足够了:保证能提供足够的连接数和足够的内存
但是还应该考虑soconnmax这个参数,这个参数限制了socket接收新 TCP 连接侦听队列的大小,在高并发的请求中,默认的值可能会导致链接超时或者重传。默认是128,挺小的,对于一个经常处理新连接的高负载 web服务环境来说建议调大。
参考:
linux内核调优tcp_max_syn_backlog和somaxconn的区别
理解 Linux backlog/somaxconn 内核参数
四、回到正题来
dmesg中出现tcp too many orphaned sockets信息是为什么呢?
HTTPDNS服务器中,一般都是一些短连接,因此会产生大量orphan socket
什么是orphan socket?
First of all: what’s an orphan socket? It’s simply a socket that isn’t associated to a file descriptor. For instance, after you close() a socket, you no longer hold a file descriptor to reference it, but it still exists because the kernel has to keep it around for a bit more until TCP is done with it. Because orphan sockets aren’t very useful to applications (since applications can’t interact with them), the kernel is trying to limit the amount of memory consumed by orphans, and it does so by limiting the number of orphans that stick around. If you’re running a frontend web server (or an HTTP load balancer), then you’ll most likely have a sizeable number of orphans, and that’s perfectly normal.
意思就是说:orphan sockets是没有与任何文件描述符关联的socket,当你调用close()关闭一个socket后,你就不再拥有这个socket的引用了,但是它仍然存在与操作系统中,直到TCP完成挥手流程。因为orphan sockets对程序来说没有什么用,因此内核会限制其数量
Linux内核对orphaned sockets也做出了限制,不同的服务器对应的限制数不同
##### aliyun ##### # cat /proc/sys/net/ipv4/tcp_max_orphans 65536 # cat /proc/sys/net/ipv4/tcp_max_orphans 32768 # cat /proc/sys/net/ipv4/tcp_max_orphans 16384 # cat /proc/sys/net/ipv4/tcp_max_orphans 4096 ##### vps ##### # cat /proc/sys/net/ipv4/tcp_max_orphans 2048
要避免这种情况,可以将tcp_max_orphans的值也设大一点,并且建议同时也参照上述2(快速回收无效连接),3(增加TCP socket可使用内存)进行优化
也看到一些建议修改net.ipv4.tcp_orphan_retries参数的
问题的解决办法
echo "net.ipv4.ip_local_port_range = 1024 65535" >> /etc/sysctl.conf echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf sysctl -p /etc/sysctl.conf
本文参考:
The "Out of socket memory" error
What does tcp_orphan_retries set to 0 mean
参考推荐:
Linux之/etc/profile、~/.bash_profile等几个文件的执行过程
Linux/bin,/sbin,/usr/bin,/usr/sbin区别
Linux 系统 /var/log/journal/ 垃圾日志清理
Nginx 使用 cron 和 logrotate 管理日志文件
版权所有: 本文系米扑博客原创、转载、摘录,或修订后发表,最后更新于 2020-11-04 05:19:04
侵权处理: 本个人博客,不盈利,若侵犯了您的作品权,请联系博主删除,莫恶意,索钱财,感谢!
转载注明: Linux 网络错误 TCP: too many orphaned sockets 分析与解决 (米扑博客)