问题起因:在服务器上部署了单个golang编写的HTTPDNS实例,一个固定的端口9981对外提供服务。

当QPS达到几十万以上时,该实例(VPS、云服务器)崩溃,直接僵死状态,且无法再次启动。

使用命令 dmesg 查看系统日志,发现大量日志,如下:

# dmesg
[63286.239125] TCP: too many orphaned sockets
[63286.239129] TCP: too many orphaned sockets
[63286.239133] TCP: too many orphaned sockets
[63286.239136] TCP: too many orphaned sockets
[63665.151037] net_ratelimit: 50 callbacks suppressed
[63665.151063] TCP: too many orphaned sockets
[63665.599039] TCP: too many orphaned sockets
[63665.663052] TCP: too many orphaned sockets

备注:查看系统日志,也可以查出问题,如下:

# vim /var/log/messages
61233 Oct 28 21:58:48 localhost kernel: TCP: too many orphaned sockets
61234 Oct 28 21:58:48 localhost kernel: TCP: too many orphaned sockets
61235 Oct 28 21:58:49 localhost kernel: TCP: too many orphaned sockets
61236 Oct 28 21:58:49 localhost kernel: TCP: too many orphaned sockets
61237 Oct 28 21:58:52 localhost kernel: net_ratelimit: 56 callbacks suppressed
61238 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets
61239 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets
61240 Oct 28 21:58:52 localhost kernel: TCP: too many orphaned sockets

上面的日志,说明 sockets资源耗尽了

 

一、端口与socket

1、端口

Linux下端口号范围0~65535,其中0~1023是系统保留端口号,

1024~65535是用户可使用端口号,Linux下默认用户可用端口号范围如下:

# cat /proc/sys/net/ipv4/ip_local_port_range
32768   60999

可用端口号为 28232个(60999 - 32768 + 1 = 28232),可以通过参照https://charlescui.iteye.com/blog/341713 这个链接中的方式修改

 

2、socket

要明确两点:

1)端口并不等同于socket ,网络中每个通信实体的 socket 是用一个三元组标识的。

三元组指的是:协议族(地址族),网络地址、传输层端口 (某些时候其实也可以把协议族去了,理解为二元组)。socket pair(也就是一个TCP连接中两端的socket)则是(source_ip; source_port; destination_ip; destination_port)组成的四元组,socket pair唯一标识一个网络上的每个TCP连接。其中任意一元不同,都是一个新的新的连接。参考:《TCP-IP详解》卷一

2)在Linux中,一切都可以看成文件,包括磁盘、外设等,内核(kernel)利用文件描述符(file descriptor)来访问文件。文件描述符是非负整数,打开现存文件或新建文件时,内核会返回一个文件描述符。读写文件也需要使用文件描述符来指定待读写的文件。socket是一个抽象出来的概念,本质上也是一个文件描述符。参考:《unix网络编程》·卷1

 

二、端口耗尽

端口号的可用范围为 0~65535,1024~65535,32768~60999,是有限的,有被耗尽的风险,这种情况一般是出现在客户端机器上的。

因为一般服务端都是固定端口的,由客户端动态的使用一个端口号,与目标服务器连接。

比如下面的客户端代码:

# 创建 socket 对象
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
host = '10.32.4.95'
port = 9999
# 连接服务,指定主机和端口
s.connect((host, port))

客户端都是动态的使用一个端口号,来连接服务端(10.32.4.95:9999),如果在客户端上不断的同服务端建立连接,那么客户端端口号可能被耗尽。压测的时候就算是使用短连接,也可能导致客户端端口被耗尽。

因为TCP四次挥手最后过程,主动关闭连接的一端都会处于TIME_WAIT等待2MSL,一般是60s

修改内核参数的目标就是加快TIME_WAIT状态套接字的回收,快速回收无效连接

客户端:

#开启TCP连接中TIME-WAIT套接字的快速回收  
net.ipv4.tcp_tw_recycle=1     
  
#开启重用,表示是否允许将处于TIME-WAIT状态的socket(TIME-WAIT的端口)用于新的TCP连接 。  
net.ipv4.tcp_tw_reuse=1       
  
#对于本端断开的socket连接,TCP保持在FIN-WAIT-2状态的时间(秒)。  
#对方可能会断开连接或一直不结束连接或不可预料的进程死亡。  
net.ipv4.tcp_fin_timeout=5      
  
#TCP时间戳(会在TCP包头增加12个字节),以一种比重发超时更精确的方法(参考RFC 1323)  
#来启用对RTT 的计算,为实现更好的性能应该启用这个选项。  
net.ipv4.tcp_timestamps=1    
  
#收缩TIME_WAIT状态socket的回收时间窗口   
net.ipv4.tcp_tw_timeout=3     

一般也就上面这些参数,参考:

短连接导致端口耗尽

linux下TCP/IP及内核参数优化调优(TIME_WAIT)

 

三、socket资源耗尽

注意,是套接字资源耗尽,并不是socket耗尽,资源耗尽是指什么呢?

严格来讲,socket是一个三元组(或者说二元组),一抽象出来的东西因此我觉得不存在socket耗尽的说法,但由于socket本质是一个文件描述符,因此存在文件描述符被耗尽的可能,下面再说

引用下这个总结

Linux系统单机支持的tcp连接数主要受三个方面的限制:

1. 文件描述符的限制 (socket本质上也是一个文件描述符)

2. 系统内存限制

3. Linux内核的限制

参考:linux文件描述符限制和单机最大长连接数

对于上面三点,一一说明一下

文件描述符的限制:在64位的系统上,文件描述符单机可以达到20亿+,因此这个限制基本不用考虑,绝对够用

系统内存限制:一个socket连接大概占用4~10Kb内存,要想单机1百万连接,那么就至少需要大概4G内存。这个用量对于现在的服务器来说还是很轻松就满足的

因此最关键的在于 Linux内核的限制,如果突破了这个限制就会出问题。

Linux对TCP、UPD连接是做了内存限制的,通过以下命令查看

cat /proc/sys/net/ipv4/tcp_mem 
186135	248180	372270
 
cat /proc/sys/net/ipv4/udp_mem
372270	496361	744540

上面的数据 (参考连接)

第一个:low:当TCP使用了低于该值的内存页面数时,TCP不会考虑释放内存。

第二个:pressure:当TCP使用了超过该值的内存页面数量时,TCP试图稳定其内存使用,进入pressure模式,当内存消耗低于low值时则退出pressure状态。

第三个:high:允许所有tcp sockets用于排队缓冲数据报的页面量,当内存占用超过此值,系统拒绝分配socket,后台日志输出“TCP: too many of orphaned sockets” (应该是Out of Socket memory)。

如果超过最大限制,dmesg中会报Out of Socket memory错误,且程序会被杀死

上面的数据单位是页,页大小通过以下命令查看

# getconf PAGESIZE
4096

1 page =4096 byte

计算下得到,在我的电脑上Linux默认TCP连接可使用的内存上限是:1.4GB左右,当然了这个是我笔记本上的参数,服务器上的会更大

可以通过如下图所示命令查看tcp socket使用情况

[]

tcp_mem是设定了所有tcp连接能够使用的内存大小,此外对于单个tcp连接还可以调节一下参数:

rmem_max最大的TCP数据接收缓冲

wmem_max最大的TCP数据发送缓冲

tcp_rmem

tcp_wmem

这几个是tcp读写缓冲区的大小。

echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf
echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf
echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf

对于一般情况来说,上面的操作就已经足够了:保证能提供足够的连接数和足够的内存

但是还应该考虑soconnmax这个参数,这个参数限制了socket接收新 TCP 连接侦听队列的大小,在高并发的请求中,默认的值可能会导致链接超时或者重传。默认是128,挺小的,对于一个经常处理新连接的高负载 web服务环境来说建议调大。

参考:

linux内核调优tcp_max_syn_backlog和somaxconn的区别

理解 Linux backlog/somaxconn 内核参数

随手记之Linux内核Backlog笔记

 

四、回到正题来

dmesg中出现tcp too many orphaned sockets信息是为什么呢?

HTTPDNS服务器中,一般都是一些短连接,因此会产生大量orphan socket

什么是orphan socket?

First of all: what’s an orphan socket? It’s simply a socket that isn’t associated to a file descriptor. For instance, after you close() a socket, you no longer hold a file descriptor to reference it, but it still exists because the kernel has to keep it around for a bit more until TCP is done with it. Because orphan sockets aren’t very useful to applications (since applications can’t interact with them), the kernel is trying to limit the amount of memory consumed by orphans, and it does so by limiting the number of orphans that stick around. If you’re running a frontend web server (or an HTTP load balancer), then you’ll most likely have a sizeable number of orphans, and that’s perfectly normal.

意思就是说:orphan sockets是没有与任何文件描述符关联的socket,当你调用close()关闭一个socket后,你就不再拥有这个socket的引用了,但是它仍然存在与操作系统中,直到TCP完成挥手流程。因为orphan sockets对程序来说没有什么用,因此内核会限制其数量

Linux内核对orphaned sockets也做出了限制,不同的服务器对应的限制数不同

#####  aliyun  #####
# cat /proc/sys/net/ipv4/tcp_max_orphans
65536

# cat /proc/sys/net/ipv4/tcp_max_orphans
32768

# cat /proc/sys/net/ipv4/tcp_max_orphans
16384

# cat /proc/sys/net/ipv4/tcp_max_orphans
4096

#####  vps  #####
# cat /proc/sys/net/ipv4/tcp_max_orphans
2048

要避免这种情况,可以将tcp_max_orphans的值也设大一点,并且建议同时也参照上述2(快速回收无效连接),3(增加TCP socket可使用内存)进行优化

也看到一些建议修改net.ipv4.tcp_orphan_retries参数的

 

 

问题的解决办法

echo "net.ipv4.ip_local_port_range = 1024 65535" >> /etc/sysctl.conf
echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf
echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf
echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf
sysctl -p /etc/sysctl.conf

 

 

本文参考:

结合案例深入解析orphan socket产生与消亡

Linux TCP/IP 协议栈调优

socket、端口、进程的关系

关于 Out of Socket memory 的解释

The "Out of socket memory" error

What does tcp_orphan_retries set to 0 mean

 

 

参考推荐:

Linux 磁盘I/O优化:vm.dirty_ratio

Linux 配置文件 /etc/profile 常见修改

Linux之/etc/profile、~/.bash_profile等几个文件的执行过程

Linux grep awk 命令的正则匹配提取字符串

Linux crond 不执行原因分析

在命令行快速切换目录

Linux/bin,/sbin,/usr/bin,/usr/sbin区别

Linux 系统 /var/log/journal/ 垃圾日志清理

Nginx 使用 cron 和 logrotate 管理日志文件