Pre
高性能网络编程 - 关于单台服务器并发TCP连接数理论值的讨论
问题
一台主机上只能保持最多 65535 个 TCP 连接,正确吗?
先说结论: 这个说法不对,我们分服务器和客户端分开讨论,以下的讨论都基于服务器和客户端都只有 1 个 IP 地址。
分析
操作系统是通过 源 IP 地址、目标 IP 地址、协议号(协议类型)、源端口号以及目标端口号 这五个元素唯一性的识别一个网络上的通信。
我们已经知道网络通信五元组是由过源 IP 地址、目标 IP 地址、协议号(协议类型)、源端口号以及目标端口号构成。现在考察的是 TCP 连接,自然五元组中的协议号已经定下来了,于是网络通信五元组就变化为 TCP 四元组。
那就是说 TCP 连接四元组是由源 IP 地址、源端口、目的 IP 地址和目的端口 构成。
单一IP的服务端
很明显当四元组中任意一个元素发生了改变,那么就代表的是一条完全不同的新连接。拿我们常用的 MySQL 举例,假设它的 IP 是 X,端口 3306。用户 A 基于 IP 地址 A1,端口PA 连接 MySQL ,于是构成了一个 TCP 连接四元组(A1,PA,X,3306)
。
用户 B 基于 IP 地址 B1,端口 PB 连接同一个 MySQL,这个时候 MySQL 需要开启一个新端口来和用户 B 通信吗?从我们日常的开发就可以知道,MySQL 并不需要这么做,所以用户 B 就和 MySQL 构成了一个新的 TCP 连接四元组(B1,PB,X,3306)
。
服务端理论上能达成的最高并发数量是多少?从我们上面的用户 A 和用户 B 构成的 TCP连接四元组:
(A1,PA,X,3306)
(B1,PB,X,3306)
可以看到目的 IP 地址和目的端口(X,3306)
是不变的,这样就只剩下源 IP 地址、源端口是可变的。
- IP 地址是一个 32 位的整数,所以源 IP 最大有 2 的 32 次方这么多个。
- 端口是一个 16 位的整数,所以端口的数量就是 2 的 16 次方。
- 2 的 32 次方(ip 数)× 2的 16 次方(port 数)大约等于两百多万亿。所以理论上,我们每个 server 可以接收的连接上限就是两百多万亿。
当然实际上做不到,目前工程实践中可以达到的连接数在千万级别。基于 Java 的应用程序大概能支持百万级别
单一IP的客户端
“客户端应用程序完全可以不用自己设置端口号,而全权交给操作系统进行分配”,可用的端口号只有 6 万多,从这个角度考虑,客户端最多只能发起 6 万多条 TCP 连接。但其实也不是。
从 TCP 连接四元组来考虑:源 IP 地址、源端口、目的 IP 地址和目的端口,目的 IP 地址和目的端口指的是服务器的 IP 和端口,源 IP 地址、源端口自然就是客户端的。
只要服务器的 IP 或者端口不一样,即使客户端的 IP 和端口是一样的。这个四元组也是属于一条完全不同的新连接 。比如:
- 连接 1:客户端 IP 10000 服务器 IP 10000
- 连接 2:客户端 IP 10000 服务器 IP 20000
虽然客户端的 IP 和端口完全一样,但由于服务器侧的端口不同,所以仍然是两条不同的连接。问题来了, 客户端同一个端口可以连接不同的服务器吗?答案是可以的 。
客户端只要启动时不显示绑定到某个端口上,内核是可以使用一个端口连不同的服务端,内核会自己进行选择并恰当地复用的,而且完全不会产生数据混乱,因为“源 IP 地址、目标 IP 地址、源端口号以及目标端口号就能唯一性确定一个 TCP 连接” 。
那么对客户端来说,四元组里有 3 个可变,自然客户端能同时支持的连接数比服务器还要大得多