11_UDP和TCP

约 3509 字大约 12 分钟

2026-04-17

UDP 没有重传机制，不代表基于 UDP 的“程序”不能重传。很多现代协议（例如谷歌推出的 QUIC，也就是 HTTP/3 的基础）虽然底层使用 UDP，但它们在应用层自己编写了一套重传逻辑： • 序列号：程序给每个包加个编号。 • 确认机制：接收方告诉发送方哪些编号收到了。 • 超时重传：如果发送方发现某个编号好久没回音，就手动再发一次。

总结 • 在传输层：是的，丢了就彻底丢了。 • 在应用层：如果业务需要（比如 DNS 查询或文件传输），程序员会自己写代码来确保数据完整性。

丢包通常发生在三个环节：线路上、内核里、程序中。

1.线路问题（运营商/硬件）链路拥塞：跨国链路（如你之前提到的巴西或美国线路）在高峰期会有严重的丢包。

2.操作系统接收缓冲区满了（最常见） UDP 报文到达网卡后会进入内核缓冲区。如果你的程序处理速度跟不上，缓冲区填满后，后续的包会被内核直接丢弃。

防火墙与安全策略 • UDP Flood 限制：很多云厂商或机房防火墙（甚至服务器自身的 iptables/firewalld）有针对 UDP 的频率限制（Rate Limiting）。如果你的 UDP 流量突然增大，会被识别为攻击并丢弃。

比如说我在工作中就遇到过因为硬盘IO不足，引发过丢包的问题

TX 和 missed 解释

TX（Transmit = 发送）

就是这台机器向外发出去的流量。你的业务是向客户端推送数据（TX:RX = 35:1），所以带宽瓶颈在 TX 方向。

TX 卡在 8Gbps 的平线 = 发送带宽被限住了

missed

这是网卡硬件层面的计数器，表示：网卡收到了包，但来不及交给内核处理，包被丢了。

但注意，在你这个场景下，missed 是 RX（接收）方向的指标。你的限速发生在 TX（发送）方向，所以单看 missed 不能直接证明限速。

日常的工作中总算是进步到要对网络协议有更加深入了解的时候了，多的也不说，就单说 TCP 、UDP、ICMP 协议

以最近在处理的越南FPT --> VNPT的机器之间 TCP重传率很高为例

在分析丢包问题的时候，首先要明确的就是数据包在整个通信的过程中会经过哪些节点，然后我们通过一些测试命令、工作经验、和不同链路的工程师沟通，最终解决丢包的问题，有时候处理这种问题的时候就像是侦探在解密一样

mtr 是最好用的工具，同时看路由 + 丢包 + 延迟

mtr -zbn --report --report-cycles 60 113.185.87.1

抓取和这个网段之间的 TCP 流量，重点看重传

tcpdump -i eth0 -w /tmp/retrans_113.pcap
'net 113.185.87.0/24 and tcp'

排查的脚本:

#!/bin/bash

tcp_diag.sh — TCP 丢包一键诊断

用法: ./tcp_diag.sh [目标IP或网段]

TARGET=" ${1:-}" IFACE="$ {2:-$(ip route | awk '/default/{print $5; exit}')}"

echo "" echo " TCP 丢包诊断报告 $(date)" echo " 网卡: $IFACE 目标: ${TARGET:-全量}" echo ""

── 1. 重传率（10s 采样）──────────────────────

echo -e "\n[1] TCP 重传率（10s 窗口）" read_snmp() { awk '/^Tcp: [0-9]/{print $13, $11}' /proc/net/snmp } read r1 o1 < <(read_snmp); sleep 10; read r2 o2 < <(read_snmp) awk -v r1=$ r1 -v o1= $o1 -v r2=$ r2 -v o2=$o2 'BEGIN{ dr=r2-r1; do_=o2-o1 printf " RetransSegs Δ=%-6d OutSegs Δ=%-8d 重传率=%.4f%%\n", dr, do_, (do_>0 ? 100.0*dr/do_ : 0) }'

── 2. 网卡错误 ───────────────────────────────

echo -e "\n[2] 网卡物理层错误 ($IFACE)" ethtool -S $IFACE 2>/dev/null |
grep -Ei 'err|drop|discard|fifo|crc|miss|overflow' |
awk '$2>0{printf " %-40s %d\n", $1, $2}' | head -20 ip -s -s link show $IFACE | grep -A2 "RX:"

── 3. 软中断 / softnet ───────────────────────

echo -e "\n[3] 软中断 Dropped / Time_squeeze" awk 'NR<=8{ dropped=strtonum("0x"$2) squeezed=strtonum("0x"$3) if(dropped>0||squeezed>0) printf " CPU%-2d dropped=%-8d time_squeeze=%d\n", NR-1, dropped, squeezed }' /proc/net/softnet_stat

── 4. 协议栈关键 counter ─────────────────────

echo -e "\n[4] 内核协议栈丢包 counter" nstat -az 2>/dev/null | awk ' /ListenOver|ListenDrop|BacklogDrop|PruneCalled|RcvPruned| OfoPruned|TimeWait|SynRetrans|ReasmFail|ConntrackFull/{ if($2>0) printf " %-35s %d\n", $1, $2 }'

fallback

── 5. Conntrack 使用率 ───────────────────────

echo -e "\n[5] Conntrack 表使用率" ct_cur= $(cat /proc/sys/net/netfilter/nf_conntrack_count 2>/dev/null || echo 0) ct_max=$ (cat /proc/sys/net/netfilter/nf_conntrack_max 2>/dev/null || echo 1) pct=$((ct_cur * 100 / ct_max)) echo " $ct_cur / $ct_max ($ {pct}%)" [ $pct -gt 80 ] && echo " ⚠️ WARNING: conntrack 使用率超 80%，高风险丢包"

── 6. Accept Queue 溢出 ──────────────────────

echo -e "\n[6] Listen 状态 socket（Recv-Q > 0 说明 accept queue 积压）" ss -lnt | awk 'NR==1||$2>0{print " "$0}'

── 7. SYN 重传（连接建立失败）────────────────

echo -e "\n[7] SYN 重传数" grep TCPSynRetrans /proc/net/netstat 2>/dev/null |
awk 'NR==2{print " TCPSynRetrans:", $NF}'

── 8. 热点连接（Send-Q 积压）────────────────

echo -e "\n[8] Send-Q 积压的连接（发送拥塞）" ss -tn state established | awk '$2>0{print " "$0}' | head -10

── 9. 针对目标网段（如果指定了）────────────

  echo -e "\n[10] mtr 路由追踪（10次，后台运行，结果写 /tmp/mtr_$$.txt）"
  mtr -zbn --report --report-cycles 10 $(echo $TARGET | cut -d/ -f1) \
      > /tmp/mtr_$$.txt 2>&1 &
  echo "  PID $!  结果: /tmp/mtr_$$.txt"

── 10. 综合判断 ──────────────────────────────

echo -e "\n============================================" echo " 初步判断" echo "============================================"

读协议栈关键值做简单决策

listen_drop=$(nstat -az 2>/dev/null | awk '/ListenDrop/{print $2}') prune=$ (nstat -az 2>/dev/null | awk '/PruneCalled/{print $2}') syn_retrans=$ (grep TCPSynRetrans /proc/net/netstat 2>/dev/null | awk 'NR==2{print $NF}')

[ " ${listen_drop:-0}" -gt 0 ] && \ echo " ⚠️ ListenDrop>0 → accept queue 满，应用处理慢或 somaxconn 太小" [ "$ {prune:-0}" -gt 0 ] &&
echo " ⚠️ PruneCalled>0 → socket buffer 不足，考虑调大 tcp_rmem" [ "${syn_retrans:-0}" -gt 100 ] &&
echo " ⚠️ SYN重传>100 → 存在连接建立失败，检查 backlog 或上游链路" [ $pct -gt 80 ] &&
echo " ⚠️ Conntrack 高水位，NAT/防火墙环境下会静默丢包"

echo " ℹ️ 若以上均正常 → 问题大概率在上游链路（运营商/IDC对端）" echo ""