某天,同事反馈个问题:升级某个网络组件后,server 直接失联了。
看了下事故报告,问题不复杂:

复现
使用 10.0.0.0/8 来复现过于危险了。既然是 ip route,使用 10.x.x.x/32 即可。
ip -4 route show table all | grep -i bpf 检查路由,然后 telnet 10.x.x.x 8080 即可确认。
查看网卡统计:
1
2
|
# ethtool -S eth1
tx_errors: 3
|
业务背景
使用 ip route encap bpf xmit 将本机流量封装一层 VxLAN 发送出去。
出问题的 server 使用的网卡驱动是 ice。
绕过该问题的办法:
1
|
ethtool -K bond0 tx-checksum-ip-generic off
|
为什么能绕过?(这里就不展开讲解了)
根因
同事使用 AI 确定问题所在:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
static
int ice_tx_csum(struct ice_tx_buf *first, struct ice_tx_offload_params *off)
{
...
protocol = vlan_get_protocol(skb);
if (eth_p_mpls(protocol)) {
ip.hdr = skb_inner_network_header(skb);
l4.hdr = skb_checksum_start(skb);
} else {
ip.hdr = skb_network_header(skb);
l4.hdr = skb_transport_header(skb);
}
...
|
AI 直指 l4.hdr = skb_transport_header(skb); 这一行。
我同意 AI 的分析,这一行的确是问题所在。
但根因呢?是这里吗?
不是的,根因在:需要更新而没有更新 skb->transport_header 的地方:ip route encap bpf xmit 那里。
翻看一下同事的 bpf 源代码,发现使用的是 bpf_lwt_push_encap() helper;接着翻看该 helper 的源代码,确认根因:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
// net/core/lwt_bpf.c
int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
{
...
/* push the encap headers and fix pointers */
skb_reset_inner_headers(skb);
skb_reset_inner_mac_header(skb); /* mac header is not yet set */
skb_set_inner_protocol(skb, skb->protocol);
skb->encapsulation = 1;
skb_push(skb, len);
if (ingress)
skb_postpush_rcsum(skb, iph, len);
skb_reset_network_header(skb);
// Set the transport header for UDP tunnels <-------- BUG
memcpy(skb_network_header(skb), hdr, len);
bpf_compute_data_pointers(skb);
...
return 0;
}
|
就是这里没有更新 skb->transport_header。
修复
既然已确认根因所在,直接向上游提交 patch 给修了:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
|
diff --git a/net/core/lwt_bpf.c b/net/core/lwt_bpf.c
index f71ef82a5f3d..bf588f508b79 100644
--- a/net/core/lwt_bpf.c
+++ b/net/core/lwt_bpf.c
@@ -599,6 +599,7 @@ static int handle_gso_encap(struct sk_buff *skb, bool ipv4, int encap_len)
int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
{
+ bool is_udp_tunnel;
struct iphdr *iph;
bool ipv4;
int err;
@@ -612,10 +613,16 @@ int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
ipv4 = true;
if (unlikely(len < iph->ihl * 4))
return -EINVAL;
+ is_udp_tunnel = iph->protocol == IPPROTO_UDP;
+ if (unlikely(is_udp_tunnel && len < iph->ihl * 4 + sizeof(struct udphdr)))
+ return -EINVAL;
} else if (iph->version == 6) {
ipv4 = false;
if (unlikely(len < sizeof(struct ipv6hdr)))
return -EINVAL;
+ is_udp_tunnel = ((struct ipv6hdr *)iph)->nexthdr == NEXTHDR_UDP;
+ if (unlikely(is_udp_tunnel && len < sizeof(struct ipv6hdr) + sizeof(struct udphdr)))
+ return -EINVAL;
} else {
return -EINVAL;
}
@@ -637,6 +644,11 @@ int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
if (ingress)
skb_postpush_rcsum(skb, iph, len);
skb_reset_network_header(skb);
+ if (is_udp_tunnel) {
+ size_t iph_sz = ipv4 ? iph->ihl * 4 : sizeof(struct ipv6hdr);
+
+ skb_set_transport_header(skb, skb_network_offset(skb) + iph_sz);
+ }
memcpy(skb_network_header(skb), hdr, len);
bpf_compute_data_pointers(skb);
skb_clear_hash(skb);
|
使用 Intel 网卡实际测试,确认问题已修复。
小结
AI 能帮助发生问题的地方;如果想要进一步分析根因,还需要让 AI 深挖一下。
当然,凭借经验,能比 AI 更快地定位出根因。