某天,同事反馈个问题:升级某个网络组件后,server 直接失联了。

看了下事故报告,问题不复杂:

复现

使用 10.0.0.0/8 来复现过于危险了。既然是 ip route,使用 10.x.x.x/32 即可。

ip -4 route show table all | grep -i bpf 检查路由,然后 telnet 10.x.x.x 8080 即可确认。

查看网卡统计:

1
2
# ethtool -S eth1
     tx_errors: 3

业务背景

使用 ip route encap bpf xmit 将本机流量封装一层 VxLAN 发送出去。

出问题的 server 使用的网卡驱动是 ice。

绕过该问题的办法:

1
ethtool -K bond0 tx-checksum-ip-generic off

为什么能绕过?(这里就不展开讲解了)

根因

同事使用 AI 确定问题所在:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
static
int ice_tx_csum(struct ice_tx_buf *first, struct ice_tx_offload_params *off)
{
        ...

        protocol = vlan_get_protocol(skb);

        if (eth_p_mpls(protocol)) {
                ip.hdr = skb_inner_network_header(skb);
                l4.hdr = skb_checksum_start(skb);
        } else {
                ip.hdr = skb_network_header(skb);
                l4.hdr = skb_transport_header(skb);
        }

        ...

AI 直指 l4.hdr = skb_transport_header(skb); 这一行。

我同意 AI 的分析,这一行的确是问题所在。

但根因呢?是这里吗?

不是的,根因在:需要更新而没有更新 skb->transport_header 的地方:ip route encap bpf xmit 那里。

翻看一下同事的 bpf 源代码,发现使用的是 bpf_lwt_push_encap() helper;接着翻看该 helper 的源代码,确认根因:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
// net/core/lwt_bpf.c

int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
{
        ...

        /* push the encap headers and fix pointers */
        skb_reset_inner_headers(skb);
        skb_reset_inner_mac_header(skb);  /* mac header is not yet set */
        skb_set_inner_protocol(skb, skb->protocol);
        skb->encapsulation = 1;
        skb_push(skb, len);
        if (ingress)
                skb_postpush_rcsum(skb, iph, len);
        skb_reset_network_header(skb);
        // Set the transport header for UDP tunnels  <-------- BUG
        memcpy(skb_network_header(skb), hdr, len);
        bpf_compute_data_pointers(skb);
        ...

        return 0;
}

就是这里没有更新 skb->transport_header

修复

既然已确认根因所在,直接向上游提交 patch 给修了:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
diff --git a/net/core/lwt_bpf.c b/net/core/lwt_bpf.c
index f71ef82a5f3d..bf588f508b79 100644
--- a/net/core/lwt_bpf.c
+++ b/net/core/lwt_bpf.c
@@ -599,6 +599,7 @@ static int handle_gso_encap(struct sk_buff *skb, bool ipv4, int encap_len)

 int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
 {
+        bool is_udp_tunnel;
         struct iphdr *iph;
         bool ipv4;
         int err;
@@ -612,10 +613,16 @@ int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
                 ipv4 = true;
                 if (unlikely(len < iph->ihl * 4))
                         return -EINVAL;
+                is_udp_tunnel = iph->protocol == IPPROTO_UDP;
+                if (unlikely(is_udp_tunnel && len < iph->ihl * 4 + sizeof(struct udphdr)))
+                        return -EINVAL;
         } else if (iph->version == 6) {
                 ipv4 = false;
                 if (unlikely(len < sizeof(struct ipv6hdr)))
                         return -EINVAL;
+                is_udp_tunnel = ((struct ipv6hdr *)iph)->nexthdr == NEXTHDR_UDP;
+                if (unlikely(is_udp_tunnel && len < sizeof(struct ipv6hdr) + sizeof(struct udphdr)))
+                        return -EINVAL;
         } else {
                 return -EINVAL;
         }
@@ -637,6 +644,11 @@ int bpf_lwt_push_ip_encap(struct sk_buff *skb, void *hdr, u32 len, bool ingress)
         if (ingress)
                 skb_postpush_rcsum(skb, iph, len);
         skb_reset_network_header(skb);
+        if (is_udp_tunnel) {
+                size_t iph_sz = ipv4 ? iph->ihl * 4 : sizeof(struct ipv6hdr);
+
+                skb_set_transport_header(skb, skb_network_offset(skb) + iph_sz);
+        }
         memcpy(skb_network_header(skb), hdr, len);
         bpf_compute_data_pointers(skb);
         skb_clear_hash(skb);

使用 Intel 网卡实际测试,确认问题已修复。

小结

AI 能帮助发生问题的地方;如果想要进一步分析根因,还需要让 AI 深挖一下。

当然,凭借经验,能比 AI 更快地定位出根因。