|   1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
 | // net/netfilter/xt_TPROXY.c
static struct xt_target tproxy_tg_reg[] __read_mostly = {
	...
	{
		.name		= "TPROXY",
		.family		= NFPROTO_IPV4,  // 只支持 IPv4
		.table		= "mangle",      // 只能在 mangle 表里使用
		.target		= tproxy_tg4_v1, // -j TPROXY 的实现
		.revision	= 1,
		...
	},
	...
};
static unsigned int
tproxy_tg4_v1(struct sk_buff *skb, const struct xt_action_param *par)
{
	const struct xt_tproxy_target_info_v1 *tgi = par->targinfo;
	return tproxy_tg4(xt_net(par), skb, tgi->laddr.ip, tgi->lport,
			  tgi->mark_mask, tgi->mark_value); // 从结构体中取出 IP 地址、本地端口、mark 的掩码和值
}
static unsigned int
tproxy_tg4(struct net *net, struct sk_buff *skb, __be32 laddr, __be16 lport,
	   u_int32_t mark_mask, u_int32_t mark_value)
{
	const struct iphdr *iph = ip_hdr(skb);
	struct udphdr _hdr, *hp;
	struct sock *sk;
	// 获取四层的头部信息
	hp = skb_header_pointer(skb, ip_hdrlen(skb), sizeof(_hdr), &_hdr);
	if (hp == NULL)
		return NF_DROP;
	// 检查是否存在已经建立好的 socket
	sk = nf_tproxy_get_sock_v4(net, skb, iph->protocol,
				   iph->saddr, iph->daddr, // 使用真实的目的地址
				   hp->source, hp->dest,   // 使用真实的目的端口
				   skb->dev, NF_TPROXY_LOOKUP_ESTABLISHED);
	laddr = nf_tproxy_laddr4(skb, laddr, iph->daddr);
	if (!lport)
		lport = hp->dest;
	// 默认是 tcp socket
	if (sk && sk->sk_state == TCP_TIME_WAIT)
		// 复用处于 TIME_WAIT 状态的 socket
		// 如果是 SYN 包,则不复用该 socket
		sk = nf_tproxy_handle_time_wait4(net, skb, laddr, lport, sk);
	else if (!sk)
		// 没有建立好的 socket,查找监听重定向地址/端口的 listener
		sk = nf_tproxy_get_sock_v4(net, skb, iph->protocol,
					   iph->saddr, laddr, // 使用 --on-ip 指定的目的地址
					   hp->source, lport, // 使用 --on-port 指定的目的端口
					   skb->dev, NF_TPROXY_LOOKUP_LISTENER);
	if (sk && nf_tproxy_sk_is_transparent(sk)) {
		// 给 skb 打 mark
		skb->mark = (skb->mark & ~mark_mask) ^ mark_value;
		pr_debug("redirecting: proto %hhu %pI4:%hu -> %pI4:%hu, mark: %x\n",
			 iph->protocol, &iph->daddr, ntohs(hp->dest),
			 &laddr, ntohs(lport), skb->mark);
		nf_tproxy_assign_sock(skb, sk); // 消耗一个 socket 引用
		return NF_ACCEPT;
	}
	pr_debug("no socket, dropping: proto %hhu %pI4:%hu -> %pI4:%hu, mark: %x\n",
		 iph->protocol, &iph->saddr, ntohs(hp->source),
		 &iph->daddr, ntohs(hp->dest), skb->mark);
	return NF_DROP;
}
// net/ipv4/netfilter/nf_tproxy_ipv4.c
struct sock *
nf_tproxy_get_sock_v4(struct net *net, struct sk_buff *skb,
		      const u8 protocol,
		      const __be32 saddr, const __be32 daddr,
		      const __be16 sport, const __be16 dport,
		      const struct net_device *in,
		      const enum nf_tproxy_lookup_t lookup_type)
{
	struct sock *sk;
	switch (protocol) {
	case IPPROTO_TCP: {
		struct tcphdr _hdr, *hp;
		hp = skb_header_pointer(skb, ip_hdrlen(skb),
					sizeof(struct tcphdr), &_hdr);
		if (hp == NULL)
			return NULL;
		switch (lookup_type) {
		case NF_TPROXY_LOOKUP_LISTENER:
			// 查找 listener
			sk = inet_lookup_listener(net, &tcp_hashinfo, skb,
						    ip_hdrlen(skb) +
						      __tcp_hdrlen(hp),
						    saddr, sport,
						    daddr, dport,
						    in->ifindex, 0);
			if (sk && !refcount_inc_not_zero(&sk->sk_refcnt))
				sk = NULL;
			/* NOTE: we return listeners even if bound to
			 * 0.0.0.0, those are filtered out in
			 * xt_socket, since xt_TPROXY needs 0 bound
			 * listeners too
			 */
			break;
		case NF_TPROXY_LOOKUP_ESTABLISHED:
			// 查找已经建立好的 socket
			sk = inet_lookup_established(net, &tcp_hashinfo,
						    saddr, sport, daddr, dport,
						    in->ifindex);
			break;
		default:
			BUG();
		}
		break;
		}
	case IPPROTO_UDP:
		...
		break;
	default:
		WARN_ON(1);
		sk = NULL;
	}
	pr_debug("tproxy socket lookup: proto %u %08x:%u -> %08x:%u, lookup type: %d, sock %p\n",
		 protocol, ntohl(saddr), ntohs(sport), ntohl(daddr), ntohs(dport), lookup_type, sk);
	return sk;
}
// nf_tproxy_laddr4 如果 `--on-ip` 指定了地址,则使用该地址;否则使用 skb 进来的网卡的地址。
// 因为已经经过策略路由将 skb 重定向到了某张网卡,所以此时使用的就是该网卡的地址。
// 譬如 ip route add local default dev lo scope host table 100,则使用网卡 lo 的地址。
__be32 nf_tproxy_laddr4(struct sk_buff *skb, __be32 user_laddr, __be32 daddr)
{
	const struct in_ifaddr *ifa;
	struct in_device *indev;
	__be32 laddr;
	if (user_laddr)
		return user_laddr;
	laddr = 0;
	indev = __in_dev_get_rcu(skb->dev);
	in_dev_for_each_ifa_rcu(ifa, indev) {
		if (ifa->ifa_flags & IFA_F_SECONDARY)
			continue;
		laddr = ifa->ifa_local;
		break;
	}
	return laddr ? laddr : daddr;
}
struct sock *
nf_tproxy_handle_time_wait4(struct net *net, struct sk_buff *skb,
			 __be32 laddr, __be16 lport, struct sock *sk)
{
	const struct iphdr *iph = ip_hdr(skb);
	struct tcphdr _hdr, *hp;
	hp = skb_header_pointer(skb, ip_hdrlen(skb), sizeof(_hdr), &_hdr);
	...
	if (hp->syn && !hp->rst && !hp->ack && !hp->fin) {
		// 如果是将 SYN 包发给 TIME_WAIT socket,不如将 SYN 包发给 listener
		struct sock *sk2;
		sk2 = nf_tproxy_get_sock_v4(net, skb, iph->protocol,
					    iph->saddr, laddr ? laddr : iph->daddr,
					    hp->source, lport ? lport : hp->dest,
					    skb->dev, NF_TPROXY_LOOKUP_LISTENER);
		if (sk2) {
			sk = sk2;
		}
	}
	return sk;
}
// include/net/netfilter/nf_proxy.h
static inline bool nf_tproxy_sk_is_transparent(struct sock *sk)
{
	if (inet_sk_transparent(sk))
		return true;
	sock_gen_put(sk);
	return false;
}
// include/net/tcp.h
// 检查 socket 是否设置了 IP_TRANSPARENT 选项
static inline bool inet_sk_transparent(const struct sock *sk)
{
	switch (sk->sk_state) {
	case TCP_TIME_WAIT:
		return inet_twsk(sk)->tw_transparent;
	case TCP_NEW_SYN_RECV:
		return inet_rsk(inet_reqsk(sk))->no_srccheck;
	}
	return inet_sk(sk)->transparent; // 读取 struct inet_sock.transparent 属性
}
 |