美文网首页
Linux网络协议栈8--vxlan

Linux网络协议栈8--vxlan

作者: 苏苏林 | 来源:发表于2020-10-30 17:36 被阅读0次

    本文记录一下vxlan接口内核收发包处理。
    VXLAN(Virtual Extensible LAN, 虚拟局域网扩展)是一种网络虚拟化技术,一种大二层隧道技术,将二层包封装在UDP中来构建虚拟的二层网络。
    设备厂商特别是大厂vxlan的配置和应用场景要丰富和复杂的多,linux上相对简单,在一些SDN网络,如云计算和容器的一些虚拟化网络中经常用到,还有vxlan上相关的一些支持的特性,如arp proxy、l2miss、l3miss、router等还是比较有意思的。

    先介绍一下几个重要的数据结构:

    struct vxlan_net结构每network namespace(net)一个,保存本namespace中vxlan相关信息。用于vxlan的全局查找,存放在net->gen中。

    struct vxlan_net {
        struct list_head  vxlan_list;    // vxlan设备信息,创建vxlan dev(vxlan_newlink)时挂载的vxlan_dev
        struct hlist_head sock_list[PORT_HASH_SIZE];  // vxlan socket信息,vxlan_open创建socket时挂载的vxlan_sock
        spinlock_t    sock_lock;
    };
    
    

    struct vxlan_dev,是vxlan设备的私有数据结构,保存所有的vxlan配置信息,vxlan的fdb表项,vxlan使用的udp sock信息。

    /* Pseudo network device */
    struct vxlan_dev {
        struct vxlan_dev_node hlist4;   /* vni hash table for IPv4 socket */
    #if IS_ENABLED(CONFIG_IPV6)
        struct vxlan_dev_node hlist6;   /* vni hash table for IPv6 socket */
    #endif
        struct list_head  next;     /* vxlan's per namespace list */
        struct vxlan_sock __rcu *vn4_sock;  /* listening socket for IPv4 */
    #if IS_ENABLED(CONFIG_IPV6)
        struct vxlan_sock __rcu *vn6_sock;  /* listening socket for IPv6 */
    #endif
        struct net_device *dev;
        struct net    *net;     /* netns for packet i/o */
        struct vxlan_rdst default_dst;  /* default destination */
        u32       flags;    /* VXLAN_F_* in vxlan.h */
    
        struct timer_list age_timer;
        spinlock_t    hash_lock;
        unsigned int      addrcnt;
        struct gro_cells  gro_cells;
    
        struct vxlan_config cfg;                   // vxlan所有配置数据
    
        struct hlist_head fdb_head[FDB_HASH_SIZE];  // vxlan专门的fdb表项
    };
    
    

    linux的fdb表,是linux用的二层转发表,一般的fdb表表达了某个mac地址的报文从哪个接口送出。而linux为vxlan专门设计的fdb表则多了对vxlan以及其udp tunnel封装方式的表达。
    如下图所示,man bridge命令可以看到bridge fdb add命令专门针对vxlan接口的配置项,解释的很清楚。


    image.png

    如下,我们配置了一个vxlan100,指定了默认的dstport 和 vni,然后又在vxlan上配置了两条fdb表,可以看到可以针对mac地址指定vxlan真正的tunnel封装方式(不同对端),只有在不存在fdb表项的时候才会用静态配置做封装,在SDN网络中非常实用。
    除了静态配置的fdb表项,同bridge一样,vxlan也会做src mac学习生产fdb表。

    #ip link add vxlan100 type vxlan  dstport 8899  vni 100
    // mac为 52:54:00:f7:b4:22的主机的endpoint在172.16.20.12上
    #bridge fdb add 52:54:00:f7:b4:22 dev vxlan100 dst 172.16.20.12
    // mac为 52:54:00:f7:b4:33的主机的endpoint在172.16.20.13上,port和vni分别为9999和200
    #bridge fdb add 52:54:00:f7:b4:33 dev vxlan100 dst 172.16.20.13 port 9999 vni 200
    

    如果在bridge中通过 addif 添加vxlan口,配置fdb表的时候,会在bridge 和vxlan中同时生成fdb表,也就是说bridge中的报文查找bridge的fdb表确认了出接口时vxlan口,进入vxlan_xmit发送,再次查找vxlan的fdb表确认隧道封装。见 rtnl_fdb_add 函数。

    struct vxlan_fdb {
        struct hlist_node hlist;    /* linked list of entries */
        struct rcu_head   rcu;
        unsigned long     updated;  /* jiffies */
        unsigned long     used;
        struct list_head  remotes;                     // 插入的 vxlan_rdst,表示一个对端(的用户)
        u8        eth_addr[ETH_ALEN];       // 表项的mac地址
        u16       state;    /* see ndm_state */
        u8        flags;    /* see ndm_flags */
    };
    // 表示一个vxlan对端(的用户)
    struct vxlan_rdst {
        union vxlan_addr     remote_ip;
        __be16           remote_port;
        __be32           remote_vni;
        u32          remote_ifindex;
        struct list_head     list;
        struct rcu_head      rcu;
        struct dst_cache     dst_cache;
    };
    

    vxlan接口创建流程,同各类型虚拟接口类似,主要完成对net_device及其私有结构的 vxlan_dev的相关初始化。

    static int vxlan_newlink(struct net *src_net, struct net_device *dev,
                 struct nlattr *tb[], struct nlattr *data[])
    {
        // vxlan_config中包含了linux中vxlan支持的所有配置,当然ip link add type vxlan的配置也包含
        struct vxlan_config conf;
    
        memset(&conf, 0, sizeof(conf));
    
        ......
        // 根据配置创建vxlan虚拟接口设备
        return vxlan_dev_configure(src_net, dev, &conf);
    }
    
    
    static int vxlan_dev_configure(struct net *src_net, struct net_device *dev,
                       struct vxlan_config *conf)
    {
        struct vxlan_net *vn = net_generic(src_net, vxlan_net_id);
        struct vxlan_dev *vxlan = netdev_priv(dev), *tmp;
        struct vxlan_rdst *dst = &vxlan->default_dst;
        unsigned short needed_headroom = ETH_HLEN;
        int err;
        bool use_ipv6 = false;
        __be16 default_port = vxlan->cfg.dst_port;
        struct net_device *lowerdev = NULL;
    
        if (conf->flags & VXLAN_F_GPE) {
            /* For now, allow GPE only together with COLLECT_METADATA.
             * This can be relaxed later; in such case, the other side
             * of the PtP link will have to be provided.
             */
            if ((conf->flags & ~VXLAN_F_ALLOWED_GPE) ||
                !(conf->flags & VXLAN_F_COLLECT_METADATA)) {
                pr_info("unsupported combination of extensions\n");
                return -EINVAL;
            }
    
            vxlan_raw_setup(dev);
        } else {
            // 挂载 netdev_ops,指定设备发送函数,open函数等设备处理函数
            vxlan_ether_setup(dev);
        }
    
        // 根据配置,对vxlan的配置和 default_dst做赋值
        vxlan->net = src_net;
    
        dst->remote_vni = conf->vni;
    
        memcpy(&dst->remote_ip, &conf->remote_ip, sizeof(conf->remote_ip));
    
        /* Unless IPv6 is explicitly requested, assume IPv4 */
        if (!dst->remote_ip.sa.sa_family)
            dst->remote_ip.sa.sa_family = AF_INET;
    
        if (dst->remote_ip.sa.sa_family == AF_INET6 ||
            vxlan->cfg.saddr.sa.sa_family == AF_INET6) {
            if (!IS_ENABLED(CONFIG_IPV6))
                return -EPFNOSUPPORT;
            use_ipv6 = true;
            vxlan->flags |= VXLAN_F_IPV6;
        }
    
        if (conf->label && !use_ipv6) {
            pr_info("label only supported in use with IPv6\n");
            return -EINVAL;
        }
        // 本地绑定接口的校验
        if (conf->remote_ifindex) {
            lowerdev = __dev_get_by_index(src_net, conf->remote_ifindex);
            dst->remote_ifindex = conf->remote_ifindex;
    
            if (!lowerdev) {
                pr_info("ifindex %d does not exist\n", dst->remote_ifindex);
                return -ENODEV;
            }
    
    。。。。。
    
            if (!conf->mtu)
                dev->mtu = lowerdev->mtu - (use_ipv6 ? VXLAN6_HEADROOM : VXLAN_HEADROOM);
    
            needed_headroom = lowerdev->hard_header_len;
        } else if (vxlan_addr_multicast(&dst->remote_ip)) {
            pr_info("multicast destination requires interface to be specified\n");
            return -EINVAL;
        }
    
        if (conf->mtu) {
            err = __vxlan_change_mtu(dev, lowerdev, dst, conf->mtu, false);
            if (err)
                return err;
        }
    
        if (use_ipv6 || conf->flags & VXLAN_F_COLLECT_METADATA)
            needed_headroom += VXLAN6_HEADROOM;
        else
            needed_headroom += VXLAN_HEADROOM;
        dev->needed_headroom = needed_headroom;
    
        memcpy(&vxlan->cfg, conf, sizeof(*conf));
        if (!vxlan->cfg.dst_port) {
            if (conf->flags & VXLAN_F_GPE)
                vxlan->cfg.dst_port = htons(4790); /* IANA VXLAN-GPE port */
            else
                vxlan->cfg.dst_port = default_port;
        }
        vxlan->flags |= conf->flags;
    
        if (!vxlan->cfg.age_interval)
            vxlan->cfg.age_interval = FDB_AGE_DEFAULT;
        // vxlan重复性判断,只有dstport+vni+flag,所以即使不同的remote ip,也不能配置相同的dstport+vni
        list_for_each_entry(tmp, &vn->vxlan_list, next) {
            if (tmp->cfg.vni == conf->vni &&
                (tmp->default_dst.remote_ip.sa.sa_family == AF_INET6 ||
                 tmp->cfg.saddr.sa.sa_family == AF_INET6) == use_ipv6 &&
                tmp->cfg.dst_port == vxlan->cfg.dst_port &&
                (tmp->flags & VXLAN_F_RCV_FLAGS) ==
                (vxlan->flags & VXLAN_F_RCV_FLAGS)) {
                pr_info("duplicate VNI %u\n", be32_to_cpu(conf->vni));
                return -EEXIST;
            }
        }
    
        dev->ethtool_ops = &vxlan_ethtool_ops;
    
        /* create an fdb entry for a valid default destination */
        // 配置了有效的remote ip,会默认生成一跳全0mac的fdb表
        if (!vxlan_addr_any(&vxlan->default_dst.remote_ip)) {
            err = vxlan_fdb_create(vxlan, all_zeros_mac,
                           &vxlan->default_dst.remote_ip,
                           NUD_REACHABLE|NUD_PERMANENT,
                           NLM_F_EXCL|NLM_F_CREATE,
                           vxlan->cfg.dst_port,
                           vxlan->default_dst.remote_vni,
                           vxlan->default_dst.remote_ifindex,
                           NTF_SELF);
            if (err)
                return err;
        }
        /* 注册设备,涉及net_device结构的一些初始化、将其插入到本 namespace的全局列表和hash表、
          以及产生广播消息通知其它组件本次设备注册事件。
        */
        err = register_netdevice(dev);
        if (err) {
            vxlan_fdb_delete_default(vxlan);
            return err;
        }
        /* namespace的全局vxlan信息结构 vxlan_net中包含一个vxlan设备信息列表和一个vxlan socket信息累表,
           这里插入vxlan设备vxlan_dev结构,vxlan sock结构在后面vxlan open函数中插入
        */
        list_add(&vxlan->next, &vn->vxlan_list);
    
        return 0;
    }
    

    vxlan open流程,主要创建vxlan udp socket,挂载udp上次协议(vxlan)收包处理函数等。

    
    /* Start ageing timer and join group when device is brought up */
    static int vxlan_open(struct net_device *dev)
    {
        struct vxlan_dev *vxlan = netdev_priv(dev);
        int ret;
    
        ret = vxlan_sock_add(vxlan);
        if (ret < 0)
            return ret;
    
        if (vxlan_addr_multicast(&vxlan->default_dst.remote_ip)) {
            ret = vxlan_igmp_join(vxlan);
            if (ret == -EADDRINUSE)
                ret = 0;
            if (ret) {
                vxlan_sock_release(vxlan);
                return ret;
            }
        }
    
        if (vxlan->cfg.age_interval)
            mod_timer(&vxlan->age_timer, jiffies + FDB_AGE_INTERVAL);
    
        return ret;
    }
    

    创建vxlan udp socket相关流程,主要关注一些数据结构的赋值,特别是,为udp socket(struct sock)挂载了 encap_rcv=vxlan_rcv,sk_user_data = vs用于udp解析为vxlan报文后的vxlan收包处理。

    static int __vxlan_sock_add(struct vxlan_dev *vxlan, bool ipv6)
    {
        struct vxlan_net *vn = net_generic(vxlan->net, vxlan_net_id);
        struct vxlan_sock *vs = NULL;
        struct vxlan_dev_node *node;
        // 非非共享情况下,可能多个vxlan共享一个port,这里会查找一下这个port的socket是否已经创建
        if (!vxlan->cfg.no_share) {
            spin_lock(&vn->sock_lock);
            vs = vxlan_find_sock(vxlan->net, ipv6 ? AF_INET6 : AF_INET,
                         vxlan->cfg.dst_port, vxlan->flags);
            if (vs && !atomic_add_unless(&vs->refcnt, 1, 0)) {
                spin_unlock(&vn->sock_lock);
                return -EBUSY;
            }
            spin_unlock(&vn->sock_lock);
        }
        if (!vs)
            // 新建vxlan socket
            vs = vxlan_socket_create(vxlan->net, ipv6,
                         vxlan->cfg.dst_port, vxlan->flags);
        if (IS_ERR(vs))
            return PTR_ERR(vs);
    #if IS_ENABLED(CONFIG_IPV6)
        if (ipv6) {
            rcu_assign_pointer(vxlan->vn6_sock, vs);
            node = &vxlan->hlist6;
        } else
    #endif
        {
            rcu_assign_pointer(vxlan->vn4_sock, vs);
            node = &vxlan->hlist4;
        }
        /* vxlan->cfg.no_share配置为共享时,一个socket会被多个vxlan共享,
         这里将vxlan私有结构 vxlan_dev 挂到vxlan_sock->vni_list中 */
        vxlan_vs_add_dev(vs, vxlan, node);
        return 0;
    }
    
    
    /* Create new listen socket if needed */
    static struct vxlan_sock *vxlan_socket_create(struct net *net, bool ipv6,
                              __be16 port, u32 flags)
    {
        struct vxlan_net *vn = net_generic(net, vxlan_net_id);
        struct vxlan_sock *vs;
        struct socket *sock;
        unsigned int h;
        struct udp_tunnel_sock_cfg tunnel_cfg;
    
        vs = kzalloc(sizeof(*vs), GFP_KERNEL);
        if (!vs)
            return ERR_PTR(-ENOMEM);
    
        for (h = 0; h < VNI_HASH_SIZE; ++h)
            INIT_HLIST_HEAD(&vs->vni_list[h]);
        // 创建socket结构,只有port
        sock = vxlan_create_sock(net, ipv6, port, flags);
        if (IS_ERR(sock)) {
            pr_info("Cannot bind port %d, err=%ld\n", ntohs(port),
                PTR_ERR(sock));
            kfree(vs);
            return ERR_CAST(sock);
        }
    
        vs->sock = sock;
        atomic_set(&vs->refcnt, 1);
        vs->flags = (flags & VXLAN_F_RCV_FLAGS);
    
        spin_lock(&vn->sock_lock);
        hlist_add_head_rcu(&vs->hlist, vs_head(net, port));
        udp_tunnel_notify_add_rx_port(sock,
                          (vs->flags & VXLAN_F_GPE) ?
                          UDP_TUNNEL_TYPE_VXLAN_GPE :
                          UDP_TUNNEL_TYPE_VXLAN);
        spin_unlock(&vn->sock_lock);
    
        /* Mark socket as an encapsulation socket. */
        // udp vxlan协议的收包处理函数 vxlan_rcv,关联的数据vs
        memset(&tunnel_cfg, 0, sizeof(tunnel_cfg));
        tunnel_cfg.sk_user_data = vs;
        tunnel_cfg.encap_type = 1;
        tunnel_cfg.encap_rcv = vxlan_rcv;
        tunnel_cfg.encap_destroy = NULL;
        tunnel_cfg.gro_receive = vxlan_gro_receive;
        tunnel_cfg.gro_complete = vxlan_gro_complete;
    
        setup_udp_tunnel_sock(net, sock, &tunnel_cfg);
    
        return vs;
    }
    
    vxlan发送流程:

    vxlan_xmit函数的主要逻辑(所有ipv6逻辑忽略),进来的包已经是二层eth包了:
    1、如果vxlan设置了VXLAN_F_COLLECT_METADATA标记,如ip命令创建vxlan时带了external标记,则使用路由中设置的tunnel信息封装vxlan发送。这是一种基于流的轻量级的隧道配置方法。举个例子,下面的配置方法,会直接使用路由中的encap信息encap vxlan tunnel,可以看到这种动态vxlan封装方法和本文开始说的bridge命令配置fdb表的基于mac的封装方法有很大不同,它是基于IP的,记住这个功能:
    ip link add vxlan1 type vxlan dstport 4789 external
    ip route add 10.1.1.1 encap ip id 30001 dst 20.1.1.2 dev vxlan1
    正常情况下skb->_skb_refdst 设置为rtable结构保存了路由信息,这种light weight tunnel,设置了metadata_dst,保存了tunnel的关键参数。

    struct metadata_dst {
        struct dst_entry        dst;
        union {
            struct ip_tunnel_info   tun_info;
        } u;
    };
    

    2、arp proxy功能处理,如果vxlan设置了VXLAN_F_PROXY,且报文是arp request,会查询本地arp表项,代答arp reply,而如果没查找表项,又会涉及另一个功能点,L3MIS,如果vxlan的IFLA_VXLAN_L3MISS已设置,会通过Netlink消息RTM_GETNEIGH [L3MISS NOTIFICATION]通知Linux用户态,用户态进程可以监听这个消息,并下发内核arp表项,下次就能代答成功了;
    这里让我回想起来bridge的arp代答流程,它要求arp表项中的mac地址在bridge中必须有fdb表项,即这个mac地址是可达的才会做arp reply,而vxlan则没有这个处理。

    3、根据报文的mac查询fdb表,如果查到了,会检查是否做route shortcircuit处理,在fdb表项被标记为路由器(NTF_ROUTER),并且vxlan已设置功能IFLA_VXLAN_RSC(路由短路)的情况下,会查找报文的IP地址的ARP表项:
    --如果找到,则使用arp表项的mac地址更新更新报文的dmac,使用报文的dmac更新smac;这样做实际上将自己当成路由器,源端到自己是一跳,自己到目的端是一跳。收到的报文的dmac地址是给自己的,所以自己发出去的smac需要改成报文的dmac。
    --如果未找到,并且已设置功能IFLA_VXLAN_L3MISS,则Linux内核将Netlink通知RTM_GETNEIGH [L3MISS NOTIFICATION]发送到用户态。用户态进程可以监听此[L3MISS通知]并更新Linux内核ARP,下次报文再来就ok了;

    4、如果根据报文的mac未查到fdb表,查询全0 mac的fdb表封装转发,很自然能想到这相当于三层的默认路由,很相似啊。还记得这个表项哪里添加的吗?创建vxlan的时候,如果配置了remote ip,则会创建这条mac全0的fdb表;

    5、如果连mac全0的fdb表都没查到,如果vxlan配置了L2MIS特性,则会最l2MIS处理。则先将RTM_GETNEIGH [L2MISS通知]发送给用户,用户区进程可以侦听此[L2MISS通知]并更新Linux内核转发数据库。这是个很常用的特性,老版本的容器网络方案calico用到过;

    6、无论如何,查找到fdb表,调用vxlan_xmit_one 封装并发送vxlan报文,否则丢弃报文。

    /* Transmit local packets over Vxlan
     *
     * Outer IP header inherits ECN and DF from inner header.
     * Outer UDP destination is the VXLAN assigned port.
     *           source port is based on hash of flow
     */
    static netdev_tx_t vxlan_xmit(struct sk_buff *skb, struct net_device *dev)
    {
        struct vxlan_dev *vxlan = netdev_priv(dev);
        const struct ip_tunnel_info *info;
        struct ethhdr *eth;
        bool did_rsc = false;
        struct vxlan_rdst *rdst, *fdst = NULL;
        struct vxlan_fdb *f;
    
        info = skb_tunnel_info(skb);
    
        skb_reset_mac_header(skb);
        // vxlan轻量级隧道实现,基于流的。
        if (vxlan->flags & VXLAN_F_COLLECT_METADATA) {
            if (info && info->mode & IP_TUNNEL_INFO_TX)
                vxlan_xmit_one(skb, dev, NULL, false);
            else
                kfree_skb(skb);
            return NETDEV_TX_OK;
        }
        // arp proxy功能处理,如果vxlan设置了VXLAN_F_PROXY,且报文是arp request,会查询本地arp表项,代答arp reply,
        // 而如果没查找表项,又会涉及另一个功能点,L3MIS,如果vxlan的IFLA_VXLAN_L3MISS已设置,
        // 会通过Netlink消息RTM_GETNEIGH [L3MISS NOTIFICATION]通知Linux用户态,用户态进程可以监听这个消息,
        // 并下发内核arp表项,下次就能代答成功了。
        if (vxlan->flags & VXLAN_F_PROXY) {
            eth = eth_hdr(skb);
            if (ntohs(eth->h_proto) == ETH_P_ARP)
                return arp_reduce(dev, skb);
    #if IS_ENABLED(CONFIG_IPV6)
    ......
    #endif
        }
    
        eth = eth_hdr(skb);
        // 根据mac找fdb表项
        f = vxlan_find_mac(vxlan, eth->h_dest);
        did_rsc = false;
        /* 这里功能点,叫route shortcircuit,如果fdb表项被标记为路由器(NTF_ROUTER),
        并且vxlan已设置功能IFLA_VXLAN_RSC(路由短路),则会检查报文的IP地址的ARP表项:
        --如果找到,则使用arp表项的mac地址更新更新报文的dmac,使用报文的dmac更新smac;这样做实际上
        将自己当成路由器,源端到自己是一跳,自己到目的端是一跳。
        --如果未找到,并且已设置功能IFLA_VXLAN_L3MISS,则Linux内核将Netlink通知RTM_GETNEIGH [L3MISS NOTIFICATION]
        发送到用户态。用户态进程可以监听此[L3MISS通知]并更新Linux内核ARP,下次报文再来就ok了
        */ 
        if (f && (f->flags & NTF_ROUTER) && (vxlan->flags & VXLAN_F_RSC) &&
            (ntohs(eth->h_proto) == ETH_P_IP ||
             ntohs(eth->h_proto) == ETH_P_IPV6)) {
            did_rsc = route_shortcircuit(dev, skb);
            if (did_rsc)
                f = vxlan_find_mac(vxlan, eth->h_dest);
        }
    
        if (f == NULL) {
            // 未找到包的目标MAC的fdb表,查询全0 mac的fdb表封装转发,很自然能想到这相当于三层的默认路由,
            // 还记得这个表项哪里添加的吗?创建vxlan的时候,如果配置了remote ip,则会创建这条fdb表。
            f = vxlan_find_mac(vxlan, all_zeros_mac);
            if (f == NULL) {
                /* 这是个很常用的特性,老版本的容器网络方案calico用到过,
                如果找不到转发的fdb表项,又配置了L2MIS特性,则先将RTM_GETNEIGH [L2MISS通知]发送给用户,
                用户区进程可以侦听此[L2MISS通知]并更新Linux内核转发数据库。*/
                if ((vxlan->flags & VXLAN_F_L2MISS) &&
                    !is_multicast_ether_addr(eth->h_dest))
                    vxlan_fdb_miss(vxlan, eth->h_dest);
    
                dev->stats.tx_dropped++;
                kfree_skb(skb);
                return NETDEV_TX_OK;
            }
        }
        // 找到了转发表,调用vxlan_xmit_one 函数做封装、发送。
        list_for_each_entry_rcu(rdst, &f->remotes, list) {
            struct sk_buff *skb1;
    
            if (!fdst) {
                fdst = rdst;
                continue;
            }
            skb1 = skb_clone(skb, GFP_ATOMIC);
            if (skb1)
                vxlan_xmit_one(skb1, dev, rdst, did_rsc);
        }
    
        if (fdst)
            vxlan_xmit_one(skb, dev, fdst, did_rsc);
        else
            kfree_skb(skb);
        return NETDEV_TX_OK;
    }
    

    查找到fdb表了,有了封装的所有数据,vxlan_xmit_one根据vxlan_rdst 做vxlan头和UDP Tunnel的封装和报文发送。sport使用按照vxlan配置的范围或者系统默认range分配。封装外层头之前会查询remote ip的路由是否存在,不存在会丢包,在未配置local ip的情况下还会使用route 的sip作为外层sip。
    封装完成后,走ip_local_out 本地发送流程,再入协议栈。

    
    static void vxlan_xmit_one(struct sk_buff *skb, struct net_device *dev,
                   struct vxlan_rdst *rdst, bool did_rsc)
    {
        struct dst_cache *dst_cache;
        struct ip_tunnel_info *info;
        struct vxlan_dev *vxlan = netdev_priv(dev);
        struct sock *sk;
        struct rtable *rt = NULL;
        const struct iphdr *old_iph;
        union vxlan_addr *dst;
        union vxlan_addr remote_ip, local_ip;
        struct vxlan_metadata _md;
        struct vxlan_metadata *md = &_md;
        __be16 src_port = 0, dst_port;
        __be32 vni, label;
        __be16 df = 0;
        __u8 tos, ttl;
        int err;
        u32 flags = vxlan->flags;
        bool udp_sum = false;
        bool xnet = !net_eq(vxlan->net, dev_net(vxlan->dev));
    
        info = skb_tunnel_info(skb);
    
        rcu_read_lock();
        if (rdst) {
            dst_port = rdst->remote_port ? rdst->remote_port : vxlan->cfg.dst_port;
            vni = rdst->remote_vni;
            dst = &rdst->remote_ip;
            local_ip = vxlan->cfg.saddr;
            dst_cache = &rdst->dst_cache;
        } else {
            ......
        }
    
        if (vxlan_addr_any(dst)) {
            if (did_rsc) {
                /* short-circuited back to local bridge */
                vxlan_encap_bypass(skb, vxlan, vxlan);
                goto out_unlock;
            }
            goto drop;
        }
    
        old_iph = ip_hdr(skb);
    
        ttl = vxlan->cfg.ttl;
        if (!ttl && vxlan_addr_multicast(dst))
            ttl = 1;
    
        tos = vxlan->cfg.tos;
        if (tos == 1)
            // 外部ip头将继承内部ip头的Tos,tos==1(一般Tos最低位为0)才会这么做。
            // 好奇专门验证了一下,不知道是有什么讲究还是黑科技。
            tos = ip_tunnel_get_dsfield(old_iph, skb);
    
        label = vxlan->cfg.label;
        // 选UDP的源端口,可以配置指定也可以用系统默认范围
        src_port = udp_flow_src_port(dev_net(dev), skb, vxlan->cfg.port_min,
                         vxlan->cfg.port_max, true);
    
        if (info) {
            ttl = info->key.ttl;
            tos = info->key.tos;
            label = info->key.label;
            udp_sum = !!(info->key.tun_flags & TUNNEL_CSUM);
    
            if (info->options_len)
                md = ip_tunnel_info_opts(info);
        } else {
            md->gbp = skb->mark;
        }
    
        if (dst->sa.sa_family == AF_INET) {
            struct vxlan_sock *sock4 = rcu_dereference(vxlan->vn4_sock);
    
            if (!sock4)
                goto drop;
            sk = sock4->sock->sk;
            // 这里查一遍路由,以检查remote ip地址是否可达,顺便通过路由找到源地址,特别有我们通常配置vxlan的时候不指定local ip,就在这里做了赋值
            rt = vxlan_get_route(vxlan, skb,
                         rdst ? rdst->remote_ifindex : 0, tos,
                         dst->sin.sin_addr.s_addr,
                         &local_ip.sin.sin_addr.s_addr,
                         dst_cache, info);
            if (IS_ERR(rt)) {
                netdev_dbg(dev, "no route to %pI4\n",
                       &dst->sin.sin_addr.s_addr);
                dev->stats.tx_carrier_errors++;
                goto tx_error;
            }
    
            if (rt->dst.dev == dev) {
                netdev_dbg(dev, "circular route to %pI4\n",
                       &dst->sin.sin_addr.s_addr);
                dev->stats.collisions++;
                goto rt_tx_error;
            }
    
            /* Bypass encapsulation if the destination is local */
            if (!info && rt->rt_flags & RTCF_LOCAL &&
                // bypass,忽略            
                。。。
            }
    
            if (!info)
                udp_sum = !(flags & VXLAN_F_UDP_ZERO_CSUM_TX);
            else if (info->key.tun_flags & TUNNEL_DONT_FRAGMENT)
                df = htons(IP_DF);
            // ECN封装,流控的一个特性,工作上正好用过,未继承Tos的情况下也得继承CE标记
            tos = ip_tunnel_ecn_encap(tos, old_iph, skb);
            ttl = ttl ? : ip4_dst_hoplimit(&rt->dst);
            // 封装vxlan头
            err = vxlan_build_skb(skb, &rt->dst, sizeof(struct iphdr),
                          vni, md, flags, udp_sum);
            if (err < 0)
                goto xmit_tx_error;
            // 封装UDP头、外部IP头,最后走ip_local_out,走本地三层发送流程
            udp_tunnel_xmit_skb(rt, sk, skb, local_ip.sin.sin_addr.s_addr,
                        dst->sin.sin_addr.s_addr, tos, ttl, df,
                        src_port, dst_port, xnet, !udp_sum);
    #if IS_ENABLED(CONFIG_IPV6)
        // ipv6 支持,忽略
        ......
    #endif
        }
    ......
    }
    
    
    然后是接收流程:

    vxlan报文,首先是UDP报文,如上面vxlan_open函数中看到的,创建vxlan UDP套接字的时候,为其挂载了encap_rcv==vxlan_rcv,所以在vxlan的UDP报文后,调用vxlan_rcv处理。
    vxlan_rcv整个流程相对简单,根据socket接收的报文和sock,找到vxlan相关的信息,包括vxlan_dev、vxlan_sock,脱去vxlan头,内部一个完整的二层包送入协议栈,重新走一遍2、3、4层协议栈。

    
    /* Callback from net/ipv4/udp.c to receive packets */
    static int vxlan_rcv(struct sock *sk, struct sk_buff *skb)
    {
        struct pcpu_sw_netstats *stats;
        struct vxlan_dev *vxlan;
        struct vxlan_sock *vs;
        struct vxlanhdr unparsed;
        struct vxlan_metadata _md;
        struct vxlan_metadata *md = &_md;
        __be16 protocol = htons(ETH_P_TEB);
        bool raw_proto = false;
        void *oiph;
    
        /* Need UDP and VXLAN header to be present */
        if (!pskb_may_pull(skb, VXLAN_HLEN))
            goto drop;
        // vxlan头,vni+flag
        unparsed = *vxlan_hdr(skb);
        /* VNI flag always required to be set */
        if (!(unparsed.vx_flags & VXLAN_HF_VNI)) {
            netdev_dbg(skb->dev, "invalid vxlan flags=%#x vni=%#x\n",
                   ntohl(vxlan_hdr(skb)->vx_flags),
                   ntohl(vxlan_hdr(skb)->vx_vni));
            /* Return non vxlan pkt */
            goto drop;
        }
        unparsed.vx_flags &= ~VXLAN_HF_VNI;
        unparsed.vx_vni &= ~VXLAN_VNI_MASK;
        // 如vxlan_open流程中提到的,sock中挂载了vxlan_rcv(encap_rcv)和vxlan_sock(sk_user_data)这里提取出来
        vs = rcu_dereference_sk_user_data(sk);
        if (!vs)
            goto drop;
        // 一个port(sock)可能根据vni关联多个vxlan_dev,这里查找到vxlan_dev
        vxlan = vxlan_vs_find_vni(vs, vxlan_vni(vxlan_hdr(skb)->vx_vni));
        if (!vxlan)
            goto drop;
    
        /* For backwards compatibility, only allow reserved fields to be
         * used by VXLAN extensions if explicitly requested.
         */
        if (vs->flags & VXLAN_F_GPE) {
            if (!vxlan_parse_gpe_hdr(&unparsed, &protocol, skb, vs->flags))
                goto drop;
            raw_proto = true;
        }
        // 去掉vxlan头,从eth报文中解析上层协议类型
        if (__iptunnel_pull_header(skb, VXLAN_HLEN, protocol, raw_proto,
                       !net_eq(vxlan->net, dev_net(vxlan->dev))))
                goto drop;
    
        if (vxlan_collect_metadata(vs)) {
            __be32 vni = vxlan_vni(vxlan_hdr(skb)->vx_vni);
            struct metadata_dst *tun_dst;
    
            tun_dst = udp_tun_rx_dst(skb, vxlan_get_sk_family(vs), TUNNEL_KEY,
                         key32_to_tunnel_id(vni), sizeof(*md));
    
            if (!tun_dst)
                goto drop;
    
            md = ip_tunnel_info_opts(&tun_dst->u.tun_info);
    
            skb_dst_set(skb, (struct dst_entry *)tun_dst);
        } else {
            memset(md, 0, sizeof(*md));
        }
    
        if (vs->flags & VXLAN_F_REMCSUM_RX)
            if (!vxlan_remcsum(&unparsed, skb, vs->flags))
                goto drop;
        if (vs->flags & VXLAN_F_GBP)
            vxlan_parse_gbp_hdr(&unparsed, skb, vs->flags, md);
        /* Note that GBP and GPE can never be active together. This is
         * ensured in vxlan_dev_configure.
         */
    
        if (unparsed.vx_flags || unparsed.vx_vni) {
            /* If there are any unprocessed flags remaining treat
             * this as a malformed packet. This behavior diverges from
             * VXLAN RFC (RFC7348) which stipulates that bits in reserved
             * in reserved fields are to be ignored. The approach here
             * maintains compatibility with previous stack code, and also
             * is more robust and provides a little more security in
             * adding extensions to VXLAN.
             */
            goto drop;
        }
    
        if (!raw_proto) {
            // vxlan配置了VXLAN_F_LEARN,则根据eth smac做fdb学习
            if (!vxlan_set_mac(vxlan, vs, skb))
                goto drop;
        } else {
            skb_reset_mac_header(skb);
            skb->dev = vxlan->dev;
            skb->pkt_type = PACKET_HOST;
        }
    
        oiph = skb_network_header(skb);
        skb_reset_network_header(skb);
    
        if (!vxlan_ecn_decapsulate(vs, oiph, skb)) {
            ++vxlan->dev->stats.rx_frame_errors;
            ++vxlan->dev->stats.rx_errors;
            goto drop;
        }
    
        stats = this_cpu_ptr(vxlan->dev->tstats);
        u64_stats_update_begin(&stats->syncp);
        stats->rx_packets++;
        stats->rx_bytes += skb->len;
        u64_stats_update_end(&stats->syncp);
        // 此函数将vxlan内部的eth报文,送入协议栈,eth收包结束
        gro_cells_receive(&vxlan->gro_cells, skb);
        return 0;
    
    drop:
        /* Consume bad packet */
        kfree_skb(skb);
        return 0;
    }
    
    
    static inline int gro_cells_receive(struct gro_cells *gcells, struct sk_buff *skb)
    {
        struct gro_cell *cell;
        struct net_device *dev = skb->dev;
    
        if (!gcells->cells || skb_cloned(skb) || !(dev->features & NETIF_F_GRO))
            // 非NAPI收包处理,虚拟口接收如果需要软中断触发处理一般都这么做。
            return netif_rx(skb);
    
        cell = this_cpu_ptr(gcells->cells);
    
        if (skb_queue_len(&cell->napi_skbs) > netdev_max_backlog) {
            atomic_long_inc(&dev->rx_dropped);
            kfree_skb(skb);
            return NET_RX_DROP;
        }
    
        __skb_queue_tail(&cell->napi_skbs, skb);
        if (skb_queue_len(&cell->napi_skbs) == 1)
            napi_schedule(&cell->napi);
        return NET_RX_SUCCESS;
    }
    
    

    而外补充一个fdb边学习

    static bool vxlan_set_mac(struct vxlan_dev *vxlan,
                  struct vxlan_sock *vs,
                  struct sk_buff *skb)
    {
        union vxlan_addr saddr;
        __be16 sport = udp_hdr(skb)->source;
        __be32 vni = vxlan_vni(vxlan_hdr(skb)->vx_vni)
    
        // 二层头更新为内部二层头
        skb_reset_mac_header(skb);
        skb->protocol = eth_type_trans(skb, vxlan->dev);
        skb_postpull_rcsum(skb, eth_hdr(skb), ETH_HLEN);
    
        /* Ignore packet loops (and multicast echo) */
        if (ether_addr_equal(eth_hdr(skb)->h_source, vxlan->dev->dev_addr))
            return false;
    
        /* vxlan_rcv进入这个函数的时候,network header还是out ip header,
           Get address from the outer IP header */
        if (vxlan_get_sk_family(vs) == AF_INET) {
            saddr.sin.sin_addr.s_addr = ip_hdr(skb)->saddr;
            saddr.sa.sa_family = AF_INET;
    #if IS_ENABLED(CONFIG_IPV6)
        } else {
            saddr.sin6.sin6_addr = ipv6_hdr(skb)->saddr;
            saddr.sa.sa_family = AF_INET6;
    #endif
        }
        // vxlan 默认带有 VXLAN_F_LEARN 标志,上面的流程提取了fdb需要的dst mac、tunnel remote ip、dstport、vni
        // vxlan_snoop 用这些信息学习一条fdb表
        if ((vxlan->flags & VXLAN_F_LEARN) &&
            vxlan_snoop(skb->dev, &saddr, sport, vni, eth_hdr(skb)->h_source))
            return false;
    
        return true;
    }
    
    static bool vxlan_snoop(struct net_device *dev,
                union vxlan_addr *src_ip, __be16 src_port, __be32 vni, const u8 *src_mac)
    {
        struct vxlan_dev *vxlan = netdev_priv(dev);
        struct vxlan_fdb *f;
        // 查找是否存在这条smac的fdb表
        f = vxlan_find_mac(vxlan, src_mac);
        if (likely(f)) {
            struct vxlan_rdst *rdst = first_remote_rcu(f);
            // 存在的情况下,一个mac只能属于一个对端,如果remote_ip不一样,更新表项
            // 理论上需要加上vni判断的,vni区分用户,不同用户mac可以重复
            if (likely(vxlan_addr_equal(&rdst->remote_ip, src_ip)))
                return false;
    
            /* Don't migrate static entries, drop packets */
            if (f->state & NUD_NOARP)
                return true;
    
            if (net_ratelimit())
                netdev_info(dev,
                        "%pM migrated from %pIS to %pIS\n",
                        src_mac, &rdst->remote_ip.sa, &src_ip->sa);
    
            rdst->remote_ip = *src_ip;
            rdst->remote_port = src_port;
            rdst->remote_vni = vni;
            f->updated = jiffies;
            vxlan_fdb_notify(vxlan, f, rdst, RTM_NEWNEIGH);
        } else {
            /* learned new entry */
            spin_lock(&vxlan->hash_lock);
             // 创建一条新fdb表项
            /* close off race between vxlan_flush and incoming packets */
            if (netif_running(dev))
                vxlan_fdb_create(vxlan, src_mac, src_ip,
                         NUD_REACHABLE,
                         NLM_F_EXCL|NLM_F_CREATE,
                         vxlan->dst_port,
                         vxlan->default_dst.remote_vni,
                         0, NTF_SELF);
            spin_unlock(&vxlan->hash_lock);
        }
    
        return false;
    }
    
    
    

    相关文章

      网友评论

          本文标题:Linux网络协议栈8--vxlan

          本文链接:https://www.haomeiwen.com/subject/uyfomktx.html