国产智能网卡如何应对DPU兴起?17位行业专家解读技术方向与挑战
作者:芯东西 高歌
9月25日,中国智能网卡研讨会在北京召开,来自英伟达、芯启源、中国移动、阿里云、腾讯云、奥工科技、迈普等厂商的17位资深专家、工程师分享了他们在智能网卡领域的思考和取得的技术突破。
会议上,工信部科技委专职常委、中国通信学会信息网络技术专业委员会主任委员赵慧玲谈道,随着智能网卡应用的普及,也带来了很多挑战。本次会议无论是电信运营商、互联网运营商、设备制造商、网卡开发商,还是用户,都可以相互交流,就技术发展方向和挑战进行交流。
今天的中国智能网卡研讨会吸引了芯片厂商、网卡供应商、运营商等不同环节的行业参与者。据芯东西了解,也有不少其他厂商专程来参加这次会议,在了解行业动向的同时,寻求合作机会。
一、中国移动:智能网卡解决两大行业痛点,标准化将成关键
中国移动研究院数据中心网络项目经理王瑞雪从电信运营商角度分享了移动在数据中心网络所面临的挑战。
近年来,伴随4G、5G时代来临,中国移动的云化业务越来越多,应用的激增使数据中心流量以每年25%的速度增长,网络带宽不断增长。但后摩尔定律时代下,CPU计算能力增速慢于网络传输速率增速,且差距持续增大。
以24核计算型服务器为例,其CPU利用率仅有70%,网络功能占用6个核,虚拟化功能占到1-2个核。当网卡升级到100G时,CPU算力资源基本被占用,影响了工作效率。
由于虚拟化技术演进,运营商逐渐实现了资源池内计算网络存储的虚拟化。但随着业务规模的扩大,其虚拟化消耗越来越大,如何降低虚拟化的损耗成为了行业的痛点。
因此,中国移动将网络存储、操作系统中一些不适合CPU做的功能放在交换芯片上来做。具体来说,智能网卡主要的应用场景有5个,分别为网络、存储功能卸载;DPDK、SPDK和RDMA等技术集成;针对特定业务逻辑进行硬件加速;解决裸金属存储网络的安全隐患;业务端到端网络可视化。
王瑞雪称,5G引入后,边缘计算开始蓬勃发展,运营商网络正在从自动化向智能化演进,从聚焦业务快速发放向数据高效处理、网络高效运维转变。
对于运营商来说,其采用的网络功能基本都是标准化的,智能网卡目前产业标准化相对并没有那么成熟,对运营商造成了一定的解耦压力。如何实现解耦标准化工作,将是运营商落地智能网卡时的重点。
二、芯启源:2018年启动第一代智能网卡研发,解决方案覆盖硬件到软件
芯启源智能网卡产品总监张远超则带来了芯启源在DPU和智能网卡领域的技术创新和解决方案。
南京DPU芯片创企芯启源成立于2015年。第二年,芯启源收购了美满Marvell TCAM项目并落户南京。
芯启源产品主要分为“5G+IDC”和“EDA+IP”两个部分。其中,智能网卡是芯启源在“5G+IDC”领域的重要产品。据张远超分享,芯启源可以提供DPU芯片、智能网卡、标准驱动、行业软件、编程SDK等从硬件到软件的完整架构。
随着SDN、NFV和网络安全等诸多方向的发展,行业迫切需要软硬件的融合和更加高效灵活的网络来释放CPU算力。
2018年,芯启源启动了第一代智能网卡SmartNIC项目研发,支持OVS数据面卸载;两年后,芯启源开发部推出了Corigine DPU,采用全可编程DPU芯片,支持丰富的数据面、控制面卸载和虚拟化支持。目前,芯启源已和中国移动合作成立了移动联合实验室,并获得了中国移动的第一个智能网卡订单。
三、阿里云:高性能网络挑战在于时延
阿里云网络架构师张彭城重点分享了阿里云在高性能网络领域的探索和实践。
从2013年起,阿里云就开始搭建Network企业级网络架构。在2017年之前,阿里云在这一领域开始推动架构标准化、规模化和网络虚拟化的演进。2017年后,阿里云做了超大规模架构,并通过自主软硬件研发,实现了数据中心网络架构的自主可控。
在这个过程中,阿里云发现,高性能网络的挑战就在于时延。最近这一两年,阿里最近开始探索总线+网络的扩展方向。一方面总线网络的特点在于性能较好,但是扩展性较差。如果将其放入网络中,则扩展性较好、但性能较差。
因此阿里云在这一领域问出了3个问题,希望能够和其他厂商合作完成回答。第一个是融合后采用了什么协议,是PCIE/CXL还是Ethernet?第二个是用什么样的硬件载体来承载这样的技术?第三个来说,Fat-tree网络架构是否还适用于总线+网络的模式?
四、奥工科技:高带宽、低延迟、智能化为数据中心发展趋势
计算方案服务商奥工科技的资深工程师张翼飞则主要分析了各种高性能计算平台的特点和优势。
高性能计算网络大致分为3类,第一类是集群管理网络和硬件平台监控网络,第二个是存储网络,第三类为用于高性能计算的计算网络。常见的以太网、FC网络就分别是第一类和第二类高性能计算网络。
计算网络则是三类中最重要的一种,InfiniBand具有高带宽、低延时的网络特性,常常被用于计算节点的数据交互和数据传输。
因为数据中心的发展,网络在数据中心的地位越来越重要,英特尔、英伟达都在这一领域有所布局。在存储领域,分布式存储越来越成熟,而分布式存储需要依赖于复杂、高带宽、稳定性强的网络,进一步促进了网络技术发展。此外,GPU也是一个重要的高性能计算场景,InfiniBand网络加上英伟达的GPU能够帮助整个集群实现多级多卡业务运行。
张翼飞提到在网络带宽、延时的不断优化下,奥工科技正在尝试将分布式存储用于高性能计算场景上。未来,技术发展,高性能计算、大数据分析、人工智能等平台对于网络要求会越来越复杂。数据中心网络会趋于高带宽、低延迟、智能化的发展趋势。
五、腾讯云:银杉智能网卡将于今年年末上线,实现三大技术突破
腾讯云智能网卡研发负责人任凯重点分享了腾讯云智能网卡的应用。任凯称,腾讯云智能网卡有4个应用场景比较典型。
第一个是客户自建KVM云游戏框架,客户可以采用虚拟化VDI云桌面模板快速生产不同规模的虚拟机,按照应用灵活部署。第二个是通过物理机部署办公云桌面集群,可以解决企业自己部署虚拟云桌面的需求。第三个是音视频RTP业务,该业务对网络处理能力要求比较高,腾讯云通过硬件卸载的方式提升网络性能,以满足业务场景。最后一个是云原生容器化场景,腾讯云可提供容器化调度物理机能力,以降低成本,提升性能。
任凯预计,FPGA+SoC解决方案在200Gbps时,将碰到芯片面积的物理上限和单卡功耗上限。这也促使不少FPGA厂商转向FPGA+ASIC的混合方案。但这一方案的长期演进风险较高,值得警惕。
腾讯在2020年研发了第一代自研智能网卡“水杉”。第二代银杉智能网卡正在研发中,预计在今年末上线。第三代智能网卡还在项目构建阶段,预计于2023年上线。
在腾讯云自研智能网卡的过程中,实现了一些技术突破。分别为软硬协同热迁移、弹性网卡/云盘密度和网络性能。
3个技术突破中用到的关键技术有自研vDPA技术、Net/Blk全场景支持、硬件自定义标脏、自研软硬件协同、资源池化管理和CQ聚合技术、自研VirtIO_net硬件后端核心IP、自研vSwitch Fastpath硬件卸载和自研vSwitch offload高度软硬协同的硬件驱动层等。
六、迈普:2大产品针对算力和安全问题
网络产品及解决方案供应商迈普的规划部总经理雷晓龙也发表了演讲,其演讲主题为国产智能网卡在信创云场景的应用。
他指出,近几年,行业主流已认可信创产业是新基建、产业数字化转型发展的基石,国资云这个概念更是反复出现在行业视野中。
迈普认为,在这一领域中,有3个问题最为直观和重要。第一个是算力问题,目前信创CPU算力和非国产的x86体系有一定差距。第二个是安全问题,信创本身要解决供应链安全、信息安全等,其对于业务和数据安全的诉求是最高的。第三个则是信创的适配问题,其产业成熟度有待于进一步完善,信创体系兼容性有待进一步提升。
针对这些问题,迈普着重推出了2个针对性产品。一个是弹性裸金属智能网卡,另一个是安全增强型网卡。
其中弹性裸金属智能网卡基于FPGA和飞腾CPU架构,资源消耗降低了50%,主要针对裸金属自动部署和业务卸载。安全增强型网卡则是以国产ASIC/FPGA芯片为核心,内置可重构处理器技术。
七、天翼云:智能网卡产品已在虚拟化、GPU场景测试
中国电信旗下天翼云的智能网卡处于内测阶段。天翼云高级工程师、硬件加速器负责人孙晓宁重点回顾了其产品的创建和发展过程。
2020年,中国电信在工作会上确立云改数转战略,以自身的数字化转型,推动全社会数字化转型。为此,中国电信提出了新建系统100%上云,存量系统三年上云的目标,希望从根本降本增效,助推企业数字化转型。
在数据中心流量不断加大的情况下,中国电信天翼云推出了基于ASIC架构的智能网卡。在网络加速方面,其采用了RoCE v2技术、vxlan隧道技术和ovs ct功能。
孙晓宁称,天翼云智能网卡产品目前已经在虚拟化场景、GPU场景应用测试,之后将把虚拟化技术应用到ASIC和FPGA架构上。
八、英伟达:DPU让3U一体成为现实
芯片厂商英伟达的网络亚太区市场开发高级总监宋庆春则强调,传统的冯诺依曼架构已经不适应当前的数据中心要求。
当数据在CPU和GPU间的通信延迟超过1微秒时,再怎样以传统网络思维提升带宽、降低延迟也不能使延迟低于1微秒。
英伟达认为,应当建立以数据为中心的新型计算架构,如果数据需要用CPU处理,就应当放在CPU上;如果数据需要GPU处理,它就放在GPU上。
为此,英伟达提出了DPU这个概念,这并非意味着把DPU用来处理CPU原来做的事。DPU正确的使用方法应当是通过面向不同的加速引擎对不同的操作做卸载,再通过CPU或是其他处理器来做控制平面的卸载或是网络写作,让CPU卸载的工作依赖于专业处理器,进行数据加速。
英伟达的BlueField-2 DPU包括数据加解密引擎等很多加速引擎,可以在不使用CPU核的情况下进行数据加解密。此外,BlueField-2还包含Arm CPU、专用网络芯片和处理其余任务的加速芯片。
而客户通过英伟达的DOCA软件,可以轻松地构建BlueField生态系统。英伟达建立了DOCA开发社区,用户可以在里面完整看到DOCA的指导文件、参考应用举例和各种编译工具等。
宋庆春还给出了BlueField-2 DPU的IPsec TCP性能。理想情况下,如果想要达到90G的加解密速度,需要消耗60个CPU核。相比之下,10个DPU核就可以处理90G的带宽。他指出,通过DPU,数据中心可以将CPU、GPU、DPU捏合成一个标准架构,不论是单一芯片还是数据中心都可以达到统一架构,这就是DPU的价值所在。
结语:上下游厂商助力智能网卡规范化
在数据量级呈指数增长的今天,DPU概念一出,立马吸引了众多国际巨头、创企进入。如何降低虚拟化资源损耗,提升网络带宽和时延成为了智能网卡、芯片厂商的终极谜题。
本次研讨会上,来自上下游的厂商都给出了自己的思考和疑问,相信在产业链的共同努力下,这一新兴赛道将在标准化和规范化上取得进展。