首页>资讯 > 聚焦资讯 > 正文

环球消息!破解AIGC背后的算网瓶颈,锐捷网络率先推出“智速DDC”产品

来源:互联网    2023-04-27 11:38:26

一时间,我们仿佛回到了20多年前那个互联网兴起的时代。近来,随着GPT-4、百度文心一言等大语言模型竞相登场,一场由ChatGPT点燃的AIGC浪潮正悄然掀起一场重塑数字内容生产方式的科技革命。

但你有没有想过,随着AIGC应用加速渗入到各行各业,不断推动参数量更大、迭代时间更长的AI大模型演进,这背后除了对算力需求持续提升,更对AI集群的网络通信性能提出了更加严苛的要求。

那面对AIGC拉开变革序幕,作为“幕后英雄”的AI集群网络,如何与时代的潮流一同跃进?


(资料图片)

AIGC背后的AI集群网络瓶颈

为什么高性能的AI集群网络通信对于AIGC应用非常重要?对于以ChatGPT为代表的AIGC应用,背后起关键作用的是大语言模型,其由深度学习神经网络对海量数据进行训练,需要大量的训练样本和模型参数,对算力要求极高。以GPT-3为例,训练数据集是超过45TB的互联网文本,参数规模达1750亿;为训练如此复杂的神经网络,据报道GPT-3在微软Azure AI超算基础设施(由1万块V100 GPU组成的高宽带集群)上进行训练,总算力消耗约 3640 PF-days(即每秒一千万亿次计算,运行3640天)。

显而易见, AI大模型算力消耗惊人,单一计算设备已远远无法满足模型训练的算力需求。为提供强大的算力,提升训练速度,利用AI集群进行分布式深度学习训练已成为首选。然而,尽管分布式训练通过多个GPU节点并行训练,可减轻各个计算节点的压力,但不同节点之间需频繁地同步模型参数,会产生网络通信开销,让网络通信性能成为制约系统性能的新瓶颈。且随着AIGC应用快速发展,模型参数数量不断跃升,神经网络越来越复杂,AI集群的GPU节点数持续增加,瓶颈将越来越突出。

比如,分布式深度学习训练的并行方式主要分为数据并行和模型并行,在数据并行模式中,深度神经网络模型被复制到每一个GPU节点,训练数据被分散分配到不同的GPU节点,每轮迭代后都要通过All-Reduce操作同步和汇总各个GPU节点在本地产生的梯度,以更新全局模型参数,供下轮迭代使用。在这个过程中,不管是拉取数据样本还是GPU节点间进行模型参数同步,都需要高性能、低时延的网络为基石。一旦网络性能不佳,就会影响分布式训练的质量和速度。

按GPT-3在由1万块V100 GPU组成的高宽带集群上进行分布式训练计算,如下表,若GPU利用率为100%,训练时间需26天。若GPU利用率为33%,训练时间则需要78天。可见,GPU利用率是影响AI大模型训练速度的主要因素。而影响GPU利用率的关键因素之一就是网络通信效率。

ChatGPT算力和训练时间表

究竟哪些因素决定了网络通信效率?主要包括节点间通信带宽、节点内通信带宽、交换设备转发时延、端处理时延、内部排队时延和丢包重传时延。

影响AI集群网络通信效率的因素

其中,节点间通信带宽、节点内通信带宽、交换设备转发时延这三个因素取决于硬件性能,端处理时延取决于网络协议选择,而内部排队时延和丢包重传时延由网络拥塞导致,受网络优化和技术选择的影响。因此,抛开硬件性能的限制,针对端处理时延、内部排队时延和丢包重传时延三大动态因素优化网络拥塞和时延,是提升AI集群网络通信性能最具成本效益的方法。

传统HPC组网面临诸多挑战

针对影响AI集群网络通信性能的动态因素,业界已采用RoCE v2网络协议、PFC和ECN机制、ECMP等关键技术来进行HPC组网。但在实际应用中,这些技术都不同程度地暴露出不少问题。而随着AIGC应用持续升温, AI大模型训练的算力需求持续提升,这些问题将越来越突出,提升网络通信性能的迫切性也越来越高。

为提升分布式训练速度,当前的分布式深度学习训练系统通常采用RDMA(远程直接内存访问)技术,其具有内核旁路、零拷贝的优点,可绕过操作系统内核,直接在内存间传送数据,从而能大幅提升系统吞吐量,降低通信时延。

RDMA技术最早用于IB(Infiniband)组网,以通过构建无损网络实现HPC高性能计算集群的互联。不过,由于IB组网采用专有网络协议栈,存在技术封闭、兼容性低、单一厂商垄断等问题。为此,业界将RDMA技术移植到以太网上,推出了基于以太网的RoCE(RDMA over Converged Ethernet)协议,并将之演进到RoCE v2版本,从而推动了RDMA技术普及。

为实现无损以太网,基于RoCE v2网络协议的网络方案定义了PFC和ECN两大必选机制,以消除网络拥塞,确保数据不丢包。PFC能够逐跳提供基于优先级的流量控制,缓解网络拥塞,规避丢包。ECN可消除网络拥塞,最大限度减少PFC反压。但在多级PFC组网下,当网络中出现大量PFC反压帧时,会诱发网络死锁(PFC DeadLock),严重时会导致整个网络阻塞。ECN毕竟依靠降速发送来实现,会降低通信带宽,对GPU利用率产生较大影响,进而拉低整个网络的算力。

同时数据中心网络中通常使用的ECMP(等价多路径)路由策略也不是最理想的负载均衡方案,其将数据流分发到多条路径上并行转发到同一目的地地址,以充分利用网络中大量冗余路径,实现流量均衡分配和链路备份,但对于多条大象流(字节数大的数据流)可能会造成Hash路径上的数据流碰撞,从而导致一些ECMP成员链路拥塞,而另一些链路相对空闲的情况。

对此,海外有部分互联网公司寄希望于利用采用DNX芯片支持VOQ技术的框式交换机来解决负载不均衡带来的带宽利用率低的问题。但问题又来了,传统框式交换设备将接口板卡、交换板卡、控制引擎等软硬件集成于一个物理机框中,插槽、端口数量受限于机框大小,导致转发容量有限,如果想做更大规模的集群,需横向扩展多个机框,不仅存在扩容成本高、运维成本高等挑战,而且会产生多级PFC和ECMP链路。

锐捷网络率先推出“智速DDC”高性能网络方案

面对以上挑战,锐捷网络推出了业界领先的“智速DDC”高性能网络方案,并计划于今年推出两款可交付产品,分别是400G NCP交换机和200G NCF交换机,为AIGC打通“任督二脉”。

锐捷网络NCP和NCF产品

DDC(Distributed Disaggregated Chassis,分布式分散式机箱)是一种分布式解耦机框设备的解决方案,它将传统软硬一体的框式设备的组件进行拆解,以NCP替代传统框式设备的线卡板,以NCF替代交换网板,并通过光纤互联替代原先两者之间的连接器组件;传统框式设备的控制管理引擎也独立出来,可以以软件化的方式灵活部署于任何一台标准服务器或多台服务器,能有效节省部署成本,提升系统冗余性和可靠性。

DDC产品连接方式示意图

DDC方案突破了传统框式设备的资源限制,让大规模组网化繁为简,不仅具有扩展弹性、扩容升级快、单机功耗低、运维管理效率高等特点,可灵活支持AI集群大规模部署,而且具有集群路由设计简单、数据转发方式更优化等优势,能有效提升网络通信性能。

在支持AI集群超大规模部署方面,在单POD组网中,采用96台NCP作为接入,其中NCP下行共18个400G接口,负责连接AI计算集群的网卡。上行共40个200G接口最大可以连接40台NCF,NCF提供96个200G接口,该规模上下行带宽为超速比1.1:1。整个POD可支撑1728个400G网络接口,按照一台服务器配8块GPU来计算,可支撑216台AI计算服务器。

单POD组网架构图

在多级POD组网中,可以实现基于POD的按需建设。考虑该场景POD中NCF设备要牺牲一半的SerDes用于连接第二级的NCF,单POD采用48台NCP作为接入,下行共18个400G接口,单POD内可以支撑864个400G接口。通过横向增加POD实现规模扩容,整体最大可支撑6912个400G网络端口。

多级POD组网架构图

NCP上行40个200G接POD内40台NCF,POD内NCF采用48个200G接口下行,48个200G接口分为12个一组上行到第二级的NCF。第二级NCF采用40个平面,每个平面4台的设计,分别对应在POD内的40台NCF。整个网络的POD内实现了超速比1.1:1,而在POD和二级NCF之间实现了1:1的收敛比。

在网络通信性能提升方面,DDC基于VOQ+Cell机制,首先在发送端将从网络中接收的数据包分类到VOQs中存储,在发送数据之间会先通过Credit申请询问接收端是否有足够的缓存空间,如果没有就先在发送端的VOQ中暂存,如果有则将数据包分割成等大小的、更细粒度的Cells,并根据reachability table中cell destination的查询和采用轮询机制,均匀地在不同链路上将Cells转发到接收端进行重组和存储,再将数据包转发到网络中。从技术实现原理可见,VoQ+Cell机制实现了端到端流量调度,可充分利用缓存大幅减少丢包,且解决了ECMP策略下流量负载不均衡的问题,能有效提升宽带利用率。

VOQ+Cell机制下的数据转发流程

同时,在DDC架构下,所有NCP和NCF可以看成一台设备,整个DDC集群内仅需单跳转发,路由设计极其简单,不仅可大幅提升路由收敛速度,易于运维管理,而且不会像传统网络那样产生多级PFC的压制与死锁。

使用OpenMPI测试套件对框式设备(框式设备和DDC原理相同,本次采用框式测试)和传统组网设备进行对比模拟测试,结果显示,在All-to-All场景下,相较于传统组网,框式设备带宽利用率提升约20%(对应GPU利用率提升8%左右)。

后记

面对业务负载激增,更具扩展性、更易运维管理、更具成本效益的分布式解耦机框方案已成为全球各大网络设备厂商、运营商和研究机构共同积极探索的技术。但一直以来,能推出可交付产品的厂商在全球范围内寥寥无几。

究其原因,其背后有较多的技术挑战需要攻关。比如,虽然DDC架构由多台NCP、NCF和NCC设备组成,但逻辑上还是一台设备,要求原先基于一台物理设备配置的所有地址表项、端口等在分布式架构中依然能保持唯一性和一致性,这需突破软件设计层面的挑战。再比如,传统一体化框式设备的接口板和交换板组件连接于单一背板,通过高速连接器互联,物理距离短,时延低;而采用DDC架构后,两者被拆解为通过光纤线缆拉远连接的NCP和NCF盒式设备,物理距离更远,且引入信元级交换后对时延要求更高,因此,如何保持低时延交换能力同样是一大挑战。

锐捷网络今年能率先推出完整的可交付“智能DDC”产品,无疑折射出其在网络设备领域的深厚实力,更重要的是,此举也给行业带来积极的带头示范意义,有望推动业界加速探索和开发更高品质、更高可靠性的计算网络方案和产品,持续为AIGC飞速发展打下坚实的基石。

关键词:

环球消息!破解AIGC背后的算网瓶颈,锐捷网络率先推出“智速DDC”产品

一时间,我们仿佛回到了20多年前那个互联网兴起的时代。近来,随着GPT-4、百度文心一言等大语言模型竞相登

五一沪上潮玩预告——《航海王卡牌对战》百联ZX特别活动

五一沪上潮玩预告——《航海王卡牌对战》百联ZX特别活动

《仙剑世界》实机PV首曝!登陆iOS/安卓/PC平台_观点

仙剑奇侠传开放世界手游《仙剑世界》实机PV公开,登陆iOS 安卓 PC平台。技术性测试现已开启招募。

信用卡失信人员有什么后果?不还信用卡会坐牢吗?

信用卡失信人员有什么后果?【1】如果用户只是信用卡逾期还款导致的失信行为,这种情况是会对用户的征信造成不良影响的,征信报告上会存在信

信用卡长期不还会有什么后果?信用卡逾期多久算不良?

信用卡长期不还会有什么后果?1、产生逾期利息、违约金等费用:信用卡逾期从刷卡当日开始计算利息,一般是万分之五的日息,按月计算复利;违

无人接盘!这家银行股价再跌30%,今年已跌95%,几乎一文不值!

第一共和银行股价仍在暴跌,监管机构、大型银行和潜在竞购者都不愿出手帮助这家银行。继周二下跌近50%,周

新资讯:津门十景图片 津门十景

今天来聊聊关于津门十景图片,津门十景的文章,现在就为大家来简单介绍下津门十景图片,津门十景,希望对各

天天快资讯:太和水4月27日快速上涨

以下是太和水在北京时间4月27日11:13分盘口异动快照:4月27日,太和水盘中快速上涨,5分钟内涨幅超过2%,截

信用卡逾期不按时还款后果是什么?信用卡未出账单可以提前还款吗?

信用卡逾期不按时还款后果是什么?1、产生不良信用记录;2、利息:按每天万分之五计算;3、滞纳金:一般为最低还款额未还部分的5%计算(具体视

每日快看:女子曲棍球国际邀请赛:辽宁队获得季军

4月26日,辽宁队球员在比赛结束后庆祝获胜。

通讯!伦晚脐橙出货量占比提高 秭归脐橙指数整体偏强运行

其中,秭归红肉脐橙电商销售均价报10 80元 公斤,环比下跌2 25%;而秭归伦晚脐橙电商销售均价报12 33元 公

信用卡欠1万还不起会有哪些后果?信用卡欠一万多逾期要怎么协商?

信用卡欠1万还不起会有哪些后果?1、信用卡不还钱会产生逾期违约金和利息;2、信用卡不还钱会在个人征信报告上有记录,影响个人信用,给以后

最新山西师范大学请假条在哪儿(七篇)

人的记忆力会随着岁月的流逝而衰退,写作可以弥补记忆的不足,将曾经的人生经历和感悟记录下来,也便于保存

信用卡逾期有哪些不良的后果?信用卡停息挂账的后果是什么?

信用卡逾期有哪些不良的后果?1、逾期会收高额利息用户使用信用卡透支以后,一般有20多天到50多天不等的免息还款期。持卡人如果在这个免息还

天天亮点!中国亚太保险公司排名多少位_亚太保险公司官方网站

1、简介:亚太财产保险有限公司2016年3月1日在北京召开更名发布会。2、经过几个月运作,亚太财险正式退却原

成都哪里医院可以看严重抑郁症状的「成都正规的抑郁症医院排名名」 每日快播

成都哪里医院可以看严重抑郁症状的?抑郁症一般看精神心理科医院,抑郁症是一种常见的心理疾病,给患者带来

中国中铁4月27日盘中涨幅达5%

以下是中国中铁在北京时间4月27日10:51分盘口异动快照:4月27日,中国中铁盘中涨幅达5%,截至10点51分,报8

“五一”国际车展明日至5月3日在梅江会展中心举办 车展,这些地方能停车|世界视讯

2023第十一届天津梅江“五一”国际车展于明日至5月3日在梅江会展中心举办,为方便群众驾车前往参观,梅江会

美媒:伊万卡解雇与兄弟共聘律师 正式与父兄“分道扬镳”|今热点

海外网4月27日电据《美国新闻周刊》网站26日报道,在纽约总检察长对特朗普家族提起的欺诈诉讼中,特朗普之

自动驾驶发展的5个关键挑战(白皮书下载)_世界微动态

 报告《弥合差距,加速实现互联自动驾驶》 为您详解权威调查,揭示汽车厂商实现全自动驾驶需要突破的五大

从“小”地摊看“大”营商 世界视点

【一线见闻】光明日报记者鲁元珍光明日报通讯员孙智蒲“两份冰汤圆,一份要招牌的,一份要原味的。”周六,

兴齐眼药一季度扣非净利润下滑79%;康方生物启动AK112头对头替雷利珠的研究

4月26日,兴齐眼药发布2023年一季度财报。报告期内,公司收入2 86亿元,同比下滑5 1%;扣非净利润1556万元

国家统计局:3月份工业企业利润降幅收窄

央广网北京4月27日消息4月27日,国家统计局发布了2023年3月工业经济效益月度报告。数据显示,2023年1—3月

山西以标准化建设提升冶金工贸企业安全生产水平 动态

人民网太原4月24日电(记者麻潞)日前,山西省应急管理厅制定出台《山西省冶金工贸企业安全生产标准化建设

《中国青年:我和我的青春》定档5月1日 点赞热血青春

4月26日,网络电影《中国青年:我和我的青春》举办“着色青春润芳华”定档发布会,该片将于5月1日同步上线

国家统计局工业司统计师孙晓:装备制造业利润明显改善 世界讯息

App4月27日消息,国家统计局工业司统计师孙晓解读3月工业企业利润数据称,3月份,装备制造业营业收入同比由

福奇反思美国抗疫不力原因:三年内110万人死于新冠 背后有两大错误

美国政府前首席医疗顾问安东尼·福奇资料图海外网4月27日电据美国有线电视新闻网4月26日报道,美国政府前首

四级报名网入口2023 全球百事通

四级报名网入口2023由CET考试栏目提供,查找更多考试报名资讯、准考证打印、成绩查询或四级报名网入口2023请

信用卡逾期太久有什么后果?长时间不接信用卡催收电话会怎么样?

信用卡逾期太久有什么后果?1、产生逾期利息、违约金等费用:信用卡逾期从刷卡当日开始计算利息,一般是万分之五的日息,按月计算复利;违约

焦点热讯:鹤壁市通报三起党员干部和公职人员酒驾醉驾典型问题

五一、端午节假将至,为进一步严明纪律要求,发挥警示作用,持续引导广大党员干部和公职人员增强纪法意识,

综合资讯

+更多

热点资讯

+更多
股票价格上涨是什么决定的?股票突然拉升是怎么回事?
股票价格上涨是什么决定的?股票价格上涨主要是由供求关系决定的,就跟买菜一样,买菜的人多了但是供给的菜不足,菜价必然上升;当人们对菜的 [详细]

Copyright @ 2008-2020  www.43710.com   All Right Reserved Powered by 财经情报网 版权所有

财经情报网   联系邮箱:562 66 29@qq.com

网站备案:沪ICP备2020036824号-12