刚完毕的2025天下东谈主工智能大会暨东谈主工智能寰球料理高等别会议(WAIC)上,华为展台展出一整面昇腾384超节点的“墙”。记者看到开云体育,不停有不雅众与之合影。
超节点(SuperPod)成为本届WAIC的热门。除了华为,WAIC期间,上海仪电还合伙曦智科技、壁仞科技、中兴通讯发布国内首个光互连光交换GPU超节点光跃LightSphere X,新华三推出H3C UniPoD S80000超节点,超聚变也展出了超节点决议。业内东谈主士展望这波超节点热度会延续下去。
超节点是一种冒昧大算力集群芯片协同问题的决议。通过整划算力芯片资源,在一个超节点内构建低延长、高带宽的算力实体,让单个超节点尽可能地面开释算力,幸免芯片闲隙,提高算力诓骗成果,复古千亿乃至万亿参数模子的检察和推理。
即即是在单颗算力芯片制程受限的情况下,超节点本事也能让集群性能不绝擢升。壁仞科技OCS超节点式样磋商负责东谈主董朝锋告诉记者,在国内,作念超节点也曾是个彰着的趋势,跟着算力集群迈入“万卡协同”期间,探讨改日算力的构建范式演进相等紧迫。
超节点为什么火了?
从千卡集群到万卡集群、十万卡集群,算力芯片集群越来越大,是因为大模子越来越大,参数目也曾迈向万亿。要怎样作念好算力复古,业内不得不念念考这个问题。
英伟达是较早布局超节点本事的代表厂商。英伟达GB300 NVLink72不错将72个GPU和36个CPU整合到单一平台。近期在布局超节点的国内厂商则包括AI芯片厂商和行状器厂商。
有芯片业内东谈主士向记者例如,一个万亿参数模子检察可能是这么的:马虎估算需要1万张GPU,但为了具备容错智商,要有卓著1万张GPU。此外,要具备多个超节点,每个超节点内有几十张GPU,超节点里面也有冗余、容错智商,包括秒级容错和分钟级故障规复智商、调理智商。调理智商是指将万亿参数模子的检察散布到每个GPU上作念并行计议。
在这个万卡算力芯片集群中,超节点是一个很中枢的办法。董朝锋告诉记者,若是单机8卡不错跑一个70亿参数的模子,当模子参数达到千亿、万亿,就需要更多GPU行状器。然则,传统AI行状器的scale out(横向拓展)互连由于线性度相干会导致算力性能的亏本。在莫得超节点的情况下,机柜之间由于线性度的影响会有算力性能亏本,导致“1+1”无法等于“2”。但若是有超节点,则能保证单个节点内的性能最优。
有从业者告诉记者,若是莫得超节点,一个机箱单机8卡,只可作念到每2卡之间的带宽、通讯延长一致。董朝锋告诉记者,超节点有两条道路,一是scale out横向拓展,二是scale up纵向拓展。纵向拓展即在一个节点内尽可能多地加多GPU,例如一个千卡集群中,每64卡是一个超节点,在这个超节点中,不错作念到卡间、机间的通讯带宽、通讯基本一致。
超节点本事中,光互连是主流宗旨之一,属于光通讯规模。光互连有全光交换、全光互连、光互连电交换道路。业内东谈主士告诉记者,与光互连电交换比拟,光互连光交换不错依托于光芯片,将电交换智商报复成光交换智商,光的切换是纳秒级,因此不错生动切换拓扑且带宽较高。光通讯可保证集群与集群之间高带宽、低延长。
这次上海仪电合伙曦智科技、壁仞科技、中兴通讯发布的超节点决议就采用散布式光互连光交换本事,该决议使用曦智科技的光互连光交换芯片和壁仞科技的GPU液冷模组,搭载中兴通讯的AI行状器。新华三推出的超节点居品则基于以太公约和PCIe公约,可适用多种算力芯片,适用万亿级参数大模子检察和推理。此外,WAIC上展出的华为昇腾384超节点可通过总线本事完毕384个NPU(神经收罗处理器)之间的大带宽低时延互连。
超节点在国内越来越受到关爱,其背后,是因为超节点本事成为擢升芯片制程以外,另一条能提高芯片集群性能的旅途。跟着摩尔定律靠近“失灵”风险,激动芯片制程演进的难度增大,擢升单颗芯片的计议性能靠近挑战,业界需要寻找新的行径来不绝擢升算力。
董朝锋告诉记者,在芯片擢升制程以外,超节点本事是能让集群性能擢升的行径之一。短期内,国产AI芯片在制程工艺上与天下顶尖水平存在客不雅差距,国内厂商不错通过超节点决议部署更大规模的芯片集群来弥补单点性能的不及,以量补质,也能通过超节点本事让集群性能不绝擢升。其中光芯片也不错不依赖于高制程。
有业内东谈主士告诉记者,英伟达的互连决议相对阻塞,自有GPU、配套软硬件,国内一些厂商则在作念绽开生态。相较英伟达全套自研的道路,国内还莫得雷同英伟达这么成系统的本事体系。近期国内许多厂商包括行状器厂商皆在现实超节点,各家道路各不统调解样,还需要时期来阐述本事优劣。总体而言,国内光通讯本事在寰球比较最初,与外洋先进水平比拟莫得彰着代差。
冒昧阛阓竞争
本年国产芯片在AI行状器中的占比已在擢升。TrendForce集邦贪图数据暴露,旧年国内AI行状器芯片中,外购部分(包括英伟达、AMD)所占阛阓份额为63%。该机构最新展望,外购部分本年的占比将降至49%。
即便如斯,外洋芯片厂商仍喜爱中国阛阓。英伟达CEO黄仁勋在本月早些时候暗意,英伟达将推露面向中国阛阓的全新GPU。
除了通过互连本事优化擢升芯片集群的成果,国内芯片厂商在芯片想象、阛阓计谋上也在寻找行径,冒昧阛阓竞争。
墨芯东谈主工智能这次在WAIC上展出了S40等计议卡。该公司磋商负责东谈主告诉记者,与英伟达的竞争不成只在居品质能高下功夫,还不错采用间接竞争的计谋。英伟达的GPU是通用型GPU,可用于检察和推理,不会针对一些垂直行业成心作出调动,但国产芯片不错有一些调动。该公司的居品针对推理作念了优化,纠合面向AI推理场景,例如旯旮计议一体机,在特定场景下不错有更快计议速率和更低功耗。
上述公司磋商负责东谈主告诉记者,许多芯片厂商主要面向浩繁计议需求,该公司则采用软硬件联结的计谋,在软件算法上采用稀疏计议本事。与浩繁计议的卡不同,面向稀疏计议的卡对制程的条目不高,不错采用12nm制程。现在公司的居品比较适用于特定场景的小模子运算,后续将推出的新址品则界说为广义稀疏的居品,适用于大模子计议。
其他一些国产芯片厂商也逃匿了与外洋AI芯片巨头的平直竞争。
云天励飞不异聘请了AI推理场景。该公司在WAIC期间晓示将全面聚焦AI芯片,改日将要点围绕旯旮计议、云表大模子推理和具身智能界限布局。云天励飞董事长兼CEO陈宁暗意,云侧推理更多磋商多用户并行情况下的芯片硬件采购资本、集群电费等运营资本,旯旮计议则对芯片硬件采购资本更明锐,且更正经芯片与场景联结时的灵验算力。他判断,以AI大模子和各样AI算法、推理芯片为中枢的AI本事,将在改日五年从头界说东谈主类系数的电子居品。
后摩智能近日则推出新一代芯片,面向端边场景。该公司新一代端边大模子AI芯片后摩漫界M50在INT8精度下的算力为160TOPS,在bFP16精度下的算力为100TFLOPS。现在该公司的芯单方面向平板、PC等消耗结尾,以及智能语音会议系统、运营商旯旮计议场景。该公司还采用存算一体本事,责罚传统芯片数据传输慢、功耗较高的问题。
后摩智能独创东谈主、CEO吴强暗意,定位端边大模子计议,一定进度上逃匿了和巨头竞争高壁垒居品和已固化的阛阓,此外,还不错推崇存算一体本事的上风,在新兴的AI PC、智能语音征战、具身智能等新兴赛谈找到位置。
举报 第一财经告白互助,请点击这里此实质为第一财经原创,文章权归第一财经系数。未经第一财经籍面授权,不得以任何风物加以使用,包括转载、摘编、复制或开发镜像。第一财经保留淡雅侵权者法律连累的职权。如需得到授权请磋商第一财经版权部:banquan@yicai.com 文章作家
郑栩彤
磋商阅读
披发6亿元算力券,披发3亿元模子券,披发1亿元语料券。
124 07-28 18:45
国内首个光互连光交换GPU超节点发布
58 07-28 16:21
①《寰球东谈主工智能改进指数陈说2025》发布;②我国大模子数目居寰球首位;③AI投资定约讲求竖立,聚焦AI界限投资。
54 07-27 21:32
①国产具身大模子初度得到汽车制造全场景考证;②2025寰球东谈主工智能本事大会在杭举办;③广西在AI本事研发与应用界限获紧迫蹧蹋。
101 06-08 20:28
长三角先进制造业集群定约本日揭牌竖立
30 06-07 11:03 一财最热 点击关闭