(华为副董事长、轮值董事长徐直军,图源:华为)
21世纪经济报道记者倪雨晴 上海报道
在华为全联接大会的核心展区,一棵象征联接的“树”静静矗立,树干被昇腾和鲲鹏生态环绕。计算与联接,不仅是本届大会的主题,更是支撑华为AI版图的算力底座。
大会期间,华为副董事长、轮值董事长徐直军接受媒体采访时表示,算力过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键,而华为的核心战略就是“超节点+集群”,整个战略在这五个字上。
“我们认为只有依靠超节点和集群,才会规避中国的芯片制造工艺受限,能够为中国的AI算力提供源源不断的算力支持和供给。”徐直军说道。
从2018年提出全栈全场景AI解决方案,到今天的持续落地,华为算力不断突围。华为几乎在全线对标英伟达,英伟达有GPU,华为有昇腾NPU;英伟达有Grace CPU,华为有鲲鹏;英伟达有CUDA,华为有CANN;英伟达有NVlink,华为有灵衢。
与此同时,华为还在自研HBM等技术,还有立身之本的ICT产业、培育已久的云业务,冲锋的终端,六年来,华为还在不断进化。
这是华为打通各条技术战线,在持续的研发工程中跑出来的一套自主科技范式。而且,基于这一套长期的体系,创新范式能够在内部不断复制、迭代出新的技术能力。
从底层架构到模型协同,从系统工程到组织机制,昇腾、超节点、集群所代表的,不仅是一颗芯片的竞争力,而是以新的思路,开辟出中国的AI算力创新之路。
从超节点到集群:国产算力崛起
今年上半年,华为昇腾384超节点首次亮相,就成为科技界焦点,它是由384个昇腾NPU、192个鲲鹏CPU联接而成的超级计算单元,堪称大模型训练的“超级大脑”。这是华为迈向顶级AI算力的关键一步,也直接被业内拿来对标英伟达GB200 NVL72。
(21记者倪雨晴摄)
到了9月18日,华为发布最新超节点产品Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先。
华为透露,明年要推出的Atlas 950 SuperPoD,其数量规模是英伟达GB200 NVL144的56.8倍、算力是6.7倍、内存容量是15倍、互联带宽更是62倍。
基于超节点,华为同时发布了超节点集群,分别是Atlas 950 SuperCluster和 Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡,一举刷新全球算力纪录。
徐直军表示,AI算力不等于芯片性能,单颗芯片性能的短板可以通过“超节点和集群”方式解决,且实现性能更强。同时,国内的电力基础施优势也解决了算力用电问题。
同时,他也坦言:“除了单颗芯片比它(英伟达)的算力小一点,功耗大一点,其他都是优势。因为AI就是并行计算,所以我们的解决方案就是超节点,超节点做成一台机器,你用5颗,我用10颗,那我们384、8192、15488,这还不是最大的。”
英伟达自成立之初,就一直扎根加速运算,而华为在短短几年间,就已经来到AI算力的牌桌之上,这是一个巨大的跨越。
背后,有华为在战略上的远见,有庞大研发体系的托举,有制裁的“倒逼”。当超节点和集群的组合登场,这不仅意味着华为和巨头们再次“顶峰相见”,更意味着国产AI算力的觉醒,新的路径正在展开。
在徐直军看来,华为不同于大模型公司和应用公司,华为充分发挥自身优势,扎扎实实把基础设施做好,通过基础设施挣钱,做超节点、做集群,从而达成共识,通过已有变现的渠道,取得商业成功。
徐直军进一步指出,要实现AGI、物理AI乃至世界模型,需要持续且海量的算力供给。华为开创的“超节点+集群”架构,配合自研的灵衢互联协议,能够满足无穷无尽的算力需求,这是华为既对自己的一个目标,又是对产业界的承诺。
他还表示:“我们有差距,也有优势。但可以肯定,中国任何一家企业,无论想训练多大参数的大模型,都能在商业基础上获得算力支持。”
从“达芬奇”到昇腾:决战AI生态
超节点和集群崛起,并非一蹴而就,是诸多技术创新的集合。其中,就包括了超级并行,负载均衡,鲲鹏昇腾协同优化,RL训推共卡等。这些技术像齿轮般紧密咬合,这是一整套软硬件的系统性工程,所展现的是“系统最优”的综合能力。
事实上,超节点思路并不是华为独家。SemiAnalysis的报告就指出,在2022年,英伟达就宣布了 DGX H100 NVL256 “Rangerˮ平台,但由于其成本高昂、功耗大、光学收发器和两级网络能力限制等因素,最终决定不投入生产。
这也侧面反映,华为重新设计全对等的高速互联架构,扩展联接数百个芯片,绝非易事。而华为的“大力出奇迹”,是建立在通信、光学、热学、基础软件等多领域的技术积累之上。
以联接技术来说,在互联技术领域,华为通过系统性创新,突破了大规模超节点的互联技术挑战,开创了面向超节点的互联协议灵衢,徐直军宣布华为将开放灵衢2.0技术规范,共建灵衢开放生态。
通信产业是华为的立身之本。当芯片持续堆叠,将上百个芯片串联时,通信互联反而成为了关键所在。英伟达有独家的NVLink互联技术,华为则重新定义了全对等的互联总线,颠覆了以前主从式的结构,统一了通信协议,互通就不需要转换,提升了有效载荷。
可见,真正撬动算力生态,仅有硬件远远不够,需要软硬体系化结合。徐直军坦言,芯片供应一度阻碍了昇腾生态发展,但“生态是用出来的”。
因此,华为选择软件开源。今年的昇腾生态大会上,华为宣布CANN全面开源开放。据了解,这个决定并不轻松,华为内部也有诸多讨论。
徐直军谈道:“这个决策就是在很多客户的促进下形成的,运营商客户和政府客户希望我们做好给他,而互联网客户是希望我们把底层开放,所以给我们带来了理念上的冲突。我们内部也在辩论,达成共识才最终在生态上开源和开放。‘开源开放’这四个字是难啊,尤其是对华为这种成长型的公司,大家习惯把源代码捂得死死的,因为是核心资产。”
最终,大家达成一致,“华为的变现靠昇腾硬件,其他的一切都可以开源开放,这也是客户跟我们互动出来的结果。开源开放是促进硬件规模和硬件的普遍使用,大家都用了,我卖得多了,开源开放的钱就挣回来了。”徐直军说道。
面对CUDA生态的强大惯性,华为依然坚定走自主路线,这是为长远计。徐直军解释:“如果我们一直投资去兼容CUDA,却无法使用最新版本,如果哪天CUDA生态兼容不了怎么办?我们的AI,从达芬奇架构到昇腾芯片、再到一切包括所有软件生态,都不依赖西方的生态和供应链。所以长远来考虑的话,要把生态构建起来。”
在他看来,AI仍处于初级阶段,所有技术、所有模型都还没有最终能做到真正的AGI,都还在探索阶段,相当于移动通信2G阶段,“看看今天的5G,再设想下未来十年在AI颠覆整个世界的过程中,如果将AI的整个链条都含进来,包括人形机器人、聊天机器人、自动驾驶,包括商业模型的本身等,其间的变化极快,不确定性极大,最终拼的是实力。没人知道到底哪个路径是确定的,所以在这样的情况下,就体现了一家公司综合的实力。”
更多内容请下载21财经APP
创通网提示:文章来自网络,不代表本站观点。