今天的华为开发者大会2025(HDC 2025),华为常务董事、华为云 CEO 张平安正式宣布:新一代昇腾AI云服务上线,背后的关键主角,就是被称为“CloudMatrix 384”的超级节点平台。 这不是一台“更强”的服务器,而是一种全新架构的算力系统——从设计理念到硬件形态、从内存调度到网络互联,全都彻底重构。 1、从“拼芯片”到“拼系统”,华为换道突围面对先进制程受限、顶级芯片受阻的现实挑战,华为没去和别人“拼芯片”,而是换了思路,直接把战场拉到了“系统架构”这一级。 CloudMatrix 384 就是这种思路下的代表作。 它摒弃了传统以服务器为核心的构架,把“资源池化”和“全对等互联”作为基本设计原则。简单说,不再用单台服务器来定义算力,而是用整个“矩阵”来承载任务,做到资源“自由组合、动态调度”。 这也是华为所说的“三个一切”原则——一切可池化,一切皆对等,一切可组合。目标很清晰:应对AI时代海量模型、极致通信、弹性部署的硬需求。 2、架构大变样:从芯片拼图,到互联矩阵在硬件层面,CloudMatrix 384由384颗昇腾910C NPU和192颗鲲鹏CPU构成,封装成一个“全对等”的超大规模AI算力集群。 每颗昇腾910C芯片都不简单:64个AI核心,530亿晶体管,集成128GB HBM高带宽内存,算力高达752 TFLOPS,功耗310W,还得靠液冷降温。 华为使用了3D封装和双晶粒设计技术,把芯片间互联带宽拉到了540 GB/s。这样拼起来,总内存容量达到49.2TB,聚合带宽高达3.2TB/s。 但真正的亮点,是内部的互联网络——MatrixLink。这个全光纤网络将384颗芯片用统一总线直接互连,实现了200纳秒级的延迟,比传统以太网方案快了10倍以上。 整套系统包含16个机柜,16800个交换模块、6912个光模块,搭配华为自研的弹性内存系统 EMS,显存不够还能“云侧调用”,把大模型推理过程中的“显存焦虑”给解决了。 3、性能实测:不是纸上谈兵,而是拳拳到肉说性能,不能只看数据表,还得看实际训练结果。 在训练DeepSeek-R1(70亿参数)模型时,CloudMatrix 384比H100集群快了1.8倍;推理吞吐量也达到了非超节点架构的4倍。 再看MoE模型:CloudMatrix可做到“一卡一专家”,也就是说,384卡能并行跑384个专家模型,这对大模型部署来说,是个巨大的效率提升。 为了配合这个架构,华为同步发布了专门的推理解决方案CloudMatrix-Infer。拿6710亿参数的DeepSeek-R1 MoE来说,推理性能甚至超过了NVIDIA公布的H100和H800。 Prefill阶段,每个NPU能做到6688 tokens/s,Decode阶段平均生成延迟不到50ms,跑得快、也跑得稳。 4、系统效率:白天干推理,晚上搞训练华为在系统调度层面也下了不少功夫。 比如提出“朝推夜训”模式——白天用来推理,晚上再统一训练,这种资源错峰调度模式据说能让利用率提高30%以上。 数据加载也提速了。华为用上了SFS Turbo文件服务,号称加载速度比以前快10倍,还能打通跨节点KV缓存,解决“大模型首token延迟”这个常见的痛点。 稳定性方面,华为提出“1-3-10”恢复目标,也就是说,系统出现问题后,最慢也能在10分钟内自愈。 5、对标英伟达?是的,但不是在“芯片性能”上华为不避讳,CloudMatrix 384 就是对着英伟达新发布的 Blackwell 架构 GB200 NVL72 系统去的。 比芯片,昇腾910C还不够看。但拼整体系统,华为找到了自己的优势: CloudMatrix 384的总BF16算力是GB200 NVL72的1.7倍;HBM内存容量是对方的3.6倍;HBM带宽是2.1倍;互联规模更是后者的5.3倍。 当然,代价也很明显:功耗暴涨。CloudMatrix的总功耗逼近560kW,是英伟达方案的近4倍,算力单位能耗也高出2倍多。这是华为“性能优先”策略的代价,也是用液冷降温的必然选择。 一句话总结就是:你用铜缆节能,我上光纤求快,各自有道。 6、背后的现实:技术制裁变成了“战略机会”必须承认,CloudMatrix 384 的设计思路,是现实倒逼的产物。 因为买不到顶级GPU、用不了最先进制程,华为干脆不走“芯片路线”,直接在系统架构上发力,发挥通信、光学、网络领域的深厚家底。 也正因为制裁“封住了门”,才给了华为在国内市场创造一个受保护的成长空间。华为内部甚至称CloudMatrix 384为“核弹级产品”,希望用它“终结中国的算力焦虑”。 从国家层面来看,这也正符合当前“技术主权”战略的方向。 7、生态建设:MindSpore 与盘古站上了主舞台在软件生态上,昇腾平台靠的是 CANN 和 MindSpore。 目前支持 CANN 6.0,能把 CUDA 代码自动转成兼容PyTorch等主流框架的代码;MindSpore 3.0 也做了动态图和自动并行的优化,据说训练效率能提高三成。 模型方面,昇腾已经适配了超160个主流大模型,包括DeepSeek、LLaMA等开源方案。 华为自家的盘古大模型,也在这个系统上做了深度优化。盘古5.5版本拥有7180亿参数,已经开始在农业、制造、科研等30多个行业场景中落地。 8、商业化落地:从芜湖起步,成为“微博智搜”底座目前,昇腾AI云服务主要面向国内,只有华为云采用,还未在其他云厂商中普及。 不过在国内落地速度很快,像芜湖、贵州、内蒙古等地,已经部署了 CloudMatrix 384 集群,还与中国电信等地方算力中心联动,服务数百家企业客户。 新浪微博就是一个典型案例:其“智搜”功能就运行在昇腾平台上,通过软硬件协同,集群利用率提升了40%。 写在最后:性能、主权、电力——未来三难题CloudMatrix 384 的上线,不只是一个产品事件,更像是一记信号弹——全球AI基础设施进入了拼“系统架构”的新阶段。 对于国内用户来说,未来的选择可能绕不开这三难困境:极致性能、高昂能耗和技术主权。 在国家级支持、大型企业客户的推力下,华为的这条路或许走得通。但更长期的竞争力,还得靠昇腾芯片继续迭代、软件生态真正成熟,以及能耗与性能之间找到更优平衡。 架构变了,战争场地也换了。芯片已非唯一胜负手,系统,才是新时代的大招。 参考资料:https://www.huaweicloud.com/product/modelarts/ascend-cloud.html |