与此同时,圣克拉拉,英伟达总部。
黄仁勛正穿著他那件標誌性的皮衣,在会议室里来回踱步。
他的面前,同样摆著那篇论文。
“你们怎么看?”老黄停下脚步,目光如电,扫视著在座的技术高管。
“jensen(黄仁勛英文名),这个算法对我们的cuda生態是个挑战。”一位首席架构师面色凝重,“它大量使用了min、max这种非线性算子,而且数据依赖性很强,无法像矩阵乘法那样进行大规模並行流水线优化。在h100上跑这个,sm单元的利用率可能连20%都不到。”
“也就是说,我们的显卡,在这个算法面前,变成了『废铁』?”老黄的声音很冷。
“不能说是废铁,但確实……性价比极低。”
老黄沉默了。
作为“ai军火商”,他最怕的不是竞爭对手,而是“技术路线的变更”。
英伟达之所以能躺著赚钱,是因为全世界都在用transformer,都在做矩阵乘法。他只要把矩阵乘法做到极致,就能垄断市场。
但现在,有人想换个玩法。
这才是英伟达最担心的事情。
英伟达的护城河,从来不仅仅是硬体性能,而是cuda生態。数百万开发者习惯了调用cublas、cudnn这些高度优化的库来构建模型。如果一种新算法绕过了这些库,甚至需要全新的硬体支持,那么英伟达的垄断地位就会出现裂痕。
“amd那边有什么动静?”老黄问道。
“mi300系列的架构比较灵活,他们在標量计算单元上保留了更多的资源,理论上跑slrm会比我们稍微从容一些。”技术部主管回答,“而且,他们最近在积极接触pytorch团队,试图推动对非矩阵算子的原生支持。”
“不能给他们机会。”老黄的眼神变得冷峻。
他走回座位,双手撑在桌面上,下达了一系列指令。
“第一,软体层面。立即启动cuslrm项目。抽调最精锐的cuda工程师,针对slrm的核心算子进行手写汇编级优化。我要让全世界看到,即使是跑几何逻辑,英伟达的gpu依然是最快的。”
“第二,硬体层面。blackwell架构的设计已经冻结,来不及大改。但在下一代rubin架构中,必须预留专门的『逻辑推理单元』。我们要把这种非线性计算,也变成硬体原生的指令。”
“第三,生態层面。”老黄顿了顿,语气中透出一丝商业巨头的狠辣,“联繫pytorch和tensorflow的维护团队,以『技术合作』的名义,提供专项资金和人力,帮助他们优化基於cuda的slrm实现。我们要確保,当开发者想要尝试这个新算法时,他们最先想到的、最好用的工具,依然是跑在英伟达显卡上的。”
“我们要用生態的厚度,去淹没任何试图另起炉灶的尝试。”
……
然而,就在谷歌和英伟达这两大巨头,如同两头被惊醒的巨兽,准备调整姿態在新的赛道上狂奔时,一张早已编织好的大网,无声地收紧了。
“老板,情况有点不对劲。”
谷歌的情报分析师衝进会议室,脸色苍白,同时也带回了让整个硅谷窒息的消息。
“怎么了?是不是中国那边也有动作?”皮查伊敏锐地问道。
“不止是有动作……”分析师深吸一口气,投屏了几张截图。
那是github上几个不起眼的开源项目,更新时间显示在一周前。
- openlpu-compiler(开源逻辑处理单元编译器)
- slrm-pytorch-extension(slrm专用算子库)
- chinese-logic-graph(中文逻辑知识图谱构建工具)
虽然这些项目还很初级,甚至有些简陋,代码提交记录也显示只是刚刚起步的“占坑”行为。
但它们背后的提交者id,却让皮查伊感到一阵窒息。
-华为昇腾
-寒武纪
-阿里达摩院
“还有这条新闻,”分析师调出一条不起眼的快讯,“上周,中国科技部批准了『新一代认知智能计算架构』重点专项,合作方囊括了中国几乎所有的半导体和网际网路巨头。据可靠消息,海丝的下一代lpu晶片,已经进入了秘密流片阶段……”
会议室里,死一般的寂静。
“怎么可能?!”
一向沉稳的杰夫·迪恩都忍不住失声惊呼:“论文才发出来半个月,他们怎么可能动作这么快?简直就像是……早就拿到了答案一样!”