马斯克也来站台，中国团队对AI底层架构动手术_Kimi_模型_训练_西城网站建设_网站建设公司_网站建设设计制作

作者 | 封华

编辑 | 魏晓

来自中国的Kimi，再一次引发了硅谷AI圈的注意。

3月16日，月之暗面Kimi发布了一项技术报告《Attention Residuals》（注意力残差），重新设计了深度学习中核心的残差连接结构。

报告发布后，引来了一众企业家和AI大佬的围观。连续三天登上Twitter全球热搜榜，主贴阅读量超过 460万，堪比一次模型重要版本发布。

OpenAI的“推理模型之父”、前OpenAI研究副总裁Jerry Tworek表示：“深度学习2.0要来了”。

马斯克称赞道：“Kimi的研究令人印象深刻（Impressive work from Kimi）”。随后，Kimi进行了回应：“你的火箭造得也不错！”

中外AI，在这一刻产生了惺惺相惜之感。

马斯克在业内一向“口无遮拦”，曾嘲讽Anthropic大规模窃取训练数据，也曾批评OpenAI成为“逐利公司”。只有真心认可，他才会不吝点赞。

这次马斯克对Kimi大加赞赏，正是震惊于AI技术的突破。

Kimi提出的注意力残差，旨在突破大模型架构中的瓶颈，改写大模型训练效率与成本曲线。

技术突破“炸场”的同时，月之暗面创始人杨植麟还成为英伟达年度大会GTC 2026，唯一受邀演讲的中国大模型公司创始人。

在演讲中，杨植麟没有去讲Kimi的用户数，或是其他商业数据，而是解读了一个核心问题：当算力基建的规模化（Scaling）已成为行业共识，我们到底该Scale什么？

展开全文

当全球AI竞争进入深水区，Kimi的估值已狂飙至1200亿元。从这次的技术突破，和杨植麟干货满满的演讲中，能看到Kimi对追求智能上限的执着。

新技术改变了什么？

Kimi这次的突破，不是“调参数”，而是“动地基”。

当前大多数大规模深度学习模型都在使用“残差连接”的结构，以保证能训练几十层乃至上百层而不崩溃。

这个设计来自何恺明在2015年参与的ResNet论文，十年来不曾被动摇根基。

其简单逻辑是：每一层的输出=当前层的结果+前面数层的累加。每一层网络在做完自己的计算之后，把自己的输出和输入加在一起，然后传到下一层去再做计算。

这样做的好处是，这样一路累加下去，每一层都能“记住”前面所有层的信息。

但这个机制并不是完美的，在大模型PreNorm主流范式下，残差连接中所有层的

贡献都是等权累加。

这样将信息进行“无差别叠加”，没有任何有效机制，去判断哪一层的信息更重要，哪一层的信息可以忽略。随着层数的增加，早期层信息的重要性就会被稀释。并且，后面的层想要产生影响，就必须输出模长更大的激活值，这反过来又加剧了训练的不稳定性。

就像咱们普通用户在使用AI时，提示词要尽量精准、简练，如果事无巨细地进行长篇大论，反而增加了AI理解信息的难度。

AI训练也是如此，重要信息被稀释，并且计算效率较为低下，这是一种浪费和负担。

Kimi团队的最新技术报告提出一种全新方案——既然不想要“无差别累加”，那就让网络自己决定该提取什么信息。也就是，允许模型在每一层选择性地关注此前各层的输出，而不是简单地进行求和。

这一创新不仅优化了计算效率，还显著提升了大模型的训练效果。报告显示，经过改进的48B模型训练效率提升了1.25倍。

Kimi的研究表明，当把动态、与输入相关的注意力机制引入进来之后，模型不再是简单地“全盘接收”信息，而是具备了“结构性判断能力”，能够更有选择地抓住关键内容。

结果也很直接——改写了大模型训练效率与成本曲线。

Kimi团队这次对惯性的大胆反思，瞄准的是那座最不起眼却最承重的“地基”。这并非一次局部优化，而是有机会成为未来大模型架构里的“标配组件”。随着验证逐步展开，世界上其他AI团队大概率会跟进类似思路，去探索新的架构路径。

杨植麟此次在英伟达GTC 2026现场的演讲，更将Kimi团队的技术实力与独特思考，第一次完整展示给硅谷核心技术圈。

对“祖传技术”动刀

重构前沿范式

北京时间3月18日凌晨，杨植麟站在英伟达年度大会GTC 2026的现场，发表了主题为《How We Scaled Kimi K2.5》的演讲，首次完整披露了Kimi的技术路线图。

按照他讲述的Kimi K2.5的进化逻辑，只有在“Token效率、长上下文、智能体集群”三个维度同时找到规模效应，才能实现远超现状的智能水平。

如果说三维逻辑是战略，那么对三大底层技术的重构就是战术。

杨植麟提出，行业目前普遍使用的很多技术标准，本质上是八九年前的产物，正逐渐成为大模型 Scaling 的瓶颈。

这也是本次演讲的真正“硬核”所在，杨植麟直接勾勒出了下一代大模型的思考路径：

要真正实现智能上限的突破，不是来自于对旧架构的修修补补，而是对优化器、注意力机制、残差连接等底层基石的重构。

其一，优化器革命：从Adam到MuonClip。

在超大规模训练中，Adam优化器在提升Token效率上的瓶颈日益凸显，寻找更具 Token 效率的替代方案已成趋势。

Kimi团队在实验中验证了Muon优化器的潜力，但在扩展到万亿参数时遇到了“Logits爆炸”的难题。

对此，他们开出了自己的药方：MuonClip。通过结合Newton-Schulz迭代并结合QK-Clip机制，他们不仅解决了稳定性问题，更实现了2倍于传统AdamW的计算效率。

这一突破意义重大，在算力约束、成本高企的当下，谁能用更少的计算量榨取更多的智能，谁就掌握了通往AGI的速通卡。

其二，Kimi Linear：全注意力机制“终结者”。

杨植麟展示了基于KDA架构的Kimi Linear，一种混合线性注意力架构。它挑战了“所有层必须使用全注意力”的惯例，通过优化递归存储管理，在128K甚至1M的超长上下文中，将解码速度提升了5到6倍。

这不仅是速度的提升，更是对注意力机制本质的思考：“按需分配”的注意力，才是不同场景下的务实选择。

其三：残差连接：从固定加法到注意力残差

继论文受到各方AI大佬围观之后，杨植麟再次在演讲中介绍了这一技术突破。

针对已有十年历史的残差连接，Kimi引入Attention Residuals方案，将传统的固定加法累加，替换为对前序层输出的Softmax注意力。

这一改动，通过选择性聚合信息，让每一层都能获得前面所有层中更有价值的信息，而不是淹没在求和“噪声”中。

之后，杨植麟提出了一项预判。他认为，未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5引入的Orchestrator机制，能够将复杂的长任务拆解给数十个子Agent并行处理，实现自协调的群体执行。

上述框架，并非零散的技术点叠加，而是一套从底层基石到上层应用的完整技术闭环，每一个环节都直指行业沿用近十年的技术标准的核心瓶颈。

跳出“中国版ChatGPT”框架

Kimi K2.5是全球用户量最大的AI编程平台Cursor唯一接入的开源模型，也是唯一的中国模型。也是全球最大的独立AI搜索服务商Perplexity唯一接入的中国模型，开源的K2.5在跟OpenAI、Anthropic和Google的顶尖闭源模型同场竞技。

一同起飞的，是Kimi商业化的跃迁：20天收入即超2025年全年。

K2.5发布后，Kimi通过其性能90%、价格七分之一的性价比优势，在海外斩获高速的收入增长，海外收入在总营收中占比已超过国内，海外API开放平台日均访问量翻10-20倍。

Kimi Claw于今年1月上线后，1月个人订阅支付订单环比暴增8280%，2月再涨123.8%。

业内认可之外，资本的追捧也极具说服力。

最近三个月，估值涨了4倍，融资超过10亿美元，超过大模型同行IPO募资额。

最备受期待的，是Kimi“身份”的转变——其已跳出“中国版ChatGPT”的狭窄框架，直接参与到了全球AI技术的底层创新。

杨植麟谈到了 AI 研究范式的转变，从中我们得以一窥，为什么Kimi能不断地从“古老”技术中挖掘出新的突破？

他提到，十年前的研究往往更看重新想法的发表，但受限于算力***，很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的***和“缩放阶梯（Scaling Ladder）”，研究者可以进行严谨的规模化实验，从而得出更自信、更可靠的结论。

杨植麟传递出的信息清晰而坚定：Kimi不想只做一个更好的模型，而是要做那个定义下一代模型架构的引领者：审视那些被沿用近十年的“旧技术”，严谨验证，大胆重构，找到突破智能上限的下一个项关键技术。返回搜狐，查看更多

关注我们