网站地图官方微信:
网站首页 包装印刷加工 包装成型机械 折射仪 阅览室桌椅 眼镜及配件 眼镜盒

当前位置: 首页 >

马斯克也来站台,中国团队对AI底层架构动手术_Kimi_模型_训练

作者 | 封华

编辑 | 魏晓

来自中国的Kimi,再一次引发了硅谷AI圈的注意。

3月16日,月之暗面Kimi发布了一项技术报告《Attention Residuals》(注意力残差),重新设计了深度学习中核心的残差连接结构。

报告发布后,引来了一众企业家和AI大佬的围观。连续三天登上Twitter全球热搜榜,主贴阅读量超过 460万,堪比一次模型重要版本发布。

OpenAI的“推理模型之父”、前OpenAI研究副总裁Jerry Tworek表示:“深度学习2.0要来了”。

马斯克称赞道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。随后,Kimi进行了回应:“你的火箭造得也不错!”

中外AI,在这一刻产生了惺惺相惜之感。

马斯克在业内一向“口无遮拦”,曾嘲讽Anthropic大规模窃取训练数据,也曾批评OpenAI成为“逐利公司”。只有真心认可,他才会不吝点赞。

这次马斯克对Kimi大加赞赏,正是震惊于AI技术的突破。

Kimi提出的注意力残差,旨在突破大模型架构中的瓶颈,改写大模型训练效率与成本曲线。

技术突破“炸场”的同时,月之暗面创始人杨植麟还成为英伟达年度大会GTC 2026,唯一受邀演讲的中国大模型公司创始人。

在演讲中,杨植麟没有去讲Kimi的用户数,或是其他商业数据,而是解读了一个核心问题:当算力基建的规模化(Scaling)已成为行业共识,我们到底该Scale什么?

展开全文

当全球AI竞争进入深水区,Kimi的估值已狂飙至1200亿元。从这次的技术突破,和杨植麟干货满满的演讲中,能看到Kimi对追求智能上限的执着。

新技术改变了什么?

Kimi这次的突破,不是“调参数”,而是“动地基”。

当前大多数大规模深度学习模型都在使用“残差连接”的结构,以保证能训练几十层乃至上百层而不崩溃。

这个设计来自何恺明在2015年参与的ResNet论文,十年来不曾被动摇根基。

其简单逻辑是:每一层的输出=当前层的结果+前面数层的累加。每一层网络在做完自己的计算之后,把自己的输出和输入加在一起,然后传到下一层去再做计算。

这样做的好处是,这样一路累加下去,每一层都能“记住”前面所有层的信息。

但这个机制并不是完美的,在大模型PreNorm主流范式下,残差连接中所有层的

贡献都是等权累加。

这样将信息进行“无差别叠加”,没有任何有效机制,去判断哪一层的信息更重要,哪一层的信息可以忽略。随着层数的增加,早期层信息的重要性就会被稀释。并且,后面的层想要产生影响,就必须输出模长更大的激活值,这反过来又加剧了训练的不稳定性。

就像咱们普通用户在使用AI时,提示词要尽量精准、简练,如果事无巨细地进行长篇大论,反而增加了AI理解信息的难度。

AI训练也是如此,重要信息被稀释,并且计算效率较为低下,这是一种浪费和负担。

Kimi团队的最新技术报告提出一种全新方案——既然不想要“无差别累加”,那就让网络自己决定该提取什么信息。也就是,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。

这一创新不仅优化了计算效率,还显著提升了大模型的训练效果。报告显示,经过改进的48B模型训练效率提升了1.25倍。

Kimi的研究表明,当把动态、与输入相关的注意力机制引入进来之后,模型不再是简单地“全盘接收”信息,而是具备了“结构性判断能力”,能够更有选择地抓住关键内容。

结果也很直接——改写了大模型训练效率与成本曲线。

Kimi团队这次对惯性的大胆反思,瞄准的是那座最不起眼却最承重的“地基”。这并非一次局部优化,而是有机会成为未来大模型架构里的“标配组件”。随着验证逐步展开,世界上其他AI团队大概率会跟进类似思路,去探索新的架构路径。

杨植麟此次在英伟达GTC 2026现场的演讲,更将Kimi团队的技术实力与独特思考,第一次完整展示给硅谷核心技术圈。

对“祖传技术”动刀

重构前沿范式

北京时间3月18日凌晨,杨植麟站在英伟达年度大会GTC 2026的现场,发表了主题为《How We Scaled Kimi K2.5》的演讲,首次完整披露了Kimi的技术路线图。

按照他讲述的Kimi K2.5的进化逻辑,只有在“Token效率、长上下文、智能体集群”三个维度同时找到规模效应,才能实现远超现状的智能水平。

如果说三维逻辑是战略,那么对三大底层技术的重构就是战术。

杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为大模型 Scaling 的瓶颈。

这也是本次演讲的真正“硬核”所在,杨植麟直接勾勒出了下一代大模型的思考路径:

要真正实现智能上限的突破,不是来自于对旧架构的修修补补,而是对优化器、注意力机制、残差连接等底层基石的重构。

其一,优化器革命:从Adam到MuonClip。

在超大规模训练中,Adam优化器在提升Token效率上的瓶颈日益凸显,寻找更具 Token 效率的替代方案已成趋势。

Kimi团队在实验中验证了Muon优化器的潜力,但在扩展到万亿参数时遇到了“Logits爆炸”的难题。

对此,他们开出了自己的药方:MuonClip。通过结合Newton-Schulz迭代并结合QK-Clip机制,他们不仅解决了稳定性问题,更实现了2倍于传统AdamW的计算效率。

这一突破意义重大,在算力约束、成本高企的当下,谁能用更少的计算量榨取更多的智能,谁就掌握了通往AGI的速通卡。

其二,Kimi Linear:全注意力机制“终结者”。

杨植麟展示了基于KDA架构的Kimi Linear,一种混合线性注意力架构。它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在128K甚至1M的超长上下文中,将解码速度提升了5到6倍。

这不仅是速度的提升,更是对注意力机制本质的思考:“按需分配”的注意力,才是不同场景下的务实选择。

其三:残差连接:从固定加法到注意力残差

继论文受到各方AI大佬围观之后,杨植麟再次在演讲中介绍了这一技术突破。

针对已有十年历史的残差连接,Kimi引入Attention Residuals方案,将传统的固定加法累加,替换为对前序层输出的Softmax注意力。

这一改动,通过选择性聚合信息,让每一层都能获得前面所有层中更有价值的信息,而不是淹没在求和“噪声”中。

之后,杨植麟提出了一项预判。他认为,未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5引入的Orchestrator机制,能够将复杂的长任务拆解给数十个子Agent并行处理,实现自协调的群体执行。

上述框架,并非零散的技术点叠加,而是一套从底层基石到上层应用的完整技术闭环,每一个环节都直指行业沿用近十年的技术标准的核心瓶颈。

跳出“中国版ChatGPT”框架

Kimi K2.5是全球用户量最大的AI编程平台Cursor唯一接入的开源模型,也是唯一的中国模型。也是全球最大的独立AI搜索服务商Perplexity唯一接入的中国模型,开源的K2.5在跟OpenAI、Anthropic和Google的顶尖闭源模型同场竞技。

一同起飞的,是Kimi商业化的跃迁:20天收入即超2025年全年。

K2.5发布后,Kimi通过其性能90%、价格七分之一的性价比优势,在海外斩获高速的收入增长,海外收入在总营收中占比已超过国内,海外API开放平台日均访问量翻10-20倍。

Kimi Claw于今年1月上线后,1月个人订阅支付订单环比暴增8280%,2月再涨123.8%。

业内认可之外,资本的追捧也极具说服力。

最近三个月,估值涨了4倍,融资超过10亿美元,超过大模型同行IPO募资额。

最备受期待的,是Kimi“身份”的转变——其已跳出“中国版ChatGPT”的狭窄框架,直接参与到了全球AI技术的底层创新。

杨植麟谈到了 AI 研究范式的转变,从中我们得以一窥,为什么Kimi能不断地从“古老”技术中挖掘出新的突破?

他提到,十年前的研究往往更看重新想法的发表,但受限于算力***,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的***和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。

杨植麟传递出的信息清晰而坚定:Kimi不想只做一个更好的模型,而是要做那个定义下一代模型架构的引领者:审视那些被沿用近十年的“旧技术”,严谨验证,大胆重构,找到突破智能上限的下一个项关键技术。返回搜狐,查看更多

马斯克也来站台,中国团队对AI底层架构动手术_Kimi_模型_训练

  • | H264和H265谁画质好,求回谢谢!? |

    如果是电影,那不一定 一个电影肯定是母带最清晰,这个大家都明...

    查看详情>>
  • | 编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响? |

  • | 为什么中国人做一顿饭要几个小时,而国外花的时间少得多? |

  • | 联想 128GB 超大内存迷你 AMD 主机上架,此款主机有哪些亮点? |

  • | 中餐炒菜那么好吃,为什么欧美人不学去? |

  • | 有没有追妻火葬场追不回来,女主跟男二收获幸福,男主后悔莫及的文? |

  • | 30马赫的导弹,近防炮能挡住吗? |

  • | 广东省肇庆市怀集县洪水后,赵一鸣零食店被哄抢,物资和收银机里面的几千块钱被哄抢一空,如何评价? |

  • | 印度是真的烂还是咱们在信息茧房里面? |

  • | 如何评价《绝区零》橘福福角色展示 | 绝世豪虎? |

  • | 哪张照片让你觉得刘亦菲美得不可方物? |

  • 上场比赛后,日本主帅自称赛后想到了限制张子宇表现的办法,结果...

    2025-06-21
  • 今年年初,腰疼伴随左腿麻痹,行走艰难,去拍了MRI,确诊腰突...

    2025-06-21
  • 就在近日,许久不曾现身在大众面前的杨颖因为参加了一场活动而引...

    2025-06-21
  • Rust 必须是 Rust,有稳定版,内存安全,语法不那么混...

    2025-06-21

关注我们

添加微信好友,关注最新动态