AI 新闻
大模型

蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强

量子位2026年05月15日 16:52大约 2 小时前3 分钟阅读

蚂蚁把百灵Ring-2.6-1T开源了,AIME 26得分95.83。这个数字什么意思?去年OpenAI的o1在同样测试里大概75分,今年o3冲到87左右,蚂蚁直接干到95.83。不是小步迭代,是碾压。

关键不是分数本身,是开源。市面上能跑Agent任务的模型,闭源的一堆,开源的凤毛麟角。Ring-2.6-1T的"1T"是1万亿参数,开源社区拿到这个量级的模型,等于白嫖了一个能写代码、能调用工具、能自主规划任务的Agent引擎。以前搞Agent开发,要么用GPT-4交API费,要么自己训小模型效果拉胯。现在蚂蚁把大杀器扔出来,开发者直接下载就能用。

但得说清楚,95.83分是在AIME 26上刷的。AIME是数学竞赛题,主要测推理能力,不是通用场景。Agent执行能力强不强,得看实际任务——比如让它订机票、写报告、操作Excel,这些场景蚂蚁没给数据。数学高分说明逻辑底子硬,但落地到具体业务,还得看生态适配。

开源这一步走得很聪明。DeepSeek靠开源抢了开发者心智,蚂蚁现在跟进,等于在Agent赛道卡位。问题是,Ring-2.6-1T的参数规模太大,1T的模型普通显卡跑不动,得靠云服务或者高端硬件。开发者真要上手,要么租蚂蚁的云,要么自己烧钱买卡。开源是幌子?不,是阳谋——模型白送,但跑模型的服务收费。

另一个隐患是Agent安全。模型能自主执行任务,意味着它可能被诱导干坏事。蚂蚁没提安全对齐的具体方案,这可能是后续被攻击的软肋。

一句话总结:蚂蚁用开源换生态,Agent能力确实强,但能不能打,得看开发者愿不愿意为它的云服务买单。

一句话摘要

蚂蚁百灵开源 Ring-2.6-1T 模型,AIME 26 得分 95.83,Agent 执行能力全面增强。

来源:量子位