蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强 | AI 瞭望台

蚂蚁把百灵Ring-2.6-1T开源了，AIME 26得分95.83。这个数字什么意思？去年OpenAI的o1在同样测试里大概75分，今年o3冲到87左右，蚂蚁直接干到95.83。不是小步迭代，是碾压。

关键不是分数本身，是开源。市面上能跑Agent任务的模型，闭源的一堆，开源的凤毛麟角。Ring-2.6-1T的"1T"是1万亿参数，开源社区拿到这个量级的模型，等于白嫖了一个能写代码、能调用工具、能自主规划任务的Agent引擎。以前搞Agent开发，要么用GPT-4交API费，要么自己训小模型效果拉胯。现在蚂蚁把大杀器扔出来，开发者直接下载就能用。

但得说清楚，95.83分是在AIME 26上刷的。AIME是数学竞赛题，主要测推理能力，不是通用场景。Agent执行能力强不强，得看实际任务——比如让它订机票、写报告、操作Excel，这些场景蚂蚁没给数据。数学高分说明逻辑底子硬，但落地到具体业务，还得看生态适配。

开源这一步走得很聪明。DeepSeek靠开源抢了开发者心智，蚂蚁现在跟进，等于在Agent赛道卡位。问题是，Ring-2.6-1T的参数规模太大，1T的模型普通显卡跑不动，得靠云服务或者高端硬件。开发者真要上手，要么租蚂蚁的云，要么自己烧钱买卡。开源是幌子？不，是阳谋——模型白送，但跑模型的服务收费。

另一个隐患是Agent安全。模型能自主执行任务，意味着它可能被诱导干坏事。蚂蚁没提安全对齐的具体方案，这可能是后续被攻击的软肋。

一句话总结：蚂蚁用开源换生态，Agent能力确实强，但能不能打，得看开发者愿不愿意为它的云服务买单。

一句话摘要

蚂蚁百灵开源 Ring-2.6-1T 模型，AIME 26 得分 95.83，Agent 执行能力全面增强。

来源：量子位