AI 新闻
研究论文

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

量子位2026年05月14日 03:591 天前2 分钟阅读

字节跳动这次搞了个狠活。他们新提出的视觉生成路线,核心就一句话:让模型像人类画画一样,先画个轮廓,不满意就擦掉重画,直到满意为止。这听起来简单,但直接挑战了目前统治视觉生成的两大流派——扩散模型和自回归模型。

扩散模型靠逐步加噪再降噪,自回归模型靠像素序列预测,各有各的毛病。扩散模型生成慢,自回归模型容易崩结构。字节这个新方法,本质是“迭代生成”。模型先快速出个草稿,然后看哪里不对,局部重画。这种“边画边改”的模式,人类画家用了上千年,但一直没被AI模型真正模仿过。

关键数据来了:在相同参数量下,字节这个新模型在图像质量、多样性、生成速度上,全面超过了扩散和自回归模型。具体来说,FID(图像质量指标)降低了15%,生成速度提升了2倍。这不是小修小补,是直接动了两大流派的蛋糕。

但别急着喊“颠覆”。这个技术目前有个明显短板:它需要多次迭代才能出图,虽然单次迭代比扩散快,但总耗时未必占优。而且“局部重画”的决策逻辑,目前还是黑箱——模型怎么判断哪里该改?改到什么程度?这些细节字节没完全公开。

一句话总结:字节这次不是要替代扩散或自回归,而是给出了第三条路。这条路能不能跑通,取决于他们能不能把“迭代次数”压到人类可接受的范围内。如果真能做到,视觉生成格局就得重写了。

一句话摘要

字节跳动提出视觉生成第三种路线,使模型像人类一样边画边改,相同参数量下超越扩散自回归方法。

来源:量子位