挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改 | AI 瞭望台

字节跳动这次搞了个狠活。他们新提出的视觉生成路线，核心就一句话：让模型像人类画画一样，先画个轮廓，不满意就擦掉重画，直到满意为止。这听起来简单，但直接挑战了目前统治视觉生成的两大流派——扩散模型和自回归模型。

扩散模型靠逐步加噪再降噪，自回归模型靠像素序列预测，各有各的毛病。扩散模型生成慢，自回归模型容易崩结构。字节这个新方法，本质是“迭代生成”。模型先快速出个草稿，然后看哪里不对，局部重画。这种“边画边改”的模式，人类画家用了上千年，但一直没被AI模型真正模仿过。

关键数据来了：在相同参数量下，字节这个新模型在图像质量、多样性、生成速度上，全面超过了扩散和自回归模型。具体来说，FID（图像质量指标）降低了15%，生成速度提升了2倍。这不是小修小补，是直接动了两大流派的蛋糕。

但别急着喊“颠覆”。这个技术目前有个明显短板：它需要多次迭代才能出图，虽然单次迭代比扩散快，但总耗时未必占优。而且“局部重画”的决策逻辑，目前还是黑箱——模型怎么判断哪里该改？改到什么程度？这些细节字节没完全公开。

一句话总结：字节这次不是要替代扩散或自回归，而是给出了第三条路。这条路能不能跑通，取决于他们能不能把“迭代次数”压到人类可接受的范围内。如果真能做到，视觉生成格局就得重写了。

一句话摘要

字节跳动提出视觉生成第三种路线，使模型像人类一样边画边改，相同参数量下超越扩散自回归方法。

来源：量子位