像素AR 135M反超十亿级模型

今日概览

  • 多agent系统的错误第一次能被「算」出来:GBC给agent之间的连接加上可微权重,让loss沿交互链回传,把「该改哪个agent的prompt」从凭感觉变成token级归因——前提是协作结构可微,离散工具调用这道坎待验。
  • 去tokenizer的像素AR,质量正在追上主流:PRA用低维中间态加近似rollout压住累积误差,135M参数在ImageNet256做到FID2.58,反超此前十亿级模型的3.60,小一个数量级还更好。

重点关注

01 Agent 调多agent系统还是玄学:出了错,你不知道该改哪个agent的prompt

调多agent系统的人都熟悉这种无力感:整条流水线跑砸了,但你只拿到一个最终结果,不知道是分工没设计好,还是某一步交互把上游的正确信息带偏了,只能凭感觉改prompt、换角色。GBC(Gradient-Based Connections)想把这件事从试错往「能定位」推:它把多agent系统建模成一张计算图,给agent之间的连接加上可微的权重,让任务的loss信号沿着交互链条反向传播,从而在token级别量化每个agent的输出对下游的影响——哪一步该负责,哪个prompt该改,理论上能被算出来而不是猜出来。作者还配了个叫AgentChord的实现,用前缀梯度计算来降开销,并在MultiWOZ和τ-bench两个对话/工具任务上跑赢了强单agent和多agent基线,而且他们观察到归因质量越高、优化效果越好,这个正相关至少说明「细粒度信用分配」这条路是有信号的。真正要留意的是它的前提假设:整个协作结构得是可微的,但生产里大量agent交互是离散的工具调用、外部API、条件分支,这些地方梯度传不过去,所以它到底能覆盖多少真实场景,得看全文里对非可微环节怎么处理。对做多agent编排的团队来说,这个方向的价值不在具体分数,而在于它试图给「为什么这套agent不work」提供一个可分析的答案,而不是继续靠经验拍。

多agent系统的核心痛点是无法定位是哪个agent、哪一步交互出的错,GBC用可微连接把这变成可计算的归因问题归因质量与优化效果正相关,说明细粒度信用分配确实带来可用信号,值得做编排的团队关注但可微前提是硬约束,生产中的离散工具调用可能传不了梯度,能落地多少要看全文对非可微环节的处理。

02 图像生成 去掉tokenizer这条路,质量正在追上来

主流图像生成都要先训一个离散tokenizer把图像压成token,这是个需要单独训练和维护的组件。像素空间自回归(AR)想绕过它——直接把图像当成原始像素patch的序列来预测,pixel-in、pixel-out,省掉整个tokenizer环节。代价是两个耦合的麻烦:单步要生成的维度太高,误差大;加上teacher-forcing带来的训练/推理gap,误差会沿AR步骤越滚越大。PRA的做法是先预测低维中间态、再用一个像素解码器映射回像素token,同时在训练时构造出接近推理时的输入分布,来近似真实rollout的反馈路径,但保留并行训练的效率。效果上,135M参数做到ImageNet256×256的FID2.58,超过之前十亿级像素空间AR的3.60;放大到511M进一步到1.94——参数量小一个数量级还更好,这条路线的质量差距在明显收窄。

去tokenizer路线的价值在于少一个需单独训练维护的组件,PRA把它的质量做到了可比水平累积误差是像素空间AR的核心瓶颈,用低维中间态+近似rollout来缓解是个务实的思路分类probing精度也超过AR和diffusion基线,暗示同一套像素表示可能兼顾生成与理解,值得做统一模型的团队留意。
像素AR 135M反超十亿级模型