像素AR 135M反超十亿级模型

今日概览

多agent系统的错误第一次能被「算」出来：GBC给agent之间的连接加上可微权重，让loss沿交互链回传，把「该改哪个agent的prompt」从凭感觉变成token级归因——前提是协作结构可微，离散工具调用这道坎待验。
去tokenizer的像素AR，质量正在追上主流：PRA用低维中间态加近似rollout压住累积误差，135M参数在ImageNet256做到FID2.58，反超此前十亿级模型的3.60，小一个数量级还更好。

重点关注

01 Agent 调多agent系统还是玄学：出了错，你不知道该改哪个agent的prompt

调多agent系统的人都熟悉这种无力感：整条流水线跑砸了，但你只拿到一个最终结果，不知道是分工没设计好，还是某一步交互把上游的正确信息带偏了，只能凭感觉改prompt、换角色。GBC(Gradient-Based Connections)想把这件事从试错往「能定位」推：它把多agent系统建模成一张计算图，给agent之间的连接加上可微的权重，让任务的loss信号沿着交互链条反向传播，从而在token级别量化每个agent的输出对下游的影响——哪一步该负责，哪个prompt该改，理论上能被算出来而不是猜出来。作者还配了个叫AgentChord的实现，用前缀梯度计算来降开销,并在MultiWOZ和τ-bench两个对话/工具任务上跑赢了强单agent和多agent基线,而且他们观察到归因质量越高、优化效果越好,这个正相关至少说明「细粒度信用分配」这条路是有信号的。真正要留意的是它的前提假设:整个协作结构得是可微的,但生产里大量agent交互是离散的工具调用、外部API、条件分支,这些地方梯度传不过去,所以它到底能覆盖多少真实场景,得看全文里对非可微环节怎么处理。对做多agent编排的团队来说,这个方向的价值不在具体分数,而在于它试图给「为什么这套agent不work」提供一个可分析的答案,而不是继续靠经验拍。

多agent系统的核心痛点是无法定位是哪个agent、哪一步交互出的错,GBC用可微连接把这变成可计算的归因问题归因质量与优化效果正相关,说明细粒度信用分配确实带来可用信号,值得做编排的团队关注但可微前提是硬约束,生产中的离散工具调用可能传不了梯度,能落地多少要看全文对非可微环节的处理。

原文：GBC: Gradient-Based Connections for Optimizing Multi-Agent Systems

02 图像生成去掉tokenizer这条路，质量正在追上来

主流图像生成都要先训一个离散tokenizer把图像压成token，这是个需要单独训练和维护的组件。像素空间自回归（AR）想绕过它——直接把图像当成原始像素patch的序列来预测，pixel-in、pixel-out，省掉整个tokenizer环节。代价是两个耦合的麻烦：单步要生成的维度太高，误差大；加上teacher-forcing带来的训练/推理gap，误差会沿AR步骤越滚越大。PRA的做法是先预测低维中间态、再用一个像素解码器映射回像素token，同时在训练时构造出接近推理时的输入分布，来近似真实rollout的反馈路径，但保留并行训练的效率。效果上，135M参数做到ImageNet256×256的FID2.58，超过之前十亿级像素空间AR的3.60；放大到511M进一步到1.94——参数量小一个数量级还更好，这条路线的质量差距在明显收窄。

去tokenizer路线的价值在于少一个需单独训练维护的组件，PRA把它的质量做到了可比水平累积误差是像素空间AR的核心瓶颈，用低维中间态+近似rollout来缓解是个务实的思路分类probing精度也超过AR和diffusion基线，暗示同一套像素表示可能兼顾生成与理解，值得做统一模型的团队留意。

原文：Parallel Rollout Approximation for Pixel-Space Autoregressive Image Generation

今日概览

重点关注

01 Agent 调多agent系统还是玄学：出了错，你不知道该改哪个agent的prompt

02 图像生成 去掉tokenizer这条路，质量正在追上来

02 图像生成去掉tokenizer这条路，质量正在追上来