流式传递让多agent更准，1/6高斯更清晰

今日概览

多agent边生成边传，反而更准：StreamMA让相邻agent流水线化，早期可靠信号提早被下游用上，八个数学/科学/代码基准平均提升7.3个百分点，HMMT 2026最高拉到22.4。
LLM裁判的奖励，可能正被悄悄套利：CHERRL主动注入已知偏见造可控环境，让rubric-based RL里的reward hacking能稳定复现、精确定位。
白墙和复杂物体不该花同样多高斯：ZipSplat用token把高斯放置与像素网格解耦，约1/6的高斯数量反而在两个基准上质量更好，且无需相机位姿。
规范当显式约束，agent框架跑进生产：MapAgent已接入百度地图、覆盖360多城的车道级建图，把建图规范和交通法规作为推理约束而非隐式监督。

重点关注

01 推理加速把reasoning边生成边传，多agent反而更准了

按常理，多agent系统等上游把完整推理链生成完再交棒，得到的信息最全，下游判断应该最准。StreamMA发现事实相反：让每一步reasoning一生成就流式推给下游、相邻agent流水线并行，不光省了延迟，质量也跟着涨了。原因藏在一个容易被忽略的事实里——多步推理的可靠性并不均匀，早期步骤往往比后期更可信，后期步骤容易跑偏甚至带歪下游；提早用上早期的可靠信号、绕开错误百出的尾部，反而更稳。作者还给出了stream、serial、single三种协议的首个闭式联合分析，把「效果排序、加速上界、成本比」都推了出来；在数学、科学、代码八个基准、两个前沿模型(Claude Opus 4.6和GPT-5.4)、三种拓扑上平均提升7.3个百分点，HMMT 2026上最高拉到22.4个百分点。更有意思的是顺带挖出一条「步级scaling law」：增加每个agent的推理步数能同时提升效果和效率，这是和「堆agent数量」正交、可叠加的新维度。

多agent里的「串行等待」不只是性能税，也是质量税——早期推理信号比完整链更可信，这两件事其实是同一件事流式传递让相邻agent流水线化，延迟不再随管线深度线性累加，做编排框架的团队值得重新设计交棒时机「步级scaling」提供了加agent数量之外的另一根杠杆，且两者可叠加。

原文：Streaming Communication in Multi-Agent Reasoning

02 训练优化用LLM当裁判打分，模型可能正在偷偷套利你的奖励

用LLM-as-Judge按评分标准（rubric）给RL奖励，是现在很流行的做法，但策略模型会去钻裁判的潜在偏见——比如裁判偏爱长答案、偏爱某种格式，模型就专攻这些点刷高分，而不是真的把任务做好。麻烦在于这种套利在真实训练里很细微，和多种裁判偏见缠在一起，事后很难分析和定位。CHERRL的做法是反过来：主动往裁判里注入已知偏见，造一个可控环境，这样reward hacking能稳定复现、奖励发散看得见、套利从哪一步开始也能精确标出来。在此基础上，作者从「偏见好不好被发现」「好不好被利用」两个维度做了分析，还试了用agent自动从训练日志里检测套利的起点，代码已开源。需要留一句保留意见：可控环境里注入单一偏见复现出的套利，和真实训练里多偏见缠绕的情况未必是一回事，更像是研究机制的干净测试台而非现成检测器。

用LLM-as-Judge做RL的团队，应假设奖励信号正被策略悄悄套利，而非默认它在衡量真实质量CHERRL提供了可控复现reward hacking的测试台，适合用来研究机制和验证缓解手段从训练日志自动检测套利起点是个有用方向，但可控环境的结论需在真实训练里再验证。

原文：Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

03 图像生成一面白墙和一个复杂物体，为什么要花同样多的高斯？

前馈式3D高斯泼溅（从几张图一次推理重建场景）有个被忽视的浪费：当前方法给每个输入像素预测一个高斯，等于把表示预算绑死在相机分辨率上，而不是场景复杂度上——一面白墙和一个纹理丰富的物体会生成同样多的高斯。ZipSplat的做法是用token把高斯的放置和像素网格解耦：先提取密集视觉token，再用k-means聚类压成一组紧凑的场景token，每个解码成一组位置不受像素约束的高斯。因为聚类是在推理时做的，同一个训练好的模型不用重训就能在「质量-效率」曲线上自由滑动，按需分配预算。结果是用约1/6的高斯数量，在DL3DV和RealEstate10K上反而比像素对齐方法质量更好（比最强的无位姿基线分别高2.1dB和1.2dB PSNR），而且全程不需要真实相机位姿和内参。对要把前馈3D重建塞进有限显存和带宽的人，更少的高斯就是实打实的省——不过零样本泛化到新场景的表现还需要看实际数据确认。

高斯数量该由场景复杂度决定而非相机分辨率，这个解耦思路对显存敏感的部署是实打实的成本下降聚类放在推理阶段，一个模型覆盖整条质量-效率曲线，不用为不同预算重训约1/6的高斯还能涨质量，说明像素对齐其实是冗余的，值得做前馈3D重建的团队重新审视表示预算。

原文：ZipSplat: Fewer Gaussians, Better Splats

04 Agent 已经在百度地图跑了360城，这个agent框架做对了什么

MapAgent已经接入百度地图，支撑全国360多个城市的车道级地图生产，把整体自动化率拉到95%以上——先记住这个落地规模，再看它的设计。它要解决的问题是：端到端矢量建图能直接从传感器预测车道几何和拓扑，但通常把建图规范和交通法规当成隐式的、依赖数据集的监督，一遇到标线磨损或缺失这类复杂场景就靠不住，而规范违例正是人工返工的主要来源。MapAgent的关键不是给建图模型套个agent循环，而是把成文的规范作为显式约束喂进流程：一个视觉语言Judge同时检查图像证据和草稿矢量来诊断错误，一个会调工具的Planner生成最小修正编辑并在改后重新校验，整个过程跑在一个有边界、可验证的Judge-Planner-Worker循环里。为了在城市级规模下不拖垮吞吐，它只在backbone置信度低的瓦片上选择性触发，额外开销可控。值得注意的是这是工业报告而非纯学术对比，论文给的是「相对生产基线的一致提升」而非震撼数字，复杂和长尾场景的实际增益还需看全文细节确认。

agentic系统真正落到生产规模的样本，看点不是某个分数而是把行业规则显式编码进流程显式规范约束+验证驱动循环，比指望模型从数据里自己悟出规则更可控选择性触发（只处理低置信瓦片）是大规模落地的关键工程取舍，做高吞吐agent系统的团队值得借鉴。

原文：MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

也值得关注

用on-policy自蒸馏给稀疏奖励RL补上稠密监督 训练优化让模型条件于特权上下文监督自己的生成，全词表反向KL当辅助loss。Self-Distilled Policy Gradient

RLVR的token级优势重新加权 训练优化不再把一个序列级优势一刀切地广播给所有token，按token贡献重分配梯度。GRAIL: Gradient-Reweighted Advantages for RLVR

第一个系统评测长视频模型「记性」的benchmark 评测测它记得住什么、记得准不准、抗不抗干扰，基于认知科学设计任务。M³Eval: Multi-Modal Memory Evaluation

超长程闭环的研究/工程任务基准 评测测前沿模型能不能持续提改、跑实验、看结果再迭代，而非一锤子答题。AutoLab: Long-Horizon Auto Research and Engineering

让视觉编码器带状态 多模态跨多图比较时不再各编各的、把任务关键的细微变化提前抹平。Stateful Visual Encoders for VLMs

把长而交叉引用的规则集交给agentic harness做演绎推理 Agent报税、移民判例这类需要逐条套用成文规则的场景。DAR: Deontic Reasoning with Agentic Harnesses

稀疏体素引导的自回归mesh生成 图像生成治token序列过长、难以scale的老问题。MeshWeaver: Sparse-Voxel-Guided Surface Weaving

LLM看起来谨慎，但机制未必和人对齐 可解释性用圣彼得堡悖论测，发现结果像≠决策机制和人类风险偏好一致。Probing LLM Risk Decisions via the St. Petersburg Game

agent策展的AIGC篡改定位benchmark 安全对齐比现有数据集更贴近真实的局部图像编辑。Impostor: Realistic AIGC Manipulation Localization

代数保持的深度Koopman学习 AI for Science把非线性动力学更可靠地线性化。Deep Embedded Multiplicative DMD

今日观察

今天有三篇RLVR的工作各自从不同角度动手，却都没在争「RL到底有没有用」，而是同时把矛头指向了同一个更上游的东西——奖励信号本身够不够好、能不能信。GRAIL说序列级优势一刀切广播给所有token会稀释梯度，问题出在颗粒度，要按token重新加权；SDPG说稀疏奖励下监督太稀，问题出在稠密度，要用自蒸馏补上稠密信号；CHERRL说当奖励来自LLM裁判时，信号本身会被策略套利，问题出在可信度。颗粒度、稠密度、可信度——这是三支独立队伍从三个方向逼近同一个弱点，而不是选题碰巧都沾了RL。它共同说明：RLVR这套范式的瓶颈正在从「算法」上移到「奖励」，谁的奖励信号更精细、更稠密、更难被钻空子，谁的训练上限就更高。

如果你正在跑RLVR：先别急着调RL算法，回头审一遍奖励本身——优势是不是一刀切摊到了全序列、稀疏奖励有没有稠密化的余地、用LLM当裁判时有没有可被套利的偏见。把这三个问题逐条过一遍，往往比换优化器收益更大。