今日概览
- 可读 dynamics 不该学进权重:Enterprise World Models 用 CascadeBench 证明,跨 tenant 漂移的 business rule 学得越好越脆,58 upvotes 在重画 RAG/工具调用与模型内部知识的边界。
- AlphaGRPO 让 UMM 省掉 cold-start——把多模态奖励拆成原子级可验证问题(DVReward),GRPO 直接 unlock self-reflective refinement,没训编辑任务的 GEdit 也涨了。
- ToolCUA 把训练目标从单步动作改到路径编排,OSWorld-MCP 从 baseline 的 28% 提到 46.85%,比纯 GUI 设定也多 3.9%——CUA 失败在路径,不在单步。
- L2P 扔掉 VAE 换大 patch token:冻住预训练 LDM 当先验抽取器,8 张 GPU + 纯合成数据完成迁移,原生 4K,代价是 GenEval 只到 93%。
- 异步 RL 的 importance ratio 被悄悄算错:training-inference discrepancy 和 policy staleness 混在一起触发 silent semantic mismatch,PPO-EWMA 是低成本修法。
重点关注
01 Agent 能在运行时读到的规则,就别再压进权重里
World models的默认假设是:让 agent 从历史 transitions 里学环境怎么变。但企业系统有个尴尬的特性——business logic写在每个 tenant 的配置里,跨客户不一致,还会随时间漂移。这篇用一个反直觉的判据把问题切开了:dynamics 分两类,不可读的(物理规律、用户行为)才该学进参数,可读的(审批规则、级联配置)应该在 inference 时直接从系统里 discover。作者做了 CascadeBench来验证:offline训练的 world model 在 in-distribution 上表现不错,但 dynamics 一变就崩;discovery-based agent 因为每次都从当前 instance 读规则,反而在 deployment shift 下更稳。58 upvotes 也说明这个 framing 戳到了痛点——它其实在重画 RAG/工具调用与模型内部知识的边界。
原文:Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics
02 多模态 让生成模型自己挑出自己的毛病
多模态生成做强化学习一直卡在奖励怎么给:整体打一个分太容易被钻空子——画面好看但跟prompt对不上也能拿高分。AlphaGRPO的解法是把用户请求拆成一串原子级的可验证问题(论文叫DVReward),让一个通用MLLM逐条核对再汇总成训练信号。好处是省掉了统一多模态模型(UMM)常规的cold-start阶段,直接套GRPO就能解锁两个能力:从模糊prompt里推断真实意图,以及生成后自己诊断、修正。更值得注意的是没训练编辑任务、GEdit基准也涨了,说明拆解出来的语义奖励在通用层面有迁移性。
03 Agent 该点鼠标还是该调API,这个决定本身需要被训练
Computer Use Agent现在通常有两套动作:底层GUI操作(点击、输入)和高层tool call(文件API、命令行)。能力都给了,问题是模型不知道什么时候该切——一个能用API一秒搞定的事,它可能在GUI里点二十下。ToolCUA没去优化单步动作准确度,而是把「什么时候切换」本身当成训练目标:先用现有的静态GUI轨迹合成交错的GUI-Tool轨迹解决数据稀缺,再用一个奖励短路径+合理用工具的reward做在线RL。OSWorld-MCP上从baseline的28%左右提到46.85%,比纯GUI设定也多3.9%,说明编排本身有可优化空间。同一天还有Covering Human Action Space(2605.12501)在补长尾GUI交互数据,两篇方向不同但都在指认同一个瓶颈——CUA的失败不在单步,而在路径。
原文:ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
04 图像生成 扔掉VAE的pixel-space生成:8张GPU能做到什么程度
VAE一直是latent diffusion的标配——把图像压到潜空间训练,再解码回像素。L2P反其道而行:扔掉VAE,换成大patch token化,把预训练LDM的中间层冻住,只训练浅层做「潜表示→像素」的转换。训练语料完全用LDM生成的合成图,不需要真实数据,8张GPU就能完成迁移。代价是精度——DPG-Bench上和源LDM打平,但GenEval只到93%。最直接的收益是绕开VAE的内存瓶颈,原生支持4K生成;对想做pixel-space生成但负担不起从头训练的团队,这是一个值得参考的迁移路径。
原文:L2P: Unlocking Latent Potential for Pixel Generation
05 训练优化 异步RL流水线里,importance ratio被悄悄算错了
异步RL把rollout和policy update解耦后,吞吐确实上来了,但PPO的off-policy correction在异构系统里出了一个不显眼的问题。这篇论文指出,总的importance ratio在语义上应该拆成两个不同的因子:training-inference discrepancy(同一behavior policy版本下推理侧和训练侧的分布对齐)与policy staleness(历史policy到当前policy的漂移)。麻烦在于异步流水线里old logits经常丢失(partial rollout、延迟更新都会触发),两个修正项被纠缠到一起,clipping和masking的阈值开始相互干扰,silent semantic mismatch就这样混进了收敛过程。作者给出三种exact方案(snapshot版本追踪、独立的old-logit模型、partial rollout中断同步)和一个approximate方案PPO-EWMA——后者不引入额外系统开销,但训练速度和优化效果都有明显改善。

也值得关注
今日观察
把今天的 ToolCUA、Covering Human Action Space、On-Policy Self-Evolution 三篇放在一起看,会发现 Computer Use Agent 这条线给出了一个具体的方向收敛信号:研究焦点已经从「单步动作能不能做对」转到「轨迹级决策与对齐」。三篇动的位置完全不同——ToolCUA 攻 GUI-vs-Tool 的路径选择,CHAS 攻长尾交互数据的稀缺,On-Policy Self-Evolution 攻轨迹级的安全信号——但都把 supervision 的单位从 step 或 response 拔到 trajectory。再叠上 Enterprise World Models 那篇「可读取的规则不该被学」的判据,能看出 CUA/agent 这条线正在从「让模型学更多」转向「让模型学对的东西」:哪些是参数应该承载的,哪些应该靠工具调用、长尾合成数据或轨迹级反馈承载,正在被重新分割。换句话说,今天这组工作动的不是 capacity,是 supervision granularity 和「学习对象」的边界。
具体可以做的事:如果你正在做 CUA 或长链路 agent,先做一次 supervision 单位的盘点——当前训练/评测信号落在单步动作、最终 response 还是 trajectory 上?再对照真实失败 case 看错出在哪一层。如果失败大多发生在路径编排或长程对齐层而你只在 step 层做监督,先把奖励或评估目标移到 trajectory 级(参考 ToolCUA 的 GUI-Tool 路径 reward 或 On-Policy Self-Evolution 的失败轨迹回灌),再决定是否需要补合成轨迹或开放工具调用接口。同时检查一下哪些 dynamics 是租户配置或外部系统当下就能读到的——这一部分按 Enterprise World Models 的判据,应当走 discovery 而不是塞进参数。