可读规则不该学进LLM权重

今日概览

可读 dynamics 不该学进权重：Enterprise World Models 用 CascadeBench 证明，跨 tenant 漂移的 business rule 学得越好越脆，58 upvotes 在重画 RAG/工具调用与模型内部知识的边界。
AlphaGRPO 让 UMM 省掉 cold-start——把多模态奖励拆成原子级可验证问题（DVReward），GRPO 直接 unlock self-reflective refinement，没训编辑任务的 GEdit 也涨了。
ToolCUA 把训练目标从单步动作改到路径编排，OSWorld-MCP 从 baseline 的 28% 提到 46.85%，比纯 GUI 设定也多 3.9%——CUA 失败在路径，不在单步。
L2P 扔掉 VAE 换大 patch token：冻住预训练 LDM 当先验抽取器，8 张 GPU + 纯合成数据完成迁移，原生 4K，代价是 GenEval 只到 93%。
异步 RL 的 importance ratio 被悄悄算错：training-inference discrepancy 和 policy staleness 混在一起触发 silent semantic mismatch，PPO-EWMA 是低成本修法。

重点关注

01 Agent 能在运行时读到的规则，就别再压进权重里

World models的默认假设是：让 agent 从历史 transitions 里学环境怎么变。但企业系统有个尴尬的特性——business logic写在每个 tenant 的配置里，跨客户不一致，还会随时间漂移。这篇用一个反直觉的判据把问题切开了：dynamics 分两类，不可读的（物理规律、用户行为）才该学进参数，可读的（审批规则、级联配置）应该在 inference 时直接从系统里 discover。作者做了 CascadeBench来验证：offline训练的 world model 在 in-distribution 上表现不错，但 dynamics 一变就崩；discovery-based agent 因为每次都从当前 instance 读规则，反而在 deployment shift 下更稳。58 upvotes 也说明这个 framing 戳到了痛点——它其实在重画 RAG/工具调用与模型内部知识的边界。

dynamics 是否可读取应成为「学 vs 查」决策的关键判据企业场景里把租户规则学进权重不是优势而是脆弱性来源discovery-based agent 用 deployment shift下的稳健性换 in-distribution 的极致表现，对多租户产品是更合理的权衡

原文：Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

02 多模态让生成模型自己挑出自己的毛病

多模态生成做强化学习一直卡在奖励怎么给：整体打一个分太容易被钻空子——画面好看但跟prompt对不上也能拿高分。AlphaGRPO的解法是把用户请求拆成一串原子级的可验证问题（论文叫DVReward），让一个通用MLLM逐条核对再汇总成训练信号。好处是省掉了统一多模态模型(UMM)常规的cold-start阶段，直接套GRPO就能解锁两个能力：从模糊prompt里推断真实意图，以及生成后自己诊断、修正。更值得注意的是没训练编辑任务、GEdit基准也涨了，说明拆解出来的语义奖励在通用层面有迁移性。

UMM训练链路可能从「pretrain→SFT→RL」压成「pretrain→RL」，工程成本短一截把多模态奖励拆成原子问题是缓解reward hacking的可行路径self-reflective能力能在RL阶段被unlock，不一定要单独造一套reasoning数据。

原文：AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

03 Agent 该点鼠标还是该调API，这个决定本身需要被训练

Computer Use Agent现在通常有两套动作：底层GUI操作（点击、输入）和高层tool call（文件API、命令行）。能力都给了，问题是模型不知道什么时候该切——一个能用API一秒搞定的事，它可能在GUI里点二十下。ToolCUA没去优化单步动作准确度，而是把「什么时候切换」本身当成训练目标：先用现有的静态GUI轨迹合成交错的GUI-Tool轨迹解决数据稀缺，再用一个奖励短路径+合理用工具的reward做在线RL。OSWorld-MCP上从baseline的28%左右提到46.85%，比纯GUI设定也多3.9%，说明编排本身有可优化空间。同一天还有Covering Human Action Space（2605.12501）在补长尾GUI交互数据，两篇方向不同但都在指认同一个瓶颈——CUA的失败不在单步，而在路径。

CUA的瓶颈正在从单步动作准确度转向trajectory级的路径决策合成交错轨迹是绕过真实tool-trajectory采集成本的可行路径做CUA产品的团队应该评估自己的失败case是动作错了还是路径选错了，这俩需要的优化手段不同

原文：ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

04 图像生成扔掉VAE的pixel-space生成：8张GPU能做到什么程度

VAE一直是latent diffusion的标配——把图像压到潜空间训练，再解码回像素。L2P反其道而行：扔掉VAE，换成大patch token化，把预训练LDM的中间层冻住，只训练浅层做「潜表示→像素」的转换。训练语料完全用LDM生成的合成图，不需要真实数据，8张GPU就能完成迁移。代价是精度——DPG-Bench上和源LDM打平，但GenEval只到93%。最直接的收益是绕开VAE的内存瓶颈，原生支持4K生成；对想做pixel-space生成但负担不起从头训练的团队，这是一个值得参考的迁移路径。

LDM可以当先验抽取器而不必作为端到端编码器，「要不要VAE」多了一个具体的工程答案8张GPU+纯合成数据训练，资源门槛降到小团队可承受GenEval只剩93%是代价，换来的是原生4K和VAE内存瓶颈解除——按应用场景判断值不值

原文：L2P: Unlocking Latent Potential for Pixel Generation

05 训练优化异步RL流水线里，importance ratio被悄悄算错了

异步RL把rollout和policy update解耦后，吞吐确实上来了，但PPO的off-policy correction在异构系统里出了一个不显眼的问题。这篇论文指出，总的importance ratio在语义上应该拆成两个不同的因子：training-inference discrepancy（同一behavior policy版本下推理侧和训练侧的分布对齐）与policy staleness（历史policy到当前policy的漂移）。麻烦在于异步流水线里old logits经常丢失（partial rollout、延迟更新都会触发），两个修正项被纠缠到一起，clipping和masking的阈值开始相互干扰，silent semantic mismatch就这样混进了收敛过程。作者给出三种exact方案（snapshot版本追踪、独立的old-logit模型、partial rollout中断同步）和一个approximate方案PPO-EWMA——后者不引入额外系统开销，但训练速度和优化效果都有明显改善。

异步RL里importance ratio承担两类不同语义的修正，混在一起是silent bugold logits在异构pipeline里丢失是常见现象，需要显式追踪跑async agentic RL的团队可以先试低成本的PPO-EWMA路径再决定是否上exact方案

原文：Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

也值得关注

CHAS 攻 CUA 的另一面——长尾交互数据稀缺 Agent和 ToolCUA 同一天，给出复杂、低频 GUI 交互的合成方法和 benchmark。Covering Human Action Space

图像编辑 benchmark 和 reward model benchmark 一起出 评测针对当前 frontier 模型评估天花板，Edit-Compass + EditReward-Compass 统一框架。Edit-Compass

把 thoughts/inputs/outputs 拆成并行 stream 模型架构挑战 agent 必须走单条 message 序列的默认设定。Multi-Stream LLMs

tool-using agent 的不安全发生在轨迹级别而非最终 response 安全对齐轨迹级 on-policy 自演化避开传统 safety-utility tradeoff。On-Policy Self-Evolution

把预训练 LLM 改造成 looped latent refinement 模型 模型架构test-time compute scaling 不必从头训 recurrent，可直接复用现成 LLM。LoopUS

World prediction 和 action generation 互相耦合 机器人DAWN 挑战「predict-then-act」的串行假设，maneuver 与 scene evolution 互为条件。DAWN

long-horizon agent 改成「map-then-act」 Agent先建环境地图再执行，而不是 reactively 边走边推断约束。MAP

诱导 LRM overthink 的黑盒 DoS 攻击 安全对齐hierarchical genetic algorithm 触发过度思考，推理模型的算力可用性是新攻击面。Inducing Overthink

diffusion-based VLA 的 speculative inference 框架 推理加速大部分步骤跳过完整推理，把 dVLA 的实时部署做下来。Realtime-VLA FLASH

planner 和 simulator 协同进化解决操控数据稀缺 机器人RoboEvolve 绕开 VLM/VGM 的 semantic-spatial misalignment。RoboEvolve

今日观察

把今天的 ToolCUA、Covering Human Action Space、On-Policy Self-Evolution 三篇放在一起看，会发现 Computer Use Agent 这条线给出了一个具体的方向收敛信号：研究焦点已经从「单步动作能不能做对」转到「轨迹级决策与对齐」。三篇动的位置完全不同——ToolCUA 攻 GUI-vs-Tool 的路径选择，CHAS 攻长尾交互数据的稀缺，On-Policy Self-Evolution 攻轨迹级的安全信号——但都把 supervision 的单位从 step 或 response 拔到 trajectory。再叠上 Enterprise World Models 那篇「可读取的规则不该被学」的判据，能看出 CUA/agent 这条线正在从「让模型学更多」转向「让模型学对的东西」：哪些是参数应该承载的，哪些应该靠工具调用、长尾合成数据或轨迹级反馈承载，正在被重新分割。换句话说，今天这组工作动的不是 capacity，是 supervision granularity 和「学习对象」的边界。

具体可以做的事：如果你正在做 CUA 或长链路 agent，先做一次 supervision 单位的盘点——当前训练/评测信号落在单步动作、最终 response 还是 trajectory 上？再对照真实失败 case 看错出在哪一层。如果失败大多发生在路径编排或长程对齐层而你只在 step 层做监督，先把奖励或评估目标移到 trajectory 级（参考 ToolCUA 的 GUI-Tool 路径 reward 或 On-Policy Self-Evolution 的失败轨迹回灌），再决定是否需要补合成轨迹或开放工具调用接口。同时检查一下哪些 dynamics 是租户配置或外部系统当下就能读到的——这一部分按 Enterprise World Models 的判据，应当走 discovery 而不是塞进参数。