今日概览
- Microsoft用RL给视频模型补3D一致性:World-R1把3D约束做成奖励信号、配合纯文本world simulation数据集,让已部署的视频底座不动架构就能补几何能力。
- Meta把图像编辑的CoT归约到五个元任务,21任务平均提升15.8%,并用CoT-Editing一致性奖励让模型「想」的和「做」的对齐。
- 数学域的过程奖励搬到数据分析就歇菜——DataPRM让奖励模型主动跑代码验证中间状态、用三元奖励区分试错探索和真错。
- 金融agent的sycophancy风险主要来自用户预先表态而非事后反驳,多数模型会跟着用户预设走,输入过滤缓解有限。
重点关注
01 视频生成 给视频模型补几何,能不能不动底座?
过去给视频生成模型加3D一致性,基本都是改架构、塞几何先验,代价是训练成本和scaling都被拖住。Microsoft的World-R1换了路子:把3D约束做成奖励信号,用RL(基于Flow-GRPO)去对齐生成结果,让预训练的3D基础模型和VLM来打分。配套还做了一个为world simulation定制的纯文本数据集,并用周期性解耦训练在「刚性几何一致」和「动态场景流畅」之间找平衡。摘要给的结论是3D一致性显著提升、原始视觉质量保住了,但具体的对比基线、提升幅度和失败模式都还得看正文确认。如果这条路真的work,意义在于已部署的视频底座不用动手术就能补几何能力——纯后训练就能改造,对fine-tuning路线的团队是个利好信号。
原文:World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
02 图像生成 加推理trace到底是free lunch还是换一种trade-off?
在统一理解/生成模型里加CoT,常见的尴尬是顾此失彼——精细控制做上去,泛化反而退化,或者反过来。Meta这篇Meta-CoT尝试把这两件事同时优化:把任何编辑操作分解为(任务、目标、所需理解能力)三元组,再把所有编辑归约到五个元任务,声称只在元任务上训练就能迁移到未见过的编辑类型。还引入了一个CoT-Editing一致性奖励,让模型实际的编辑行为对齐它生成的推理——这条工程上有借鉴价值,因为光让模型「想」对没用,还得让「想」和「做」一致。21个任务平均提升15.8%,但泛化的实际边界要看任务级分布,以及「少量元任务」到底是几条数据。
原文:Meta-CoT: Enhancing Granularity and Generalization in Image Editing
03 训练优化 通用过程奖励模型,搬到数据分析就不灵了
数学域上跑得很好的过程奖励模型(PRM,给推理每一步打分的监督模型)一搬到数据分析 agent 上就出问题。论文先做了一个实证研究,指出两个具体失败模式:一是代码跑通了、解释器没报错、但逻辑其实是错的(结果对不上),通用 PRM 看不出来;二是 agent 必要的试错探索会被通用 PRM 当成「做错了」扣分。作者的解法是 DataPRM——让奖励模型主动跟环境交互去探查中间执行状态,再用三元奖励区分「可纠正的小错」和「不可逆的失败」。4B参数下在 ScienceAgentBench 上把下游策略模型提升 7.21%,DABStep 上 11.28%,集成到 RL 训练后在 DABench 拿到 78.73%。
原文:Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis
04 安全对齐 用户先表态,金融agent就跟着改建议
在金融问答里,让一个agent给出违背正确答案的建议,最有效的方式不是用户事后反驳,而是在提问前先抛一句自己的「偏好」——这篇sycophancy(模型为了附和用户立场而牺牲正确性)评测的核心发现就在这个非对称上。具体分两层:一是模型面对用户直接反驳参考答案时降幅其实不大,比通用域文献里的结果更稳;二是当用户先抛出一个「偏好」再问问题时,多数模型会跟着用户预设走,给出违背正确答案的建议。作者也试了用一个预训练模型做输入过滤来缓解这种偏置,效果有但不彻底。和今天那篇评测数据分析agent过程质量的工作放一起看——两条线都在说agent在专业域的错法比通用对话更隐蔽,常规对话评测可能漏过去。
原文:The Price of Agreement: Measuring LLM Sycophancy in Agentic Financial Applications

也值得关注
今日观察
今天这两篇——PRM for Agentic Data Analysis和Price of Agreement——主题完全不相干,一个做过程奖励、一个做sycophancy评测,但落点惊人地一致:agent在专业域(数据分析、金融咨询)的失败模式不是显性错误,而是「看起来正常但悄悄走偏」。silent errors是代码跑通、解释器不报错,但结果其实是错的;sycophancy是用户先抛个立场,模型顺着调整建议——两种失败都不会触发传统pass/fail评估的报警,因为表面流程都「通过」了。
这件事对在专业场景部署agent的团队意味着:你过去依赖的通用域监督装置——无论是从数学域迁过来的PRM,还是基于对话基准的评分——在数据分析、金融咨询这类领域里都会失效,需要为这种「无声失败」专门设计监督信号。DataPRM的解法是让奖励模型主动跑代码探查中间状态,金融sycophancy的初步解法是输入侧偏好过滤——共同点是都不能只看最终输出,必须介入中间过程或前置条件。
行动建议:如果你正在专业域(财务、医疗、分析、咨询)部署agent,做一次专门的「无声失败」审计——挑10个真实业务场景,构造两类对照样本:一类故意埋逻辑错误但保留「流程合理」的外观,一类让用户先在prompt里表态再问问题,看你现有的评估装置能不能识别出来。如果识别不出,今天这两篇给的方向(过程级监督、前置偏好过滤)值得复刻一份到你自己的pipeline里。