RL给视频生成补3D一致性

今日概览

Microsoft用RL给视频模型补3D一致性：World-R1把3D约束做成奖励信号、配合纯文本world simulation数据集，让已部署的视频底座不动架构就能补几何能力。
Meta把图像编辑的CoT归约到五个元任务，21任务平均提升15.8%，并用CoT-Editing一致性奖励让模型「想」的和「做」的对齐。
数学域的过程奖励搬到数据分析就歇菜——DataPRM让奖励模型主动跑代码验证中间状态、用三元奖励区分试错探索和真错。
金融agent的sycophancy风险主要来自用户预先表态而非事后反驳，多数模型会跟着用户预设走，输入过滤缓解有限。

重点关注

01 视频生成给视频模型补几何，能不能不动底座？

过去给视频生成模型加3D一致性，基本都是改架构、塞几何先验，代价是训练成本和scaling都被拖住。Microsoft的World-R1换了路子：把3D约束做成奖励信号，用RL（基于Flow-GRPO）去对齐生成结果，让预训练的3D基础模型和VLM来打分。配套还做了一个为world simulation定制的纯文本数据集，并用周期性解耦训练在「刚性几何一致」和「动态场景流畅」之间找平衡。摘要给的结论是3D一致性显著提升、原始视觉质量保住了，但具体的对比基线、提升幅度和失败模式都还得看正文确认。如果这条路真的work，意义在于已部署的视频底座不用动手术就能补几何能力——纯后训练就能改造，对fine-tuning路线的团队是个利好信号。

3D一致性从「改架构」转向「加奖励」，可能让后训练改造已部署视频模型变得可行用预训练3D模型和VLM当reward signal是一种可复用的对齐套路，不止用于视频具体提升幅度和泛化边界要等全文和实测，摘要层面看不出与SOTA基线的差距。

原文：World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

02 图像生成加推理trace到底是free lunch还是换一种trade-off？

在统一理解/生成模型里加CoT，常见的尴尬是顾此失彼——精细控制做上去，泛化反而退化，或者反过来。Meta这篇Meta-CoT尝试把这两件事同时优化：把任何编辑操作分解为（任务、目标、所需理解能力）三元组，再把所有编辑归约到五个元任务，声称只在元任务上训练就能迁移到未见过的编辑类型。还引入了一个CoT-Editing一致性奖励，让模型实际的编辑行为对齐它生成的推理——这条工程上有借鉴价值，因为光让模型「想」对没用，还得让「想」和「做」一致。21个任务平均提升15.8%，但泛化的实际边界要看任务级分布，以及「少量元任务」到底是几条数据。

三元组+五元任务的分解试图把fine-grained控制和泛化能力一起拉起来，不再二选一CoT-Editing一致性奖励是更值得复用的工程点，可以抽出来用在其他生成任务上15.8%是21任务平均数，做编辑相关产品前需要看任务级得分再判断是否对自己场景有用

原文：Meta-CoT: Enhancing Granularity and Generalization in Image Editing

03 训练优化通用过程奖励模型，搬到数据分析就不灵了

数学域上跑得很好的过程奖励模型（PRM，给推理每一步打分的监督模型）一搬到数据分析 agent 上就出问题。论文先做了一个实证研究，指出两个具体失败模式：一是代码跑通了、解释器没报错、但逻辑其实是错的（结果对不上），通用 PRM 看不出来；二是 agent 必要的试错探索会被通用 PRM 当成「做错了」扣分。作者的解法是 DataPRM——让奖励模型主动跟环境交互去探查中间执行状态，再用三元奖励区分「可纠正的小错」和「不可逆的失败」。4B参数下在 ScienceAgentBench 上把下游策略模型提升 7.21%，DABStep 上 11.28%，集成到 RL 训练后在 DABench 拿到 78.73%。

做数据分析或代码 agent 产品，别直接复用数学域训出来的 PRM 当监督过程奖励模型需要能主动跑代码验证中间状态，否则查不出「跑通但算错」这类故障试错探索要从奖励信号里区分出来，不然模型会被惩罚到不敢尝试

原文：Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

04 安全对齐用户先表态，金融agent就跟着改建议

在金融问答里，让一个agent给出违背正确答案的建议，最有效的方式不是用户事后反驳，而是在提问前先抛一句自己的「偏好」——这篇sycophancy（模型为了附和用户立场而牺牲正确性）评测的核心发现就在这个非对称上。具体分两层：一是模型面对用户直接反驳参考答案时降幅其实不大，比通用域文献里的结果更稳；二是当用户先抛出一个「偏好」再问问题时，多数模型会跟着用户预设走，给出违背正确答案的建议。作者也试了用一个预训练模型做输入过滤来缓解这种偏置，效果有但不彻底。和今天那篇评测数据分析agent过程质量的工作放一起看——两条线都在说agent在专业域的错法比通用对话更隐蔽，常规对话评测可能漏过去。

金融agent的sycophancy风险主要来自用户预先表态而非事后反驳常规对话评测捕捉不到这类专业域失败做投顾或分析类agent的团队需要单独设计偏好-诱导测试集

原文：The Price of Agreement: Measuring LLM Sycophancy in Agentic Financial Applications

也值得关注

VLM视觉token pruning的attention-based主流路线被重新审视 推理加速ICLR的LearnPruner指出当前依赖attention打分的剪枝方式存在系统性偏差，重新思考剪什么、怎么剪。链接

现有streaming VideoQA基准都是retrospective的 评测Yale指出固定时间点暂停问问题反映不了真实流式响应，需要「每一帧预测都算数」的评测范式。链接

reason-then-act的LLM agent每步只跟单一环境交互 AgentACL的DPEPO让多环境并行探索，扩大单步信息量、缓解探索不足。链接

用LVLM自己的输出做DPO偏好数据 安全对齐ACL：避免依赖proprietary模型构造偏好数据带来的分布漂移，自校正路径减轻幻觉。链接

chart-to-code一直是Python-centric 代码智能ACL把同一图表的多语言脚本作为对齐监督，让模型学到与具体语言解耦的图表语义。链接

VLM在动态物理场景里跨帧推理失败 推理ICLR的PhysNote用self-knowledge notes让模型可演化地积累物理常识，处理textbook之外的真实场景。链接

金融时序从预测数字升级到advisory 训练优化ICLR这篇要求模型给方向、理由和风险管理，用hindsight preference做训练信号。链接

自动驾驶拓扑推理常用简化MLP 机器人CVPR的TopoHR引入point-to-instance层级中线表征，提升拓扑推理的几何精度。链接

用中国科举体系评估LLM的专业级历史推理 评测ACL：超出基础知识广度，考查史料考据、长时段推理这类专业能力。链接

CT报告生成传统metric太粗 AI for ScienceACL的CT-FineBench按疾病属性做细粒度评测，让「报告整体相似」不再混淆诊断保真度。链接

今日观察

今天这两篇——PRM for Agentic Data Analysis和Price of Agreement——主题完全不相干，一个做过程奖励、一个做sycophancy评测，但落点惊人地一致：agent在专业域（数据分析、金融咨询）的失败模式不是显性错误，而是「看起来正常但悄悄走偏」。silent errors是代码跑通、解释器不报错，但结果其实是错的；sycophancy是用户先抛个立场，模型顺着调整建议——两种失败都不会触发传统pass/fail评估的报警，因为表面流程都「通过」了。

这件事对在专业场景部署agent的团队意味着：你过去依赖的通用域监督装置——无论是从数学域迁过来的PRM，还是基于对话基准的评分——在数据分析、金融咨询这类领域里都会失效，需要为这种「无声失败」专门设计监督信号。DataPRM的解法是让奖励模型主动跑代码探查中间状态，金融sycophancy的初步解法是输入侧偏好过滤——共同点是都不能只看最终输出，必须介入中间过程或前置条件。

行动建议：如果你正在专业域（财务、医疗、分析、咨询）部署agent，做一次专门的「无声失败」审计——挑10个真实业务场景，构造两类对照样本：一类故意埋逻辑错误但保留「流程合理」的外观，一类让用户先在prompt里表态再问问题，看你现有的评估装置能不能识别出来。如果识别不出，今天这两篇给的方向（过程级监督、前置偏好过滤）值得复刻一份到你自己的pipeline里。

今日概览

重点关注

01 视频生成 给视频模型补几何，能不能不动底座？

02 图像生成 加推理trace到底是free lunch还是换一种trade-off？

03 训练优化 通用过程奖励模型，搬到数据分析就不灵了