今日概览
- 统一图像模型的难点不是拼能力,而是能力互相拉扯:DanceOPD把文生图、局部编辑、全局编辑之间的冲突当成训练问题,用on-policy生成场蒸馏去调和,还能把CFG这类推理技巧吸收进模型。
- 稀疏奖励补信号不必靠外部技能库:OPID直接从跑完的on-policy轨迹反推分层技能监督,把轨迹级奖励变成token级的密集自蒸馏信号。
- 视频模型最危险的失败模式是「不知道自己没看清」——遇到运动模糊、眩光、遮挡时准确率掉15-30个点却浑然不觉;Robust-TO给每帧打可信度分再调度工具,在五种扰动下的准确率落差最小。
- 离散视觉token的真实卖点是效率:ViQ用文本对齐预训练+分头量化兼顾语义与细节,换用量化表示后多模态训练能快20%到70%。
重点关注
01 图像生成 一个模型同时干文生图和编辑,为什么总是顾此失彼
把文生图、局部编辑、全局编辑塞进同一个模型,是这两年图像生成的共识方向,但这几种能力天生不和:加了编辑能力,文生图质量就掉;全局编辑和局部编辑之间也会互相干扰。DanceOPD没有再造一个新架构,而是把这种「能力打架」直接当成训练问题来解——在flow-matching(流匹配)模型里,把每种能力看成共享状态空间上的一个速度场,训练时把每个样本路由到对应的能力场去学。它的关键词是on-policy:学生模型不是去拟合老师的固定输出,而是在自己当前生成轨迹(rollout)经过的状态上去查询各能力场,用一个简单的速度MSE目标对齐,这样学到的是「如何在自己的生成过程中组合多种能力」,而不是死记某个老师的答案。顺带一提,它还能把classifier-free guidance(CFG,一种推理时的引导技巧)这类算子定义的场也吸收进训练,相当于把原本推理阶段才做的事提前固化到模型里。摘要里说在文生图、编辑、真实感场吸收、CFG吸收上都验证了能「强化目标能力同时保住基础生成质量」,但没有给出具体数字,提升幅度需要看全文确认。
原文:DanceOPD: On-Policy Generative Field Distillation
02 Agent 奖励只在终点结算,中间每一步该怎么训
用结果奖励(成功/失败)训练语言agent有个老毛病:信号太稀。一整条多轮轨迹跑完才给一个分数,模型知道自己赢了还是输了,却不知道中间哪一步是关键、哪一步该改。之前补信号的做法是引入外部技能库或检索特权上下文,但这些东西维护成本高,还容易和当前策略实际走到的状态对不上。OPID换了个更省事的思路:直接从跑完的on-policy轨迹里反推技能监督——episode级技能管全局流程和避坑规则,step级技能管关键时刻的局部决策,关键步骤优先用step级、其余回落到episode级。技能注入历史后让旧策略对同一条回答重新打分,log概率的偏移就成了token级的自蒸馏信号,和结果奖励一起优化。在ALFWorld、WebShop和搜索式QA上,样本效率和鲁棒性都比纯结果RL有提升,但具体提升幅度和是否跨任务稳定,需要看全文的对比表确认。
原文:OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
03 多模态 视频模型最危险的不是看错,是不知道自己没看清
我们一般以为视频推理模型的问题是「看错」,但这篇论文指出了更隐蔽的一种:模型默认每一帧都同样可靠,遇到运动模糊、眩光、遮挡时准确率掉15-30个点,却浑然不觉自己看到的证据已经烂了——作者管这叫「盲目信任问题」(Blind Trust Problem)。Robust-TO的思路是给每一帧打一个可信度分,再据此决定调用哪个感知工具、怎么加权证据,把「这帧值不值得信」显式纳入推理的每一步。效果上,干净输入下平均准确率超过最强开源基线10.6个点,也压过了Gemini-2.5-Pro;更关键的是在五种现实扰动下掉得最少,从干净到受损的准确率落差是所有对比方法里最小的。从业者视角看,这个「最小落差」比那个领先的绝对分数更值得在意——部署视频模型时,模型沉默地把烂证据当真,远比偶尔答错更难排查。
原文:Confidence-Aware Tool Orchestration for Robust Video Understanding
04 多模态 把图像切成离散token,难的从来不是切,是切完别丢东西
离散化必然丢信息,问题只在于丢哪一头:为重建优化的离散表示留得住细节却没语义,反过来为语义优化的又会把细节磨掉——而统一多模态建模偏偏两样都要。ViQ的做法是把量化拆成两步:先用预训练语言模型给视觉编码器做文本对齐的语义监督,再做特征离散化,离散阶段用一个位置感知的分头量化机制来支持任意原生分辨率。它没有声称彻底解决这个权衡,而是把「离散表示能不能同时保住语义和细节」往前推了一点——论文说在多模态任务上能逼平连续高维特征的SOTA编码器,同时保持低层重建精度。真正对从业者有意义的是效率账:换用量化表示后,不同LLM和训练配方下多模态训练能快20%到70%,这是离散token相比连续特征的天然优势。
原文:ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

也值得关注
今日观察
今天有意思的是两篇名字里都带「On-Policy...Distillation」的工作撞在了一起,可它们来自完全不搭界的两个领域:DanceOPD在调和图像生成里互相打架的多种能力,OPID在给语言agent的稀疏RL奖励补密集监督。一个搞生成、一个搞agent,业务上毫无交集,可剥开看,核心手法是同一个——on-policy自蒸馏:用模型自己当前策略产出的轨迹或样本,反过来给出细粒度(token级、场级)的内部监督信号,而不是去靠外部教师、外部记忆或离线数据。
把它当趋势喊未免太满,但这个巧合背后是同一个困境:最终目标的监督太粗——轨迹级的稀疏奖励、整图级的偏好,中间过程没人指导。on-policy自蒸馏正好把「分布匹配」和「密集监督」两件事一次办了:既让学习发生在模型自己实际会走到的状态分布上,又顺手把粗信号细化成每一步的指导。两个领域同时摸到这条路,与其说是谁抄了谁,不如说是同一个痛点逼出来的同一种解法。
如果你手头的训练正卡在「只有终点有信号、中间一团黑」,不妨把这两篇放一起读:先看你的「细粒度内部监督」能不能从模型自己的rollout里反推出来,而不是急着去搭一套外部教师或记忆库。