ViQ让多模态训练提速20-70%

今日概览

统一图像模型的难点不是拼能力，而是能力互相拉扯：DanceOPD把文生图、局部编辑、全局编辑之间的冲突当成训练问题，用on-policy生成场蒸馏去调和，还能把CFG这类推理技巧吸收进模型。
稀疏奖励补信号不必靠外部技能库：OPID直接从跑完的on-policy轨迹反推分层技能监督，把轨迹级奖励变成token级的密集自蒸馏信号。
视频模型最危险的失败模式是「不知道自己没看清」——遇到运动模糊、眩光、遮挡时准确率掉15-30个点却浑然不觉；Robust-TO给每帧打可信度分再调度工具，在五种扰动下的准确率落差最小。
离散视觉token的真实卖点是效率：ViQ用文本对齐预训练+分头量化兼顾语义与细节，换用量化表示后多模态训练能快20%到70%。

重点关注

01 图像生成一个模型同时干文生图和编辑，为什么总是顾此失彼

把文生图、局部编辑、全局编辑塞进同一个模型，是这两年图像生成的共识方向，但这几种能力天生不和：加了编辑能力，文生图质量就掉；全局编辑和局部编辑之间也会互相干扰。DanceOPD没有再造一个新架构，而是把这种「能力打架」直接当成训练问题来解——在flow-matching（流匹配）模型里，把每种能力看成共享状态空间上的一个速度场，训练时把每个样本路由到对应的能力场去学。它的关键词是on-policy：学生模型不是去拟合老师的固定输出，而是在自己当前生成轨迹（rollout）经过的状态上去查询各能力场，用一个简单的速度MSE目标对齐，这样学到的是「如何在自己的生成过程中组合多种能力」，而不是死记某个老师的答案。顺带一提，它还能把classifier-free guidance（CFG，一种推理时的引导技巧）这类算子定义的场也吸收进训练，相当于把原本推理阶段才做的事提前固化到模型里。摘要里说在文生图、编辑、真实感场吸收、CFG吸收上都验证了能「强化目标能力同时保住基础生成质量」，但没有给出具体数字，提升幅度需要看全文确认。

统一模型难的不是把多个能力拼起来，而是它们在训练时会互相拉扯，DanceOPD把这个冲突显式当成蒸馏目标来调和on-policy的核心价值在于学生在自己的生成轨迹上学习能力组合，而不是拟合老师的离线输出，这是它和普通蒸馏的分水岭能把CFG这类推理技巧吸收进模型是个实用信号——意味着部署时可能省掉一部分引导开销，做统一编辑模型的团队值得关注这条路线。

原文：DanceOPD: On-Policy Generative Field Distillation

02 Agent 奖励只在终点结算，中间每一步该怎么训

用结果奖励（成功/失败）训练语言agent有个老毛病：信号太稀。一整条多轮轨迹跑完才给一个分数，模型知道自己赢了还是输了，却不知道中间哪一步是关键、哪一步该改。之前补信号的做法是引入外部技能库或检索特权上下文，但这些东西维护成本高，还容易和当前策略实际走到的状态对不上。OPID换了个更省事的思路：直接从跑完的on-policy轨迹里反推技能监督——episode级技能管全局流程和避坑规则，step级技能管关键时刻的局部决策，关键步骤优先用step级、其余回落到episode级。技能注入历史后让旧策略对同一条回答重新打分，log概率的偏移就成了token级的自蒸馏信号，和结果奖励一起优化。在ALFWorld、WebShop和搜索式QA上，样本效率和鲁棒性都比纯结果RL有提升，但具体提升幅度和是否跨任务稳定，需要看全文的对比表确认。

稀疏奖励补信号不一定要外部技能库，从自己跑过的轨迹里反推就能拿到密集的token级监督分层技能+关键步骤优先路由，是把「哪一步重要」显式建模的一种可复用思路做agentic RL的团队值得关注，但跨任务的稳定增益还得等更多复现验证。

原文：OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

03 多模态视频模型最危险的不是看错，是不知道自己没看清

我们一般以为视频推理模型的问题是「看错」，但这篇论文指出了更隐蔽的一种：模型默认每一帧都同样可靠，遇到运动模糊、眩光、遮挡时准确率掉15-30个点，却浑然不觉自己看到的证据已经烂了——作者管这叫「盲目信任问题」(Blind Trust Problem)。Robust-TO的思路是给每一帧打一个可信度分，再据此决定调用哪个感知工具、怎么加权证据，把「这帧值不值得信」显式纳入推理的每一步。效果上，干净输入下平均准确率超过最强开源基线10.6个点，也压过了Gemini-2.5-Pro；更关键的是在五种现实扰动下掉得最少，从干净到受损的准确率落差是所有对比方法里最小的。从业者视角看，这个「最小落差」比那个领先的绝对分数更值得在意——部署视频模型时，模型沉默地把烂证据当真，远比偶尔答错更难排查。

「模型不知道自己没看清」是部署视频模型时最容易被忽视的失败模式，比单纯答错更难发现评估视频模型时除了看干净输入的准确率，更该看扰动下的准确率落差有多大按帧可信度调度工具是一种可借鉴的兜底思路，但具体收益需要看全文和自己场景下的数据确认。

原文：Confidence-Aware Tool Orchestration for Robust Video Understanding

04 多模态把图像切成离散token，难的从来不是切，是切完别丢东西

离散化必然丢信息，问题只在于丢哪一头：为重建优化的离散表示留得住细节却没语义，反过来为语义优化的又会把细节磨掉——而统一多模态建模偏偏两样都要。ViQ的做法是把量化拆成两步：先用预训练语言模型给视觉编码器做文本对齐的语义监督，再做特征离散化，离散阶段用一个位置感知的分头量化机制来支持任意原生分辨率。它没有声称彻底解决这个权衡，而是把「离散表示能不能同时保住语义和细节」往前推了一点——论文说在多模态任务上能逼平连续高维特征的SOTA编码器，同时保持低层重建精度。真正对从业者有意义的是效率账：换用量化表示后，不同LLM和训练配方下多模态训练能快20%到70%，这是离散token相比连续特征的天然优势。

离散视觉表示的核心矛盾是语义与细节难兼顾，ViQ用文本对齐预训练+分头量化把这个权衡推进了一格，但没解决任意原生分辨率支持比刷榜数字更值得关注，它决定了这套表示能不能当通用底座用20%-70%的训练加速是离散token相比连续特征的真实卖点，做多模态训练成本敏感的团队值得跟一下。

原文：ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

也值得关注

给T2I套一层plan-reason-search-memory的agent框架 图像生成补全用户那些模糊、隐含、依赖最新知识的真实请求。Qwen-Image-Agent

NVIDIA双塔结构把上下文表示和迭代去噪拆给两个网络 模型架构给扩散语言模型松绑。Nemotron-TwoTower

三值量化不再依赖昂贵的量化感知训练 推理加速也能压住精度损失。CAT-Q

实时流式视频编辑 视频生成同时解决背景稳定和低延迟两个老大难。LiveEdit

筛推理SFT数据不必依赖强推理模型 训练优化高质量信号其实很早就显现出来。Reasoning Quality Emerges Early

把test-time scaling搬到机器人操作 机器人研究推理在具身任务上到底怎么scale。E-TTS

小开源模型做GUI agent Agent靠自主经验探索和事后经验复用补上task planning短板。GUI Agent

把视觉空间推理和语言先验拆开来诊断 评测看VLM到底是真理解还是在背先验。CRISP

在世界坐标的3D网格上而非像素空间模拟力学 AI for Science物理更可信。PhysiFormer

剑桥用「激进解释论」的哲学框架 可解释性从计算事实反推AI系统的信念与意图。Radical AI Interpretability

今日观察

今天有意思的是两篇名字里都带「On-Policy...Distillation」的工作撞在了一起，可它们来自完全不搭界的两个领域：DanceOPD在调和图像生成里互相打架的多种能力，OPID在给语言agent的稀疏RL奖励补密集监督。一个搞生成、一个搞agent，业务上毫无交集，可剥开看，核心手法是同一个——on-policy自蒸馏：用模型自己当前策略产出的轨迹或样本，反过来给出细粒度（token级、场级）的内部监督信号，而不是去靠外部教师、外部记忆或离线数据。

把它当趋势喊未免太满，但这个巧合背后是同一个困境：最终目标的监督太粗——轨迹级的稀疏奖励、整图级的偏好，中间过程没人指导。on-policy自蒸馏正好把「分布匹配」和「密集监督」两件事一次办了：既让学习发生在模型自己实际会走到的状态分布上，又顺手把粗信号细化成每一步的指导。两个领域同时摸到这条路，与其说是谁抄了谁，不如说是同一个痛点逼出来的同一种解法。

如果你手头的训练正卡在「只有终点有信号、中间一团黑」，不妨把这两篇放一起读：先看你的「细粒度内部监督」能不能从模型自己的rollout里反推出来，而不是急着去搭一套外部教师或记忆库。