打乱音视频练推理,6B模型超GPT-4o

今日概览

  • Agent技能应该从用户群体中自进化:SkillClaw把多用户交互轨迹变成skill进化信号,一个人的修正自动同步全员,给Agent系统装上组织记忆
  • 小模型压缩比大模型硬看更聪明,Tempo用6B模型根据问题动态筛选关键帧,8K token预算下超过GPT-4o和Gemini 1.5 Pro
  • 灯光在视频生成中成为独立可控要素。LiVER通过物理渲染器解耦光照、布局与运镜,CVPR接收,瞄准专业影视制作流程
  • 打乱音视频让模型自己拼回去,跨模态推理就提升了——OmniJigsaw用零标注的时序重排代理任务迫使模型整合视听信号,15个benchmark验证有效

重点关注

01 Agent 你修好的Agent问题,为什么别人还在反复踩?

Agent系统的skills部署后就是静态的——你花半小时教会Agent正确调用某个API,隔壁同事遇到同样的坑还得再教一遍。这是当前多用户Agent产品最大的隐性浪费:经验困在个体session里,无法变成系统能力。SkillClaw的做法是把所有用户的使用轨迹当作进化信号:一个自主evolver持续聚合多用户交互数据,识别反复出现的失败模式和成功路径,把它们转化为对skill的修补或扩展。更新后的skills存在共享仓库里自动同步给所有用户,一个人踩过的坑变成全员的免疫力——本质上是给Agent系统装了一层「组织记忆」。在WildClawBench的实验中,仅靠有限的用户交互反馈,就显著提升了Qwen3-Max在真实Agent场景下的表现。204个HF upvote说明这个痛点打中了很多做Agent产品的人,多用户场景下的「集体学习」架构值得认真关注。

skills静态不进化是多用户Agent系统最大的隐性浪费,每个用户都在独立重踩相同的坑SkillClaw用跨用户轨迹驱动skill自动更新,一次修正全员受益做多用户Agent产品的团队应该考虑「组织记忆」这一层,经验复用比单点优化价值大得多

02 多模态 小模型当前哨,大模型才能看懂一小时视频?

让一个6B小模型帮大模型「看」视频,听起来像是用错了工具。但Tempo的逻辑很清楚:处理小时级视频时,问题不是模型不够大,而是塞进去的视觉token太多太杂。它用一个小型视觉语言模型做「前哨」——根据用户的具体问题,判断哪些帧是关键的、哪些只是背景冗余,压缩到每帧0.5-16个token再交给大模型。核心机制是自适应token分配(ATA),利用小模型的零样本相关性判断做动态路由,不需要额外训练,计算复杂度O(1)。6B架构在超长视频基准LVBench(平均4101秒)上拿到52.3分,8K视觉token预算下超过GPT-4o和Gemini 1.5 Pro——效率路线比暴力扩窗口更有说服力。

视频压缩必须是query-aware的,均匀采样和固定池化在盲目丢关键帧小模型压缩+大模型理解的分工架构是处理长视频的务实路线8K token预算下超过GPT-4o,证明「保留什么」比「塞多少」更重要

03 视频生成 灯光终于成了视频生成的一等公民

影视制作需要的不是「好看的画面」,而是能单独调灯光、换机位、改布局。LiVER的做法是在扩散模型前面加一层物理渲染器——先从统一的3D场景表示中渲染出控制信号(布局、光照、运镜),再把这些信号作为条件注入视频扩散模型。关键设计是解耦:改灯光不影响构图,换机位不改变光照,每个场景要素独立可控。框架还配了一个场景Agent,把自然语言指令自动翻译成3D控制参数,降低使用门槛。CVPR接收,方向瞄准专业制作流程,但从摘要看评估侧重画面真实感和时序一致性——在真实制作场景下的可用性还需要进一步验证。

通过物理渲染器解耦光照、布局、运镜,每个场景要素在视频生成中独立可控场景Agent将自然语言转3D控制信号,降低专业工具的使用门槛CVPR接收验证了方向价值,但实际制作场景下的表现仍需关注

04 训练优化 打乱音视频让模型自己拼回去,跨模态推理真提升了

多模态模型要学会「听」和「看」协同工作,通常需要大量人工标注的数据来训练。OmniJigsaw的做法简单到让人怀疑:把视频的音频和画面片段打乱顺序,让模型按时间线重新排列——本质上就是拼图游戏。但这个看似trivial的代理任务背后有个巧妙的机制:要正确排序,模型必须同时理解画面内容和声音线索,被迫学会跨模态整合。研究还发现了一个「双模态捷径现象」——模型会偷懒只靠一种模态排序,解决方案是在片段级别随机遮蔽某一模态,逼模型真正融合两种信号。在15个benchmark上的测试显示视频理解、音频理解和跨模态推理都有显著提升,而且整个过程不需要任何人工标注,可以直接在海量无标注数据上训练。

时序重排这种极简代理任务就能迫使模型学会跨模态协同,省去大量标注成本片段级模态遮蔽是关键——不遮蔽的话模型会走捷径只用单一模态做多模态后训练的团队值得关注这种零标注的自监督范式
打乱音视频练推理,6B模型超GPT-4o

也值得关注

05
170K风格描述+400K提示词构建规模化数据流水线 图像生成用生成模型自身的风格一致性解决风格迁移的数据瓶颈。链接
06
RLVR提了准确率但推理链反而变差 推理CoT与视觉证据脱钩,答案对了不代表推理过程靠谱。链接
07
虚拟试穿开始关心衣服合不合身 图像生成首个带精确尺码标注的试穿数据集,不只看贴上去好不好看。链接
08
梯度信号驱动的自适应层采样 训练优化用一半显存实现接近全参数微调的效果(ACL)。链接
09
能力越强的LLM在零成本协作下反而越不愿合作 安全对齐多Agent系统的合作失败是个值得重视的隐患(ICLR)。链接
10
Agent奖励模型不能只看单步决策 Agent需要评估整条规划轨迹的质量(ACL)。链接
11
无需标注的医学视觉推理 AI for ScienceAgentic RL让模型自主定位视觉证据再做判断(ICLR)。链接
12
搜索Agent的训练数据不是越多越好 推理分层经验框架从随机探索中筛出高价值轨迹。链接
13
用宝可梦3D环境测VLM长时序交互 评测比静态图文benchmark更接近Agent部署场景。链接
14
持续编辑VLM知识而不遗忘旧概念 多模态动态子空间对齐方法(CVPR)。链接

今日观察

今天四篇重点论文中有三篇不约而同指向同一个工程范式转移:学习信号的来源正在从「专门采集的标注数据」转向「系统运行时本就存在的结构化信号」。

SkillClaw从用户集体交互中提取技能进化压力——不是主动标注「这个skill哪里不好」,而是被动观察哪些技能在哪些场景下反复失败。OmniJigsaw从音视频的天然时序中提取跨模态监督——不需要人标注「这段声音对应这个画面」,时序一致性本身就是标签。Tempo从下游查询本身决定视频压缩策略——保留什么不是预设规则,而是query在运行时动态定义。

三者绕开了传统「收集标注→训练模型」的循环,转而利用系统运行中已经存在但此前被丢弃的信号。这不是数据量大小的问题,也不是自监督vs有监督的旧话题——关键区别在于:信号来自专门的采集流程,还是来自系统运转时的副产品。

对从业者的含义: 审视你的系统在运行中接触的结构化数据流——用户交互序列、时序媒体、查询-响应对。如果这些数据用完就丢,你可能正在浪费免费的学习信号。具体做法:挑一条你的系统已有的数据流,设计一个最小的代理任务(参考OmniJigsaw的时序重排思路),验证这个信号是否足够驱动模型改进——成本几乎为零,但可能打开一条不依赖标注的迭代路径。