今日概览
- Agent技能应该从用户群体中自进化:SkillClaw把多用户交互轨迹变成skill进化信号,一个人的修正自动同步全员,给Agent系统装上组织记忆
- 小模型压缩比大模型硬看更聪明,Tempo用6B模型根据问题动态筛选关键帧,8K token预算下超过GPT-4o和Gemini 1.5 Pro
- 灯光在视频生成中成为独立可控要素。LiVER通过物理渲染器解耦光照、布局与运镜,CVPR接收,瞄准专业影视制作流程
- 打乱音视频让模型自己拼回去,跨模态推理就提升了——OmniJigsaw用零标注的时序重排代理任务迫使模型整合视听信号,15个benchmark验证有效
重点关注
01 Agent 你修好的Agent问题,为什么别人还在反复踩?
Agent系统的skills部署后就是静态的——你花半小时教会Agent正确调用某个API,隔壁同事遇到同样的坑还得再教一遍。这是当前多用户Agent产品最大的隐性浪费:经验困在个体session里,无法变成系统能力。SkillClaw的做法是把所有用户的使用轨迹当作进化信号:一个自主evolver持续聚合多用户交互数据,识别反复出现的失败模式和成功路径,把它们转化为对skill的修补或扩展。更新后的skills存在共享仓库里自动同步给所有用户,一个人踩过的坑变成全员的免疫力——本质上是给Agent系统装了一层「组织记忆」。在WildClawBench的实验中,仅靠有限的用户交互反馈,就显著提升了Qwen3-Max在真实Agent场景下的表现。204个HF upvote说明这个痛点打中了很多做Agent产品的人,多用户场景下的「集体学习」架构值得认真关注。
原文:SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
02 多模态 小模型当前哨,大模型才能看懂一小时视频?
让一个6B小模型帮大模型「看」视频,听起来像是用错了工具。但Tempo的逻辑很清楚:处理小时级视频时,问题不是模型不够大,而是塞进去的视觉token太多太杂。它用一个小型视觉语言模型做「前哨」——根据用户的具体问题,判断哪些帧是关键的、哪些只是背景冗余,压缩到每帧0.5-16个token再交给大模型。核心机制是自适应token分配(ATA),利用小模型的零样本相关性判断做动态路由,不需要额外训练,计算复杂度O(1)。6B架构在超长视频基准LVBench(平均4101秒)上拿到52.3分,8K视觉token预算下超过GPT-4o和Gemini 1.5 Pro——效率路线比暴力扩窗口更有说服力。
原文:Small Vision-Language Models are Smart Compressors for Long Video Understanding
03 视频生成 灯光终于成了视频生成的一等公民
影视制作需要的不是「好看的画面」,而是能单独调灯光、换机位、改布局。LiVER的做法是在扩散模型前面加一层物理渲染器——先从统一的3D场景表示中渲染出控制信号(布局、光照、运镜),再把这些信号作为条件注入视频扩散模型。关键设计是解耦:改灯光不影响构图,换机位不改变光照,每个场景要素独立可控。框架还配了一个场景Agent,把自然语言指令自动翻译成3D控制参数,降低使用门槛。CVPR接收,方向瞄准专业制作流程,但从摘要看评估侧重画面真实感和时序一致性——在真实制作场景下的可用性还需要进一步验证。
原文:Lighting-grounded Video Generation with Renderer-based Agent Reasoning
04 训练优化 打乱音视频让模型自己拼回去,跨模态推理真提升了
多模态模型要学会「听」和「看」协同工作,通常需要大量人工标注的数据来训练。OmniJigsaw的做法简单到让人怀疑:把视频的音频和画面片段打乱顺序,让模型按时间线重新排列——本质上就是拼图游戏。但这个看似trivial的代理任务背后有个巧妙的机制:要正确排序,模型必须同时理解画面内容和声音线索,被迫学会跨模态整合。研究还发现了一个「双模态捷径现象」——模型会偷懒只靠一种模态排序,解决方案是在片段级别随机遮蔽某一模态,逼模型真正融合两种信号。在15个benchmark上的测试显示视频理解、音频理解和跨模态推理都有显著提升,而且整个过程不需要任何人工标注,可以直接在海量无标注数据上训练。
原文:OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

也值得关注
今日观察
今天四篇重点论文中有三篇不约而同指向同一个工程范式转移:学习信号的来源正在从「专门采集的标注数据」转向「系统运行时本就存在的结构化信号」。
SkillClaw从用户集体交互中提取技能进化压力——不是主动标注「这个skill哪里不好」,而是被动观察哪些技能在哪些场景下反复失败。OmniJigsaw从音视频的天然时序中提取跨模态监督——不需要人标注「这段声音对应这个画面」,时序一致性本身就是标签。Tempo从下游查询本身决定视频压缩策略——保留什么不是预设规则,而是query在运行时动态定义。
三者绕开了传统「收集标注→训练模型」的循环,转而利用系统运行中已经存在但此前被丢弃的信号。这不是数据量大小的问题,也不是自监督vs有监督的旧话题——关键区别在于:信号来自专门的采集流程,还是来自系统运转时的副产品。
对从业者的含义: 审视你的系统在运行中接触的结构化数据流——用户交互序列、时序媒体、查询-响应对。如果这些数据用完就丢,你可能正在浪费免费的学习信号。具体做法:挑一条你的系统已有的数据流,设计一个最小的代理任务(参考OmniJigsaw的时序重排思路),验证这个信号是否足够驱动模型改进——成本几乎为零,但可能打开一条不依赖标注的迭代路径。