剪枝小模型捷径只在预算紧时成立

今日概览

  • 剪枝不是无条件的捷径——Princeton在token预算对齐下正面对比「剪枝vs从头训」,只有训练预算紧时剪枝才稳赢,预算放开后粗粒度剪枝会被追平甚至反超,唯有细粒度还保得住优势。
  • GRPO组内全对或全错,这批梯度就是白给:VISTA不改算法,靠同一GUI实例的多视图构造比较组,把坍缩的相对信号救回来,ScreenSpot-Pro上grounding准确率从55提到63-67。
  • 给医疗模型的幻觉做「CT」而不只是量体温:ClinHallu把幻觉定位到视觉误认、医学知识召回、推理整合三个阶段,让你知道该补哪一环,而非又多一个分数榜。
  • 音视频QA的瓶颈在数据构造而非模型。OmniVideo-100K用实体锚定脚本重建音画关联、按线索反向出题,跨基准约12%的增益说明这套范式能迁移到自己的管线。

重点关注

01 模型架构 剪枝做小模型,捷径只在预算紧时成立

业界默认拿大模型剪一刀就能得到又便宜又强的小模型,但这个捷径成不成立,要看你有多少训练预算。Princeton这篇在token预算对齐的受控设置下,把Llama-3.1-8B用六种方法(覆盖深度、宽度、稀疏粒度)剪到0.5-0.8的剪枝比,正面对比「剪枝」和「直接从头训同尺寸模型」。结论分两种情况:训练token预算有限时,剪枝初始化稳定优于随机初始化——父模型确实是个好起点,但这个优势会随着训练token增多、剪枝比升高而收窄,在最高剪枝比下几乎消失。而当从头训练拿到整条流水线消耗的全部token预算时,只有细粒度剪枝还保得住优势,粗粒度的结构化剪枝则会被追平甚至反超。换句话说,父模型传递的知识里,有一部分是单靠加训练token补不回来的,但仅在细粒度下成立。这里的细粒度和粗粒度,差在动刀的对象:粗粒度(结构化剪枝)成层、成列地砍掉深度或宽度,留下的子网被迫从一个被打乱的骨架重学,连接关系已经断了;细粒度按单个权重的重要性挑着剪,把父模型里真正承载知识的那些连接尽量原样保下来,所以那部分加训练也补不回的知识才转移得过去。判断自己「预算紧不紧」也有个直接参照:能投入的训练token若远小于从头训一个同尺寸模型所需的量,就属于「紧」,剪枝几乎稳赢;一旦预算逼近从头训的水平,就只剩细粒度还值得做。

手里有大预训练模型且训练token预算有限,剪枝是更优解,可以直接照做预算不受限时,粗粒度剪枝并不比从头训更有优势,大父模型不是必需品剪枝粒度比剪枝比更关键——细粒度才能转移那部分补不回来的知识。

02 训练优化 GRPO组内全对或全错,这一批梯度等于白给

GRPO靠组内rollout的相对优劣来产生学习信号。但用在GUI grounding(让模型在截图上点对位置)时有个很具体的退化:从单张截图采样,难题往往全错、易题往往全对,组内没有差异,这一批梯度等于白给。VISTA的解法不在模型而在数据构造——从同一个GUI实例裁出多个「保留目标」的视图(目标元素始终可见、坐标框精确重映射),让语义相同但几何不同的输入组成一个比较组,组内既有成功也有失败,把被坍缩掉的相对信号救回来。在ScreenSpot-Pro上,Qwen3-VL几个尺寸的grounding准确率从55左右提到63-67,同时worst-view准确率更高、预测翻转率更低,说明提升来自更稳的定位而非刷分。

advantage坍缩未必要动算法,视图侧增强是更轻的解法这套思路对任何用GRPO训agent或grounding的人都可直接借鉴多视图同时压低了预测翻转率,稳健性收益和准确率收益是一起来的

03 评测 给医疗模型的幻觉做CT,而不只是量体温

医疗多模态模型的幻觉benchmark大多停在统计层面——答对多少、答错多少,给个分数榜。ClinHallu换了个更费劲也更实用的问法:错到底出在哪一步。它把每条推理拆成视觉识别、医学知识召回、推理整合三个阶段,7031条经过验证的样本各自带一条结构化推理轨迹,再用「阶段替换」干预——单独把某一阶段的错误纠正掉,看最终答案变不变——来定位幻觉的真正来源。对想debug模型而不只是给它打分的团队,这套source-level诊断比又多一个分数有用:你能知道该补视觉编码器、补知识库还是补推理链。论文还顺手验证了用轨迹监督做微调能减少分阶段幻觉,但具体降幅和泛化性需要看全文确认。

幻觉benchmark从「答错了多少」升级到「错在哪个推理阶段」,给debug提供抓手阶段替换干预能定位单一阶段对最终错误的贡献,比整体准确率更细做医疗或高风险垂直模型的团队,值得用这种分阶段诊断思路替代单一分数评估。

04 多模态 音视频问答的数据,到底卡在哪一步?

做音视频理解的人都用过「video-caption-QA」那套流水线:把视频切成短片,音频和画面分开描述,再合成问答。问题出在第一刀——切片就切断了声音和它视觉来源的关联,同一个人在不同片段里的描述还经常前后打架,模型最终只学到局部事件,问不出需要跨段、跨模态推理的题。OmniVideo-100K的解法不在模型而在数据构造:先用「实体锚定脚本」把整段视频转成带摘要、主体实体表和分段音画描述的结构化脚本,用全局实体表保证跨段指代一致、重建音画关联;再让模型从脚本里先挖跨段的多模态线索,基于这些「高价值线索」反向生成问答。在三个不同规模的Omni模型上微调,自建测试集最高提升20.59%,迁移到Daily-Omni等公开基准也有约12%的增益,说明涨点不只是过拟合自家数据。对从业者来说,真正可复用的是这套「先重建关联、再按线索出题」的范式,而不是又多了一个十万级数据集。

音视频QA的瓶颈在数据构造而非模型——切片式caption流水线会切断音画关联、制造跨段矛盾「实体表做全局锚点+线索引导出题」是可迁移到自己数据管线的方法论跨基准12%的增益说明这套构造范式有泛化性,值得做音视频理解的团队借鉴。
剪枝小模型捷径只在预算紧时成立

也值得关注

05
LLM正从「对话生成器」变成「数字同事」 Agent今天HF最高赞(16),把这场转变梳理成「认知核心+持续工作」两条轴的立场综述,框架性强但偏宏观,适合想要行业叙事坐标的人扫一眼。链接
06
agent的运行时harness至今基本靠手搓且静态 AgentHarnessX尝试把prompt/工具/记忆/控制流做成可组合、可自适应、可演化的「铸造厂」。链接
07
技能包部署后总会因边缘case和API变化失效 AgentSkillAudit用成对轨迹审计、不依赖ground-truth地让技能持续演化,把「技能在哪一步失效」变成可定位的问题。链接
08
一份从数据采集到真机部署的完整VLA学习栈报告 机器人HyVLA-0.5覆盖模型设计、持续预训练/SFT、RL后训练到真机部署全链路,适合想看端到端工程拼装的人。链接
09
某层的垃圾视觉token可能是另一层的宝 推理加速已有token剪枝多在固定层做,这篇改成逐层自适应选择来给LVLM减负。链接
10
split learning暗藏双向泄漏 安全对齐prompt侧和response侧都可能被还原,这篇给出攻击与防御,ICML接收。链接
11
文生图的概念擦除常擦过头、连带删掉正常内容 安全对齐ForceForget用强化学习做概念移除,试图在安全和保真之间收得更准。链接
12
helpfulness后训练把LLM模拟器拉成千篇一律的「乖巧助手」 评测制造Sim2Real行为鸿沟,OdysSim造大规模数据来缩这个差。链接
13
神经网络并没真正解决系统性难题 可解释性MIT回头泼冷水,挑战「认知谜题已被神经网络解决」的乐观叙事。链接

今日观察

把ClinHallu和SkillAudit摆到一起看,会浮现一条不显眼的共同位移:评估和迭代的关注点,正从「最终结果对不对」挪向「过程的哪一环出了问题」。ClinHallu不再只统计医疗幻觉的多少,而是把它定位到视觉误认、知识召回、推理整合三种来源;SkillAudit不依赖ground-truth,靠成对轨迹审计去找技能在哪一步失效。连VISTA都算半个旁证——它靠多视图自验证去构造有效训练信号,本质也是在中间过程上做文章。这条线之所以容易被错过,是因为它横跨了医疗评测、agent技能、GUI训练几个看似无关的方向,单看每篇都只是一个领域的小改进,叠在一起才显出「从outcome到process」的转向。

对从业者的提示:与其只盯一个终点分数,不如给中间过程上探针。下次评估模型时,别只问「答对没」,试着把一条失败轨迹拆成几个阶段,逐段替换或回放,看错误到底在哪一环引入——定位失效点,比知道「有没有错」更能指导你下一步该补哪里。