剪枝小模型捷径只在预算紧时成立

今日概览

剪枝不是无条件的捷径——Princeton在token预算对齐下正面对比「剪枝vs从头训」，只有训练预算紧时剪枝才稳赢，预算放开后粗粒度剪枝会被追平甚至反超，唯有细粒度还保得住优势。
GRPO组内全对或全错，这批梯度就是白给：VISTA不改算法，靠同一GUI实例的多视图构造比较组，把坍缩的相对信号救回来，ScreenSpot-Pro上grounding准确率从55提到63-67。
给医疗模型的幻觉做「CT」而不只是量体温：ClinHallu把幻觉定位到视觉误认、医学知识召回、推理整合三个阶段，让你知道该补哪一环，而非又多一个分数榜。
音视频QA的瓶颈在数据构造而非模型。OmniVideo-100K用实体锚定脚本重建音画关联、按线索反向出题，跨基准约12%的增益说明这套范式能迁移到自己的管线。

重点关注

01 模型架构剪枝做小模型，捷径只在预算紧时成立

业界默认拿大模型剪一刀就能得到又便宜又强的小模型，但这个捷径成不成立，要看你有多少训练预算。Princeton这篇在token预算对齐的受控设置下，把Llama-3.1-8B用六种方法（覆盖深度、宽度、稀疏粒度）剪到0.5-0.8的剪枝比，正面对比「剪枝」和「直接从头训同尺寸模型」。结论分两种情况：训练token预算有限时，剪枝初始化稳定优于随机初始化——父模型确实是个好起点，但这个优势会随着训练token增多、剪枝比升高而收窄，在最高剪枝比下几乎消失。而当从头训练拿到整条流水线消耗的全部token预算时，只有细粒度剪枝还保得住优势，粗粒度的结构化剪枝则会被追平甚至反超。换句话说，父模型传递的知识里，有一部分是单靠加训练token补不回来的，但仅在细粒度下成立。这里的细粒度和粗粒度，差在动刀的对象：粗粒度（结构化剪枝）成层、成列地砍掉深度或宽度，留下的子网被迫从一个被打乱的骨架重学，连接关系已经断了；细粒度按单个权重的重要性挑着剪，把父模型里真正承载知识的那些连接尽量原样保下来，所以那部分加训练也补不回的知识才转移得过去。判断自己「预算紧不紧」也有个直接参照：能投入的训练token若远小于从头训一个同尺寸模型所需的量，就属于「紧」，剪枝几乎稳赢；一旦预算逼近从头训的水平，就只剩细粒度还值得做。

手里有大预训练模型且训练token预算有限，剪枝是更优解，可以直接照做预算不受限时，粗粒度剪枝并不比从头训更有优势，大父模型不是必需品剪枝粒度比剪枝比更关键——细粒度才能转移那部分补不回来的知识。

原文：Small LLMs: Pruning vs. Training from Scratch

02 训练优化 GRPO组内全对或全错，这一批梯度等于白给

GRPO靠组内rollout的相对优劣来产生学习信号。但用在GUI grounding（让模型在截图上点对位置）时有个很具体的退化：从单张截图采样，难题往往全错、易题往往全对，组内没有差异，这一批梯度等于白给。VISTA的解法不在模型而在数据构造——从同一个GUI实例裁出多个「保留目标」的视图（目标元素始终可见、坐标框精确重映射），让语义相同但几何不同的输入组成一个比较组，组内既有成功也有失败，把被坍缩掉的相对信号救回来。在ScreenSpot-Pro上，Qwen3-VL几个尺寸的grounding准确率从55左右提到63-67，同时worst-view准确率更高、预测翻转率更低，说明提升来自更稳的定位而非刷分。

advantage坍缩未必要动算法，视图侧增强是更轻的解法这套思路对任何用GRPO训agent或grounding的人都可直接借鉴多视图同时压低了预测翻转率，稳健性收益和准确率收益是一起来的

原文：VISTA: View-Consistent Self-Verified Training for GUI Grounding

03 评测给医疗模型的幻觉做CT，而不只是量体温

医疗多模态模型的幻觉benchmark大多停在统计层面——答对多少、答错多少，给个分数榜。ClinHallu换了个更费劲也更实用的问法：错到底出在哪一步。它把每条推理拆成视觉识别、医学知识召回、推理整合三个阶段，7031条经过验证的样本各自带一条结构化推理轨迹，再用「阶段替换」干预——单独把某一阶段的错误纠正掉，看最终答案变不变——来定位幻觉的真正来源。对想debug模型而不只是给它打分的团队，这套source-level诊断比又多一个分数有用：你能知道该补视觉编码器、补知识库还是补推理链。论文还顺手验证了用轨迹监督做微调能减少分阶段幻觉，但具体降幅和泛化性需要看全文确认。

幻觉benchmark从「答错了多少」升级到「错在哪个推理阶段」，给debug提供抓手阶段替换干预能定位单一阶段对最终错误的贡献，比整体准确率更细做医疗或高风险垂直模型的团队，值得用这种分阶段诊断思路替代单一分数评估。

原文：ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

04 多模态音视频问答的数据，到底卡在哪一步？

做音视频理解的人都用过「video-caption-QA」那套流水线：把视频切成短片，音频和画面分开描述，再合成问答。问题出在第一刀——切片就切断了声音和它视觉来源的关联，同一个人在不同片段里的描述还经常前后打架，模型最终只学到局部事件，问不出需要跨段、跨模态推理的题。OmniVideo-100K的解法不在模型而在数据构造：先用「实体锚定脚本」把整段视频转成带摘要、主体实体表和分段音画描述的结构化脚本，用全局实体表保证跨段指代一致、重建音画关联；再让模型从脚本里先挖跨段的多模态线索，基于这些「高价值线索」反向生成问答。在三个不同规模的Omni模型上微调，自建测试集最高提升20.59%，迁移到Daily-Omni等公开基准也有约12%的增益，说明涨点不只是过拟合自家数据。对从业者来说，真正可复用的是这套「先重建关联、再按线索出题」的范式，而不是又多了一个十万级数据集。

音视频QA的瓶颈在数据构造而非模型——切片式caption流水线会切断音画关联、制造跨段矛盾「实体表做全局锚点+线索引导出题」是可迁移到自己数据管线的方法论跨基准12%的增益说明这套构造范式有泛化性，值得做音视频理解的团队借鉴。

原文：OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

也值得关注

LLM正从「对话生成器」变成「数字同事」 Agent今天HF最高赞（16），把这场转变梳理成「认知核心+持续工作」两条轴的立场综述，框架性强但偏宏观，适合想要行业叙事坐标的人扫一眼。链接

agent的运行时harness至今基本靠手搓且静态 AgentHarnessX尝试把prompt/工具/记忆/控制流做成可组合、可自适应、可演化的「铸造厂」。链接

技能包部署后总会因边缘case和API变化失效 AgentSkillAudit用成对轨迹审计、不依赖ground-truth地让技能持续演化，把「技能在哪一步失效」变成可定位的问题。链接

一份从数据采集到真机部署的完整VLA学习栈报告 机器人HyVLA-0.5覆盖模型设计、持续预训练/SFT、RL后训练到真机部署全链路，适合想看端到端工程拼装的人。链接

某层的垃圾视觉token可能是另一层的宝 推理加速已有token剪枝多在固定层做，这篇改成逐层自适应选择来给LVLM减负。链接

split learning暗藏双向泄漏 安全对齐prompt侧和response侧都可能被还原，这篇给出攻击与防御，ICML接收。链接

文生图的概念擦除常擦过头、连带删掉正常内容 安全对齐ForceForget用强化学习做概念移除，试图在安全和保真之间收得更准。链接

helpfulness后训练把LLM模拟器拉成千篇一律的「乖巧助手」 评测制造Sim2Real行为鸿沟，OdysSim造大规模数据来缩这个差。链接

神经网络并没真正解决系统性难题 可解释性MIT回头泼冷水，挑战「认知谜题已被神经网络解决」的乐观叙事。链接

今日观察

把ClinHallu和SkillAudit摆到一起看，会浮现一条不显眼的共同位移：评估和迭代的关注点，正从「最终结果对不对」挪向「过程的哪一环出了问题」。ClinHallu不再只统计医疗幻觉的多少，而是把它定位到视觉误认、知识召回、推理整合三种来源；SkillAudit不依赖ground-truth，靠成对轨迹审计去找技能在哪一步失效。连VISTA都算半个旁证——它靠多视图自验证去构造有效训练信号，本质也是在中间过程上做文章。这条线之所以容易被错过，是因为它横跨了医疗评测、agent技能、GUI训练几个看似无关的方向，单看每篇都只是一个领域的小改进，叠在一起才显出「从outcome到process」的转向。

对从业者的提示：与其只盯一个终点分数，不如给中间过程上探针。下次评估模型时，别只问「答对没」，试着把一条失败轨迹拆成几个阶段，逐段替换或回放，看错误到底在哪一环引入——定位失效点，比知道「有没有错」更能指导你下一步该补哪里。