今日概览
- 剪枝不是无条件的捷径——Princeton在token预算对齐下正面对比「剪枝vs从头训」,只有训练预算紧时剪枝才稳赢,预算放开后粗粒度剪枝会被追平甚至反超,唯有细粒度还保得住优势。
- GRPO组内全对或全错,这批梯度就是白给:VISTA不改算法,靠同一GUI实例的多视图构造比较组,把坍缩的相对信号救回来,ScreenSpot-Pro上grounding准确率从55提到63-67。
- 给医疗模型的幻觉做「CT」而不只是量体温:ClinHallu把幻觉定位到视觉误认、医学知识召回、推理整合三个阶段,让你知道该补哪一环,而非又多一个分数榜。
- 音视频QA的瓶颈在数据构造而非模型。OmniVideo-100K用实体锚定脚本重建音画关联、按线索反向出题,跨基准约12%的增益说明这套范式能迁移到自己的管线。
重点关注
01 模型架构 剪枝做小模型,捷径只在预算紧时成立
业界默认拿大模型剪一刀就能得到又便宜又强的小模型,但这个捷径成不成立,要看你有多少训练预算。Princeton这篇在token预算对齐的受控设置下,把Llama-3.1-8B用六种方法(覆盖深度、宽度、稀疏粒度)剪到0.5-0.8的剪枝比,正面对比「剪枝」和「直接从头训同尺寸模型」。结论分两种情况:训练token预算有限时,剪枝初始化稳定优于随机初始化——父模型确实是个好起点,但这个优势会随着训练token增多、剪枝比升高而收窄,在最高剪枝比下几乎消失。而当从头训练拿到整条流水线消耗的全部token预算时,只有细粒度剪枝还保得住优势,粗粒度的结构化剪枝则会被追平甚至反超。换句话说,父模型传递的知识里,有一部分是单靠加训练token补不回来的,但仅在细粒度下成立。这里的细粒度和粗粒度,差在动刀的对象:粗粒度(结构化剪枝)成层、成列地砍掉深度或宽度,留下的子网被迫从一个被打乱的骨架重学,连接关系已经断了;细粒度按单个权重的重要性挑着剪,把父模型里真正承载知识的那些连接尽量原样保下来,所以那部分加训练也补不回的知识才转移得过去。判断自己「预算紧不紧」也有个直接参照:能投入的训练token若远小于从头训一个同尺寸模型所需的量,就属于「紧」,剪枝几乎稳赢;一旦预算逼近从头训的水平,就只剩细粒度还值得做。
原文:Small LLMs: Pruning vs. Training from Scratch
02 训练优化 GRPO组内全对或全错,这一批梯度等于白给
GRPO靠组内rollout的相对优劣来产生学习信号。但用在GUI grounding(让模型在截图上点对位置)时有个很具体的退化:从单张截图采样,难题往往全错、易题往往全对,组内没有差异,这一批梯度等于白给。VISTA的解法不在模型而在数据构造——从同一个GUI实例裁出多个「保留目标」的视图(目标元素始终可见、坐标框精确重映射),让语义相同但几何不同的输入组成一个比较组,组内既有成功也有失败,把被坍缩掉的相对信号救回来。在ScreenSpot-Pro上,Qwen3-VL几个尺寸的grounding准确率从55左右提到63-67,同时worst-view准确率更高、预测翻转率更低,说明提升来自更稳的定位而非刷分。
原文:VISTA: View-Consistent Self-Verified Training for GUI Grounding
03 评测 给医疗模型的幻觉做CT,而不只是量体温
医疗多模态模型的幻觉benchmark大多停在统计层面——答对多少、答错多少,给个分数榜。ClinHallu换了个更费劲也更实用的问法:错到底出在哪一步。它把每条推理拆成视觉识别、医学知识召回、推理整合三个阶段,7031条经过验证的样本各自带一条结构化推理轨迹,再用「阶段替换」干预——单独把某一阶段的错误纠正掉,看最终答案变不变——来定位幻觉的真正来源。对想debug模型而不只是给它打分的团队,这套source-level诊断比又多一个分数有用:你能知道该补视觉编码器、补知识库还是补推理链。论文还顺手验证了用轨迹监督做微调能减少分阶段幻觉,但具体降幅和泛化性需要看全文确认。
原文:ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning
04 多模态 音视频问答的数据,到底卡在哪一步?
做音视频理解的人都用过「video-caption-QA」那套流水线:把视频切成短片,音频和画面分开描述,再合成问答。问题出在第一刀——切片就切断了声音和它视觉来源的关联,同一个人在不同片段里的描述还经常前后打架,模型最终只学到局部事件,问不出需要跨段、跨模态推理的题。OmniVideo-100K的解法不在模型而在数据构造:先用「实体锚定脚本」把整段视频转成带摘要、主体实体表和分段音画描述的结构化脚本,用全局实体表保证跨段指代一致、重建音画关联;再让模型从脚本里先挖跨段的多模态线索,基于这些「高价值线索」反向生成问答。在三个不同规模的Omni模型上微调,自建测试集最高提升20.59%,迁移到Daily-Omni等公开基准也有约12%的增益,说明涨点不只是过拟合自家数据。对从业者来说,真正可复用的是这套「先重建关联、再按线索出题」的范式,而不是又多了一个十万级数据集。
原文:OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

也值得关注
今日观察
把ClinHallu和SkillAudit摆到一起看,会浮现一条不显眼的共同位移:评估和迭代的关注点,正从「最终结果对不对」挪向「过程的哪一环出了问题」。ClinHallu不再只统计医疗幻觉的多少,而是把它定位到视觉误认、知识召回、推理整合三种来源;SkillAudit不依赖ground-truth,靠成对轨迹审计去找技能在哪一步失效。连VISTA都算半个旁证——它靠多视图自验证去构造有效训练信号,本质也是在中间过程上做文章。这条线之所以容易被错过,是因为它横跨了医疗评测、agent技能、GUI训练几个看似无关的方向,单看每篇都只是一个领域的小改进,叠在一起才显出「从outcome到process」的转向。
对从业者的提示:与其只盯一个终点分数,不如给中间过程上探针。下次评估模型时,别只问「答对没」,试着把一条失败轨迹拆成几个阶段,逐段替换或回放,看错误到底在哪一环引入——定位失效点,比知道「有没有错」更能指导你下一步该补哪里。