大模型更抗谣言却更易被噪声带跑

今日概览

  • Agent失败可以拆成两类可测的错误:死磕一条路(exploit过强)和漫无方向(explore过度)能用黑盒指标分开度量,不需要访问模型内部策略,frontier模型失败模式差异明显
  • scaling把「看context」拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual entrainment的scaling law:大模型抵抗反事实谣言的能力是小模型4倍,被无关token带跑的概率反而是2倍
  • 剪枝只优化单一目标会错过更优解:Google MOONSHOT把post-training one-shot pruning当多目标优化,作为wrapper套在现有剪枝器上,Llama-3.2在2:4稀疏下C4 perplexity最多降32.6%

重点关注

01 Agent 把「我的Agent不work」拆成两类可测的错误

调Agent时经常听到「我的agent不work」,但到底是卡在一条死路上不换方向(exploit过强)还是一直东张西望没收敛(explore过度),大多数人说不清。这篇工作搭了一个可控的2D网格环境,任务用DAG表示,通过调整地图参数可以单独放大探索或利用的难度。关键是作者设计了一个policy-agnostic的指标——不用访问模型内部策略,只从行为序列就能拆出两类错误各自的占比。他们在这套环境下测了一批frontier模型,发现不同模型的失败模式差异明显,reasoning模型整体更稳,而且通过简单的harness工程就能同时改善两个维度。局限也很明显——环境是合成的,真实任务里explore和exploit往往互相纠缠——但对正在调agent、想把「不work」这句话拆得更具体的团队,这套评测框架和开源代码值得拿去跑一跑自己的baseline。

explore错误和exploit错误可以用黑盒指标分开度量,无需访问模型策略reasoning模型加上harness优化能同时拉高两个维度合成环境的结论要谨慎外推到真实任务

02 推理 模型越大,抗谣言能力↑,抗噪声能力↓

我们一直把「模型变大」当成一个整体进步,但Google这篇给出了首个contextual entrainment的scaling law,把这个整体拆开了。在Cerebras-GPT(111M-13B)和Pythia(410M-12B)两个家族上,最大模型抵抗反事实谣言的能力是最小模型的4倍,但被无关token带跑的概率反而是2倍——两条曲线都是干净的power-law,方向却相反。作者把这解释成两种功能上独立的机制:语义过滤随scale增强,机械性复制随scale增强,恰好分叉。换句话说,「看context」不是一种能力,是两种被同一个旋钮反向调节的能力。对RAG和long-context场景,这意味着升级到更大模型可能修好了一类幻觉,同时打开了另一类。

scaling不是单调让模型更「懂」context,而是让两种子能力分叉做RAG的团队不能默认大模型一定更稳,得分别测抗谣言和抗噪声这条规律在两个独立模型家族上复现,说明大概率是架构无关的现象,不是某家的训练问题

03 推理加速 剪枝为什么只盯一个目标

Post-training one-shot剪枝是部署压缩里性价比最高的路径——拿到预训练模型直接剪,不用重训。但现有方法几乎都只优化单一目标:要么layer-wise重建误差(保局部输出一致),要么二阶Taylor近似(保训练loss)。MOONSHOT的观察是这两个目标在不同架构和稀疏度下互有胜负,没有哪个一直最优。Google的做法是把它变成多目标联合优化,并且作为wrapper套在现有剪枝算法上,不替换它们。在Llama-3.2和Llama-2的2:4稀疏下C4 perplexity降低最多32.6%,ViT在70%稀疏度的ImageNet-1k准确率提升5+个点。关键是保留了state-of-the-art剪枝器的效率——计算inverse Hessian的过程被重新设计以适应十亿参数规模。

单目标剪枝的最优选择本身就和架构/稀疏度有关,多目标是合理的工程化改进wrapper形式意味着现有SparseGPT、Wanda等方法可以直接受益对要压LLM或ViT上边缘设备的团队是可落地的增量,不是范式级突破。
大模型更抗谣言却更易被噪声带跑

也值得关注

04
Microsoft给web agent的skill加上视频grounding Agent纯文本workflow描述留下太多执行歧义,视觉示范把skill锚在UI元素上。WebXSkill
05
HETA用Hessian二阶信息修正token attribution 可解释性现有方法大多用线性近似,对自回归LLM的因果链捕捉不准,ICLR收录。HETA
06
程序化生成无边界科学推理题目 AI for Science现有benchmark常继承论文已知结论偏差,InfiniteScienceGym绕开发表偏差与标注噪声。InfiniteScienceGym
07
用LLM给医学知识图谱补文本属性 检索医学概念表征长期受限于代码噪声和稀疏样本,显著改善临床预测的下游质量。链接
08
MIT给t-SNE的信息损失建立数学框架 可解释性哪些结构必然丢失、哪些能保留,第一次有理论刻度。Some Theoretical Limitations of t-SNE
09
SSD-GS补上3DGS重打光的材质-光照交互 图像生成想做物理级重打光就得把散射和阴影拆分建模。SSD-GS