大模型更抗谣言却更易被噪声带跑

今日概览

Agent失败可以拆成两类可测的错误：死磕一条路（exploit过强）和漫无方向（explore过度）能用黑盒指标分开度量，不需要访问模型内部策略，frontier模型失败模式差异明显
scaling把「看context」拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual entrainment的scaling law：大模型抵抗反事实谣言的能力是小模型4倍，被无关token带跑的概率反而是2倍
剪枝只优化单一目标会错过更优解：Google MOONSHOT把post-training one-shot pruning当多目标优化，作为wrapper套在现有剪枝器上，Llama-3.2在2:4稀疏下C4 perplexity最多降32.6%

重点关注

01 Agent 把「我的Agent不work」拆成两类可测的错误

调Agent时经常听到「我的agent不work」，但到底是卡在一条死路上不换方向（exploit过强）还是一直东张西望没收敛（explore过度），大多数人说不清。这篇工作搭了一个可控的2D网格环境，任务用DAG表示，通过调整地图参数可以单独放大探索或利用的难度。关键是作者设计了一个policy-agnostic的指标——不用访问模型内部策略，只从行为序列就能拆出两类错误各自的占比。他们在这套环境下测了一批frontier模型，发现不同模型的失败模式差异明显，reasoning模型整体更稳，而且通过简单的harness工程就能同时改善两个维度。局限也很明显——环境是合成的，真实任务里explore和exploit往往互相纠缠——但对正在调agent、想把「不work」这句话拆得更具体的团队，这套评测框架和开源代码值得拿去跑一跑自己的baseline。

explore错误和exploit错误可以用黑盒指标分开度量，无需访问模型策略reasoning模型加上harness优化能同时拉高两个维度合成环境的结论要谨慎外推到真实任务

原文：Exploration and Exploitation Errors Are Measurable for Language Model Agents

02 推理模型越大，抗谣言能力↑，抗噪声能力↓

我们一直把「模型变大」当成一个整体进步，但Google这篇给出了首个contextual entrainment的scaling law，把这个整体拆开了。在Cerebras-GPT(111M-13B)和Pythia(410M-12B)两个家族上，最大模型抵抗反事实谣言的能力是最小模型的4倍，但被无关token带跑的概率反而是2倍——两条曲线都是干净的power-law，方向却相反。作者把这解释成两种功能上独立的机制：语义过滤随scale增强，机械性复制随scale增强，恰好分叉。换句话说，「看context」不是一种能力，是两种被同一个旋钮反向调节的能力。对RAG和long-context场景，这意味着升级到更大模型可能修好了一类幻觉，同时打开了另一类。

scaling不是单调让模型更「懂」context，而是让两种子能力分叉做RAG的团队不能默认大模型一定更稳，得分别测抗谣言和抗噪声这条规律在两个独立模型家族上复现，说明大概率是架构无关的现象，不是某家的训练问题

原文：Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size

03 推理加速剪枝为什么只盯一个目标

Post-training one-shot剪枝是部署压缩里性价比最高的路径——拿到预训练模型直接剪，不用重训。但现有方法几乎都只优化单一目标：要么layer-wise重建误差（保局部输出一致），要么二阶Taylor近似（保训练loss）。MOONSHOT的观察是这两个目标在不同架构和稀疏度下互有胜负，没有哪个一直最优。Google的做法是把它变成多目标联合优化，并且作为wrapper套在现有剪枝算法上，不替换它们。在Llama-3.2和Llama-2的2:4稀疏下C4 perplexity降低最多32.6%，ViT在70%稀疏度的ImageNet-1k准确率提升5+个点。关键是保留了state-of-the-art剪枝器的效率——计算inverse Hessian的过程被重新设计以适应十亿参数规模。

单目标剪枝的最优选择本身就和架构/稀疏度有关，多目标是合理的工程化改进wrapper形式意味着现有SparseGPT、Wanda等方法可以直接受益对要压LLM或ViT上边缘设备的团队是可落地的增量，不是范式级突破。

原文：MOONSHOT : A Framework for Multi-Objective Pruning of Vision and Large Language Models

也值得关注

Microsoft给web agent的skill加上视频grounding Agent纯文本workflow描述留下太多执行歧义，视觉示范把skill锚在UI元素上。WebXSkill

HETA用Hessian二阶信息修正token attribution 可解释性现有方法大多用线性近似，对自回归LLM的因果链捕捉不准，ICLR收录。HETA

程序化生成无边界科学推理题目 AI for Science现有benchmark常继承论文已知结论偏差，InfiniteScienceGym绕开发表偏差与标注噪声。InfiniteScienceGym

用LLM给医学知识图谱补文本属性 检索医学概念表征长期受限于代码噪声和稀疏样本，显著改善临床预测的下游质量。链接

MIT给t-SNE的信息损失建立数学框架 可解释性哪些结构必然丢失、哪些能保留，第一次有理论刻度。Some Theoretical Limitations of t-SNE

SSD-GS补上3DGS重打光的材质-光照交互 图像生成想做物理级重打光就得把散射和阴影拆分建模。SSD-GS