删context省token反被cache吃回

今日概览

  • 删context省下的token钱,可能被cache失效反吃回去:长会话agent的减负直觉是剪掉旧文本,但TokenPilot指出无约束改写会动到prefix布局、触发prompt cache失效,真正的权衡是「文本稀疏vs cache连续性」两根轴。
  • 挑reward最高的数据蒸馏小模型,可能正在帮倒忙:在数学推理上,Oracle精修出的高分数据把表达风格推离了小模型的「母语」分布,分布漂移抬高学习成本,效果反不如小模型自采样筛出的轨迹。
  • 统一理解与生成,UniDDT押注的是「解耦」而非共享通路:理解要抽象语义、生成要像素细节,硬塞进一条通路两头不讨好;它用解耦的扩散transformer结构上分开,赌的是「分而治之」这条路线。
  • 几何条件化的潜空间surrogate,把两相流仿真加速6万倍:不学完整流场,只学AMR网格密度场这个「求解器把分辨率集中在哪」的紧凑代理,单条轨迹推理0.045秒,让「仿真」变成可交互的查询。

重点关注

01 Agent 删文本省下的token钱,可能被cache失效吃回去

删context、剪枝旧记忆,看起来是把长会话agent的token footprint直接压了下去;但TokenPilot指出,无约束地改写序列会动到prompt的前缀布局,导致前缀错位、prompt cache失效,被重算的cache钱反而把省下的token吃回去——删文本,可能比不删更贵。换句话说,真正的权衡不是「文本稀疏度」一根轴,而是「文本稀疏 vs cache连续性」两根轴——只盯着前者优化,很可能是负优化。它的方案分两个粒度:全局层面在数据进入时就做「摄入感知压缩」(Ingestion-Aware Compaction),稳定prefix、过滤掉开放环境的噪声;局部层面用「生命周期感知淘汰」(Lifecycle-Aware Eviction),只在某段内容的任务相关性真正过期、且按批次轮次的保守节奏触发时才卸载,避免频繁改写破坏cache。论文报告在两个benchmark上、隔离与连续两种模式下降本56%到87%,连续模式收益更大——这符合直觉,因为会话越长,cache连续性的价值越高,不过具体数字得看全文确认对比的是哪些基线。

评估context压缩方案时,别只算删了多少token,要把prompt cache命中率一起算进成本账前缀稳定性是省钱的隐藏前提,任何会改动prompt开头的剪枝操作都要警惕这是工程上立刻能用的认知,做agent基建的团队值得对照自己的context管理逻辑看一遍。

02 训练优化 挑reward最高的数据蒸馏小模型,可能正在帮倒忙

蒸馏小模型做数学推理,业界默认的挑数据逻辑是:reward model打分越高的推理轨迹,监督信号越好。这篇ICML论文在Qwen2.5、LLaMA-3、DeepSeek三个家族上测出一个反常结果——用更强的Oracle模型精修或合成的数据,reward分数确实更高,但喂给小模型后,效果反而不如小模型自己生成、再用拒绝采样筛出来的轨迹。根因不在逻辑对错:Oracle在修复推理逻辑的同时,也把数据的表达风格推离了小模型自己的「母语」分布,这种分布漂移抬高了小模型的学习成本,甚至盖过了逻辑变好带来的收益。作者用Style-Aligned Refinement验证了这条机制——只保留Oracle的逻辑修复,维持小模型原生的表达轨迹,学习成本降下来,下游效果就回来了。需要提醒的是,结论目前限定在数学推理这个场景,其他任务上分布漂移的代价有多大还需要看更多验证。

挑蒸馏数据时,reward分数不该是唯一指标,数据和学习者的分布兼容性同样关键高分≠好用,强模型精修带来的风格漂移会抬高小模型的适配成本想用Oracle精修数据,优先保留小模型原生表达风格,只借逻辑不借文风

03 多模态 统一理解与生成,UniDDT押注的是「解耦」而非共享通路

把视觉理解和图像生成塞进同一个模型,一直有个绕不开的麻烦:这两件事其实在互相打架——理解要的是抽象语义,生成要的是像素级细节,共享一条通路就会两头不讨好。UniDDT的思路不是调和冲突,而是结构上把它们拆开:用一个带噪的ViT编码器配合大语言模型统一语义编码,再用单独的扩散解码器把「扩散解码」和「文本解码」解耦。换句话说,它承认这两个任务需要不同的处理路径,而不是指望一个共享空间同时服务好两边。对关注统一多模态架构往哪走的人,这篇真正的看点不是又一个跑分,而是「解耦」这条路线本身——如果它成立,意味着行业可能要从「大一统单通路」退回到「分而治之」。具体效果还得看全文里理解和生成是否真的没有互相拖累,但方向上的取舍值得记一笔。

统一多模态模型的瓶颈不在规模,而在理解与生成的内在冲突,解耦是一条与「共享通路」相反的押注判断这类架构别只看SOTA,看它如何处理两个任务的相互干扰如果你在做统一多模态,先想清楚是要「一个空间通吃」还是「结构上分开」。

04 AI for Science 做仿真代理模型,到底该让网络学什么?

给两相流喷雾这类又贵又难的物理过程做代理模型,难点不在于网络够不够大,而在于该编码什么——液气界面和自适应网格(AMR)都随时间和几何形状一起变,直接学完整的多通道流场状态很容易学崩。这篇 ICML 工作换了个抓手:不编码全部流场,只编码 AMR 的网格密度场,也就是「求解器把分辨率集中在哪里」,把它当成界面演化的紧凑代理。基于这个表示重建瞬态密度演化和喷嘴几何,再用一个轻量的第二阶段补回其余流场变量,在797个仿真上训练后,单条轨迹推理只要0.045秒,相比 Basilisk CFD 快了6万倍以上。对做工程仿真代理模型的人来说,真正可借鉴的不是这个数字,而是这个选择——当物理状态本身太复杂,求解器自己暴露的「该在哪里精算」的结构,可能比原始流场更适合拿来学。

代理模型的关键不在网络规模,而在选对要编码的表示,AMR 网格密度场是个反直觉但有效的代理几何条件化让模型支持迭代设计探索,6万倍加速把「仿真」变成了可交互的查询做工程仿真 surrogate 的团队值得借鉴「学求解器的注意力分布而非原始物理量」这个思路。
删context省token反被cache吃回

也值得关注

05
VinQA让文档QA的答案把视觉元素交错进来 多模态现有文档QA大多只吐纯文本,浪费了表格、图表、照片,交错式回答更贴近真实文档的形态。链接
06
往残差流里同时叠加两个语义对立的引导向量会发生什么 可解释性以往激活引导只注入单一方向,这篇研究steering的「对撞」。链接
07
给年度总量、同比增速这类聚合预测配上可靠的不确定性区间 评测用块自助加交叉验证残差的多步分裂conformal方法。链接

今日观察

今天这三篇工作,研究对象八竿子打不着,落点其实是同一个陷阱:你顺手优化的那个代理指标,和你真正想要的目标,并不总是一回事。TokenPilot发现,一味按「文本更少」去剪context会触发prompt cache失效、反而更贵——稀疏度这个代理指标,在长会话里背叛了它本该服务的成本目标。Quality-Utility悖论发现,按「reward更高」去挑蒸馏数据反而损害小模型的数学推理——reward分数背叛了它本该代表的监督价值。UniDDT则指出,把理解和生成硬塞进一个共享通路看似省事,真要两件事都做好时会暗中打架,得靠结构上的解耦才解得开。三者的共同位移是:一个在某个规模或目标下顺手好用的代理指标、朴素合并,换一个设置就会反噬,而出路往往不是在原来那根轴上「更多、更高」,而是去解耦、或把被你默默牺牲掉的第二条约束(cache连续性、分布兼容性、任务冲突)显式地加进来。落到手上:下次盯着一个单一指标往上推之前,先问一句它代理的究竟是什么、有没有第二条被你默默放弃的约束,把那条也量出来,再决定怎么优化。