自适应解码4.2倍,联合训练快10倍

今日概览

  • 固定block size正在白白留下加速空间:BlockPilot改用instance-adaptive策略、按每条输入预测最优block,在Qwen3-4B、温度T=1下拿到4.20倍无损加速。
  • 把「知道自己不知道」当训练目标,而非事后打补丁:Yale的RLMF用元认知反馈做RL信号,让模型说出的「我不确定」真对应内部状态,faithful calibration最多提升63%。
  • tokenizer和生成器不再各训各的:GEAR用双读出设计让VQ tokenizer和AR生成器端到端联合训练,ImageNet的gFID收敛快到10倍。
  • 给「中间奖励」装个体检仪:QVal不跑完下游训练就用Q值对齐筛信号,1200次实验横评后发现简单prompting基线稳定打赢多数花哨的dense supervision方法。

重点关注

01 推理加速 固定block size正在白白浪费加速空间

投机解码(用小模型草拟、大模型验证的无损加速)发展到扩散阶段后,靠block-level一次生成多个token把并行度做到了SOTA。但这些方法有个共同假设:所有输入用同一个固定的block size、共享一套最优解码策略。BlockPilot指出这个假设是次优的——不同实例该并行的粒度根本不一样,最优block size是随样本变化的,固定值意味着一部分请求被过度激进地拆分、另一部分则没吃满并行度。它的做法很轻:在prefilling(预填充)阶段结束后,用当时的表示一次性预测出这条输入该用多大的block,之后正常解码,不额外插手。关键观察是这些最优值有明显的局部结构、都聚集在训练时的block size附近,于是决策空间被压成了低维问题,策略学习的开销可以做得很小。在Qwen3-4B、温度T=1下拿到5.92的接受长度和4.20倍加速——temperature=1这个设定值得注意,因为高温采样通常最不利于投机解码,能在这里稳住说明方法对采样随机性不敏感。

你pipeline里那些固定的解码超参可能正在留下加速空间,instance-adaptive是低成本的补法这是plug-and-play的策略层改动,不动草稿模型和验证逻辑,落地成本低但策略预测本身的开销、以及在真实多样负载下能否稳住无损加速,需要看实际部署数据确认。

02 安全对齐 把「知道自己不知道」当成训练目标,而不是事后打补丁

对付幻觉,业界的常规做法是在模型外面加一层——置信度阈值、检索核对、二次审查。Yale这篇换了个入手点:LLM不可信的一个根源是元认知缺陷,高置信度地胡说、认不清自己知识边界、内部不确定性和嘴上说出来的对不上。他们的RLMF(带元认知反馈的强化学习)不是去校准那个置信度数字,而是把「模型对自己表现的自我判断质量」当成RL信号,直接训练模型让它说出的「我不确定」真的对应内部状态。论文报告在faithful calibration这个任务上比标准RL提升最多63%,且不牺牲准确率——不过63%是相对提升,具体基线和任务分布得看全文才能判断含金量。对关心可信度的团队来说,值得留意的是思路转变:不确定性表达从一个外挂的过滤层,变成了可以end-to-end优化的能力。

幻觉治理的新路径——把「元认知」当可训练目标,而非在输出端加置信度过滤RLMF用模型的自我判断质量做RL信号,绕开了以往内在反馈方法的天花板63%是相对标准RL的提升,基线和任务范围需看全文才能评估实际价值

03 图像生成 tokenizer和生成器不再各训各的,图像AR换了个解法

主流视觉生成是两段式:先训好一个tokenizer做重建、冻住,再在它输出的离散码上训AR生成器。问题在于tokenizer压根不知道生成器觉得哪种码好预测,两者天然错位。GEAR的思路是让VQ tokenizer和AR生成器端到端一起训,用表征对齐来牵引——难点是VQ的离散索引不可导,直通梯度会崩,它用了一个双读出设计:一条hard的one-hot分支照常用next-token训AR,另一条可导的soft分支只把对齐损失回传给tokenizer,让AR反过来把tokenizer往「它更好预测的码分布」上引。有意思的是对齐负担从tokenizer转到了AR身上——tokenizer自身特征反而变得不那么DINOv2、AR的特征更语义化,和扩散那派「把latent本身做语义」的配方正好相反。相比LlamaGen-REPA基线,ImageNet的gFID收敛快到10倍,且能推广到LFQ、IBQ等不同量化器和文生图。

「tokenizer与生成器错位」这个病,像素AR那派选择去掉tokenizer,GEAR选择让两者联合学,做图像生成的值得对照着看两条路双读出绕开VQ不可导是关键工程点,soft分支只回传给tokenizer而不污染AR的next-token训练10倍是收敛速度不是终质量,最终FID还需看全文,但方法能跨量化器和文生图泛化是加分项。

04 评测 给「中间奖励」装个体检仪,不用跑完训练就知道值不值

长程agent一条轨迹动辄几百上千个动作,只靠最终结果给奖励太稀疏,于是各种dense supervision(给中间步骤打分)冒出来——从模型自信度到自蒸馏再到embedding相似度。问题是验证这些方法几乎都得接进完整训练管线跑一遍下游效果,既贵又把信号本身的质量和训练工程细节搅在一起,不同流派根本没法公平比。QVal的做法是绕开训练:给定一个状态-动作对,直接看某个打分方法和强参考策略的Q值排序有多一致,这样在开跑之前就能判断一个密集监督信号靠不靠谱。作者用它横评了21种方法、7个流派、6个开源模型,1200多次实验后得到一个不太体面的结论:简单的prompting基线稳定地打赢了近期文献里那些花哨的dense supervision方法,而且成绩强烈地按流派聚类。如果你在设计agent的中间奖励,这相当于一个低成本的选型工具——不过它衡量的是「信号和Q值排序对不对齐」,是不是等于训练时真有用,还需要看全文里的验证。

评测密集监督不必跑完下游训练,Q值对齐能提前筛掉不靠谱的信号简单prompting基线打赢多数近期方法,选型前先别默认复杂方法更强这是训练无关的开源testbed,做agent reward设计的可以直接接自己的环境试。
自适应解码4.2倍,联合训练快10倍

也值得关注

05
和BlockPilot撞在同一个靶子上:反对固定策略 推理加速Stanford的LearnStop学一个隐状态无关的checkpoint停止器,追问「学到的停止规则什么时候真比简单置信度/收敛阈值更划算」,值得和头条串起来读。链接
06
GUI agent的训评一直没离开离线轨迹和标准benchmark Agent和真实app的界面、交互逻辑、异常态分布差得远,小米GUI-0技术报告把训评整个搬到真实应用上。链接
07
视频世界模型缺记忆,长时场景就会漂移 视频生成规则式取帧在遮挡和动态物体下失效,MemLearner改成可学习的自适应上下文记忆查询。链接
08
图文生成的数据管线一贯「爬取-过滤-冻结」,被拒样本直接丢掉 AgentDataEvolver用自进化多agent把失败样本里的信号也回收利用。链接
09
训练免费地生成任意分辨率照片马赛克 图像生成PhotoQuilt用bootstrapped分块去噪同时满足「每块单独看像样」和「整体成景」两个尺度。链接
10
给「乐谱理解」补上缺失的domain backbone 多模态MuSViT是首个乐谱视觉基础模型,在IMSLP的970万页上用MAE预训练ViT。链接
11
卫星图合成沿用自然图那套,要么密集栅格要么稀疏提示 AI for Science还破坏了地理常用的矢量primitive兼容性,TerraDiT-Ω做统一的空间控制。链接
12
端到端自动驾驶只靠即时传感器观测,只能反应式驾驶 机器人PriorEye(ECCV)引入锚定到街景的地理视觉先验,补上人类靠经验的前瞻性。链接

今日观察

今天两篇八竿子打不着的系统工作,拆的其实是同一颗螺丝:写死的固定策略。BlockPilot在投机解码里不再用一个恒定的block size,改成按实例预测该并行多大;notable里Stanford的LearnStop在推理早停里不再信一个固定的置信度/收敛阈值,改成学一个按实例判断何时停手的停止器。一个管「一次生成几个token」,一个管「什么时候停下来想」,两个几乎不交集的子领域,落到了同一句结论上:静态启发式在按实例白白留算力——该激进的地方保守了,该收手的地方还在空转。

落点很具体:翻一遍自己serving和推理pipeline里那些「一刀切」的固定超参——block size、早停阈值、检索取几篇、投机草稿长度——挑一两个流量最大的路径,先量一下「最优值到底随不随实例变」。如果方差明显,那这些写死的数字很可能就是你手边最便宜的一块加速空间,而且改的是策略层、不动模型本身。