今日概览
- 固定block size正在白白留下加速空间:BlockPilot改用instance-adaptive策略、按每条输入预测最优block,在Qwen3-4B、温度T=1下拿到4.20倍无损加速。
- 把「知道自己不知道」当训练目标,而非事后打补丁:Yale的RLMF用元认知反馈做RL信号,让模型说出的「我不确定」真对应内部状态,faithful calibration最多提升63%。
- tokenizer和生成器不再各训各的:GEAR用双读出设计让VQ tokenizer和AR生成器端到端联合训练,ImageNet的gFID收敛快到10倍。
- 给「中间奖励」装个体检仪:QVal不跑完下游训练就用Q值对齐筛信号,1200次实验横评后发现简单prompting基线稳定打赢多数花哨的dense supervision方法。
重点关注
01 推理加速 固定block size正在白白浪费加速空间
投机解码(用小模型草拟、大模型验证的无损加速)发展到扩散阶段后,靠block-level一次生成多个token把并行度做到了SOTA。但这些方法有个共同假设:所有输入用同一个固定的block size、共享一套最优解码策略。BlockPilot指出这个假设是次优的——不同实例该并行的粒度根本不一样,最优block size是随样本变化的,固定值意味着一部分请求被过度激进地拆分、另一部分则没吃满并行度。它的做法很轻:在prefilling(预填充)阶段结束后,用当时的表示一次性预测出这条输入该用多大的block,之后正常解码,不额外插手。关键观察是这些最优值有明显的局部结构、都聚集在训练时的block size附近,于是决策空间被压成了低维问题,策略学习的开销可以做得很小。在Qwen3-4B、温度T=1下拿到5.92的接受长度和4.20倍加速——temperature=1这个设定值得注意,因为高温采样通常最不利于投机解码,能在这里稳住说明方法对采样随机性不敏感。
原文:BlockPilot: Instance-Adaptive Policy Learning for Diffusion-based Speculative Decoding
02 安全对齐 把「知道自己不知道」当成训练目标,而不是事后打补丁
对付幻觉,业界的常规做法是在模型外面加一层——置信度阈值、检索核对、二次审查。Yale这篇换了个入手点:LLM不可信的一个根源是元认知缺陷,高置信度地胡说、认不清自己知识边界、内部不确定性和嘴上说出来的对不上。他们的RLMF(带元认知反馈的强化学习)不是去校准那个置信度数字,而是把「模型对自己表现的自我判断质量」当成RL信号,直接训练模型让它说出的「我不确定」真的对应内部状态。论文报告在faithful calibration这个任务上比标准RL提升最多63%,且不牺牲准确率——不过63%是相对提升,具体基线和任务分布得看全文才能判断含金量。对关心可信度的团队来说,值得留意的是思路转变:不确定性表达从一个外挂的过滤层,变成了可以end-to-end优化的能力。
原文:Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs
03 图像生成 tokenizer和生成器不再各训各的,图像AR换了个解法
主流视觉生成是两段式:先训好一个tokenizer做重建、冻住,再在它输出的离散码上训AR生成器。问题在于tokenizer压根不知道生成器觉得哪种码好预测,两者天然错位。GEAR的思路是让VQ tokenizer和AR生成器端到端一起训,用表征对齐来牵引——难点是VQ的离散索引不可导,直通梯度会崩,它用了一个双读出设计:一条hard的one-hot分支照常用next-token训AR,另一条可导的soft分支只把对齐损失回传给tokenizer,让AR反过来把tokenizer往「它更好预测的码分布」上引。有意思的是对齐负担从tokenizer转到了AR身上——tokenizer自身特征反而变得不那么DINOv2、AR的特征更语义化,和扩散那派「把latent本身做语义」的配方正好相反。相比LlamaGen-REPA基线,ImageNet的gFID收敛快到10倍,且能推广到LFQ、IBQ等不同量化器和文生图。
原文:GEAR: Guided End-to-End AutoRegression for Image Synthesis
04 评测 给「中间奖励」装个体检仪,不用跑完训练就知道值不值
长程agent一条轨迹动辄几百上千个动作,只靠最终结果给奖励太稀疏,于是各种dense supervision(给中间步骤打分)冒出来——从模型自信度到自蒸馏再到embedding相似度。问题是验证这些方法几乎都得接进完整训练管线跑一遍下游效果,既贵又把信号本身的质量和训练工程细节搅在一起,不同流派根本没法公平比。QVal的做法是绕开训练:给定一个状态-动作对,直接看某个打分方法和强参考策略的Q值排序有多一致,这样在开跑之前就能判断一个密集监督信号靠不靠谱。作者用它横评了21种方法、7个流派、6个开源模型,1200多次实验后得到一个不太体面的结论:简单的prompting基线稳定地打赢了近期文献里那些花哨的dense supervision方法,而且成绩强烈地按流派聚类。如果你在设计agent的中间奖励,这相当于一个低成本的选型工具——不过它衡量的是「信号和Q值排序对不对齐」,是不是等于训练时真有用,还需要看全文里的验证。
原文:QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

也值得关注
今日观察
今天两篇八竿子打不着的系统工作,拆的其实是同一颗螺丝:写死的固定策略。BlockPilot在投机解码里不再用一个恒定的block size,改成按实例预测该并行多大;notable里Stanford的LearnStop在推理早停里不再信一个固定的置信度/收敛阈值,改成学一个按实例判断何时停手的停止器。一个管「一次生成几个token」,一个管「什么时候停下来想」,两个几乎不交集的子领域,落到了同一句结论上:静态启发式在按实例白白留算力——该激进的地方保守了,该收手的地方还在空转。
落点很具体:翻一遍自己serving和推理pipeline里那些「一刀切」的固定超参——block size、早停阈值、检索取几篇、投机草稿长度——挑一两个流量最大的路径,先量一下「最优值到底随不随实例变」。如果方差明显,那这些写死的数字很可能就是你手边最便宜的一块加速空间,而且改的是策略层、不动模型本身。