自适应解码4.2倍，联合训练快10倍

今日概览

固定block size正在白白留下加速空间：BlockPilot改用instance-adaptive策略、按每条输入预测最优block，在Qwen3-4B、温度T=1下拿到4.20倍无损加速。
把「知道自己不知道」当训练目标，而非事后打补丁：Yale的RLMF用元认知反馈做RL信号，让模型说出的「我不确定」真对应内部状态，faithful calibration最多提升63%。
tokenizer和生成器不再各训各的：GEAR用双读出设计让VQ tokenizer和AR生成器端到端联合训练，ImageNet的gFID收敛快到10倍。
给「中间奖励」装个体检仪：QVal不跑完下游训练就用Q值对齐筛信号，1200次实验横评后发现简单prompting基线稳定打赢多数花哨的dense supervision方法。

重点关注

01 推理加速固定block size正在白白浪费加速空间

投机解码（用小模型草拟、大模型验证的无损加速）发展到扩散阶段后，靠block-level一次生成多个token把并行度做到了SOTA。但这些方法有个共同假设：所有输入用同一个固定的block size、共享一套最优解码策略。BlockPilot指出这个假设是次优的——不同实例该并行的粒度根本不一样，最优block size是随样本变化的，固定值意味着一部分请求被过度激进地拆分、另一部分则没吃满并行度。它的做法很轻：在prefilling（预填充）阶段结束后，用当时的表示一次性预测出这条输入该用多大的block，之后正常解码，不额外插手。关键观察是这些最优值有明显的局部结构、都聚集在训练时的block size附近，于是决策空间被压成了低维问题，策略学习的开销可以做得很小。在Qwen3-4B、温度T=1下拿到5.92的接受长度和4.20倍加速——temperature=1这个设定值得注意，因为高温采样通常最不利于投机解码，能在这里稳住说明方法对采样随机性不敏感。

你pipeline里那些固定的解码超参可能正在留下加速空间，instance-adaptive是低成本的补法这是plug-and-play的策略层改动，不动草稿模型和验证逻辑，落地成本低但策略预测本身的开销、以及在真实多样负载下能否稳住无损加速，需要看实际部署数据确认。

原文：BlockPilot: Instance-Adaptive Policy Learning for Diffusion-based Speculative Decoding

02 安全对齐把「知道自己不知道」当成训练目标，而不是事后打补丁

对付幻觉，业界的常规做法是在模型外面加一层——置信度阈值、检索核对、二次审查。Yale这篇换了个入手点：LLM不可信的一个根源是元认知缺陷，高置信度地胡说、认不清自己知识边界、内部不确定性和嘴上说出来的对不上。他们的RLMF（带元认知反馈的强化学习）不是去校准那个置信度数字，而是把「模型对自己表现的自我判断质量」当成RL信号，直接训练模型让它说出的「我不确定」真的对应内部状态。论文报告在faithful calibration这个任务上比标准RL提升最多63%，且不牺牲准确率——不过63%是相对提升，具体基线和任务分布得看全文才能判断含金量。对关心可信度的团队来说，值得留意的是思路转变：不确定性表达从一个外挂的过滤层，变成了可以end-to-end优化的能力。

幻觉治理的新路径——把「元认知」当可训练目标，而非在输出端加置信度过滤RLMF用模型的自我判断质量做RL信号，绕开了以往内在反馈方法的天花板63%是相对标准RL的提升，基线和任务范围需看全文才能评估实际价值

原文：Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs

03 图像生成 tokenizer和生成器不再各训各的，图像AR换了个解法

主流视觉生成是两段式：先训好一个tokenizer做重建、冻住，再在它输出的离散码上训AR生成器。问题在于tokenizer压根不知道生成器觉得哪种码好预测，两者天然错位。GEAR的思路是让VQ tokenizer和AR生成器端到端一起训，用表征对齐来牵引——难点是VQ的离散索引不可导，直通梯度会崩，它用了一个双读出设计：一条hard的one-hot分支照常用next-token训AR，另一条可导的soft分支只把对齐损失回传给tokenizer，让AR反过来把tokenizer往「它更好预测的码分布」上引。有意思的是对齐负担从tokenizer转到了AR身上——tokenizer自身特征反而变得不那么DINOv2、AR的特征更语义化，和扩散那派「把latent本身做语义」的配方正好相反。相比LlamaGen-REPA基线，ImageNet的gFID收敛快到10倍，且能推广到LFQ、IBQ等不同量化器和文生图。

「tokenizer与生成器错位」这个病，像素AR那派选择去掉tokenizer，GEAR选择让两者联合学，做图像生成的值得对照着看两条路双读出绕开VQ不可导是关键工程点，soft分支只回传给tokenizer而不污染AR的next-token训练10倍是收敛速度不是终质量，最终FID还需看全文，但方法能跨量化器和文生图泛化是加分项。

原文：GEAR: Guided End-to-End AutoRegression for Image Synthesis

04 评测给「中间奖励」装个体检仪，不用跑完训练就知道值不值

长程agent一条轨迹动辄几百上千个动作，只靠最终结果给奖励太稀疏，于是各种dense supervision（给中间步骤打分）冒出来——从模型自信度到自蒸馏再到embedding相似度。问题是验证这些方法几乎都得接进完整训练管线跑一遍下游效果，既贵又把信号本身的质量和训练工程细节搅在一起，不同流派根本没法公平比。QVal的做法是绕开训练：给定一个状态-动作对，直接看某个打分方法和强参考策略的Q值排序有多一致，这样在开跑之前就能判断一个密集监督信号靠不靠谱。作者用它横评了21种方法、7个流派、6个开源模型，1200多次实验后得到一个不太体面的结论：简单的prompting基线稳定地打赢了近期文献里那些花哨的dense supervision方法，而且成绩强烈地按流派聚类。如果你在设计agent的中间奖励，这相当于一个低成本的选型工具——不过它衡量的是「信号和Q值排序对不对齐」，是不是等于训练时真有用，还需要看全文里的验证。

评测密集监督不必跑完下游训练，Q值对齐能提前筛掉不靠谱的信号简单prompting基线打赢多数近期方法，选型前先别默认复杂方法更强这是训练无关的开源testbed，做agent reward设计的可以直接接自己的环境试。

原文：QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

也值得关注

和BlockPilot撞在同一个靶子上：反对固定策略 推理加速Stanford的LearnStop学一个隐状态无关的checkpoint停止器，追问「学到的停止规则什么时候真比简单置信度/收敛阈值更划算」，值得和头条串起来读。链接

GUI agent的训评一直没离开离线轨迹和标准benchmark Agent和真实app的界面、交互逻辑、异常态分布差得远，小米GUI-0技术报告把训评整个搬到真实应用上。链接

视频世界模型缺记忆，长时场景就会漂移 视频生成规则式取帧在遮挡和动态物体下失效，MemLearner改成可学习的自适应上下文记忆查询。链接

图文生成的数据管线一贯「爬取-过滤-冻结」，被拒样本直接丢掉 AgentDataEvolver用自进化多agent把失败样本里的信号也回收利用。链接

训练免费地生成任意分辨率照片马赛克 图像生成PhotoQuilt用bootstrapped分块去噪同时满足「每块单独看像样」和「整体成景」两个尺度。链接

给「乐谱理解」补上缺失的domain backbone 多模态MuSViT是首个乐谱视觉基础模型，在IMSLP的970万页上用MAE预训练ViT。链接

卫星图合成沿用自然图那套，要么密集栅格要么稀疏提示 AI for Science还破坏了地理常用的矢量primitive兼容性，TerraDiT-Ω做统一的空间控制。链接

端到端自动驾驶只靠即时传感器观测，只能反应式驾驶 机器人PriorEye（ECCV）引入锚定到街景的地理视觉先验，补上人类靠经验的前瞻性。链接

今日观察

今天两篇八竿子打不着的系统工作，拆的其实是同一颗螺丝：写死的固定策略。BlockPilot在投机解码里不再用一个恒定的block size，改成按实例预测该并行多大；notable里Stanford的LearnStop在推理早停里不再信一个固定的置信度/收敛阈值，改成学一个按实例判断何时停手的停止器。一个管「一次生成几个token」，一个管「什么时候停下来想」，两个几乎不交集的子领域，落到了同一句结论上：静态启发式在按实例白白留算力——该激进的地方保守了，该收手的地方还在空转。

落点很具体：翻一遍自己serving和推理pipeline里那些「一刀切」的固定超参——block size、早停阈值、检索取几篇、投机草稿长度——挑一两个流量最大的路径，先量一下「最优值到底随不随实例变」。如果方差明显，那这些写死的数字很可能就是你手边最便宜的一块加速空间，而且改的是策略层、不动模型本身。