微调即加速1.7倍,token崩的不是channel

今日概览

  • 纯微调就能让LLM一步吐多个token, MARS不改架构不加参数,Qwen2.5-7B实测加速1.71倍,部署迁移成本几乎为零
  • 图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率,从token空间入手反而更简单有效
  • World model的空间一致性和实时性终于不用二选一。 INSPATIO-WORLD把两件事拆成独立模块,单视频输入即可生成可实时导航的4D场景
  • RL对齐扩散模型的rollout太贵? 探索阶段用FP4、训练阶段用BF16,收敛速度最高提升4.64倍,质量不降

重点关注

01 推理加速 零改动、零额外参数,微调一下LLM就学会了多token生成

多token预测这条路不新鲜,但之前的方案都有代价——投机解码需要单独维护一个草稿模型,Medusa要给模型加额外的预测头。MARS的做法干净得多:不改架构、不加参数、不引入任何新组件,只在现有指令数据上继续微调,同一个模型就学会了一步预测多个token。而且完全向后兼容:逐token调用时6个benchmark上持平或更优,切到多token模式吞吐提升1.5-1.7倍,在Qwen2.5-7B上实测墙钟加速达1.71倍。更妙的是它自带运行时调速能力——通过置信度阈值控制每步接受几个token,请求高峰期自动提速,不用换模型不用重启服务。这意味着推理加速第一次变成了一个纯微调问题:拿到现有模型,跑一轮训练,API不变、部署流程不变、调用方式不变,吞吐直接涨上来。做LLM serving的团队值得认真评估这个方案——迁移成本可能比你想的低得多。

纯微调实现多token生成,零额外参数零架构改动,部署迁移成本极低完全兼容原始逐token调用且性能不降,多token模式吞吐提升1.5-1.7倍运行时置信度阈值动态调速,高负载下无需重启即可在质量和速度间切换

02 多模态 World model的实用化拐点:空间一致性和实时性能不能兼得?

World model(世界模型)目前卡在一个两难上:要空间一致性就得牺牲速度,要实时交互就容易走几步画面就崩。INSPATIO-WORLD的做法是把这两件事拆成两个模块分别解决——一个隐式时空缓存维护全局场景一致性,一个显式空间约束模块处理几何结构和相机轨迹控制。输入是单段参考视频,输出是可实时导航的4D交互场景,这不是视频生成的改良,而是world model在交互性上的跨越。另一个值得注意的设计是联合分布匹配蒸馏(JDMD),用真实数据分布来矫正合成数据训练带来的质量退化。在WorldScore-Dynamic benchmark的实时交互方法中排名第一,空间一致性和交互精度都优于现有方案。

空间一致性和实时交互不再是二选一,两个专用模块分别解决各自问题用真实数据分布蒸馏缓解合成数据训练的质量退化,这个思路对其他world model工作也有参考价值做3D/4D场景交互的团队值得关注这条从单视频重建可导航环境的路线

03 图像生成 所有人都在加channel,但图像自编码器崩的是token

图像自编码器压缩比一拉高就表示塌缩,加channel是所有人的第一反应——但TC-AE指出这个直觉从根上就错了。在深度压缩下,大部分token已经塌缩成近似相同的表示,加channel只是给崩掉的token更多维度来重复同样的东西。真正的瓶颈在token到latent(潜在表示)的压缩过于激进,结构信息在中间就丢了。他们的做法反而更简单:把压缩拆成两个阶段来保留结构信息,再用自监督训练给token注入语义结构,不需要更复杂的架构。深度压缩下重建和生成性能都有明显提升,做视觉tokenizer的团队该重新审视压缩路径了。

高压缩自编码器的表示塌缩根源在token利用率而非channel数将token-to-latent压缩拆成两阶段可有效保留结构信息做视觉tokenizer的团队值得重新审视压缩路径设计而非一味堆channel

04 训练优化 RL对齐扩散模型,探索和训练凭什么要用同一精度?

RL对齐扩散模型时,rollout阶段本质是在采样——生成大量候选图像,从中筛出对比性强的样本对。这个过程不涉及梯度计算,对数值精度的容忍度远高于策略更新。Sol-RL利用了这个结构性差异:FP4跑高吞吐rollout生成海量候选池,筛选后用BF16重新生成并做梯度优化。在FLUX.1-12B、SANA、SD3.5-L上的实验显示,训练质量与纯BF16持平,收敛速度最高提升4.64倍。思路不复杂,但精准地抓住了RL训练中「探索≠学习」的结构差异——做扩散模型RL对齐的团队值得关注。

RL训练中探索与学习的精度需求天然不对称,FP4/BF16分治是对这个结构的精准利用不是通用量化方案,专门针对RL rollout的采样特性设计做扩散模型RLHF的团队可直接借鉴思路降低rollout阶段计算开销
微调即加速1.7倍,token崩的不是channel

也值得关注

05
文字、布局、编辑指令全部变成视觉prompt 图像生成FlowInOne把多模态生成统一为image-in image-out的flow matching,文本不再是必须的控制入口。链接
06
运动控制和相机视角终于解耦了 视频生成NVIDIA的MoRight让用户指定物体动作时不再连带影响相机运动,且运动能触发物理合理的连锁反应。链接
07
Reward model benchmark的盲区:个人偏好 安全对齐Personalized RewardBench发现现有评测只测通用质量,不测能否区分不同用户的个性化偏好。链接
08
高分辨率图像不用全部精细处理 推理加速Q-Zoom让MLLM根据查询内容自适应决定哪些视觉区域需要精细感知,避免注意力被无关token淹没。链接
09
Test-time training的灾难性遗忘有解了 模型架构弹性权重巩固思路稳定长序列3D重建中的推理时更新,避免新观测覆盖旧记忆。链接
10
百万token的KV缓存该压谁? 推理加速StructKV保留结构骨架而非高注意力分数的token,长上下文推理的压缩策略需要重新想。链接
11
MoE专家权重压到1-bit 推理加速MoBiE在极端二值化的同时处理专家间冗余,为MoE模型部署开辟新的压缩空间。链接
12
推理链断在哪一步? 可解释性Step Saliency定位长推理链中的断裂点,发现错误往往不在最终输出而在中间环节。链接
13
RAG上线后用户会纠正错误,但评测不管 检索现有RAG benchmark完全是静态的,不考虑系统能否从部署中的用户反馈中持续学习。链接
14
预训练合成数据该跨文档融合了 训练优化WRAP++从单文档改写升级到跨文档融合,让模型在预训练阶段就接触跨源推理模式。链接

今日观察

今天四篇论文各自解决不同问题,但底层逻辑撞到了一起:系统中不同部分对资源的需求是不均匀的,均匀分配就是浪费。MARS发现连续token的可预测性差异巨大,确定性高的位置一步跳过去就行;Sol-RL发现RL训练中探索阶段只是在采样,FP4精度绰绰有余,把BF16留给真正需要数值精度的梯度更新;TC-AE发现高压缩下大部分token塌缩成相同表示,问题不是精度不够而是token利用率不均;Q-Zoom发现不同查询需要关注的视觉区域完全不同,全局高分辨率是在喂注意力机制吃垃圾。

这里面有一个值得内化的工程直觉:碰到资源瓶颈时,第一反应不该是「整体压缩」或「全面降配」,而是先问「哪些部分其实根本不需要这么多资源」。非均匀分配几乎总是优于均匀压缩——因为均匀策略隐含了一个几乎永远为假的假设:所有部分同等重要。下次遇到推理延迟、显存不够、训练太慢的问题,试试先做一次profiling,找出资源消耗的分布——你大概率会发现,80%的资源花在了20%的真正需要它们的地方,剩下那80%的位置可以大幅削减而几乎不影响结果。