4步超100步基线,跳层省18%算力

今日概览

  • 不可微奖励首次接入少步扩散模型RL训练,4步生成全面超越100步基线,人类偏好、安全检查、物体计数等实际业务中最需要的信号不再被挡在门外。
  • 代码模型RL后训练进入工程优化期:同一天两个团队分别从梯度稳定性和数据难度分布两端攻克具体瓶颈,方法论验证阶段已过。
  • 全自动pipeline从网络视频提取百万级3D标注。绕开人工标注天花板,数据规模化路径比模型架构创新更能释放3D理解能力。
  • 扩散LLM跳层可省18%算力且性能不崩,首个系统性逐层对比揭示dLLM和自回归模型的表征结构根本不同,为AR设计的加速技巧不能直接搬过来。

重点关注

01 训练优化 人类说「这张不好」——扩散模型现在听得懂了

少步扩散模型做RL有个尴尬的限制:奖励信号必须可微。美学评分可以,但人类最直觉的反馈——「好/不好」的二元判断、「数数对不对」、「有没有安全问题」——这些不可微的信号全被挡在门外。TDM-R1的解法是把学习过程拆成两步:先用一个代理模型学习不可微奖励的近似表示,再用这个代理奖励去训练生成器。关键技巧是沿着TDM(轨迹分布匹配)的确定性生成轨迹提取逐步奖励信号,这样每一步去噪都能拿到反馈,而不是只看最终结果。效果相当扎实:4步生成不仅打平了100步的基线,在文字渲染、视觉质量、偏好对齐上全面超越,包括域外泛化指标。这意味着扩散模型的RLHF不再被锁在「只能优化美学评分」的小圈子里,人类偏好、安全检查、物体计数这些实际业务中最需要的信号都能接入了。

不可微奖励(人类偏好、计数、安全)首次可用于少步扩散模型的RL训练4步生成全面超越100步基线,训练和推理成本同时下降扩散模型RLHF的适用范围从美学评分扩展到几乎任意奖励信号

02 代码智能 代码模型的RL训练,从「能不能做」到「怎么做好」

同一天,两个团队分别撞上了代码模型RL后训练的不同瓶颈。MicroCoder-GRPO发现GRPO训练代码模型时输出越长梯度越不稳定,解法是条件截断掩码——对长输出的梯度做选择性截断,同时用多样性驱动的温度策略防止模型塌缩到单一解法。另一个团队从数据端发现了类似的问题:现有代码训练集的难度分布严重失衡,简单题占比过大,模型在RL阶段学不到东西,他们用LLM做难度标定和过滤来构建更有梯度的训练集。两篇合在一起看,代码模型的RL后训练已经过了方法论验证阶段,进入具体问题具体解的工程优化期。

长输出+GRPO的梯度不稳定问题有了针对性解法(条件截断掩码)代码RL训练数据集的难度分布比数据量更关键代码模型后训练正从「能不能做」转向工程细节优化

03 多模态 从网络视频里「长出」百万级3D标注,不靠人工

Holi-Spatial直接从网络视频流中提取出了百万级3D标注——1.2万个3DGS场景、130万个2D掩码、32万个3D包围盒、120万条空间问答对,整个pipeline全自动,不需要人工介入。这条路径绕开了现有3D数据集靠人工标注、规模天花板肉眼可见的瓶颈。数据集覆盖几何、关系和语义推理任务,用它微调VLM后空间推理能力有明显提升,说明数据规模的杠杆效应确实存在。

全自动pipeline从原始视频生成大规模3D标注,绕开人工标注瓶颈数据基础设施思路比模型架构创新更能释放3D理解能力66个社区upvote反映行业对3D数据规模化方案的强需求

04 模型架构 同样跳层加速,扩散LLM能省18%算力,自回归模型直接崩盘

同样是语言模型,自回归(AR)和扩散(dLLM)在内部表征结构上有根本差异——这是首个系统性的逐层对比研究给出的结论。LLaDA、Qwen2.5、Dream-7B三个模型的逐层分析显示,扩散目标会产生更层次化的抽象表征,前面的层存在大量冗余;而AR模型各层紧密耦合,跳过任何一层性能都会急剧下降。一个值得注意的发现:用AR权重初始化再做扩散训练的Dream-7B,表征模式仍然更像AR而非原生扩散模型,初始化的影响比训练目标更持久。基于这种冗余特性,原生dLLM可以直接跳过部分层,减少18.75%计算量且在推理和代码生成任务上保持90%以上性能——不需要改架构,也不依赖KV缓存共享。

扩散LLM的层级冗余使其天然适合层跳过加速,为AR设计的加速技巧不能直接搬过来用AR权重初始化的dLLM会继承AR的表征特性,选初始化策略时需要权衡随着dLLM逐渐进入生产部署,推理优化方案需要针对架构重新设计
4步超100步基线,跳层省18%算力

也值得关注

05
概念定制不再拿原模型能力做交换 图像生成—PureCC解耦了新概念学习和原始能力保持,CVPR接收。链接
06
导航世界模型加入动作条件一致性约束 机器人—多步rollout不再漂移,还能蒸馏到少步推理。链接
07
NVIDIA开源Megatron Core的MoE训练方案 训练优化—解决稀疏模型scaling时内存-通信-计算的耦合约束。链接
08
进化搜索与RL结合做开放式科学问题求解 AI for Science—Helix框架,ICLR接收。链接
09
在多核CPU上做LLM推理,充分利用NUMA架构 推理加速—面向没有GPU的服务器部署场景。链接
10
VLM过度依赖LLM组件导致鲁棒性问题 安全对齐—自批判推理框架在test-time修正,CVPR接收。链接
11
用扩散模型权重本身作为视觉表征的压缩存储介质 模型架构—Cambridge团队的新思路。链接
12
概念擦除对线性攻击有效但对非线性攻击仍脆弱 可解释性—NeurIPS量化了guardedness的根本代价。链接
13
AI准确率跟人类持平但犯错模式完全不同 评测—Cambridge提出OOD谱量化这种错位。链接
14
在压缩域直接做视频超分 视频生成—绕开解码-处理-编码的计算开销,逼近实时,CVPR接收。链接

今日观察

今天三篇论文各自攻克了一个具体的工程瓶颈:TDM-R1让扩散模型接入不可微奖励信号,MicroCoder-GRPO解决代码模型长输出时GRPO的梯度不稳定,Scaling Data Difficulty做代码RL训练数据的难度标定。三个问题领域不同、解法不同,但指向同一个信号——生成式模型的RL后训练已经从「方法论能不能跑通」走进了「每个领域各有各的工程坑」。

这个阶段转换意味着竞争壁垒在迁移。半年前,「会做RL」本身就是门槛,选GRPO还是PPO、怎么设计奖励函数,这些方法论选择构成核心竞争力。现在主流方法都有了成熟的开源实现,真正卡人的变成了领域特定的工程细节:扩散模型的奖励信号怎么从不可微变可用?代码模型输出太长时梯度怎么处理?训练数据的难度分布怎么调?这些know-how藏在实验日志和调参记录里,很难从论文摘要中提取。

如果你在做或计划做生成模型的RL后训练,建议花时间复现这三篇的工程细节(尤其是TDM-R1的代理奖励训练流程和MicroCoder的条件截断实现),而不只是读方法论概述——方法论的alpha已经消失,工程实现的alpha正在打开。