先写代码再画图，排版提升68%

今日概览

所有intrinsic RLVR本质是锐化初始分布，模型先验质量决定训练天花板。Model Collapse Step可在跑RL前预判可行性，避免无效投入
代码比自然语言更适合做空间推理链：结构化布局基准提升68.83%，密集排版和多元素场景改善最为显著
模仿学习的结构性缺陷是缺少判断力训练。 ACT用RL让模型在候选动作间做对比评估，批判能力可迁移到分布外任务
高噪声扩散状态的信息量等价于低分辨率小图，全分辨率处理是冗余计算。理论扎实，但高分辨率场景的质量tradeoff待验证

重点关注

01 训练优化 Intrinsic reward先升后降，无监督RL训练的天花板在哪？

Intrinsic RLVR（用模型自身信号做奖励的无监督强化学习）近期实验不少，但多数工作只展示了「能涨」，没说清楚天花板在哪。这篇给出了迄今最系统的分析：先将URLVR方法分为intrinsic（模型自身信号）和external（外部计算验证）两类，再用统一理论框架证明——所有intrinsic方法本质上都在做同一件事：锐化模型的初始分布。当模型初始置信度与正确性对齐时，锐化有效；不对齐时，会灾难性崩溃。实验印证了这个结论：intrinsic reward在所有方法上都呈现先升后降的规律，崩溃时间点取决于模型先验质量而非工程调参。值得注意的是，intrinsic reward在小数据集的test-time training场景仍然有价值，论文还提出了Model Collapse Step作为预判指标——相当于在跑RL之前先做一次「可行性检查」。另一个方向是external reward的初步探索：利用计算不对称性（生成难、验证易）构建奖励信号，初步实验显示有望绕过intrinsic方法的置信度天花板，但目前还只是early evidence。

所有intrinsic RLVR本质是锐化初始分布，模型先验质量决定训练上限而非工程技巧Model Collapse Step可预判RL训练可行性，适合在投入资源前做评估external reward利用计算不对称性是值得关注的方向，但尚需更多验证

原文：How Far Can Unsupervised RLVR Scale LLM Training?

02 图像生成代码即推理链：先写程序再画图，复杂排版提升68%

让模型先写一段代码再画图——听起来绕远路，但CoCo证明这恰恰是捷径。做法是让模型根据文本提示生成可执行代码来定义场景的空间布局，在沙盒中渲染出确定性草图，再精修为高保真图像。代码天然具备精确坐标、循环和条件判断，这些正是自然语言CoT（链式推理）描述不了的东西——尤其在密集文字排版和多元素复杂场景下差距巨大。在结构化布局基准上比直接生成提升68.83%，比其他CoT方法也全面领先，证明了程序化表达是比自由文本更好的空间推理语言。

代码天然适合描述空间布局，比自然语言推理链更精确可控密集排版和多元素场景提升最显著，最高达69%做复杂图文生成的团队值得关注「代码即推理链」这个范式信号

原文：CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

03 Agent 只看正确示范，能学会判断力吗？

你可以通过看无数正确示范学会执行，但执行不等于理解——模型照着专家动作做，却从不对比好与坏，缺少对行动质量的判断力。有些工作尝试让模型模仿预写好的反思文本来弥补，但模仿反思和真正学会反思是两回事。ACT换了个思路：用RL训练模型在两个候选动作中判断哪个更好，根据判断正确与否给奖励，让模型自主发展出评估行动质量的能力。三个Agent benchmark上比模仿学习平均高5个点，比直接RL也高4.6个点，且泛化到分布外任务和通用推理——说明学到的是判断力本身，不只是任务特定的反应模式。

模仿学习的结构性缺陷是只接触正确动作、无法发展判断力ACT用RL让模型自主学会评估行动质量，而非模仿预制的反思文本方法在分布外任务上泛化良好，说明批判能力可迁移

原文：Agentic Critical Training

04 模型架构噪声越大的扩散步骤，其实只需要一张缩略图

尺度空间理论（scale-space theory）和扩散模型看似两个领域，但Scale Space Diffusion做了一个形式化的连接，结论有点反直觉：高噪声状态所包含的信息量，数学上等价于一张降采样后的低分辨率小图。换句话说，扩散模型在早期去噪步骤中用全分辨率处理，本质上是在对「不存在的细节」做无用功。基于这个发现，他们提出了Flexi-UNet——只在需要的分辨率和网络深度上做去噪，噪声大时处理小图，细节逐步出现时再提升分辨率。理论推导很优雅，但在CelebA和ImageNet上的实验还需要关注一个关键tradeoff：效率提升的同时，生成质量是否打了折扣，目前只看到了scaling行为分析，高质量生成场景下的表现有待验证。

高噪声扩散状态的信息量等价于低分辨率图像，全分辨率处理是冗余计算Flexi-UNet按信息密度动态调整处理分辨率，实现「该粗则粗、该细则细」理论基础扎实但生成质量的tradeoff需要在更高分辨率场景下验证

原文：Scale Space Diffusion

也值得关注

统一编辑器用MoE路由动态分配条件信号权重 图像生成解决多任务静态融合导致的相互干扰。链接

自回归长视频的误差累积有了新解法 视频生成层级去噪在时序连续性和画面质量之间找到更好的平衡点。链接

400道专家级agent任务覆盖法律、金融、医疗 评测直接对标百万美元级真实决策场景。链接

ViT微调时显式引导关注语义概念而非背景线索 训练优化有效提升分布偏移下的鲁棒性。链接

测试时自适应学习新类别，无需重新训练 模型架构面向在线流式场景的实用能力。链接

评测VLM识别细微视觉差异的推理能力 评测面向工业质检和医学影像等精细判断场景。链接

从权重方向角度理解扩散蒸馏 推理加速实现更稳定的一步图像生成。链接

用原型引导擦除扩散模型中的宽泛概念 安全对齐可移除整个艺术风格而非仅限单一角色。链接

LLM通过条件token切换行为模式 可解释性类似变色龙适应环境的内在行为可塑性。链接

稀疏注意力跳过的块用线性补偿恢复 视频生成视频生成提速且不损失质量。链接

今日观察

今天三篇重点论文做了同一件事：替换掉一种传统监督信号。RLVR用模型内在奖励替代ground-truth标签，ACT用学习到的批判信号替代专家示范，CoCo用代码结构替代自然语言规划。

表面看三个方向毫不相关，但底层问题是同一个：不是监督数据不够多，而是标准监督形式的表达力不足。标签只说对错，不说为什么错；示范只展示做什么，不解释为什么不做另一种选择；自然语言描述「左边放A、右边放B、中间留30像素」天然不精确。

当前正在发生的不是「去监督化」，而是监督信号从低保真度向高保真度的系统性升级——从单bit的对/错判定，走向能承载结构、因果和定量关系的信号形式。

如果你正在设计训练流程，值得停下来审视一个问题：当前使用的监督信号，是否真的表达了你希望模型学会的东西？标签、示范、自然语言描述各有表达力边界。选错信号形式，再多数据也补不回来。