Lottie动画直接生成，DPO自带防遗忘

今日概览

AI生成动画首次直接输出可编辑工程文件，OmniLottie把Lottie的冗长JSON压缩成参数化token序列，让视觉语言模型直接生成带关键帧和缓动曲线的矢量动画，省去格式转换环节。CVPR接收，200万动画数据集已开源
DPO的reward估计自带隐式正则化，本身就能抑制灾难性遗忘。SPoT发现很多常见post-training做法反而在破坏这个内置保护，用4k条最小修正数据即可让Qwen3-8B数学任务提升6.2%
Reward model的CoT不是越长越好：Mix-GRM区分了广度CoT和深度CoT，两者服务不同任务类型。结构化拆分后在5个benchmark上平均超现有最优开源模型8.2%
约束同时充当生成蓝图和质检标准。CoVe用显式约束驱动agent训练数据的合成与验证闭环，4B模型在τ²-bench上与17倍参数量模型竞争

重点关注

01 视频生成 AI生成动画第一次直接输出生产格式

Lottie是前端矢量动画的事实标准——轻量、跨平台、带关键帧和缓动曲线，但它的JSON文件动辄几千行，充斥着结构性元数据和格式化token。OmniLottie的核心思路是设计了一套Lottie tokenizer，把冗长的JSON压缩成「命令+参数」的结构化序列，只保留形状、动画函数和控制参数，砍掉所有不变的格式噪音。这让预训练的视觉语言模型可以直接学习生成Lottie动画，输入可以是文本、图片或混合指令。关键区别在于输出物：不是像素视频或GIF，而是完整的Lottie工程文件——带矢量路径、关键帧、缓动曲线，设计师拿到就能在After Effects或Figma里继续编辑。团队还构建了MMLottie-2M数据集，包含200万个专业设计的矢量动画及其文本和视觉标注，这个数据规模本身就是一个贡献。CVPR接收，HF社区121个upvote，代码已开源。

输出是可编辑的Lottie工程文件而非像素视频，省去格式转换环节Lottie tokenizer把冗长JSON压缩为结构化序列，让语言模型能学会矢量动画的「语法」做动效设计工具或前端动画方向的团队值得深入看

原文：OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

02 训练优化 DPO自带「防遗忘」，你可能一直在重复造轮子

做DPO post-training的团队大概都经历过这个焦虑：模型推理能力上去了，但之前学的知识开始崩。标准操作是加on-policy数据、搞replay buffer，各种防遗忘机制叠上去。但SPoT这篇的发现让人意外——DPO的reward估计本身就藏着一个隐式正则化机制，理论上就能抑制灾难性遗忘，只是之前没人认真挖过。更违反直觉的是，很多常见的post-training做法反而在破坏这个内置保护。他们据此设计了一套「手术式」训练方案：用Oracle对错误推理步骤做最小修正（而不是重写整个回答），配合二元交叉熵目标函数替代DPO的相对排序。结果是只用4k条修正数据、28分钟训练，Qwen3-8B在数学任务上平均提升6.2%，域内域外都涨。

DPO的reward估计自带隐式正则化，是被忽视的防遗忘机制「最小修正」比「重写回答」更能保持数据接近模型分布做DPO时先审视现有pipeline有没有无意中破坏这个内置保护，再决定要不要加额外防遗忘方案

原文：Surgical Post-Training: Cutting Errors, Keeping Knowledge

03 评测 Reward Model的推理链越长越好？未必，关键看怎么「长」

用CoT（思维链）让reward model多想一会儿再打分，效果确实更好——这已经是共识。但Mix-GRM揭示了一个被忽略的区分：广度CoT（覆盖多个评判维度，比如流畅性、事实性、安全性）和深度CoT（在单个维度上做深入推敲）的效果完全不同。盲目延长推理链，不区分广度和深度，评估质量反而会打折扣。具体来说，广度CoT在主观偏好任务（如风格判断）上更有效，深度CoT在客观正确性任务上更强——用错了方向，性能直接下降。Mix-GRM通过结构化拆分这两种推理模式，再用RLVR（可验证奖励的强化学习）训练，让模型自发学会根据任务类型切换推理策略，在5个benchmark上平均超过现有最优开源reward model 8.2%。

reward model的CoT需要结构化设计而非单纯拉长，广度和深度服务不同类型任务做RLHF pipeline的团队可以据此优化reward model的推理模板RLVR能让模型自动匹配推理风格与任务需求，减少人工调参

原文：Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

04 Agent 用约束做质检：当数据合成和验证共用同一套规则

训练tool-use agent的数据很难做——用户意图模糊，但工具调用容错率极低，合成数据要么太简单不够用，要么复杂了质量没法保证。CoVe的思路是先把任务拆成显式约束（比如「必须查询订单状态后才能发起退款」），然后让这些约束同时扮演两个角色：生成阶段用来引导合成复杂多轮轨迹，验证阶段用来自动判定轨迹是否正确。这样SFT和RL的训练信号都能从同一套约束中推导出来，数据质量有了确定性的锚点。

约束同时充当数据生成蓝图和质检标准，解决了agent训练数据「复杂性vs正确性」的两难4B参数模型在τ²-bench上达到43%/59.4%成功率，与17倍参数量的模型竞争做agent数据飞轮的团队可以借鉴「约束驱动」的合成-验证闭环思路

原文：CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

也值得关注

多图推理benchmark聚焦真实生活场景 评测不考「学术题」而是测日常情境下的跨图推理能力。ICLR接收。链接

Rubric-guided评估本身缺标准 评测微软做了RubricBench，专门度量模型生成评分标准的质量，给「评估的评估」补上量化基准。链接

NLU任务的AutoML库 代码智能数据感知的训练方案自动选择，覆盖文本分类和NER，不需要手动配置pipeline。链接

个人相册检索不只是图文匹配 检索PhotoBench要求理解时间线、社交关系和用户意图，比传统图文检索更接近真实使用场景。链接

用3D几何记忆桥接视频生成和场景重建 多模态在视频扩散模型中注入显式3D结构，解决多视角一致性问题。链接

MoE不再固定Top-K 模型架构DynaMoE逐token动态决定激活几个专家，每层容量也自适应调整。链接

上下文内自我反思即可做策略优化 推理不改参数，通过多轮反思提升回答质量，理论可证的test-time scaling方法。链接

用RL让draft模型学会调整草稿长度 推理加速投机解码的效率瓶颈在于固定草稿长度，自适应调整后加速比更稳定。链接

模块化记忆架构赋予模型持续学习能力 Agent将记忆拆分为独立模块，让foundation model具备经验积累和跨任务迁移能力。链接

长对话记忆管理的交互式benchmark AgentAMemGym用动态交互评测替代静态数据集，更贴近助手在长对话中的真实记忆挑战。链接

今日观察

今天三条线索交汇在「结构化评估」上。Mix-GRM发现reward model的CoT推理需要区分广度和深度两种机制，盲目拉长推理链反而有害；RubricBench揭示rubric-guided评估本身缺乏衡量标准——我们在用没有经过校准的尺子量东西；CoVe则展示了另一种路径，用显式约束同时指导数据生成和质量验证，让评估标准从主观判断变成可执行的规则。

这三个工作共同指向一个趋势：随着模型能力提升，「让评估者多想一会儿」已经不够了，评估过程本身需要被工程化——拆分维度、定义标准、设计约束。两年前LLM评估从单一分数走向多维rubric，现在这个需求传导到了reward model和agent训练的数据质量环节。评估不再是训练完之后的「验收」步骤，而是贯穿整个pipeline的基础设施。

如果你的团队在做RLHF或agent训练，值得审视一个问题：你的reward signal经过了多少层结构化设计？如果答案是「直接用模型打分」或「一条CoT走到底」，今天这三篇论文各自提供了一个可以立即尝试的改进方向。