今日概览
- 物理穿帮才是视频世界模型的真瓶颈,不是画质:PhysisForcing给接触和形变区域加物理约束,把作为机器人世界模型的闭环成功率从16%提到24%——方向对,但绝对值仍低。
- 奖励涨了,图却悄悄变差:NormGuard发现RL后训练会让模型范数膨胀5%-15%,这是个奖励代理测不出、却能直接拿去自查的掉质信号。
- 越狱没有抹掉安全特征,只压制了少数注意力头:关掉几个早期层的「易受攻击头」就能让模型照做有害请求,而中间层的安全头依旧激活——读它即可无训练检测。
- 大厂把「论文助手」做成投稿前评审工具:Google的PAT用推理时扩展找深层错误,SPOT基准召回比zero-shot高34%,定位是辅助验证而非替代裁决。
重点关注
01 视频生成 把视频模型当机器人世界模型,物理穿帮是真实瓶颈
越来越多人把视频生成模型当成机器人的「世界模拟器」——让模型先预演一段操作,再据此决策。但问题是通用视频模型和机器人微调过的模型都会生成物理上不可能的画面:轨迹突然跳变、手和物体穿模。PhysisForcing做了件务实的事,先定位不稳定的两个来源——运动物体的形变,以及接触瞬间各实体之间不合理的时空关联——再针对这些「物理信息密集」的区域加约束,用一个像素级的轨迹对齐损失和一个语义级的关系对齐损失(后者借一个冻结的视频理解编码器提取区域间关系)去强化监督。效果上,在R-Bench上比vanilla微调多提升7.1%和3.7%(相对基线总提升22.3%和9.2%);更值得看的是闭环指标——作为世界模型在动作规划协议下,闭环成功率从16%提到24%。这个绝对值还很低,说明视频当世界模型离可靠还有距离,但它至少证明了物理约束确实补得上一部分,而不只是把画面修得好看。摘要只有4个upvotes、信息有限,高分辨率和长时序下能不能稳住得看全文确认。
原文:PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation
02 图像生成 奖励涨了图却悄悄变差,范数膨胀是个可自查的信号
用RL给flow-based图像生成器做后训练,奖励分数会涨,但感知质量常常同步下滑——而且这种掉质恰恰是奖励代理本身测不出来的。NormGuard找到了一个能直接拿去自查的结构信号:跨NFT、AWM、DPO三种后训练方法,RL都会让模型每步的速度范数(velocity norm,可以理解为模型在每一步生成中「用力的大小」)相对参考模型膨胀5%到15%。更有意思的是排错结论:这种膨胀已经被「焊死」进了权重里,推理时把范数缩回去既不提奖励也修不好画质;而伴随分析又表明,压制这种膨胀并不会损失奖励信号。所以正确的做法是在训练阶段加约束——NormGuard用一个只在范数超标时才激活的hinge惩罚项,在保住奖励的同时改善了画质,而且步数越少(few-step推理)增益越明显。
原文:NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning
03 安全对齐 越狱成功的那一刻,模型其实还「知道」这是有害请求?
一直以来越狱攻击为什么有效都偏玄学,这篇给了个意外的机制答案:攻击并没有把模型的安全特征整体抹掉,而是只压制了特定的注意力头。研究区分出两类功能不同的头——早期层的「易受攻击头」(ACHs)会被攻击压下去,中间层的「安全对齐头」(SAHs)即便攻击得逞也照常激活。消融实验把因果链坐实了:只关掉少数几个ACHs,就能让模型对本该拒绝的请求乖乖照做;而攻击压制ACHs靠的正是越狱模板里那些特定token。最反直觉的是,既然内部安全信号还在,那只要直接读这些持续激活的SAHs——不训练、不微调——就能拿到有竞争力的有害检测效果,而且对对抗攻击很稳。
04 Agent Google把论文助手做成投稿前评审工具,边界划在辅助验证
「AI能不能做同行评审」已经讨论很久,但Google这篇给的是一个落地样本:PAT(Paper Assistant Tool)是个agentic评审框架,吃进整篇论文,做的事很具体——核对理论推导、验证实验、提改进建议、找潜在漏洞。它没指望一次模型调用搞定,而是用推理时多次扩展(inference scaling)来挖更深的问题,在SPOT数学错误基准上的召回率比zero-shot提升34%。更值得注意的是部署方式:它在STOC和ICML两个会议作为投稿前工具给作者用,定位是早期抓错、减轻审稿人负担,而不是替审稿人下结论——决定权仍在人手里。这是观察agent落到「专业判断类任务」的一个真实参照:边界划在辅助验证,而非替代裁决。
原文:Towards Automating Scientific Review with Google's Paper Assistant Tool

也值得关注
今日观察
今天有一组具身/VLA的工作不约而同绕开了模型本身,集体去攻一个更underrated的瓶颈:动作数据从哪来。PhysisForcing走合成路线——把视频模型改造成物理可信的世界模拟器,让它自己预演出可用的rollout;HAT-4D走开采路线——从海量随手拍的单目视频里把4D多物体交互抠出来喂给VLA。一个造数据、一个挖数据,方向相反,攻的却是同一个稀缺:真机交互数据贵且少。再算上S²-VLA在动作端治长程误差累积,今天的机器人叙事不再是「又一个更强的策略」,而是大家开始默认——真正卡脖子的是数据管线,不是模型架构。
落到行动上:如果你在做具身/VLA,下次评估一个方案前,先把「它的训练数据从哪来、能不能规模化」摆到和「策略多强」同等的位置去问;模型架构的边际收益正在让位给数据获取这件更脏更难的事。