今日概览
- 可靠的agent得知道何时停手:13个agent系统、2.8万多任务的评测显示,「什么时候弃权」比「能不能弃权」更难,而且模型越大越会推理,有时反而越不肯停——CONVOLVE用蒸馏出的停止规则,把Llama-3.3-70B的及时弃权召回从26.7提到57.4。
- 考试高分≠诊室能用。 Stanford用620个真实门诊问题盲评,149名执业医生逐题按专科打分,专门临床工具OpenEvidence在五个维度上全面领先三个通用前沿模型,差距25到39个百分点。
- 视频重打光的真正瓶颈是块与块的接缝,NVIDIA的HorizonRelight把上一块的目标域latent传给下一块、配合带遮罩的自我条件训练,专治长视频滑窗推理时边界处的光照跳变。
- 教机器人模仿人类,关键在理解交互而非照搬动作:MIT的Human2Any把人类示范拆成以物体交互为核心的可组合先验,零目标任务真机数据就迁移到了Franka机械臂和人形机器人。
重点关注
01 Agent 衡量agent的标准里,缺了「知道何时停手」这一项
做agent产品的人都在比谁更能干:能搜、能点、能跑终端,多轮交互把任务办成。但有一类情况一直没被当回事——目标本身没说清,或者环境里压根办不到。这时可靠的agent该做的不是硬撑,而是识别出「再交互也没用」然后停手。这篇把这个能力单独拎出来定义成Agentic Abstention(主动弃权),并强调它和传统的单轮「答还是不答」不一样:agent每一轮都可以选择回答、弃权或继续探索,而「该弃权」这个信号往往要交互一阵之后才暴露出来。作者在网购、终端、问答三类环境、13个agent系统、2.8万多个任务上做了评测,结论是核心难点不只是「能不能弃权」,而是「什么时候弃权」——有的agent该停时从不停,有的则要白白折腾很多轮才停。最棘手的是那种「指令看着可行、直到环境揭示无解」的任务(比如根本没有匹配的商品结果)。一个反常识的发现是:模型更大、更会推理,有时反而更不擅长及时停手。论文还给了个不动参数的办法CONVOLVE,把完整交互轨迹蒸馏成可复用的「停止规则」,在WebShop上把Llama-3.3-70B的及时弃权召回率从26.7提到57.4。
原文:Agentic Abstention: Do Agents Know When to Stop Instead of Act?
02 评测 考试刷到满分的模型,到了诊室为什么输了
医生每周向AI工具提出数百万个临床问题,但评测它们用的几乎都是考试题和假设性问题——和诊室里真实问的不是一回事。Stanford这篇收集了620个真实门诊问题(Real-POCQi),让149名来自36个州的执业医生做盲评,把三个通用前沿模型(Claude Opus 4.8、Gemini 3.1 Pro、GPT-5.5)和一个专门的临床工具OpenEvidence做头对头对比,每道题都匹配对应专科的医生来打分。结果在准确性、临床实用性、来源质量等五个维度上,专门工具全面领先,胜负差25到39个百分点。值得注意的是论文自己的结论保留了余地:这不代表通用模型做不了,而是针对性的工程和定制能在垂直场景带来实打实的提升。另一个细节也有意思——用LLM当裁判和专家医生的判断系统性地不一致,虽然两者大体同意谁是最好的,但如果你在用模型自动评估专业领域的输出,这个偏差需要警惕。
原文:Expert Evaluation of Clinical AI Tools on Real Point-of-Care Clinical Queries
03 视频生成 长视频重打光卡在哪?答案是块与块的接缝
视频重打光的demo看着都很好,但落到几分钟的长片就露馅:现在的视频扩散模型都在短clip上训练,处理长视频只能切成块、用滑动窗口逐块推理,于是块与块的边界处光照会突然跳变、前后不连续。NVIDIA的HorizonRelight把问题重新定义成「带时间条件的潜空间域翻译」——核心做法是把上一块的目标域latent传递到下一块作为起点,再用一种带遮罩的自我条件训练,让模型学会从被部分遮挡的上文继续生成,而不是各块各画各的。另外它用一个可控生成模型先产出一帧「重打光锚点」作为初始状态(warm-start),顺带提供了一个用prompt控制打光的接口。论文称在真实长视频上块边界的artifact大幅减少、跨块的外观漂移也明显被压住,不过这类工作的成色得看实际视频里的闪烁和细节稳定度,光看指标不够。
原文:HorizonRelight: Relighting Long-horizon Videos Consistently via Diffusion Transformers
04 机器人 教机器人模仿人类,难点在理解交互而不是照搬动作
用人类视频教机器人操作,最大的坎不是数据不够,而是人手和机械臂根本不是一回事——本体不匹配、场景不一样、机器人自己还有够不到的物理约束。MIT这篇Human2Any没有走端到端硬学一个策略的路子,而是把人类示范拆成以物体交互为核心的先验:只记录「物体之间该怎么动」这种和任务相关的变化,把人手特有的细节抽象掉。再把这些先验和机器人侧的可行性推理、运动规划组合起来,同一份人类知识就能适配不同本体、不同场景几何。论文在Franka桌面机械臂和RBY-1人形移动机器人上都做了真机验证,全程没用目标任务的真机训练数据。这条「分解+约束校验」的路线比又刷高某个成功率更值得看——它把「模仿人」重新定义成了「理解交互再自己规划」。
原文:Human2Any: Human-to-Robot Transfer via Constraint-Aware Compositional Planning

也值得关注
今日观察
今天有两篇出发点毫不相干的论文,不约而同把「不行动」当成一种正经能力来研究。Agentic Abstention从工程角度问的是:一个agent该在什么时候停止调用工具、主动弃权?它把「知道什么时候别做」做成了可测的可靠性指标。Aristotelian Virtue Profiling从伦理角度,把「克制」(restraint)和公平、诚实、勇气并列,当成给模型画性格时可以度量的一个维度。一个测能力,一个测性格,落点却撞在同一处:我们评价一个agent,长期只在数它能做多少事,却几乎没人系统地问它知不知道什么时候不该做。这块空白之所以被低估,是因为「没动手」在成功率表里不留痕迹——它从不加分,只在出问题时才扣分。
行动建议:给你的agent评测单独划出一类「本就该弃权」的任务(目标不清、环境无解),统计它该停时停没停的比例,而不是把这些样本一股脑算成普通失败——你大概率会发现,最强的那个模型在这一项上未必最好。