弃权规则让agent停手召回翻倍

今日概览

可靠的agent得知道何时停手：13个agent系统、2.8万多任务的评测显示，「什么时候弃权」比「能不能弃权」更难，而且模型越大越会推理，有时反而越不肯停——CONVOLVE用蒸馏出的停止规则，把Llama-3.3-70B的及时弃权召回从26.7提到57.4。
考试高分≠诊室能用。 Stanford用620个真实门诊问题盲评，149名执业医生逐题按专科打分，专门临床工具OpenEvidence在五个维度上全面领先三个通用前沿模型，差距25到39个百分点。
视频重打光的真正瓶颈是块与块的接缝，NVIDIA的HorizonRelight把上一块的目标域latent传给下一块、配合带遮罩的自我条件训练，专治长视频滑窗推理时边界处的光照跳变。
教机器人模仿人类，关键在理解交互而非照搬动作：MIT的Human2Any把人类示范拆成以物体交互为核心的可组合先验，零目标任务真机数据就迁移到了Franka机械臂和人形机器人。

重点关注

01 Agent 衡量agent的标准里，缺了「知道何时停手」这一项

做agent产品的人都在比谁更能干：能搜、能点、能跑终端，多轮交互把任务办成。但有一类情况一直没被当回事——目标本身没说清，或者环境里压根办不到。这时可靠的agent该做的不是硬撑，而是识别出「再交互也没用」然后停手。这篇把这个能力单独拎出来定义成Agentic Abstention（主动弃权），并强调它和传统的单轮「答还是不答」不一样：agent每一轮都可以选择回答、弃权或继续探索，而「该弃权」这个信号往往要交互一阵之后才暴露出来。作者在网购、终端、问答三类环境、13个agent系统、2.8万多个任务上做了评测，结论是核心难点不只是「能不能弃权」，而是「什么时候弃权」——有的agent该停时从不停，有的则要白白折腾很多轮才停。最棘手的是那种「指令看着可行、直到环境揭示无解」的任务（比如根本没有匹配的商品结果）。一个反常识的发现是：模型更大、更会推理，有时反而更不擅长及时停手。论文还给了个不动参数的办法CONVOLVE，把完整交互轨迹蒸馏成可复用的「停止规则」，在WebShop上把Llama-3.3-70B的及时弃权召回率从26.7提到57.4。

「知道什么时候不做」直接关系到agent的成本、延迟和用户信任，该进你的评测指标，而不是只盯着任务成功率别默认更大更强的模型就更靠谱——及时停手这件事上它可能更差，做选型时单独验一遍CONVOLVE这类不改参数、靠上下文工程注入停止规则的思路，对线上agent是低成本可试的方向。

原文：Agentic Abstention: Do Agents Know When to Stop Instead of Act?

02 评测考试刷到满分的模型，到了诊室为什么输了

医生每周向AI工具提出数百万个临床问题，但评测它们用的几乎都是考试题和假设性问题——和诊室里真实问的不是一回事。Stanford这篇收集了620个真实门诊问题(Real-POCQi)，让149名来自36个州的执业医生做盲评，把三个通用前沿模型(Claude Opus 4.8、Gemini 3.1 Pro、GPT-5.5)和一个专门的临床工具OpenEvidence做头对头对比，每道题都匹配对应专科的医生来打分。结果在准确性、临床实用性、来源质量等五个维度上，专门工具全面领先，胜负差25到39个百分点。值得注意的是论文自己的结论保留了余地：这不代表通用模型做不了，而是针对性的工程和定制能在垂直场景带来实打实的提升。另一个细节也有意思——用LLM当裁判和专家医生的判断系统性地不一致，虽然两者大体同意谁是最好的，但如果你在用模型自动评估专业领域的输出，这个偏差需要警惕。

专业垂直场景里，考试式benchmark的高分和真实可用之间有明显落差，落地前要用贴近真实查询分布的评测通用模型不是不能用，但要靠针对性工程和定制才能补上专门工具的差距用LLM当裁判评估专业输出会系统性偏离专家判断，自动评估的结果要打个折扣。

原文：Expert Evaluation of Clinical AI Tools on Real Point-of-Care Clinical Queries

03 视频生成长视频重打光卡在哪？答案是块与块的接缝

视频重打光的demo看着都很好，但落到几分钟的长片就露馅：现在的视频扩散模型都在短clip上训练，处理长视频只能切成块、用滑动窗口逐块推理，于是块与块的边界处光照会突然跳变、前后不连续。NVIDIA的HorizonRelight把问题重新定义成「带时间条件的潜空间域翻译」——核心做法是把上一块的目标域latent传递到下一块作为起点，再用一种带遮罩的自我条件训练，让模型学会从被部分遮挡的上文继续生成，而不是各块各画各的。另外它用一个可控生成模型先产出一帧「重打光锚点」作为初始状态(warm-start)，顺带提供了一个用prompt控制打光的接口。论文称在真实长视频上块边界的artifact大幅减少、跨块的外观漂移也明显被压住，不过这类工作的成色得看实际视频里的闪烁和细节稳定度，光看指标不够。

视频重打光的真正瓶颈不是单帧质量而是长程一致性，块边界跳变是工程落地的拦路石跨块传递目标域latent+遮罩自我条件，是解滑窗不连续的一个可复用思路做视频后期/生成工具的团队值得跟，但效果要等真实长片的稳定度验证。

原文：HorizonRelight: Relighting Long-horizon Videos Consistently via Diffusion Transformers

04 机器人教机器人模仿人类，难点在理解交互而不是照搬动作

用人类视频教机器人操作，最大的坎不是数据不够，而是人手和机械臂根本不是一回事——本体不匹配、场景不一样、机器人自己还有够不到的物理约束。MIT这篇Human2Any没有走端到端硬学一个策略的路子，而是把人类示范拆成以物体交互为核心的先验：只记录「物体之间该怎么动」这种和任务相关的变化，把人手特有的细节抽象掉。再把这些先验和机器人侧的可行性推理、运动规划组合起来，同一份人类知识就能适配不同本体、不同场景几何。论文在Franka桌面机械臂和RBY-1人形移动机器人上都做了真机验证，全程没用目标任务的真机训练数据。这条「分解+约束校验」的路线比又刷高某个成功率更值得看——它把「模仿人」重新定义成了「理解交互再自己规划」。

把人类示范抽象成物体间交互先验，绕开了本体不匹配这个核心难题先验可组合、可行性可校验，意味着同一份人类知识能跨机械臂和人形机器人复用零目标任务真机数据就能迁移，但泛化边界要看全文和更多场景才能下结论。

原文：Human2Any: Human-to-Robot Transfer via Constraint-Aware Compositional Planning

也值得关注

Harvard的治疗推理agent在「生物医学工具宇宙」里迭代权衡 Agent禁忌、合并症、用药逐项推敲再选治疗方案，是agent工具编排落到专业领域的一个样本。链接

用亚里士多德德性伦理给LLM做「性格画像」 安全对齐把公平、诚实、勇气、克制当成可描述、可度量的维度（与今日观察呼应）。链接

TrafficAlign把LLM生成的交通场景对齐回真实分布 训练优化预训练模型造出的场景对不上现实，用自动化框架修正，给自动驾驶造可用数据。链接

BackTranslation2.0重做手语生成的评测指标 评测旧metric简单粗糙、跟人类判断脱节，这篇从语言学动机出发重新设计。链接

FreqOrtho-SR用频率引导的正交专家化解超分的两难 图像生成真实图像超分里像素保真和语义质量难兼顾，靠频率分工去调和。链接

LogiCo把结构异常和逻辑异常统一进一个框架 模型架构多数异常检测只盯结构，违反逻辑约束的那类常被漏掉。链接

频谱感知的特征解耦网络对付小目标检测的背景干扰 模型架构不同频谱的背景噪声会拖累性能，按频谱分离特征来抑制。链接

用逆优化给分层决策的子策略一套有原则的设计 推理绕开纯RL训练分层策略不稳的老问题。链接

今日观察

今天有两篇出发点毫不相干的论文，不约而同把「不行动」当成一种正经能力来研究。Agentic Abstention从工程角度问的是：一个agent该在什么时候停止调用工具、主动弃权？它把「知道什么时候别做」做成了可测的可靠性指标。Aristotelian Virtue Profiling从伦理角度，把「克制」(restraint)和公平、诚实、勇气并列，当成给模型画性格时可以度量的一个维度。一个测能力，一个测性格，落点却撞在同一处：我们评价一个agent，长期只在数它能做多少事，却几乎没人系统地问它知不知道什么时候不该做。这块空白之所以被低估，是因为「没动手」在成功率表里不留痕迹——它从不加分，只在出问题时才扣分。

行动建议：给你的agent评测单独划出一类「本就该弃权」的任务（目标不清、环境无解），统计它该停时停没停的比例，而不是把这些样本一股脑算成普通失败——你大概率会发现，最强的那个模型在这一项上未必最好。