今日概览
- Skill1把skill检索/使用/蒸馏合进一个policy:同一任务奖励co-train三件事,避免多奖励互相打架;同期SkillOS走另一条路线攻同一件事,agent持续学习的瓶颈正从单次推理转向skill库的运维方式。
- DCI让agent直接grep原始corpus:跳过embedding、向量索引和检索API,在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/重排序三类baseline,检索瓶颈从算法被挪到接口。
- LoPE在prompt前拼一段Lorem Ipsum:1.7B到7B规模都比直接重采样原prompt更能救回GRPO的zero-advantage样本,RL探索从output挪到input这条路过去几乎没人认真试过。
- CDM把DMD搬到连续时间:和Consistency Distillation原本分属两派的「轨迹密度」与「分布匹配」被统一进一个框架,1-4步生成不再依赖GAN/reward补丁。
重点关注
01 Agent 自演化agent的硬骨头在skill库,不在推理
Skill1做的事说出来很朴素:让一个policy同时学会三件事——从skill库检索并重排候选、用选中的skill完成任务、再从这次轨迹里蒸馏出新skill。关键是这三件事共用同一个任务结果信号来训,奖励的低频趋势credit给「选得对不对」,高频波动credit给「蒸馏出的新skill好不好」。之前主流做法是各练各的:skill manager有自己的检索奖励、主policy有任务奖励、蒸馏走离线pipeline,三套奖励经常互相打架,导致整体演化卡在某一环上。ALFWorld和WebShop上的提升主要来自这种统一credit分配,消融实验也确认任何一路credit被砍掉,三件事的协同演化都会退化。同一天另一篇SkillOS(2605.06614)走的是另一条路——把skill库的curation operator本身做成可学习对象——但攻的是同一件事:让skill库从手工运维变成跟主policy一起演化。两篇独立工作押注同一个方向是更值得注意的信号:agent持续学习的真正瓶颈在skill库的运维方式,不在单次任务的推理优化。
原文:Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
02 检索 把向量索引拆掉,让agent直接grep原始corpus
对agent来说,检索的瓶颈可能不在算法而在接口。把corpus压成一次top-k相似度查询,agent就做不了精确lexical约束、稀疏线索合取、局部上下文检查和多步假设修正——早期被过滤掉的证据,再强的下游推理也捞不回来。这篇提出的DCI(direct corpus interaction)干脆让agent直接用grep、文件读取、shell和轻量脚本操作原始corpus,不挂embedding、不建向量索引、不走检索API。在BRIGHT、BEIR的若干数据集,以及BrowseComp-Plus、多跳QA上,DCI跑赢了稀疏、稠密、重排序三类强baseline——但论文措辞是「several」个子集而非横扫,规模仍待更多场景验证。作者的判断是当agent推理能力变强,检索质量瓶颈正从算法转向接口分辨率:top-k一次性返回粒度太粗,多步交互才能补回被早期压掉的信号。
原文:Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
03 训练优化 RL训练里被浪费的难题样本,靠一段Lorem Ipsum救回来
GRPO训练有个老大难:一道题采样N次全部答错时,相对优势归零,这批数据和算力相当于白烧。常规思路都在output侧——调奖励函数、加curriculum、加大采样预算。LoPE反过来从input侧动手:在prompt前面拼一段Lorem Ipsum随机词汇,居然就把模型推到了原本走不通的推理路径上。1.7B到7B规模都比直接重采样原prompt更有效,更意外的是其他低困惑度的拉丁文乱码也都管用。把RL探索从output挪到input这一步过去几乎没人认真尝试过——这个方向的剩余空间可能比想象中大。
原文:Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
04 图像生成 少步扩散蒸馏的两条主流路线,被一篇论文合到了一起
少步扩散蒸馏一直有两条互相竞争的路:DMD(Distribution Matching Distillation)在几个固定时间步上做分布匹配,但稀疏监督加上反向KL的mode-seeking倾向,容易出伪影和过平滑,往往要靠GAN或reward model补救;Consistency Distillation则沿整条PF-ODE轨迹强制自一致,路线更密但框架不同。CDM(Continuous-Time Distribution Matching)把DMD从固定离散时间步搬到连续时间——用随机长度的动态连续调度让分布匹配发生在轨迹上的任意点,再用student速度场外推出的latent做off-trajectory对齐。结果是在SD3-Medium和Longcat-Image上不靠GAN/reward辅助也能拿到有竞争力的视觉质量。意义不在于又刷了一档指标,而在于把「轨迹密度」和「分布匹配」这两个原本分属两派的思想放进了同一个框架。
原文:Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

也值得关注
今日观察
Skill1、SkillOS、StraTA三篇放在一起读,能看到一个共同动作:把agent里以前靠手工脚本或写死规则维护的环节,改造成跟主policy一起RL训练的可学习组件。三篇动的位置各不相同——Skill1动skill operator(检索/使用/蒸馏),SkillOS动curation operator(哪条skill值得留进库),StraTA动strategy生成(trajectory-level的探索策略)——但都在攻同一件事:agent系统里那些「看起来不需要学习的固定逻辑」其实可以、也应该和policy共同优化。这条线索比单看任何一篇都更能解释为什么近几周agent RL的论文密度突然变高。
具体可以做的事:如果在做agent,花十分钟列一张表——你的系统里还有哪些「固定逻辑」模块(路由、过滤、记忆挑选、工具选择、重写、降级策略……)目前靠手工脚本或写死的启发式维护?逐项判断哪些值得纳入RL co-training,哪些是真没必要。优先看那些奖励信号能直接传过去、且当前规则启发式带来明显失误的环节,这是最容易拿到收益的位置。