今日概览
- code agent 的真实瓶颈在「找数据→写代码」的衔接:CODA-BENCH 把1009个任务放进平均980个文件的 Linux 沙箱,最强系统成功率只有61.1%,暴露了分开测代码、测数据时看不见的盲区。
- 推理预算可以当资源来分配:AVA-VLA 让机器人模型在内部以潜在变量推理,再按置信度提前退出,LIBERO 上98.3%成功率、比显式 CoT 快6倍。
- 扩散训练补上了一整条轨迹的一致性约束,这篇 ICML 工作把强化学习里的时序差分搬进去噪过程,作为 drop-in 目标就能提升 FID,步数越少优势越明显。
- 离线又多目标,是很多调参和设计搜索的真实约束:DOMOO 用嵌套 Pareto 集学习把多样性做进优化本身,而非事后挑解。
重点关注
01 Agent 把代码和数据放进同一个沙箱,最强系统也只跑到61.1%
真实开发里,写代码和处理数据从来不是两件事——你得先在一堆文件里翻出哪个数据集有用,再写代码去分析它。CODA-BENCH把这个交织过程搬进了一个基于Kaggle生态的Linux沙箱:每个任务环境平均980个文件,agent得自己在复杂目录里探索、识别相关资源,再生成可执行的分析代码,全套1009个任务覆盖31个领域。结果是当前最强的系统成功率只有61.1%——不是代码写不对,也不是数据处理不了,而是把「数据发现」和「代码执行」这两步串起来时掉链子。这正是分开测试时看不见的盲区:单测代码能力或单测数据能力,分数都不难看,一旦放进真实的文件噪声里就露馅。需要看全文确认它的任务难度分布和评分标准,但这个「合起来测」的思路本身,比又一个排行榜更有信息量。
对从业者来说,更现实的提醒是benchmark类工作的老问题:刷榜容易,迁移到自己的工作流难——61.1%这个数字反映的是Kaggle式结构化数据场景,你自己业务里的脏数据和私有目录结构未必能套用。但如果你在做data agent或autonomous engineer方向,它至少给了一个比纯coding benchmark更接近真实的压力测试。
原文:CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?
02 机器人 推理预算能不能像资源一样按需分配?
机器人模型用显式思维链(CoT,把推理一步步写成文字)把「看到什么」接到「做什么」,但多步任务里这条链既慢又会逐步放大早期的判断误差。AVA-VLA换了个做法:让推理在内部以潜在变量的形式进行,不再生成文字,再用强化学习给这些潜在轨迹去噪、对齐到任务目标。真正有意思的是「提前退出」——模型按当前状态的置信度自适应决定推到哪一步就收手,等于把推理预算当成可调资源而非固定开销。报告的数字是LIBERO上98.3%成功率、推理比显式CoT快6倍,但更该问的是:省推理在哪些步骤上安全、什么情况下会因为退太早而崩,这需要看全文里的退出策略细节才能判断。
原文:Think Less, Act Early: Reinforced Latent Reasoning with Early Exit in Vision-Language-Action Models
03 图像生成 扩散模型的训练目标,原来漏掉了一整条轨迹
扩散模型生成图像是一步步去噪的,但训练时的目标函数只盯着每一步(或相邻两步)的局部去噪是否准确,从来不检查整条去噪路径前后是否自洽——这个结构性缺口一直被忽视。这篇ICML工作把强化学习里成熟的时序差分(TD,让相邻时刻的预测互相校准)搬过来,把去噪过程重新表述成马尔可夫奖励过程,去噪就成了RL里的策略评估问题。没想到这套跨领域借用真的奏效:作为drop-in目标加进去就能提升FID,而且采样步数越少、优势越明显,正好补在「少步快速采样质量会掉」这个实际痛点上。它对离散和连续两种扩散形式都通用,但具体能换来多少质量提升,得看你的步数预算和基线模型,论文只在标准设置下验证,落到自己场景还要实测。
原文:Temporal Difference Learning for Diffusion Models
04 训练优化 当目标函数贵到评估不起,只剩一份离线数据怎么求多目标最优?
调参、资源分配、设计空间搜索这类问题往往有两个现实约束叠在一起:要同时权衡多个目标,而且每次评估目标函数要么拿不到、要么贵到跑不起,只能靠一份固定的离线数据集。这种「离线多目标优化」的麻烦在于代理模型对没见过的设计不准(OOD问题),优化器容易被误导到Pareto前沿之外、还偏向极端值。DOMOO的思路是把「多样性」直接做进流程:用一个累积风险控制模块约束生成解别跑出数据分布太远,再用嵌套的Pareto集学习(PSL)同时学偏好和参数,去适应不同形状的Pareto前沿。它还专门设计了一个离线版的IGD指标来做最终筛选,避开了常用的hypervolume指标偏向极端解的毛病。论文称在合成与真实benchmark上收敛性和多样性的平均排名都最好,不过这是个ICML接收的方法工作,实际表现还要看你自己的数据集和目标维度。
原文:Diversity-Driven Offline Multi-Objective Optimization via Nested Pareto Set Learning
