code agent最强61.1%，VLA推理快6倍

今日概览

code agent 的真实瓶颈在「找数据→写代码」的衔接：CODA-BENCH 把1009个任务放进平均980个文件的 Linux 沙箱，最强系统成功率只有61.1%，暴露了分开测代码、测数据时看不见的盲区。
推理预算可以当资源来分配：AVA-VLA 让机器人模型在内部以潜在变量推理，再按置信度提前退出，LIBERO 上98.3%成功率、比显式 CoT 快6倍。
扩散训练补上了一整条轨迹的一致性约束，这篇 ICML 工作把强化学习里的时序差分搬进去噪过程，作为 drop-in 目标就能提升 FID，步数越少优势越明显。
离线又多目标，是很多调参和设计搜索的真实约束：DOMOO 用嵌套 Pareto 集学习把多样性做进优化本身，而非事后挑解。

重点关注

01 Agent 把代码和数据放进同一个沙箱，最强系统也只跑到61.1%

真实开发里，写代码和处理数据从来不是两件事——你得先在一堆文件里翻出哪个数据集有用，再写代码去分析它。CODA-BENCH把这个交织过程搬进了一个基于Kaggle生态的Linux沙箱：每个任务环境平均980个文件，agent得自己在复杂目录里探索、识别相关资源，再生成可执行的分析代码，全套1009个任务覆盖31个领域。结果是当前最强的系统成功率只有61.1%——不是代码写不对,也不是数据处理不了，而是把「数据发现」和「代码执行」这两步串起来时掉链子。这正是分开测试时看不见的盲区:单测代码能力或单测数据能力，分数都不难看，一旦放进真实的文件噪声里就露馅。需要看全文确认它的任务难度分布和评分标准，但这个「合起来测」的思路本身，比又一个排行榜更有信息量。

对从业者来说,更现实的提醒是benchmark类工作的老问题:刷榜容易,迁移到自己的工作流难——61.1%这个数字反映的是Kaggle式结构化数据场景,你自己业务里的脏数据和私有目录结构未必能套用。但如果你在做data agent或autonomous engineer方向,它至少给了一个比纯coding benchmark更接近真实的压力测试。

code agent的真实瓶颈不在单项能力，而在「找数据→写代码」的衔接，分开测会系统性高估它评测真实开发要把代码和大规模文件系统放进同一环境，否则分数迁移不到实际工作流做data agent方向的团队可以拿它当压力测试,但别把61.1%直接当成自己场景的预期。

原文：CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

02 机器人推理预算能不能像资源一样按需分配？

机器人模型用显式思维链（CoT，把推理一步步写成文字）把「看到什么」接到「做什么」，但多步任务里这条链既慢又会逐步放大早期的判断误差。AVA-VLA换了个做法：让推理在内部以潜在变量的形式进行，不再生成文字，再用强化学习给这些潜在轨迹去噪、对齐到任务目标。真正有意思的是「提前退出」——模型按当前状态的置信度自适应决定推到哪一步就收手，等于把推理预算当成可调资源而非固定开销。报告的数字是LIBERO上98.3%成功率、推理比显式CoT快6倍，但更该问的是：省推理在哪些步骤上安全、什么情况下会因为退太早而崩，这需要看全文里的退出策略细节才能判断。

潜在推理+提前退出把「想多久」变成按难度自适应的变量，而不是每步都全量推理6倍加速来自少推理，关键风险是简单步省了、难步退太早导致长程任务失稳做具身/机器人控制的团队值得关注把推理预算做成可调资源这个方向。

原文：Think Less, Act Early: Reinforced Latent Reasoning with Early Exit in Vision-Language-Action Models

03 图像生成扩散模型的训练目标，原来漏掉了一整条轨迹

扩散模型生成图像是一步步去噪的，但训练时的目标函数只盯着每一步（或相邻两步）的局部去噪是否准确，从来不检查整条去噪路径前后是否自洽——这个结构性缺口一直被忽视。这篇ICML工作把强化学习里成熟的时序差分（TD，让相邻时刻的预测互相校准）搬过来，把去噪过程重新表述成马尔可夫奖励过程，去噪就成了RL里的策略评估问题。没想到这套跨领域借用真的奏效：作为drop-in目标加进去就能提升FID，而且采样步数越少、优势越明显，正好补在「少步快速采样质量会掉」这个实际痛点上。它对离散和连续两种扩散形式都通用，但具体能换来多少质量提升，得看你的步数预算和基线模型，论文只在标准设置下验证，落到自己场景还要实测。

扩散训练长期缺少跨时间步一致性约束，TD目标是补这个结构性短板的新思路优势集中在少步采样场景，对追求低算力快速生成的部署最有价值作为通用drop-in可叠加到现有扩散模型，但提升幅度依赖步数和基线，需自测确认

原文：Temporal Difference Learning for Diffusion Models

04 训练优化当目标函数贵到评估不起，只剩一份离线数据怎么求多目标最优？

调参、资源分配、设计空间搜索这类问题往往有两个现实约束叠在一起：要同时权衡多个目标，而且每次评估目标函数要么拿不到、要么贵到跑不起，只能靠一份固定的离线数据集。这种「离线多目标优化」的麻烦在于代理模型对没见过的设计不准（OOD问题），优化器容易被误导到Pareto前沿之外、还偏向极端值。DOMOO的思路是把「多样性」直接做进流程：用一个累积风险控制模块约束生成解别跑出数据分布太远，再用嵌套的Pareto集学习（PSL）同时学偏好和参数，去适应不同形状的Pareto前沿。它还专门设计了一个离线版的IGD指标来做最终筛选，避开了常用的hypervolume指标偏向极端解的毛病。论文称在合成与真实benchmark上收敛性和多样性的平均排名都最好，不过这是个ICML接收的方法工作，实际表现还要看你自己的数据集和目标维度。

离线+多目标这个组合贴近真实工程约束，知道有这条专门的路比硬套单目标方法强DOMOO的卖点是把多样性和OOD风险控制做进优化本身，而非事后挑解评估指标从hypervolume换成离线IGD是个值得注意的细节——前者会系统性偏向极端解。

原文：Diversity-Driven Offline Multi-Objective Optimization via Nested Pareto Set Learning

也值得关注

Google 在经典质量-弹簧-阻尼系统上，给双网络 PINN 最优控制做了个透明可复现的基准 AI for Science对照传统方法看物理信息神经网络到底能不能打，想验证 PINN 可靠性的人值得一看。链接

扩散反演里 DDIM 虽快但误差会累积，这篇靠重排时间步来压低反演误差 图像生成做图像重建和编辑的可以关注。链接