Flow-OPD把GenEval从63拉到92

今日概览

  • 图像生成对齐和 LLM 后训练正在共享同一套工具栈:Flow-OPD 把 On-Policy Distillation 搬到流匹配,SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94,比直接跑 GRPO 高约 10 分。
  • 测试时扩展策略可以搜出来而不是调出来:AutoTTS 把研究者的任务上移一层——不再设计策略,而是搭一个「发现环境」,160 分钟、39.9 美元搜到的策略能跨 benchmark 和模型规模迁移。
  • agent 的延迟瓶颈常常在被串行化掉的并行机会,HyperEyes 把同一轮里独立的子检索改成并行原子动作,30B 版本准确率高 9.9%、tool-call 轮数少 5.3 倍。
  • 物理交互数据终于进入百万小时量级:HumanNet 100 万小时人类活动视频,第一/第三人称双视角;1000 小时第一人称视频继续训练超过 100 小时真实机器人数据。
  • 一份 LoRA adapter 同时给云端和边缘用:MatryoshkaLoRA 把 rank 改成嵌套层次,部署时按设备能力切档,相比 DyLoRA 在高 rank 端更稳。

重点关注

01 图像生成 当文生图开始用LLM的后训练工具栈

LLM后训练里有个经典问题:多个奖励信号互相打架,模型学着学着就开始reward hacking。流匹配(Flow Matching,目前主流的扩散类生成范式)做多任务对齐时遇到的麻烦其实是同构的——指标互相按下去抬起来的「seesaw effect」,本质上跟LLM的多目标对齐没什么两样。Flow-OPD干脆把LLM那边已经验证过的On-Policy Distillation整套搬过来:先用单一奖励的GRPO各训出一个专长教师,再用on-policy采样加任务路由把多个教师蒸馏到一个学生里,并加一项任务无关的「流形锚定」防止画质塌陷。任务路由比直接multi-reward GRPO关键的不同在于,后者把多个奖励加权成一个标量、在每个梯度步里挤压同一组参数,几个目标本质上是在抢梯度方向;OPD这边按样本派发到对应的专长教师做蒸馏,多目标被拆成样本维度上的硬切分,梯度不再互相抵消。流形锚定的直觉则是给生成轨迹加一道「不要偏离预训练自然图像分布」的兜底——硬按奖励推容易把模型滑到指标涨但画质崩的hack区,锚定项相当于把策略约束在已经学到的真实图像流形上做局部优化。在SD 3.5 Medium上GenEval从63提到92、OCR从59到94,比直接跑GRPO高大约10分。需要保留意见的是:摘要只展示了对seesaw的缓解,没给跨任务负迁移的量化边界,真正的扩展性还要看更多任务组合下的表现。

文生图对齐的「多目标打架加reward hacking」问题跟LLM后训练是同构的,方法论在向同一套收敛两段式OPD(教师专长化加任务路由蒸馏)能在不牺牲画质的前提下把GenEval、OCR这类硬指标一起拉高图像生成团队从LLM后训练栈复用工具的迁移成本会持续下降,值得提前盘点哪些环节可以直接搬过来。

02 推理 把「调 TTS 策略」这件事自己外包给 LLM

测试时扩展(TTS,在推理时多花算力提升效果)这两年已经是标配,但策略一直是研究者手工设计的——什么时候分支、什么时候剪枝、什么时候停,全靠经验调启发式。AutoTTS 改的不是某个 trick,而是工作流:研究者不再设计策略本身,而是搭一个「发现环境」——把 width-depth TTS 形式化成在预采样的推理轨迹上做控制器合成,于是搜索过程不用反复调 LLM,发现成本压到 $39.9 和 160 分钟。结果是搜出来的策略在 accuracy-cost 曲线上跑赢手工基线,还能迁移到没见过的 benchmark 和模型规模。这套思路真正的看点不是数学推理上又涨了几个点,而是它把 scaling 时代的方法论——「不要直接优化结果,去搭一个能 scale 的发现过程」——从训练侧搬到了推理侧。当 inference 预算继续涨,谁先把「策略发现」自动化,谁就能吃到红利。

TTS 策略从此可以被搜出来而不是调出来,关键技巧是用预采样轨迹+控制器合成把搜索成本压到几十美元发现的策略能跨 benchmark 和模型规模迁移,意味着这套环境本身比某个具体策略更值钱做推理产品的团队该想清楚——当 inference compute 预算继续扩大时,是继续雇人调启发式,还是开始搭自己的策略发现 pipeline。

03 Agent 当多个查询其实可以并行,为什么要让 agent 一个个跑?

最近一批 agent 工作都在比谁「想得更久、链更长」,HyperEyes 反过来推了一把:把同一轮内相互独立的子检索改成并行发射。具体做法是把视觉定位(grounding)和检索融成一个原子动作,一次性派发多个带视觉锚点的查询,而不是按实体逐个 tool call。训练上分两层奖励:宏观用 TRACE 这种逐步收紧参考值的轨迹级奖励压住冗余调用,微观用 on-policy 蒸馏在失败 rollout 上注入 token 级的纠正信号,缓解稀疏 outcome reward 的 credit assignment 问题。30B 版本相比同档开源 agent 准确率高9.9%,平均 tool-call 轮数少5.3倍——后者对实际部署的延迟和 token 账单意义更大。作者还顺手做了个 IMEB benchmark,把推理成本和准确率一起评,因为现有 benchmark 普遍只看准确率,跑出来的「好 agent」经常是用调用数换分数。

agent 延迟瓶颈常常不在单步推理深度,而在被串行化掉的并行机会,值得对照实验排查准确率持平时 tool-call 轮数差5倍意味着账单和延迟差一个数量级评测只看准确率会鼓励调用数膨胀,自建任务时把成本一起算进去更接近真实部署目标。

04 机器人 具身智能终于有了自己的「互联网」

视觉和语言能 scale 起来,是因为互联网提供了天然的海量语料;具身智能(embodied AI)卡在数据上这么多年,本质就是缺这一层。HumanNet 给的就是这个底座:100万小时人类活动视频,第一人称和第三人称双视角,配上动作描述、手部和身体信号等交互导向的标注。1M小时这个量级才开始有意义——因为物理交互的长尾远比文本宽,几千几万小时只够刷 benchmark,覆盖不了真实世界的动作分布。第一/第三人称双视角是另一个关键设计:第一人称给操作细节,第三人称给场景上下文,机器人迁移时两个都要。最有意思的 ablation 是从 Qwen VLM 继续训练,1000小时 HumanNet 第一人称视频超过了100小时真实机器人数据——意味着拍人比拍机器人便宜十倍还有富余。

物理交互数据集进入百万小时量级,类比互联网之于 NLP 的基建意义第一人称视频可能是比真机器人数据更经济的 scaling 路径做具身基础模型的团队需要重新评估「必须采机器人数据」这个假设。

05 训练优化 一份 LoRA adapter 同时给云端和边缘用,能做到吗

MatryoshkaLoRA的工程价值很直接:训练一次,部署时按设备能力切 rank——云端推理用高 rank 保质量,端侧用低 rank 省资源,不用为不同场景各训一份 adapter。做法是在原有 LoRA adapter 之间插入一个精心设计的固定对角矩阵 P,让所有子 rank(嵌套的低秩切片)都能在训练中拿到一致的梯度信号。这一点是和 DyLoRA 这类「随机采样 rank」方案的核心区别——后者高 rank 端容易掉点,因为不同 rank 看到的梯度不连贯。论文还提出了 AURAC(Area Under the Rank Accuracy Curve)这个指标,专门评估「一组 rank 上的整体表现」,比单点准确率更贴近实际部署需求。代码已开源在IST-DASLab/MatryoshkaLoRA。

同一份 adapter 支持动态 rank 切换,部署时按设备/延迟预算降级而不必重训相比 DyLoRA 在高 rank 端的精度更稳,是值得替换的默认方案AURAC 这个评估指标对做多档位模型服务的团队有参考价值。
Flow-OPD把GenEval从63拉到92

也值得关注

06
A²RD 把长视频合成做成 retrieve-synthesize-refine-update 闭环 视频生成Yale 用 agentic diffusion 抑制长 horizon 上的语义漂移和叙事崩塌。arxiv
07
SCOPE 用结构化分解 + 条件技能编排处理复杂构图 图像生成提出「语义承诺」概念解释多约束图像生成为何会丢失要素。arxiv
08
agent 选错工具其实在 hidden state 里早就能看出来 可解释性Imperial College 在 12 个指令模型里发现工具选择是线性可读和可干预的。arxiv
09
IntentGrasp 补「LLM 到底听懂没听懂」这一块的评测空白 评测49 个开源语料、12 个领域的意图理解 benchmark。arxiv
10
ModelLens 处理「十几万个开源模型怎么挑」 评测不靠遍历 forward pass,目标是新数据集 + 新模型同时无先验记录的场景。arxiv
11
InterLV-Search 把视觉证据从输入或答案端解放出来 评测交错语言-视觉的 agentic search benchmark,三层难度共 2061 例。arxiv
12
BalCapRL 给 MLLM image captioning 的 GRPO 训练加平衡机制 训练优化应对详细 vs 准确的奖励冲突。arxiv
13
PACEvolve++ 让 evolutionary search agent 的 policy 不再固定在 prompt-elicited 状态 Agent改进 test-time learning。arxiv
14
Amazon 的 AGWM 给 world model 加 affordance grounding 机器人处理动作和结果在训练数据里频繁共现导致的虚假因果。arxiv

今日观察

Flow-OPD 和 AutoTTS 今天看着不相干,但指向同一个具体动作:把 LLM 社区已经成熟的方法学反向移植回各自封闭的方向。Flow-OPD 直接搬 On-Policy Distillation 进流匹配的多目标对齐——OPD 本来是 LLM 后训练里用来调和异质奖励的工具;AutoTTS 搬的则是 scaling-law 时代那套「搭发现环境而不是调启发式」的工作流,把它从训练侧挪到了 test-time scaling 这一侧。

这不是 LLM 吃掉一切——两条路径本来都有自己的研究社区——而是 LLM 后训练和推理基建正在变成 AI 研究的通用工具箱。值得警惕的反面是:当下还在被维护成「图像生成专属技巧」或「推理专属 trick」的那些做法,可能只是没等到这层方法论被引进。一旦引进,原本被认为是该方向特殊性的部分,就会突然暴露出「只是当时没有更好的工具」。

具体可以做的事:拉一份你团队最近半年的技术债清单,挑出三条目前用启发式硬撑的环节,对每一条问一句——LLM 那边解决过类似形态的问题没有?如果有,迁移成本可能比想象中低,先做一个一周左右的可行性 spike,再决定是否纳入下季度规划。