一条证据压成1个token,生成省3-10倍

今日概览

  • 把理解、生成、编辑塞进一个自回归模型,ARM真正的赌注押在一个「语义判别+语言对齐+忠实重建」三目标监督的离散tokenizer上;7B上再加RL对齐人类偏好,还诱发出生成与编辑的跨任务互益。
  • 角色动画砍掉骨架和mask,直接端到端——SCAIL-2把driving video整段拼进序列做in-context conditioning,绕掉所有中间表示,37个upvote是当天社区最高,有代码和权重。
  • RL的token信用分配,改成沿attention追踪信息流:FlowTracer把推理链建成有向无环图,只给真正流到答案的token加权,ICML接收。
  • 一条多模态证据压成单个latent token,Latent Memory在七个文本/多模态QA上跟主流RAG打平,生成端token却降到原来的1/3到1/10。
  • 给视频世界模型设了一场三项全能:WorldOlympiad用物理、几何、交互三条赛道一跑,SOTA模型在长程交互和3D一致性上全是窟窿。阿里出品,有代码。

重点关注

01 多模态 把理解、生成、编辑塞进一个模型,赌注押在tokenizer上

让一个自回归模型同时做图像理解、生成和编辑,听上去像是把三件事硬凑在一起,但ARM真正下注的地方在更底层:一个用「语义判别+语言对齐+忠实重建」三目标联合监督训出来的离散视觉tokenizer。逻辑很直接——如果离散token既能被语言模型理解、又能重建出像样的图,那这三类任务就能在同一个next-token框架里共享表示,不用各搭一套。在7B模型上,他们还加了一步强化学习(RL)来对齐人类偏好,有意思的是RL不只把目标任务推上去(WISE从0.50到0.56、编辑基准GEdit-Bench的G_O从5.75到6.68),还诱导出生成和编辑之间的跨任务互相增益——这暗示三件事确实在共享同一套能力,而不是各管各的。不过abstract没给出和专用模型的正面对比强度,这条路线的天花板到底有多高,取决于那个tokenizer能不能同时扛住三件事,光看这些数字还下不了结论。

统一多模态的关键瓶颈正从模型架构转移到离散tokenizer的表示质量,这是这类工作真正该盯的变量RL在这里不只是调性能,还能催生跨任务互益,值得做生成+编辑产品的团队留意提升数字是相对自身基线的,缺少与专用模型的横向对比,落地前需看全文确认实际差距。

02 视频生成 把骨架和mask全砍掉,角色动画能不能直接端到端?

SCAIL-2做了个大胆的减法:不再用骨架(pose skeleton)描述动作、用mask描述背景,而是直接把driving video整段拼进输入序列,让模型自己从原始视频里读出动作和环境信息——这就是in-context conditioning。思路很性感,因为每一层中间表示都是一次信息损失,砍掉它们理论上能保留更多细节。为了喂饱这种端到端训练,团队自己合成了MotionPair-60K数据集,还用了Bias-Aware DPO来纠正合成数据在细节区域的偏差。37个upvote是当天社区关注度最高的一篇,而且放出了代码和权重。值得留意的是:去掉中间件等于把全部负担压回模型本身,它对没见过的driving序列泛化得怎么样,是这套方案工程上划不划算的真正考点,需要看全文和实测确认。

去中间表示是条值得押注的路线——少一层抽象就少一次信息损失,细节保真度天然更高代价是模型要独自扛下动作和环境的全部理解负担,泛化能力决定它能不能落地做角色动画/数字人的团队值得拉代码跑一跑,重点测它在陌生driving视频上的表现。

03 训练优化 RL给token打分时,怎么知道哪个token真的决定了答案?

给推理链上的每个token分配多少信用,一直是RL训练的难点。已有的做法要么对所有token一视同仁,要么用点状启发式给单个token单独打分——但后者只看局部,忽略了信息在整条链上是怎么一步步传到答案的。FlowTracer的思路是把推理过程建成一张有向无环图:token是节点,attention权重是边的容量,然后只保留那些能真正流到答案区域的影响,并强制局部流量守恒,避免中间token因为路径长短或无关分支被错误加权。在这张图上提取一条从问题到答案的「信息主干」,按流量吞吐给token打分,找出那些真正中转长程依赖的关键节点,再用这些重要性去塑造token级奖励。注意这和近期讨论的RLVR奖励颗粒度不是一回事——那个问的是奖励信号本身可不可信,这篇问的是信用怎么沿信息流回传,是更上游的问题。论文已被ICML接收,但具体增益幅度和适用范围需要看全文确认。

token级信用分配从「点状打分」转向「沿attention追踪全局信息流」,是个值得关注的建模思路它和奖励信号可信度是两个独立问题,别混为一谈做RL训练优化的团队可以关注这条线,但实际收益需看全文和复现。

04 检索 把一整段证据压成一个token,RAG的成本账被重算

RAG在资源受限场景下卡在一个很现实的地方:证据以原始文本或图像存着,检索回来还得整段塞进生成模型,token和存储双爆。Latent Memory的做法是用一个小压缩模型把每条多模态证据蒸馏成单个高维latent token,检索和生成都在这个潜空间里完成——查询直接去匹配latent token,命中的token直接喂给预训练LLM/VLM出答案。压缩器用重建、对比、蒸馏三个目标端到端训练,让一个token同时扛起「能还原、能检索、能生成」三件事。结果是在HotpotQA等七个文本QA和多模态QA上做到跟主流RAG打平,但生成端token消耗降到原来的三分之一到十分之一,WebQA的图文QA还做到了最强。真正决定它能不能落地的是压缩比和精度的兑换——一个token到底装下了多少证据、丢了什么,这点摘要里没展开,需要看全文里不同压缩率下的精度曲线才能判断。

把证据压成单token能省3-10倍生成token,资源受限场景跑RAG的门槛被拉低了压缩比和精度如何兑换是落地关键,一个token能装多少信息决定它在真实部署里好不好用有代码且覆盖文本+多模态,做边缘端或成本敏感QA的团队值得拉下来测一测压缩极限。

05 评测 画面越来越逼真,但世界模型可能根本不懂物理

视频世界模型这两年最大的进步是「看起来真」,可WorldOlympiad偏要把它拉去考一场三项全能:物理忠实性、几何一致性、交互保真度。让人意外的是结果——现有benchmark盯着视觉质量和短时连贯打分,把真正的短板全盖住了。这套评测把物理track交给分割加多模态大模型(MLLM)当裁判,几何track用高斯泼溅(Gaussian splatting)重建画面查3D结构,交互track则看长序列动作指令能不能稳定执行;三条赛道分别对应游戏、机器人、真实视频三类场景。在SOTA模型上一跑,物理推理、3D一致性、长程交互全是大窟窿,说明「画面好看」和「真懂世界」之间隔着一条没人量过的鸿沟。阿里出品,带代码,HF上29个upvote。

视觉质量高不代表世界模型懂物理,画面逼真和物理/几何/交互正确是三件独立的事做世界模型或具身的团队可以直接借这套三维度诊断框架定位自己模型栽在哪一项主流模型在长程交互和3D一致性上普遍薄弱,这是下一阶段的真问题。
一条证据压成1个token,生成省3-10倍

也值得关注

06
线性注意力的状态合并从固定改成动态 模型架构Dynamic Linear Attention让多状态记忆的合并随token重要性调整,ICML。链接
07
NVIDIA用门控稀疏记忆替掉二次方注意力 模型架构为长上下文建模避开状态空间模型把历史压成固定大小的损失。链接
08
flow策略在test-time靠梯度引导改进 机器人绕开把RL梯度反传穿过整个去噪过程的老难题,diffusion策略适用。链接
09
Workflow-GYM测computer-use agent的长链路工作流 评测看它能不能在真实专业领域跑通高价值任务,而非碎片操作。链接
10
华为ActiveMem把长程记忆做成分布式主动式 Agent绕开集中式记忆塞进单一上下文的容量与干扰权衡。链接
11
2-bit量化今天一口气来了两篇 推理加速UniSVQ统一标量与向量量化,LC-QAT(2606.10531)走数据高效的2-bit QAT,都冲极低比特部署,均ICML。链接
12
多轮模型可能早早锁进不安全立场 安全对齐终轮拒答率看不出来,这篇专门暴露被terminal-score评测掩盖的时序失败。链接
13
SSR-Merge做免训练的LoRA合并 图像生成用子空间信号路由避开多LoRA合并时的参数干扰互毁,扩散模型适用。链接
14
低光视频增强做到模态无关 视频生成AnyMod-LLVE有事件流/红外等辅助模态就用、没有也能跑,不再绑死单一辅助源。链接
15
AI生成图检测器的高分来自偏向「真实类」的不对称 评测压缩等后处理一上来灵敏度就崩,这篇拆解并剪枝这种偏置。链接

今日观察

把ARM和Latent Memory放在一起看,会发现一个不那么显眼的错位:两篇都在把多模态内容压成极少量的离散/latent token,但压缩发生的位置完全相反。ARM把图像压成一串紧凑token,是为了让生成、理解、编辑能在模型内部共享同一套表示——压缩服务于「统一」;Latent Memory把每条证据压成单个token,是为了让模型外围的检索和记忆系统在资源受限时还跑得起来——压缩服务于「省」。同一个动作,一个朝模型里收,一个往系统外扩。值得点出的是:「多模态token化」正在从模型内部的生成需求,外溢成系统外围的记忆与检索需求,而真正被当成硬约束去优化的,越来越是token预算本身,精度反倒退成了「打平就行」的及格线。如果你手上有带检索或记忆的多模态系统,不妨拿这个视角自查一遍:你为每条证据/每帧画面付的token,是按精度需要定的,还是其实可以像Latent Memory那样压到一个、先卡住预算再回头补精度?把「一条证据值几个token」当成一个可调旋钮显式拎出来,往往比继续堆模型更省。