投机执行快3倍，不丢token反更快

今日概览

Agent投机执行实现最高3.35倍加速，SpecEyes将CPU投机执行思想引入agent循环，用小模型预测轨迹并行化视觉工具调用，准确率不降反升
VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力，保留全部视觉信息同时大幅降低计算量（CVPR）
World model数据集缺的不是规模而是结构——WildWorld提供动作-状态-观测三层解耦的1.08亿帧基准，直指动作与像素直接耦合的设计缺陷
RL训练跨越文本与图像两种生成范式有了可行框架：UniGRPO用MDP统一建模自回归文本和flow matching图像，为混合架构post-training提供基线

重点关注

01 Agent CPU的「投机执行」，能让多模态Agent快3倍吗？

CPU设计里有个经典技巧：不等上一条指令算完，先猜下一步要什么数据，提前取好——猜对了白赚一轮延迟，猜错了回滚就是。SpecEyes把这个思路搬到了多模态Agent系统：用一个轻量无工具的小模型充当「投机规划器」，预测agent接下来的执行轨迹，提前启动视觉工具调用，不用等大模型一步步串行走完感知-推理-调用的完整循环。关键设计是一个「认知门控」机制——通过衡量模型对答案的可分离度来判断置信度，决定何时可以提前终止昂贵的工具链，不需要外部标注做验证。同时用异构并行漏斗架构，让小模型的无状态并发去掩盖大模型的有状态串行执行，最大化系统吞吐。在V* Bench、HR-Bench和POPE上实现1.1-3.35倍加速，准确率不降反升最高+6.7%。这个方向的意义可能比单篇论文更大——随着agent loop越来越深（o3、Gemini Agentic Vision都在往这个方向走），串行深度而非单步速度才是真正的系统瓶颈，投机式并行化可能是比优化单个模型更有杠杆的路径。

将CPU投机执行思想引入agent循环，用小模型预测执行轨迹实现并行化加速串行深度是agent系统的真正瓶颈，比单步推理速度更值得优化准确率不降反升说明很多中间工具调用本身就是冗余的

原文：SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

02 推理加速不丢视觉token，VLM反而跑得更快了

大视觉语言模型（VLM）加速的标准做法是压缩视觉token——把图像信息砍到尽量少再喂给语言模型。VISOR（CVPR）走了一条反直觉的路：保留全部高分辨率视觉token，但让语言模型按需查看。具体做法是把图像-文本的交互从密集自注意力换成稀疏结构——大部分层用轻量的交叉注意力提供视觉上下文，只在动态选择的少数自注意力层做精细推理。一个轻量策略网络根据每个样本的复杂度动态分配视觉计算量，简单问题少看几层，复杂问题多看几层。结果是计算量大幅下降的同时，在细粒度理解任务上反而超过了压缩方案——信息瓶颈问题从根上消失了。

VLM加速的瓶颈不在视觉token数量，而在交互方式——稀疏按需查询比压缩后一次性喂入更高效动态策略网络让模型自己决定「看多仔细」，简单样本省算力、难样本不丢精度CVPR接收，做VLM部署优化的团队值得跟进这个方向

原文：VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

03 多模态 World Model学不好动作，问题可能不在模型而在数据结构

现有的video world model数据集有个结构性缺陷：动作直接绑定到像素变化上，中间没有显式的状态层。模型学到的是「按键A导致画面变化B」，而不是「按键A改变状态S，状态S产生观测O」——这种解耦才是动力系统建模的正确抽象。WildWorld从《怪物猎人：荒野》中自动采集了1.08亿帧数据，关键不在规模，而在每一帧都标注了角色骨骼、世界状态、相机位姿和深度图，把动作-状态-观测三层显式拆开。配套的WildBench评测也从动作跟随和状态对齐两个维度衡量模型能力，实验结果显示现有模型在语义丰富的动作和长程状态一致性上仍然很弱。

world model数据集的核心缺陷是动作与像素直接耦合、缺少显式状态中间层WildWorld提供动作-状态-观测三层解耦的基准，1.08亿帧含逐帧状态标注做world model或游戏AI方向的团队值得关注这个数据结构设计思路

原文：WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

04 图像生成 RL训练如何跨越文本和图像两种生成范式？

统一模型的趋势已经明确：文本用自回归，图像用flow matching。但当你想用RL来提升这种混合架构的生成质量时，问题来了——GRPO对文本部分有效，flow matching的连续生成过程却不能直接套用同一套优化框架。UniGRPO的做法是把整个多模态生成建模为一个MDP（马尔可夫决策过程），文本部分走标准GRPO，图像部分走FlowGRPO，用稀疏终端奖励统一驱动。关键改动有两个：去掉classifier-free guidance以保持线性rollout（这对多轮交互场景的扩展性至关重要），以及用速度场上的MSE惩罚替代latent KL来抑制reward hacking。这是一个工程导向的集成方案，但对后续统一模型的post-training提供了可复用的基线。

文本自回归+图像flow matching的混合架构已成主流，RL统一训练是下一个待解问题去掉CFG、改用速度场MSE正则是让FlowGRPO在多轮场景中可扩展的关键修改做统一生成模型post-training的团队可以参考这个框架作为基线

原文：UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

也值得关注

用GRPO训练视频agent学会自适应选帧 Agent不再暴力全帧处理，RL让agent自己决定看哪里。EVA

多模态CoT的token级分析揭示盲区 训练优化视觉锚定token和推理token需要截然不同的优化力度，统一更新在拖后腿。Rethinking Token-Level Policy Optimization

扩散模型的中间表示天然带有降质感知能力 多模态光流估计终于可以不怕模糊、噪声和压缩伪影。DA-Flow

MLLM一步到位把静态mesh拆解为可铰接资产 机器人embodied AI的数据生产链又短了一截。SIMART

3D引擎精确控制场景，视频扩散模型补上真实光影 视频生成sim-to-real gap的新解法。RealMaster

RL rollout按生成长度排序调度 训练优化减少padding浪费，简单一招显著提升训练吞吐。SortedRL

合成数据训练突破RAG天花板的条件浮出水面 检索不是生成更多数据，而是混合训练策略。Synthetic Mixed Training

视频对象分割的过度碎片化有了简洁方案 模型架构从少量粗槽位开始逐步细化，用重建损失引导课程。Reconstruction-Guided Slot Curriculum

多模型路由从离线选最优变成在线bandit学习 推理加速在质量和多样性之间动态平衡。DAK-UCB

视频帧上直接叠加时间标记作为视觉提示 多模态让VideoLLM不需密集采样就能理解时序关系。ViKey

今日观察

今天三篇独立工作不约而同指向同一个设计原则：不要默认全量处理输入。

SpecEyes在agent循环层投机预取视觉输入——前提假设是大多数中间步骤的视觉调用本就冗余。VISOR在注意力层让LLM按需查询视觉token，保留全部信息但只在需要时访问。EVA在帧选择层用RL训练agent学会哪些帧值得看，不再遍历所有视频帧。三个团队分别在agent层、注意力层、数据采样层做出了同一个选择，而且都拿到了显著的效率提升而不损精度。

这里的共同点不是「稀疏化」。稀疏化是减少数据量，而这三个工作的核心是把「看什么」的决策权从预处理管线移交给推理过程本身——模型先形成判断，再决定获取哪些输入，而不是先把所有输入处理完再开始思考。这是计算分配逻辑的根本反转。

随着多模态系统的输入规模持续膨胀——视频越来越长、工具链越来越深、图像分辨率越来越高——「先全量处理再推理」的管线结构正在被「先推理再按需获取」替代。如果你在做多模态系统，值得审视一下pipeline里有多少计算花在了「以防万一」的全量预处理上。这些不起眼的预处理步骤，可能就是最大的优化空间。