Soohak让顶级模型只拿到30%

今日概览

VLM+VGM分工互补，CollabVR用step-level闭环让视频推理同时管住长程目标和短程模拟误差，外挂监督和VGM自身的reasoning微调可叠加。
IMO金牌之后的下一根标尺：Soohak用研究级数学题把Gemini-3-Pro压到30.4%，并把refusal（识别ill-posed问题主动拒答）单列出来，所有模型都不到50%。
MLLM编码省错地方了——LLaVA-UHD v4把压缩前移到ViT浅层、用slice-based切片取代global encode，视觉编码FLOPs降55.8%而下游表现不掉。
刚体仿真摆脱mesh：RigidFormer用object-centric Transformer直接吃点云，200+物体规模可用，价值在工程链路而非精度天花板。

重点关注

01 推理用视频做推理的真正瓶颈，不在视频模型本身

「Thinking with Video」这条线一直在跑——让视频生成模型（VGM）一帧一帧地推演物理过程或多步任务，把生成出来的Chain-of-Frames当作推理痕迹。问题是即便用最强的VGM，两个失败模式反复出现：长程任务上目标会漂移，单个clip中段的模拟误差会累积放大。CollabVR的判断是这两个问题都不该靠继续扩大VGM来解，而是补上一个显式的推理层——视觉语言模型（VLM）。架构本身不复杂：VLM在每一步规划下一个动作，看VGM生成的clip，把诊断结果直接折回到下一步的prompt里去修复。关键是粒度——既不是事前的整体规划（还没看到帧就commit），也不是事后的整体批判（介入太晚），而是step-level的闭环。在Gen-ViRe和VBVR-Bench上，越难的任务收益越大，且这套外挂式监督叠在已经做过reasoning微调的VGM上还能继续提升。

「video做reasoning」的范式正在从单模型堆参数转向VLM+VGM分工互补，长程规划和短程生成各管一段step-level的闭环校验是当前能拿到的工程红利，比事前规划和事后critique都更对症外挂监督和VGM自身的reasoning微调是正交的，可以叠加，不必二选一。

原文：CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

02 评测 IMO金牌之后，数学评测的新轴是「该不该答」

Frontier模型今年陆续拿到IMO金牌之后，「数学能力」这个评测维度的区分度在迅速衰减——竞赛题考的是step-by-step解题，而真实数学研究是用reasoning去推进知识前沿本身。Soohak由64位数学家从零出题，规模439道，比此前的Riemann Bench（25题）和FrontierMath-Tier 4（50题）大一个量级。Challenge子集上Gemini-3-Pro 30.4%、GPT-5 26.4%、Claude-Opus-4.5 10.4%，开源模型普遍低于15%，头部到开源都还有大量headroom。更值得关注的是refusal子集：考模型能不能识别「题目本身ill-posed」并选择不答，所有模型都低于50%。这指向一个之前几乎没被显式优化过的训练目标——让reasoning模型学会承认「这道题不该有答案」。

研究级数学正在替代竞赛题成为下一根评测标尺，但顶级模型也只做到30%出头refusal（识别ill-posed问题主动拒答）所有模型都不到50%，是一个RL未显式优化的新维度数据集2026年底才公开发布以防污染，中间只接受远程评测，做评测/reasoning相关产品的可以提前申请。

原文：Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

03 多模态高分辨率MLLM该优化的不是token压缩器

主流MLLM处理高分辨率图像的套路几乎成了默认动作：global encode拿到一长串视觉token，然后post-ViT compression压一压再送进LLM。LLaVA-UHD v4回头审视这个流程，指出一个容易忽略的事实——ViT的quadratic attention成本在你做token压缩之前就已经付完了，压缩省下来的只是LLM那一段的算力。作者沿两条轴改：encoding策略上，slice-based切片编码在多个benchmark上稳定超过global encode，说明保留局部细节比追求全局注意力更利于细粒度感知；压缩位置上，把压缩动作前移到ViT浅层（intra-ViT early compression），让真正的FLOPs下降发生在ViT内部。综合两点，视觉编码FLOPs降55.8%，下游表现持平甚至略升。需要看全文确认slice策略在视频或更长输入上的扩展性。

高分辨率MLLM的优化重心应该上移到encoding阶段，光优化token reducer是省错了地方slice-based编码值得作为新项目的默认选择，而非global encode做MLLM推理优化时，先剖析ViT和LLM各自的FLOPs占比再决定下手位置。

原文：LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

04 机器人刚体仿真为什么一直离不开mesh？

学习式的刚体动力学仿真长期被绑在mesh加vertex级消息传递的路线上，意味着输入必须是干净的网格——点云、扫描数据这类mesh-free表征没法直接用。RigidFormer的做法是用object-centric Transformer替代vertex级交互，每个物体用一组紧凑的anchor表示，再通过Anchor-Vertex Pooling把局部几何信息注入anchor，避免在所有顶点之间做注意力。配合Anchor-based RoPE保持对anchor重排的不变性，再用可微Kabsch对齐把更新投影回刚体流形，保证物理约束不被神经网络破坏。效果上和mesh baseline打平或更好，能扩展到200+物体，并且对未见过的点云分辨率有泛化能力。对做机器人/物理仿真的团队来说，这放松的不是模型能力的天花板，而是输入端预处理的工程负担——值不值得换，要看你的数据管线里清洗mesh占了多少时间。

刚体仿真摆脱mesh依赖，点云可直接输入，减少前处理负担object-centric设计让计算复杂度跟物体数量而非顶点数走，200+物体规模可用输入端的简化对真实机器人数据更友好，但精度提升幅度有限，价值主要在工程链路。

原文：RigidFormer: Learning Rigid Dynamics using Transformers

也值得关注

MLS-Bench测AI能否「发明」可泛化的ML方法 评测不是套用现有方法，和Soohak一起把评测从「解题」推到「造方法」。链接

multi-agent failure从post-hoc归因转向online预测 AgentAgentForesight让干预发生在trajectory完成之前，而不是事后才知道哪一步崩了。链接

MoE预训练阶段的pruning+distillation系统研究 训练优化SlimQwen回答「先剪还是从头训」这类工程问题。链接

agent的skill层是个被忽视的权限边界 安全对齐FORTIS专门测模型会不会越权选skill。链接

KV cache eviction结合层级输出重构和时空平滑 推理加速ReST-KV针对long-context生成做了更细的eviction策略。链接

分数阶递归SSM试图同时保住长程记忆和短期突变检测 模型架构FRACTAL对长序列建模有参考价值。链接

PEFT在稀疏频谱域上做fine-tune 训练优化S2FT把可训参数量进一步往下挤。链接

reasoning-level DoS：攻击不破坏correctness，只让agent跑得巨慢 安全对齐OTora把这条新的攻击面单独拎出来。链接

APR用执行验证的双reward做RL 代码智能BoostAPR把sparse execution feedback拆细，让模型知道是哪一笔edit在修bug。链接

现有unlearning方法会让模型胡说/前后不一 安全对齐只看utility保留是不够的，honesty需要单独评估。链接

今日观察

Soohak和MLS-Bench同一天放出来，本质上是同一个动作的两个版本：把评测的目标从「应用现有知识」上移到「创造新知识」。一个让模型尝试推进数学未解问题，另一个让模型尝试发明可泛化、可扩展的ML方法——背后的共同假设是，前沿模型在IMO金牌、coding比赛这类「有标准答案的高难度任务」上的天花板正在显形，需要给「下一级」重新画一条线。

值得注意的是评测对象的层级位移：从problem-solving滑向method-invention。如果当前模型在「造方法」这一层只能拿到很低的分，那下一轮迭代该追的目标就不再是把竞赛分再刷高几个点，而是某种沿着「自己提出问题—自己设计方法—自己验证」链路走的能力。这条线的命中率会显著影响接下来训练数据怎么造、RL任务怎么设计。

具体建议：手上有reasoning模型或评测产品的，趁着这两个benchmark刚出，去申请远程评测或读一下refusal/方法发明这两类题目的具体形态，比单看分数更能感觉到这条标尺测的是什么；产品侧则可以重新审视「模型只是更会答题」还是「模型已经开始能提出新做法」，这两件事对落地形态的暗示完全不同。