35B agent对标1T,异步滞后被高估

今日概览

  • 35B摸到万亿参数级表现,赌的是横向而非纵向:Agents-A1不扩参数,改用平均45K token的长程轨迹和异构能力堆叠,在部分benchmark上对标Kimi-K2.6、DeepSeek-V4-pro这类1T模型——但「打平」只在特定任务成立。
  • 194个赞投给Orca的野心:它想用统一的world latent space和Next-State-Prediction收编「理解/预测/行动」,作者却自称这只是preview——愿景很大,落地很早。
  • 异步流水线的「代价」可能被高估:梯度滞后伤不伤,取决于优化器——AdamW明显退化,较新的Muon对one-step延迟很鲁棒,10B规模下异步和同步的差距被抹平。
  • 表格基础模型的「通用」只在舒适区成立:11模型×142数据集的评测显示,TFM只在小/中等规模IID数据上领先,一旦变大、变高维、非IID,树模型重新占上风。
  • 卡住移动端3D渲染的不是画质,是球谐开销:Flux-GS用蒙特卡洛能量聚合把高阶SH的推理和存储成本砍下来,给AR、端侧3D一条降本路线。

重点关注

01 Agent 35B想摸到万亿参数的表现,赌的是横向而非纵向

增强agent能力的行业默认路径是纵向做——把底座模型堆得更大。Agents-A1把杠杆换到了另一根轴:参数只有35B(MoE架构),改为横向扩展agent horizon。具体做法是搭一套长程「知识-动作-观察-验证」基础设施,产出平均长度45K token的agentic轨迹,再用三阶段配方训练——全域SFT对齐、分域训练teacher模型、最后用多teacher分域路由的on-policy蒸馏把六个异构领域统一进一个可部署的student里。论文声称这样能摸到万亿参数级的表现,对比对象是Kimi-K2.6、DeepSeek-V4-pro这类1T模型。不过「万亿参数级表现」这个说法要打个问号:它在SEAL-0(56.4)、IFBench(80.6)这几个benchmark上确实领先,但在SciCode、HLE、BrowseComp上只是「competitive」——具体压过谁、在哪些任务上成立,需要读者自己对着榜单核,别被一句话带过。真正值得关注的信号不是那个35B打平1T的数字,而是它把「该往哪投」这个问题重新定义了:对养不起前沿模型的团队,投资去建长程轨迹基础设施,可能比继续堆参数更划算。

agent能力的扩展轴不只有参数量,长程轨迹和异构能力堆叠是另一条可行路径「35B摸到1T表现」只在部分benchmark成立,落地前要逐项核对适用任务对预算有限的团队,长程知识-动作-验证的轨迹基础设施可能是比堆参数回报更高的投资方向。

02 模型架构 194个赞投给的是方向,还是一份还没落地的路线图?

一天拿到194个upvote,社区显然在为Orca的野心买单:它想用一个统一的world latent space,把「理解、预测、行动」塞进同一个训练目标——用Next-State-Prediction(预测下一个世界状态)替代各自为战的next-token、next-frame、next-action。数据规模也够唬人:12.5万小时视频加1.6亿事件标注,预训练完冻结主干,只训练轻量解码器就能同时做文本生成、图像预测和具身动作。但作者自己在摘要里就写了「initial instantiation」,还专门留了一节讨论局限——翻译过来就是:愿景很大,落地很早。真正的信号不在「打平同规模专用模型」这个结论上,而在它敢不敢公开三个下游任务里最弱的那个数字,以及latent能不能真的随规模一起变强,这些都得看全文才能判断。

统一state-transition目标是个有想象力的方向,但目前是preview阶段,不是能直接上手的方法冻结主干+轻量解码器的设计如果成立,价值在于一次预训练服务多模态下游,值得关注这个复用范式对从业者的现实判断是先把它当路线图宣言看,等后续版本给出更硬的规模化证据再下注。

03 训练优化 异步流水线的「代价」,可能被高估了

同步流水线并行会在pipeline bubble里让GPU空转,异步能把这些空隙填满,但代价是梯度会滞后一步(gradient staleness)。业界一直觉得这种滞后会让训练不稳定,所以像PipeDream-2BW这种恒定one-step延迟的调度方案很少有人真用。这篇的核心判断是:滞后到底伤不伤,主要取决于你用什么优化器,而不是异步本身的原罪——老牌的AdamW确实会明显退化,但较新的Muon对one-step延迟表现出很强的鲁棒性。作者还补了一个受Error Feedback启发的通用修正项,并给了Muon收敛性的理论支撑,在最大10B参数的模型上把异步和同步的性能差距基本抹平了。当然这只看了摘要,更大规模和长训练下的稳定性还需要看全文和后续复现。

异步流水线的梯度滞后不是硬约束,换对优化器(Muon)就能大幅缓解跑大规模预训练、卡在pipeline bubble吞吐上的团队,值得评估要不要切异步数字来自≤10B规模,更大模型的结论还需验证。

04 评测 表格基础模型的「通用」,只在舒适区里成立

表格基础模型(tabular foundation model,直接对表格数据做预测的大模型)这两年被学界和产业同时热捧,但它的评测软件和协议是碎的——模型研究者手里只有几个标准benchmark,而这些benchmark恰恰是TFM本来就擅长的场景,最难啃的情况被系统性排除在外。BeyondArena把跨学科、跨任务类型的评估收拢成一个统一框架,覆盖时序、分组等非IID场景,以及带文本、高基数特征的真实数据。跑完11个模型×142个数据集的结论有点扫兴:TFM只在小到中等规模的IID数据上领先,一旦数据变大、变高维、或分布不再独立同分布,传统的树模型和深度学习反而重新占上风。也就是说,「基础模型」这个名号目前更多是营销而非能力描述——它的泛化边界比热度暗示的要窄得多。这不是说TFM没用,而是提醒:在把它塞进真实表格业务前,先确认你的数据长得像不像它的舒适区。

TFM的优势区间被证实很窄——只在小/中等规模IID数据上领先,大数据、高维、非IID场景仍是树模型的地盘评测碎片化会制造虚假繁荣,标准benchmark刷出的提升可能只在最容易的场景里成立考虑上TFM的团队,先拿自己的真实分布对照它的能力边界,别被「foundation」这个词框住

05 推理加速 3D高斯的画质早就够了,卡住移动端的其实是这个

3D Gaussian Splatting做新视角合成的画质已经不是问题,真正压在移动端上的是高阶球谐函数(SH,用来描述物体表面随视角变化的光照)——它带来的推理和存储开销才是瓶颈。Flux-GS的思路是把这块开销砍下来而不是重新提画质:用蒙特卡洛采样把三阶球谐的镜面高光能量聚合进一个紧凑的低阶表示,避开了通常需要的蒸馏或预训练。它还补了两个务实的模块——一个在推理前给低阶SH预测偏移量来找回丢掉的高频细节,一个用多视角一致性来剪掉冗余的高斯点、防止单视角过拟合。摘要给的是「参数大幅下降、画质基本持平」这类定性结论,没有硬指标对比,所以具体压缩比和帧率还得看项目页和全文。定位很清楚:给AR、端侧3D、实时新视角合成的人一条具体的降本路线,而不是又一次刷画质。

移动端3D渲染的瓶颈是球谐开销而非画质,降本方向比提质方向更有落地价值蒙特卡洛能量聚合避开了蒸馏/预训练,工程集成成本相对低摘要只有定性结论、缺硬指标,做端侧的团队要自己去项目页核对压缩比和帧率再判断。
35B agent对标1T,异步滞后被高估

也值得关注

06
给agent的每一次工具调用做信用分配 Agent结果奖励分不清工具用得有用、冗余还是误导,TACO想在无需外部裁判的情况下把功劳/责任落到单次调用上。链接
07
刻意走前沿世界模拟器的反面 视频生成消费级GPU、实时、可键盘交互的低算力可控world model,能玩起来比参数大更重要。链接
08
给masked discrete diffusion补上「自我纠错」能力 图像生成离散token一旦unmask就改不了的老问题,是它冲高分辨率文生图的关键短板。链接
09
视频生成模型为了预测下一帧,被迫隐式学会了遮挡推理和手-物交互 视频生成正好是4D手部动作重建缺的那部分先验。链接
10
分子生成的benchmark长期被drug-like代理指标绑架 AI for ScienceNMO把目标挪到量子材料等真实科学场景,暴露现有模型的迁移天花板。链接
11
在无害数据上做benign微调,会悄悄把先前训好的对齐、遗忘掉的能力反弹回来 安全对齐这篇给这种「训练后脆弱性」提了个统一解释。链接
12
都指望LLM当reranker能救cold-start 检索但五域benchmark把重排质量和召回覆盖分开后发现:召回没覆盖到,语义理解也白搭。链接
13
RAG对每个query固定取N篇既浪费又有害 检索这篇把取多少篇做成按query校准的预算分配,reader已经会的就少取甚至不取。链接
14
把多种能力整合进一个模型总是顾此失彼 训练优化MOPD用多教师on-policy蒸馏在后训练阶段做能力集成,绕开Off-Policy Finetune和Mix-RL的低效/掉点。链接

今日观察

今天有意思的是,两篇都顶着「world model」名号的工作,却从相反两端出发。Orca拿了194个upvote,追的是最大化的野心:一个统一的world latent space,把理解、预测、行动全收进Next-State-Prediction,是研究路线图式的愿景。DreamForge-World则明确声明自己走的是「互补的另一根轴」——低算力适配、消费级GPU、实时可交互,主动把规模做小。同一个标签,一个在scale-up做宣言,一个在scale-down求可用。

这不是谁对谁错的问题,而是两条路眼下的成熟度差得很远。落点很实在:现在能真正上手玩起来的world model,几乎都堆在低算力那一端;而大一统的那条路,还停在preview。如果你想在产品里嵌一个可交互的世界模型,别等Orca这类宣言落地——去把DreamForge-World这种消费级GPU上就能跑的方案先拉下来试玩一轮,先摸清「可用」的边界在哪,再判断「野心」值不值得等。