Qwen3.5-Omni扩到几百亿参数

今日概览

开源omni首次摸到闭源旗舰量级：Qwen3.5-Omni扩到几百亿参数+256k上下文+MoE，工程上对准了上一代的延迟、模态切换和长上下文成本痛点，语音/视觉团队到了重新评估自建方案的时点。
LLM当裁判比当选手强，这事对评测基础设施是个红旗——基于self-judge的benchmark和reward signal可能在测一个模型自己都做不到的「能力」。
推理模型让unlearning重新定义：就算最终答案被擦掉，中间推理链会把原知识一步步推回来，CiPO把「不输出」扩展到「不走这条推理路径」。
公开信息的时间演化本身就是监督信号，Milkyway冻结基础模型只更新外挂harness就能把forecasting分数大幅拉高。

重点关注

01 多模态开源omni第一次推到几百亿参数，语音/视觉团队该不该重估自建方案

对在做语音、视觉应用的团队来说，Qwen3.5-Omni把开源omni模型拉到几百亿参数+256k上下文的规模，架构上用Hybrid Attention MoE分别给Thinker和Talker提效，这是开源侧第一次在体量上直接对标闭源旗舰。上一代Omni被抱怨最多的是推理延迟、模态切换和长上下文成本，这次的工程重点看得出来都对着这几个痛点——MoE压长序列推理开销，新引入的ARIA模块动态对齐文本和语音token，据称解决了流式TTS里编码效率不匹配导致的不稳定和韵律问题。报告宣称在215个音频和音视频子任务上SOTA、关键音频任务超过Gemini-3.1 Pro、综合音视频理解与之持平，但技术报告通常乐观，这些数字得用自己的线上case复测才算数，尤其是延迟和稳定性这种benchmark不会暴露的东西。比较值得留意的是一个涌现能力：根据音视频指令直接写代码（团队叫Audio-Visual Vibe Coding），以及10小时音频理解、400秒720P视频（1FPS）这种超长上下文场景，如果这些真的稳定，能打开一些原本只能靠多模型拼接做的产品形态。对评估「是否能把闭源API变成可选项」的团队，现在该做的不是对着分数表看，而是用自己最头疼的case压一遍——TTS流式稳定性、多模态切换延迟、长音视频理解的实际吞吐和成本。

开源omni首次在参数量和上下文长度上对标闭源旗舰，做语音/视觉应用的团队值得重新评估API替代方案ARIA流式语音对齐和MoE长序列推理是这版最贴部署的改进点，比分数更值得关注benchmark的SOTA数字不能替代自己线上case的延迟和稳定性压测，技术报告的结论先按乐观估计打折

原文：Qwen3.5-Omni Technical Report

02 评测模型当裁判比当选手强，这事比想象中麻烦

过去两年，LLM-as-judge几乎是评测和RLAIF的默认基础设施——让强模型给弱模型打分、做PRM、筛数据。这篇ACL论文在三个语用任务上直接对比了同一批模型「作为听众判断语言是否得体」和「作为说话者生成得体语言」的表现，发现大多数模型当裁判明显强于当选手。表面看是好消息（至少裁判能用），但反过来想：模型判断得出来却生成不出来的那个「能力」，究竟存不存在？如果判断和生成只是弱相关，那基于模型自评的benchmark和reward signal可能在测一个幻影。当然这只是语用维度的结论，数学、代码这些有明确答案的任务不一定有同样的不对称——但对任何用judge筛训练数据或做偏好学习的团队，这是个需要自查的红旗。

判断能力和生成能力在当前LLM上只是弱对齐，不能互相代理基于self-judge的评测和reward model可能在放大一个模型自己都做不到的标准做PRM或数据筛选的团队应该在语用/风格类任务上单独验证judge和generator的一致性

原文：How Hypocritical Is Your LLM judge? Listener-Speaker Asymmetries in the Pragmatic Competence of Large Language Models

03 安全对齐推理模型让「遗忘」这件事变难了

过去做unlearning，目标是让模型不再吐出某条隐私或版权信息——遮住嘴就行。但LRM（大推理模型）引入长链思考后出现一个尴尬局面：就算最终答案被擦掉，中间推理链会一步步把原知识重新推导出来。CiPO的切入点是把「不输出」扩展到「不走这条推理路径」——让模型生成一条逻辑自洽的反事实推理轨迹，再用迭代偏好优化把原始轨迹推开。论文声称能在保留推理能力的同时彻底清除中间步骤里的知识，但这类方法一贯的风险是在越狱或诱导性prompt下可能复原，需要看全文的对抗测试才能下结论。更值得记住的是问题本身：reasoning模型时代，unlearning、安全对齐、版权合规都要重新定义——监管的审查对象不再只是输出，而是整条推理链。

推理链会把被「遗忘」的知识重新推导出来，只删答案不够用unlearning需要作用在推理路径而非单点输出上做合规或安全对齐的团队要把评测扩展到CoT中间步骤，不只是末端答案

原文：CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization

04 Agent 同一个事件被反复改写的措辞，已经泄漏了结局

公开信息在时间维度上是会泄漏未来的——同一个未决事件在不同时刻被报道、引用、修订的措辞差异，本身就携带关于真实结局的统计信号。Milkyway把这个观察变成了一套机制：同一个问题被反复预测时，前后两次预测的时间对比能暴露早期哪些因素没追踪到、哪些证据漏了、哪些不确定性被低估——这是一种不用等事件resolve就能拿到的「内部反馈」。更意外的是，基础模型完全冻结，只更新一个外挂的预测harness（负责因素追踪、证据搜集、不确定性处理），在FutureX把分数从44提到61，在FutureWorld从62提到78。这把forecasting agent的瓶颈从「推理能力」重新定位到了「对信息演化的精细利用」。

时间维度上的信息变化本身就是监督信号，不必等真相揭晓才能迭代冻结基础模型、只更新外挂harness也能拿到大幅提升，这条路线对闭源API上做agent的团队特别友好做forecasting产品或预测类agent评估的人，可以把「同一问题的时间对比」直接作为一个设计原语

原文：The World Leaks the Future: Harness Evolution for Future Prediction Agents

也值得关注

CBM用CLIP做概念瓶颈遇到的两个老问题 可解释性— 预训练偏差和概念粒度，这篇用concept-wise attention给出方案，CVPR路线。链接

test-time把文本侧学起来检测OOD 评测— 对部署后无法重训的VLM应用是实用补丁。链接

concept erasure不再只在文本侧做 图像生成— 加入图像协同后能更精准地擦掉不安全概念，T2I安全工具链的演进。链接

3DGS的高频表面重建一直是短板 图像生成— 神经Gabor基函数给Gaussian加了频率结构，CVPR级别的质量提升。链接

医学CT报告生成从单体VLM改成多agent分层协作 Agent— 模拟临床多医生复核流程，垂直应用的agent化。链接

通用视频编辑+视觉特效的大规模人工标注benchmark 视频生成— HF Daily入选，视频编辑评测的基础设施。链接

无人机VLN长程任务的零样本方案 机器人— 把细粒度认知模块拆出来，比「大模型+通用prompt」扎实。链接

agent的RL训练数据应该跟agent行为一起进化 训练优化— CoEvolve给出mutual evolution框架。链接

用层间隐状态的离散度做不确定性估计 推理— 比假设隐状态如何演化更稳健，幻觉检测的新信号。链接

扩散模型的SNR-时间步偏差是被忽视的训练问题 图像生成— CVPR这篇给出系统性的诊断和缓解。链接