PRM标注成本降两个数量级，dLLM幻觉错法不同

今日概览

dLLM的幻觉模式跟自回归完全不同，首个受控对比实验识别出三种特有故障模式（过早终止、去噪不完全、上下文侵入），现有检测工具需要针对性重新设计
对比互信息让过程奖励标注成本降两个数量级：直接从模型内部概率提取步骤级信号，不需要反复采样rollout。ACL接收
RAG知识库防御从静态规则升级为运行时博弈。借鉴栈金丝雀概念嵌入canary token做持续检测，即插即用不改现有架构
TorchUMM把主流多模态模型统一到一个代码库，覆盖理解、生成、编辑三维度，让不同架构第一次能做同条件横向比较

重点关注

01 模型架构扩散语言模型的幻觉，错的方式跟自回归完全不同

dLLM（扩散语言模型）最近进展很快——上周DMax刚把并行效率翻了一倍，但效率之外还有一个基础问题没人系统回答过：dLLM到底会怎么出错？这篇ACL论文做了首个受控对比实验，架构、参数量、预训练权重全部对齐，发现dLLM的幻觉率确实高于自回归模型，但更关键的是错法完全不同。论文识别出三种dLLM特有的failure mode：过早终止（生成到一半就停了）、去噪不完全（输出残留噪声痕迹）、上下文侵入（把prompt内容混进生成结果）。这些故障模式跟自回归模型常见的「编造事实」型幻觉不重叠，意味着现有的幻觉检测和缓解工具放到dLLM上可能需要重新设计。推理时计算方面也有差异：准自回归生成会早期饱和，但非顺序解码展现出持续改进的潜力——这是后续提升dLLM可靠性的一个方向。对正在评估dLLM的团队来说，这篇论文的价值不在于说dLLM不行，而在于指出了需要专门应对的新问题。

dLLM的三种特有failure mode（过早终止、去噪不完全、上下文侵入）跟自回归幻觉不重叠现有的幻觉检测和缓解工具不能直接迁移，评估dLLM需要专门的可靠性测试方案非顺序解码在推理阶段有持续改进潜力，是提升dLLM可靠性的切入点

原文：Lost in Diffusion: Uncovering Hallucination Patterns and Failure Modes in Diffusion Large Language Models

02 推理模型内部概率就能判断推理步骤好坏，何必反复采样？

对比互信息（CPMI）的思路很直觉：一个推理步骤好不好，看它让模型对正确答案的置信度提升了多少——再对比一组错误答案作为负样本，信号就更干净了。这个对比信号直接从模型内部概率算出来，不需要像蒙特卡洛估计那样反复rollout生成完整推理链。结果是数据集构建时间减少84%，token生成量减少98%，同时在过程级评测和数学推理benchmark上精度反而更高。ACL接收的工作，方法本身足够轻量——不需要额外训练，不需要大规模采样，对想在自己的推理任务上加过程验证的团队是一条现成的落地路径。

用对比互信息替代蒙特卡洛采样，过程奖励标注成本降两个数量级方法直接利用模型内部概率，不需要额外训练或大规模rollout对想部署过程奖励模型但卡在标注成本上的团队，这是目前最轻量的方案之一

原文：Efficient Process Reward Modeling via Contrastive Mutual Information

03 安全对齐 RAG防御从「堵漏洞」转向了「持续博弈」

之前防RAG知识库泄露的思路基本都是静态的——过滤恶意prompt、限制输出格式、加访问控制。问题是攻击者会迭代试探，静态规则迟早被绕过。CanaryRAG换了个思路：借鉴软件安全中栈金丝雀（stack canary）的概念，在每次检索的文档块中嵌入canary token，把防御重新定义为一个双路径运行时完整性博弈——只要攻击者试图提取原始内容，canary的行为模式就会异常，实时触发检测。关键优势是即插即用，不需要重新训练模型或改动RAG架构，对正常任务性能和推理延迟的影响也很小。ACL接收，思路扎实，但实际效果还要看面对未知攻击策略时的泛化能力。

RAG防御从静态过滤转向运行时动态博弈，应对迭代式攻击更有韧性即插即用设计不改现有架构，降低生产环境集成门槛防御思路的范式转变比单一方法更值得已部署RAG的团队关注

原文：Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game

04 多模态多模态模型选型，为什么「苹果对苹果」的比较几乎不存在？

统一多模态模型（UMM）的架构越来越多，但每家的训练范式、实现细节、评估方式都不一样，想做公平横向比较基本靠手动对齐——费时且容易出偏差。TorchUMM试图解决这个基础设施缺口：把主流UMM统一到一个代码库里，覆盖理解、生成、编辑三个核心任务维度，提供标准化的评估协议和后训练接口。它集成了多种规模和设计范式的模型，评估涵盖感知、推理、组合性和指令跟随能力。这不是又一个benchmark排行榜，而是一个让不同架构在同一条件下跑起来的实验平台。对正在做多模态模型选型或对比研究的团队，值得关注它能否成为社区标准——但统一框架的覆盖度和维护活跃度还需要时间验证。

多模态模型架构分散导致公平比较几乎不可能，TorchUMM是第一个统一评估+后训练的代码库覆盖理解、生成、编辑三维度，支持标准化横向对比做模型选型的团队可以关注，但框架的长期维护和社区采纳度是关键变量

原文：TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

也值得关注

用层次化类比推理替代规则匹配做内容审核 安全对齐处理模糊边界案例时，类比比硬规则更灵活。链接

Chain-of-Analogy对抗审核中的决策捷径 安全对齐与上文CHAIRO同组，用DPO强化类比推理质量。链接

去掉纹理只留骨架线条，测VLM几何理解 评测检验模型是真懂空间结构还是在读纹理线索。链接

法律咨询场景的multi-agent结构化推理框架 Agent附带大规模中文法律QA数据集。链接

250万空间对齐样本的遥感多模态数据集 AI for Science语义监督做地理基础模型预训练。链接

LLM代码摘要越来越长，评估方法跟不上 代码智能无参考的细粒度事实一致性评估方案。链接

教导航Agent判断目标不存在 Agent处理虚假前提指令，而不是盲目搜索到超时。链接

低光人体姿态估计的无监督域适应 机器人不需要暗光场景的标注数据。链接