专家推理结构做CoT,新类发现+13%

今日概览

  • 用领域专家的真实推理流程设计CoT监督,在医疗VQA中同时提升准确率和可追溯性,思路可迁移到任何需要结构化专业判断的垂直场景。CVPR接收
  • 最少几个特征就能复现模型的拒绝决策:将溯因解释最小化问题转化为0-1整数规划,实际求解效率优于不保证最优的方法。方法限于线性模型,但问题框架对高风险人机协作有启发
  • 训练时生成伪新类别样本来练习发现未知。 抛弃hash编码,用纯特征空间方法消除训练-推理目标错位,七个benchmark全类别准确率最高提升13.1%。CVPR接收

重点关注

01 推理 CoT的结构决定推理的天花板

Step-CoT用临床诊断的真实工作流——病灶定位→特征描述→诊断推理——来设计CoT的监督步骤,让每一步推理都有明确的专业依据和可追溯性,而不是让模型自由生成推理链。数据集基于1万多个真实临床病例和7万组VQA对,每条推理链都有专家标注的结构化中间步骤。训练框架引入了动态图结构聚焦机制,让模型学会区分哪些步骤是诊断关键、哪些是噪声——这比简单地把所有中间步骤等权重喂给模型更合理。实验显示准确率和可解释性同步提升,被CVPR接收。这个思路的迁移价值在于:任何需要专业判断的垂直领域(法律推理、金融分析、代码审查),都可以用领域专家的实际推理结构来替代自由格式CoT监督,而不是指望模型自己摸索出合理的推理路径。

用领域专家的真实推理流程设计CoT监督步骤,比自由格式推理链更准确也更可追溯动态图结构聚焦机制帮助模型区分关键推理步骤和噪声这一思路可迁移到任何需要结构化专业判断的垂直场景

02 可解释性 当模型说「我不确定」,用户最想知道的是「哪里不确定」

医疗诊断系统拒绝给出判断时,医生需要的不是「置信度不足」四个字,而是「哪几个指标导致了犹豫」。这篇来自xAI的工作定义了一个精确的问题:找到最少几个特征,就足以复现模型的拒绝决策——即溯因解释(abductive explanation)的最小化版本。对于被接受的样本,他们改进了已有的对数线性时间算法;对于被拒绝的样本,将问题转化为0-1整数线性规划。理论上这是NP难问题,但实验显示实际求解效率反而优于不保证最小化的线性规划方法。方法限于线性模型,离神经网络场景还有距离,但「用最少信息解释拒绝」这个问题定义本身,对高风险领域的人机协作界面设计有参考价值。

最小溯因解释能用最少特征复现模型的拒绝决策,比完整特征归因更适合实际决策场景0-1整数规划虽理论NP难,实际求解效率优于不保证最优的LP方法方法限于线性模型,但「解释拒绝」的问题框架对高风险人机协作有启发

03 模型架构 用「创造」代替「记忆」:训练时生成伪新类别,推理时发现真正的未知

LTC的核心想法很直接:与其让模型训练时只学分类已知类别、推理时硬去发现新类别,不如在训练阶段就主动「创造」伪新类别样本来练习发现。具体做法是用一个轻量在线生成器(基于核能量最小化和熵最大化)在训练过程中持续合成伪样本,跟模型联合进化,成本几乎可以忽略——完全抛弃了OCD(即时类别发现)领域常用的hash编码,用纯特征空间的方式消除训练-推理目标错位。七个benchmark全面领先,全类别准确率提升1.5%到13.1%,CVPR接收。对电商分类、内容审核等需要持续适应新品类的部署场景,这条「先创造再识别」的技术路径值得关注。

用生成伪样本代替hash编码,直接消除训练与推理的目标错位轻量生成器与模型联合进化,部署时无额外推理开销对需要持续发现新品类的场景(电商、内容审核)有实际参考价值
专家推理结构做CoT,新类发现+13%

也值得关注

04
NVIDIA发布长视频多模态理解benchmark MMOU 评测联合测试视觉+音频+文本推理,暴露当前模型在跨模态联合推理上的短板。链接
05
用图谱分解动态路由时序预测中通道间依赖 模型架构兼顾Channel-Independent的泛化和Channel-Dependent的表达力,ICLR接收。链接
06
病理切片多分类中区分错误严重程度 AI for Science良性误判为恶性和漏检恶性的代价完全不同,CVPR接收。链接
07
偏振光线索约束3D高斯重建的物理属性 图像生成改善反射物体的albedo和法线估计。链接
08
视觉重复环境下的高效RGB 3D重建pipeline AI for Science用于基础设施自动化巡检,ICCV接收。链接