305M检索器指令遵循涨45%

今日概览

  • 检索器忽视指令约束是数据问题、不是模型容量问题:IF-IR用互补指令对+标签反转合成对比样本,305M encoder在FollowIR基准上提升45%,打赢参数量相当甚至更大的通用embedding。
  • RLHF的单点失败藏在reward model里,ARES把红队从「发现漏洞」推进到「端到端修复policy-reward系统」,对真实在跑RLHF pipeline的团队更贴近工程需求。
  • MLLM在雾天、低光、模糊下翻车,解法可能不在算法层。DUALVISION引入红外通道做模态互补,配套开源25K IR-RGB对齐图像和204K QA标注,降低在现有MLLM上试水的成本。
  • 多视角和2D-3D之间一直缺一个统一的位置编码:URoPE沿相机射线采样3D点并投影回查询平面,parameter-free、兼容现有RoPE kernel,在novel view synthesis、3D检测、跟踪、深度估计上都有稳定提升。

重点关注

01 检索 检索器看得懂话题,但看不懂约束

做RAG的人大概都撞过这个场景:用户说「找关于X的文档,但不要来自Y」,检索器返回一堆和X相关的结果,完全没把排除条件当回事。根源在训练目标——现有检索器基本只优化「语义相关」这一维,对指令里的约束是否被满足几乎无感。这篇的切入点是在数据侧动手脚:给定一个query、一个同时满足话题和指令的正例、以及一个话题相关但违反指令的难负例,再让LLM反向生成一条互补指令,让同一对文档在新指令下正负例关系恰好翻转。同一对候选在两条互补指令下标签颠倒,模型就不得不真正通过指令去重新评估文档,不能再靠固定的话题线索蒙混过关。305M参数的encoder在FollowIR基准上提升45%,超过了参数量相当甚至更大的通用embedding模型;论文还指出数据多样性和指令监督是互补的——前者保住通用检索质量,后者负责指令敏感度。

检索器忽视指令约束是数据问题、不是模型容量问题,不必换架构就能改善互补指令对+标签反转的合成思路,适合给带过滤/排除/属性约束的RAG检索器做微调305M模型打赢更大通用embedding,说明指令遵循能力主要靠targeted数据而非规模。

02 安全对齐 红队找到漏洞之后,谁来补RLHF的单点?

RLHF里reward model是一个容易被忽略的单点失败——它漏判某类不安全行为,policy训练就会跟着漏,而过去的red-teaming基本停在「发现」环节,报告完漏洞就结束了。ARES把这个流程往前推一步:先用「Safety Mentor」组合topic/persona/tactic/goal四类结构化组件合成对抗prompt,同时暴露core LLM和RM的盲区;再做两阶段修复,先微调RM让它学会识别有害内容,再用改进后的RM去优化policy。修复后的鲁棒性到底有多扎实,光看摘要还不够,需要看全文benchmark细节才能下结论。但对真实在跑RLHF pipeline的团队,这种「发现+修复」一体化的范式比单纯的攻击评测更贴合工程需求——你最终要的是把问题补回系统的办法,不是一份漏洞清单。

reward model是RLHF链条的单点失败,对齐盲区会顺着它向policy传染红队的价值不在「找到越狱」而在能否闭环进入修复流程把RM当作可迭代修复的系统组件,而不是训完就固定的评判器。

03 多模态 视觉大模型在雾天低光下翻车,解法可能不在算法层

MLLM在干净的RGB图像上表现亮眼,但放到雾天、低光或运动模糊的场景,性能会明显掉下来——而这恰好是自动驾驶、机器人、监控这些高价值场景里的常见工况。DUALVISION没有继续在视觉backbone上堆数据增强,而是直接引入红外(IR)通道做模态互补,用一个轻量融合模块通过patch级局部cross-attention把IR和RGB信息合进MLLM。配套开源了25K对IR-RGB图像、204K的QA标注,以及500对的评测集DV-500,复现门槛相对低。论文称在多种视觉退化下都有稳定表现,但相较于「纯RGB+更强数据增强」路线的边际收益有多大,需要看全文确认。

做自动驾驶、机器人、监控方向的团队可以把「传感器冗余」作为视觉鲁棒性的候选方案,而不是只在算法层打磨轻量融合模块加上公开对齐数据集,降低了在现有MLLM上试水IR的成本具体相对纯RGB方案的提升幅度需要读全文和看benchmark细节才能判断。

04 模型架构 跨视角和2D-3D之间,位置编码该怎么算?

RoPE在1D序列和规则网格上已经是标配,但多视角视觉任务里一直缺一个统一的相对位置嵌入——查询patch和键patch处在不同相机坐标系,几何关系不能直接折算成像素距离。URoPE沿相机射线在若干预设深度上采样3D点,再投影回查询图像平面,这样就能复用2D RoPE的实现,同时自带相机内参感知和全局坐标系不变性。作者在novel view synthesis、3D检测、跟踪、深度估计四类任务上都看到稳定提升,覆盖2D-2D、2D-3D和时序场景。框架本身parameter-free,也兼容现有RoPE优化的attention kernel,接入改动不大。目前验证集中在相机视角之间,能否推广到点云、不规则mesh、图结构这类更一般的几何空间,还需要后续工作确认。

做多视角或2D-3D联合建模的Transformer,可以把它当相对位置编码的默认选项试参数零增加、兼容现有RoPE kernel,部署代价低点云/mesh/图/分子这类更一般几何尚未验证,做这些方向的团队先观察别急着套用。
305M检索器指令遵循涨45%

也值得关注

05
把科学可行性判断拆成「合乎已知知识」和「实验上可被支持/反驳」两层 AI for Science框成诊断式推理任务后看LLM能否区分这两种层面的feasibility。Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
06
用幽默做counterfactual unfairness探针 安全对齐模型觉得什么好笑,暴露的是训练数据里关于身份和群体的社会假设,评测角度很巧。Investigating Counterfactual Unfairness in LLMs towards Identities through Humor
07
多语LLM在高层任务上漂亮,但语法性别和形态一致性普遍翻车 评测MORPHOGEN把这个词法层面的盲区做成了跨语基准。MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation

今日观察

IF-IR里最值得琢磨的不是那套互补指令对合成法本身——对比样本合成是老工具了——而是它如何把「检索器没学会看指令」这件事变成可以被证明的东西。论文先做了一个诊断动作:构造「同一对候选文档在两条互补指令下标签恰好翻转」的对照,如果模型对这对文档的相对打分在两条指令之间毫无变化,就说明它压根没把指令当回事,全靠话题相关性蒙混。这个对照一成立,问题就从「模型表现不够好」这种模糊抱怨,变成了「模型在指令这一维上输出近似常数」这种可量化的缺陷——一个可以被攻击、可以被补训的具体目标。

这个诊断思路值得借鉴的原因是,它卡住了从业者最常见的痛点:模型在benchmark上涨点、上了真实场景却翻车,到底是哪一维没学到?多数时候我们只能凭经验猜(「大概没学会长尾」、「大概被某个捷径特征带跑了」),然后扩数据、加regularization、换更大的模型,全是覆盖式打补丁。IF-IR给出的路径是反过来:先假设一个可疑维度,再设计一组「其他变量全固定、只让这一维反转」的对照输入,看模型输出是否跟着反转。跟不上,就证明这一维根本没进模型的决策——不用猜了,问题定位到了具体特征上。今天的ARES里能看到类似影子:自适应红队沿topic/persona/tactic/goal四个轴逼reward model露出盲区,本质也是在构造定向对照,只是换到了安全对齐的领域。

一个可以落地的动作:下次发现自家模型「线下涨点、线上翻车」时,先花半天想一个对照实验——把其他变量都固定、只让那个被怀疑的维度反转,看模型输出是否跟着反转。如果不跟着变,就说明它根本没学这一维,这时再去合成这一维的对比对训练,比继续扩数据更划算。