3B拒答追平R1，B矩阵是LoRA瓶颈

今日概览

把拒答写进奖励函数：Abstain-R1让可答与不可答共用一套可验证信号，3B模型在三个拒答benchmark上对齐DeepSeek-R1，而可答问题不掉点。
LoRA合并的干扰其实来自B矩阵：Pico做data-free校准、作为插件叠加在TaskArithmetic/TIES/TSV-M上，八个benchmark平均提升3.4-8.3点。
「尊重多元价值观」成了越狱通道：把有害请求包装进「道德灰区讨论」，主流LLM和guardrail的越狱成功率显著上升;对齐目标之间的张力第一次被当成攻击向量。
视觉token压缩换思路：EvoComp先用进化搜索为每张图离线搜出「该保留哪些token」的软标签，再训轻量压缩器去模仿,3倍压缩保留99.3%准确率。

重点关注

01 推理把「我不知道」写进奖励函数，3B就能追平DeepSeek-R1

RL微调能显著提升模型的推理能力，但有个不太被讨论的副作用：模型变得更「敢答」，碰到信息不全、本不该回答的问题，倾向于猜或编造而不是拒绝。常见的应对是在模型外面加一层过滤器，或者训练它输出通用的refuse模板，但这两种都没解决根本问题——模型自己分不清什么时候不该答，澄清的内容也没人验证是否真的指向了缺失的关键信息。Abstain-R1的思路是把「该答就答、不该答就拒绝并指出缺了什么」写进同一个可验证奖励：可答的问题验证答案对错，不可答的问题同时验证拒绝行为和澄清内容的语义对齐。3B模型在Abstain-Test、Abstain-QA、SelfAware三个拒答benchmark上做到了与DeepSeek-R1相当的水平，同时没有牺牲可答问题上的表现。对生产里跑RL微调的团队来说，这是一个值得注意的信号：abstain不是在模型外面再加一层的事，应该和正确性一起进奖励函数；至于「语义对齐的澄清」具体怎么写成可验证规则、在更开放的领域是否还成立，需要看全文确认。

RL微调有「敢答」副作用，靠外部过滤器或通用拒绝模板都治标不治本拒答和澄清能与正确性写进同一个可验证奖励，联合优化而不冲突3B模型对齐的奖励信号能追平DeepSeek-R1的拒答行为，规模不是唯一解。

原文：Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

02 训练优化 LoRA合并的真正瓶颈不在ΔW，而在B矩阵

把多个LoRA adapter合并成一个通常会掉点，过去大家把这当成「任务冲突」问题，围绕ΔW=BA整体做各种融合算法。这篇的观察更具体：A和B的地位不对称——输出侧的B矩阵在不同任务间会反复使用一小撮共享方向，合并时这些方向被叠加放大，把任务特定信息盖掉了；而A矩阵本身就偏任务特定，不需要动。作者提出的Pico方法做的事很简单：合并前把B里过度共享的方向压一下，合并后再整体rescale，全程不需要数据。它是个插件，可以直接套在Task Arithmetic、TIES、TSV-M这些现有合并方法上，在数学、代码、金融、医疗八个benchmark上平均提升3.4-8.3个点。更有意思的是合并后的adapter居然能超过用全部任务数据训的单个LoRA。

LoRA合并的主要干扰来自B矩阵而非ΔW整体，A和B应该分开处理Pico是data-free的插件式校准，能叠加在现有合并方法上而不是替代它们维护多个LoRA adapter的团队可以直接试——改动小、无需重训、风险低。

原文：Crowded in B-Space: Calibrating Shared Directions for LoRA Merging

03 安全对齐当「尊重多元价值观」本身变成越狱通道

Pluralism alignment（多元价值观对齐）是近两年对齐研究的主流方向之一——让模型学会在道德灰区里保持中立、尊重不同立场。这篇 ACL 论文做了一件让人后背发凉的事：把这个对齐目标本身当成攻击面。研究者构造了10.3K条「价值模糊」和「价值冲突」场景，把有害请求包装成「道德多元性讨论」，越狱成功率在主流 LLM 和 guardrail 模型上都大幅上升。有意思的点在于，问题不是模型训得不够安全，而是「对多元道德保持开放」和「拒绝有害输出」这两条对齐目标天然打架——越认真执行前者的模型越容易被后者的漏洞穿透。对齐目标之间的内部张力被明确当成攻击向量利用，这在越狱研究里是第一次。

对齐目标不是单一维度，目标之间的冲突本身就是攻击面越「负责任」地做 pluralism alignment，传统越狱防线可能越薄做 guardrail 或红队的团队需要把「价值观伪装」列进新的测试类别

原文：Jailbreaking Large Language Models with Morality Attacks

04 推理加速视觉token压缩的新套路：先离线搜答案，再训模型模仿

MLLM视觉token压缩大多走启发式路线——按注意力权重或相似度剪枝，压缩比靠经验拍定。EvoComp把问题拆成两段：先用进化搜索为每张图离线搜出「保留哪些token能让输出损失最小」的软标签，再训一个轻量压缩器去模仿这组标签，本质是「先造好老师再蒸馏学生」。训练时额外做了难度均衡和语义分离约束，让保留/丢弃的token在语义上尽量拉开。3倍压缩下保留99.3%准确率，移动端推理加速1.6倍，CVPR接收。

离线搜索+在线蒸馏的范式对高分辨率和多图部署值得评估3倍压缩只掉0.7个点是token压缩里比较扎实的数字1.6x移动端加速算温和，真正收益在图片/视频密集的多模态场景

原文：EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling

也值得关注

HeLa-Mem用Hebbian关联替代向量检索 Agentagent长期记忆不再是一堆独立向量，而是有连接的图结构。链接

OASIS给流式视频推理上层级事件记忆 多模态证据稀疏、冗余无界，靠按需抽取而非扩大context。链接

PRISM把幻觉拆成三类分别探测 评测「推理错/指令偏离/来源记忆错」比output-level打分更能指导修复。链接

SIF用「语义内但内部响应独特」的样本做LVLM指纹 安全对齐不再依赖OOD查询，不破坏正常使用体验。链接

CogGen把深度研究报告做成递归非线性pipeline Agent跳出「检索-大纲-填充」的直线流水。链接

连续血糖监测的本地化问答Agent AI for Science患者可见数据不出端，瞄准CGM日常自管理场景。链接

SAVE给单细胞生成做基因block注意力 AI for Science不再把基因当独立token，支持多条件生成。链接

扩散模型做逆问题的噪声自适应采样 图像生成省掉任务级调参，不同IP共用一套采样策略。链接

主观NLP标注分歧的schema级诊断 评测到底是标准模糊还是合理多样，给了一套可操作的区分方法。链接

今日观察

HeLa-Mem和OASIS今天一起出现，一个在agent长期记忆、一个在流式视频推理，领域完全不同，但两边都在拒绝同一种默认做法：把历史压成embedding向量，然后靠余弦相似度召回。HeLa-Mem把记忆组织成带Hebbian关联的图结构，让「一起出现过的东西」通过连接而不是相似度被一起取出；OASIS走的是层级事件路线，不扩context，而是按需从事件树里调取证据。

这两条路径技术上并不接近，但它们共同指向一个判断：当输入尺度继续增长——对话越来越长、视频越来越长——向量相似度检索作为唯一召回机制已经不够用了。问题不是embedding不好，而是当信息密度稀、冗余无界、且相关证据在时间上离散时，相似度不再是召回的正确判据。

对做长对话agent和长视频理解的团队，实际可做的事：在现有向量检索之上加一层结构化召回——可以是关联图、事件索引、甚至简单的时间段tag——先让结构召回收窄候选集，再让向量检索在小集合里做细粒度匹配。继续单靠堆embedding维度或扩context，ROI在快速递减。本周可以做的最小实验：在你的RAG pipeline里加一个「最近N个事件/会话」的结构召回通道，和向量召回并跑，看top-K里被结构通道挽救的query占比。