谱条件统一μP缩放,数据筛选也泄露隐私

今日概览

  • 谱条件统一了μP的宽度-深度联合缩放,不再需要逐架构逐优化器单独推导超参数迁移规则,附带代码实现。
  • 数据筛选过程本身就泄露成员信息:Anthropic研究表明,即使模型只在公开数据上训练,攻击者仍可推断原始数据集的组成。
  • VLM让灵巧手听懂自然语言指令。UniHM用统一tokenizer跨手型泛化,只需人-物交互视频训练,不依赖遥操作数据。

重点关注

01 训练优化 统一的谱条件让μP同时管住宽度和深度

μP(最大更新参数化)解决了模型变宽时的超参数迁移问题,但模型同时变宽又变深时,现有方案是碎片化的——SGD一套规则,AdamW另一套,换个架构又得重新推导。这篇工作提出了一个谱条件(spectral condition),用权重矩阵的范数和每步更新量随宽度、深度的缩放关系,给出统一的约束框架。关键在于这个条件足够通用:之前针对特定优化器推导的μP公式都能作为特例被恢复,同时自然扩展到更多优化器。在GPT-2风格的语言模型上,谱μP在宽度-深度联合缩放下保持了稳定的特征学习,超参数迁移表现稳健。论文附带代码实现,这对实际要做scaling的团队来说,意味着可以从「每种配置单独调参」过渡到有理论支撑的系统化迁移。

谱条件统一了此前碎片化的宽度-深度μP方案,不再需要逐架构逐优化器单独推导GPT-2实验验证了联合缩放下超参数迁移的稳健性附带代码实现,做scaling的团队可以直接用

02 安全对齐 「只用筛选后的干净数据训练」就安全了?没那么简单

数据筛选(curation)是一种越来越流行的隐私策略:用敏感数据指导筛选,但只拿筛选后的公开数据训练模型,这样模型从未直接接触隐私数据。Anthropic的研究团队对这个假设做了系统性检验,结果是筛选管线的每个环节——评分计算、子集选择、最终模型——都会泄露原始数据集的成员信息。攻击者可以通过成员推理攻击(membership inference attack)判断某条数据是否参与了筛选过程,即使模型本身只在公开数据上训练过。好消息是,对筛选方法做差分隐私(DP)适配后,泄露可以有效缓解,说明这不是个无解的问题,而是需要把隐私保障的边界从「训练过程」扩展到「数据选择过程」。

「只用公开数据训练」不等于隐私安全,筛选过程本身就是攻击面成员推理攻击可以作用于curation管线的每个阶段,不只是最终模型对curation方法做差分隐私适配是可行的缓解方向

03 机器人 灵巧手操控跨过了「逐物体编程」的阶段

灵巧手操控此前有两条路线:要么针对特定物体训练策略(「抓杯子」「拧螺丝」各一套),要么预定义手-物交互序列——两种方式都难以扩展到开放场景。UniHM的思路是用VLM(视觉语言模型)理解自由形式的语言指令,再规划物理可行的手指轨迹。一个值得注意的设计是统一灵巧手tokenizer,把不同构型的机械手映射到同一个codebook,解决了跨手型泛化的问题。训练数据只用了人-物交互视频,不需要大规模遥操作采集,这在数据成本上是个实际优势。ICLR接收,在多个数据集上对未见物体也能泛化,但从摘要看评估主要还是在实验室环境,距离真实部署场景还有距离。

用VLM将自然语言指令转化为灵巧手的物理可行轨迹,绕过了逐物体编程的瓶颈统一tokenizer让不同构型的灵巧手共享同一套表示,降低了适配新手型的成本只用人-物交互数据训练,不依赖大规模遥操作数据集
谱条件统一μP缩放,数据筛选也泄露隐私

也值得关注

04
GRPO从LLM对齐迁移到3D网格生成 图像生成异步优势引导的偏好优化替代离线DPO,用于艺术风格四边形网格。链接
05
幂等经验回放缓解持续学习的灾难性遗忘 训练优化在可靠性要求高的场景下表现更稳健。链接
06
Mamba/SSM处理工业级CAD长序列 模型架构替代Transformer的效率优势在细粒度零件建模中兑现。链接
07
小波变换检测视频语义边界来选帧 多模态比query相关性选帧保留更完整的叙事结构。链接
08
MLLM的基础数数能力有了跨模态度量 评测统一的图像-文本-音频计数benchmark。链接
09
高斯散射从稀疏气象站点重建雷达级降水场 AI for Science低成本天气监测的新路径。链接
10
分子表征从原子中心转向键中心 AI for Science共振和立体选择性等键级现象不再被忽略。链接
11
Visual autoregressive的next-scale预测用于超分辨率 图像生成解决全局一致性问题。链接