ImageNet-FID与文生图能力负相关

今日概览

  • 刷了几年的 ImageNet-FID 可能选错了优化方向:DiffusionBench 用统一框架训了 21 个扩散模型,发现 ImageNet 排名和文生图排名不是弱相关,而是负相关(Pearson 系数低至 -0.58),做生成选型时别再只看单一榜单。
  • 单张照片生成的 3D 场景,第一次能直接拖进游戏引擎:FLAT 把视频扩散隐空间的几何一次前馈解码成带表面的三角面片,轻量精修后就是实时渲染的可用资产,接上了标准图形管线。
  • 画得越逼真,越不代表模型懂世界:CF-World 用反事实基准发现,所有模型在违反常识的规则下都急剧掉链子——视觉真实感来自模式匹配,而非因果理解。

重点关注

01 评测 大家刷了几年的扩散模型榜单,可能跟文生图没关系

整个扩散Transformer(DiT)圈子默认只有一张考卷:ImageNet上的类条件生成,比的是FID。这篇工作直接质问这个共识——方法在ImageNet上的排名,跟它在真正的文生图(T2I)任务上的排名,到底有没有相关性。作者做了个叫NanoGen的统一框架,把「T2I训练评测太贵」这个长期借口给拆了:改12行配置就能从ImageNet切到T2I,算力开销也差不多。然后他们用同一套框架训了21个潜在扩散模型,结果有点刺眼——两个任务上的方法排名不是弱相关,而是负相关,三个指标上Pearson系数在-0.377到-0.580之间。换句话说,一个在ImageNet-FID上更好的方法,到了文生图上很可能不仅没提升,反而更差。他们的建议是用ImageNet加T2I合成的DiffusionBench来替代单一榜单,但负相关这么强,更像是在说:现在这套评测可能选错了优化方向。

你在论文里看到的ImageNet-FID提升,跟你实际要的文生图能力大概率无关,甚至可能反着走「T2I太贵所以不测」这个前提已被NanoGen证伪,开源框架改12行就能两边都训负相关高达-0.58意味着这不是噪声,是整个评测范式可能跑偏了,做生成方向选型时别再只看单榜。

02 图像生成 单张照片生成的3D场景,这次能直接拖进游戏引擎

FLAT做了件之前没人做成的事:把视频扩散模型隐空间里的几何,一次前馈直接解码成带表面的三角面片(triangle splatting),而不是过去那种没有明确表面、只能看不能用的体积高斯。难点在于三角面片对朝向极其敏感,梯度很容易回传不动,FLAT用两个巧思解决了——一个以光线为中心的旋转参数化,和一个改善梯度流的乘积窗口函数。结果是几何精度明显优于现有前馈方法,视觉质量还能打平。更关键的是后面那步:一个轻量的测试时精修,就能把预测出来的「三角面片汤」变成完全不透明、游戏引擎能直接读、支持实时渲染的资产。这意味着单张图生成可探索3D场景,第一次真正接到了标准图形管线的下游——做仿真、游戏、3D资产生成的团队值得盯一下。

三角面片直接从视频扩散隐空间解码,第一次让生成的3D场景带上可用表面,能进标准图形管线轻量测试时精修就能产出游戏引擎可直接读取、实时渲染的资产,落地门槛比纯重建方案低论文还在同一训练设置下系统比较了3DGS/2DGS/三角面片三种表示,做3D生成选型时可参考

03 图像生成 画得越像,越不代表它懂世界

文生图模型这两年的进步肉眼可见,但「画得逼真」和「理解了世界运行的规律」是两回事。CF-World这个新基准专门戳这个区别:给模型一套违反常识的规则,看它能照规则生成、还是退回到训练数据里见过的相关性。测试分三层——正常世界、给了明确视觉指令的反事实、以及只改规则要模型自己推导的隐式反事实。结果是所有模型(开源闭源都有)从第一层到后两层都急剧掉链子,作者用了两个指标(抵抗先验的PRR、保持推理的RRR)来量化这种退化。论文给的解释是:模型把世界知识和视觉外观当成紧耦合的共现模式来学,一旦要画训练里罕见的反常组合,就忍不住默认回熟悉的常识——不过这是基于标题和摘要的判断,具体退化幅度要看全文的数字。

视觉逼真不等于因果理解,别把「生成质量高」当成「模型抓住了底层规律」反事实/罕见组合的指令大概率被模型悄悄「纠正」回常识,对需要精确控场景的产品是个隐患想评估模型是不是真在推理,可以借这类违反先验的测试,而不只看常规prompt的出图效果。
ImageNet-FID与文生图能力负相关

也值得关注

04
跨图表 RAG 终于有了一个像样的基准 检索现有 benchmark 要么只测结构化表格,要么靠抽取关键点拼问题、查询和证据词面重叠,推理链逻辑不自洽。ChartWalker 用分层知识图谱构造真正需要跨图表推理的题,附代码。链接
05
图生 3D 高斯的高频细节,用扩散对齐补回来 图像生成稀疏体素方案受限于判别式 2D 特征,输入图的高频细节容易丢;FLUX3D 改用扩散对齐的稀疏表示来保真,和今天的 FLAT 形成 3D 生成的另一条技术路线。链接
06
生成模型补上热带气旋监测的缺失帧 AI for Science微波卫星图重访间隔长,容易错过气旋的快速演变期;MotifGen 用多源生成模型做时空插值填上空档,INRIA 出品的一个具体落地应用。链接

今日观察

今天有两篇放一起看会对上号:DiffusionBench 攻的是评测设置,「归纳主义火鸡」那篇攻的是能力解读,但两边其实在审同一件事——图像生成领域那些漂亮的头部数字,到底有没有水分。前者说大家刷了几年的 ImageNet-FID,在文生图才是真用例的今天,已经测不到要紧的地方了;后者说画面再逼真,也不代表模型真懂背后的因果规律。合到一起,从业者能拿走的结论很实在:你挑或评一个图像模型时,公开榜单上那个 FID 是个很弱的代理指标,真实生成能力和「理解」得另外验。

具体怎么做:下次做生成模型选型,别只盯一个榜单数字下结论——拿你产品真正要的那类 prompt(尤其是反事实、罕见组合、需要精确控场景的)跑一组自建测试,把「画得像」和「按指令对」分开看,这比 FID 高几个点靠谱得多。