ImageNet-FID与文生图能力负相关

今日概览

刷了几年的 ImageNet-FID 可能选错了优化方向：DiffusionBench 用统一框架训了 21 个扩散模型，发现 ImageNet 排名和文生图排名不是弱相关，而是负相关（Pearson 系数低至 -0.58），做生成选型时别再只看单一榜单。
单张照片生成的 3D 场景，第一次能直接拖进游戏引擎：FLAT 把视频扩散隐空间的几何一次前馈解码成带表面的三角面片，轻量精修后就是实时渲染的可用资产，接上了标准图形管线。
画得越逼真，越不代表模型懂世界：CF-World 用反事实基准发现，所有模型在违反常识的规则下都急剧掉链子——视觉真实感来自模式匹配，而非因果理解。

重点关注

01 评测大家刷了几年的扩散模型榜单，可能跟文生图没关系

整个扩散Transformer(DiT)圈子默认只有一张考卷：ImageNet上的类条件生成，比的是FID。这篇工作直接质问这个共识——方法在ImageNet上的排名，跟它在真正的文生图(T2I)任务上的排名，到底有没有相关性。作者做了个叫NanoGen的统一框架，把「T2I训练评测太贵」这个长期借口给拆了：改12行配置就能从ImageNet切到T2I，算力开销也差不多。然后他们用同一套框架训了21个潜在扩散模型，结果有点刺眼——两个任务上的方法排名不是弱相关，而是负相关，三个指标上Pearson系数在-0.377到-0.580之间。换句话说，一个在ImageNet-FID上更好的方法，到了文生图上很可能不仅没提升，反而更差。他们的建议是用ImageNet加T2I合成的DiffusionBench来替代单一榜单，但负相关这么强，更像是在说：现在这套评测可能选错了优化方向。

你在论文里看到的ImageNet-FID提升，跟你实际要的文生图能力大概率无关，甚至可能反着走「T2I太贵所以不测」这个前提已被NanoGen证伪，开源框架改12行就能两边都训负相关高达-0.58意味着这不是噪声，是整个评测范式可能跑偏了，做生成方向选型时别再只看单榜。

原文：DiffusionBench: On Holistic Evaluation of Diffusion Transformers

02 图像生成单张照片生成的3D场景，这次能直接拖进游戏引擎

FLAT做了件之前没人做成的事：把视频扩散模型隐空间里的几何，一次前馈直接解码成带表面的三角面片（triangle splatting），而不是过去那种没有明确表面、只能看不能用的体积高斯。难点在于三角面片对朝向极其敏感，梯度很容易回传不动，FLAT用两个巧思解决了——一个以光线为中心的旋转参数化，和一个改善梯度流的乘积窗口函数。结果是几何精度明显优于现有前馈方法，视觉质量还能打平。更关键的是后面那步：一个轻量的测试时精修，就能把预测出来的「三角面片汤」变成完全不透明、游戏引擎能直接读、支持实时渲染的资产。这意味着单张图生成可探索3D场景，第一次真正接到了标准图形管线的下游——做仿真、游戏、3D资产生成的团队值得盯一下。

三角面片直接从视频扩散隐空间解码，第一次让生成的3D场景带上可用表面，能进标准图形管线轻量测试时精修就能产出游戏引擎可直接读取、实时渲染的资产，落地门槛比纯重建方案低论文还在同一训练设置下系统比较了3DGS/2DGS/三角面片三种表示，做3D生成选型时可参考

原文：FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation

03 图像生成画得越像，越不代表它懂世界

文生图模型这两年的进步肉眼可见，但「画得逼真」和「理解了世界运行的规律」是两回事。CF-World这个新基准专门戳这个区别：给模型一套违反常识的规则，看它能照规则生成、还是退回到训练数据里见过的相关性。测试分三层——正常世界、给了明确视觉指令的反事实、以及只改规则要模型自己推导的隐式反事实。结果是所有模型(开源闭源都有)从第一层到后两层都急剧掉链子，作者用了两个指标(抵抗先验的PRR、保持推理的RRR)来量化这种退化。论文给的解释是:模型把世界知识和视觉外观当成紧耦合的共现模式来学，一旦要画训练里罕见的反常组合，就忍不住默认回熟悉的常识——不过这是基于标题和摘要的判断，具体退化幅度要看全文的数字。

视觉逼真不等于因果理解，别把「生成质量高」当成「模型抓住了底层规律」反事实/罕见组合的指令大概率被模型悄悄「纠正」回常识，对需要精确控场景的产品是个隐患想评估模型是不是真在推理，可以借这类违反先验的测试，而不只看常规prompt的出图效果。

原文：Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

也值得关注

跨图表 RAG 终于有了一个像样的基准 检索现有 benchmark 要么只测结构化表格，要么靠抽取关键点拼问题、查询和证据词面重叠，推理链逻辑不自洽。ChartWalker 用分层知识图谱构造真正需要跨图表推理的题，附代码。链接

图生 3D 高斯的高频细节，用扩散对齐补回来 图像生成稀疏体素方案受限于判别式 2D 特征，输入图的高频细节容易丢；FLUX3D 改用扩散对齐的稀疏表示来保真，和今天的 FLAT 形成 3D 生成的另一条技术路线。链接

生成模型补上热带气旋监测的缺失帧 AI for Science微波卫星图重访间隔长，容易错过气旋的快速演变期；MotifGen 用多源生成模型做时空插值填上空档，INRIA 出品的一个具体落地应用。链接

今日观察

今天有两篇放一起看会对上号：DiffusionBench 攻的是评测设置，「归纳主义火鸡」那篇攻的是能力解读，但两边其实在审同一件事——图像生成领域那些漂亮的头部数字，到底有没有水分。前者说大家刷了几年的 ImageNet-FID，在文生图才是真用例的今天，已经测不到要紧的地方了；后者说画面再逼真，也不代表模型真懂背后的因果规律。合到一起，从业者能拿走的结论很实在：你挑或评一个图像模型时，公开榜单上那个 FID 是个很弱的代理指标，真实生成能力和「理解」得另外验。

具体怎么做：下次做生成模型选型，别只盯一个榜单数字下结论——拿你产品真正要的那类 prompt（尤其是反事实、罕见组合、需要精确控场景的）跑一组自建测试，把「画得像」和「按指令对」分开看，这比 FID 高几个点靠谱得多。