Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement

Nian Liu, Nikita Kazeev, Stephen Gregory Dale, Artem Maevskiy, Yuwei Zeng, Ryoji Kubo, Pengru Huang, Thomas Laurent, Yann LeCun, Kostya S. Novoselov, Xavier Bresson 2025-05
晶体生成 材料发现 联合嵌入预测架构 稳定性-新颖性权衡 生成式精炼 JEPA

一句话总结

本文揭示了晶体 de novo 生成中稳定性和新颖性之间的根本权衡,并提出 Crys-JEPA——一种基于能量的感知潜空间代理模型,通过筛选-精炼管道显著提升同时满足稳定、唯一、新颖晶体的生成比例。

背景与前置知识

晶体结构与表示:晶体是由原子在三维空间中周期性排列形成的结构。其基本重复单元称为"晶胞"(unit cell),通常用三个组件描述:原子分数坐标 X、原子类型 A、以及晶格矩阵 L。晶格矩阵通过奇异值分解可分解为旋转矩阵和对称矩阵。

De Novo 晶体生成(DNG):目标是发现全新的晶体结构,不依赖预定义模板。近年来深度生成模型(如扩散模型、流匹配)极大推动了该领域的发展。现有模型通常以最大化观测晶体的对数似然为目标进行训练。

V.S.U.N 评估指标:有效性(V)衡量结构和组成合理性;稳定性(S)衡量能量是否在凸包阈值内;唯一性(U)衡量生成集合内部无重复;新颖性(N)衡量与参考数据集不匹配。复合指标 V.S.U.N 衡量同时满足全部四个条件的比例。

凸包与稳定性:在相图中,凸包代表给定化学体系中最稳定的化合物组合。能量高出凸包的距离越小,晶体越稳定。

联合嵌入预测架构(JEPA):由 Yann LeCun 提出的自监督学习框架。输入经两种增强后分别编码,训练预测器从上下文嵌入预测目标嵌入,学习有意义的表征同时避免坍缩。

核心思想详解

核心发现:当前晶体生成模型面临严峻的稳定性-新颖性权衡。类比"地图探索"问题:训练数据中的已知晶体像已标记区域,模型靠近标记点则稳定但不新颖,远离则迅速不稳定。论文发现稳定且新颖的晶体存在的"有效区域"极其狭窄。

两个关键创新:

  • Crys-JEPA:学习按形成能组织的潜空间,能量相近的晶体嵌入距离近,差异大的距离远,用嵌入距离近似评估稳定性
  • 筛选-精炼管道:先用基础模型生成候选晶体,用 Crys-JEPA 筛选有潜力的样本,再微调模型,让其在更好的数据分布上学习

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性