深度学习与第一性原理计算_金年会官方网站入口

深度学习与第一性原理计算

发布时间：2024-10-30 08:29:40 来源：金年会jinnian6766

导读：

　　第一性原理计算基于量子力学基本原理，通过求解复杂的多电子相互作用问题实现高精度材料计算预测，已成为现代物理学、化学、材料科学等诸多领域中不可或缺的研究手段。然而，高昂的计算成本限制了第一性原理计算的广泛应用，使得大尺度材料模拟和材料大数据构建等重要领域的发展面临重大挑战。近年来，AlphaGo、AlphaFold、ChatGPT等突破性工作的涌现宣示了人工智能新时代的来临，第一性原理计算领域也迎来了变革性转变的历史机遇。深度学习为第一性原理计算提供了新的研究范式，通过精确建模和高效预测，有望突破传统方法的瓶颈问题。文章介绍了一类基于深度学习的第一性原理计算方法，利用神经网络对密度泛函理论中的核心物理量——密度泛函理论哈密顿量进行建模，并设计出满足局域性原理、协变性原理等关键物理先验的先进神经网络架构，实现了高效精确的深度学习电子结构计算。该方法已成功应用于转角范德瓦耳斯材料等体系的大尺度材料模拟、基于材料大数据的通用材料模型构建等极具挑战性的任务中，为发展材料大模型、推动人工智能驱动的材料发现提供了新的机遇。

　　在现代物理学、化学和材料科学领域，第一性原理计算已成为不可或缺的研究手段，用于预测和解释材料性质。这类方法不依赖于实验数据与经验参数，而是基于量子力学的基本原理，通过数值求解薛定谔方程来预测多电子相互作用系统的物理性质，从而为理解材料性质和设计新材料提供了新途径。密度泛函理论(density functional theory，DFT)是第一性原理计算中最为广泛应用的方法 [1]。DFT的核心思想是通过求解基态电子密度而非波函数来描述多电子系统的物理性质，相比于基于波函数的第一性原理计算方法(如Hartree—Fock方法、量子蒙特卡罗方法等)，DFT能够处理更为实际的材料体系，同时保持相对较高的计算精度，可以较为准确地预测原子结构、电子结构等关键信息，已广泛应用于探索材料的力学、电学、磁学、热学和光学性质，能够辅助解释实验结果并指导新材料研发。DFT已经成为物理、材料、化学，甚至生物学领域中的重要研究手段 [2]。

　　然而，尽管基于DFT的第一性原理计算已成为多个学科不可或缺的重要方法，但其高昂的计算成本限制了其实际应用。具体来说，DFT的计算代价会随着体系中原子数目的增加而迅速上升。在常用的Kohn—Sham DFT框架中 [3，4]，计算复杂度通常与体系大小呈立方标度关系。因此，在常规计算资源下，DFT通常仅用于处理包含几十到几百个原子的材料体系。这种限制直接影响了DFT在以下两个重要领域的应用：(1)数据驱动的材料发现。在材料科学研究中，发现具有优异性能的新材料是一个重要目标。一种强有力的手段是通过高通量计算筛选大量候选结构 [5]，从而批量发现新材料。由于DFT计算单个结构，特别是具有复杂原子结构的材料体系，耗时较长，常规计算资源难以支撑如此大规模的计算需求，这限制了基于DFT的高通量计算在数据驱动材料发现中的应用。(2)大尺度材料体系的计算研究。DFT在研究真实的大尺度材料体系时也面临巨大挑战。以半导体芯片为例，芯片的制造过程涉及多种材料和复杂工艺，需要对这些真实材料体系进行模拟以优化工艺参数。生物体系如蛋白质、核酸等也是重要的研究对象，揭示其微观作用机制对医药等领域具有重要意义。然而，这些真实体系宏观上较小但微观上很大，常规DFT计算通常会耗费大量算力和时间，甚至根本无法实现。尽管有一些方法(如密度泛函紧束缚方法 [6]、线]等)试图在一定程度上缓解这一问题，但通常在精度上有所妥协，从而限制了预测结果的可靠性。总的来说，DFT是进行理论计算研究的强大工具，但其计算效率限制了其在高通量材料筛选和大尺度系统模拟中的广泛应用。为了克服效率和精度双重困境，需要突破传统框架，发展高效且精确的第一性原理计算方法，以进一步拓展DFT在科学研究中的应用范围。

　　近年来，深度学习方法在各个领域取得了令人瞩目的成果，为第一性原理计算开辟了新的机遇。深度学习算法被证明是该领域发展的重要推动力，逐渐展现出加速甚至可能取代沿用几十年的传统算法的潜力，从而拓展第一性原理计算的研究范围。传统第一性原理计算方法依赖于从基本物理原理出发建立物理模型与数学方程，然后通过数值计算求解这些方程。传统算法具有较高的精确性，但通常需要耗费大量计算资源和时间，因此其应用范围和研究深度受到显著限制。相比之下，深度学习方法通过从海量数据中学习，利用神经网络自动发掘隐藏的规律和模式，高效建模特征表示和复杂函数关系，从而准确高效地进行预测和分析。深度学习模型可以基于有限的训练数据，创建精度接近第一性原理计算方法的近似模型，从而大幅降低计算成本。由于兼具准确性和计算效率，深度学习模型有望超越传统的第一性原理算法，显著加速材料的发现和设计 [8—12]。本文将以我们近期提出的一种基于深度学习的第一性原理计算方法为例，探讨深度学习科学计算方法的研究思路、设计原理及未来应用。

　　最近几十年算法的创新和计算机硬件的快速发展，使得人工智能(artificial intelligence，AI)的概念已经从实验尝试演变成现实生活中的重要部分。许多以前需要人类智能才能完成的任务，现在可以通过计算机系统解决，如决策下达、视觉识别和语言对话。机器学习是AI领域的一个重要分支，它使计算系统在没有明确编程的情况下能够从数据中自主学习和获取经验。深度学习是近年来涌现的一种强大的机器学习技术，利用人工神经网络对数据进行特征表示学习和模式分析 [13]。

　　神经网络旨在模拟人脑神经元之间相互连接的层级结构，其基本计算单元是人工神经元，如图1所示。每个神经元接收来自其他神经元或输入数据的加权输入信号，经过激活函数的非线性变换后输出结果信号：

　　其中 xi是第 i个输入， wi是相应的权重参数， b是偏置参数， σ是非线性激活函数， y是该神经元的输出，亦可作为其他神经元的输入。神经网络由大量神经元按照层级结构连接而成。输入层接收原始输入数据，隐藏层对输入数据进行特征提取和模式转换，输出层产生最终输出结果。随着网络层数的增加，神经网络能够捕捉到数据中更为复杂的模式，这就是所谓的“深度”学习。神经网络通过训练调整神经元之间的权重和偏置参数，使网络对输入数据的处理结果逼近期望输出，从而完成学习任务。最常用的训练神经网络的算法是反向梯度传播 [14]，该算法基于求导的链式法则，计算损失函数对网络参数的梯度。随后沿梯度反方向修正参数值，使损失函数不断减小。在训练过程中，通过大量训练样本的迭代学习，神经网络能够逐步优化参数，从而拟合所需的任务映射。

　　本文关注深度学习任务中专注于处理由原子构成的材料系统。一种处理材料结构的方法是将原子系统表示为一个图 G=( V, ε)，其中 V是节点集合，每个节点 vi∈ V描述原子 i的属性， ε是边的集合，每条边 eij∈ ε描述原子对 ij之间的关系，图神经网络(graph neural network，GNN)是一种用于处理这类图数据并进行特征提取的技术。该领域的一个核心问题是将几何先验融入图神经网络的设计中，即利用图数据中蕴含的空间关系和对称性来增强神经网络的数据利用和表达能力，这个方向也被称为“几何深度学习” [15]。例如，某些与材料结构相关的深度学习任务(如神经网络力场)具有平移不变的特性，即如果令所有原子的位矢r i平移同一个矢量，预测目标量保持不变。在构建神经网络时，可将边 eij上的输入特征设置为原子对之间的相对位置rij=ri-rj，这样的输入信息具有平移不变性，使得由神经网络学习到的特征及其输出自然保持这种平移不变性。

　　针对上述原子结构的图表示，GNN能够直接在图数据上进行端到端的深度学习。一类常见的GNN框架是消息传递神经网络(message passing neural network，MPNN) [16]，它通过聚合邻居节点的信息来更新节点的特征表示，从而对图的全局拓扑结构进行建模。在每层的消息传递过程中，MPNN会收集邻居集合 Ni的信息，并将节点特征 vi更新为：

　　其中 Φ 1和 Φ 2是可训练的神经网络，通常利用顺序无关的操作聚合 Ni中的不同元素信息。例如，上式中使用的是求和操作，也可以选择使用注意力机制 [17]。这样的框架不仅使神经网络能够保持对称性，还可以灵活处理多样化的材料结构，有助于从原子数据中自动捕捉局部结构模式，而无需依赖复杂的手工特征设计。目前，GNN在材料科学中的应用范围越来越广，如晶体结构预测、分子动力学模拟、材料性质预测等，推动了人工智能驱动的新材料发现进程。

　　第一性原理计算的算法，如DFT，可被视为一个映射函数，它以原子结构为输入，以预测的电子结构和材料性质为输出。人们尝试利用深度学习作为DFT的替代模型，以绕过耗时的传统计算步骤。一种直接的做法是将常规计算过程整体替换为深度学习模型，利用神经网络学习从原子结构到材料性质的映射关系。机器学习力场 [18]即属于这类方法。这种处理方式简洁，无需考虑第一性原理计算的细节，因此深受AI研究领域的喜爱。然而，不同原子组合能够产生无穷无尽的材料结构，演化出千变万化的材料性质，材料的物性与结构之间的依赖关系往往极其复杂。另一方面，受限于高昂的计算成本，复杂原子结构的第一性原理训练数据难以获得。因此，选取合适的深度学习策略变得尤为重要。

　　事实上，某些与原子结构相关的物理性质，如DFT总能量和原子力，相对较容易用神经网络建模，而大部分其他物理性质(如电子能带结构、本征态等)则较为困难，其背后的一个重要因素是目标性质是否具有局域性。局域的电子性质主要受近邻原子结构或化学环境影响，而来自远处的影响则会随着距离的增加而迅速衰减，这一普适特性通常被称作“近视性”原理或局域性原理 [19，20]。若选取具有局域性质的物理量为深度学习目标量，则输入信息只需要包括空间中有限范围内的原子位置，而无需考虑全局的原子结构信息。这一方面可以契合前面介绍的GNN架构，使得深度学习模型的计算代价随着原子数目的增加仅呈线性增长；另一方面，这类方法可有效保证神经网络方法的泛化能力。只要训练数据集中包含足够丰富的局域化学环境，即使待预测的材料结构从全局角度是新的，训练好的神经网络模型也能进行高精度的推理。局域性从原理上保证了神经网络有可能只利用小尺度材料系统数据进行训练，就能较好地处理大尺度材料系统，从而具备相对较好的泛化能力。因此，在选择深度学习目标时，应优先考虑具有局域性的物理量。

　　本文将探讨一种基于深度学习的第一性原理计算方法，称为深度学习密度泛函理论哈密顿量(deeplearning DFT Hamiltonian，DeepH)方法。该方法的设计初衷是利用局域性原理的优势，将DFT哈密顿量作为神经网络模型的预测目标。DFT哈密顿量不仅具有局域特性，更为重要的是，它是DFT计算中的核心基本物理量，通过DFT哈密顿量，可以较容易地导出DFT框架下其他物理量。因此，DFT计算中涉及的所有物理量都可以通过DeepH神经网络模型直接或间接地获得，这使得我们能够使用神经网络来代替传统的DFT计算程序。

　　那么，什么是DFT哈密顿量呢？为了回答这个问题，我们需要深入了解DFT计算的具体形式。DFT在处理实际材料体系涉及的多电子相互作用问题时，将体系的总能量表示为电荷密度的泛函，并通过最小化能量泛函来求解体系的基态电荷密度。常用的Kohn—Sham DFT方法将复杂的多体相互作用问题映射到等效平均场下的单体问题，并通过引入交换关联势来描述复杂的量子多体效应。实践证明，对交换关联势进行简单的近似，如局域密度近似或广义梯度近似，Kohn—Sham DFT便能较精确地描述大部分材料体系的性质，因此成为第一性原理材料计算的主流方法。

　　Kohn—Sham DFT的主要算法是通过自洽迭代求解Kohn—Sham方程：首先从一个初猜的电荷密度出发，构造出一个初始的DFT哈密顿量，再求解得到Kohn—Sham波函数；接着，由Kohn—Sham波函数构造出新的电荷密度和DFT哈密顿量，形成循环，直至达成自洽收敛。基于自洽收敛的DFT哈密顿量，可以计算其他物理量，例如电子的能带结构、Berry相位、能带拓扑以及外场响应特性等。即使是对于简单的材料体系，DFT计算通常也需要经过数十步自洽迭代才能收敛。DeepH方法跳过了复杂的自洽迭代求解过程，通过神经网络直接预测自洽收敛的DFT哈密顿量，并进一步利用预测的DFT哈密顿量计算其他物理性质。图2展示了传统DFT的自洽迭代过程和DeepH方法所替代的部分。一旦DeepH方法训练所得神经网络模型能够精确预测不同材料结构的DFT哈密顿量，便可以通过后处理计算导出几乎所有单电子图像下的电子性质。

　　图2 DeepH方法的示意图。传统的DFT计算通过复杂的自洽迭代(红色框)得到自洽收敛的DFT哈密顿量，进而计算出各种物理性质。DeepH方法跳过了耗时的自洽迭代，利用神经网络建模原子结构到DFT哈密顿量的映射(绿色箭头)，从而实现高效且智能的第一性原理计算

　　在量子力学中，当选定基组表象时，哈密顿量可以表示为一个矩阵。常用的基组包括平面波基组、局域轨道基组等。我们采用局域轨道基组(如数值赝原子轨道)，这类基组与局域性原理兼容，对应的DFT哈密顿量为第一性原理紧束缚哈密顿量，具有稀疏性和局域性，便于深度学习。在局域基组表象下，DFT哈密顿量是一个稀疏矩阵，由一系列描述原子对 ij相互作用的哈密顿量矩阵块 Hij构成。距离较远的原子对贡献零矩阵块，只有相对近邻的原子对贡献非零的 Hij。我们可以使用前面介绍的GNN框架来学习DFT哈密顿量矩阵块，利用神经网络输出层中的边特征 eij可以自然地表示 Hij。在GNN逐层更新的过程中，仅有邻近信息会被聚合到特征中，且更新次数是有限的，这种设计自然满足了局域性要求。

　　简而言之，DeepH方法设定了一个深度学习任务，即利用神经网络建模原子结构到DFT哈密顿量的映射。前面提到的GNN框架在处理这类学习任务时具有天然优势，不仅能够便利地处理原子结构体系，还能自然地引入局域性这一重要的物理先验。局域性作为物理系统中的一个重要特征，能够显著减少模型需要学习的有效自由度，从而提高神经网络模型的训练效率和泛化能力。接下来，我们将利用这一深度学习任务所具有的另一个重要物理先验，即物理规律的对称性，进一步简化学习过程。

　　对称性在物理、数学等诸多领域中扮演着极为关键的角色。我们这里重点关注物理规律的对称性，即物理规律在变换操作(如空间平移、旋转)下保持不变。相应地，物理方程应在变换操作下保持协变，这也被称为相对性原理或协变性原理。在神经网络模型中显式引入上述对称性，如空间平移对称性和旋转对称性，可以减少模型参数空间的复杂性，提升泛化能力，并加速训练收敛。这种方法不仅能够保持物理意义上的一致性，还能够增强模型的预测能力。

　　在DeepH方法中，与DFT哈密顿量预测任务相关的对称操作包括原子序号置换、原子位置平移和原子位置旋转。如公式(2)所示，GNN算法可以自动满足原子序号置换的对称性；若规避直接使用原子位矢，而仅利用原子对之间的相对位置信息，原子位置平移对称性也能自动得到满足；至于原子位置旋转相关的对称性，则需要进行特殊处理。当对给定原子结构施加旋转操作R时，输入原子位置ri 将变为Rri，DFT哈密顿量矩阵块 Hij将进行相应的变换：

　　其中 Ui(R)表示以原子 i为中心的局域基组在旋转操作R下对应的Wigner D-矩阵，†表示矩阵的共轭转置。如果设计的神经网络模型能够自动满足旋转协变特性，我们称其为协变神经网络。协变神经网络具有以下显著优势。首先，协变神经网络模型能够“举一反三”，通过协变性原理，由给定的原子结构训练数据可推理出任意空间旋转对应的结果，而不需要人为地对训练数据进行旋转扩增。这减少了对数据预处理的需求，从而简化了数据准备的工作量。其次，自动满足旋转协变还可以大幅减少神经网络模型的自由参数数量。由于模型已经内嵌了对称性约束，它可以更加高效地学习和表示物理系统的内在特性。这不仅提高了模型的泛化能力，使其能准确预测旋转变换的结果，还能加快模型训练。此外，满足旋转协变可以保证物理预测的一致性。物理规律的对称性是一种普适的要求，忽略这些对称性可能导致非物理的预测结果。通过确保模型遵循这些对称性，可以增强其在实际应用中的可靠性和可信度。

　　DeepH方法的发展重点正是对物理协变性的保持。最初的DeepH方法 [21]为每个原子对 ij定义只和其局域环境有关的局域坐标系，把原本的学习目标，即全局坐标系下的 Hij，事先变换到局域坐标系下得到 Hij 。由于在旋转操作下，局域坐标系会和原子结构一同旋转，使得局域坐标系下的 Hij 在旋转下将会保持不变，不再需要令神经网络直接保持公式(3)中的复杂变换关系。这样的设计使得我们只需使用旋转不变的GNN模块，就能建模DFT哈密顿量，并通过相反的旋转变换模块将预测得到的 Hij 变换回 Hij，使得方法整体自动满足旋转协变。然而这种做法的缺点在于难以避免构造出具有不同规范的局域坐标系，使得神经网络需要学习不同局域坐标系规范下的映射关系，加大了学习难度，降低了训练效率。后续又使用等变神经网络(equivariant neural networks，ENN) [22]技术，直接在神经网络设计上满足DFT哈密顿量内在的对称性。这种深度学习框架利用球谐函数和Clebsch—Gordan系数来计算可学习的权重，以保持神经网络方法的协变特性。将这种想法应用在DFT哈密顿量学习，发展出的对三维欧几里得空间群(E3群)保持协变的DeepH-E3方法 [23]能达到更高的学习精度。DeepH-E3方法的不足在于ENN框架计算代价较高，限制了更大规模神经网络参数量的使用，同时训练效率的瓶颈也制约了在大规模数据集上训练材料大模型。我们又进一步提出了结合局域坐标系和协变神经网络的DeepH-2方法 [24]，该方法在建立原子对ij上的局域坐标系时，只固定沿着原子对连线方向的一个坐标轴，而通过神经网络设计保持余下自由度的2维旋转协变 [25]，使得计算代价显著小于原先ENN框架需要涉及的3维旋转协变。得益于神经网络框架的优势，DeepH-2的训练效率与预测精度可以进一步提高 [24]。除此以外，在考虑了自旋—轨道耦合和磁性的情形下，DeepH框架也能保持额外的关于自旋 [21，23]和磁矩 [26，27]自由度的协变性，增大了其应用范围。

　　在DeepH系列方法发展的同时，国内外同行也逐步意识到深度学习电子结构计算的重要意义。前期个别工作(如SchNOrb [28])选择将哈密顿量作为中间变量引入特定分子体系的深度学习，以改善分子波函数的预测。北京大学研究组开发的 TBwork s方法 [29] ，发展了基于第一性原理紧束缚模型的神经网络表示，为深度学习电子结构计算提供了一种新思路。DeepH方法提出的兼容局域性原理、协变性原理等物理先验的基本设计原则，已被相关领域研究广泛采用，如复旦大学研究组开发的HamGNN框架 [30] 、得克萨斯农工大学开发的QHNet框架 [31] 等。

　　DeepH系列工作中对大量示例材料体系进行了研究 [21，23，24，26，32—34]，结果展示了高精度和广泛的适用性。这里我们以转角范德瓦耳斯材料为例，介绍DeepH在大尺度材料体系上的应用。

　　转角范德瓦耳斯材料是近年来材料科学研究的新星，通过把两层二维材料相对扭转一定角度后堆叠，可以实现对材料电子结构性质的调控。例如，转角石墨烯通过调整扭转角度，可以在某些称为“魔角”的角度下出现关联电子态、超导以及其他新奇的量子现象 [35，36]。这使得转角材料成为研究新型物理效应和实现新型电子器件的重要平台。然而，由于这些转角材料通常包含成千上万个原子，传统的第一性原理计算方法在计算成本上极其昂贵，难以有效处理如此大规模的体系，极大地限制了研究人员对转角材料物理特性的全面探索。

　　通过对局域性和对称性物理先验知识的利用，DeepH方法能够只利用小尺度无转角第一性原理计算数据训练模型，随后在大尺度转角材料上高精度预测，大幅度提升计算效率。在实际测试中，DeepH展示了其在预测转角材料能带结构方面的卓越性能。具体而言，DeepH不仅能准确预测出与传统DFT计算结果吻合的能带结构，还能显著缩短计算时间，提高计算效率多个数量级。举例来说，对于包含一万多个原子的魔角石墨烯体系，DFT计算需要在计算集群上消耗数周的时间 [37]，而使用DeepH仅需几百秒便能完成哈密顿量预测(图3(a))，随后只用几小时便能完成能带结构计算，且预测结果高度吻合(图3(b)) [21，23]。这种高效性和准确性使得DeepH在研究大规模转角材料体系时具有极大的优势，能够快速筛选出具有潜在应用价值的材料，为实验提供有力的理论支持。此外，DeepH的可迁移性也为研究其他复杂的二维转角材料体系提供了新的可能性，能够构造二维转角材料深度学习DFT哈密顿量数据库 [34]。通过DeepH的高效计算，研究人员可以系统地探索不同扭转角度下材料的电子结构和物理性质，加深对其基础物理机制的理解，为新材料的发现和设计提供重要支持。

　　图3 DeepH方法用于转角石墨烯的电子结构计算 (a)通过传统DFT方法和DeepH方法构建不同原子数转角石墨烯DFT哈密顿量的计算时间对比，计算都是由配备了两个AMD EPYC 7542 CPU的计算节点完成；(b)具有11164个原子的魔角石墨烯的能带结构，图中比较了DFT和DeepH方法的计算结果[37]

　　近期，DeepH方法在建立“材料大模型”方面取得了突破性进展，并具备了应用于构建覆盖元素周期表的通用材料模型的可能 [38]。DeepH团队首先建立了一个大型DFT材料数据库，其中包括超过10000种材料结构的DFT计算数据。基于此材料数据库与最新的DeepH架构(DeepH-2)，团队成员构建了一个DeepH通用材料模型，可处理多样化元素组成与原子结构的复杂材料体系，并在材料性质预测方面达到了出色的精度(哈密顿量的精度达到了毫电子伏特量级)。鉴于哈密顿量在DFT计算中的基础与核心地位，从哈密顿量出发可以计算丰富的物理性质，因此该通用材料模型也可准确预测复杂材料的多种物性，展现出出色的通用性能。此进展是DeepH系列方法发展的标志性成果，预示着基于DeepH方法通向“材料大模型”的路线 DeepH方法发展历程。经过了数年的持续发展[21，23，24，26，27，32，34，38]，DeepH方法为基于深度学习第一性原理计算的“材料大模型”开辟了可能的路径[38]

　　本文介绍的基于神经网络的第一性原理计算方法比传统方法前进了一大步，能够在保证计算精度的前提下大幅提高计算效率，拓宽第一性原理计算的研究边界。这一成功的跨领域应用启示我们，在将深度学习应用于物理问题时，应充分考虑如何恰当地融入和利用物理先验知识，设计更适合科学研究的深度学习算法。展望未来，深度学习在第一性原理计算方法的发展中展现出了巨大的潜力，这不仅为高通量材料筛选和大规模材料模拟提供了新的可能，也为理解和设计新材料带来了前所未有的机遇。随着深度学习技术的不断进步，我们有理由相信，它将在未来继续推动第一性原理计算方法的发展，带来“材料大模型”等更多令人振奋的技术创新和科学发现。