【做計算 找華算】理論計算助攻頂刊,10000+成功案例,全職海歸技術團隊、正版商業(yè)軟件版權!經(jīng)費預存選華算,高至15%預存增值!研究背景層狀三元過渡金屬硼化物(MABs) 由于獨特的物理性質(zhì)(如高強度、導電性等),在電催化、電化學、高溫陶瓷等領域有廣泛的應用前景。其中,M2AB2在MBenes的合成中起著重要作用。然而,目前對M2AB2的研究仍將A位點局限于IIIA和IVA族元素,需要全面探索M2AB2的化學組分空間。最近,在描述化合物的熱力學穩(wěn)定性時,常用的指標是分解反應到相應競爭相的能量ΔHd,可以通過凸包(convex hull,CH)分析得到的,但由于需要手工編程和復雜的數(shù)據(jù)處理,這種方法復雜且成本高。此外,現(xiàn)有的小規(guī)模數(shù)據(jù)集也限制了一般機器學習(machine learning,ML)方法的發(fā)揮。對此,北京航空航天大學孫志梅團隊基于高通量智能計算平臺(ALKEMIE),開發(fā)了一個小數(shù)據(jù)集的機器學習方法來探索M2AB2的穩(wěn)定性。作者構(gòu)建了3個M2AB2晶體結(jié)構(gòu)數(shù)據(jù)集,研究不同結(jié)構(gòu)和組分特征對穩(wěn)定性的影響,研究成果擴展了MAB系列材料,并提供了一種基于小數(shù)據(jù)集的機器學習方法來預測新化合物。結(jié)果與討論DFT和ML的整體框架如圖1所示。首先,將所有優(yōu)化好的結(jié)構(gòu)隨機分成三個數(shù)據(jù)集,即訓練集(60%)、驗證集(10%)和測試集(30%)。其次,根據(jù)數(shù)據(jù)集生成相應的組成與結(jié)構(gòu)特征;在訓練集和驗證集中,通過CH分析得到作為ML目標的ΔHd值。然后,基于原始特征和目標進行特征選擇,選出優(yōu)化后的特征子集;接著,基于訓練集和驗證集進行訓練過程和實時的模型優(yōu)化。最后,得到可靠的模型,并在測試集上進行測試,根據(jù)DFT-ML結(jié)果評估MAB相的穩(wěn)定性。圖1. DFT-ML整體框架為了盡可能多地探索新的M2AB2,作者選擇的DFT數(shù)據(jù)集的化學空間包括M = Sc、Y、Ti、Zr、Hf、V、Nb、Ta、Cr、Mo、W、Mn、Tc、Fe、Ru、Co、Rh、Ni和A = Zn、Cd、Al、Ga、In、Tl、Si、Ge、Sn、Pb、P、As、S,如圖2所示。本文共研究了234個正交晶系和234個六方晶系的M2AB2結(jié)構(gòu)??紤]到晶體對稱性的影響,作者構(gòu)建了3個DFT數(shù)據(jù)集:(I)包括234個正交晶系和234個六方晶系的M2AB2結(jié)構(gòu);(II)僅包含234個六方晶系的M2AB2結(jié)構(gòu);(III)僅包含234個正交晶系的M2AB2結(jié)構(gòu)。在特征生成過程中,為了生成高質(zhì)量的輸入矩陣,作者選擇了13種組分和結(jié)構(gòu)特征,包括元素性質(zhì)、原子軌道、價電子軌道等,并使用了各種統(tǒng)計數(shù)據(jù),例如平均值和標準差等來描述這些特征。對于數(shù)據(jù)集I,考慮到兩種不同晶體對稱性的影響,生成了87個組分和結(jié)構(gòu)特征。對于數(shù)據(jù)集II和III,由于每個數(shù)據(jù)集中只有一種晶體,因此產(chǎn)生了78個組分特征。圖2. 候選M2AB2的化學空間考慮到M2AB2的規(guī)模(數(shù)據(jù)集I、II和III為468、234和234,<103)屬于小樣本建模,過大的特征數(shù)量級(102)可能無法訓練出可靠的模型,導致維數(shù)災難和模型性能不佳。因此,作者使用MOD-selection算法進行特征工程。使用MOD-selection算法,作者分別在數(shù)據(jù)集I、II和III的特征數(shù)閾值N = 5、10、15和20處獲得了4個優(yōu)化的特征子集。為了展示特征選擇的結(jié)果,作者以數(shù)據(jù)集I中的15個特征的子集為例,如圖3所示。平均的Mendeleev Number(meanMN)在子集中排名第一,對目標ΔHd的影響占主導地位。第二個特征 rNfV顯示了f價電子對數(shù)據(jù)集I中ΔHd的重要影響。除了meanMN和rNfV之外,子集中的其他特征對ΔHd的影響相對較小,但對獲得可靠的ML模型也做出了貢獻。特征選擇完成后,對所有子集進行歸一化處理,保證輸入矩陣的所有列都在同一量綱,避免數(shù)據(jù)值的奇異性。最終,對于三組M2AB2,訓練過程的輸入數(shù)據(jù)矩陣由相對于晶體數(shù)量的M行(數(shù)據(jù)集I為M = 326,數(shù)據(jù)集II和III為M = 164)和對應特征號的N列(N = 5、10、15和20)組成。因此,在數(shù)據(jù)集I、II和III中,分別有142、70和70個晶體用于預測過程。圖3. 候選M2AB2的化學空間為了避免小樣本ML方法在訓練過程中出現(xiàn)過擬合或數(shù)據(jù)泄漏的問題,作者基于holdout交叉驗證方法分析了訓練集和測試集的統(tǒng)計分布。統(tǒng)計結(jié)果如圖4所示。對于meanMN和平均電負性(圖4a、c),結(jié)構(gòu)特征(c軸的晶格常數(shù),圖4b)、目標ΔHd(圖4d)等,訓練集和測試集的分布基本一致。此外,ΔHd在訓練集和測試集上的取值范圍均為-0.05~0.65 eV/atom,符合正態(tài)分布。因此,在數(shù)據(jù)的統(tǒng)計分布方面可以有效避免過擬合或數(shù)據(jù)泄漏問題。圖4. 平均Mendeleev Number,晶格常數(shù)(c軸),平均電負性,和ΔHd的頻率分布直方圖,藍色和橙色表示訓練和測試數(shù)據(jù)為了減少小樣本對模型精度的影響,作者在深度神經(jīng)網(wǎng)絡(deep neural network,DNN)中采用了Batch歸一化和Dropout層等一系列方法。此外,為了獲得高精度和高效率的最佳模型,作者創(chuàng)建了一系列具有不同隱藏層結(jié)構(gòu)的DNNs,并在1000個epoch中選擇具有不同特征數(shù)閾值(N = 5、10、15和20)的子集對這些網(wǎng)絡進行訓練。在15個特征子集上訓練的兩種隱藏層結(jié)構(gòu)(200、100和40)的DNN具有最小的平均絕對誤差(MAE,0.041 eV/atom)和RMSE (0.049 eV/atom),被選為預測數(shù)據(jù)集I中預測ΔHd的最佳模型。圖5a顯示了隱藏層為200、100和40的模型在驗證數(shù)據(jù)集上的回歸性能。大多數(shù)數(shù)據(jù)點分布良好,這意味著該模型具有良好的回歸性能。為了評估模型的熱力學穩(wěn)定性分類性能,作者使用圖5b中訓練集和驗證集的數(shù)據(jù)點繪制了一個混淆矩陣。在混淆矩陣中,虛線表示ΔHd(70 meV/atom)的閾值,它將數(shù)據(jù)點分為四部分(TP,TN,F(xiàn)P,F(xiàn)N)。紫色點(TP和TN)代表正確識別為熱力學亞穩(wěn)或不穩(wěn)定相的M2AB2對應的數(shù)據(jù),而橙色點(FP和FN)代表錯誤分類的M2AB2??傮w分類準確率達到90%,表明該模型具有出色的分類性能。1000個epoch的訓練集和驗證集的均方誤差(MSEs)如圖5c所示。訓練集和驗證集的MSE損失函數(shù)分別收斂于0.0042和0.0024,表明模型得到了充分的擬合。此外,數(shù)據(jù)集I、II和III在未知測試集上的表現(xiàn)也進一步驗證了模型的可靠性。圖5.(a) DFT計算的ΔHd和預測的ΔHd比較;(b)將ΔHd預測應用于穩(wěn)定性預測得到的混淆矩陣;(c)1000個epoch中訓練集和驗證集的MSE loss評估ML模型的可解釋性具有重要意義。一個可解釋的模型可以挑選出優(yōu)勢特征,并擬合出目標與特征之間的關系。圖6顯示了ΔHd上一些重要特性的協(xié)同效應。在圖6a中,對于數(shù)據(jù)集I中的混合晶體類型模型,c軸的晶格常數(shù)可以看作是六方晶系(藍色,<10 ?)和正交晶系(紅色,>10 ?)的顯著特征。大多數(shù)藍色點低于紅色點,這表明六方晶系的M2AB2一般比正交晶系的M2AB2更穩(wěn)定。在圖6b中,最大Mendeleev Number(A原子的基團數(shù))與ΔHd沒有明顯的關系。然而,對于某一種A原子,所有穩(wěn)定或亞穩(wěn)態(tài)M2AB2(ΔHd < 70 meV/atom)都具有5種類型的未填電子軌道(NUnfill = 5),不穩(wěn)定M2AB2呈現(xiàn)NUnfill≤5。也就是說,NUnfill = 5是M2AB2熱力學穩(wěn)定的必要條件。圖6c顯示了數(shù)據(jù)集II的兩個重要特征。當最大Mendeleev Number或A元素類型不變時,特征平均電負性直接由M元素的電負性決定。在圖6d中,對于數(shù)據(jù)集III,與數(shù)據(jù)集I和數(shù)據(jù)集II相比,Mendeleev Number最大的ΔHd的總體增長趨勢更為明顯。圖6. 可視化預測ΔHd和重要特征,互補的特征在一定程度上縮小了ΔHd的目標范圍,并表現(xiàn)出ΔHd的變化趨勢采用ML和DFT相結(jié)合的方法,系統(tǒng)地研究了六方晶系和正交晶系M2AB2在化學空間中的熱力學穩(wěn)定性??紤]到不同晶體結(jié)構(gòu)對稱性的數(shù)據(jù)集I、II和III訓練的三個DNNs,并且每組的訓練和測試數(shù)據(jù)集是隨機分開的,六方晶系和正交晶系M2AB2的DFT計算或ML預測結(jié)果ΔHd以熱圖的形式同時展示。數(shù)據(jù)集I、數(shù)據(jù)集II和III的ΔHd熱圖如圖7所示。一般來說,每個熱圖中網(wǎng)格從左到右的顏色變化(從藍色到紅色)表明,前面的過渡金屬可以穩(wěn)定六方晶系和正交晶系的M2AB2結(jié)構(gòu)。這種趨勢與作者的ML模型發(fā)現(xiàn)的組分特征平均Mendeleev Number是一致的。含有過渡金屬Tl和Pb的晶體在六方晶系和正交晶系中都相當不穩(wěn)定。含Al正交晶系的結(jié)構(gòu)ΔHd值較低(圖7b,d),說明正交晶系有利于M2AlB2的穩(wěn)定性。此外,數(shù)據(jù)集I和II中的六方晶系Zr2PbB2(圖7a,c)和數(shù)據(jù)集I和III中的正交晶系Mo2AlB2(圖7b,d)的穩(wěn)定性與之前的DFT計算相對應。此外,還發(fā)現(xiàn)了3個負ΔHd的新M2AB2具有較高的合成可能性。在數(shù)據(jù)集I和II中,它們是六方晶系的Nb2PB2,Nb2AsB2和Zr2SB2(圖7a,c),這為將MABs擴展到VA和VIA族提供了機會。圖7. 數(shù)據(jù)集I中六方晶系(a)和正交晶系(b)以及數(shù)據(jù)集II中六方晶系(c)和數(shù)據(jù)集III中正交晶系(d)的M2AB2 ΔHd熱圖此外,為了評價熱力學穩(wěn)定性相對較低的體系的熱穩(wěn)定性,作者選擇了ΔHd值在65~75 meV/atom之間的三種亞穩(wěn)相,包括六方晶系的V2AsB2和Ta2AsB2以及正交晶系的Hf2CdB2。然后,作者通過10 ps的AIMD模擬測試了它們在300 K下的熱穩(wěn)定性。通過力學穩(wěn)定性和動力學穩(wěn)定性評估,保證了MAB相的理論存在性。作者計算了M2AB2的力學性能和聲子譜。用DFTP法計算了M2AB2的剛度常數(shù)和聲子譜。最后得到38個六方晶系和19個正交晶系理論穩(wěn)定的M2AB2。M2AB2的理論體積模量(K)、剪切模量(G)和楊氏模量(E)分別為76~280 GPa、39~193 GPa和100~454 GPa和68~272 GPa、47~175 GPa和115~404 GPa。其中,六方晶系的V2PB2(454 GPa)和Nb2PB2(414 GPa)表現(xiàn)出較高的強度,模量值也相對較高,甚至遠遠大于先前報道的MABs和MAXs。總結(jié)展望作者訓練了三種不同的ML模型,將DFT和ML相結(jié)合來預測ΔHd和相應的M2AB2的熱力學穩(wěn)定性。與計算的DFT相比,模型的預測精度高(>95%)且具有較低的MSE(~0.003),因此可以作為預測ΔHd的可靠工具。模型揭示了ΔHd和穩(wěn)定性之間的定量關系,發(fā)現(xiàn)了3個穩(wěn)定的六方晶系M2AB2,和75個亞穩(wěn)態(tài)M2AB2。這項工作為小樣本ML建模提供了一種方法,以加速化合物的發(fā)現(xiàn),并將MAB系列化合物擴展到VA和VIA族。文獻信息Yuqi Sun, Guanjie Wang, Kaiqi Li, Liyu Peng, Jian Zhou, Zhimei Sun. Accelerating the Discovery of Transition Metal Borides by Machine Learning on Small Data Sets. ACS Applied Materials & Surfaces 15, 24, 29278-29286 (2023)https://doi.org/10.1021/acsami.3c03657 點擊閱讀原文,報名計算培訓!
原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2023/10/25/232dc4a63f/