氣體分離對于工業(yè)生產(chǎn)和環(huán)境保護至關(guān)重要,金屬有機框架(MOF)由于其獨特的性能而成為氣體分離領(lǐng)域一種有前途的材料。
傳統(tǒng)的模擬方法,如分子動力學(xué),復(fù)雜且計算量要求高。雖然基于特征工程的機器學(xué)習(xí)方法表現(xiàn)更好,但由于標記數(shù)據(jù)有限,很容易出現(xiàn)過度擬合。此外,這些方法通常是針對單一任務(wù)而設(shè)計的。
為了應(yīng)對這些挑戰(zhàn),由清華大學(xué)、加州大學(xué)、中山大學(xué)、蘇州大學(xué)、深勢科技和北京科學(xué)智能研究院(AI for Science Institute,Beijing,AISI) 組成的多機構(gòu)團隊,合作提出了 Uni-MOF,一種用于大規(guī)模三維 MOF 表示學(xué)習(xí)的創(chuàng)新框架,專為多用途氣體預(yù)測而設(shè)計。Uni-MOF 既適合科學(xué)研究又適合實際應(yīng)用。
具體來說,Uni-MOF 可用作 MOF 材料的多功能氣體吸附估算器。對于模擬數(shù)據(jù),Uni-MOF 在所有數(shù)據(jù)集上都表現(xiàn)出非常高的預(yù)測精度。Uni-MOF 是機器學(xué)習(xí)在氣體吸附領(lǐng)域的開創(chuàng)性實踐。
該研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」為題,于 2024 年 3 月 1 日發(fā)布在《Nature Communications》上。
論文鏈接:https://www.nature.com/articles/s41467-024-46276-x
需要一個統(tǒng)一的吸附框架
金屬有機框架(MOF)因其可調(diào)節(jié)的結(jié)構(gòu)特性和化學(xué)成分被廣泛應(yīng)用于氣體分離等領(lǐng)域。
雖然 MOF 在氣體吸附方面的潛力很大,但準確預(yù)測其吸附容量仍然是一個挑戰(zhàn)。
分子動力學(xué)、蒙特卡羅(MC)等計算方法,計算成本高且實施復(fù)雜,限制了它們在大規(guī)模、多氣體和高通量計算。此外,氣體吸附的操作條件范圍廣,使預(yù)測變得更加復(fù)雜。
圖神經(jīng)網(wǎng)絡(luò)和 Transformers 已被證明可以成功預(yù)測 MOF 屬性。
盡管現(xiàn)有的預(yù)測吸附特性的模型具有高性能和強大的預(yù)測能力,但它們通常是為單一任務(wù)而設(shè)計的,特別是預(yù)測特定條件下特定氣體的吸附吸收率。然而,這些單一任務(wù)預(yù)測的可用數(shù)據(jù)集通常是有限的,從而阻礙了模型的通用性。
另一方面,來自不同溫度和壓力環(huán)境下的各種吸附氣體的標記數(shù)據(jù)的組合可以創(chuàng)建適合整個工作條件下訓(xùn)練的大量數(shù)據(jù)集。增加的數(shù)據(jù)量還可以增強模型的泛化能力,并改善其實際工業(yè)用途。因此,需要一個統(tǒng)一的吸附框架來推進這些模型。
此外,針對大規(guī)模未標記 MOF 結(jié)構(gòu)集成表示學(xué)習(xí),或預(yù)訓(xùn)練,可以進一步提高模型性能和表示能力。
Uni-MOF 框架:既適合科學(xué)研究又適合實際應(yīng)用
受此啟發(fā),研究團隊提出 Uni-MOF 框架作為一種多用途解決方案,使用結(jié)構(gòu)表示學(xué)習(xí)來預(yù)測不同條件下 MOF 的氣體吸附。
與其他基于 Transformer 的模型(例如 MOFormer 和 MOFTransformer)相比,Uni-MOF 作為基于 Transformer 的框架,不僅可以在預(yù)訓(xùn)練中識別和恢復(fù)納米多孔材料的三維結(jié)構(gòu),從而大大提高了納米多孔材料的穩(wěn)健性。而且微調(diào)任務(wù)還進一步考慮了溫度、壓力和不同氣體分子等操作條件,這使得 Uni-MOF 既適合科學(xué)研究又適合實際應(yīng)用。
Uni-MOF 作為 MOF 材料的綜合氣體吸附估計器,僅需要 MOF 的晶體信息文件 (CIF) 以及相關(guān)氣體、溫度和壓力參數(shù),就可以在廣泛的操作條件下預(yù)測納米多孔材料的氣體吸附特性。Uni-MOF 框架易于使用并允許模塊選擇。
此外,通過將各種跨系統(tǒng)吸收標記數(shù)據(jù)與大量未標記結(jié)構(gòu)數(shù)據(jù)的表示學(xué)習(xí)相結(jié)合,有效解決了過度擬合的問題。這彌補了高質(zhì)量數(shù)據(jù)和數(shù)據(jù)不足的不足,最終提高了氣體吸附預(yù)測的準確性。
Uni-MOF 框架實現(xiàn)了原子級別的材料識別精度,而集成模型使 Uni-MOF 更適用于工程問題。毫無疑問,實現(xiàn)真正統(tǒng)一的模型是材料領(lǐng)域未來的方向,而不僅僅是專注于專業(yè)領(lǐng)域。Uni-MOF 是機器學(xué)習(xí)在氣體吸附領(lǐng)域的開創(chuàng)性實踐。
Uni-MOF 框架概述
Uni-MOF 框架包括三維納米多孔晶體的預(yù)訓(xùn)練和下游應(yīng)用中多任務(wù)預(yù)測的微調(diào)。
三維晶體材料的預(yù)訓(xùn)練顯著增強了下游任務(wù)的預(yù)測性能,特別是對于大規(guī)模未標記數(shù)據(jù)。
為了解決訓(xùn)練數(shù)據(jù)集監(jiān)督不充分的問題,研究人員收集了大量的 MOF 結(jié)構(gòu)數(shù)據(jù)集,并使用 ToBaCCo.3.0 生成了超過 300,000 個 MOF。基于材料基因組策略和準反應(yīng)組裝算法 (QReaxAA) 的 COF 的高通量構(gòu)建是可行的,從而建立一個全面的 COF 庫。通過材料的空間構(gòu)型,Uni-MOF 能夠很好地學(xué)習(xí)材料的結(jié)構(gòu)特性,最重要的是化學(xué)鍵信息。
為了使 Uni-MOF 能夠?qū)W習(xí)更多樣化的材料,從而提高對更廣泛材料的泛化能力,在預(yù)訓(xùn)練過程中通過虛擬和實驗方式引入了 MOF 和 COF。與 BERT 和 Uni-Mol 中的掩蔽標記任務(wù)類似,Uni-MOF 采用掩蔽原子的預(yù)測任務(wù),從而促進預(yù)訓(xùn)練模型深入了解材料空間結(jié)構(gòu)。
為了增強預(yù)訓(xùn)練的穩(wěn)健性并推廣學(xué)習(xí)到的表示,研究人員向 MOF 的原始坐標引入了噪聲。在預(yù)訓(xùn)練階段,設(shè)計了兩個任務(wù)。(1)從噪聲數(shù)據(jù)中重建原始三維位置,(2)預(yù)測屏蔽原子。這些任務(wù)可以增強模型的穩(wěn)健性并提高下游預(yù)測性能。
除了多樣化的空間構(gòu)型之外,一套全面的材料屬性數(shù)據(jù)點對于模型訓(xùn)練也至關(guān)重要。為了豐富數(shù)據(jù)集,研究人員建立了自定義數(shù)據(jù)生成流程(如圖 1b 所示)。
Uni-MOF 的微調(diào)基于通過預(yù)訓(xùn)練獲取的表示的提取,以及使用自制工作流程生成和收集大量數(shù)據(jù)集。在微調(diào)過程中,使用 MOF 和 COF 各種吸附條件下的約 3,000,000 個標記數(shù)據(jù)點來訓(xùn)練模型,從而能夠準確預(yù)測吸附容量。
憑借跨系統(tǒng)目標數(shù)據(jù)的多樣化數(shù)據(jù)庫,經(jīng)過微調(diào)的 Uni-MOF 可以預(yù)測 MOF 在任意狀態(tài)下的多系統(tǒng)吸附特性。因此,Uni-MOF 是一個統(tǒng)一且易于使用的框架,用于預(yù)測 MOF 吸附劑的吸附性能。
最重要的是,Uni-MOF 無需額外的人工來識別人類定義的結(jié)構(gòu)特征。相反,MOF 的 CIF 以及相關(guān)氣體、溫度和壓力參數(shù)就足夠了。自監(jiān)督學(xué)習(xí)策略和豐富的數(shù)據(jù)庫確保 Uni-MOF 能夠預(yù)測納米多孔材料在各種操作參數(shù)下的氣體吸附特性,從而使其成為一種熟練的 MOF 材料氣體吸附估計器。
預(yù)測精度高達 0.98,可跨系統(tǒng)預(yù)測
該研究對包含超過 631,000 個 MOF 和 COF 的數(shù)據(jù)庫進行了自監(jiān)督學(xué)習(xí),預(yù)測精度高達 0.98。這表明基于三維預(yù)訓(xùn)練的表示學(xué)習(xí)框架有效地學(xué)習(xí)了 MOF 的復(fù)雜結(jié)構(gòu)信息,同時避免了過擬合。
應(yīng)用 Uni-MOF 對三大數(shù)據(jù)庫(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的氣體吸附性能進行了預(yù)測,在數(shù)據(jù)充足的數(shù)據(jù)庫中取得了高達 0.98 的預(yù)測精度。
在數(shù)據(jù)集充分采樣的情況下,Uni-MOF 不僅保持了 0.83 以上的預(yù)測精度,而且僅通過預(yù)測低壓下的吸附,就能準確選擇高壓下的高性能吸附劑,與實驗篩選結(jié)果一致。因此,Uni-MOF 代表了材料科學(xué)領(lǐng)域在機器學(xué)習(xí)技術(shù)應(yīng)用方面的重大突破。
此外,與單系統(tǒng)任務(wù)相比,Uni-MOF 框架在跨系統(tǒng)數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能,可以準確預(yù)測未知氣體的吸附特性,預(yù)測精度高達 0.85,展示了其強大的預(yù)測能力和通用性。
研究表明,預(yù)訓(xùn)練的自監(jiān)督學(xué)習(xí)策略可以有效提高 Uni-MOF 的穩(wěn)健性和下游預(yù)測性能。
通過對三維結(jié)構(gòu)進行廣泛的預(yù)訓(xùn)練,Uni-MOF 有效地學(xué)習(xí)了 MOF 的結(jié)構(gòu)特征,實現(xiàn)了 hMOF 的 0.99 的高決定系數(shù)。
此外,t-SNE(t 分布隨機鄰域嵌入)分析證實,微調(diào)階段可以進一步學(xué)習(xí)結(jié)構(gòu)特征,并且可以很好地識別具有不同吸附物行為的結(jié)構(gòu),這表明學(xué)習(xí)的表示與氣體吸附目標之間存在很強的相關(guān)性。
總之,Uni-MOF 框架作為 MOF 材料的多功能預(yù)測平臺,充當 MOF 的氣體吸附估計器,在預(yù)測不同操作條件下的氣體吸附方面具有很高的精度,在材料科學(xué)領(lǐng)域具有廣泛的應(yīng)用前景。
原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/03/07/f931a215d0/