共同一作:Yi Luo, Saientan Bag
通訊作者:Pascal Friederich, Manuel Tsotsalas
金屬-有機(jī)框架(MOF)化學(xué)通過創(chuàng)造一個巨大的化學(xué)空間而蓬勃發(fā)展,其中已發(fā)現(xiàn)了超過100000個MOF。隨著結(jié)構(gòu)類型、結(jié)構(gòu)單元、接頭和官能團(tuán)種類的不斷擴(kuò)大,這一數(shù)字還在迅速增加。為了合成新的MOF結(jié)構(gòu),研究人員必須依靠知識經(jīng)驗和試錯法,這是一個非常具有挑戰(zhàn)性的過程,非常耗時、勞動密集且需要大量資源。因此,尋找一種找到最佳MOF合成條件的有效方法是當(dāng)前加快MOF探索的瓶頸。
基于科學(xué)文獻(xiàn)開發(fā)機(jī)器學(xué)習(xí)(ML)方法來預(yù)測所需MOF晶體結(jié)構(gòu)的合成參數(shù)是一種具有挑戰(zhàn)性但很有前途的方法,這將推進(jìn)和加速化學(xué)合成。然而,MOF的逆合成設(shè)計,即針對目標(biāo)MOF結(jié)構(gòu)(如計算機(jī)設(shè)計)的合適合成條件的自動預(yù)測仍然是一個未解決的挑戰(zhàn)。
在此,德國卡爾斯魯厄理工學(xué)院(KIT)Pascal Friederich, Manuel Tsotsalas(共同通訊)等人展示了如何通過基于其晶體結(jié)構(gòu)直接預(yù)測MOF的合成條件,將機(jī)器學(xué)習(xí)(ML)用于合理化和加速MOF發(fā)現(xiàn)過程。該方法基于:i)通過從文獻(xiàn)中自動提取合成參數(shù)來建立第一個MOF合成數(shù)據(jù)庫,ii)使用MOF數(shù)據(jù)庫訓(xùn)練和優(yōu)化ML模型,以及 iii)預(yù)測新MOF結(jié)構(gòu)的合成條件。ML模型即使在初始階段也表現(xiàn)出良好的預(yù)測性能,優(yōu)于通過綜合調(diào)查獲得的人類專家預(yù)測。自動預(yù)測工具地址見:https://mof-synthesis.aimat.science/,僅需提交MOF晶體結(jié)構(gòu)的cif文件,該工具便會自動預(yù)測該結(jié)構(gòu)的合成溫度、時間、溶劑及添加劑(酸、堿或無添加劑)。該工作以“MOF Synthesis Prediction Enabled by Automatic Data Mining and Machine Learning”為題發(fā)表于國際頂刊Angewandte Chemie International Edition(IF=15.336)。
要點1:數(shù)據(jù)庫構(gòu)建
作者開發(fā)了一個自動流程來提取有關(guān)CoRE MOF數(shù)據(jù)庫中所有公開可用的 MOF結(jié)構(gòu)的MOF合成信息,提取的六個相關(guān)參數(shù)是金屬源、接頭、溶劑、添加劑、合成時間和溫度。除了從MOF文獻(xiàn)中檢索合成信息外,還使用MOF數(shù)據(jù)庫中的晶體學(xué)信息文件(CIF)自動提取接頭的結(jié)構(gòu)信息和金屬中心的氧化態(tài)。最終,作者將出版物中提取的合成細(xì)節(jié)(即金屬來源、接頭、溫度、合成時間、溶劑和添加劑)、接頭信息和CIF中的金屬來源整合到SynMOF數(shù)據(jù)庫中。
圖1. MOF合成的試錯法與數(shù)據(jù)驅(qū)動方法的流程示意圖
除了MOF合成條件的詳細(xì)信息外,SynMOF數(shù)據(jù)庫目前由983個MOF結(jié)構(gòu)組成,提供金屬源和有機(jī)組分的統(tǒng)計數(shù)據(jù)。它包含46種不同金屬,最常見的氧化態(tài)范圍為+1~+3。大多數(shù)MOF結(jié)構(gòu)由過渡金屬組成,其中銅和鋅占近50%。在多種有機(jī)分子中,最常用的MOF合成接頭是多齒羧酸(即苯-1,3,5-三羧酸、苯-1,4-二羧酸和苯-1,2,4,5-四羧酸),然后是含氮堿(即吡啶、三唑和四唑)。
作者分析了MOF合成過程中最常用的溶劑在不同溫度和添加劑方面的情況。在80~160 °C的溫度范圍內(nèi),N,N-二甲基甲酰胺(DMF)、水及二者與其他溶劑的混合物是最常用的溶劑。在高于160 °C的溫度下,合成主要在水中進(jìn)行。此外,大多數(shù)高溫(120°C以上)MOF合成反應(yīng)是在沒有添加劑的情況下進(jìn)行的,而在低于80°C的溫度下,酸性添加劑占主導(dǎo)地位。
圖2. SynMOF數(shù)據(jù)庫的構(gòu)建
要點2:機(jī)器學(xué)習(xí)模型的訓(xùn)練
基于SynMOF數(shù)據(jù)庫中的數(shù)據(jù),作者訓(xùn)練了多個ML模型來預(yù)測訓(xùn)練期間未見的各種MOF的合成條件。作者使用兩種類型的表示作為ML模型訓(xùn)練的輸入:一種基于接頭的分子指紋,擴(kuò)展了金屬類型及其氧化態(tài)的編碼;另一種是由由 Kulik等人開發(fā)的MOF表示。隨著時間的推移,越來越多的新結(jié)構(gòu)和相應(yīng)的合成參數(shù)將可用于訓(xùn)練和改進(jìn)ML模型。因此,圖神經(jīng)網(wǎng)絡(luò)等表示學(xué)習(xí)方法可能會比依賴手工特征表示的模型更準(zhǔn)確。
圖3. 訓(xùn)練的機(jī)器學(xué)習(xí)模型及訓(xùn)練結(jié)果
訓(xùn)練結(jié)果表明,ML模型可識別目標(biāo)MOF結(jié)構(gòu)與所需合成條件(特別是溫度和時間)之間的可預(yù)測關(guān)系。鑒于目前從文獻(xiàn)中提取的數(shù)據(jù)量,隨機(jī)森林模型在所有預(yù)測參數(shù)中具有最高性能。然而,神經(jīng)網(wǎng)絡(luò)將會隨著數(shù)據(jù)集大小的增長做出更好的預(yù)測,甚至可利用不同合成參數(shù)(如溶劑和溫度)之間的相關(guān)性。因此,將來更復(fù)雜的模型將優(yōu)于隨機(jī)森林。
基于ML的溶劑預(yù)測評估表明,ML模型優(yōu)于隨機(jī)選擇,可達(dá)>90?%的準(zhǔn)確度。在添加劑預(yù)測的情況下,ML模型的任務(wù)是將所需添加劑分類為酸性、堿性和無添加劑。雖然在訓(xùn)練集上表現(xiàn)良好,但對看不見的測試數(shù)據(jù)的泛化受到數(shù)據(jù)集不平衡的影響(大多數(shù)合成信息不使用添加劑)。使用訓(xùn)練數(shù)據(jù)點的平衡校正權(quán)重,導(dǎo)致預(yù)測可以很好地區(qū)分涉及堿性和酸性添加劑的合成過程。然而,酸性/堿性和無添加劑之間的區(qū)別不太明顯。
為了評估ML性能,作者對11位人類MOF專家展開了測試。基于從 SynMOF數(shù)據(jù)庫中隨機(jī)選擇的50個MOF開發(fā)了一個在線測驗,參與者獲得了MOF的3D結(jié)構(gòu)、接頭的化學(xué)結(jié)構(gòu)和金屬離子的信息,并要求專家在沒有任何文獻(xiàn)或其他外部資源幫助的情況下估計合成條件。結(jié)果顯示,專家的溫度和時間預(yù)測與報道的合成條件之間的相關(guān)系數(shù)R2接近于零。這表明ML模型能夠?qū)W習(xí)SynMOF 數(shù)據(jù)庫中的廣義方式和相關(guān)性,超出了專家的一般直覺,因此可用于識別新MOF的實驗合成條件。
總之,研究人員通過自然語言處理(NLP)方法基于自動數(shù)據(jù)提取建立了一個 SynMOF數(shù)據(jù)庫,可為900多個MOF提供合成條件和結(jié)構(gòu)信息,并根據(jù)這些數(shù)據(jù)訓(xùn)練ML模型以識別MOF合成方式。預(yù)計創(chuàng)建的SynMOF數(shù)據(jù)庫將推動MOF社區(qū)內(nèi)的NLP研究,而ML合成預(yù)測平臺將成為數(shù)據(jù)驅(qū)動的MOF發(fā)現(xiàn)的新黃金標(biāo)準(zhǔn)。即使在初始階段,ML模型也優(yōu)于MOF專家的綜合預(yù)測,這是綜合過程背后的復(fù)雜性和開發(fā)數(shù)字預(yù)測工具迫切需求的基礎(chǔ)。這種自動化按需合成預(yù)測將大大加速新MOF的發(fā)現(xiàn),并作為MOF社區(qū)及其他領(lǐng)域的寶貴工具。
數(shù)據(jù)庫、用于ML訓(xùn)練和預(yù)測的合成參數(shù)提取代碼及專家調(diào)查可在以下網(wǎng)站獲取:
https://github.com/Tsotsalas-Group/MOF_Literature_Extraction
https://github.com/aimat-lab/MOF_Synthesis_Prediction
MOF Synthesis Prediction Enabled by Automatic Data Mining and Machine Learning, Angewandte Chemie International Edition 2022. DOI: 10.1002/anie.202200242
https://onlinelibrary.wiley.com/doi/10.1002/anie.202200242
原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2023/10/15/93fcb29523/