国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!

Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
研究背景
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)(ML)在催化領(lǐng)域早有應(yīng)用,但當(dāng)時預(yù)測算法僅被用于建立各種催化反應(yīng)的定量構(gòu)效關(guān)系(QSPR)。直到最近50年,催化界才更廣泛地采用數(shù)據(jù)驅(qū)動方法(圖1a)用于研究。而在最近十年間,催化研究廣泛利用數(shù)據(jù)科學(xué)概念(數(shù)據(jù)科學(xué)通過一系列分析技術(shù)(如統(tǒng)計推斷、可視化等)為理解數(shù)據(jù)提供了基礎(chǔ)和背景)來助力催化研究進(jìn)程。
近期,蘇黎世聯(lián)邦理工學(xué)院Javier Pérez-Ramírez等人全面回顧催化研究者如何利用數(shù)據(jù)驅(qū)動策略來解決異相、均相和酶催化的復(fù)雜挑戰(zhàn),強(qiáng)調(diào)了該領(lǐng)域的前沿以及催化子學(xué)科之間的知識遷移,揭示了催化實驗在數(shù)據(jù)探索方面的差距,指出數(shù)據(jù)科學(xué)的四大支柱(描述性、預(yù)測性、因果性和規(guī)范性分析)能彌補(bǔ)這一差距。最后,作者提倡在實驗中采用數(shù)據(jù)科學(xué)方法和數(shù)據(jù)標(biāo)準(zhǔn)化來促進(jìn)數(shù)字催化的研究。
研究亮點
1、作者對2013-2023年期間的同質(zhì)、異質(zhì)和酶催化進(jìn)行了系統(tǒng)的文獻(xiàn)檢索,并以數(shù)據(jù)驅(qū)動策略解決催化相關(guān)問題的不同類型,最后,作者將所有研究分為演繹型或歸納型。
2、作者提倡催化研究人員對數(shù)據(jù)驅(qū)動概念和策略要有基本了解,但數(shù)據(jù)驅(qū)動不會取代人類的直覺或?qū)I(yè)知識。在可預(yù)見的未來,數(shù)據(jù)科學(xué)將集成到催化研究中,加速實驗設(shè)計、數(shù)據(jù)分析和新知識的創(chuàng)造。
圖文導(dǎo)讀
通過總結(jié)眾多的文獻(xiàn)報道,作者確定了催化研究中數(shù)據(jù)驅(qū)動方法的兩個主要目標(biāo)。一種是通過繪制結(jié)構(gòu)-性質(zhì)-性能關(guān)系圖來驗證假設(shè),實現(xiàn)演繹研究。第二種方法需要確定描述符,以便通過可解釋的ML模型闡明性能。這些研究的重點是通過揭示性能與性質(zhì)或性質(zhì)與結(jié)構(gòu)之間的關(guān)系來建立新的理論,稱之為歸納研究(圖1b)。這些系統(tǒng)性的文獻(xiàn)分析以及將催化反應(yīng)歸類為演繹(或歸納方法)的通用模式,為研究提供了一個全新的平臺,讓人們能夠深入了解數(shù)據(jù)驅(qū)動催化研究的全貌(圖1c)。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖1 數(shù)據(jù)驅(qū)動催化研究的發(fā)展趨勢以及兩種研究方法
鑒于演繹研究的重要性,作者通過研究數(shù)據(jù)來源(實驗、模擬、文獻(xiàn)或數(shù)據(jù)庫)和任務(wù)目標(biāo)(預(yù)測、篩選或優(yōu)化;圖2a)等細(xì)節(jié)分析了它們的范圍。在異相催化方面,ML主要用于指導(dǎo)密度泛函理論(DFT)計算(約占65%,主要預(yù)測吸附能和電催化反應(yīng))。在均相催化方面,ML大部分是實驗研究(>60%)。這些研究的目標(biāo)是篩選最佳底物-溶劑組合等,使用的方法是將催化描述符和工藝參數(shù)映射到反應(yīng)產(chǎn)率和選擇性上。
值得注意的是,酶催化展現(xiàn)了理論與實驗工作的統(tǒng)一,例如,從現(xiàn)有數(shù)據(jù)庫中檢索不同酶的氨基酸序列,然后通過實驗室工程實現(xiàn)所需的特性,但大多數(shù)研究的主要重點在于預(yù)測酶的結(jié)構(gòu)或特性,很少應(yīng)用于化學(xué)反應(yīng)。盡管如此,這些研究對于推動催化轉(zhuǎn)化用酶的ML輔助定向設(shè)計是不可或缺的。接著,作者對異相催化進(jìn)行了類似的分析,根據(jù)驅(qū)動力(圖2b)對數(shù)據(jù)進(jìn)行了分類,觀察到熱力學(xué)性質(zhì)多于電催化,光催化應(yīng)用較少。值得注意的是,DFT模擬的數(shù)據(jù)和文獻(xiàn)提取的數(shù)據(jù)占絕大多數(shù),其目標(biāo)僅限于理論研究。這表明在異相催化實驗中對ML和數(shù)據(jù)科學(xué)的探索還不夠。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖2 ML的應(yīng)用前景的統(tǒng)計分析
考慮到催化是化學(xué)的分支學(xué)科,起源于經(jīng)驗科學(xué),數(shù)據(jù)收集和分析是理解催化現(xiàn)象并最終促成發(fā)現(xiàn)的基礎(chǔ)。因此人們致力于開發(fā)數(shù)據(jù)庫,如Open Catalysts Dataset、CatHub、ioChem-BD、Open Reaction Database、Kraken、RetroBioCat等,這些數(shù)據(jù)庫收錄了有關(guān)催化劑結(jié)構(gòu)、性質(zhì)和性能的信息(圖3),推動了數(shù)據(jù)驅(qū)動催化研究的加速發(fā)展。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖3 代表性的催化數(shù)據(jù)庫
基于數(shù)據(jù)庫,作者強(qiáng)調(diào)了“ML算法的選擇取決于具體任務(wù)和數(shù)據(jù)可用性”。例如基于樹的算法是各學(xué)科中最常見選擇(占34%),遠(yuǎn)超了人工神經(jīng)網(wǎng)絡(luò)21%的占比(圖4)。出現(xiàn)這種趨勢的原因是,催化數(shù)據(jù)通常以數(shù)值和表格形式表示,而且往往屬于小數(shù)據(jù)體系,基于樹的模型,如隨機(jī)森林等,在處理此類數(shù)據(jù)集時與神經(jīng)網(wǎng)絡(luò)相比,其更有競爭力或具有更優(yōu)越的性能。
在圖4(a)-(c)中,均相催化領(lǐng)域,線性回歸固有的表達(dá)式為模型提供了更多可解釋性。在酶催化方面,高斯回歸等算法更適合處理大數(shù)據(jù),通常用于探索氨基酸序列。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖4 ML建立結(jié)構(gòu)-性質(zhì)-性能關(guān)系
隨著人工智能和ML的不斷進(jìn)步,將數(shù)據(jù)驅(qū)動方法融入催化研究的前景一片光明。
(1)基于GPT-3.5等語言模型有望在加速化學(xué)和催化研究方面發(fā)揮關(guān)鍵作用。它們先進(jìn)的自然語言處理(NLP)和文本挖掘能力有助于從科學(xué)文獻(xiàn)中高效導(dǎo)航和提取相關(guān)信息(圖5a)。這些模型通過自動提取結(jié)構(gòu)的合成手段或材料特性數(shù)據(jù),加快了文獻(xiàn)綜述的速度,達(dá)到了節(jié)省時間和創(chuàng)建化學(xué)知識庫的雙重目的。
(2)主動學(xué)習(xí)在指導(dǎo)實驗、幫助發(fā)現(xiàn)和開發(fā)高效催化劑方面大有可為。這種方法通過巧妙地平衡探索與開發(fā)的概念,縮小潛在反應(yīng)途徑和優(yōu)化條件的范圍,從而簡化了化學(xué)和參數(shù)空間搜索(圖5b)。
(3)生成模型(如變分自編碼器(VAE)、生成對抗網(wǎng)絡(luò)(GAN)等)可以加快對未知區(qū)域的探索,并創(chuàng)造出具有所需特性的假想分子或材料(圖5c)。雖然它們在化學(xué)中的應(yīng)用還處于起步階段,但VAE和GAN在預(yù)測和合成具有目標(biāo)功能的酶序列方面的成功應(yīng)用。除了從性質(zhì)到結(jié)構(gòu)的應(yīng)用外,它們還可通過從大型反應(yīng)數(shù)據(jù)集中學(xué)習(xí)來預(yù)測反應(yīng)結(jié)果,從而提出以前未探索過的反應(yīng)條件或反應(yīng)途徑。
(4)深度強(qiáng)化學(xué)習(xí)(DRL)可促進(jìn)自主學(xué)習(xí)和決策,減少了對ab initio計算的需求,并加快了最優(yōu)反應(yīng)途徑或催化劑結(jié)構(gòu)(表面)的發(fā)現(xiàn)(圖5d)。此外,DRL可以處理多目標(biāo)問題(同時優(yōu)化產(chǎn)率和選擇性)。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖5 數(shù)據(jù)驅(qū)動加速催化研究的概覽
雖然前景一片光明,但數(shù)據(jù)驅(qū)動催化的應(yīng)用還處于起步階段,作者認(rèn)為人工智能的發(fā)展將促使這一新興領(lǐng)域取得更大進(jìn)展。然而,這需要在實驗催化中更多地采用數(shù)據(jù)科學(xué)方法,但目前的趨勢并不明顯,造成這種差異的因素主要包括:兩個領(lǐng)域之間的知識差距,ML只能在大數(shù)據(jù)(大于1000個數(shù)據(jù)點)中發(fā)揮良好作用的觀念,以及對數(shù)據(jù)驅(qū)動模型的黑箱性質(zhì)缺乏信任。為了解決這些問題,作者詳細(xì)闡述了描述性分析、預(yù)測性分析、因果分析和描述性分析的概念(圖6),希望數(shù)據(jù)驅(qū)動工具和策略在實驗催化領(lǐng)域得到更廣泛的普及和接受。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖6 數(shù)據(jù)驅(qū)動催化研究所面臨的挑戰(zhàn)
數(shù)據(jù)科學(xué)的基本思想是,數(shù)據(jù)可以為手頭的工作提供見解,而無需過度依賴預(yù)測模型。對數(shù)據(jù)進(jìn)行統(tǒng)計分析以識別模式和關(guān)系,不受理論偏見的影響,被稱為描述性分析。對于大型數(shù)據(jù)集而言,采用可視化技術(shù)對于增強(qiáng)描述性推斷至關(guān)重要。例如,網(wǎng)絡(luò)圖,用于定量分析所使用的不同類型的活性相、促進(jìn)劑和支持物,以及它們之間的相互作用頻率;連續(xù)變量(如反應(yīng)條件)的直方圖或小提琴圖,用于了解數(shù)據(jù)分布;以及選擇性與轉(zhuǎn)化率映射的二維定位圖,用于產(chǎn)生第三維度(圖7a-c)。至于催化劑篩選,目前多是遵循試錯法,從數(shù)據(jù)科學(xué)的角度來看,催化劑篩選類似于模式匹配,因此非常適合開發(fā)以化學(xué)為依據(jù)的預(yù)測分析。根據(jù)初步篩選獲得的現(xiàn)有數(shù)據(jù),預(yù)測分析法可將性能與描述符和反應(yīng)條件相關(guān)聯(lián),提供內(nèi)推的可能性,在某些情況下還可外推模型,以確定未經(jīng)測試的催化劑的性能(圖7d),實現(xiàn)節(jié)省時間和資源,并確保了更大覆蓋面。
雖然經(jīng)典的ML算法具有更強(qiáng)的預(yù)測能力,但它們通常是具有黑箱性質(zhì),對相關(guān)催化系統(tǒng)的合理化作用微乎其微。而因果分析是通過不斷迭代的可解釋ML方法,其能夠很好地解釋催化系統(tǒng)。該方法與模型無關(guān),只根據(jù)輸入變量對目標(biāo)變量的貢獻(xiàn)(圖7e)按其重要性排序。此外,還可以結(jié)合實驗驗證的數(shù)據(jù)用于模型的再訓(xùn)練,以改進(jìn)目標(biāo)變量預(yù)測,并提出更可靠的實驗改進(jìn)方案(圖7f)。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖7 數(shù)據(jù)科學(xué)與實驗的結(jié)合特點
對于未來,將深度學(xué)習(xí)算法與先進(jìn)表征技術(shù)相結(jié)合,將使實驗人員能夠以更快的速度揭示催化材料的復(fù)雜性,并具有預(yù)測能力。與人工圖像分析相比,此類算法能減少人為偏差,并提升效率約2000倍(圖8a)。而XAFS和XANES產(chǎn)生的復(fù)雜數(shù)據(jù)集對傳統(tǒng)分析方法提出了挑戰(zhàn),在此類海量數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)算法可以破譯活性物種局部環(huán)境的定量結(jié)構(gòu)信息,包括它們與吸附物的相互作用,并揭示復(fù)雜的反應(yīng)動力學(xué)(圖8b)。
Nature Catalysis:機(jī)器學(xué)習(xí)大綜述!數(shù)據(jù)科學(xué)加速催化研究進(jìn)程!
圖8 實驗與數(shù)據(jù)科學(xué)結(jié)合的展望
文獻(xiàn)信息
Suvarna, M., & Pérez-Ramírez, J. (2024). Embracing data science in catalysis research. Nature Catalysis, 1-12.

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/05/17/5eae3beedf/

(0)

相關(guān)推薦

扶绥县| 两当县| 康乐县| 桓仁| 正阳县| 呼伦贝尔市| 佛山市| 岳阳县| 淮南市| 和田县| 衡南县| 凤山县| 宿迁市| 柳江县| 文化| 石城县| 武安市| 集安市| 林州市| 西林县| 新乐市| 彩票| 陈巴尔虎旗| 公安县| 乐业县| 东安县| 翁源县| 南城县| 邵武市| 辽阳县| 沿河| 修文县| 昭苏县| 清水县| 洛宁县| 陵水| 仙游县| 垫江县| 沐川县| 巴林右旗| 明水县|