国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用


ScienceAI 設(shè)為星標(biāo)

第一時間掌握

新鮮的 AI for Science 資訊


復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用

編輯 | 紫羅

在過去的十年里,機器學(xué)習(xí)和人工智能取得了長足的進(jìn)步,使我們距離智能機器的實現(xiàn)更近了一步。深度學(xué)習(xí)方法和增強的數(shù)據(jù)存儲能力的在這一進(jìn)步中發(fā)揮了關(guān)鍵作用。機器學(xué)習(xí)已經(jīng)在圖像和語音識別等領(lǐng)域取得了成功,現(xiàn)在它在以復(fù)雜數(shù)據(jù)和多樣化有機分子為特征的化學(xué)領(lǐng)域受到了廣泛關(guān)注。

然而,由于化學(xué)家不熟悉現(xiàn)代機器學(xué)習(xí)算法,他們在采用機器學(xué)習(xí)應(yīng)用時經(jīng)常面臨挑戰(zhàn)?;瘜W(xué)數(shù)據(jù)集通常表現(xiàn)出對成功實驗的偏見,而平衡的視角需要包含成功和失敗的實驗。此外,文獻(xiàn)中合成條件的不完整記錄也帶來了挑戰(zhàn)。

計算化學(xué)可以通過量子力學(xué)計算構(gòu)建數(shù)據(jù)集,因此更容易接受機器學(xué)習(xí)應(yīng)用。盡管如此,化學(xué)家需要對機器學(xué)習(xí)有基本的了解,才能利用數(shù)據(jù)記錄和機器學(xué)習(xí)引導(dǎo)實驗的潛力。

近日,復(fù)旦大學(xué)、中國科學(xué)院和貝爾法斯特女王大學(xué)(Queen’s University Belfast)的研究人員在《Engineering》上發(fā)表綜述文章:《Machine Learning for Chemistry: Basics and Applications》。

該綜述介紹了機器學(xué)習(xí)的基本組成部分,包括數(shù)據(jù)庫、特征和算法,并重點介紹了機器學(xué)習(xí)技術(shù)在化學(xué)領(lǐng)域取得的一些重要成就。綜述旨在彌合化學(xué)家和現(xiàn)代機器學(xué)習(xí)算法之間的差距,深入了解機器學(xué)習(xí)在徹底改變化學(xué)研究方面的潛力。

復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用

論文鏈接:https://doi.org/10.1016/j.eng.2023.04.013

綜述分為以下幾大部分:

  • 首先介紹了流行的化學(xué)數(shù)據(jù)庫,它為實踐機器學(xué)習(xí)模型提供了基礎(chǔ)。

  • 其次,提出了一些廣泛使用的二維 (2D) 和三維 (3D) 特征,這些特征將分子結(jié)構(gòu)轉(zhuǎn)換為機器學(xué)習(xí)模型可接受的輸入。

  • 第三,簡要概述了流行的機器學(xué)習(xí)算法,重點介紹了它們的基本理論框架和適合的應(yīng)用場景。

  • 第四,更詳細(xì)地描述了機器學(xué)習(xí)領(lǐng)域取得重要進(jìn)展的三個化學(xué)領(lǐng)域,包括有機化學(xué)中的逆合成、基于機器學(xué)習(xí)勢的原子模擬和多相催化機器學(xué)習(xí)。

  • 最后,對未來的機器學(xué)習(xí)應(yīng)用進(jìn)行了展望。

ML 中常用化學(xué)數(shù)據(jù)庫

沒有數(shù)據(jù)就沒有 AI。因此,數(shù)據(jù)的可用性是現(xiàn)代機器學(xué)習(xí)應(yīng)用的先決條件,其中數(shù)據(jù)集的大小和質(zhì)量都很重要。在化學(xué)領(lǐng)域,收集和編譯數(shù)據(jù)的傳統(tǒng)由來已久,數(shù)據(jù)范圍從元素原子光譜到材料宏觀特性。化學(xué)中的數(shù)據(jù)科學(xué)創(chuàng)造了化學(xué)信息學(xué)學(xué)科,這進(jìn)一步大大有利于機器學(xué)習(xí)在化學(xué)中的應(yīng)用。

事實上,盡管從頭開始構(gòu)建大型數(shù)據(jù)集似乎令人畏懼,但許多化學(xué)數(shù)據(jù)庫早在機器學(xué)習(xí)時代之前就已經(jīng)可用。表 1 列出了化學(xué)領(lǐng)域比較流行的數(shù)據(jù)庫,其中許多數(shù)據(jù)庫都有悠久的數(shù)據(jù)收集和編譯歷史。這些數(shù)據(jù)的來源包括開放專利和研究文章、針對特定屬性的高通量實驗以及通?;诿芏确汉碚?(DFT) 的 QM 計算。

表 1:ML 中常用的流行化學(xué)數(shù)據(jù)庫列表。(來源:論文)
復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用

2D 和 3D 特征

數(shù)據(jù)和特征決定了 ML 模型的上限。從源數(shù)據(jù)預(yù)處理得到的特征(通常也稱為表示或描述符)是 ML 模型的輸入。重要特征的選擇(稱為特征工程)曾經(jīng)是 ML 模型訓(xùn)練中最耗時、最費力的工作。雖然深度學(xué)習(xí)技術(shù)可以讓機器學(xué)習(xí)模型學(xué)習(xí)如何提取特征本身,但它們通常需要相對較大的訓(xùn)練數(shù)據(jù)集和模型參數(shù)空間;因此,它們的計算成本較高,最終創(chuàng)建的機器學(xué)習(xí)模型可解釋性較差。在化學(xué)中,不同機器學(xué)習(xí)模型的輸入特征可能不同,但分子/晶體結(jié)構(gòu)表示是特征工程的一般任務(wù)。由于關(guān)于該主題的優(yōu)秀評論文章已經(jīng)發(fā)表,這里僅簡要介紹與 4 個 ML 模型、5 個應(yīng)用程序中提到的應(yīng)用程序相關(guān)的一些內(nèi)容。

分子描述符基本上有兩類——即 2D 和 3D 特征。2D 特征關(guān)注分子中的鍵合模式,而忽略空間構(gòu)象。這些特征源自分子圖(以原子為節(jié)點,以鍵為邊)或鄰接矩陣(即鍵矩陣)。例如,SMILES 使用人類可讀的字符串(例如,乙醇的CCO)描述飽和分子,IUPAC 的國際化學(xué)標(biāo)識符 (InChI) 使用嚴(yán)格唯一但不太人類可讀的字符串來表示化合物。除了字符串之外,分子的拓?fù)浣Y(jié)構(gòu)也可以抽象為浮點數(shù)的向量。使用 Morgan 算法開發(fā)的擴展連接指紋(ECFP),迭代地搜索分子中的子結(jié)構(gòu)并將它們編碼為哈希值。

3D 特征是從原子坐標(biāo)編碼的,由于缺乏排列、平移和旋轉(zhuǎn)不變性,原子坐標(biāo)很難成為 ML 模型的直接輸入。優(yōu)雅的方法旨在保持排列、平移和旋轉(zhuǎn)不變性,并敏感地區(qū)分 3D 中的不同結(jié)構(gòu)。這些方法通?;趶脑娱g距離和原子間角度導(dǎo)出的數(shù)值函數(shù),例如最小埋藏體積百分比、原子中心對稱函數(shù)(ACSF)、Steinhardt 型有序參數(shù),以及功率類型結(jié)構(gòu)描述符(PTSD)。其他方法基于原子密度類似函數(shù),包括但不限于平均空間占據(jù)(ASO)、原子位置平滑重疊(SOAP)和基于高斯型軌道的密度向量。

流行的 ML 模型

在特征將數(shù)據(jù)編碼為機器可讀的輸入后,機器學(xué)習(xí)模型將輸入轉(zhuǎn)換為輸出,即預(yù)測的屬性。機器學(xué)習(xí)模型不是從理論推導(dǎo)出物理定律,而是在與數(shù)據(jù)集生成方式相關(guān)的易于訪問的變量和相關(guān)屬性之間建立數(shù)值聯(lián)系,而這些屬性通常過于復(fù)雜而無法通過理論解決。

從廣義上講,機器學(xué)習(xí)算法(取決于數(shù)據(jù)集的學(xué)習(xí)方式)可以分為三大類:用于擬合標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)、用于對未標(biāo)記數(shù)據(jù)進(jìn)行分類的無監(jiān)督學(xué)習(xí)以及利用獎勵機制來指導(dǎo)數(shù)據(jù)學(xué)習(xí)的強化學(xué)習(xí) 。其中,監(jiān)督學(xué)習(xí)由于其對特定目標(biāo)具有更好的數(shù)值可預(yù)測性,在科學(xué)研究中應(yīng)用最廣泛。盡管 ML 有很多秘訣和類別,但在實踐中實現(xiàn) ML 并不困難,這要歸功于許多公開可用的軟件包,例如 scikit-learn、PyTorch 和 TensorFlow。

接下來,研究人員介紹了六種常用的機器學(xué)習(xí)算法:決策樹、 前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)和 Transformer 神經(jīng)網(wǎng)絡(luò)。

復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用

圖 1:六種流行的機器學(xué)習(xí)模型。(來源:論文)

ML 在化學(xué)中的的應(yīng)用

在這里,列了 ML 的一些重要應(yīng)用,以說明如何使用這些 ML 技術(shù)來解決化學(xué)問題,包括有機化學(xué)中的逆合成、計算化學(xué)中的 ML 勢能以及物理化學(xué)中的多相催化。表 2 總結(jié)了一些相關(guān)文獻(xiàn),其中列出了有關(guān) ML 任務(wù)、輸入數(shù)據(jù)、特征、ML 模型和預(yù)測目標(biāo)的信息。

表 2:機器學(xué)習(xí)在逆合成、機器學(xué)習(xí)勢能和多相催化中的應(yīng)用總結(jié)。(來源:論文)

復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用

逆合成

合成計劃,也稱為逆合成,是化學(xué)的核心,回答了如何從現(xiàn)有材料合成所需化合物的問題。在其悠久的歷史中,這項任務(wù)在很大程度上依賴于經(jīng)驗豐富的化學(xué)家的知識。

因此,早在 20 世紀(jì) 60 年代 Corey 等人提出的計算機輔助合成計劃(CASP)一直是化學(xué)領(lǐng)域的熱門話題。此后,許多成功的 CAS P程序被開發(fā)出來。

由于有機反應(yīng)豐富且此類數(shù)據(jù)庫相對容易訪問,多年來逆合成得到了積極發(fā)展,特別是在過去十年中在機器學(xué)習(xí)技術(shù)的幫助下。

反應(yīng)預(yù)測和逆合成是 CASP 中的兩個關(guān)鍵模塊。反應(yīng)預(yù)測可以分為兩類:基于模板的方法和無模板的方法。前者需要一個先驗?zāi)0鍘?,該模板庫可以由專家使用化學(xué)信息學(xué)進(jìn)行編碼,也可以通過最近流行的原子映射算法從反應(yīng)數(shù)據(jù)庫中提取。無模板方法通常側(cè)重于預(yù)測分子中的反應(yīng)中心,從而識別最適合連接(斷開)的鍵。

在基于模板的方法中,一種反應(yīng)物通常會產(chǎn)生太多可能的產(chǎn)物,從而產(chǎn)生過多的候選反應(yīng)。值得一提的是,基于模板的方法在 CASP 中已經(jīng)比較成熟,關(guān)注點主要包括預(yù)測的相關(guān)性和模板庫的范圍。ML 模型的訓(xùn)練中通常必須排除稀有模板。

復(fù)旦大學(xué)、中國科學(xué)院團隊綜述,化學(xué)機器學(xué)習(xí):基礎(chǔ)知識和應(yīng)用

圖 2:(a) 基于模板的反應(yīng)預(yù)測的神經(jīng)符號方法概述;(b) 用于無模板反應(yīng)預(yù)測的 Seq2seq 模型架構(gòu);(c) 指導(dǎo)逆合成的 SCScore 模型方案;(d) MCTS 算法說明。(來源:論文)

近年來出現(xiàn)的無模板方法由于質(zhì)量和完整性而有可能打破基于模板的方法的局限性。

逆合成更為復(fù)雜,因為它的目的是提供一條全局最優(yōu)的合成途徑,這并不像連接最佳的一步反應(yīng)或選擇最短路線那么簡單。

盡管目前已經(jīng)有很多成功的研究,但天然產(chǎn)物的合成仍然是一個挑戰(zhàn)。除了復(fù)雜分子訓(xùn)練數(shù)據(jù)的稀疏性之外,大多數(shù)模型中通常缺少對映體的定量產(chǎn)率,但這對于正確評估合成路線非常重要。

機器學(xué)習(xí)勢能

機器學(xué)習(xí)在化學(xué)中的另一個重要應(yīng)用與復(fù)雜系統(tǒng)的原子模擬有關(guān),其中機器學(xué)習(xí)勢取代了計算要求較高的 QM 計算來評估 PES。由于 ML 勢是在 QM 計算的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,因此 ML 勢計算可以達(dá)到與 QM 相當(dāng)?shù)木?,但速度要快幾個數(shù)量級。因此,ML 勢方法顯著地將原子模擬的領(lǐng)域擴展到具有數(shù)千個原子的多元素系統(tǒng),這可能只能通過傳統(tǒng)的經(jīng)驗力場來模擬,盡管力場的可用性高度限制于具有相對簡單的 PES 的系統(tǒng)。

自 1995 年第一個 ML 勢出現(xiàn)以來,人們提出了許多不同類型的 ML 模型,以及兩類 ML 架構(gòu)(表 2),即 NN 勢 和基于 kernel 的勢是最受歡迎的。盡管基于 kernel 的勢,其超參數(shù)比神經(jīng)網(wǎng)絡(luò)勢要少得多, 它們的計算速度受到訓(xùn)練樣本大小的限制。因此,使用基于 kernel 的勢來超越大型訓(xùn)練集本質(zhì)上是困難的,它們更適合單元素系統(tǒng),例如碳和硅。因此,NN 勢正在成為 ML 勢計算的主流。

圖 3:(a) G-NN 勢的 SSW-NN 自學(xué)習(xí)過程方案。(b) LASP 中實施的雙網(wǎng)絡(luò)框架方案。(來源:論文)

用于多相催化的機器學(xué)習(xí)

由于催化劑結(jié)構(gòu)的復(fù)雜性和催化劑在工業(yè)中的重要意義,多相催化一直是新技術(shù)的主要試驗場。早期的機器學(xué)習(xí)應(yīng)用可以追溯到 20 世紀(jì) 90 年代,通常處于現(xiàn)象學(xué)層面,使用簡單的機器學(xué)習(xí)模型學(xué)習(xí)實驗數(shù)據(jù)來優(yōu)化催化劑合成和反應(yīng)條件。這些機器學(xué)習(xí)應(yīng)用似乎受到實驗數(shù)據(jù)集可用性的限制,并且由于缺乏基礎(chǔ)理解,很可能忽略了實驗中隱藏的關(guān)鍵變量,導(dǎo)致機器學(xué)習(xí)模型的失敗。

隨著深度學(xué)習(xí)和機器學(xué)習(xí)方法的出現(xiàn),出現(xiàn)了許多更令人興奮的應(yīng)用場景,例如機器學(xué)習(xí)輔助文獻(xiàn)分析和人工智能機器人 。

機器學(xué)習(xí)輔助文獻(xiàn)分析利用自然語言處理模型的數(shù)據(jù)挖掘能力,從文獻(xiàn)中提取實驗數(shù)據(jù)。進(jìn)一步的數(shù)據(jù)分析將有助于揭示不同實驗之間的關(guān)鍵秘訣。

圖 4:CO2 加氫制甲醇的特征重要性分析。(來源:論文)

化學(xué)家機器人被認(rèn)為是化學(xué)的未來,因為它們將自動高效地進(jìn)行實驗,同時保持實驗之間最大的數(shù)據(jù)一致性。

從理論角度來看,機器學(xué)習(xí)模型還可以用于學(xué)習(xí)低成本的可計算量,例如分子的吸附能和電子能帶結(jié)構(gòu),這些對于催化很重要 。

另一方面,機器學(xué)習(xí)原子模擬可以提供有關(guān)催化劑結(jié)構(gòu)和反應(yīng)機理的原子級知識,這有利于催化劑的合理設(shè)計。

未來展望

該綜述總結(jié)了最近化學(xué)領(lǐng)域機器學(xué)習(xí)應(yīng)用的關(guān)鍵要素,從流行的數(shù)據(jù)庫到常見特征、現(xiàn)代機器學(xué)習(xí)模型和標(biāo)準(zhǔn)應(yīng)用場景。

隨著最近機器學(xué)習(xí)應(yīng)用的成功,我們必須認(rèn)識到機器學(xué)習(xí)在化學(xué)中的使用帶來了許多挑戰(zhàn)。例如,一個主要障礙是缺乏高質(zhì)量的數(shù)據(jù),特別是涉及實驗的數(shù)據(jù)。即使有了高通量的實驗技術(shù)和實驗機器人,化學(xué)中仍有許多領(lǐng)域必須由人類來產(chǎn)生實驗數(shù)據(jù)。此外,化學(xué)家通常不熟悉最先進(jìn)的機器學(xué)習(xí)方法和相關(guān)計算機科學(xué)技術(shù),這導(dǎo)致難以為目標(biāo)應(yīng)用設(shè)計適當(dāng)?shù)墓δ堋H绾巫詣犹崛〔煌瘜W(xué)問題的特征仍然具有挑戰(zhàn)性。最后,大多數(shù)基于 FFNN 的機器學(xué)習(xí)研究很難解釋,因此很難轉(zhuǎn)移到新的化學(xué)問題。

隨著計算設(shè)施的快速更新和新的機器學(xué)習(xí)算法的發(fā)展,可以預(yù)見更多令人興奮的機器學(xué)習(xí)應(yīng)用即將到來,化學(xué)研究的未來必將在機器學(xué)習(xí)時代被重塑。

雖然未來很難預(yù)測,特別是在這樣一個快速發(fā)展的領(lǐng)域,但毫無疑問,機器學(xué)習(xí)模型的發(fā)展將帶來更好的可訪問性、更通用性、更好的準(zhǔn)確性、更智能,從而提高生產(chǎn)力。機器學(xué)習(xí)模型與互聯(lián)網(wǎng)的集成是在世界范圍內(nèi)共享機器學(xué)習(xí)預(yù)測的好方法。

由于元素類型眾多、材料復(fù)雜性高,化學(xué)中機器學(xué)習(xí)模型的可遷移性是一個常見問題。預(yù)測通常必須限于應(yīng)用的數(shù)據(jù)庫,這只是廣闊的化學(xué)空間中的本地數(shù)據(jù)集。預(yù)測的準(zhǔn)確性迅速下降超出數(shù)據(jù)集。隨著新技術(shù)的出現(xiàn),這個問題可能會得到解決,或者使用更好的機器學(xué)習(xí)模型,可以學(xué)習(xí)具有大量擬合參數(shù)的更復(fù)雜的系統(tǒng)。事實上,數(shù)據(jù)科學(xué)家舉辦了各種各樣的機器學(xué)習(xí)競賽,比如 Kaggle,導(dǎo)致了許多優(yōu)秀算法的誕生。在這方面,化學(xué)問題的公開 ML 競賽仍然有限,需要付出更多努力來促進(jìn)該領(lǐng)域年輕人才的成長。

對于更智能的機器學(xué)習(xí)應(yīng)用,端到端學(xué)習(xí)是一個有前途的方向,因為它從原始輸入而不是手動設(shè)計的描述符生成最終輸出。這些先進(jìn)的機器學(xué)習(xí)模型還應(yīng)該有助于構(gòu)建更智能的實驗機器人來執(zhí)行高通量實驗。

參考內(nèi)容:https://phys.org/news/2023-09-machine-chemistry-basics-applications.html

人工智能 × [ 生物 神經(jīng)科學(xué) 數(shù)學(xué) 物理 化學(xué) 材料 ]

「ScienceAI」關(guān)注人工智能與其他前沿技術(shù)及基礎(chǔ)科學(xué)的交叉研究與融合發(fā)展。

歡迎關(guān)注標(biāo)星,并點擊右下角點贊在看

點擊讀原文,加入專業(yè)從業(yè)者社區(qū),以獲得更多交流合作機會及服務(wù)。

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2023/09/17/1bc189a32b/

(0)

相關(guān)推薦

施秉县| 衡东县| 甘孜县| 沁阳市| 东平县| 治多县| 株洲市| 泊头市| 抚松县| 淮滨县| 高雄市| 北川| 泉州市| 德阳市| 双牌县| 淄博市| 象州县| 大邑县| 益阳市| 栾城县| 克拉玛依市| 孝义市| 奎屯市| 安义县| 吐鲁番市| 县级市| 浏阳市| 汉阴县| 淄博市| 拉萨市| 罗城| 北宁市| 博罗县| 哈密市| 阿城市| 天镇县| 马鞍山市| 开鲁县| 安仁县| 永兴县| 东海县|