英文原題:Collective Variable-Based Enhanced Sampling: From Human Learning to Machine Learning
通訊作者:邵學(xué)廣、蔡文生,南開大學(xué)化學(xué)學(xué)院分析科學(xué)研究中心
作者:Haohao Fu (付浩浩),?Hengwei Bian (卞恒偉), Xueguang Shao (邵學(xué)廣), Wensheng Cai (蔡文生)
增強(qiáng)采樣是一種重要的分子動(dòng)力學(xué)(Molecular Dynamics,MD)模擬技術(shù),克服了傳統(tǒng)MD因時(shí)間尺度限制而無(wú)法觀察到稀有事件的問題。在基于集合變量(Collective Variable,CV)的增強(qiáng)采樣方法——如傘狀采樣(US)、自適應(yīng)偏置力(ABF)和metadynamics中,選擇能夠描述慢自由度的CVs對(duì)于增強(qiáng)采樣模擬的可靠性和效率至關(guān)重要。然而,很多情況下僅憑化學(xué)和空間直覺難以選擇最為合理的CVs。
近日,南開大學(xué)邵學(xué)廣、蔡文生教授課題組在JPC?Letters上發(fā)表了CV選擇方法的展望研究。目前,針對(duì)一個(gè)復(fù)雜的生物/化學(xué)過程,采用基于CV的增強(qiáng)采樣方法進(jìn)行研究的范式分為三種:基于人類知識(shí)進(jìn)行CV選擇的范式、基于反應(yīng)路徑優(yōu)化的范式和基于機(jī)器學(xué)習(xí)CV的范式,如圖1所示。
圖1. 基于CV的增強(qiáng)采樣方法對(duì)復(fù)雜生物/化學(xué)過程進(jìn)行研究的三種范式。
基于人類知識(shí)進(jìn)行CV選擇簡(jiǎn)單、直觀,通常是研究人員的首選。但是對(duì)于復(fù)雜過程,如蛋白質(zhì)折疊,研究人員很難選擇能夠描述緩慢自由度的幾何變量作為CVs。
路徑搜索算法,如transition path sampling (TPS), milestoning和string方法,可以在一個(gè)高維、預(yù)先選擇的CV(pre-CV)空間中進(jìn)行優(yōu)化,得到最低自由能路徑(MFEP)。然后再通過路徑反應(yīng)坐標(biāo)和增強(qiáng)采樣算法進(jìn)行模擬,得到描述對(duì)應(yīng)過程的自由能面。然而,大多數(shù)路徑搜索算法需要用戶提供一個(gè)初始路徑,并且極易陷入局部極小值。
圖2. 路徑搜索算法示意圖。(A)初始路徑[灰]和優(yōu)化得到的最低自由能路徑[黃];(B)初始路徑[灰],優(yōu)化陷入的局部極小值[青]和最低自由能路徑[黃]。
基于機(jī)器學(xué)習(xí)的方法從短時(shí)間的預(yù)模擬軌跡中提取信息,尋找能夠描述極小值和過渡態(tài)的機(jī)器學(xué)習(xí)CVs(mCVs)。mCVs通常也代表高維pre-CV空間中的曲線(路徑)或曲面,如圖3所示。
圖3. 機(jī)器學(xué)習(xí)CV示意圖。(A)自由能面;(B)對(duì)不完備的訓(xùn)練集[粉]學(xué)習(xí)得到的mCVs所代表的路徑[黑];(C)對(duì)較完備的訓(xùn)練集[粉]學(xué)習(xí)得到的mCVs所代表的路徑[黑]。
基于機(jī)器學(xué)習(xí)的方法有兩個(gè)問題:1、如何從短時(shí)間的軌跡中提取信息,提取什么樣的信息。針對(duì)這個(gè)問題,目前許多方法都基于時(shí)間自相關(guān)函數(shù)和過渡路徑理論來提取信息,此外還有基于聚類的信息提取方法。2、“雞和蛋”的問題,得到好的mCV需要充分采樣得到較完備的訓(xùn)練集,但是如果已經(jīng)充分采樣了,就不需要mCV做增強(qiáng)采樣模擬了。針對(duì)這個(gè)問題,迭代策略是一種常見的解決方案,此外還有基于次優(yōu)mCV,提高正交空間采樣的方案。
隨著GPU計(jì)算能力的提升,MD模擬的體系復(fù)雜度不斷增加,使用基于化學(xué)直覺確CVs來研究生物/化學(xué)過程變得越來越有挑戰(zhàn)。研究者可能會(huì)更多地依賴于非經(jīng)驗(yàn)性方法來選擇CVs。在路徑采樣和部分機(jī)器學(xué)習(xí)方法中,通過迭代短時(shí)間的模擬,可以自適應(yīng)確定CVs。這種流程只需要少量先驗(yàn)知識(shí),已成功應(yīng)用于許多復(fù)雜過程的研究。
結(jié)合路徑采樣和機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)更高的采樣效率可能是未來的研究方向。此外,從AlphaFold2這種預(yù)訓(xùn)練模型或者GPT-4這種大語(yǔ)言模型中提取信息,進(jìn)一步提升機(jī)器學(xué)習(xí)效率,也非常具有前景。
相關(guān)論文發(fā)表在JPC?Letters上,南開大學(xué)副研究員付浩浩為文章的第一作者,邵學(xué)廣、蔡文生教授為通訊作者。
邵學(xué)廣,南開大學(xué)教授、博士生導(dǎo)師,國(guó)家杰青,于中國(guó)科學(xué)技術(shù)大學(xué)獲博士學(xué)位。主要從事化學(xué)計(jì)量學(xué)方法與應(yīng)用研究,最近的研究重點(diǎn)是開發(fā)人工智能方法并將其應(yīng)用于光譜分析和分子模擬。
蔡文生,南開大學(xué)教授、博士生導(dǎo)師,于中國(guó)科學(xué)技術(shù)大學(xué)獲博士學(xué)位,之后在法國(guó)南希大學(xué)進(jìn)行博士后研究。主要從事分子動(dòng)力學(xué)模擬算法和自由能計(jì)算方法開發(fā)工作。
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/03/26/2f94f6771a/