国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊


準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊

編輯?| 紫羅

可合成的分子化學(xué)空間是巨大的。要想有效地駕馭這一領(lǐng)域,需要基于計算的篩選技術(shù),如深度學(xué)習(xí)技術(shù),以快速跟蹤感興趣的化合物發(fā)現(xiàn)。

然而,使用算法進行化學(xué)發(fā)現(xiàn)需要將分子結(jié)構(gòu)轉(zhuǎn)換為計算機可用的數(shù)字表示形式,并開發(fā)基于這些表示形式的算法來生成新的分子結(jié)構(gòu)。

近日,來自英國格拉斯哥大學(xué)(University of Glasgow)的研究人員,提出了一種基于電子密度訓(xùn)練的機器學(xué)習(xí)模型,用于生產(chǎn)主客體 binders。這些以簡化分線性輸入規(guī)范?(SMILES) 格式讀出,準確率 >98%,從而能夠在二維上對分子進行完整的表征。

機器學(xué)習(xí)模型使用變分自編碼器生成主客體系統(tǒng)的電子密度和靜電勢的三維表示,然后利用這些表示通過梯度下降來優(yōu)化客體的生成。最后,使用 Transformer 將客體轉(zhuǎn)換為 SMILES。

模型成功地應(yīng)用于已建立的分子主體系統(tǒng),葫蘆脲和金屬有機籠,結(jié)果發(fā)現(xiàn)了 9 個先前驗證的 CB[6] 客體和 7 個未報告的客體,并發(fā)現(xiàn)了 4 個未報告的 準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊客體。

該研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》為題,于 2024 年 3 月 8 日發(fā)表在《Nature Computational Science》上。

準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊

當前主客體化學(xué)研究費力且昂貴

字符串,例如 SMILES,分子以單詞表示,例如C1C=C1(環(huán)丙烯),是最廣泛的分子數(shù)字表示形式之一。使用最先進的自然語言處理,這些表示與 AI 技術(shù)直接兼容,例如循環(huán)神經(jīng)網(wǎng)絡(luò)或 Transformer 模型。

將分子表示為 3D 體積(volume)的優(yōu)點是可以應(yīng)用最新的 AI 技術(shù),例如卷積神經(jīng)網(wǎng)絡(luò)。到目前為止,3D 體積作為分子描述符的大多數(shù)應(yīng)用都集中在預(yù)測特性或從頭藥物設(shè)計上。然而,由于缺乏有效的方法將這些體積與清晰的分子結(jié)構(gòu)相關(guān)聯(lián),目前使用 3D 體積作為分子描述符受到阻礙。

在過去的 40 年里,由于分子 containers(中空有機分子或中空超分子結(jié)構(gòu))傾向于通過將分子與空腔中的體相隔離來改變分子的化學(xué)和物理性質(zhì),因此主客體系統(tǒng)得到了越來越多的研究。主客體系統(tǒng)具有廣泛的應(yīng)用,從催化到生物醫(yī)學(xué)工程、材料科學(xué)和反應(yīng)分子的穩(wěn)定。

葫蘆脲(CB[n])和金屬有機籠是最成功的分子 containers 設(shè)計之一。盡管主客體化學(xué)已經(jīng)取得了顯著的成就,但現(xiàn)有系統(tǒng)中未報道的客體的發(fā)現(xiàn)或新的主客體系統(tǒng)的優(yōu)化,仍然是一個費力且昂貴的迭代過程,阻礙了科學(xué)進步的步伐。

一種基于電子密度訓(xùn)練的機器學(xué)習(xí)模型

在此,研究證明,將主體分子表示為 3D 體積(即,用靜電勢修飾的電子密度)可以通過計算機輔助發(fā)現(xiàn)該主體的客體,而無需了解主體的化學(xué)結(jié)構(gòu)之外的主客體系統(tǒng)。

在此過程中,研究人員建立了一個 Transformer 模型,可以通過訓(xùn)練將 3D 體積分子描述符有效地轉(zhuǎn)換為 SMILES 表示,從而生成專業(yè)化學(xué)家可用的分子結(jié)構(gòu)。

研究還發(fā)現(xiàn),通過用靜電勢數(shù)據(jù)修飾分子的電子密度,可以將分子有效地表示為 3D 體積,并且這兩個特征足以通過使用自回歸采樣方案優(yōu)化 3D 描述符之間的體積形狀和電荷相互作用來發(fā)現(xiàn)主體的客體分子。

準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊
圖示:使用 Transformer 模型將電子密度轉(zhuǎn)換為 SMILES 表示,然后通過梯度下降優(yōu)化目標主體的客體。(來源:論文)

Transformer 模型完美地預(yù)測了其 SMILES 表示,準確度為 98.125%。單個 token 的預(yù)測準確率為 99.114%。Transformer 的解碼器也可以被隔離為純生成模型,如 GPT。

工作流程概述

計算機輔助發(fā)現(xiàn)葫蘆脲 CB[6] 和金屬有機籠?準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊的實驗驗證客體需要一個雙層工作流程。首先,設(shè)計了一個計算機工作流程來為這兩個主體生成潛在客體分子的虛擬庫。然后建立了體外工作流程,其中包括由化學(xué)專家從這些虛擬庫中選擇最有希望的客體候選物進行實驗測試。

準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊

圖示:通過電子密度體積表示發(fā)現(xiàn)新型客體分子。(來源:論文)

CB[6] 和 準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊?客體分子的計算機生成是通過上圖所示的工作流程實現(xiàn)的,該工作流程包括以下步驟:

(1)3D 電子密度體積訓(xùn)練集源自公開的 QM9 數(shù)據(jù)集中的分子。然后,通過使用變分自編碼器(VAE)對這個 3D 電子密度體積訓(xùn)練集進行建模,創(chuàng)建了一個

分子生成器,從而允許生成超出 QM9 數(shù)據(jù)集派生的 3D 電子密度體積。該 VAE 分子生成器的工作原理是將 3D 電子密度體積編碼到一維 (1D) 潛在空間中,然后通過從該 1D 潛在空間進行解碼來生成與分子相對應(yīng)的 3D 電子密度體積。有趣的是,這種方法只能產(chǎn)生化學(xué)上合理的分子。

(2)VAE 分子生成器和梯度下降優(yōu)化算法用于為給定的主體分子生成客體分子庫(以 3D 電子密度體積的形式)??腕w分子是通過最小化主體和客體電子密度之間的重疊,同時優(yōu)化它們的靜電相互作用而產(chǎn)生的。

(3)由于人類操作員將 3D 電子密度體積轉(zhuǎn)換為化學(xué)可解釋的結(jié)構(gòu)可能具有挑戰(zhàn)性,因此訓(xùn)練了 Transformer 模型將這些體積轉(zhuǎn)換為 SMILES 表示,以一種更容易被專業(yè)化學(xué)家理解的格式捕獲描述分子所需的所有必要信息。在通過計算機模擬生成 CB[6] 和 準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊?的潛在客體分子后,建立了體外工作流程來對最有希望的候選分子進行實驗測試。

下面描述了所使用的實驗過程。

(1) 由于其計算機工作流程生成的 CB[6] 和? 準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊的客體由化學(xué)專家進行分類以進行實驗測試。有希望進行測試的客體是根據(jù)其與 CB[6] 或 準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊 的已知客體的結(jié)構(gòu)相似性、專業(yè)化學(xué)家的直覺及其商業(yè)可用性來選擇的。

(2)采用直接準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊滴定法測定 CB[6] 或 ?準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊的親和力。值得注意的是,在計算機中生成的客體包含先前已知與主體(或密切相關(guān))結(jié)合的分子和無視專家直覺的分子的混合物。

個常見主客體系統(tǒng)的實驗驗證

研究人員通過實驗驗證了其工作流程,為兩個兩個常見的主客體系統(tǒng):葫蘆脲(CB[n])和金屬有機籠,成了文獻驗證和未報告的客體。

算法為 CB[6] 生成了 9 個先前已知的客體。還確定了 CB[6] 的 7 個潛在新客體,化學(xué)專家認為值得進行實驗測試。CB[6] 對這些新客體的親和力通過在 HCO2H/H2O 1:1v/v 中直接 準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊滴定來評估。

在所有 7 種情況下,都觀察到主客體系統(tǒng)的一組信號,表明該系統(tǒng)在 NMR 時間尺度上進行快速交換。絡(luò)合后,客體分子的脂肪鏈共振向上場移動,表明它們被封裝在 CB[6] 腔內(nèi)。發(fā)現(xiàn)準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊?與 CB[6] 的締合常數(shù)遵循先前建立的趨勢,范圍從 13.5?M^?1 到 5,470?M^?1。

準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊

圖示:CB[6] 的優(yōu)化和先前已知的客體以及準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊 的優(yōu)化客體。(來源:論文)

對于準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊 ,優(yōu)化算法僅生成未知的客體分子,四種潛在的未報告客體與 [Pd214](BArF)4 之間的結(jié)合強度通過 CD2Cl2 中的直接準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊 滴定進行測試。在所有四種情況中,客體對 [Pd214](BArF)4 的親和力與先前報道的 CD2Cl2小型中性客體的親和力較低范圍一致(Ka 從 44?M^-1 到 529?M^?1)。

雖然研究重點是使用 SMILES 表示法來表示分子,但也測試了其他類似的格式,例如自引用嵌入字符串 (SELFIES)。

盡管 QM9 數(shù)據(jù)集包含大小完美的分子,可以成為 CB[6] 等主體的客體,但該研究遇到的一個限制是金屬有機籠?準確率 >98%,基于電子密度的 GPT 用于化學(xué)研究,登 Nature 子刊?具有更大的空腔,需要更大的客體分子。在未來的研究中,將使用包含更大分子的數(shù)據(jù)集,例如 GDB-17 數(shù)據(jù)集。

之后,我們的目標是將新配體的選擇嵌入到生成過程中,在自動化合成平臺(例如 Chemputer 機器人)上自主合成分子,關(guān)閉優(yōu)化和測試之間的循環(huán),創(chuàng)建一個網(wǎng)絡(luò)-物理閉環(huán)系統(tǒng)。

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/03/30/3a96018594/

(0)

相關(guān)推薦

视频| 额济纳旗| 安庆市| 惠州市| 游戏| 岚皋县| 儋州市| 信阳市| 霍州市| 哈巴河县| 分宜县| 郧西县| 那曲县| 陵川县| 三门峡市| 眉山市| 会泽县| 巴中市| 施秉县| 宾川县| 巴中市| 石首市| 苏尼特左旗| 宁明县| 新巴尔虎左旗| 图们市| 鄂伦春自治旗| 满城县| 承德市| 衢州市| 商水县| 英德市| 乐亭县| 柳河县| 稷山县| 临汾市| 临高县| 甘洛县| 安泽县| 达日县| 桦南县|