国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

聚合物是我們?nèi)粘I钪胁豢苫蛉钡囊徊糠郑瑤缀跤|及生活的方方面面。從塑料袋、水瓶,到橡膠和木材,再到DNA、RNA 等。

聚合物化學(xué)空間如此之大,為識別合適的特定應(yīng)用候選聚合物提供了前所未有的機遇和重大挑戰(zhàn)。

聚合物信息學(xué)這個新興領(lǐng)域可以深入了解聚合物「宇宙」,其中機器學(xué)習(xí)(ML)模型極具潛力。

近日,來自佐治亞理工學(xué)院(GT)的研究人員提出了一種化學(xué)語言模型:polyBERT——一個完整的端到端機器驅(qū)動的聚合物信息學(xué)管道,可以以前所未有的速度和準確性在這個空間中搜索合適的候選聚合物。

polyBERT 是一位化學(xué)語言學(xué)家,將聚合物的化學(xué)結(jié)構(gòu)視為一種化學(xué)語言。

該方法超越了目前基于手工指紋方案的聚合物性能預(yù)測的最佳概念,在保持準確性的同時,速度提高了兩個數(shù)量級,從而使其成為部署在包括云基礎(chǔ)設(shè)施在內(nèi)的可擴展架構(gòu)中的強有力候選者。

該研究以「polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics」為題,于 2023 年 7 月 11 日發(fā)布在《Nature Communications》上。

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

論文鏈接:https://www.nature.com/articles/s41467-023-39868-6

機器學(xué)習(xí)框架在聚合物特性預(yù)測器的開發(fā)和解決逆向問題方面取得了實質(zhì)性進展,在逆向問題中,滿足特定特性要求的聚合物要么從候選集中識別,要么使用遺傳或生成算法重新設(shè)計。

聚合物信息學(xué)管道中的一個重要步驟是將聚合物化學(xué)結(jié)構(gòu)轉(zhuǎn)換為通常稱為指紋、特征或描述符的數(shù)字表示(見圖 1a 中的藍色框)。

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

圖 1:使用 polyBERT 進行聚合物信息學(xué)。

過去的手工指紋識別方法利用化學(xué)信息學(xué)工具對聚合物的關(guān)鍵化學(xué)和結(jié)構(gòu)特征進行數(shù)字編碼。盡管這種手工制作的指紋建立在寶貴的直覺和經(jīng)驗的基礎(chǔ)上,但它們開發(fā)起來很乏味,涉及復(fù)雜的計算,通常會消耗模型訓(xùn)練和推理期間的大部分時間,并且缺乏對所有高分子化學(xué)類別的泛化。

因此,使用手工指紋的機器學(xué)習(xí)管道在探索新的聚合物化學(xué)類別時很容易出錯。此外,手工制作的指紋為完全機器驅(qū)動的管道的開發(fā)和部署帶來了障礙,這些管道適合云計算和高吞吐量環(huán)境中的可擴展性。

克服前面提到的限制的一種方法是用完全機器制作的「Transformer」指紋代替手工制作的指紋(見圖 1a 的右側(cè)管道)。Transformer 已成為 ML 語言建模的黃金標準。

另一種有前途的神經(jīng)網(wǎng)絡(luò)架構(gòu),即圖神經(jīng)網(wǎng)絡(luò),它將化學(xué)結(jié)構(gòu)視為圖,已應(yīng)用于分子和聚合物化學(xué)空間。與 Transformer 相反,圖神經(jīng)網(wǎng)絡(luò)將原子表示為節(jié)點,將鍵表示為圖的邊,從而對原子之間的直接和擴展連接進行編碼。因此,圖神經(jīng)網(wǎng)絡(luò)并不像 Transformer 那樣直接基于 PSMILES 字符串,而是依賴于需要為每個節(jié)點計算并分配給每個節(jié)點的一組初始特征向量(例如原子類型、隱式價等)。

在此,研究人員設(shè)想將簡化分子線性輸入規(guī)范(SMILES)字符串作為聚合物的「化學(xué)語言」來表示聚合物。研究使用數(shù)百萬個聚合物 SMILES (PSMILES) 字符串來訓(xùn)練名為 polyBERT 的語言模型,使其成為聚合物化學(xué)語言的專家(語言學(xué)家)。與多任務(wù)深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,polyBERT 實現(xiàn)了完全端到端機器驅(qū)動的聚合物信息學(xué)管道,該管道使用并釋放了人工智能方法的真正力量。多任務(wù)深度神經(jīng)網(wǎng)絡(luò)利用多保真度和多屬性數(shù)據(jù)集中的固有相關(guān)性,在云計算環(huán)境中輕松擴展,并推廣到多個預(yù)測任務(wù)。

該研究幾個關(guān)鍵要素如下:

  • 首先,通過枚舉組合從 13000 多種合成聚合物列表中提取的化學(xué)片段,生成了 1 億個假設(shè)聚合物的數(shù)據(jù)集。
  • 接下來,使用這個假設(shè)的聚合物數(shù)據(jù)集來訓(xùn)練 PolyBERT(一種基于 DeBERTa 的僅編碼器 Transformer),使其成為一名高分子化學(xué)語言學(xué)家。在訓(xùn)練過程中,polyBERT 學(xué)習(xí)將輸入 PSMILES 字符串轉(zhuǎn)換為其用作聚合物指紋的數(shù)字表示。
  • 最后,使用其多任務(wù)機器學(xué)習(xí)框架將 PolyBERT 指紋映射到大約 36 種聚合物屬性,以產(chǎn)生完全機器驅(qū)動的超快聚合物屬性預(yù)測器。為了進行基準測試,將這種新的端到端屬性預(yù)測管道的性能(準確性和速度)與之前開創(chuàng)的基于手工制作的 Polymer Genome (PG) 指紋的管道進行了比較。使用超快的 PolyBERT 聚合物信息學(xué)管道,能夠預(yù)測 1 億種假設(shè)聚合物的屬性,旨在找到聚合物宇宙的屬性邊界。

該研究通過利用語言、數(shù)據(jù)和人工智能模型的力量,有助于加快聚合物的發(fā)現(xiàn)、設(shè)計、開發(fā)和部署。

屬性預(yù)測

為了對 PolyBERT 和 PG 指紋的屬性預(yù)測準確性進行基準測試,研究人員為表 1 中定義的每個屬性類別訓(xùn)練多任務(wù)深度神經(jīng)網(wǎng)絡(luò)。

表 1:屬性預(yù)測器的訓(xùn)練數(shù)據(jù)集。(來源:論文)

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

圖 2a 顯示了 29 種聚合物特性交叉驗證過程的五個驗證數(shù)據(jù)集的決定系數(shù) (R^2) 平均值和標準差。研究發(fā)現(xiàn)共聚物的熱性能和機械性能(相對于均聚物)的預(yù)測精度更高,而透氣率的預(yù)測精度稍差,這與之前的發(fā)現(xiàn)類似。

圖 2b 顯示了每個元學(xué)習(xí)器(每個類別一個)的高 R^2 值,表明所有屬性都具有出色的預(yù)測性能。

基于 PolyBERT 的超快且準確的聚合物信息學(xué)管道使研究人員能夠預(yù)測最初為訓(xùn)練 polyBERT 而創(chuàng)建的 1 億個假設(shè)聚合物的所有 29 個屬性。圖 2c 顯示了每個屬性的最小值、平均值和最大值。

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

圖 2:polyBERT (PB) 和聚合物基因組 (PG) 指紋的決定系數(shù) (R^2) 性能值。(來源:論文)

總體而言,PG 表現(xiàn)最好 (R^2?=?0.81),但緊隨其后的是 polyBERT (R^2?=?0.80)。指紋類型的整體性能順序與類別平均值和屬性一致,但 Xc、?Xe 和 ?b 除外,其中 polyBERT 略優(yōu)于 PG 指紋。注意到,polyBERT 和 PG 指紋都是聚合物特征化的實用途徑,因為它們的 R^2 值非常接近并且通常很高。polyBERT 指紋具有手工制作的 PG 指紋的準確性,但速度快了兩個數(shù)量級以上。

化學(xué)語言模型 polyBERT,以前所未有的速度和準確性在聚合物「宇宙」中搜索所需聚合物

圖 3:聚合物指紋的計算時間。(來源:論文)

PolyBERT 的其它三個優(yōu)勢

前饋網(wǎng)絡(luò)在 PolyBERT 自監(jiān)督訓(xùn)練期間預(yù)測屏蔽標記,能夠?qū)?shù)字潛在空間(即指紋)映射到 PSMILES 字符串。

polyBERT 方法的第二個優(yōu)點是可解釋性。更詳細地分析 PolyBERT 指紋的化學(xué)相關(guān)性可以揭示聚合物結(jié)構(gòu)部分的化學(xué)功能和相互作用。

PolyBERT 方法的另一個優(yōu)點是它覆蓋整個化學(xué)空間。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,僅區(qū)別兩個星 ([*]) 符號,表示聚合物重復(fù)單元的兩個端點。polyBERT 沒有內(nèi)在的限制或功能來阻礙預(yù)測分子 SMILES 字符串的指紋。

總之,polyBERT 是一種可通用、超快且準確的聚合物信息學(xué)管道,可在云硬件上無縫擴展,適用于巨大聚合物空間的高通量篩選。polyBERT 能夠大規(guī)模探索這個巨大的聚合物宇宙。PolyBERT 為新型聚合物的發(fā)現(xiàn)鋪平了道路。

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/02/20/231f2dd6bc/

(0)

相關(guān)推薦

绍兴县| 阿图什市| 桃园市| 万荣县| 疏附县| 南开区| 新乡市| 鄂尔多斯市| 厦门市| 柯坪县| 政和县| 荣昌县| 甘德县| 阳城县| 濉溪县| 铁岭县| 邵武市| 孟连| 青铜峡市| 和林格尔县| 汤阴县| 石楼县| 正定县| 托里县| 二连浩特市| 黎川县| 南开区| 汝城县| 溆浦县| 塘沽区| 黄骅市| 荣成市| 余庆县| 微博| 乡城县| 桦南县| 冀州市| 昆明市| 土默特左旗| 垦利县| 临泽县|