国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

【機(jī)器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計(jì)的生成式平臺(tái)——GT4SD,推動(dòng)科學(xué)發(fā)現(xiàn)!

【做計(jì)算 找華算】理論計(jì)算助攻頂刊,10000+成功案例,全職海歸技術(shù)團(tuán)隊(duì)、正版商業(yè)軟件版權(quán)!經(jīng)費(fèi)預(yù)存選華算,高至15%預(yù)存增值!隨著各個(gè)科學(xué)領(lǐng)域數(shù)據(jù)的可用性不斷增加,生成模型在加速科學(xué)發(fā)現(xiàn)方面具有巨大的潛力。生成模型利用從數(shù)據(jù)集中學(xué)習(xí)到的有效表示來(lái)加速新假設(shè)的制定,這些假設(shè)有可能對(duì)材料的發(fā)現(xiàn)產(chǎn)生廣泛的影響。在這篇Brief Communication中,IBM歐洲研究院Matteo Manica等人介紹了他們最近提出的用于科學(xué)發(fā)現(xiàn)的生成式工具包(GT4SD)。這個(gè)可擴(kuò)展的開(kāi)源庫(kù)使科學(xué)家、開(kāi)發(fā)人員和研究人員能夠訓(xùn)練和使用最先進(jìn)的生成模型,以加速材料設(shè)計(jì),推動(dòng)科學(xué)發(fā)現(xiàn)。研究背景科學(xué)方法在很大程度上推動(dòng)了上個(gè)世紀(jì)技術(shù)的迅速進(jìn)步。然而,在一些重要領(lǐng)域,如材料或藥物的發(fā)現(xiàn),生產(chǎn)率一直在急劇下降。如今,發(fā)現(xiàn)新材料可能需要近十年的時(shí)間,成本高達(dá)1000萬(wàn)至1億美元。天然產(chǎn)物及其衍生物的儲(chǔ)存庫(kù)已經(jīng)在很大程度上被消耗完,自下而上的假設(shè)已經(jīng)表明,在巨大的搜索空間中識(shí)別和選擇新的和有用的候選物是極具挑戰(zhàn)性的,例如,藥物類(lèi)分子的化學(xué)空間估計(jì)可包含>1033個(gè)結(jié)構(gòu)。為了克服這個(gè)問(wèn)題,近年來(lái),基于機(jī)器學(xué)習(xí)的生成模型,如變分自編碼器(VAE),生成對(duì)抗網(wǎng)絡(luò)(GAN)已經(jīng)成為一種實(shí)用的方法,可以利用分子結(jié)構(gòu)的不同表示(例如基于文本的SMILES和SELFIES,或基于圖形的表示)來(lái)設(shè)計(jì)和發(fā)現(xiàn)具有所需屬性的分子。與枚舉搜索或網(wǎng)格搜索相比,生成模型可以更有效地探索從標(biāo)準(zhǔn)定義的數(shù)據(jù)中學(xué)習(xí)到的巨大搜索空間,已經(jīng)在糖和染料分子的設(shè)計(jì),特定靶標(biāo)的配體,抗癌靶向分子,抗菌肽和半導(dǎo)體材料中得到了應(yīng)用。與此同時(shí),越來(lái)越多的研究者正在努力開(kāi)發(fā)軟件包來(lái)評(píng)估機(jī)器學(xué)習(xí)模型及其在材料科學(xué)中的應(yīng)用。在性能預(yù)測(cè)方面,發(fā)布了用于材料性能預(yù)測(cè)的模型、數(shù)據(jù)挖掘工具包和基準(zhǔn)測(cè)試軟件包,如CGCNN、pymatgen、Matminer、Matbench/AutoMatminer等。在生成模型方面,GuacaMol和Moses等通用框架為特定領(lǐng)域的生成模型軟件鋪平了道路,這些軟件在藥物發(fā)現(xiàn)領(lǐng)域也越來(lái)越受歡迎。最近,研究者也提出了很多新的方法。生成流網(wǎng)絡(luò)(GFN)是一種利用強(qiáng)化學(xué)習(xí)的思想來(lái)提高樣本多樣性的生成模型,它為圖的結(jié)構(gòu)化數(shù)據(jù)提供了一種非迭代的采樣機(jī)制。GFN特別適合于分子生成領(lǐng)域中樣本多樣性難以保證的問(wèn)題。擴(kuò)散模型(DM)是學(xué)習(xí)復(fù)雜的高維分布的生成模型,在多個(gè)維度上對(duì)數(shù)據(jù)去噪。DM在無(wú)條件和有條件的視覺(jué)任務(wù)中解決樣本質(zhì)量和多樣性方面取得了令人印象深刻的結(jié)果。條件生成模型已經(jīng)在分子構(gòu)象表示以及蛋白質(zhì)生成與對(duì)接等領(lǐng)域得到應(yīng)用。在這種情況下,由于軟件庫(kù)和工具包可以降低使用生成模型的難度,人們對(duì)軟件庫(kù)和工具包的需求也日益增長(zhǎng)??紤]到不斷增長(zhǎng)的模型規(guī)模以及訓(xùn)練模型對(duì)大量計(jì)算資源的巨大需求,這種低成本、簡(jiǎn)易的軟件包開(kāi)發(fā)需求正變得更加迫切。而且,這種趨勢(shì)在資金充足的機(jī)構(gòu)中的一小群享有特權(quán)的研究人員和科學(xué)界的其他成員之間造成了不平衡,從而違背了開(kāi)放、合作和公平的科學(xué)原則。圖文導(dǎo)讀為此,作者開(kāi)發(fā)了用于科學(xué)發(fā)現(xiàn)的生成式工具包(GT4SD)。這個(gè)Python庫(kù)旨在通過(guò)開(kāi)發(fā)一個(gè)框架來(lái)簡(jiǎn)化生成模型的訓(xùn)練、執(zhí)行和開(kāi)發(fā),從而加速科學(xué)發(fā)現(xiàn)。如圖1所示,GT4SD為所有生成模型提供了一個(gè)統(tǒng)一的應(yīng)用程序注冊(cè)表,并為每一個(gè)屬性提供了一個(gè)單獨(dú)的注冊(cè)表。這不需要用戶熟悉開(kāi)發(fā)代碼,從而大大降低了使用門(mén)檻。此外,模型之間的高度標(biāo)準(zhǔn)化簡(jiǎn)化了對(duì)新模型的集成,促進(jìn)了容器化或分布式計(jì)算系統(tǒng)的使用。GT4SD為訪問(wèn)最先進(jìn)的生成模型提供了最大的框架,它可以用來(lái)執(zhí)行、訓(xùn)練、微調(diào)和部署生成模型,所有這些都可以直接通過(guò)Python或通過(guò)高度靈活的命令行界面(CLI)來(lái)完成。所有預(yù)先訓(xùn)練的模型都可以通過(guò)托管在Hugging Face Spaces上的web應(yīng)用程序,直接在瀏覽器執(zhí)行。對(duì)于高級(jí)用戶,GT4SD模型中心對(duì)在新數(shù)據(jù)集上訓(xùn)練現(xiàn)有算法的發(fā)布過(guò)程進(jìn)行了簡(jiǎn)化,以便在工作流程中進(jìn)行即時(shí)和持續(xù)的集成。GT4SD提供了一組生成假設(shè)(推理管道)和微調(diào)特定領(lǐng)域的生成模型(訓(xùn)練管道)的功能,與現(xiàn)有的流行庫(kù)兼容和互操作,包括PyTorch, PyTorch Lightning,Hugging Face Transformers,Diffusers,GuacaMol,Moses,TorchDrug,GFlowNets和MoLeR,也包括廣泛的預(yù)訓(xùn)練模型和材料設(shè)計(jì)的應(yīng)用程序。GT4SD提供了簡(jiǎn)單的接口,使得生成模型只需要使用幾行代碼就可以輕易部署。該工具為有興趣在科學(xué)研究中應(yīng)用最先進(jìn)模型的研究人員和學(xué)生提供了一個(gè)環(huán)境,使他們能夠使用各種各樣的預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn),涵蓋廣泛的材料科學(xué)和藥物發(fā)現(xiàn)應(yīng)用。此外,GT4SD提供了一個(gè)標(biāo)準(zhǔn)化的CLI,用于推理和訓(xùn)練的APIs不會(huì)影響對(duì)算法細(xì)粒度參數(shù)的確定和>15種基于預(yù)訓(xùn)練模型的web應(yīng)用程序的能力。圖1. GT4SD結(jié)構(gòu),實(shí)現(xiàn)了生成模型的推理和訓(xùn)練管道,GT4SD還提供了用于算法版本控制和共享的實(shí)用程序,以便在社區(qū)中更廣泛地使用??梢哉f(shuō),加速科學(xué)發(fā)現(xiàn)的最大潛力在于從頭分子設(shè)計(jì)領(lǐng)域,特別是在材料和藥物發(fā)現(xiàn)方面。隨著幾項(xiàng)(預(yù))臨床試驗(yàn)的進(jìn)行,第一種人工智能生成的藥物獲得FDA的批準(zhǔn)并進(jìn)入市場(chǎng)只是時(shí)間問(wèn)題。在一項(xiàng)開(kāi)創(chuàng)性的研究中,深度強(qiáng)化學(xué)習(xí)模型(GENTRL)被用于發(fā)現(xiàn)有效的DDR1抑制劑,這是一種與纖維化、癌癥和其他疾病有關(guān)的重要蛋白激酶靶點(diǎn)。總共合成了6個(gè)分子,其中4個(gè)分子在生化試驗(yàn)中被發(fā)現(xiàn)有活性,1個(gè)在小鼠體內(nèi)表現(xiàn)出良好的藥代動(dòng)力學(xué)(gentrl-ddr1)。作為應(yīng)用于分子發(fā)現(xiàn)的典型案例,作者依據(jù)gentrl-ddr1生成一個(gè)相似的分子,提升其估計(jì)的水溶性(ESOL)。低的水溶性影響了>40%的新化學(xué)實(shí)體,因此對(duì)藥物遞送構(gòu)成了主要障礙,提高溶解度需要探索gentrl-ddr1周?chē)木植炕瘜W(xué)空間,以找到優(yōu)化的先導(dǎo)化合物。圖2. 使用GT4SD進(jìn)行分子發(fā)現(xiàn)的案例研究,從使用生成模型設(shè)計(jì)的化合物開(kāi)始(gentrl-ddr1),作者展示了如何使用GT4SD快速設(shè)計(jì)具有所需屬性的分子,使用庫(kù)中可用的一系列算法(兩種設(shè)置:無(wú)條件和條件)。條件模型可以受到化學(xué)支架的約束,或者以期望的屬性值為條件。圖2中顯示了如何使用GT4SD處理此任務(wù)的流程。在第一步中,可以通過(guò)GT4SD的界面訪問(wèn)一組豐富的預(yù)訓(xùn)練分子生成模型。有兩個(gè)主要的模型類(lèi)可用。第一類(lèi)由圖生成模型表示,如MoLeR或TorchDrug庫(kù)中的模型,特別是圖卷積策略網(wǎng)絡(luò)和基于流的自回歸模型(GraphAF)。第二個(gè)模型類(lèi)是化學(xué)語(yǔ)言模型(CLM),它將分子視為文本(SMILES或SELFIES序列)。GT4SD中的大多數(shù)化學(xué)語(yǔ)言模型都是通過(guò)MOSES或GuacaMol庫(kù)訪問(wèn)的;特別是VAE,對(duì)抗自編碼器(AAE)或目標(biāo)增強(qiáng)GAN模型(ORGAN)。第一步,作者從每個(gè)模型所學(xué)習(xí)到的化學(xué)空間中隨機(jī)抽取分子。對(duì)生成的分子與gentrl-ddr1的Tanimoto相似性進(jìn)行評(píng)估表明,這種方法雖然產(chǎn)生了許多具有滿意ESOL的分子,但并沒(méi)有充分反映與種子分子的相似性約束(圖2,左下)。這是可以預(yù)料到的,因?yàn)樗褂玫纳赡P褪菬o(wú)條件的。作為一種更精細(xì)的方法,GT4SD包括基于條件的分子生成模型,可以用自然文本查詢(xún)(Text+Chem T5)、連續(xù)屬性約束或分子子結(jié)構(gòu)(scaffolds)(如MoLeR、REINVENT),甚至是屬性約束和分子子結(jié)構(gòu)的組合(Regression Transformer)來(lái)執(zhí)行。從這些模型中獲得的分子,特別是MoLeR和RT,在很大程度上遵守了相似性約束,并產(chǎn)生了許多與gentrl-ddr1相似度> 0.5的分子。MoLeR和RT將ESOL提高了1M/L以上(圖2右)。在一個(gè)現(xiàn)實(shí)的應(yīng)用場(chǎng)景中,藥物化學(xué)家可以手動(dòng)審查用所描述的配方生成的分子,并有選擇地考慮合成和篩選??偨Y(jié)與展望作者所開(kāi)發(fā)的GT4SD是邁向加速材料發(fā)現(xiàn)的生成建模環(huán)境的第一步。未來(lái),作者下一步將擴(kuò)展GT4SD的應(yīng)用領(lǐng)域(例如無(wú)機(jī)材料、可持續(xù)性、地理信息學(xué)等)。未來(lái)的發(fā)展將集中在兩個(gè)主要組成部分:擴(kuò)展模型評(píng)估和樣本屬性預(yù)測(cè);開(kāi)發(fā)一個(gè)共享模型的生態(tài)系統(tǒng),該模型建立在通過(guò)現(xiàn)有CLI命令公開(kāi)的功能之上,用于模型生命周期管理。作者將擴(kuò)展目前來(lái)自GuacaMol和Moses的集成指標(biāo),并探索偏差度量,以便根據(jù)生成的示例及其屬性更好地分析性能。在共享生態(tài)系統(tǒng)方面,作者相信GT4SD將進(jìn)一步受益于直觀的應(yīng)用程序中心,它可以促進(jìn)預(yù)訓(xùn)練生成模型的分發(fā),并使用戶能夠輕松地根據(jù)特定應(yīng)用程序的自定義數(shù)據(jù)微調(diào)模型。文獻(xiàn)信息Matteo Manica, Jannis Born, Joris Cadow, Dimitrios Christofidellis, Ashish Dave, Dean Clarke, Yves Gaetan Nana Teukam, Giorgio Giannone, Samuel C. Hoffman, Matthew Buchan, Vijil Chenthamarakshan, Timothy Donovan, Hsiang Han Hsu, Federico Zipoli, Oliver Schilter, Akihiro Kishimoto, Lisa Hamada, Inkit Padhi, Karl Wehden, Lauren McHugh, Alexy Khrabrov, Payel Das, Seiji Takeda and John R. Smith. Accelerating material design with the generative toolkit for scientific discovery. npj Computational Materials 9, 69 (2023)https://doi.org/10.1038/s41524-023-01028-1 點(diǎn)擊閱讀原文,報(bào)名計(jì)算培訓(xùn)!

原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://m.xiubac.cn/index.php/2023/10/25/a85972e78b/

(0)

相關(guān)推薦

疏附县| 黑龙江省| 丰镇市| 衡东县| 金阳县| 镇远县| 东源县| 奉贤区| 白朗县| 龙岩市| 阳泉市| 准格尔旗| 宝山区| 乌兰察布市| 塔城市| 克拉玛依市| 固阳县| 道真| 怀宁县| 吉安县| 芷江| 双牌县| 曲阳县| 绵阳市| 高平市| 宜丰县| 嘉黎县| 徐汇区| 建昌县| 武隆县| 安多县| 黔西县| 和田县| 潞城市| 彭水| 蒙山县| 宽城| 铁力市| 龙山县| 阜宁县| 宣化县|