?? 作者 | 澳大利亞新南威爾士大學(xué) Bram Hoex AI for Science 研究組
編輯 | 蘿卜皮
![大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密 大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密](http://m.xiubac.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
近期,大型語(yǔ)言模型(LLM)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了驚人的進(jìn)步,其中 GPT-3 引領(lǐng)了這一潮流。這些模型具備強(qiáng)大的學(xué)習(xí)和生成能力,使得它們能夠理解和生成自然語(yǔ)言文本。盡管 GPT-3 在新聞生成、翻譯和問(wèn)答等任務(wù)上的表現(xiàn)已被廣泛研究,但其在科學(xué)領(lǐng)域的潛力尚未被充分挖掘。
最近,來(lái)自澳大利亞新南威爾士大學(xué)的 Bram Hoex AI4Science 研究組提出了一種全新的 NLP 任務(wù),即結(jié)構(gòu)化信息推斷(SII),成功利用 GPT-3 從科學(xué)文獻(xiàn)中獲取有價(jià)值的科學(xué)知識(shí)。該任務(wù)的成本極低,不需要提供專業(yè)性的標(biāo)注,僅僅依靠綜述論文。過(guò)去需要數(shù)十位頂尖科學(xué)家才能完成的科學(xué)信息總結(jié),現(xiàn)在通過(guò) GPT-SII 的組合在幾秒鐘內(nèi)即可完成。
通過(guò) GPT-SII 的組合,該團(tuán)隊(duì)成功更新了兩年未更新的鈣鈦礦太陽(yáng)能電池FAIR數(shù)據(jù)庫(kù),并利用 GPT 生成的數(shù)據(jù)庫(kù),再次對(duì) LLM 進(jìn)行 fine-tuned,實(shí)現(xiàn)了對(duì)鈣鈦礦太陽(yáng)能電池和有機(jī)太陽(yáng)能電池組件的電學(xué)性能進(jìn)行精準(zhǔn)預(yù)測(cè)。
引言
最近,大型語(yǔ)言模型(LLM)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了驚人的進(jìn)步,其中?GPT-3?作為其中一員,引領(lǐng)了這一潮流。這些模型具有強(qiáng)大的學(xué)習(xí)和生成能力,使它們能夠理解和生成自然語(yǔ)言文本。盡管?GPT-3?在諸如新聞生成、翻譯和問(wèn)答等任務(wù)上的表現(xiàn)已經(jīng)被廣泛研究,但其在科學(xué)領(lǐng)域的潛力尚未得到充分挖掘。本文將重點(diǎn)介紹?GPT-3?在材料科學(xué)領(lǐng)域的應(yīng)用,以及如何利用這種強(qiáng)大的?AI?工具來(lái)推動(dòng)科學(xué)研究的發(fā)展。
大型語(yǔ)言模型(LLM)簡(jiǎn)介
大型語(yǔ)言模型(LLM)是一種基于深度學(xué)習(xí)的自然語(yǔ)言處理(NLP)模型,如?GPT-3、BERT?和?T5?等。這些模型通過(guò)從大量文本數(shù)據(jù)中學(xué)習(xí)語(yǔ)言規(guī)律,從而實(shí)現(xiàn)對(duì)自然語(yǔ)言的理解和生成。在訓(xùn)練過(guò)程中,模型會(huì)學(xué)習(xí)到詞匯、語(yǔ)法、語(yǔ)義和語(yǔ)境等各種信息,來(lái)處理各種復(fù)雜的?NLP?任務(wù)。
GPT-3(第三代生成預(yù)訓(xùn)練式轉(zhuǎn)換器)是目前最先進(jìn)的?LLM?之一。該模型由?OpenAI?開(kāi)發(fā),具有?1750?億個(gè)參數(shù),是迄今為止最大的語(yǔ)言模型。GPT-3?已經(jīng)在多個(gè)?NLP?任務(wù)中取得了顯著的成果,如機(jī)器翻譯、問(wèn)答、文本摘要和代碼生成等。然而,盡管?GPT-3?在這些領(lǐng)域取得了巨大成功,但其在科學(xué)領(lǐng)域的應(yīng)用還處于起步階段。
大語(yǔ)言模型應(yīng)對(duì)科學(xué)文本時(shí)的困難
圖:微軟在2023.1 月發(fā)布的BioGPT 在PubMedQA 表現(xiàn)遠(yuǎn)超之前BERT架構(gòu)的模型
SII 是一種 multi-task learning,包含以下四種 NLP 任務(wù):
命名實(shí)體識(shí)別(NER):直接提取信息,如材料名稱和溫度。
實(shí)體標(biāo)準(zhǔn)化(ER):對(duì)信息的表達(dá)格式、單位、縮略語(yǔ)等進(jìn)行標(biāo)準(zhǔn)化。
信息推理(II):對(duì)文章沒(méi)有出現(xiàn)過(guò),或缺失的信息進(jìn)行推理。
實(shí)體關(guān)系提取(RE):辨別單個(gè)實(shí)體或?qū)嶓w組之間的聯(lián)系。
SII?任務(wù)的實(shí)施過(guò)程主要包括以下幾個(gè)步驟:首先,研究人員根據(jù)綜述論文或?FAIR?數(shù)據(jù)集制定一個(gè)初始的信息提取方案。這個(gè)方案定義了所需提取信息的層次結(jié)構(gòu)、關(guān)鍵屬性以及它們之間的關(guān)系。接下來(lái),研究人員將方案應(yīng)用到?GPT-3?的微調(diào)過(guò)程中,以便讓?GPT-3?理解和遵循這個(gè)方案。通過(guò)這種方式,GPT-3?可以學(xué)會(huì)如何從非結(jié)構(gòu)化文本中提取所需的結(jié)構(gòu)化信息,并按照預(yù)定的格式呈現(xiàn)結(jié)果。
經(jīng)過(guò)SII任務(wù)訓(xùn)練后,GPT-3?在提取材料科學(xué)領(lǐng)域結(jié)構(gòu)化信息方面的表現(xiàn)得到了顯著提升。例如,GPT-3?可以根據(jù)所提供的文獻(xiàn)信息提取出鈣鈦礦太陽(yáng)能電池的成分、結(jié)構(gòu)和制備條件等關(guān)鍵信息。同時(shí),GPT-3?還可以處理有關(guān)有機(jī)光伏器件的文獻(xiàn),提取出與器件相關(guān)的重要參數(shù)和特性。
圖:Fine-tuned GPT-3 在II, ER-U, ER-T 復(fù)雜文本任務(wù)中的表現(xiàn)
此外,SII?任務(wù)還可以幫助研究人員從文獻(xiàn)中提取更加豐富和復(fù)雜的關(guān)系數(shù)據(jù)。這些數(shù)據(jù)可以用于構(gòu)建知識(shí)圖譜,為研究人員提供全面的材料科學(xué)領(lǐng)域知識(shí)體系。通過(guò)將這些知識(shí)應(yīng)用于實(shí)際問(wèn)題,研究人員可以更加高效地開(kāi)發(fā)新型材料和器件,推動(dòng)材料科學(xué)領(lǐng)域的進(jìn)步。
值得注意的是,SII 任務(wù)得到的數(shù)據(jù)可以幫助研究人員發(fā)現(xiàn)新的材料和器件設(shè)計(jì)思路。通過(guò)分析?GPT-3?生成的高維數(shù)據(jù)集,研究人員可以探究不同材料參數(shù)(如退火時(shí)間、退火溫度、材料厚度和面積等)對(duì)器件性能的影響,從而為實(shí)驗(yàn)設(shè)計(jì)提供有益的指導(dǎo)。
傳統(tǒng)的信息提取過(guò)程通常需要花費(fèi)大量時(shí)間在閱讀文獻(xiàn)、整理信息和分析數(shù)據(jù)上。使用微調(diào)的 GPT-3 完成 SII 任務(wù),可以提高信息提取的準(zhǔn)確性和效率,科研人員可以快速地獲取所需的結(jié)構(gòu)化信息,從而將更多的時(shí)間和精力投入到實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)中,節(jié)省大量的時(shí)間和精力。
此外,SII?任務(wù)在跨學(xué)科領(lǐng)域的應(yīng)用也具有廣泛的前景。許多科學(xué)領(lǐng)域,如生物學(xué)、化學(xué)和物理學(xué)等,都需要從大量的文獻(xiàn)中提取和分析結(jié)構(gòu)化信息。SII?任務(wù)可以靈活地應(yīng)用于這些領(lǐng)域,幫助研究人員從海量的非結(jié)構(gòu)化文本中快速獲取有價(jià)值的知識(shí),從而加速科學(xué)研究的進(jìn)程。
用SII生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能的能力
通過(guò)使用經(jīng)過(guò)結(jié)構(gòu)化信息推斷(SII)任務(wù)訓(xùn)練的?GPT-3,我們可以構(gòu)建出具有高度結(jié)構(gòu)化的材料和器件數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)中的信息可以為研究人員提供關(guān)于材料和器件性能的有價(jià)值見(jiàn)解,從而有助于更好地理解和預(yù)測(cè)材料的性能以及器件的工作原理。
在材料科學(xué)領(lǐng)域,通過(guò)對(duì)?GPT-3?進(jìn)行?SII?任務(wù)訓(xùn)練,可以有效地從大量文獻(xiàn)中提取出關(guān)鍵的材料參數(shù)和性能指標(biāo)。這些數(shù)據(jù)可以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,從而預(yù)測(cè)新材料的性能和可能的應(yīng)用領(lǐng)域。這對(duì)于加速材料研究和發(fā)現(xiàn)具有重要的意義。
在器件設(shè)計(jì)方面,通過(guò)?SII?任務(wù)生成的數(shù)據(jù)庫(kù),研究人員可以了解不同器件結(jié)構(gòu)和工藝參數(shù)對(duì)器件性能的影響,從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。此外,這些數(shù)據(jù)庫(kù)還可以用于探索新型器件的可能性,為實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)提供靈感。
值得注意的是,使用SII任務(wù)生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能時(shí),還需要充分考慮模型的局限性。例如,GPT-3?的預(yù)測(cè)能力可能受限于其訓(xùn)練數(shù)據(jù)中的知識(shí)范圍,以及模型本身的復(fù)雜度。因此,在實(shí)際應(yīng)用中,研究人員需要謹(jǐn)慎對(duì)待模型的預(yù)測(cè)結(jié)果,并結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證和優(yōu)化。
總之,利用SII任務(wù)生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能具有巨大的潛力。這一方法可以幫助研究人員更好地理解材料性能和器件工作原理,加速新材料的研究和發(fā)現(xiàn),以及優(yōu)化器件設(shè)計(jì)。同時(shí),我們也應(yīng)充分認(rèn)識(shí)到模型的局限性,結(jié)合實(shí)驗(yàn)數(shù)據(jù),不斷提高預(yù)測(cè)的準(zhǔn)確性和可靠性。
總結(jié)
在本文中,我們重點(diǎn)介紹了 GPT-3 在材料科學(xué)領(lǐng)域的應(yīng)用及其潛力。通過(guò)微調(diào)訓(xùn)練 GPT-3,研究人員可以從大量科學(xué)文獻(xiàn)中提取有價(jià)值的信息,并預(yù)測(cè)材料性能和器件性能。此外,它們還可以幫助研究人員了解不同器件結(jié)構(gòu)和工藝參數(shù)對(duì)器件性能的影響,從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。隨著 GPT-3 等大型語(yǔ)言模型技術(shù)的不斷發(fā)展和完善,我們有理由相信,它們將在未來(lái)的科學(xué)研究中發(fā)揮更加重要的作用。
合作研究組織:新南威爾士大學(xué),香港城市大學(xué),悉尼大學(xué),墨爾本大學(xué),DARE 研究中心,律動(dòng)科技。
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/04/05/8e47634e79/