国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

?? 作者 | 澳大利亞新南威爾士大學(xué) Bram Hoex AI for Science 研究組

編輯 | 蘿卜皮

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

近期,大型語(yǔ)言模型(LLM)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了驚人的進(jìn)步,其中 GPT-3 引領(lǐng)了這一潮流。這些模型具備強(qiáng)大的學(xué)習(xí)和生成能力,使得它們能夠理解和生成自然語(yǔ)言文本。盡管 GPT-3 在新聞生成、翻譯和問(wèn)答等任務(wù)上的表現(xiàn)已被廣泛研究,但其在科學(xué)領(lǐng)域的潛力尚未被充分挖掘。

最近,來(lái)自澳大利亞新南威爾士大學(xué)的 Bram Hoex AI4Science 研究組提出了一種全新的 NLP 任務(wù),即結(jié)構(gòu)化信息推斷(SII),成功利用 GPT-3 從科學(xué)文獻(xiàn)中獲取有價(jià)值的科學(xué)知識(shí)。該任務(wù)的成本極低,不需要提供專業(yè)性的標(biāo)注,僅僅依靠綜述論文。過(guò)去需要數(shù)十位頂尖科學(xué)家才能完成的科學(xué)信息總結(jié),現(xiàn)在通過(guò) GPT-SII 的組合在幾秒鐘內(nèi)即可完成。

通過(guò) GPT-SII 的組合,該團(tuán)隊(duì)成功更新了兩年未更新的鈣鈦礦太陽(yáng)能電池FAIR數(shù)據(jù)庫(kù),并利用 GPT 生成的數(shù)據(jù)庫(kù),再次對(duì) LLM 進(jìn)行 fine-tuned,實(shí)現(xiàn)了對(duì)鈣鈦礦太陽(yáng)能電池和有機(jī)太陽(yáng)能電池組件的電學(xué)性能進(jìn)行精準(zhǔn)預(yù)測(cè)。

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

引言

最近,大型語(yǔ)言模型(LLM)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了驚人的進(jìn)步,其中?GPT-3?作為其中一員,引領(lǐng)了這一潮流。這些模型具有強(qiáng)大的學(xué)習(xí)和生成能力,使它們能夠理解和生成自然語(yǔ)言文本。盡管?GPT-3?在諸如新聞生成、翻譯和問(wèn)答等任務(wù)上的表現(xiàn)已經(jīng)被廣泛研究,但其在科學(xué)領(lǐng)域的潛力尚未得到充分挖掘。本文將重點(diǎn)介紹?GPT-3?在材料科學(xué)領(lǐng)域的應(yīng)用,以及如何利用這種強(qiáng)大的?AI?工具來(lái)推動(dòng)科學(xué)研究的發(fā)展。

大型語(yǔ)言模型(LLM)簡(jiǎn)介

大型語(yǔ)言模型(LLM)是一種基于深度學(xué)習(xí)的自然語(yǔ)言處理(NLP)模型,如?GPT-3BERT?和?T5?等。這些模型通過(guò)從大量文本數(shù)據(jù)中學(xué)習(xí)語(yǔ)言規(guī)律,從而實(shí)現(xiàn)對(duì)自然語(yǔ)言的理解和生成。在訓(xùn)練過(guò)程中,模型會(huì)學(xué)習(xí)到詞匯、語(yǔ)法、語(yǔ)義和語(yǔ)境等各種信息,來(lái)處理各種復(fù)雜的?NLP?任務(wù)。

GPT-3(第三代生成預(yù)訓(xùn)練式轉(zhuǎn)換器)是目前最先進(jìn)的?LLM?之一。該模型由?OpenAI?開(kāi)發(fā),具有?1750?億個(gè)參數(shù),是迄今為止最大的語(yǔ)言模型。GPT-3?已經(jīng)在多個(gè)?NLP?任務(wù)中取得了顯著的成果,如機(jī)器翻譯、問(wèn)答、文本摘要和代碼生成等。然而,盡管?GPT-3?在這些領(lǐng)域取得了巨大成功,但其在科學(xué)領(lǐng)域的應(yīng)用還處于起步階段。

大語(yǔ)言模型應(yīng)對(duì)科學(xué)文本時(shí)的困難

在科學(xué)領(lǐng)域,之前廣泛使用的 BERT 的模型遇到了一些挑戰(zhàn)。首先,微調(diào) BERT 模型的過(guò)程需要在原始文本中進(jìn)行詳細(xì)的標(biāo)注,這種標(biāo)注過(guò)程要求材料科學(xué)家具備一定的自然語(yǔ)言處理(NLP)經(jīng)驗(yàn)和技能。這不僅使人工標(biāo)注的成本和難度顯著增加,還可能導(dǎo)致標(biāo)注不一致和信息損失。其次,現(xiàn)有研究顯示,通用領(lǐng)域的BERT在科學(xué)研究中的表現(xiàn)尚不理想,特別是在處理領(lǐng)域特定術(shù)語(yǔ)和復(fù)雜關(guān)系時(shí)。這意味著為了在不同的細(xì)分領(lǐng)域取得理想的性能,需要為每個(gè)領(lǐng)域單獨(dú)重新訓(xùn)練和調(diào)整BERT模型。這對(duì)計(jì)算資源和訓(xùn)練數(shù)據(jù)的需求提出了巨大的挑戰(zhàn),尤其是在處理材料科學(xué)這樣一個(gè)高度專業(yè)化和跨學(xué)科的領(lǐng)域時(shí)。

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:微軟在2023.1 月發(fā)布的BioGPT 在PubMedQA 表現(xiàn)遠(yuǎn)超之前BERT架構(gòu)的模型

GPT-3在材料科學(xué)領(lǐng)域的應(yīng)用
為解決這些問(wèn)題,研究人員根據(jù) GPT-3 的 encoder-decoder ?架構(gòu),提出了一種名為結(jié)構(gòu)化信息推斷(Structured Information Inference,簡(jiǎn)稱SII)的新任務(wù)。SII 任務(wù)旨在從非結(jié)構(gòu)化的科學(xué)文本中提取分層的、特定領(lǐng)域的材料和器件信息,如成分、結(jié)構(gòu)、制備條件等。與傳統(tǒng)的信息提取方法相比,SII 具有更強(qiáng)的領(lǐng)域適應(yīng)性和靈活性,能夠應(yīng)對(duì)科學(xué)文本中各種各樣的復(fù)雜情況。

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:GPT-3在SII任務(wù)的工作流程,一段文本輸入后,Encoder 負(fù)責(zé)將文本編碼為向量并通過(guò)注意力機(jī)制等理解文本,Decoder 負(fù)責(zé)將向量表示反轉(zhuǎn)映射到文本的編碼,輸出概率最大的結(jié)果,即最有可能的結(jié)構(gòu)化信息。這一decoder結(jié)構(gòu)實(shí)質(zhì)上等于智能選擇并同時(shí)完成NER,RE,ER,II 等NLP 任務(wù)

SII 是一種 multi-task learning,包含以下四種 NLP 任務(wù):

命名實(shí)體識(shí)別(NER):直接提取信息,如材料名稱和溫度。

實(shí)體標(biāo)準(zhǔn)化(ER):對(duì)信息的表達(dá)格式、單位、縮略語(yǔ)等進(jìn)行標(biāo)準(zhǔn)化。

信息推理(II):對(duì)文章沒(méi)有出現(xiàn)過(guò),或缺失的信息進(jìn)行推理。

實(shí)體關(guān)系提取(RE):辨別單個(gè)實(shí)體或?qū)嶓w組之間的聯(lián)系。

SII?任務(wù)的實(shí)施過(guò)程主要包括以下幾個(gè)步驟:首先,研究人員根據(jù)綜述論文或?FAIR?數(shù)據(jù)集制定一個(gè)初始的信息提取方案。這個(gè)方案定義了所需提取信息的層次結(jié)構(gòu)、關(guān)鍵屬性以及它們之間的關(guān)系。接下來(lái),研究人員將方案應(yīng)用到?GPT-3?的微調(diào)過(guò)程中,以便讓?GPT-3?理解和遵循這個(gè)方案。通過(guò)這種方式,GPT-3?可以學(xué)會(huì)如何從非結(jié)構(gòu)化文本中提取所需的結(jié)構(gòu)化信息,并按照預(yù)定的格式呈現(xiàn)結(jié)果。

經(jīng)過(guò)SII任務(wù)訓(xùn)練后,GPT-3?在提取材料科學(xué)領(lǐng)域結(jié)構(gòu)化信息方面的表現(xiàn)得到了顯著提升。例如,GPT-3?可以根據(jù)所提供的文獻(xiàn)信息提取出鈣鈦礦太陽(yáng)能電池的成分、結(jié)構(gòu)和制備條件等關(guān)鍵信息。同時(shí),GPT-3?還可以處理有關(guān)有機(jī)光伏器件的文獻(xiàn),提取出與器件相關(guān)的重要參數(shù)和特性。

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:Fine-tuned GPT-3 在II, ER-U, ER-T 復(fù)雜文本任務(wù)中的表現(xiàn)

此外,SII?任務(wù)還可以幫助研究人員從文獻(xiàn)中提取更加豐富和復(fù)雜的關(guān)系數(shù)據(jù)。這些數(shù)據(jù)可以用于構(gòu)建知識(shí)圖譜,為研究人員提供全面的材料科學(xué)領(lǐng)域知識(shí)體系。通過(guò)將這些知識(shí)應(yīng)用于實(shí)際問(wèn)題,研究人員可以更加高效地開(kāi)發(fā)新型材料和器件,推動(dòng)材料科學(xué)領(lǐng)域的進(jìn)步。

值得注意的是,SII 任務(wù)得到的數(shù)據(jù)可以幫助研究人員發(fā)現(xiàn)新的材料和器件設(shè)計(jì)思路。通過(guò)分析?GPT-3?生成的高維數(shù)據(jù)集,研究人員可以探究不同材料參數(shù)(如退火時(shí)間、退火溫度、材料厚度和面積等)對(duì)器件性能的影響,從而為實(shí)驗(yàn)設(shè)計(jì)提供有益的指導(dǎo)。

傳統(tǒng)的信息提取過(guò)程通常需要花費(fèi)大量時(shí)間在閱讀文獻(xiàn)、整理信息和分析數(shù)據(jù)上。使用微調(diào)的 GPT-3 完成 SII 任務(wù),可以提高信息提取的準(zhǔn)確性和效率,科研人員可以快速地獲取所需的結(jié)構(gòu)化信息,從而將更多的時(shí)間和精力投入到實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)中,節(jié)省大量的時(shí)間和精力。

此外,SII?任務(wù)在跨學(xué)科領(lǐng)域的應(yīng)用也具有廣泛的前景。許多科學(xué)領(lǐng)域,如生物學(xué)、化學(xué)和物理學(xué)等,都需要從大量的文獻(xiàn)中提取和分析結(jié)構(gòu)化信息。SII?任務(wù)可以靈活地應(yīng)用于這些領(lǐng)域,幫助研究人員從海量的非結(jié)構(gòu)化文本中快速獲取有價(jià)值的知識(shí),從而加速科學(xué)研究的進(jìn)程。

用SII生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能的能力

通過(guò)使用經(jīng)過(guò)結(jié)構(gòu)化信息推斷(SII)任務(wù)訓(xùn)練的?GPT-3,我們可以構(gòu)建出具有高度結(jié)構(gòu)化的材料和器件數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)中的信息可以為研究人員提供關(guān)于材料和器件性能的有價(jià)值見(jiàn)解,從而有助于更好地理解和預(yù)測(cè)材料的性能以及器件的工作原理。

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

圖:Fine-tuned GPT-3 與 深度學(xué)習(xí)算法在預(yù)測(cè)有機(jī)太陽(yáng)能電池的 PCE 的效果比較(MAE: Mean Absolute Errors)

在材料科學(xué)領(lǐng)域,通過(guò)對(duì)?GPT-3?進(jìn)行?SII?任務(wù)訓(xùn)練,可以有效地從大量文獻(xiàn)中提取出關(guān)鍵的材料參數(shù)和性能指標(biāo)。這些數(shù)據(jù)可以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,從而預(yù)測(cè)新材料的性能和可能的應(yīng)用領(lǐng)域。這對(duì)于加速材料研究和發(fā)現(xiàn)具有重要的意義。

在器件設(shè)計(jì)方面,通過(guò)?SII?任務(wù)生成的數(shù)據(jù)庫(kù),研究人員可以了解不同器件結(jié)構(gòu)和工藝參數(shù)對(duì)器件性能的影響,從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。此外,這些數(shù)據(jù)庫(kù)還可以用于探索新型器件的可能性,為實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)提供靈感。

值得注意的是,使用SII任務(wù)生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能時(shí),還需要充分考慮模型的局限性。例如,GPT-3?的預(yù)測(cè)能力可能受限于其訓(xùn)練數(shù)據(jù)中的知識(shí)范圍,以及模型本身的復(fù)雜度。因此,在實(shí)際應(yīng)用中,研究人員需要謹(jǐn)慎對(duì)待模型的預(yù)測(cè)結(jié)果,并結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證和優(yōu)化。

總之,利用SII任務(wù)生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能具有巨大的潛力。這一方法可以幫助研究人員更好地理解材料性能和器件工作原理,加速新材料的研究和發(fā)現(xiàn),以及優(yōu)化器件設(shè)計(jì)。同時(shí),我們也應(yīng)充分認(rèn)識(shí)到模型的局限性,結(jié)合實(shí)驗(yàn)數(shù)據(jù),不斷提高預(yù)測(cè)的準(zhǔn)確性和可靠性。

總結(jié)

在本文中,我們重點(diǎn)介紹了 GPT-3 在材料科學(xué)領(lǐng)域的應(yīng)用及其潛力。通過(guò)微調(diào)訓(xùn)練 GPT-3,研究人員可以從大量科學(xué)文獻(xiàn)中提取有價(jià)值的信息,并預(yù)測(cè)材料性能和器件性能。此外,它們還可以幫助研究人員了解不同器件結(jié)構(gòu)和工藝參數(shù)對(duì)器件性能的影響,從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。隨著 GPT-3 等大型語(yǔ)言模型技術(shù)的不斷發(fā)展和完善,我們有理由相信,它們將在未來(lái)的科學(xué)研究中發(fā)揮更加重要的作用。

大型語(yǔ)言模型作為萬(wàn)能鑰匙:用GPT解鎖材料科學(xué)的秘密

合作研究組織:新南威爾士大學(xué),香港城市大學(xué),悉尼大學(xué),墨爾本大學(xué),DARE 研究中心,律動(dòng)科技。

原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/04/05/8e47634e79/

(0)

相關(guān)推薦

即墨市| 平邑县| 台南市| 罗江县| 察隅县| 友谊县| 施甸县| 和硕县| 连城县| 瓦房店市| 五寨县| 礼泉县| 湘西| 青冈县| 九寨沟县| 兴城市| 贺州市| 河间市| 洛阳市| 米易县| 贵德县| 日喀则市| 西城区| 石嘴山市| 建湖县| 兴和县| 乌兰察布市| 繁昌县| 沈阳市| 宕昌县| 巩义市| 安义县| 常州市| 贡觉县| 广汉市| 阿鲁科尔沁旗| 许昌县| 资中县| 张家界市| 卫辉市| 宕昌县|