国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

?? 作者 | 澳大利亞新南威爾士大學(xué) Bram Hoex AI for Science 研究組

編輯 | 蘿卜皮

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

近期，大型語(yǔ)言模型（LLM）在自然語(yǔ)言處理（NLP）領(lǐng)域取得了驚人的進(jìn)步，其中 GPT-3 引領(lǐng)了這一潮流。這些模型具備強(qiáng)大的學(xué)習(xí)和生成能力，使得它們能夠理解和生成自然語(yǔ)言文本。盡管 GPT-3 在新聞生成、翻譯和問(wèn)答等任務(wù)上的表現(xiàn)已被廣泛研究，但其在科學(xué)領(lǐng)域的潛力尚未被充分挖掘。

最近，來(lái)自澳大利亞新南威爾士大學(xué)的 Bram Hoex AI4Science 研究組提出了一種全新的 NLP 任務(wù)，即結(jié)構(gòu)化信息推斷（SII），成功利用 GPT-3 從科學(xué)文獻(xiàn)中獲取有價(jià)值的科學(xué)知識(shí)。該任務(wù)的成本極低，不需要提供專業(yè)性的標(biāo)注,僅僅依靠綜述論文。過(guò)去需要數(shù)十位頂尖科學(xué)家才能完成的科學(xué)信息總結(jié)，現(xiàn)在通過(guò) GPT-SII 的組合在幾秒鐘內(nèi)即可完成。

通過(guò) GPT-SII 的組合，該團(tuán)隊(duì)成功更新了兩年未更新的鈣鈦礦太陽(yáng)能電池FAIR數(shù)據(jù)庫(kù)，并利用 GPT 生成的數(shù)據(jù)庫(kù)，再次對(duì) LLM 進(jìn)行 fine-tuned，實(shí)現(xiàn)了對(duì)鈣鈦礦太陽(yáng)能電池和有機(jī)太陽(yáng)能電池組件的電學(xué)性能進(jìn)行精準(zhǔn)預(yù)測(cè)。

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

引言

最近，大型語(yǔ)言模型（LLM）在自然語(yǔ)言處理（NLP）領(lǐng)域取得了驚人的進(jìn)步，其中?GPT-3?作為其中一員，引領(lǐng)了這一潮流。這些模型具有強(qiáng)大的學(xué)習(xí)和生成能力，使它們能夠理解和生成自然語(yǔ)言文本。盡管?GPT-3?在諸如新聞生成、翻譯和問(wèn)答等任務(wù)上的表現(xiàn)已經(jīng)被廣泛研究，但其在科學(xué)領(lǐng)域的潛力尚未得到充分挖掘。本文將重點(diǎn)介紹?GPT-3?在材料科學(xué)領(lǐng)域的應(yīng)用，以及如何利用這種強(qiáng)大的?AI?工具來(lái)推動(dòng)科學(xué)研究的發(fā)展。

大型語(yǔ)言模型（LLM）簡(jiǎn)介

大型語(yǔ)言模型（LLM）是一種基于深度學(xué)習(xí)的自然語(yǔ)言處理（NLP）模型，如?GPT-3、BERT?和?T5?等。這些模型通過(guò)從大量文本數(shù)據(jù)中學(xué)習(xí)語(yǔ)言規(guī)律，從而實(shí)現(xiàn)對(duì)自然語(yǔ)言的理解和生成。在訓(xùn)練過(guò)程中，模型會(huì)學(xué)習(xí)到詞匯、語(yǔ)法、語(yǔ)義和語(yǔ)境等各種信息，來(lái)處理各種復(fù)雜的?NLP?任務(wù)。

GPT-3（第三代生成預(yù)訓(xùn)練式轉(zhuǎn)換器）是目前最先進(jìn)的?LLM?之一。該模型由?OpenAI?開(kāi)發(fā)，具有?1750?億個(gè)參數(shù)，是迄今為止最大的語(yǔ)言模型。GPT-3?已經(jīng)在多個(gè)?NLP?任務(wù)中取得了顯著的成果，如機(jī)器翻譯、問(wèn)答、文本摘要和代碼生成等。然而，盡管?GPT-3?在這些領(lǐng)域取得了巨大成功，但其在科學(xué)領(lǐng)域的應(yīng)用還處于起步階段。

大語(yǔ)言模型應(yīng)對(duì)科學(xué)文本時(shí)的困難

在科學(xué)領(lǐng)域，之前廣泛使用的 BERT 的模型遇到了一些挑戰(zhàn)。首先，微調(diào) BERT 模型的過(guò)程需要在原始文本中進(jìn)行詳細(xì)的標(biāo)注，這種標(biāo)注過(guò)程要求材料科學(xué)家具備一定的自然語(yǔ)言處理（NLP）經(jīng)驗(yàn)和技能。這不僅使人工標(biāo)注的成本和難度顯著增加，還可能導(dǎo)致標(biāo)注不一致和信息損失。其次，現(xiàn)有研究顯示，通用領(lǐng)域的BERT在科學(xué)研究中的表現(xiàn)尚不理想，特別是在處理領(lǐng)域特定術(shù)語(yǔ)和復(fù)雜關(guān)系時(shí)。這意味著為了在不同的細(xì)分領(lǐng)域取得理想的性能，需要為每個(gè)領(lǐng)域單獨(dú)重新訓(xùn)練和調(diào)整BERT模型。這對(duì)計(jì)算資源和訓(xùn)練數(shù)據(jù)的需求提出了巨大的挑戰(zhàn)，尤其是在處理材料科學(xué)這樣一個(gè)高度專業(yè)化和跨學(xué)科的領(lǐng)域時(shí)。

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

圖：微軟在2023.1 月發(fā)布的BioGPT 在PubMedQA 表現(xiàn)遠(yuǎn)超之前BERT架構(gòu)的模型

GPT-3在材料科學(xué)領(lǐng)域的應(yīng)用

為解決這些問(wèn)題，研究人員根據(jù) GPT-3 的 encoder-decoder ?架構(gòu)，提出了一種名為結(jié)構(gòu)化信息推斷（Structured Information Inference，簡(jiǎn)稱SII）的新任務(wù)。SII 任務(wù)旨在從非結(jié)構(gòu)化的科學(xué)文本中提取分層的、特定領(lǐng)域的材料和器件信息，如成分、結(jié)構(gòu)、制備條件等。與傳統(tǒng)的信息提取方法相比，SII 具有更強(qiáng)的領(lǐng)域適應(yīng)性和靈活性，能夠應(yīng)對(duì)科學(xué)文本中各種各樣的復(fù)雜情況。

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

圖：GPT-3在SII任務(wù)的工作流程，一段文本輸入后，Encoder 負(fù)責(zé)將文本編碼為向量并通過(guò)注意力機(jī)制等理解文本，Decoder 負(fù)責(zé)將向量表示反轉(zhuǎn)映射到文本的編碼，輸出概率最大的結(jié)果，即最有可能的結(jié)構(gòu)化信息。這一decoder結(jié)構(gòu)實(shí)質(zhì)上等于智能選擇并同時(shí)完成NER,RE,ER,II 等NLP 任務(wù)

SII 是一種 multi-task learning，包含以下四種 NLP 任務(wù)：

命名實(shí)體識(shí)別（NER）：直接提取信息，如材料名稱和溫度。

實(shí)體標(biāo)準(zhǔn)化（ER)：對(duì)信息的表達(dá)格式、單位、縮略語(yǔ)等進(jìn)行標(biāo)準(zhǔn)化。

信息推理（II）：對(duì)文章沒(méi)有出現(xiàn)過(guò)，或缺失的信息進(jìn)行推理。

實(shí)體關(guān)系提取（RE）：辨別單個(gè)實(shí)體或?qū)嶓w組之間的聯(lián)系。

SII?任務(wù)的實(shí)施過(guò)程主要包括以下幾個(gè)步驟：首先，研究人員根據(jù)綜述論文或?FAIR?數(shù)據(jù)集制定一個(gè)初始的信息提取方案。這個(gè)方案定義了所需提取信息的層次結(jié)構(gòu)、關(guān)鍵屬性以及它們之間的關(guān)系。接下來(lái)，研究人員將方案應(yīng)用到?GPT-3?的微調(diào)過(guò)程中，以便讓?GPT-3?理解和遵循這個(gè)方案。通過(guò)這種方式，GPT-3?可以學(xué)會(huì)如何從非結(jié)構(gòu)化文本中提取所需的結(jié)構(gòu)化信息，并按照預(yù)定的格式呈現(xiàn)結(jié)果。

經(jīng)過(guò)SII任務(wù)訓(xùn)練后，GPT-3?在提取材料科學(xué)領(lǐng)域結(jié)構(gòu)化信息方面的表現(xiàn)得到了顯著提升。例如，GPT-3?可以根據(jù)所提供的文獻(xiàn)信息提取出鈣鈦礦太陽(yáng)能電池的成分、結(jié)構(gòu)和制備條件等關(guān)鍵信息。同時(shí)，GPT-3?還可以處理有關(guān)有機(jī)光伏器件的文獻(xiàn)，提取出與器件相關(guān)的重要參數(shù)和特性。

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

圖：Fine-tuned GPT-3 在II, ER-U, ER-T 復(fù)雜文本任務(wù)中的表現(xiàn)

此外，SII?任務(wù)還可以幫助研究人員從文獻(xiàn)中提取更加豐富和復(fù)雜的關(guān)系數(shù)據(jù)。這些數(shù)據(jù)可以用于構(gòu)建知識(shí)圖譜，為研究人員提供全面的材料科學(xué)領(lǐng)域知識(shí)體系。通過(guò)將這些知識(shí)應(yīng)用于實(shí)際問(wèn)題，研究人員可以更加高效地開(kāi)發(fā)新型材料和器件，推動(dòng)材料科學(xué)領(lǐng)域的進(jìn)步。

值得注意的是，SII 任務(wù)得到的數(shù)據(jù)可以幫助研究人員發(fā)現(xiàn)新的材料和器件設(shè)計(jì)思路。通過(guò)分析?GPT-3?生成的高維數(shù)據(jù)集，研究人員可以探究不同材料參數(shù)（如退火時(shí)間、退火溫度、材料厚度和面積等）對(duì)器件性能的影響，從而為實(shí)驗(yàn)設(shè)計(jì)提供有益的指導(dǎo)。

傳統(tǒng)的信息提取過(guò)程通常需要花費(fèi)大量時(shí)間在閱讀文獻(xiàn)、整理信息和分析數(shù)據(jù)上。使用微調(diào)的 GPT-3 完成 SII 任務(wù)，可以提高信息提取的準(zhǔn)確性和效率，科研人員可以快速地獲取所需的結(jié)構(gòu)化信息，從而將更多的時(shí)間和精力投入到實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)中，節(jié)省大量的時(shí)間和精力。

此外，SII?任務(wù)在跨學(xué)科領(lǐng)域的應(yīng)用也具有廣泛的前景。許多科學(xué)領(lǐng)域，如生物學(xué)、化學(xué)和物理學(xué)等，都需要從大量的文獻(xiàn)中提取和分析結(jié)構(gòu)化信息。SII?任務(wù)可以靈活地應(yīng)用于這些領(lǐng)域，幫助研究人員從海量的非結(jié)構(gòu)化文本中快速獲取有價(jià)值的知識(shí)，從而加速科學(xué)研究的進(jìn)程。

用SII生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能的能力

通過(guò)使用經(jīng)過(guò)結(jié)構(gòu)化信息推斷（SII）任務(wù)訓(xùn)練的?GPT-3，我們可以構(gòu)建出具有高度結(jié)構(gòu)化的材料和器件數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)中的信息可以為研究人員提供關(guān)于材料和器件性能的有價(jià)值見(jiàn)解，從而有助于更好地理解和預(yù)測(cè)材料的性能以及器件的工作原理。

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

圖：Fine-tuned GPT-3 與深度學(xué)習(xí)算法在預(yù)測(cè)有機(jī)太陽(yáng)能電池的 PCE 的效果比較（MAE: Mean Absolute Errors）

在材料科學(xué)領(lǐng)域，通過(guò)對(duì)?GPT-3?進(jìn)行?SII?任務(wù)訓(xùn)練，可以有效地從大量文獻(xiàn)中提取出關(guān)鍵的材料參數(shù)和性能指標(biāo)。這些數(shù)據(jù)可以用于訓(xùn)練機(jī)器學(xué)習(xí)模型，從而預(yù)測(cè)新材料的性能和可能的應(yīng)用領(lǐng)域。這對(duì)于加速材料研究和發(fā)現(xiàn)具有重要的意義。

在器件設(shè)計(jì)方面，通過(guò)?SII?任務(wù)生成的數(shù)據(jù)庫(kù)，研究人員可以了解不同器件結(jié)構(gòu)和工藝參數(shù)對(duì)器件性能的影響，從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。此外，這些數(shù)據(jù)庫(kù)還可以用于探索新型器件的可能性，為實(shí)驗(yàn)研究和創(chuàng)新設(shè)計(jì)提供靈感。

值得注意的是，使用SII任務(wù)生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能時(shí)，還需要充分考慮模型的局限性。例如，GPT-3?的預(yù)測(cè)能力可能受限于其訓(xùn)練數(shù)據(jù)中的知識(shí)范圍，以及模型本身的復(fù)雜度。因此，在實(shí)際應(yīng)用中，研究人員需要謹(jǐn)慎對(duì)待模型的預(yù)測(cè)結(jié)果，并結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證和優(yōu)化。

總之，利用SII任務(wù)生成的數(shù)據(jù)庫(kù)預(yù)測(cè)材料和器件性能具有巨大的潛力。這一方法可以幫助研究人員更好地理解材料性能和器件工作原理，加速新材料的研究和發(fā)現(xiàn)，以及優(yōu)化器件設(shè)計(jì)。同時(shí)，我們也應(yīng)充分認(rèn)識(shí)到模型的局限性，結(jié)合實(shí)驗(yàn)數(shù)據(jù)，不斷提高預(yù)測(cè)的準(zhǔn)確性和可靠性。

總結(jié)

在本文中，我們重點(diǎn)介紹了 GPT-3 在材料科學(xué)領(lǐng)域的應(yīng)用及其潛力。通過(guò)微調(diào)訓(xùn)練 GPT-3，研究人員可以從大量科學(xué)文獻(xiàn)中提取有價(jià)值的信息，并預(yù)測(cè)材料性能和器件性能。此外，它們還可以幫助研究人員了解不同器件結(jié)構(gòu)和工藝參數(shù)對(duì)器件性能的影響，從而為優(yōu)化器件設(shè)計(jì)提供依據(jù)。隨著 GPT-3 等大型語(yǔ)言模型技術(shù)的不斷發(fā)展和完善，我們有理由相信，它們將在未來(lái)的科學(xué)研究中發(fā)揮更加重要的作用。

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

合作研究組織：新南威爾士大學(xué)，香港城市大學(xué)，悉尼大學(xué)，墨爾本大學(xué)，DARE 研究中心，律動(dòng)科技。

原創(chuàng)文章，作者：計(jì)算搬磚工程師，如若轉(zhuǎn)載，請(qǐng)注明來(lái)源華算科技，注明出處：http://m.xiubac.cn/index.php/2024/04/05/8e47634e79/

国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

大型語(yǔ)言模型作為萬(wàn)能鑰匙：用GPT解鎖材料科學(xué)的秘密

相關(guān)推薦