來(lái)自公眾號(hào): ScienceAI 本文以傳播知識(shí)為目的,如有侵權(quán)請(qǐng)后臺(tái)聯(lián)系我們,我們將在第一時(shí)間刪除。 作者:Jiatong LI&Yunqing LIU 論文題目:Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective 論文鏈接:https://arxiv.org/abs/2306.06615 項(xiàng)目鏈接:https://github.com/phenixace/MolReGPT 圖1. 分子發(fā)現(xiàn)中分子(molecule)和分子文本描述(molecule caption)之間相互翻譯的說(shuō)明。(a) 分子可以用化學(xué)式、SMILES字符串和二維分子圖來(lái)表示。(b)分子文本描述生成(Molecule Captioning)的目的是生成一段文本去描述一個(gè)分子的結(jié)構(gòu)、特性及功能,以便人類更好地理解。(c) 給定一段分子的文本描述,基于文本的分子生成旨在生成一個(gè)相應(yīng)的分子 (Text-based Molecule Generation)。(d) 大型語(yǔ)言模型(如ChatGPT)可以通過(guò)相應(yīng)的精心設(shè)計(jì)的提示(Prompt)實(shí)現(xiàn)分子文本描述生成(Mol2Cap)和基于文本的分子生成任務(wù)(Cap2Mol)。 分子是物質(zhì)的基本組成,構(gòu)成了周圍世界的復(fù)雜系統(tǒng)。分子由多個(gè)原子組成,以獨(dú)特的化學(xué)方式(例如化學(xué)鍵)結(jié)合在一起,并保留了由其特定結(jié)構(gòu)決定的獨(dú)特的化學(xué)特性。有了對(duì)分子的全面了解,科學(xué)家可以有效地設(shè)計(jì)出具有不同特性和功能的材料、藥物和產(chǎn)品。 然而,傳統(tǒng)的分子發(fā)現(xiàn)有著漫長(zhǎng)、昂貴和容易失敗的過(guò)程,在可擴(kuò)展性、精確性和數(shù)據(jù)管理方面都存在限制。為了克服這些挑戰(zhàn),人工智能(AI)等計(jì)算技術(shù)已經(jīng)成為加速發(fā)現(xiàn)新分子的有力工具。 具體來(lái)說(shuō),分子可以被表示為一種簡(jiǎn)化的分子字符串(SMILES字符串)。如圖1(a)所示,苯酚的結(jié)構(gòu)可以用SMILES字符串表示,它是由一個(gè)苯環(huán)和一個(gè)羥基組成。為了生成并更好地理解分子,Text2Mol[1]和MolT5[2]提出一項(xiàng)在分子和自然語(yǔ)言之間進(jìn)行翻譯的新任務(wù),即分子-文本描述間相互翻譯任務(wù)。 它由兩個(gè)子任務(wù)組成:分子文本描述生成(Mol2Cap)和基于文本的分子生成(Cap2Mol)。如圖1(b-c)所示,分子文本描述生成的目標(biāo)是生成一個(gè)文本來(lái)描述分子的SMILES字符串,以便為人們提供一個(gè)更好的分子理解;而基于文本的分子生成旨在根據(jù)給定的自然語(yǔ)言描述(如屬性和功能團(tuán))生成相應(yīng)的分子(即SMILES字符串)。 ? 【分子翻譯成文本描述/分子文本描述生成任務(wù)Molecule Captioning( Mol2Cap)】一位醫(yī)生想知道藥物的性質(zhì),便將藥物分子和自己的問(wèn)題一起交給大語(yǔ)言模型,模型便對(duì)分子的特性進(jìn)行分析和預(yù)測(cè),從而幫助醫(yī)生更好地對(duì)癥下藥。如圖1-b; ? 【文本描述翻譯成分子/基于文本的分子生成任務(wù)Text-based Molecule Generation(Mol2Cap)】一位化學(xué)家將自己的需求直接陳述給大語(yǔ)言模型,模型便幫助他生成了一個(gè)或多個(gè)候選分子,通過(guò)對(duì)候選分子的進(jìn)一步實(shí)驗(yàn),就可以極大地簡(jiǎn)化分子或藥物發(fā)現(xiàn)的流程。如圖1-c。 盡管現(xiàn)有的大多數(shù)工作在分子-文本描述間相互翻譯任務(wù)中取得了令人滿意的進(jìn)展,但它們都存在幾個(gè)局限性。首先,分子-文本描述間相互翻譯任務(wù)中的模型架構(gòu)的設(shè)計(jì)嚴(yán)重依賴領(lǐng)域?qū)<遥@大大限制了人工智能驅(qū)動(dòng)分子發(fā)現(xiàn)的發(fā)展。第二,大多數(shù)現(xiàn)有方法遵循“預(yù)訓(xùn)練&微調(diào)”的模型進(jìn)行,這需要過(guò)多的計(jì)算成本。第三,現(xiàn)有的方法,如Text2Mol[1]和MolT5[2],不能對(duì)復(fù)雜的任務(wù)進(jìn)行推理,也不能對(duì)未曾見(jiàn)過(guò)的樣本進(jìn)行歸納。 最近,大語(yǔ)言模型(LLMs)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成就。LLMs除了在自然語(yǔ)言理解和生成方面具有令人印象深刻的能力外,還展示了強(qiáng)大的泛化和推理能力。它可以通過(guò)上下文學(xué)習(xí)(In-Context Learning,ICL)泛化到其他未見(jiàn)過(guò)的任務(wù),而無(wú)需進(jìn)行微調(diào),在很大程度上降低計(jì)算成本。因此,LLMs在推進(jìn)分子發(fā)現(xiàn)方面具有前所未有的潛力,特別是在分子-文本描述間相互翻譯任務(wù)方面。 盡管在分子發(fā)現(xiàn)中構(gòu)建特定的LLMs對(duì)于推動(dòng)科學(xué)研究有著巨大的潛力,但也面臨著巨大的挑戰(zhàn)。首先,由于隱私和安全問(wèn)題,許多先進(jìn)的大型語(yǔ)言模型(如ChatGPT和GPT4.0)是不公開(kāi)的,也就是說(shuō), LLMs的架構(gòu)和參數(shù)不公開(kāi)發(fā)布,不可以在下游任務(wù)進(jìn)行微調(diào)。其次,由于其復(fù)雜的架構(gòu)和所需的大量數(shù)據(jù),訓(xùn)練先進(jìn)的LLMs需要大量的計(jì)算資源。因此,重新設(shè)計(jì)自己的LLMs,并進(jìn)行預(yù)訓(xùn)練和微調(diào)是非常具有挑戰(zhàn)性的。最后,設(shè)計(jì)適當(dāng)?shù)臏?zhǔn)則或提示,并配以少量高質(zhì)量的示例,對(duì)于提高LLMs對(duì)分子發(fā)現(xiàn)的理解和推理能力是至關(guān)重要的。 為了解決這些問(wèn)題,來(lái)自香港理工大學(xué)和密歇根州立大學(xué)的研究人員在分子發(fā)現(xiàn)領(lǐng)域利用LLMs的強(qiáng)大功能進(jìn)行了探索嘗試。他們提出了一個(gè)新穎的解決方案,使用提示來(lái)指導(dǎo)LLMs在分子和分子文本描述之間進(jìn)行翻譯,如圖1(d)所示。具體來(lái)說(shuō),受最新的ChatGPT啟發(fā),他們開(kāi)發(fā)了一個(gè)基于檢索的提示范式MolReGPT[5],通過(guò)基于分子摩根指紋的相似性檢索/基于BM25的分子文本描述檢索和上下文學(xué)習(xí)(ICL)且不進(jìn)行微調(diào)來(lái)進(jìn)行兩個(gè)子任務(wù)(即通分子文本描述生成和基于文本的分子生成)。實(shí)驗(yàn)表明,MolReGPT在Mol2Cap生成中可以達(dá)到0.560,在Cap2Mol生成中可以達(dá)到0.571,在分子-描述間相互翻譯的兩個(gè)子任務(wù)中都超過(guò)了微調(diào)的MolT5-base。MolReGPT在基于文本的分子生成方面甚至超過(guò)了MolT5,使Text2Mol的指標(biāo)提高了3%。值得注意的是,MolReGPT在任務(wù)上的所有提升都是在沒(méi)有任何微調(diào)步驟的情況下實(shí)現(xiàn)的。 由于巨大的計(jì)算成本,在分子發(fā)現(xiàn)領(lǐng)域的特定語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練和微調(diào)LLMs在實(shí)踐中往往是不可行的。為了解決這些限制,研究人員在不改變LLMs的情況下利用LLMs的強(qiáng)大能力,提出了一個(gè)創(chuàng)新性的框架MolReGPT,使ChatGPT具有分子-文本描述間相互翻譯的能力。具體來(lái)說(shuō),為了提高指導(dǎo)/提示的質(zhì)量,他們引入了一個(gè)基于檢索的提示范式,在上下文學(xué)習(xí)下指導(dǎo)ChatGPT進(jìn)行兩個(gè)與分子相關(guān)的任務(wù):分子文本描述生成(MolCap)和基于文本的分子生成(Cap2Mol)。MolReGPT的框架如圖 2所示,由四個(gè)主要階段組成:分子-文本描述檢索、Prompt提示管理、上下文小樣本分子學(xué)習(xí)和生成校準(zhǔn)。 1. 分子-文本描述檢索(Molecule-Caption Retrieval) (圖3):這個(gè)階段,用于從數(shù)據(jù)庫(kù)中檢索出n個(gè)與輸入分子或者分子文本描述最相似的分子-分子描述對(duì)(即小樣本學(xué)習(xí)的例子)。這個(gè)過(guò)程主要依賴于分子摩根指紋(針對(duì)Mol2Cap)和BM25(針對(duì)Cap2Mol)兩種檢索方法。 圖3: 分子-文本描述檢索(Molecule-Caption Retrieval)。 a. 基于摩根指紋的分子檢索(針對(duì)Mol2Cap) 圖4: 分子摩根指紋和Dice相似性圖示。綠色對(duì)應(yīng)的是對(duì)分子間相似性分?jǐn)?shù)有正貢獻(xiàn)的子結(jié)構(gòu),紫色部分對(duì)應(yīng)的是對(duì)分子間相似性分?jǐn)?shù)有負(fù)貢獻(xiàn)的或者有差異的子結(jié)構(gòu)。 為了提取摩根指紋,使用rdkit庫(kù)將分子的SMILES表示轉(zhuǎn)換為rdkit對(duì)象。隨后應(yīng)用Dice相似度,來(lái)衡量輸入分子和本地?cái)?shù)據(jù)庫(kù)中的分子之間的相似度,如圖3所示。在數(shù)學(xué)上,可以表示為: 其中,A和B是兩個(gè)分子的摩根指紋。|A|和|B|表示A和B的基數(shù)(例如,子結(jié)構(gòu)數(shù)量)。|A ∩ B|表示A和B共有的子結(jié)構(gòu)的數(shù)量。Dice相似性的范圍是0到1,其中0表示分子之間沒(méi)有重疊或相似性,1表示完全重疊。 b. 基本BM25的分子文本生成檢索(針對(duì)Cap2Mol) BM25是信息檢索中最具代表性的排名方法之一,用于計(jì)算文檔與給定查詢的相關(guān)性。在Cap2Mol任務(wù)中,使用輸入的文字描述作為查詢句子,而本地?cái)?shù)據(jù)庫(kù)中的文字描述作為文檔的語(yǔ)料庫(kù),其中每個(gè)文本描述代表一個(gè)文檔。在數(shù)學(xué)上,BM25公式可以定義如下: 其中,D是文本描述語(yǔ)料庫(kù),Q使查詢的文本描述。N是查詢文本描述中查詢?cè)~的數(shù)量,Qi是第i個(gè)查詢?cè)~,IDF(Qi)是Qi的反文檔頻率,f(Qi,D)是Qi在D中的詞頻,k1和b是調(diào)整參數(shù),|D|是D的長(zhǎng)度,avgdl是語(yǔ)料庫(kù)中平均文本描述的長(zhǎng)度。在文本描述檢索中,BM25被用于計(jì)算文本描述之間的相似性分?jǐn)?shù),這樣可以通過(guò)篩選分子-文本描述對(duì)來(lái)學(xué)習(xí)文本描述中所對(duì)應(yīng)的相關(guān)分子結(jié)構(gòu)。 2. Prompt提示管理 (Prompt Management) (圖5):這一階段主要對(duì)ChatGPT的系統(tǒng)提示進(jìn)行管理和構(gòu)建,Prompt提示中主要包括角色識(shí)別(Role Identification)、任務(wù)描述(Task Description)、檢索的示例(Examples)和輸出指示(Output Instruction)這四個(gè)部分。其中,示例將由第一步的檢索過(guò)程給出。每一部分都承擔(dān)著對(duì)輸出的特定指導(dǎo)作用。 圖5: Prompt提示管理 (Prompt Management)。 a. 角色識(shí)別(Role Identification) 角色識(shí)別的目的是幫助LLMs認(rèn)知為在化學(xué)和分子發(fā)現(xiàn)領(lǐng)域的專家角色。通過(guò)認(rèn)知為這個(gè)角色,鼓勵(lì)LLMs產(chǎn)生與特定領(lǐng)域預(yù)期的專業(yè)知識(shí)相一致的回答。 b. 任務(wù)描述(Task Description) 任務(wù)描述提供了對(duì)任務(wù)內(nèi)容的全面解釋,確保LLM對(duì)他們需要處理的具體任務(wù)有一個(gè)明確的認(rèn)識(shí)。它還包括關(guān)鍵的定義,以澄清分子-文本描述間相互翻譯任務(wù)中的專業(yè)術(shù)語(yǔ)或概念。 將檢索的示例作為用戶輸入提示,使LLMs能夠利用小樣本學(xué)習(xí)示例中包含的信息作出更好的回應(yīng)。 d. 輸出指示(Output Instruction) 輸出指示規(guī)定了響應(yīng)的格式。這里,研究人員將輸出限制為JSON格式。選擇JSON格式可以快速有效地驗(yàn)證LLMs的回答,確保它符合預(yù)期的結(jié)果,便于進(jìn)一步處理和分析。 3. 上下文小樣本分子學(xué)習(xí)(In-Context Few-Shot Moleule Learning) (圖6): 在這個(gè)階段,系統(tǒng)提示和用戶輸入提示將會(huì)一起提供給ChatGPT進(jìn)行上下文小樣本分子學(xué)習(xí)。這個(gè)過(guò)程基于大語(yǔ)言模型的上下文學(xué)習(xí)能力,僅僅依靠少量相似的樣本,就可以捕獲到分子的結(jié)構(gòu)所對(duì)應(yīng)的特性,來(lái)進(jìn)行分子-文本描述間相互翻譯任務(wù),而不需要對(duì)大語(yǔ)言模型進(jìn)行微調(diào)。 系統(tǒng)提示和用戶輸入提示的結(jié)合通過(guò)上下文學(xué)習(xí)為ChatGPT提供了清晰的指引,系統(tǒng)提示建立了分子-文本描述間相互翻譯和分子領(lǐng)域?qū)I(yè)知識(shí)的任務(wù)框架,而用戶提示則縮小了范圍,將模型的注意力引導(dǎo)到具體的用戶輸入上。 圖6: 上下文小樣本分子學(xué)習(xí)(In-Context Few-Shot Moleule Learning)。 4. 生成校準(zhǔn)(Generation Calibration) (圖7): 在這個(gè)階段,系統(tǒng)會(huì)對(duì)ChatGPT的輸出進(jìn)行校準(zhǔn),以確保其符合預(yù)期的格式和要求。如果輸出不符合預(yù)期,系統(tǒng)會(huì)重新交給ChatGPT進(jìn)行生成,直到達(dá)到最大允許的錯(cuò)誤次數(shù)。 盡管指定了所需的輸出格式,LLM(例如ChatGPT)偶爾也會(huì)產(chǎn)生意外的響應(yīng),包括不正確的輸出格式和拒絕回答。為了解決這些問(wèn)題,研究人員引入了一個(gè)生成校準(zhǔn)機(jī)制來(lái)驗(yàn)證ChatGPT的響應(yīng)。在生成校準(zhǔn)中,他們首先通過(guò)將原始響應(yīng)解析為JSON對(duì)象來(lái)檢查其格式。如果解析過(guò)程失敗,表明偏離了預(yù)期的格式,就會(huì)引入幾個(gè)預(yù)定義的格式校正策略,如正則匹配,以校正格式并從響應(yīng)中提取所需的結(jié)果。如果原始回答成功地通過(guò)了格式檢查,或者可以使用格式校正策略進(jìn)行校準(zhǔn),那么它就被認(rèn)為是有效的并被接受為最終回答。然而,如果原始響應(yīng)沒(méi)有通過(guò)格式檢查,并且不能在預(yù)定的策略中進(jìn)行校正,我們就會(huì)啟動(dòng)重新查詢。值得注意的是,重新查詢有一個(gè)特殊情況。當(dāng)原始響應(yīng)報(bào)告 “超出最大輸入長(zhǎng)度限制 “錯(cuò)誤時(shí),將在重新查詢階段刪除最長(zhǎng)的例子,直到查詢長(zhǎng)度滿足長(zhǎng)度限制。重新查詢過(guò)程包括對(duì)LLM進(jìn)行額外的查詢,直到獲得一個(gè)有效的響應(yīng)或達(dá)到最大的錯(cuò)誤允許值為止。這個(gè)最大誤差允許值的設(shè)置是為了確保系統(tǒng)不會(huì)陷入無(wú)休止的循環(huán),而是在可接受的范圍內(nèi)向用戶提供一個(gè)合適的響應(yīng)。 通過(guò)采用生成校準(zhǔn)階段,可以減少與所需輸出格式的意外偏差,并確保最終的響應(yīng)與預(yù)期的格式和要求一致。 圖7: 生成校準(zhǔn)(Generation Calibration)。 表1: 不同模型在ChEBI-20數(shù)據(jù)集上分子描述生成(Mol2Cap)任務(wù)上的性能對(duì)比[3,4]。
表3: MolReGPT使用N-shot在分子描述生成(Mol2Cap)任務(wù)上的性能對(duì)比。
Mol2Cap任務(wù)的結(jié)果顯示在表1和表3,MolReGPT方法可以獲得與微調(diào)后的MolT5-base[2]相當(dāng)?shù)腞OUGE分?jǐn)?shù),同時(shí)在其余指標(biāo)上超過(guò)了所有選定的基線模型。
另外,在消融實(shí)驗(yàn)中,主要比較了三種檢索策略的性能,如表3所示:隨機(jī)、BM25和Morgan FTS(在MolReGPT中采用)。隨機(jī)策略指的是檢索n個(gè)隨機(jī)例子,而B(niǎo)M25則是對(duì)分子的SMILES字符串表示采用字符級(jí)的BM25算法。在三種檢索策略中,Morgan FTS在少樣本學(xué)習(xí)的樣本數(shù)量相同的情況下表現(xiàn)最好,在Text2Mol[1]指標(biāo)中甚至比BM25高出37%。
此外,與隨機(jī)或者BM25檢索策略相比,Morgan FTS取得的ROUGE-L得分幾乎翻了一倍。Morgan FTS檢索策略的使用表明,通過(guò)比較獨(dú)特的結(jié)構(gòu)特征,如官能團(tuán),可以更好地估計(jì)分子之間的結(jié)構(gòu)相似性,而這些特征通常在分子的描述中以詳細(xì)的描述體現(xiàn)。在這種情況下,通過(guò)Morgan FTS檢索相似的分子可以有效地指導(dǎo)LLM學(xué)習(xí)分子結(jié)構(gòu)和分子描述之間的關(guān)聯(lián),從而獲得更準(zhǔn)確和理想的輸出。
圖8列出了分子文字描述生成的例子,以比較不同模型的性能。從給出的例子中,可以注意到MolReGPT可以生成包含輸入分子關(guān)鍵信息的文本描述。更重要的是,生成的標(biāo)題在語(yǔ)法上更加完善,并且易于人類理解。
圖8: 不同模型生成的分子描述的例子(其中SMILES字符串被轉(zhuǎn)換成分子圖,以方便更好地展示)。
表2: 不同模型在ChEBI-20數(shù)據(jù)集上基于文本的分子生成(Cap2Mol)任務(wù)上的性能對(duì)比。
表4: MolReGPT使用N-shot在基于文本的分子生成(Mol2Cap)任務(wù)上的性能對(duì)比。
給定一個(gè)分子文本描述(包含結(jié)構(gòu)和屬性),Cap2Mol的目標(biāo)是生成相應(yīng)的分子(即SMILES字符串)用于分子發(fā)現(xiàn)。具體的結(jié)果列于表2和表4。比較所有的基線模型,可以發(fā)現(xiàn)10-shot MolReGPT明顯增強(qiáng)了GPT-3.5-turbo的能力,達(dá)到了最佳的整體性能。在MACCS FTS、RDK FTS和Morgan FTS等分子評(píng)估指標(biāo)中,MolReGPT與MolT5-base相比,在Text2Mol指標(biāo)上取得了15%的大幅提升??紤]分子指紋得分,10-shot MolReGPT與MolT5-base相比也獲得了平均18%的改進(jìn)。此外,MolReGPT還獲得了最高的精確匹配分?jǐn)?shù),有13.9%的例子與ground truth完全一致。值得注意的是,以上所有令人印象深刻的結(jié)果都是在沒(méi)有額外訓(xùn)練或微調(diào)的情況下實(shí)現(xiàn)的。
圖9列出了基于文本的分子生成結(jié)果的例子,以比較不同模型之間的性能。從給定的例子中可以看出, MolReGPT能夠生成與ground truth更相似的結(jié)構(gòu)。
圖9: 不同模型生成的分子的例子(其中SMILES字符串被轉(zhuǎn)換成分子圖,以方便更好地展示)。
圖10: 給定輸入,MolT5和MolReGPT生成分子的對(duì)比。
該論文還針對(duì)基于定制化文本的分子生成任務(wù)做了進(jìn)一步的探索。如圖10所示,例1中的輸入強(qiáng)調(diào)了結(jié)構(gòu)中的五個(gè)苯環(huán)和疏水基團(tuán)。然而MolT5的結(jié)果產(chǎn)生了不正確的苯環(huán)數(shù)量,并且生成的結(jié)構(gòu)含有一些親水基團(tuán)。相比之下,MolReGPT則給出了與輸入相對(duì)應(yīng)的正確結(jié)構(gòu)。在例2中,MolT5和MolReGPT都生成了正確的苯環(huán)數(shù)量,而MolReGPT生成了更多的親水基團(tuán),更符合我們給定的輸入。
這篇文章提出了MolReGPT,一種通用的基于檢索的上下文小樣本分子學(xué)習(xí)的提示范式,賦予大語(yǔ)言模型(如ChatGPT)分子發(fā)現(xiàn)的能力。MolReGPT利用分子相似性原理從本地?cái)?shù)據(jù)庫(kù)中檢索分子-分子文本描述對(duì)作為上下文學(xué)習(xí)中的示例,指導(dǎo)大語(yǔ)言模型生成分子的SMILES字符串,從而無(wú)需對(duì)大語(yǔ)言模型進(jìn)行微調(diào)。
這篇工作的方法專注于分子-文本描述間相互翻譯任務(wù),包括分子文本描述生成(Mol2Cap)和基于文本的分子生成(Cap2Mol),并在該任務(wù)上對(duì)大語(yǔ)言模型的能力進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,MolReGPT可以使ChatGPT在分子描述生成和分子生成方面分別達(dá)到0.560和0.571的Text2Mol分?jǐn)?shù)。從分子理解和基于文本的分子生成角度來(lái)看,其性能都超過(guò)了MolT5-base這樣的微調(diào)模型,甚至可以與微調(diào)的MolT5-large相媲美??偠灾?,MolReGPT提供了一個(gè)新穎的、多功能集成的范式,通過(guò)上下文學(xué)習(xí)在分子發(fā)現(xiàn)中部署大型語(yǔ)言模型,這大大降低了領(lǐng)域轉(zhuǎn)移的成本,探索了大型語(yǔ)言模型在分子發(fā)現(xiàn)中的潛力。
[1] Edwards, C., Zhai, C., and Ji, H. Text2mol: Cross-modal molecule retrieval with natural language queries. In Pro- ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 595–607, 2021.
[2] Edwards, C., Lai, T., Ros, K., Honke, G., Cho, K., and Ji, H. Translation between molecules and natural language. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 375–413, Abu Dhabi, United Arab Emirates, December 2022. As- sociation for Computational Linguistics.
[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, ?., and Polosukhin, I. At- tention is all you need. Advances in neural information processing systems, 30, 2017.
[4] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551, 2020.
[5] Li, J., Liu, Y., Fan, W., Wei, X. Y., Liu, H., Tang, J., & Li, Q. (2023). Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective. arXiv preprint arXiv:2306.06615.
香港理工大學(xué)PolyU電子計(jì)算學(xué)系 機(jī)器學(xué)習(xí)/人工智能 (生物醫(yī)藥方向,AI4Science, Drug Discovery) 全獎(jiǎng)PhD/博士后/研究助理
讓我們一起探索人工智能和生物醫(yī)藥的交叉領(lǐng)域,為未來(lái)的醫(yī)藥發(fā)展作出貢獻(xiàn)!
個(gè)人主頁(yè):https://www4.comp.polyu.edu.hk/~csqli/
導(dǎo)師主頁(yè):范文琦博士(研究助理教授)
個(gè)人主頁(yè):https://wenqifan03.github.io
計(jì)劃招收多名全獎(jiǎng)博士生,全年春/夏/秋入學(xué)均可(全年招聘)
招生詳情請(qǐng)見(jiàn):https://wenqifan03.github.io/openings.html
此外,研究團(tuán)隊(duì)長(zhǎng)期招聘博士后和研究助理,及聯(lián)合培養(yǎng)博士項(xiàng)目,歡迎聯(lián)系。
郵件建議:感興趣的同學(xué)按照下面的郵件格式把簡(jiǎn)歷發(fā)到郵箱:wenqi.fan@polyu.edu.hk (范文琦博士),并同時(shí)抄送qing-prof.li@polyu.edu.hk (李青教授)
郵件主題:PhD/Postdoc/RA-Open Position-YourName
正文:個(gè)人經(jīng)歷簡(jiǎn)介,包括畢業(yè)院校、GPA/Ranking、TOEFL/IELTS英文成績(jī)、publications/research experience、獎(jiǎng)項(xiàng)、etc.
郵件附件:最新 CV、成績(jī)單、獎(jiǎng)項(xiàng)等相關(guān)文件。
點(diǎn)擊閱讀原文,報(bào)名計(jì)算培訓(xùn)!
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/03/11/9147807d69/