將 ScienceAI?設(shè)為星標(biāo)
第一時(shí)間掌握
新鮮的 AI for Science 資訊
編輯 |?ScienceAI
深度學(xué)習(xí)模型因其能夠從大量數(shù)據(jù)中學(xué)習(xí)潛在關(guān)系的能力而「徹底改變了科學(xué)研究領(lǐng)域」。然而,純粹依賴數(shù)據(jù)驅(qū)動(dòng)的模型逐漸暴露出其局限性,如過度依賴數(shù)據(jù)、泛化能力受限以及與物理現(xiàn)實(shí)的一致性問題。
例如,美國OpenAI公司開發(fā)的文本到視頻模型Sora因深刻理解事物在現(xiàn)實(shí)中的存在方式而受贊譽(yù),被視為AI領(lǐng)域的飛躍。盡管能利用大量視覺數(shù)據(jù)生成逼真圖像和視頻,Sora卻被認(rèn)為未掌握物理定律,如重力和玻璃破碎等。
面對這一問題,將人類知識(shí)融入深度學(xué)習(xí)模型是一個(gè)潛在的解決方案。將先驗(yàn)知識(shí)與數(shù)據(jù)一起使用,能夠提升模型的泛化能力,從而創(chuàng)建能夠理解物理規(guī)律的「知情機(jī)器學(xué)習(xí)」(Informed machine learning)模型。
然而,目前對深度學(xué)習(xí)中知識(shí)的價(jià)值仍缺乏深入理解,確定哪些先驗(yàn)知識(shí)(包括函數(shù)關(guān)系、等式和邏輯關(guān)系等)能有效地融入模型以進(jìn)行「預(yù)學(xué)習(xí)」,已成為一項(xiàng)亟待解決的難題。同時(shí),盲目地整合多項(xiàng)規(guī)則可能會(huì)引發(fā)模型的崩潰。這種局限性制約了對數(shù)據(jù)與知識(shí)關(guān)系的進(jìn)一步探索。
針對這一問題,東方理工(EIT)和北京大學(xué)的研究團(tuán)隊(duì)提出了「規(guī)則重要性」的概念,并開發(fā)了一套框架,能精確計(jì)算每個(gè)規(guī)則對模型預(yù)測精度的貢獻(xiàn)。該框架不僅揭示了數(shù)據(jù)和知識(shí)之間的復(fù)雜相互作用關(guān)系,為知識(shí)嵌入提供了理論性指導(dǎo),還有助于在訓(xùn)練過程中平衡知識(shí)和數(shù)據(jù)的影響。此外,該方法還可用于識(shí)別不恰當(dāng)?shù)南闰?yàn)規(guī)則,為交叉學(xué)科領(lǐng)域的研究與應(yīng)用提供廣闊前景。
該研究以「Worth of Prior Knowledge for Enhancing Deep Learning」為題,于 2024 年 3 月 8 日發(fā)表在?Cell?出版社旗下交叉學(xué)科期刊《Nexus》上,并被 Cell Press 團(tuán)隊(duì)在 AAAS(美國科學(xué)促進(jìn)會(huì))和 EurekAlert!進(jìn)行報(bào)道。
在教授孩子拼圖時(shí),既可以讓他們通過反復(fù)試驗(yàn)來找出答案,也可以用一些基本的規(guī)則和技巧來引導(dǎo)他們。同樣地,將規(guī)則和技巧——比如物理定律——融入到人工智能訓(xùn)練中能讓它們更貼近現(xiàn)實(shí),運(yùn)作更高效。然而,如何評(píng)估這些規(guī)則在人工智能中的價(jià)值,一直是困擾研究者的難題。
鑒于先驗(yàn)知識(shí)的豐富多樣性,將先驗(yàn)知識(shí)融入深度學(xué)習(xí)模型是一個(gè)復(fù)雜的多目標(biāo)優(yōu)化任務(wù)。研究團(tuán)隊(duì)創(chuàng)新性地提出了一個(gè)框架,以量化不同先驗(yàn)知識(shí)在提高深度學(xué)習(xí)模型方面的作用。他們將此過程視為充滿合作與競爭的博弈,通過評(píng)估規(guī)則對模型預(yù)測的邊際貢獻(xiàn)來界定其重要性。首先生成所有可能的規(guī)則組合(即「聯(lián)盟」),并對每個(gè)組合構(gòu)建模型,并計(jì)算均方誤差。
為降低計(jì)算成本,他們采用了一種基于擾動(dòng)的高效算法:先訓(xùn)練一個(gè)完全基于數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)作為基線模型,然后逐一加入各個(gè)規(guī)則組合進(jìn)行額外訓(xùn)練,最后在測試數(shù)據(jù)上評(píng)估模型表現(xiàn)。通過比較模型在包含和不包含某個(gè)規(guī)則的所有聯(lián)盟中的表現(xiàn),可以計(jì)算出該規(guī)則的邊際貢獻(xiàn),進(jìn)而得出其重要性。
通過流體力學(xué)的算例,研究人員探討了數(shù)據(jù)與規(guī)則間的復(fù)雜關(guān)系。他們發(fā)現(xiàn),在不同任務(wù)中,數(shù)據(jù)和先驗(yàn)規(guī)則的作用完全不同。當(dāng)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布相近時(shí)(即 In-distribution),數(shù)據(jù)量的增加會(huì)削弱規(guī)則的作用。
然而,當(dāng)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布相似度較低時(shí)(即 Out-of-distribution),全局規(guī)則的重要性被凸顯出來,而局部規(guī)則的影響則被削弱。這兩類規(guī)則的區(qū)別在于:全局規(guī)則(如控制方程)影響整個(gè)域,而局部規(guī)則(如邊界條件)僅作用于特定區(qū)域。
研究團(tuán)隊(duì)經(jīng)數(shù)值實(shí)驗(yàn)發(fā)現(xiàn),在知識(shí)嵌入中,規(guī)則間存在三種相互作用效應(yīng):依賴效應(yīng)、協(xié)同效應(yīng)和替代效應(yīng)。
依賴效應(yīng)指某些規(guī)則需依賴其他規(guī)則才能有效;協(xié)同效應(yīng)表明多條規(guī)則共同作用的效果超越各自獨(dú)立作用時(shí)的總和;替代效應(yīng)則顯示一條規(guī)則的功能可能被數(shù)據(jù)或其他規(guī)則替代。
這三種效應(yīng)同時(shí)存在,并受到數(shù)據(jù)量的影響。通過計(jì)算規(guī)則重要性,可清晰展示這些效應(yīng),為知識(shí)嵌入提供重要指導(dǎo)。
在應(yīng)用層面,研究團(tuán)隊(duì)試圖解決知識(shí)嵌入過程中的一個(gè)核心問題:如何平衡數(shù)據(jù)與規(guī)則的作用,以提升嵌入效率并篩選出不適宜的先驗(yàn)知識(shí)。在模型的訓(xùn)練過程中,該團(tuán)隊(duì)提出了一種動(dòng)態(tài)調(diào)整規(guī)則權(quán)重的策略。
具體而言,隨著訓(xùn)練迭代步的增加,逐漸增大正重要性規(guī)則的權(quán)重,同時(shí)減小負(fù)重要性規(guī)則的權(quán)重。這種策略能夠根據(jù)優(yōu)化過程的需求,實(shí)時(shí)調(diào)整模型對不同規(guī)則的關(guān)注度,從而實(shí)現(xiàn)更加高效和準(zhǔn)確的知識(shí)嵌入。
此外,向 AI 模型傳授物理定律可以使它們「更加貼近現(xiàn)實(shí)世界,從而在科學(xué)和工程領(lǐng)域發(fā)揮更大作用」。因此,該框架在工程、物理和化學(xué)領(lǐng)域具有廣泛的實(shí)際應(yīng)用。研究人員不僅優(yōu)化了機(jī)器學(xué)習(xí)模型來求解多元方程,還準(zhǔn)確識(shí)別出對薄層色譜分析預(yù)測模型性能有提升效果的規(guī)則。
實(shí)驗(yàn)結(jié)果顯示,通過融入這些有效規(guī)則,模型的性能得到了顯著提升,測試數(shù)據(jù)集上的均方誤差從 0.052 降低至 0.036(減少了 30.8%)。這意味著該框架可以將經(jīng)驗(yàn)性見解轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),從而顯著提升模型性能。
總體而言,準(zhǔn)確評(píng)估知識(shí)的價(jià)值有助于構(gòu)建更契合現(xiàn)實(shí)的AI模型,提高安全性和可靠性,對深度學(xué)習(xí)發(fā)展具有重要意義。
接下來,研究團(tuán)隊(duì)計(jì)劃將他們的框架開發(fā)成可供人工智能開發(fā)人員使用的插件工具。他們的最終目標(biāo)是開發(fā)出能夠直接從數(shù)據(jù)中提取知識(shí)和規(guī)則,進(jìn)而自我完善的模型,從而打造一個(gè)從知識(shí)發(fā)現(xiàn)到知識(shí)嵌入的閉環(huán)系統(tǒng),使模型成為真正的人工智能科學(xué)家。
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://m.xiubac.cn/index.php/2024/03/16/99ba5671e9/