深度學(xué)習(xí)(DL)是材料數(shù)據(jù)科學(xué)中發(fā)展最快的主題之一,其應(yīng)用領(lǐng)域包括原子數(shù)據(jù)、基于圖像的數(shù)據(jù)、光譜數(shù)據(jù)和文本數(shù)據(jù)等。DL允許分析非結(jié)構(gòu)化數(shù)據(jù)和自動(dòng)識(shí)別特征,大型材料數(shù)據(jù)庫的最新發(fā)展推動(dòng)了DL方法在原子預(yù)測(cè)中的應(yīng)用。相比之下,圖像和光譜數(shù)據(jù)的進(jìn)步在很大程度上利用了高質(zhì)量正向模型及生成無監(jiān)督DL方法支撐的合成數(shù)據(jù)。在此,美國國家標(biāo)準(zhǔn)與技術(shù)研究院Kamal Choudhary等人概述了深度學(xué)習(xí)(DL)方法中的一些基本原理,然后詳細(xì)討論了DL在原子模擬、材料成像、光譜分析和自然語言處理等領(lǐng)域的最新發(fā)展。首先,作者介紹了通用的機(jī)器學(xué)習(xí)概念。然后,詳細(xì)介紹了神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)、序列到序列模型、生成模型、深度強(qiáng)化學(xué)習(xí)及科學(xué)機(jī)器學(xué)習(xí)等DL方法。此外,需要材料科學(xué)特定考慮因素的成功DL應(yīng)用的某些方面包括:1)獲取大型、平衡和多樣化的數(shù)據(jù)集(通常大約10000個(gè)數(shù)據(jù)點(diǎn)或更多),2)確定適當(dāng)?shù)腄L方法和輸入樣本的適當(dāng)向量或圖形表示,3)選擇與科學(xué)目標(biāo)相關(guān)的適當(dāng)績效指標(biāo)。作者討論了一些材料科學(xué)的關(guān)鍵領(lǐng)域,其中DL已應(yīng)用到存儲(chǔ)庫和數(shù)據(jù)集的可用鏈接,這些鏈接有助于工作的可重復(fù)性和可擴(kuò)展性。圖1. 光譜數(shù)據(jù)深度學(xué)習(xí)的示例應(yīng)用盡管DL方法在材料設(shè)計(jì)方面有各種令人著迷的機(jī)會(huì),但也有一些局限性和挑戰(zhàn):(1)僅基于化學(xué)式的材料表示不考慮結(jié)構(gòu),這一方面使其更適合用于無法獲得結(jié)構(gòu)信息的新化合物,但另一方面也無法捕獲相變等現(xiàn)象;(2)基于原子圖的預(yù)測(cè)雖是完整的原子描述,但僅在散裝材料上進(jìn)行了測(cè)試。這強(qiáng)調(diào)了輸入特征必須對(duì)輸出標(biāo)簽具有預(yù)測(cè)性,且不能丟失關(guān)鍵信息;(3)在圖像和光譜方面,大多數(shù)時(shí)候?qū)嶒?yàn)數(shù)據(jù)過于嘈雜,在應(yīng)用DL之前需要進(jìn)行大量操作;(4)DL的不確定性量化很重要,但該領(lǐng)域僅發(fā)表了少數(shù)作品,亟需提高其可解釋性;(5)雖然訓(xùn)練-驗(yàn)證-測(cè)試拆分策略主要用于具有一定數(shù)量的圖像分類任務(wù),但對(duì)于回歸模型可能不是最好的方法;(6)在自動(dòng)實(shí)驗(yàn)室中實(shí)現(xiàn)閉環(huán)自主材料設(shè)計(jì)和合成過程,包括機(jī)器學(xué)習(xí)和實(shí)驗(yàn)組件,這仍是一個(gè)重要的技術(shù)挑戰(zhàn)。圖2. 基于深度學(xué)習(xí)的原子位點(diǎn)分類算法Recent advances and applications of deep learning methods in materials science,?npj Computational Materials 2022. DOI: 10.1038/s41524-022-00734-6