? ? ? ? ??
研究背景
在過(guò)去的十年中,數(shù)十億來(lái)自互聯(lián)設(shè)備的傳感器被用于將物理信號(hào)和信息轉(zhuǎn)化為數(shù)字世界。由于有限的計(jì)算能力,集成到嵌入式遠(yuǎn)程設(shè)備中的傳感器通常將原始和未處理的數(shù)據(jù)傳輸?shù)狡渲鳈C(jī)。然而,無(wú)線數(shù)據(jù)傳輸?shù)母吣芰砍杀居绊懥嗽O(shè)備的自主性和數(shù)據(jù)傳輸帶寬。提高它們的能效可以開(kāi)辟一系列新的應(yīng)用,并減少它們的環(huán)境足跡。此外,數(shù)據(jù)處理將從遠(yuǎn)程主機(jī)轉(zhuǎn)移到本地傳感器節(jié)點(diǎn)。因此,數(shù)據(jù)傳輸將限于結(jié)構(gòu)化和有價(jià)值的數(shù)據(jù),這是為此目的所需要的。馮·諾伊曼架構(gòu)將處理和存儲(chǔ)分離,要求在神經(jīng)網(wǎng)絡(luò)中進(jìn)行數(shù)據(jù)和信號(hào)處理或推理時(shí),數(shù)據(jù)在兩者之間來(lái)回傳輸。存儲(chǔ)器和處理單元之間的數(shù)據(jù)通信已經(jīng)占到科學(xué)計(jì)算所消耗能量的三分之一。為了克服馮·諾依曼通信瓶頸,人們正在探索內(nèi)存計(jì)算架構(gòu),其中內(nèi)存、邏輯和處理操作是并行的。存儲(chǔ)處理器件特別適合執(zhí)行向量矩陣乘法,這是數(shù)據(jù)處理的關(guān)鍵操作,也是機(jī)器學(xué)習(xí)算法中最密集的計(jì)算。通過(guò)利用存儲(chǔ)器的物理層來(lái)執(zhí)行乘法累加(MAC)操作,該架構(gòu)克服了馮·諾依曼通信瓶頸。到目前為止,這種處理策略已用于求解線性和微分方程、信號(hào)和圖像處理以及人工神經(jīng)網(wǎng)絡(luò)加速器等應(yīng)用。然而,尋找這種類(lèi)型處理器的最佳材料和器件仍在進(jìn)行中。
? ? ? ? ??
成果介紹
有鑒于此,近日,瑞士洛桑聯(lián)邦理工學(xué)院Andras Kis教授團(tuán)隊(duì)報(bào)道了一種集成式32×32矢量矩陣乘法器,該乘法器采用單層MoS2作為溝道材料,具有1024個(gè)浮柵場(chǎng)效應(yīng)晶體管。在本文的晶圓級(jí)制造工藝中,實(shí)現(xiàn)了高良率和低器件間變化,這是實(shí)際應(yīng)用的先決條件。統(tǒng)計(jì)分析強(qiáng)調(diào)了用單個(gè)編程脈沖進(jìn)行多電平和模擬存儲(chǔ)的潛力,允許該加速器使用有效的開(kāi)環(huán)編程方案進(jìn)行編程。本文還以并行方式演示了可靠,離散的信號(hào)處理。文章以“A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories”為題發(fā)表在頂級(jí)期刊Nature Electronics上。
? ? ? ? ??
圖文導(dǎo)讀
圖1. 器件和矩陣的描述和表征。(a)連接成矩陣陣列的FGFET的三維渲染。(b)FGFET的橫截面三維圖。(c)存儲(chǔ)矩陣配置的光學(xué)圖像。(d)851個(gè)工作器件的IDS-VG遲滯曲線。(e)三維圖顯示了32×32芯片上的開(kāi)和關(guān)電流映射。
? ? ? ? ??
本文通過(guò)使用單層MoS2作為溝道材料,利用電荷基存儲(chǔ)器來(lái)實(shí)現(xiàn)存儲(chǔ)計(jì)算。具體而言,本文制造了FGFET來(lái)利用2D半導(dǎo)體的靜電敏感性。為了實(shí)現(xiàn)更大的陣列,將FGFET集成在一個(gè)矩陣中,可以通過(guò)仔細(xì)選擇相應(yīng)的行和列來(lái)定位單個(gè)存儲(chǔ)元素。圖1a和b分別顯示了存儲(chǔ)矩陣的三維渲染圖和每個(gè)FGFET的詳細(xì)結(jié)構(gòu)。使用矩陣配置允許更密集的拓?fù)浣Y(jié)構(gòu),并直接對(duì)應(yīng)于執(zhí)行向量矩陣乘法。存儲(chǔ)器是由用柵極優(yōu)先方法制造的局部2nm/40nm Cr/Pt柵極控制的。這使得能夠通過(guò)原子層沉積來(lái)改善電介質(zhì)的生長(zhǎng),并最大限度地減少2D溝道暴露的工藝步驟,從而提高良率。浮柵是一個(gè)5 nm的Pt層,夾在30 nm的HfO2和7 nm的HfO2(隧穿氧化物)之間。接下來(lái),在HfO2上刻蝕通孔,電連接底部金屬(M1)和頂部金屬(M2)層。這是路由源極和漏極信號(hào)沒(méi)有重疊所必需的。晶圓級(jí)MOCVD生長(zhǎng)的MoS2被轉(zhuǎn)移到柵極堆疊的頂部并刻蝕形成晶體管的溝道。最后,2 nm/60 nm的Ti/Au在頂部圖案化并蒸發(fā),形成晶體管的漏-源接觸以及第二金屬層。圖1c顯示了制造的芯片的光學(xué)圖像,包含32行和32列,總共有1,024個(gè)存儲(chǔ)器。
本文的存儲(chǔ)器是基于標(biāo)準(zhǔn)的閃存。存儲(chǔ)機(jī)制依賴(lài)于通過(guò)改變俘獲層中的電荷數(shù)(ΔQ)來(lái)移動(dòng)中性閾值電壓(VTH0),即Pt浮柵。當(dāng)高正/負(fù)偏置施加到柵極上時(shí),能帶對(duì)齊開(kāi)始有利于從半導(dǎo)體到浮柵的電子隧穿進(jìn)入/出去,改變了俘獲層中的載流子濃度。通過(guò)取正反路的閾值電壓之差來(lái)定義存儲(chǔ)窗口(ΔVTH)。由于存儲(chǔ)效應(yīng)完全依賴(lài)于電荷基過(guò)程,閃存往往比依賴(lài)于材料的新興存儲(chǔ)器(如電阻式隨機(jī)存取存儲(chǔ)器和相變存儲(chǔ)器)具有更好的可靠性和可重復(fù)性。圖1d顯示了為每個(gè)器件執(zhí)行的IDS-VG掃描。該工藝的良率為83.1%,器件具有統(tǒng)計(jì)學(xué)上的相似性。相對(duì)較高的關(guān)斷狀態(tài)電流是由于在設(shè)置中使用的模數(shù)轉(zhuǎn)換器缺乏分辨率。高分辨單器件測(cè)量證實(shí)了典型的關(guān)斷狀態(tài)電流在皮安量級(jí)。圖1e顯示了存儲(chǔ)矩陣上的開(kāi)和關(guān)電流分布。在VDS=100 mV時(shí)取開(kāi)和關(guān)電流,形成兩個(gè)不同的平面。開(kāi)和關(guān)電流在整個(gè)矩陣中表現(xiàn)出良好的分布。器件具有統(tǒng)計(jì)上相似的存儲(chǔ)窗口ΔVTH=4.30±0.25 V。
? ? ? ? ??
圖2. 開(kāi)環(huán)編程。(a)開(kāi)環(huán)編程方案的兩態(tài)操作示意圖。(b)輸出狀態(tài)(wOUT)在線性刻度中的分布。(c)輸出狀態(tài)(wOUT)在log10刻度中的分布。(d)wOUT的log10值三維成像與器件位置和不同編程電壓的關(guān)系。(e)經(jīng)驗(yàn)累積分布函數(shù)(ECDF)與編程狀態(tài)的關(guān)系。
? ? ? ? ??
這些器件的相似性促使對(duì)存儲(chǔ)器的編程行為進(jìn)行統(tǒng)計(jì)研究。在存儲(chǔ)計(jì)算環(huán)境中,開(kāi)環(huán)編程分析是基礎(chǔ)。在編程大型閃存陣列時(shí),標(biāo)準(zhǔn)的寫(xiě)入-驗(yàn)證方法可能過(guò)于耗時(shí)。對(duì)開(kāi)環(huán)中存儲(chǔ)狀態(tài)的統(tǒng)計(jì)理解對(duì)于提高性能和速度至關(guān)重要。本文通過(guò)選擇相應(yīng)的行(i)和列(j)來(lái)獨(dú)立激勵(lì)每個(gè)器件進(jìn)行實(shí)驗(yàn)。器件接口板中的模擬開(kāi)關(guān)在所選的行(i)/列(j)中保持低阻抗路徑,在其余行和列中保持高阻抗路徑。這確保了電位差僅施加到所需的器件,避免了不必要的編程。出于同樣的原因,本文將器件編程和讀取分為兩個(gè)獨(dú)立的階段。在編程階段,選擇相應(yīng)的柵極線(行)和相應(yīng)的源極線(列),并在柵極中施加參數(shù)為T(mén)PULSE和VPULSE的編程脈沖。由于該器件的隧穿特性,只需要兩個(gè)終端就可以產(chǎn)生向浮柵中電荷注入所需的能帶彎曲。脈沖后,柵極電壓變?yōu)閂READ,該電壓低到足以防止對(duì)存儲(chǔ)器狀態(tài)進(jìn)行重新編程。在讀取階段,也連接漏極線,通過(guò)對(duì)漏極施加電壓VDS來(lái)探測(cè)電導(dǎo)值。這個(gè)兩階段的過(guò)程是必需的,因?yàn)楸疚氖褂玫氖侨似骷?。因此,柵極和漏極共用同一行、因此,當(dāng)柵極和漏極線接合時(shí),整個(gè)行都是偏置的。如果在柵極中施加高壓,當(dāng)漏極線連接時(shí),整個(gè)行將被重新編程,導(dǎo)致存儲(chǔ)器中的信息丟失。圖2a顯示了這個(gè)兩階段編程過(guò)程的描述。對(duì)于隨后的測(cè)量,本文使用VREAD=-3 V,VDS=1 V和TPULSE=100 ms。在每次測(cè)量之前,通過(guò)施加一個(gè)正的10 V脈沖來(lái)重置存儲(chǔ)器,這使器件進(jìn)入低電導(dǎo)狀態(tài)。這種補(bǔ)償方法使器件的編程可靠性提高了一個(gè)數(shù)量級(jí)。對(duì)一個(gè)比特進(jìn)行編程時(shí),每百萬(wàn)錯(cuò)誤中有500個(gè)錯(cuò)誤,而對(duì)擦除狀態(tài)進(jìn)行編程時(shí),每百萬(wàn)錯(cuò)誤中有一個(gè)錯(cuò)誤。圖2b和c顯示了不同脈沖強(qiáng)度后存儲(chǔ)狀態(tài)的線性和對(duì)數(shù)分布。觀察到在線性刻度上,脈沖幅度增加伴隨著更高的存儲(chǔ)狀態(tài)值和更大的擴(kuò)展。另一方面,通過(guò)分析狀態(tài)值的對(duì)數(shù),可以看到存儲(chǔ)器具有定義良好的存儲(chǔ)狀態(tài)。因此,該存儲(chǔ)器具有無(wú)需寫(xiě)入-驗(yàn)證算法的多值存儲(chǔ)潛力,特別是在對(duì)數(shù)刻度上。圖2d顯示了整個(gè)芯片上狀態(tài)的空間分布。觀察到對(duì)于不同的編程電壓,存儲(chǔ)器狀態(tài)產(chǎn)生一個(gè)恒定的平面值。最后,圖2e顯示了對(duì)數(shù)表示的經(jīng)驗(yàn)累積分布函數(shù)(ECDF)。如前所述,這些結(jié)果支持多值編程的可能性,并表明存儲(chǔ)元件可用于存儲(chǔ)內(nèi)存計(jì)算的模擬權(quán)重。
? ? ? ? ??
圖3. MAC操作。(a)具有編程錯(cuò)誤()的輸出內(nèi)存狀態(tài)與編程電壓(VPROG)的關(guān)系。(b)歸一化yEXP與yTHEORY圖,比較MAC操作的實(shí)驗(yàn)理論結(jié)果。
? ? ? ? ??
隨著開(kāi)環(huán)分析的完成(圖3a),本文繪制了存儲(chǔ)器狀態(tài)()與編程電壓(VPROG)的關(guān)系。本文定義了四個(gè)等分布的狀態(tài)(兩位分辨率),并將其編程為矩陣中用于向量矩陣乘法的離散權(quán)重。為了分析處理器執(zhí)行向量矩陣運(yùn)算的有效性,本文比較了(圖3b)在幾個(gè)點(diǎn)積運(yùn)算上得到的歸一化理論(yTHEORY)值與歸一化實(shí)驗(yàn)(yEXP)值。對(duì)于yEXP=a×yTHEORY+b,實(shí)驗(yàn)點(diǎn)的線性回歸顯示為參數(shù)a=0.988±0.008和b=-0.129±0.003,陰影區(qū)域?qū)?yīng)95%置信區(qū)間。理想的處理器應(yīng)該收斂于a=1和b=0,置信區(qū)間收斂于線性擬合。在本文的情況下,處理器具有收斂于理想情況的線性行為,實(shí)驗(yàn)值具有較大的擴(kuò)展和輕微的非線性。本文用存儲(chǔ)器的非理想性和由于狀態(tài)有限分辨率而產(chǎn)生的量化誤差來(lái)解釋這種行為。參數(shù)b的這種變化可以用yTHEORY=0處的固有跨阻放大器偏移和存儲(chǔ)器漏電來(lái)解釋?zhuān)挥绊懹^察到的線性趨勢(shì)。因此,可以以合理的精度進(jìn)行MAC操作。該操作用于執(zhí)行各種類(lèi)型的算法,例如人工神經(jīng)網(wǎng)絡(luò)中的信號(hào)處理和推理。
? ? ? ? ??
圖4. 基于內(nèi)存處理的信號(hào)處理。(a)用于不同濾波器(低/高通濾波器和恒等濾波器)的基于卷積的信號(hào)處理描述。(b)理論內(nèi)核權(quán)重成像與轉(zhuǎn)移到存儲(chǔ)器電導(dǎo)的實(shí)驗(yàn)權(quán)重比較。(c)每個(gè)內(nèi)核后仿真和實(shí)驗(yàn)輸出信號(hào)的快速傅里葉變換(FFT)比較。
? ? ? ? ??
接下來(lái),本文配置這個(gè)加速器來(lái)執(zhí)行信號(hào)處理,以演示真實(shí)世界的場(chǎng)景和應(yīng)用程序。對(duì)于信號(hào)處理,輸入信號(hào)(x)與內(nèi)核(h)進(jìn)行卷積,得到處理后的信號(hào)(y)。根據(jù)內(nèi)核元素的性質(zhì),可以實(shí)現(xiàn)不同類(lèi)型的處理。在此,本文限制在三個(gè)不同的內(nèi)核中,分別執(zhí)行低通濾波、高通濾波和饋通。所有內(nèi)核在一個(gè)處理周期內(nèi)并行工作,證明了該處理器通過(guò)并行處理來(lái)解決以數(shù)據(jù)為中心問(wèn)題的效率??梢圆⑿械靥砑痈嗟膬?nèi)核,只受矩陣大小的限制。圖4a顯示了卷積操作和用于處理輸入信號(hào)的不同內(nèi)核。將負(fù)內(nèi)核值編碼為存儲(chǔ)器電導(dǎo)值的策略是將內(nèi)核(h)分成只有正數(shù)值的內(nèi)核(h+)和負(fù)數(shù)絕對(duì)值的內(nèi)核(h–),只編碼與電導(dǎo)值(G)有直接關(guān)系的正數(shù)。處理完成后,將正內(nèi)核(y+)和負(fù)內(nèi)核(y–)的輸出相減,得到最終信號(hào)(y)。圖4b顯示了使用前面描述的開(kāi)環(huán)編程方案將原始權(quán)重與傳遞到內(nèi)存矩陣中的權(quán)重的比較。為了簡(jiǎn)化傳輸,將每個(gè)內(nèi)核的權(quán)重按其最大值歸一化。觀察到原始值和實(shí)驗(yàn)值之間有很好的一致性。接下來(lái),為了驗(yàn)證處理的有效性,首先將輸入信號(hào)(x)構(gòu)造為不同頻率的正弦波和。通過(guò)這種方式,可以很容易地探測(cè)不同頻率下濾波器的行為,而不會(huì)產(chǎn)生過(guò)于復(fù)雜的信號(hào)。由于信號(hào)有正值和負(fù)值,因此信號(hào)幅度必須落在器件工作的線性區(qū)域內(nèi)。因此,將VREAD=0時(shí)的信號(hào)范圍從-100 mV限制到100 mV。圖4c顯示了模擬處理信號(hào)和實(shí)驗(yàn)信號(hào)的快速傅里葉變換。模擬和測(cè)量信號(hào)中的灰線是每個(gè)內(nèi)核的快速傅里葉變換,為每個(gè)操作的預(yù)測(cè)行為提供了指導(dǎo)。這三種濾波器的實(shí)驗(yàn)過(guò)程與理論值以及原型濾波器相當(dāng)吻合。
? ? ? ? ??
總結(jié)與展望
本文報(bào)道了在內(nèi)存處理器中大規(guī)模集成2D材料作為半導(dǎo)體溝道。本文在開(kāi)環(huán)編程中編程狀態(tài)的表征和統(tǒng)計(jì)相似性方面證明了器件的可靠性和可重復(fù)性。處理器執(zhí)行向量矩陣乘法,并通過(guò)執(zhí)行離散信號(hào)處理來(lái)說(shuō)明其功能。本文的研究方法可以讓內(nèi)存處理器獲得2D材料的好處,并為用于物聯(lián)網(wǎng)的邊緣器件帶來(lái)新的功能。
? ? ? ? ??
文獻(xiàn)信息
A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories
(Nat. Electron., 2023, DOI:10.1038/s41928-023-01064-1)
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://m.xiubac.cn/index.php/2023/12/06/43df85eac6/