盡管我們?nèi)蕴幱谌斯ぶ悄芨锩倪吘?,但人工智能已?jīng)開始徹底改變我們的生活和工作方式。只有一個(gè)問題:人工智能技術(shù)非常耗電。據(jù)估計(jì),運(yùn)行大型人工智能模型在其生命周期內(nèi)產(chǎn)生的排放量比普通美國汽車還要多。
人工智能的未來需要能源效率方面的新創(chuàng)新,從模型的設(shè)計(jì)方式到運(yùn)行模型的硬件。在一個(gè)日益受到氣候變化威脅的世界中,人工智能能源效率的任何進(jìn)步對(duì)于跟上人工智能快速擴(kuò)大的碳足跡都至關(guān)重要。
IBM 研究中心在人工智能效率方面的最新突破之一依賴于模擬芯片,即功耗低得多的芯片。在今天發(fā)表在《自然》雜志上的一篇論文中,來自世界各地 IBM 實(shí)驗(yàn)室的研究人員展示了他們的原型模擬 AI 芯片,用于節(jié)能語音識(shí)別和轉(zhuǎn)錄。他們的設(shè)計(jì)被用于兩個(gè)人工智能推理實(shí)驗(yàn),在這兩種情況下,模擬芯片都像同類全數(shù)字設(shè)備一樣可靠地執(zhí)行這些任務(wù),但完成任務(wù)的速度更快,消耗的能源更少。
為人工智能推理設(shè)計(jì)模擬芯片的概念并不新鮮——研究人員多年來一直在考慮這個(gè)想法。早在 2021 年,IBM 的一個(gè)團(tuán)隊(duì)就開發(fā)了使用當(dāng)電脈沖施加到材料上時(shí),相變存儲(chǔ)器 (PCM) 就會(huì)工作,從而改變?cè)O(shè)備的電導(dǎo)率。該材料在非晶相和結(jié)晶相之間切換,較低的電脈沖將使器件更加結(jié)晶,提供較小的電阻,而足夠高的電脈沖使器件非晶態(tài),從而產(chǎn)生大電阻。PCM 設(shè)備不是記錄數(shù)字系統(tǒng)中常見的 0 或 1,而是將其狀態(tài)記錄為非晶態(tài)和晶態(tài)之間的連續(xù)值。該值稱為突觸權(quán)重,可以存儲(chǔ)在每個(gè) PCM 設(shè)備的物理原子配置中。存儲(chǔ)器是非易失性的,因此當(dāng)電源關(guān)閉時(shí)重量仍會(huì)保留。相變存儲(chǔ)器將神經(jīng)網(wǎng)絡(luò)的權(quán)重直接編碼到物理芯片上。但該領(lǐng)域之前的研究尚未表明如何將此類芯片用于我們所看到的當(dāng)今人工智能領(lǐng)域主導(dǎo)的大規(guī)模模型。例如,GPT-3 是較大的流行模型之一,擁有 1750 億個(gè)參數(shù)或權(quán)重。
IBM 研究團(tuán)隊(duì)創(chuàng)建的設(shè)計(jì)可以在每個(gè)芯片上編碼 3500 萬個(gè)相變存儲(chǔ)設(shè)備;換句話說,模型具有多達(dá) 1700 萬個(gè)參數(shù)。雖然其規(guī)模尚未與當(dāng)今最先進(jìn)的生成式人工智能模型相媲美,但將這些芯片組合在一起使其能夠像數(shù)字芯片一樣有效地處理真實(shí)人工智能用例的實(shí)驗(yàn)。
團(tuán)隊(duì)采取的方法是優(yōu)化在計(jì)算中,尤其是在數(shù)字信號(hào)處理中,MAC 運(yùn)算是指計(jì)算兩個(gè)數(shù)字的乘積并將其添加到累加器(CPU 中處理算術(shù)運(yùn)算的部分)。MAC 是一個(gè)基本的計(jì)算單元。乘法累加 (MAC) 運(yùn)算主導(dǎo)深度學(xué)習(xí)計(jì)算。通過讀取電阻式非易失性存儲(chǔ)器 (NVM) 器件陣列的行,然后沿列收集電流,該團(tuán)隊(duì)表明他們可以在存儲(chǔ)器內(nèi)執(zhí)行 MAC。這樣就無需在芯片的內(nèi)存和計(jì)算區(qū)域之間或跨芯片移動(dòng)權(quán)重。模擬芯片還可以并行執(zhí)行許多MAC操作,從而節(jié)省時(shí)間和能源。
模擬概念具有巨大潛力,但芯片設(shè)計(jì)和制造也面臨重大挑戰(zhàn):模擬計(jì)算本質(zhì)上不精確,必須開發(fā)新工藝才能大規(guī)模生產(chǎn)高產(chǎn)量 NVM,并將模擬芯片連接到傳統(tǒng)數(shù)字芯片。系統(tǒng)。但 IBM 的研究人員所做的工作表明,這些芯片在未來可能會(huì)像數(shù)字芯片一樣有用。
測試模擬人工智能硬件
IBM 研究中心的團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)來測試其設(shè)計(jì)的有效性。第一個(gè)圍繞關(guān)鍵字話語檢測。就像您希望智能揚(yáng)聲器在您大聲說“嘿 Siri”或“嘿 Google”時(shí)做出響應(yīng)一樣,該團(tuán)隊(duì)希望看到他們可以使用他們的芯片設(shè)計(jì)來識(shí)別特定的口語單詞。他們構(gòu)建了一個(gè)可監(jiān)聽 12 個(gè)單詞的系統(tǒng),在每種情況下,模擬芯片都能以與當(dāng)今基于軟件的系統(tǒng)相同的精度對(duì)每個(gè)單詞做出反應(yīng),但速度要快得多。如今等待和偵聽特定關(guān)鍵字的系統(tǒng)需要電源才能閑置等待,而團(tuán)隊(duì)創(chuàng)建的設(shè)計(jì)可以在不需要時(shí)關(guān)閉電源,因?yàn)槟P蜋?quán)重存儲(chǔ)在芯片上的非易失性存儲(chǔ)器中。
使用上傳到MLCommons(行業(yè)基準(zhǔn)測試和協(xié)作網(wǎng)站)的模型,該團(tuán)隊(duì)可以將演示系統(tǒng)的功效與在數(shù)字硬件上運(yùn)行的系統(tǒng)進(jìn)行比較。由 MLCommons 開發(fā)的MLPerf 存儲(chǔ)庫基準(zhǔn)數(shù)據(jù)顯示,IBM 原型比同一網(wǎng)絡(luò)類別中最佳 MLPerf 提交快七倍,同時(shí)保持高精度。該模型使用硬件感知訓(xùn)練在 GPU 上進(jìn)行訓(xùn)練,然后部署在團(tuán)隊(duì)的模擬 AI 芯片上。
第二個(gè)實(shí)驗(yàn)規(guī)模相當(dāng)大,暗示未來可以使用基于模擬芯片的生成人工智能系統(tǒng)來代替數(shù)字芯片。它的目標(biāo)是使用團(tuán)隊(duì)的五個(gè)芯片縫合在一起來實(shí)現(xiàn)一個(gè)大型復(fù)雜的模型,并模擬片外數(shù)字計(jì)算,以展示模擬人工智能的可擴(kuò)展性。研究人員運(yùn)行了 MLPerf 上發(fā)現(xiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器(RNNT)語音到文本模型,以逐個(gè)字母地轉(zhuǎn)錄一個(gè)人所說的內(nèi)容。RNNT 在當(dāng)今的許多現(xiàn)實(shí)應(yīng)用中很受歡迎,包括虛擬助手、媒體內(nèi)容搜索和字幕系統(tǒng)以及臨床文檔和聽寫。
該系統(tǒng)包含 5 個(gè)芯片上 1.4 億個(gè) PCM 設(shè)備的 4500 萬個(gè)權(quán)重。它能夠采集人們說話的音頻并以非常接近數(shù)字硬件設(shè)置的精度進(jìn)行轉(zhuǎn)錄。與第一個(gè)演示不同,這個(gè)演示并不完全是端到端的,這意味著它確實(shí)需要一些片外數(shù)字計(jì)算。然而,這里涉及的額外計(jì)算很少,如果在芯片上實(shí)現(xiàn),最終的能源效率仍然高于當(dāng)今市場上的產(chǎn)品。
該團(tuán)隊(duì)再次使用上傳到 MLCommons 的數(shù)據(jù),將其網(wǎng)絡(luò)的功效與在數(shù)字硬件上運(yùn)行的 RNNT 進(jìn)行比較。MLPerf 數(shù)據(jù)顯示,IBM 原型的每瓦性能(或效率)估計(jì)比同類系統(tǒng)高出大約 14 倍。這是 IBM 研究人員能夠使用 MLPerf 進(jìn)行實(shí)際測試的第一個(gè)模擬系統(tǒng),因?yàn)檫^去的實(shí)驗(yàn)規(guī)模太小,無法進(jìn)行比較。
模擬人工智能的下一步是什么
自然語言任務(wù)并不是模擬人工智能可以解決的唯一人工智能問題——IBM 研究人員正在研究許多其他用途。在本月早些時(shí)候發(fā)表在《自然電子》雜志上的一篇論文中,該團(tuán)隊(duì)展示了可以使用節(jié)能模擬芯片設(shè)計(jì)來實(shí)現(xiàn)可擴(kuò)展的混合信號(hào)架構(gòu),該架構(gòu)可以在計(jì)算機(jī)視覺圖像識(shí)別的 CIFAR-10 圖像數(shù)據(jù)集中實(shí)現(xiàn)高精度。
這些芯片由位于東京、蘇黎世、紐約約克敦高地和加利福尼亞州阿爾馬登實(shí)驗(yàn)室的 IBM 研究人員構(gòu)思和設(shè)計(jì),并由外部制造公司制造。相變存儲(chǔ)器和金屬層在位于奧爾巴尼納米技術(shù)綜合體的 IBM 研究實(shí)驗(yàn)室進(jìn)行了處理和驗(yàn)證。
如果您將今天在《自然》雜志上發(fā)表的工作的優(yōu)點(diǎn)(例如大型陣列和并行數(shù)據(jù)傳輸)與《自然電子》論文中展示的芯片的強(qiáng)大數(shù)字計(jì)算模塊相結(jié)合,您會(huì)看到許多構(gòu)建模塊實(shí)現(xiàn)快速、低功耗模擬 AI 推理加速器的愿景所需。并將這些設(shè)計(jì)與硬件彈性訓(xùn)練算法相結(jié)合,該團(tuán)隊(duì)預(yù)計(jì)這些人工智能設(shè)備將來能為各種人工智能模型提供相當(dāng)于神經(jīng)網(wǎng)絡(luò)精度的軟件。
雖然這項(xiàng)工作對(duì)于模擬人工智能系統(tǒng)來說是向前邁出的一大步,但在我們?cè)谑袌錾峡吹桨祟愒O(shè)備的機(jī)器之前,還有很多工作要做。該團(tuán)隊(duì)在不久的將來的目標(biāo)是將上述兩個(gè)工作流整合到一個(gè)模擬混合信號(hào)芯片中。該團(tuán)隊(duì)還在研究如何在他們的芯片上實(shí)現(xiàn)基礎(chǔ)模型。
模擬人工智能現(xiàn)在正在很大程度上解決當(dāng)今數(shù)字系統(tǒng)正在解決的各種人工智能問題,并且具有功耗意識(shí)的模擬人工智能的愿景與我們今天使用的數(shù)字系統(tǒng)相結(jié)合,變得越來越清晰。
延伸閱讀:IBM 用于深度學(xué)習(xí)推理的模擬 AI 芯片
我們正處于人工智能革命的開端,這場革命將重新定義我們的生活和工作方式。特別是,深度神經(jīng)網(wǎng)絡(luò) (DNN) 徹底改變了人工智能領(lǐng)域,并隨著基礎(chǔ)模型和生成式人工智能的出現(xiàn)而日益受到重視。。但在傳統(tǒng)數(shù)字計(jì)算架構(gòu)上運(yùn)行這些模型限制了它們可實(shí)現(xiàn)的性能和能源效率。專門用于人工智能推理的硬件開發(fā)已經(jīng)取得了進(jìn)展,但其中許多架構(gòu)在物理上分割了內(nèi)存和處理單元。這意味著人工智能模型通常存儲(chǔ)在離散的內(nèi)存位置,計(jì)算任務(wù)需要在內(nèi)存和處理單元之間不斷地整理數(shù)據(jù)。此過程會(huì)減慢計(jì)算速度并限制可實(shí)現(xiàn)的最大能源效率。
IBM 研究中心一直在研究重塑人工智能計(jì)算方式的方法。模擬內(nèi)存計(jì)算,或者簡稱模擬人工智能,是一種很有前途的方法,可以借用神經(jīng)網(wǎng)絡(luò)在生物大腦中運(yùn)行的關(guān)鍵特征來應(yīng)對(duì)這一挑戰(zhàn)。在我們的大腦以及許多其他動(dòng)物的大腦中,突觸的強(qiáng)度(在本例中是“權(quán)重”)決定了神經(jīng)元之間的通信。對(duì)于模擬人工智能系統(tǒng),我們將這些突觸權(quán)重本地存儲(chǔ)在納米級(jí)電阻存儲(chǔ)設(shè)備的電導(dǎo)值中,例如相變存儲(chǔ)器(PCM) 并通過利用電路定律并減少在內(nèi)存和處理器之間不斷發(fā)送數(shù)據(jù)的需要來執(zhí)行乘法累加 (MAC) 操作,這是 DNN 中的主要計(jì)算操作。
為了將模擬人工智能的概念變成現(xiàn)實(shí),需要克服兩個(gè)關(guān)鍵挑戰(zhàn):這些存儲(chǔ)器陣列需要能夠以與現(xiàn)有數(shù)字系統(tǒng)相當(dāng)?shù)木冗M(jìn)行計(jì)算,并且它們需要能夠與其他數(shù)字計(jì)算單元,以及模擬人工智能芯片上的數(shù)字通信結(jié)構(gòu)。
在早前發(fā)表在 Nature Electronics 上的一篇論文中,IBM Research 引入了最先進(jìn)的混合信號(hào)模擬 AI 芯片來運(yùn)行各種 DNN 推理任務(wù),從而在應(yīng)對(duì)這些挑戰(zhàn)方面邁出了重要一步。它是第一款經(jīng)過測試的模擬芯片,與數(shù)字芯片一樣擅長計(jì)算機(jī)視覺人工智能任務(wù),同時(shí)能效顯著提高。
該芯片是在 IBM 的Albany NanoTech Complex中制造的,由 64 個(gè)模擬內(nèi)存計(jì)算核心(或塊)組成,每個(gè)核心包含 256×256 的突觸單位單元交叉陣列。每個(gè)模塊中都集成了緊湊的基于時(shí)間的模數(shù)轉(zhuǎn)換器,以在模擬世界和數(shù)字世界之間進(jìn)行轉(zhuǎn)換。每個(gè)圖塊還集成了輕量級(jí)數(shù)字處理單元,執(zhí)行簡單的非線性神經(jīng)元激活功能和縮放操作。
每個(gè)圖塊可以執(zhí)行與 DNN 模型的一層相關(guān)的計(jì)算。突觸權(quán)重被編碼為 PCM 設(shè)備的模擬電導(dǎo)值。全局?jǐn)?shù)字處理單元集成在芯片中間,可實(shí)現(xiàn)更復(fù)雜的操作,這些操作對(duì)于執(zhí)行某些類型的神經(jīng)網(wǎng)絡(luò)至關(guān)重要。該芯片還在所有塊和全局?jǐn)?shù)字處理單元的芯片互連處具有數(shù)字通信路徑。
使用該芯片,我們對(duì)模擬內(nèi)存計(jì)算的計(jì)算精度進(jìn)行了最全面的研究,并在CIFAR-10圖像數(shù)據(jù)集上證明了 92.81% 的準(zhǔn)確率。我們相信這是目前報(bào)道的使用類似技術(shù)的芯片中精度最高的。在本文中,我們還展示了如何將模擬內(nèi)存計(jì)算與多個(gè)數(shù)字處理單元和數(shù)字通信結(jié)構(gòu)無縫結(jié)合。測得的每個(gè)區(qū)域的吞吐量為400 GOPS/mm2 的 8 位輸入輸出矩陣乘法該芯片的功耗比之前基于電阻式存儲(chǔ)器的多核內(nèi)存計(jì)算芯片高出 15 倍以上,同時(shí)實(shí)現(xiàn)了可比的能源效率。
通過將這種 64 塊芯片的面積和能源效率高的模數(shù)轉(zhuǎn)換器 (ADC)、高度線性乘法累加計(jì)算和強(qiáng)大的數(shù)字計(jì)算塊與我們展示的大規(guī)模并行數(shù)據(jù)傳輸相結(jié)合我們?cè)?2021 年IEEE VLSI 研討會(huì)上推出的 34 塊芯片中,現(xiàn)在已經(jīng)展示了實(shí)現(xiàn)快速、低功耗模擬 AI 推理加速器芯片架構(gòu)愿景所需的許多構(gòu)建模塊。
利用我們的學(xué)習(xí)成果,我們?cè)O(shè)計(jì)了一個(gè)類似的加速器架構(gòu),該架構(gòu)于今年早些時(shí)候發(fā)布在IEEE Transactions on VLSI systems上。我們的愿景將許多模擬內(nèi)存計(jì)算塊與與大規(guī)模并行 2D 網(wǎng)格連接的專用數(shù)字計(jì)算核心相結(jié)合。結(jié)合我們近年來開發(fā)的復(fù)雜的硬件感知訓(xùn)練,我們期望這些加速器在未來幾年能夠在各種模型中提供與軟件等效的神經(jīng)網(wǎng)絡(luò)精度。