讓內存干CPU的活兒 這項技術將芯片運行速度提升百倍
近日,美國普林斯頓大學研究人員推出了一款新型計算機芯片,其運行速度是傳統(tǒng)芯片的百倍。有媒體稱其采用了“內存計算”技術,使計算效率得到大幅提升。
這一神奇的技術到底是什么?它為何能顯著提高芯片性能?科技日報記者就此采訪了相關專家。
高度集成,把計算與存儲功能合二為一
對于我們常用的計算機來說,存儲器可分為內部存儲器和外部存儲器。內部存儲器,即“內存”,是電腦的主存儲器。它的存取速度快,但只能儲存臨時或少量的數(shù)據(jù)和程序。
外部存儲器,通常被稱為“外存”,它包括硬盤、軟盤、光盤、U盤等,通常可永久存儲大量數(shù)據(jù),如操作系統(tǒng)、應用程序等。當運行某一程序時,處理器(CPU)會先從內存中讀取數(shù)據(jù),而后將一部分結果寫入內存,并選擇性地將另一部分結果寫入外存進行永久保存。
也就是說,通常情況下,內存只能存儲少量數(shù)據(jù),計算機中大部分數(shù)據(jù)都“住”在外存。當CPU運行程序時就需要調取數(shù)據(jù),若調取“住”在內存的數(shù)據(jù),則用時較少;若調取“住”在外存的數(shù)據(jù),則可能要費些周折。
因此科學家就想,能否把數(shù)據(jù)都存在內存里呢?于是,內存計算技術出現(xiàn)了。
“內存計算技術是伴隨著大數(shù)據(jù)處理技術的興起而興盛起來的。在處理大數(shù)據(jù)過程中,由于數(shù)據(jù)量極大,處理數(shù)據(jù)時頻繁訪問硬盤這些外存會降低運算速度。隨著大容量內存技術的興起,專家開始提出在初始階段就把數(shù)據(jù)全部加載到內存中,而后可直接把數(shù)據(jù)從內存中調取出來,再由處理器進行計算。這樣可以省去外存與內存之間的數(shù)據(jù)調入/調出過程,從而大大提升計算速度!北本┖娇蘸教齑髮W計算機學院教授、中德聯(lián)合軟件研究所所長劉軼告訴科技日報記者。
“但普林斯頓大學研發(fā)團隊采用的‘內存計算’技術與上述概念中所指的內存計算并不完全相同!眲⑤W說,普林斯頓大學所采用的技術其實是PIM(Process in-memory),通常被翻譯為“存內計算”“存算一體”或“計算存儲一體化”。
“PIM技術是指直接在內存中處理數(shù)據(jù),而不是把數(shù)據(jù)從內存讀取到處理器中進行處理!眲⑤W指出,PIM的技術概念在1990年就已被提出,雖然相關研究論文早已發(fā)表出來,但相關技術始終難以落地。
劉軼認為“難落地”的主要原因在于,PIM技術尚難以達到傳統(tǒng)計算機馮·諾依曼結構的靈活性和通用性水平!澳壳埃瑢W界所提出的PIM技術,只能做某些類別的應用,難以實現(xiàn)靈活編程!彼f。
可解決“存儲墻”問題,大幅提升性能
在劉軼看來,PIM技術的重要價值在于,其能解決傳統(tǒng)計算機結構存在的“存儲墻”問題。傳統(tǒng)計算機采用的馮·諾依曼結構,需要CPU從內存中取出指令并且執(zhí)行,某些指令又需要從內存讀取數(shù)據(jù)進行處理,再將結果寫回內存。由于處理器所執(zhí)行的程序和待處理的數(shù)據(jù)都被存在內存中,這樣處理器在運行過程中需要頻繁訪問內存。隨著微電子技術的發(fā)展,處理器性能的進步速度逐漸快于內存性能。
近30年來,處理器性能每年提升55%,而內存訪問速度每年僅提升7%。這使得處理器的處理速度遠遠快于內存的讀取速度,直接導致了“存儲墻”的出現(xiàn),嚴重拖慢了程序執(zhí)行速度。
“這好比一個人消化能力很強,飯桌上也有很多食物,但這個人的嗓子眼兒很細,咽不下去。這就使得強大的消化能力‘無用武之地’,也限制了這個人吃東西的速度!眲⑤W說。
“近年來深度學習等新型算法的興起,對推倒‘存儲墻’提出了更迫切的需求!眲⑤W指出,新型算法訪問內存的模式跟傳統(tǒng)模式不太相同,刷臉、圖片識別、機器翻譯等新型算法往往以類似于人腦的方式實現(xiàn)對復雜數(shù)據(jù)的處理。由于這類算法涉及的神經(jīng)元數(shù)量多、訓練樣本量大,這導致在通用計算機上進行深度學習計算的效率比較低。
為了提高效率,科研人員開發(fā)了各種加速部件和專用的深度學習處理器,前者的典型代表是圖形處理器(GPU),后者的典型代表有谷歌公司的張量處理器(TPU)、國內的寒武紀處理器等。
“CPU、GPU等處理器通過總線與內存相連,總線的傳輸速度決定了計算的效率。”中國自動化學會混合智能專業(yè)委員會副主任、復旦大學計算機學院教授張軍平告訴科技日報記者,人們正在嘗試通過改進,減少數(shù)據(jù)在總線上的傳輸次數(shù),提高計算效率。例如,科研人員讓CPU具備部分的GPU功能,或使GPU具備一些CPU的功能等。
劉軼表示,上述改進措施仍然屬于馮·諾依曼結構,不能從根本上解決“存儲墻”問題。相比之下,PIM技術在解決“存儲墻”問題上更具優(yōu)勢。首先,它的計算模式更適合深度學習等新型計算模式;其次,PIM技術避免了馮·諾依曼結構處理器頻繁訪問內存這一問題,減少了數(shù)據(jù)傳輸次數(shù),降低了功耗。
具有發(fā)展?jié)摿,但尚難取代通用處理器
記者通過查閱資料發(fā)現(xiàn),PIM技術應用最大的難點在于制造工藝。
PIM技術需要利用先進的半導體工藝將處理器和存儲器集成在同一芯片內,使之通過片上網(wǎng)絡相互連接。但由于目前處理器與存儲器的制造工藝不同,若要在處理器上實現(xiàn)存儲器的功能,則可能會降低存儲器的存儲密度;若要在存儲器上實現(xiàn)處理器的功能,則可能會影響處理器的運行速度。
張軍平指出,現(xiàn)階段內存本身不具備計算功能,因此若想實現(xiàn)內存計算或PIM技術都需要對內存進行重新設計。
“普林斯頓大學不是專業(yè)的芯片公司,其推出的新型芯片可能只是一種技術上的探索,離真正的產(chǎn)業(yè)化應用還有相當長的距離!睆堒娖秸J為,隨著固態(tài)硬盤等技術的發(fā)展,如果硬盤讀寫速度足以媲美內存,內存與外存可能被集成為新型大容量高速存儲器。未來最理想的情況是,CPU、GPU等多種處理器與大容量高速存儲器實現(xiàn)一體化高度集成。
劉軼強調,普林斯頓大學設計的這種處理器是一種專用處理器,它只針對深度學習應用,無法取代傳統(tǒng)的通用處理器。
“正如華為、蘋果等公司推出的高端手機上大多配置了深度學習處理器,但只作為附屬部件,核心的計算和處理仍然由通用處理器來完成,只是把特定的任務和計算模塊交由深度學習處理器來進行計算,而且是在通用處理器的控制之下完成的!眲⑤W說。
“短期來看,PIM技術只能被用于特定類別的應用場景,難以取代通用處理器!眲⑤W認為,從長遠來看,如果半導體材料和器件技術無法取得突破,集成電路的摩爾定律將在不久的未來失效,即集成電路芯片內的晶體管數(shù)量將停止增長。這會對傳統(tǒng)的計算機系統(tǒng)結構乃至計算機硬件和軟件產(chǎn)業(yè)造成巨大的影響,由此也很可能引發(fā)重大的技術變革。當新的計算結構出現(xiàn)時,高度集成化的系統(tǒng)可能會對PIM技術有更多需求,但該技術能否成為主流仍有待觀察。

最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?