英特爾AI芯片業(yè)務的現(xiàn)在與未來發(fā)展
AI芯片業(yè)務才是英特爾的未來。去年,英特爾的AI芯片部門創(chuàng)收高達10億美元,英特爾預計這一市場還會以每年30%的速度增長,有望從2017年的25億美元增長到2022年的100億美元。如此看來,英特爾目前以數(shù)據(jù)為中心的收入占到了其所有部門所有業(yè)務的一半,比5年前上漲了大約1/3。
但盡管如此,英偉達(Nvidia)、高通、邁威爾(Marvell)和AMD等公司帶來的競爭也日益加;Hailo科技公司、Graphcore、Wave Computing、Esperanto和Quadric等創(chuàng)業(yè)公司也加入了這場角逐;甚至連亞馬遜也有可能威脅到英特爾的收益,因此,英特爾并沒沒有滿足于自己的成就。2015年,英特爾先是收購了現(xiàn)場可編程門陣列(Field Programmable Gate Array,簡稱FPGA)的制造商Altera,一年后又收購了Nervana,填補了其硬件平臺產品的空缺,為全新一代AI加速器芯片組奠定了基礎。去年8月,英特爾又拿下了Vertex.ai——這是一家開發(fā)平臺無關的AI模型套件的創(chuàng)業(yè)公司。
然而,英特爾的野心卻并未止步于此。在近日的采訪中,英特爾副總裁兼架構總經(jīng)理Gadi Singer以及與英特爾人工智能產品部門高級主管Casimir Wierzynski透露了英特爾在基于光并以AI加速的光子電路和光學芯片方面的積極探索。
Singer表示:“人工智能硬件是一個價值數(shù)十億美元的商機。我們會投資幾個產品線,因為該領域的需求非常廣泛。其中一些產品(比如加速器等)將側重于節(jié)能,這是這些產品獨有的特點。因此,投資這個領域可以讓我們的投資組合相輔相成!
軟件
Singer指出,如果硬件上相應軟件的開發(fā)難度太大,那么硬件將毫無價值。因此,英特爾會絕對不會忽視AI領域的軟件生態(tài)系統(tǒng)。
去年4月,英特爾宣布開源nGraph——這是一種神經(jīng)網(wǎng)絡模型編譯器,它能夠在多處理器架構上對匯編代碼進行優(yōu)化。大約在同一時期內,英特爾還推出了One API,這套工具可以將計算引擎映射到一系列的處理器、圖形芯片、FPGA以及其他加速器。5月份,英特爾新成立的人工智能實驗室免費開放了一個用于自然語言處理的跨平臺庫NLP Architect,該庫可以為聊天助手提供名稱實體識別,意圖提取和語義分析等功能,同時提供相應的評測。
Singer指出,英特爾已開源的工具包遠不止這些。如今,英特爾還提供了神經(jīng)網(wǎng)絡壓縮庫Distiller,這個庫可以從AI模型中去除與目標任務無關的部分,從而達到縮小模型的目的。還有一個增強學習框架Coach,可以讓用戶將AI代理嵌入到機器人和自動駕駛車輛的訓練環(huán)境中。
2018年春季,英特爾推出了OpenVINO(Open Visual Inference & Neural Network Optimization,開放視覺推斷及神經(jīng)網(wǎng)絡優(yōu)化),這是一個用于AI邊緣計算開發(fā)的工具套件,集成了用于目標檢測、面部識別以及目標跟蹤等一系列預先訓練好的AI模型。這套工具適用于傳統(tǒng)的CPU,(在使用訓練好的AI模型進行預測時)也可以用于FPGA等專門用于推斷的芯片,目前這套工具已經(jīng)被美國通用電氣醫(yī)療集團等公司用于醫(yī)療成像,還被Dahua等公司用于智能城市服務。
Singer表示,OpenVINO旨在打造英特爾的計算機視覺軟件開發(fā)套件(SDK),這套工具集視頻處理、計算機視覺、機器學習以及流水線優(yōu)化于一身,其使用了Movidius Neural Compute SDK(該SDK中包含一套軟件,用于編譯、配置并檢查機器學習模型)。兩者與英特爾的Movidius神經(jīng)計算API屬于同一個系列,目的是為了簡化C、C++和Python等編程語言的應用開發(fā)。
其中許多套件都運行在英特爾的AI DevCloud中,這是一個云托管AI模型訓練及推斷平臺,其背后是強大的Xeon可擴展處理器。DevCloud提供可擴展的存儲和計算資源,因此開發(fā)人員能夠針對硬件(例如Aaeon Technologies等制造商提供的mini-PCIe開發(fā)板)遠程進行測試、優(yōu)化以及模型驗證。
隱私
Singer表示,英特爾深知保護隱私是AI訓練以及推斷的重要發(fā)展趨勢之一,去年年底HE-Transformer的開源就是英特爾邁出的重要的第一步。從大的方面來說,HE-Transformer是一個建立在微軟研究院的簡單加密算法庫(Simple Encrypted Arithmetic Library,簡稱SEAL)上的nGraph后端,允許模型對加密數(shù)據(jù)進行操作。
HE-Transformer中“HE”代表“同態(tài)加密”(homomorphic encryption),這種加密形式允許使用算法加密的明文。它生成的加密計算結果經(jīng)過解密后,與針對未加密文本執(zhí)行的操作結果完全匹配。
HE-Transformer實際上是一個抽象層,該抽象層可應用于Google的TensorFlow、Facebook的PyTorch和MXNet等開源框架上的神經(jīng)網(wǎng)絡。
Singer表示:“我們相信安全和隱私極其重要。這實際上是大規(guī)模機器學習的基本條件。例如,如果你需要獲取多家醫(yī)院的很多患者的信息,那么隱私問題就會變得非常重要。即使你想了解這些人的行為和動作,但是如果你無法保護他們的隱私,那么他們就不會允許你訪問這些數(shù)據(jù)!
在談到英特爾是否會繼續(xù)開發(fā)類似于Google TensorFlow Privacy(這個庫采用了一系列統(tǒng)計技術來保證AI模型訓練的隱私)的機器學習庫時,Singer表示相關的工作正在進行中,他說:“現(xiàn)階段我們還不想討論這個問題,因為我們的深度學習能力還處于早期階段,但是我們非常有興趣,也愿意投資這方面!
加速器與FPGA
絕大多數(shù)AI系統(tǒng)核心的神經(jīng)網(wǎng)絡的構成元素是神經(jīng)元,即近似模擬生物神經(jīng)元而建模的數(shù)學函數(shù)。這些神經(jīng)元分層排列,它們通過“突觸”(synapse)連接,將信號傳遞給其他神經(jīng)元。這些信號(提供給神經(jīng)網(wǎng)絡的數(shù)據(jù),或者叫輸入)在層與層之間傳播,并通過調整每個連接的突觸強度(權重)來逐步“調整”網(wǎng)絡。經(jīng)過一段時間后,神經(jīng)網(wǎng)絡就能從數(shù)據(jù)集中提取特征,并識別出跨樣本趨勢,最終學會預測。
神經(jīng)網(wǎng)絡無法攝取原始的圖像、視頻、音頻或文本。訓練數(shù)據(jù)集的樣本需要經(jīng)過代數(shù)轉換后變成多維數(shù)組,例如標量(單個數(shù)字)、向量(有序的標量數(shù)組)以及矩陣(排列成多行多列的標量)。還有一種實體類型叫做張量(tensor),它概括了標量、向量和矩陣,并提供了線性變換(或線性關系)的功能。
例如,一張包含數(shù)百萬像素的圖像會轉換成超大的數(shù)字矩陣,而音頻記錄中的單詞和短語可以映射成向量,這種技術稱為嵌入。
毫無疑問,在處理這些統(tǒng)計操作時,有些硬件的效率更高。一般來說,處理器足以處理一些涉及到復雜順序計算的推斷和訓練,特別是像英特爾第二代Xeon可擴展CPU,它結合了向量神經(jīng)網(wǎng)絡指令以及名為DL Boost AI的深度學習軟件優(yōu)化。因此,英特爾聲稱其第二代Xeon可擴展CPU可以將AI工作負載上的性能提高到2.4倍(這些工作負載占數(shù)據(jù)中心推斷的60%),同時可以將推斷工作負載的性能提高到14倍,其中包括圖像識別、目標檢測和圖像分割等。英特爾還聲稱其即將推出的10nm Ice Lake 處理器能夠提供比市場上同類產品最多高8.8倍的AI推斷吞吐量。
然而,一些最苛刻的深度學習涉及張量操作,而顯卡以及專用集成電路(Application Specific Integrated Circuit,簡稱ASIC)的芯片更有利于這些操作。這是因為這些芯片包含數(shù)千個能夠并行執(zhí)行數(shù)百萬次數(shù)學計算的內核。
Singer表示:“盡管CPU對于推斷非常有效,但是有些情況下需要進行張量操作。深度學習中最苛刻的任務需要處理多維數(shù)組,而且還需要進行張量上進行多種算術運算。從解決方案體系結構的角度來看,我們應該從優(yōu)化軟件和其他硬件功能方面不斷強化CPU,然而僅靠CPU本身并不足以處理所有這類情形!
英特爾擁有16nm Myriad X VPU這樣的視覺處理器,它的優(yōu)化圖像信號處理和推斷設備具有立體聲模塊,可以處理最高180Hz的雙720p視頻源,還擁有采用硬件編碼的可調信號處理器流水線,能夠對來自8個傳感器的最大4K分辨率的視頻進行編碼。此外,它還配備了英特爾的神經(jīng)計算引擎,這是一種專用的硬件加速器,具有本地 FP16支持和8位定點支持。
英特爾聲稱,這款芯片在全速運轉時可以達到每秒4萬億次計算和每秒1萬億次運算的專用神經(jīng)網(wǎng)絡計算,是其前身(Myriad 2)在深度神經(jīng)網(wǎng)絡推斷性能的10倍。
FPGA 與專用的加速器不太一樣,因為它們的硬件往往針對通用的、更廣泛的計算和數(shù)據(jù)功能。但它們在可編程性方面確實有優(yōu)勢,因此開發(fā)人員能夠在成品上對它們進行配置和重新配置。這可能是微軟為Project Brain Wave選擇英特爾Stratix 10 FPGA的原因之一,Project Brainwave是一項針對加速深度神經(jīng)網(wǎng)絡訓練與部署而優(yōu)化的云服務。
英特爾在Agilex上提供了最先進的FPGA解決方案,其最新的10nm嵌入式芯片組旨在解決企業(yè)網(wǎng)絡和數(shù)據(jù)中心的“以數(shù)據(jù)為中心”的難題。
Agilex產品具有可定制的異構3D系統(tǒng)級封裝,包括模擬、內存、計算和定制 I/O 組件——其中包括 DDR5、 HBM,還有一塊Intel Optane DC。它們得到了英特爾One API的全面支持,并且還提供了遷移到ASIC的解決辦法。
英特爾聲稱,與英特爾老式的14nm Stratix10FPGA相比,Agilex FPGA的性能提高了40%,總功耗則降低了40%,這部分要歸功于他們的第二代 HyperFlex 架構。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?