不久前,商湯科技展示了旗下的多個大模型。與其他家有所不同的是,商湯的大模型體系可以以視覺為核心,結合語言及各種模態(tài)的數據,形成多模態(tài)的應用支持能力。
這樣的技術路線可以保證模型從百億參數到千億參數到后面萬億參數,每一步都能用在實際行業(yè)和產品里,形成用戶反饋閉環(huán),有利于下一步的模型迭代。
文|趙艷秋 徐鑫
編|周路平
ChatGPT掀起的大模型熱潮,讓國內大模型的訓練進入白熱化階段。
4月10日,商湯科技在上海臨港智算中心舉辦的技術交流日上,公布了大模型體系“日日新SenseNova”。該名稱取自《禮記·大學》“茍日新、日日新、又日新”,商湯科技董事長徐立調侃稱,之所以叫日日新,是因為“茍日新”不好聽。而這一名字是希望在模型迭代速度及處理問題的能力上可以日日更新,不斷解鎖AGI更多可能。
商湯并未公布大模型采用的技術路線,但商湯科技聯合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒透露,人類生活中至少有80%的信息來自于視覺,憑借商湯在視覺領域的積累,加入語言、代碼等不同信息做深度的融合,可以訓練出更好的多模態(tài)大模型。這與百度、阿里等有所不同。目前,業(yè)界大廠都在不同技術路線上摸索大模型技術,追趕OpenAI。
01
商湯大模型,從視覺走向AGI
盡管臨港位置較偏,但擋不住人們對大模型的關注熱情。現場擠滿了來自全國各地的合作伙伴,他們也在尋找新的技術范式能與自身業(yè)務的結合點。
商湯當天展示了“日日新SenseNova”大模型體系下的語言大模型,還展示了AI文生圖創(chuàng)作、2D/3D數字人生成、大場景/小物體生成等生成式AI模型及應用,在領域模型之上,結合各個行業(yè)的數據形成行業(yè)落地的閉環(huán)。
相比于國內外大模型,陳宇恒告訴數智前線,視覺感知是商湯的優(yōu)勢之一。目前,商湯已研發(fā)了320億參數量的全球最大通用視覺模型,實現了目標檢測、圖像分割和多物體識別算法。早在2019年,商湯已推出10億參數量規(guī)模的視覺模型,在2021年~2022年,商湯訓練了百億參數規(guī)模的超大視覺模型,相當于千億參數語言模型的訓練量。
目前,視覺大模型在多個領域落地應用。例如,在智能駕駛領域,商湯實現了BEV環(huán)視感知,做到了3000類物體的高精度識別,還構建了感知決策一體化的自動駕駛多模態(tài)大模型,帶來更強的環(huán)境、行為、動機解碼能力。
就在商湯公布大模型之前的幾天,美國Meta公司發(fā)布了首個圖像分割的基礎大模型SAM,它通過自然語言的輸入,去完成物體的分割。陳宇恒稱,相關技術能力商湯已經具備,商湯視覺大模型在很多測試集上完成領先測試。相比美國的視覺大模型,陳宇恒認為,商湯的優(yōu)勢點在于,國內的應用場景廣闊,結合其在城市、自動駕駛、商業(yè)元宇宙等領域的行業(yè)積累,形成應用閉環(huán)。
在基礎大模型之上,商湯當天公布自研中文語言大模型“商量SenseChat”,是一個類ChatGPT應用,其參數量達千億。數智前線獲悉,在ChatGPT之前,商湯在NLP技術上已有數年積累,并早在2021年就應用在商湯的數字人等產品中,實現語音、NLP和視覺的全方位自研。
雖然大眾關注大模型的“對話互動能力”,但業(yè)界更關注其背后的“理解推理水平”,這也是體現大模型能力的關鍵。徐立在現場著重展示了“商量”對長文本的理解和歸納能力。在徐立輸入了《專利法》的PDF文件后,系統(tǒng)快速閱讀理解《專利法》,并根據用戶針對此文輸入的問題,給出相應的答案。從結果來看,大模型并沒有直接從《專利法》中復制對應的結果,而是在理解問題之后,生成總結性答案,也可以對比最新的專利法,給出前后做了哪些修改。
在人工智能內容生成方面,基于日日新大模型,商湯也推出了一系列生成式AI模型及應用,涵蓋圖片生成、數字人視頻生成、3D內容生成等。商湯對這些模型的應用場景也進行了一一展示。
比如徐立現場演示了文生圖平臺“秒畫SenseMirage”,他先后輸入了“站在窗邊的中國女性”,“站在窗邊的穿漢服的中國女性”等關鍵字,起初表現效果都很好,之后輸入了“80年代港風”作為關鍵字,但是生成的圖片并沒有顯著的港風效果,這說明大模型對于該垂類風格的學習強度不及預期;但隨后他將準備好的20張經典港風圖片“投喂”給大模型,以商湯自研作畫模型作為基模型來訓練定制化LoRA模型,在幾分鐘后就生成了一個表達港風效果較好的LoRA模型。這種根據小批量樣本快速適配新風格的學習能力也是商湯自研作畫大模型的一個顯著優(yōu)點。
陳宇恒透露,之所以做多個大模型,主要是可以以視覺為核心,結合語言及各種模態(tài)的數據,形成多行業(yè)應用的方案。同時,這樣的技術路線相對更平滑,可以保證模型從百億參數到千億參數到后面萬億參數,每一步都能用在實際行業(yè)和產品里,形成用戶反饋閉環(huán),有利于下一步的模型迭代。
從大的方向上,未來商湯要去挑戰(zhàn)更大的模型,不斷去接近通用人工智能。
02
構建用戶與大模型的飛輪
在公布大模型的同時,商湯也介紹了其行業(yè)應用目標和情況。這是國內企業(yè)的特色。他們需要第一時間考慮產業(yè)落地問題。
而要“煉”出真正有價值的大模型,則需要建立用戶與模型反饋的閉環(huán)。這是業(yè)界從OpenAI得到的啟示。OpenAI在做出幾版大模型后,建立起真實用戶調用和模型迭代之間的飛輪。
數智前線獲悉,商湯的大模型將更多服務B端客戶,目前已落地20多個業(yè)務場景。
比如,在智能汽車領域,視覺大模型可以充當“半自動標注機器人”,對路測回游的數據進行過濾和預標注,讓標注效率提高4 倍以上。商湯當天公布了自動化數據標注平臺“明眸”,支持智能駕駛、智慧交通、智慧城市等多種場景的2D分類、檢測和3D檢測的智能標注。
大模型還可以解決智能駕駛過程中的Corner Case(邊角案例)問題,也就是人們無法想到或不常見的事情。之前,傳統(tǒng)小模型會像“狗熊掰棒子”一樣,學了新的Corner Case,經常就“忘了”舊的,大模型能化解這個瓶頸,讓其更可靠。而這兩個問題也是目前自動駕駛邁向L3、 L4商用過程中的兩大痛點。
再如,在生物醫(yī)藥科研領域,通過大模型,把蛋白質結構的預測時間縮短到1/60,從而大幅提高了抗體篩選的效率。
元宇宙也是大模型很好的應用場景。元宇宙是多種技術的結合體,像AR、VR、人工智能內容生成 、文本生成 3D 模型、文本生成視頻等……大模型可以化解元宇宙內容制作成本過高的痛點。
而大模型的泛化能力,讓原來很多長尾事件,變得可以解決。比如在智慧城市領域,大模型可以改善城市的各類運營的工作,如垃圾拋灑、糞車排放、單車違停等。
業(yè)界都認為大模型是一種新的技術范式,就像蒸汽機的出現,將能源轉換效率提高了幾十倍;電力的出現,又把能源轉換效率再提升了幾十倍,F在大模型可以把傳統(tǒng)小模型的生產效率提升幾十倍甚至上百倍,以非常低的成本服務于各行各業(yè),為各行業(yè)的效率帶來翻天覆地的變化。
商湯目前聚焦在智能汽車、智慧生活、智慧商業(yè)、智慧城市四大業(yè)務線的產品矩陣。要實現落地,還要同時思考如何構建產品體驗,并以更高性價比的方式為客戶提供。
陳宇恒告訴數智前線,商湯首先會提供整套工具鏈,讓業(yè)界從基礎大模型出發(fā),或者基于開源大模型,進行微調,形成適合自己的模型。商湯有可能提供云上的隱私計算,幫助用戶解決數據隱私的風險。
商湯還準備通過各種產品形態(tài),包括私有化產品形態(tài),提供給用戶部署使用。
同時,商湯也會提供Model as a Service的API ,供用戶低成本調用,還能通過知識蒸餾手段,把大模型的能力遷移到一些較小的模型上,滿足一些成本敏感行業(yè)的訴求。
“從行業(yè)落地角度,我們可以訓練一個超大模型,然后再外掛小一點的模型,類似lora或Hypernet技術,通過外掛小模型的微調和訓練,把大模型的推理成本分攤下去。”他說。
03
兩大難題如何突破
一口氣展示多個大模型技術之后,外界很關心商湯在算力上的儲備情況,以及高質量語料不足的情況下商湯如何應對。
數智前線獲悉,在大模型的風刮起來之前,商湯已在規(guī)劃AI大裝置,2020年在臨港建設了建筑面積接近20個足球場的AIDC,2022年正式投入使用。目前里面放置了5000個服務器機柜和27000塊GPU,據說能同時滿足20個類ChatGPT模型的訓練。
業(yè)界廣為流傳是“萬張GPU卡是進入大模型領域的入場券”。有業(yè)內人士表示,“標準大小的ChatGPT(參數1750億)大概需要375-625臺8卡A100服務器進行訓練。如果愿意等1個月的話,150-200臺8卡也是夠的。每次訓練總的GPU資源消耗量是35000卡天。”這個體量與商湯提到的訓練大模型所需要的算力消耗規(guī)模在同一個數量級,當然該人士明確指出GPU類型是A100。
陳宇恒還談到一個認知誤區(qū),算力的核心衡量指標并非單指顯卡數量。他認為,訓練人工智能大模型是“工程的奇跡”,有兩大難題需要跨越:
其一是多卡并行狀態(tài)下的有效利用率,即能夠支撐大模型訓練的實際算力,這涉及系統(tǒng)架構和網絡架構設計。“1萬張卡和1000張卡,理論上有10倍的訓練速度提升,如果沒有設計良好的系統(tǒng)架構設計,可能最終只有2倍的訓練效率提升 ”。
其二是系統(tǒng)能夠持續(xù)穩(wěn)定運行的時長。如果每天每千張GPU有1張卡發(fā)生故障,當有1萬張卡時,系統(tǒng)每天的穩(wěn)定運行時間可能只有一兩個小時,這是沒法使用的。這要從硬件的可靠性和軟件的容錯能力角度去解決。
如何從幾千張卡的集群,到未來上萬張卡更大規(guī)模集群的部署,商湯正在努力建設優(yōu)化中。目前,商湯的AI大裝置已能夠以最大4000卡規(guī)模集群進行單任務訓練,并可做到七天以上不間斷的穩(wěn)定訓練。
困擾業(yè)界的另一問題是,如何獲取足夠多的高質量數據語料。以GPT-3為例,它學習了約5000億的語言數據量。而相比之下,人類的一生中可聽到的大概是10億個單詞。所以,今天人工神經網絡能夠處理或者看的知識量,已經遠遠大于一個人一生中能學到的單詞數。而今天已知最大語言模型消耗的數據量是2萬億個token。而據統(tǒng)計,人類文明產生的高質量語料數據一共是9萬億左右。因此,隨著倍數往上走,很快就會面臨著高質量語料被消化完的局面。數智前線了解到,巨頭企業(yè)都正在尋求各類高質量的語料資源。
“研究表明,有超過80%的信息是通過肉眼獲取的。”陳宇恒稱,把整個互聯網的文本數據匯集做適當的清洗之后,只有不到10個T的數據,但是像最大的圖像公開數據集,它有50億張圖像,大小達到240T;視覺的信息量是文本信息量的非常多倍。“由此可以看到,以視覺大模型作為核心的技術突破點,去擴展到語言大模型等一些多模態(tài)的路線,是符合人類理解世界的基本邏輯,以及符合我們互聯網生成數據的分布邏輯的。”
商湯在過往積累了大量的、有人反饋的、視覺類信息,這類信息作為知識輸入到更大的網絡當中,形成多模態(tài)輸入,則打破了原有數據庫的信息局限。商湯的語言大模型正是基于這一點快速發(fā)展,獲取豐富的多模態(tài)語料數據。
此外,合理調配不同語言的語料比例,或者設計好數據經過模型的順序和比例,包括設計不同領域知識的占比,再輔以不同語言的知識融合能力,也能使模型有更好的性能。
在未來,討論大模型,討論的將主要是模型的計算量。目前,除了上海的人工智能智算中心,商湯還在全國主要城市部署20多個超算集群。商湯強調,這些AI原生基礎設施,為人工智能算法的訓練、調度提供了敏捷、彈性、可靠的底座,也讓商湯得以持續(xù)優(yōu)化大模型建設,并賦能各個行業(yè)。
而隨著越來越多的企業(yè)進入市場,大模型領域的競爭正在成為一場算力、算法和數據相結合的全方位戰(zhàn)事。