什么是中國AI趕超的正確姿勢?
導語:
ChatGPT像一面鏡子,照出了中國AI發(fā)展的成就與不足。
在AI前沿領域,必須承認,我們目前還不具備碾壓式的實力,但我們有足夠的決心、投資能力和互聯(lián)網(wǎng)產(chǎn)業(yè)基礎。
盡管如此,AI產(chǎn)業(yè)的核心突破,需要的人才、資源、資金的門檻之高,也決定了,其如果需要在中國做出世界級的創(chuàng)新,一則還是要靠舉國體制,另外也要協(xié)同一批龍頭企業(yè)的共同努力。
AI的競爭不止有技術流打法,也有產(chǎn)品流、產(chǎn)業(yè)流的打法。
唯獨重要的是,我們不能放棄,我們必須雖千萬人吾往矣。
從一個研究者的視角,騰訊值得關注。它的用戶基數(shù)、豐富場景、基礎技術投資,以及過去十年可能是最好的中文語料資源積累、多模態(tài)應用的廣度等,決定了它是一個有機會在AI領域做出核心突破的潛力企業(yè)。因此,筆者也進行了一番深度調(diào)研,其中的若干感悟和結(jié)論,或許能給大家了解中國AI行業(yè)現(xiàn)在和未來,帶來一些啟發(fā)和觸動。
1、場景優(yōu)先
ChatGPT4的發(fā)布,以及國內(nèi)廠商的跟進,讓這個概念更火了。
其實讀者關心的問題不僅僅是中國能不能做出類ChatGPT的項目(因為假以時日,肯定能),大家關心的可能是,什么時候輪到我們領先和主導下一輪?
在原理透明的前提下,問題的底層邏輯是,誰擁有優(yōu)質(zhì)的訓練數(shù)據(jù)集,誰就是趕超的關鍵先生。
那些擁有自己閉環(huán)生態(tài)的企業(yè)明顯具有先天優(yōu)勢,海外科學家指出,ChatGPT訓練所需要的高質(zhì)量數(shù)據(jù)集,通常有這樣幾類——50%的用戶生成內(nèi)容、20%的書籍、10%的科學論文、近10%的代碼和近10%的新聞。
無論在哪個數(shù)據(jù)集里,用戶生成內(nèi)容(UGC)的數(shù)量占比都是最大的,放到國內(nèi)來看,可以看出騰訊優(yōu)勢相對明顯。舉個例子,騰訊的微信公眾號是國內(nèi)優(yōu)質(zhì)長內(nèi)容的關鍵載體,富集了過去10年最有創(chuàng)造力的創(chuàng)作者提供的內(nèi)容。
同時,大量的音視頻內(nèi)容和技術,也是騰訊發(fā)展多模態(tài)的優(yōu)勢。
但騰訊的優(yōu)勢是否能轉(zhuǎn)為勝勢呢?這是我們此文重點要討論的,就是騰訊的AI底蘊究竟如何。
也許我們可以試圖回溯一下,騰訊的AI發(fā)展從何而來。
2012年,QQ用戶突破1.6億,在騰訊上下為之歡騰的時候,微信又以閃電般的速度,在這一年的9月實現(xiàn)了用戶規(guī)模突破2億。一年之內(nèi),騰訊就有了兩個億萬級用戶規(guī)模的強場景,這既是AI發(fā)展的土壤,也是對年輕研究人員的壓力。
也是這一年,騰訊優(yōu)圖實驗室成立,這是騰訊內(nèi)部最早開始專注AI研究的實驗室之一。
優(yōu)圖實驗室創(chuàng)始團隊,在PC互聯(lián)網(wǎng)時代,曾經(jīng)做出過過一款看圖軟件產(chǎn)品——QQ影像。但沒過幾年,伴隨移動互聯(lián)網(wǎng)到來,產(chǎn)品和技術團隊進入了瓶頸期。
據(jù)騰訊云副總裁、騰訊云智能研發(fā)負責人、優(yōu)圖實驗室研發(fā)負責人吳永堅回憶,團隊最初是帶著一種頗為沮喪的心情,主動“求變”的。他們的計劃是,圍繞原來在PC端積累的圖像能力,去移動端做些技術新嘗試。當時,他們關注到一種無損圖像處理的算法。在沒有外部支持的情況下,五人團隊僅用三個月就做出了新算法,他們把這種能力應用在騰訊旗下的業(yè)務,使商品詳情頁圖片加載速度提升50%以上。
對優(yōu)圖實驗室來說,這是一個重要轉(zhuǎn)折點,吳永堅意識到:”我們之前都是純做應用的,后來發(fā)現(xiàn)產(chǎn)品的應用發(fā)展可能會起起伏伏,但支撐應用的底層技術永遠是越先進越好,我們就把關注重心轉(zhuǎn)移到技術能力建設上。讓我們的研發(fā)離應用只有一代的差距,最后我們選擇了一個詞叫‘預研’。”
任何時候,技術只有落在實際場景中才能驗證效果。
當時,吳運聲(優(yōu)圖實驗室負責人)提出,如果優(yōu)圖要做圖像(技術),就要和騰訊內(nèi)部圖像需求最多、最復雜的團隊去接觸,因為需求越大,技術可挖掘的價值就越大。
思路一通,靈感就來;赒Q空間的圖像場景,優(yōu)圖實驗室做出了一系列創(chuàng)新,包括圖像顯著性內(nèi)容檢測,也就是自動找出圖片中最能代表圖像的區(qū)域。
在同一個階段,深度學習的浪潮起來了。圖像技術與深度學習匯合,促使優(yōu)圖實驗室正式進入圖像理解的領域,也就是基礎的視覺AI的算法研發(fā)。
這時候,又一個新的需求產(chǎn)生了。
微眾銀行,一個完全沒有線下實體的互聯(lián)網(wǎng)銀行,帶來了一個世界級難題——活體檢測。
現(xiàn)在,基本上所有對安全性要求高的APP,都有一個視頻驗證身份的過程。但在2013年的時候,這方面的技術還很不成熟,一些常規(guī)的檢驗如搖頭、眨眼等,都有被作假的幾率。
“后來我們想了一個方法,就是給出一串數(shù)字,讓用戶讀出來。這樣,我們就有了視頻+音頻+圖像三種模式交叉驗證”,吳永堅說:“后來想想,優(yōu)圖實驗室的AI進入多模態(tài)的研究方向,也就是這一個瞬間啟發(fā)的。后來,我們還研發(fā)了背景變色閃光的驗證方法,這個技術在當時可以說是世界級的,現(xiàn)在還是業(yè)界主流的驗證方法。”
這個案例證明了,騰訊從C端業(yè)務中積累的AI能力,同樣可以解決B端的需求,局面打開了。
風也起來了,2016年,隨著AlphaGo戰(zhàn)勝人類棋手,一股AI熱席卷全球,與今天ChatGPT帶來的沖擊頗為類似。
而騰訊也開始加速規(guī);、矩陣式布局AI研發(fā)。2016年4月,AI Lab成立,專注于AI基礎研究和應用探索的結(jié)合。
一個標志性的事件是——2017年8月,騰訊發(fā)布首款將人工智能技術運用在醫(yī)學領域的AI產(chǎn)品騰訊覓影 。這個項目徹底擊穿了部門墻,聚合了騰訊公司內(nèi)部包括AI Lab、優(yōu)圖實驗室、架構(gòu)平臺部等多個頂尖人工智能團隊的能力。
這不僅促使騰訊成為影像領域的國家新一代人工智能開放創(chuàng)新平臺,也成為騰訊AI崛起的標志性事件。
寫到這里,筆者突然想起了英國物理學會會士、深圳兩化融合首席科學家馬兆遠說過的一番話,他說——
“推動世界的絕大多數(shù)進步,首先是解決了工程問題。好的科學家應該是工程師,好的工程師也應該是科學家。而在實踐中,科學是第二性的,工程才是第一性的”。
2、算法產(chǎn)品化
2019世界人工智能大會上,騰訊公司董事會主席兼CEO馬化騰表示:騰訊已建立四大AI實驗室,涵蓋AI從全面基礎研究到多種應用開發(fā),將打造面向未來的“科技引擎”。
而應用開發(fā)的產(chǎn)業(yè)化、商業(yè)化落地,是其中關鍵一環(huán),也是當前整個AI領域尚未較好破解的一道難關。
另一方面,追求高質(zhì)量發(fā)展、促進產(chǎn)業(yè)升級轉(zhuǎn)型,是中國產(chǎn)業(yè)互聯(lián)網(wǎng)技術領域歷來的關注焦點。這其中,AI如何參與?
騰訊給出的答案是,發(fā)布云智能,更強調(diào)云與人工智能的融合深度,以AI作為產(chǎn)業(yè)互聯(lián)網(wǎng)時代的數(shù)據(jù)“中央處理器”,釋放數(shù)字化能力。
從場景出發(fā),是這條路得以跑通的底層邏輯。
例如,中國是世界上工業(yè)門類最齊全的國家,用AI解決工業(yè)質(zhì)檢需求正是其中一個典型場景。
手機攝像頭支架,聽起來似乎沒啥科技感;但如果我告訴你,富馳高科是一家金屬粉末注射成型(MIM)產(chǎn)品專業(yè)制造商,是不是就高大上很多?
手機攝像頭支架看似簡單,但形狀不規(guī)則且只有手指頭大小,需要檢測的點位高達七八十個。
算筆賬你可能覺得更直觀,由于富馳高科每年生產(chǎn)的零部件數(shù)億個,僅質(zhì)檢人員就需要超1500人。質(zhì)檢人員需要聚精會神,才能完成這種精細質(zhì)檢,且因為疲勞往往容易導致漏檢錯檢。
2021年,騰訊云開始用AI能力給富馳高科解決手機零部件質(zhì)檢難題。
當時,騰訊云采用TNN深度學習推理框架,借助算法模型加速和智能調(diào)度等多種技術能力,從工程化上實現(xiàn)了性能優(yōu)化;算法方面,則創(chuàng)造性的設計了光度立體成像解決方案,克服了MIM產(chǎn)品因高反光特性而導致的產(chǎn)品缺陷與正常反光混淆的行業(yè)難題。最終的結(jié)果是,基于這套解決方案,富馳高科單臺質(zhì)檢儀的工作效率是原來人工的10倍。
解決一個從未被破解的行業(yè)難題,自然需要投入大量算法工程師。但每個方案都采用重人力的模式,不可持續(xù)。
由此,在過去的兩年里,騰訊一直探索“算法產(chǎn)品化”的方式,即拆解算法里的每一個流程,精細到每一步明確要做什么,然后將其沉淀到騰訊云TI平臺上,最終形成了一個面向工業(yè)質(zhì)檢場景的產(chǎn)品化平臺——工業(yè)質(zhì)檢訓練平臺TI-AOI。 現(xiàn)在,面對同樣的工業(yè)質(zhì)檢場景,騰訊只需在項目前期派少量算法人員過去,其余大部分工作都可以在TI平臺上完成,效率提高,加速了AI技術在工業(yè)場景的落地。而未來的進階方向是——騰訊甚至都不用派工程師到場,這項工作就可以由企業(yè)自己的運營人員完成,并且他們不需要有很強的算法背景。
這樣做更大的價值還在于,拉低應用門檻,進一步推動AI普惠。
傳統(tǒng)制造業(yè)是產(chǎn)業(yè)智能化升級的主體,但一般的制造業(yè)企業(yè)沒有研發(fā)AI算法,甚至沒有應用AI算法的能力。
騰訊的工業(yè)質(zhì)檢訓練平臺為企業(yè)找到了一個限制更少,門檻更低的方案。即便不懂AI算法,工廠技術人員依然可以用平臺進行缺陷標注,讓算法根據(jù)零件質(zhì)檢需求自動跑起來。對騰訊而言,一路積累下來的能力可以復用于其它類似場景,下一個項目也不會再用6個月時間了,這為騰訊AI在這一領域加速布局打開局面。
為富馳高科服務的騰訊云TI平臺是騰訊云智能的體系的核心產(chǎn)品之一,還有我們熟悉的數(shù)字人,或稱數(shù)智人。
數(shù)字人和我們前文敘及的ChatGPT有密切的聯(lián)系,某種程度上,數(shù)字人也是生成式AI的一種載體,是AIGC的一部分。
例如,短視頻制作已經(jīng)是一個龐大的行業(yè),但其上限是內(nèi)容生產(chǎn)成品太高、效率較低。
騰訊云智能有一款2D數(shù)智人,可以實現(xiàn)依靠3分鐘真人錄制視頻,就生成一個數(shù)字人形象,后期則通過文字輸入就能生成視頻內(nèi)容,大大降低了視頻錄制成本、修改成本,最終是降低了短視頻內(nèi)容制作的準入門檻,為豐富內(nèi)容生態(tài)貢獻很大。
技術含量更高的3D虛擬主播,也因為AI,而有了更多展現(xiàn)形式。例如經(jīng)常在電視上看到的手語主播,需要通過細微的手部動作來展示內(nèi)容,現(xiàn)在通過AI已經(jīng)可以實現(xiàn)文字、語音直接轉(zhuǎn)手語。
2022年初,騰訊AI手語數(shù)智人”聆語“誕生,成為首位服務于國際賽事直播解說的數(shù)字人,支持實時生成手語,可懂度 90% 以上,而一般比較熟練的真人解說員的手語可懂率不過是60%-70%。但在加入AI以前,用數(shù)字人來完成這類操作是很難想象的。
從數(shù)字人到數(shù)智人,騰訊云智能數(shù)智人的背后是新一代的多模態(tài)人機交互系統(tǒng),可以讓虛擬人物擁有超細微面部情感表情以及數(shù)百種肢體動作,并且通過自動化的播報平臺、交互平臺,打通形象生產(chǎn)到內(nèi)容生產(chǎn)的全鏈路
背后的背后,是騰訊積累多年的語音交互、自然語言理解、圖像識別等AI能力的充分整合。
騰訊云副總裁、騰訊云智能負責人、優(yōu)圖實驗室負責人吳運聲總結(jié)說:騰訊云智能要做的就是整合騰訊的技術優(yōu)勢和行業(yè)經(jīng)驗,從而打磨出更多優(yōu)秀的產(chǎn)品和服務模式,助力產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型。
在對諸多案例的探尋中,筆者一直在思考的是,為什么騰訊AI的產(chǎn)業(yè)化、商業(yè)化落地效率更高,也更受到實際用戶的青睞?
現(xiàn)在看來,騰訊的AI研發(fā)一直帶有產(chǎn)品化的思維,對目標用戶需求和痛點考慮的更為周全、具體,這是騰訊原生的DNA在賦能;另一方面,在云計算、大數(shù)據(jù)方面的領先性,讓騰訊AI有很好的底層支撐和綜合競爭力。
3、飛輪效應
騰訊AI的產(chǎn)業(yè)實踐,讓我們看到了一種中國本土AI的趕超模式,我姑且稱為”閉環(huán)效應“疊加”飛輪效應“的”雙環(huán)組合“。
首先是閉環(huán),研發(fā)-賦能-落地-反饋-人才,可謂缺一不可,但把這五個要素形成一個閉環(huán),難度更大。
但如前所述,騰訊云智能的打造,已經(jīng)促進了這一閉環(huán)的形成,通過聚合騰訊優(yōu)圖實驗室、騰訊AI Lab等騰訊頂級實驗室的技術能力、產(chǎn)品能力以及多年的實踐經(jīng)驗,輸出從底層算力支撐到 AI 開發(fā)平臺、到 AI 產(chǎn)品解決方案、再到頂層數(shù)智化轉(zhuǎn)型方法的四級全鏈條服務,就是其具體體現(xiàn)。
現(xiàn)在更急切的任務是,如何讓這個飛輪轉(zhuǎn)起來,形成Flywheel Effect(飛輪效應)。這其中,四個“關鍵引擎”缺一不可。
第一個引擎,是強大的云計算、大數(shù)據(jù)底蘊。
大家都知道,OpenAI能夠取得成功的一點,是微軟基于云計算能力,為其打造了一臺超級計算機,將數(shù)以萬計的 Nvidia A100 GPU 和 Azure 云計算平臺串聯(lián)在一起,能以高吞吐量、低延遲網(wǎng)絡來使用這些算力。
在這個層面,騰訊云針對類似的訓練、推理、測試及優(yōu)化場景,能夠點對點提供最佳的匹配方案和產(chǎn)品。特別是在大模型訓練場景,結(jié)合了騰訊自研的軟硬件技術,為騰訊云AI計算、高性能計算需求提供算力底座;A層將裸金屬云服務器作為節(jié)點,滿配最新代次的GPU,節(jié)點之間通過RDMA網(wǎng)絡互聯(lián),提供高性能、高帶寬和低延遲的算力。
第二個引擎,是大模型的能力。
行業(yè)里一直圍繞大模型或小模型,大數(shù)據(jù)或小數(shù)據(jù)有爭論,但ChatGPT的問世,決定了至少是在今后3年,大模型是更主流的方向。
打造大模型是極其艱難的,但為其后的泛化提供了保證。就好像如果你編了一本《漢語大字典》,那么再編一本《中學生字典》就很簡單;相反你想編一本《小學生詞典》,但手頭沒有《漢語大字典》做母本,一切也得從0到1來過。
騰訊很低調(diào),但不意味著其在大模型領域落后,相反,騰訊打造的混元AI大模型,其完整覆蓋NLP(自然語言處理)、CV(計算機視覺)、多模態(tài)等基礎模型和眾多行業(yè)/領域模型,已先后在中文語言理解權(quán)威評測集合CLUE 與 VCR、MSR-VTT,MSVD等多個權(quán)威多模態(tài)數(shù)據(jù)集榜單中登頂,實現(xiàn)跨模態(tài)領域的大滿貫。
值得一提的是,近期混元AI大模型團隊推出了業(yè)界最大的萬億中文NLP預訓練模型HunYuan-NLP-1T,再次打破CLUE三大榜單記錄,實現(xiàn)在中文語理解能力上的新突破。
第三個引擎,叫長期的基礎技術積累。
基礎技術積累對于產(chǎn)品導向型的公司,是一個發(fā)展悖論。但以產(chǎn)品為名的騰訊,從2015年后,開始傾力于基礎技術的研發(fā)突破。
微軟對OpenAI的投入超過百億美金,所以,最簡單的一個評價標準是——你愿意為基礎研發(fā)花多少錢?
筆者看到的數(shù)據(jù)是,自2015年至2021年,騰訊的研發(fā)投入從90億增加到519億,增量達4.8倍,是國內(nèi)增速最快的科技企業(yè)。 其中,2021年騰訊研發(fā)投入達到518.8億元,較2018年實現(xiàn)翻番,研發(fā)人員數(shù)量同比增長41%,新增研發(fā)項目超6000個。2019-2021年,騰訊三年累計研發(fā)投入已經(jīng)超過1200億元,年均增速超過30%。
早在2019年,騰訊在全球主要國家的專利申請數(shù)量已超過30000件,授權(quán)專利數(shù)量超過10000件。專利申請數(shù)量在國內(nèi)互聯(lián)網(wǎng)公司中排名第一,在全球互聯(lián)網(wǎng)公司中排名第二,僅次于谷歌。
第四個引擎,叫基于反饋的人才培養(yǎng)。
任何一個產(chǎn)業(yè)都需要在無數(shù)次反饋中獲取進步。 人們對科學家的要求可能是千分之一的成功率,但對產(chǎn)品的要求是千分之一的失敗率。 兩個千分之一中間,有著漫長的過程。 但正是因為騰訊AI憑借各種形式進入千行百業(yè),就為繼續(xù)創(chuàng)造、探索和不斷改進,提供了可能性。 雖然,每一步改進都意味著大量的選擇和優(yōu)化,但這是有助于打造在實踐中大量開發(fā)經(jīng)驗和工程訓練積累而成的能力。如果說科學精神是從無到有的探索,那工程精神就是“日拱一卒”的堅持。 在筆者看來,除了以上敘及的方方面面,騰訊AI體系的一大成就,是培養(yǎng)了一批了解科學、懂得技術,并能把構(gòu)想和創(chuàng)意造出來的新型工作者。
他們在某種程度上,已經(jīng)不符合對工程師的傳統(tǒng)定義,而是一批能夠掌握把握企業(yè)需求,然后落地成產(chǎn)品、把科學轉(zhuǎn)化為生產(chǎn)力的高技能人才。他們中的一部分將繼續(xù)成為更高級的工程技術人才,也有一小部分會在研發(fā)中總結(jié)規(guī)律,向科學家、基礎研發(fā)者的角色發(fā)展。 但毫無疑問,擁有來自實踐的豐富反饋,以及由此培養(yǎng)出的大批人才,最終幫我們畫完了騰訊AI體系的閉環(huán)。
而順便值得一提的是,騰訊還擁有豐富的多模態(tài)內(nèi)容、復雜的場景與大量的需求,這些也都是催發(fā)創(chuàng)新、打磨技術的最佳實踐環(huán)境。
但問題的關鍵是,不是所有條件的具足,就自動能夠把“能力”變成“成績”,世上最難的事,就是通過無數(shù)次與不確定性的博弈,把現(xiàn)實變成最大的確定性。
雖然騰訊AI已經(jīng)在數(shù)十、數(shù)百個行業(yè)中落地,但有待去探索的產(chǎn)業(yè)和領域卻是成千上萬,它們的需求、場景和痛點,是中國AI技術發(fā)展的豐厚土壤。以如此宏闊的未來圖景,我們相信包括騰訊在內(nèi)的科技企業(yè)將有更大的作為,當他們進入全球的AI領導者行業(yè)之一,我們再為其加冕,似乎是一個更好的選擇。
原文標題 : 什么是中國AI趕超的正確姿勢?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?