在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍海
文丨智能相對論
作者丨葉遠風
自然語言處理(NLP),人工智能皇冠上的“明珠”,由于各個底層算法和技術模塊都與業(yè)務場景的業(yè)務邏輯、數(shù)據(jù)特點高度捆綁,每一個領域、每一個業(yè)務場景都需要高度定制,已經(jīng)成為AI領域最難啃的硬骨頭。
目前,國內(nèi)NLP在生活場景的應用占比不到1%,與之對比的是,視覺(CV)、聽覺賽道上商業(yè)化的大幕早已開啟。
盡管微軟亞洲研究院認為未來十年是NLP發(fā)展的黃金檔,盡管Tractiac的“自然語言處理(NLP)市場研究報告-全球預測2022”分析NLP市場將在未來五年內(nèi)快速增長,盡管市場樂觀預期國內(nèi)NLP在生活場景的應用占比在10年內(nèi)將突破50%……然而,這一切終歸需要NLP領域的創(chuàng)新企業(yè)一個個技術難題攻克、一個個場景突破來最終實現(xiàn)。
誰來啃下這最硬的骨頭?
不同的人會有不同的答案。而現(xiàn)在,一些不常出現(xiàn)在業(yè)界輿論焦點的創(chuàng)新企業(yè),卻正在成為NLP創(chuàng)新突破的重要力量。
中科凡語就是其中之一。這家由中國科學院自動化研究所孵化、專注于NLP服務的創(chuàng)新型企業(yè),歷經(jīng)短短的幾年發(fā)展后已經(jīng)成長為 “中關村金種子企業(yè)”;谔囟ㄐ袠I(yè)、教育、醫(yī)療、航空等多個細分領域的特定需求,中科凡語的技術和產(chǎn)品正在改變?nèi)藗児ぷ、生活的方方面面,并憑借眾多語種的覆蓋成為“一帶一路”建設的重要伴行者。
如同投資方高科新浚所言,中科凡語“匯聚具有國際視野和產(chǎn)業(yè)實踐的人才梯隊”,該企業(yè)優(yōu)質(zhì)的人才體系已經(jīng)成為各項發(fā)展優(yōu)勢的重要支撐——首席科學家宗成慶、董事長周玉均是來自中國科學院自動化研究所的研究員,核心團隊成員均為博士學歷,有阿里、IBM等高級算法專家的從業(yè)經(jīng)歷。
如果說NLP的創(chuàng)新突圍是一場曠日持久的搶灘登陸,那么中科凡語已經(jīng)為此做了完善的頂層規(guī)劃,而在其耕耘NLP賽道的過程中,一個客觀上的、圍繞搶灘NLP藍海的體系化步驟也顯現(xiàn)出來。
深挖洞:用最頂尖的團隊夯實最堅實的技術基礎
“九層之臺,起于累土”。對NLP而言,最首要的莫過于堅實的技術創(chuàng)新,為一切應用創(chuàng)新、場景攻克提供最底層的支撐,挖洞越深,在面對NLP那些復雜場景需要時越能夠從容。
而中科凡語早已完成了這樣的挖洞過程,且還在持續(xù)鞏固。
作為一個并非趕著AI、NLP風潮而憑空創(chuàng)立的企業(yè),中科凡語承接的是中國科學院自動化研究所在人工智能、自然語言處理和機器翻譯等方向20多年的技術儲備,或者說,中科凡語就是這些技術儲備的一種實體化、市場化表現(xiàn)。
再加上,行業(yè)頂尖團隊和技術儲備對整個行業(yè)技術人才的天然“吸引力”,不斷壯大的團隊讓中科凡語在算法或技術層面持續(xù)突破、領導行業(yè),以創(chuàng)新企業(yè)的身份獲得了不可忽視的NLP技術話語權(quán),甚至在技術層面一定程度上代表著行業(yè)發(fā)展走向,睥睨整個賽道。
在2019年9月,中科凡語就已獲得中關村高新技術企業(yè)認證,12月獲得國家級高新技術企業(yè)認證;2020年10月,在中關村國際前沿科技創(chuàng)新大賽上,中科凡語從數(shù)百家高新企業(yè)中脫穎而出,入圍人工智能領域TOP10榜單。
此外,已經(jīng)擁有一百余項國家發(fā)明專利、軟著的中科凡語,還橫掃了各種行業(yè)權(quán)威技術大賽:
核心技術團隊榮獲2014年 “錢偉長中文信息處理科學技術獎”一等獎、中國電子學會科技進步一等獎、2015年度國家科技進步獎二等獎;
與中國科學院自動化研究所共同申報的“多語言機器翻譯關鍵技術及平臺建設”項目被中國發(fā)明協(xié)會授予發(fā)明創(chuàng)業(yè)獎創(chuàng)新獎一等獎;
2020年11月榮獲“2020全國移動互聯(lián)創(chuàng)新大賽(社會組)決賽一等獎”及單項獎“最具市場潛力獎”;
在第五屆中國健康信息處理大會評測大賽第一賽道臨床術語標準化任務中,進入前三甲;
中科凡語首席科學家宗成慶、董事長周玉深度參與的《神經(jīng)網(wǎng)絡機器翻譯核心技術及產(chǎn)業(yè)化》獲得北京市科學技術進步獎一等獎。
……
如果說這些技術優(yōu)勢是中科凡語布局NLP領域的生產(chǎn)機器,那么在NLP的基礎生產(chǎn)資料——語料數(shù)據(jù)方面,中科凡語也有著行業(yè)最充足的準備,極具創(chuàng)新精神的人才團隊不斷推動著中科凡語領先的數(shù)據(jù)優(yōu)勢進一步夯實。
由于NLP領域的特殊性,相對于視覺、聽覺,其對數(shù)據(jù)的渴望更為強烈,大部分NLP技術都是建立在大規(guī)模語料訓練的基礎之上。
而中科凡語一方面依托中國科學院自動化研究所相關團隊過去20多年的積累,另一方面依托于與語言類高校的深入合作,如前文所言已經(jīng)建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個領域的億級雙語平行語料,NLP語料數(shù)據(jù)方面領先行業(yè),先天擁有NLP基礎資源方面的優(yōu)勢。
現(xiàn)在,看似與數(shù)據(jù)資源關聯(lián)不大的人才體系,還在不斷強化中科凡語這種優(yōu)勢。
在NLP領域,數(shù)據(jù)一般來源于兩個方向,一是全網(wǎng)無標注數(shù)據(jù);二是采集特定語料進行標注后的數(shù)據(jù),后者價值更大但往往需要大量的體力勞動來完成工作。中科凡語依托強大人才體系創(chuàng)新了業(yè)界領先的智能化標注技術,讓原本需要大量人工來完成的NLP數(shù)據(jù)標注進程變得更有效率,從而大大推動有標注數(shù)據(jù)的生產(chǎn),不斷充實自身的NLP語料池,保持甚至擴大在行業(yè)的數(shù)據(jù)儲備優(yōu)勢。
由此可見,NLP領域的人才并不只有業(yè)界通常認為的算法創(chuàng)新價值,在數(shù)據(jù)方面同樣有顯著的推動作用。
集齊了算法、數(shù)據(jù)兩大優(yōu)勢,中科凡語已經(jīng)為NLP搶灘做好了最全面的準備。
廣積糧:以場景突圍為導向構(gòu)建穩(wěn)固且靈活的人才體系
基于NLP的內(nèi)在需要,只是在某個技術領域、某個場景耕耘,無法完成NLP的創(chuàng)新突圍!氨R未動,糧草先行”。NLP搶灘需要積累更為廣泛且靈活的多專長人才體系。
而中科凡語客觀上所組建的人才體系“中臺”結(jié)構(gòu),就成為其在NLP領域積蓄糧草的重要表現(xiàn)方式,不同特性的人才相互協(xié)同推動中科凡語實現(xiàn)高效的垂直場景拓展。
事實上,不論算法還是數(shù)據(jù)優(yōu)勢多么強大,最終的NLP成果都要與場景有效結(jié)合才能實現(xiàn)商業(yè)價值,而NLP在跨語種、跨領域時又表現(xiàn)出很強的領域特征,這意味著產(chǎn)品的實現(xiàn)和落地必須有多方面能力的人才體系來支撐。
在中科凡語,一個包括技術人才、業(yè)務人才、語言人才在內(nèi)的內(nèi)外部人才體系已經(jīng)搭建起來:
1)技術人才面向不同的行業(yè)或場景提供通用型技術,確保底層技術基礎的穩(wěn)固,類似于互聯(lián)網(wǎng)企業(yè)的統(tǒng)一“中臺”;
2)業(yè)務人才向不同的行業(yè)或領域延伸,提供獨屬于本行業(yè)、與行業(yè)實際相結(jié)合的進階服務能力,推動產(chǎn)品落地;
3)語言人才提供外部協(xié)助,例如與中科凡語緊密合作的高校的語言學者,可提供更專業(yè)的語言層面的詞法、句法、語義的專業(yè)指導等。
這樣的人才儲備,使得中科凡語既具備穩(wěn)健的底層技術支持,也擁有了向不同行業(yè)領域開拓的能力——現(xiàn)在,中科凡語已經(jīng)在特定行業(yè)、教育、醫(yī)療、航空等垂直領域設計了定制化翻譯及信息分析服務產(chǎn)品,且面向“一路一帶”國家提供了70多種語言翻譯。
數(shù)不清的場景、全球超過100種常用語言的市場,NLP的場景空間廣闊而深入,而上述相互協(xié)同的人才體系正在成為中科凡語不斷突破這些場景空間、落地商業(yè)價值的核心競爭力。
高筑墻:全面落地應用場景的同時不斷為下一步領先優(yōu)勢做準備
對NLP這片藍海而言,誰能建立起高行業(yè)壁壘,誰就能在搶灘登陸中占據(jù)先發(fā)優(yōu)勢。而建立行業(yè)壁壘的先決條件,就是要能推動技術創(chuàng)新在各個場景走向落地,以市場化的標準來驗證產(chǎn)品的實際價值,為下一代NLP技術發(fā)展提供正向反饋。
基于深厚的技術積淀和體系化的人才支撐,目前中科凡語推出了“信譯”、“信推”、“信析”、“信服”和“信取”五大NLP技術產(chǎn)品,并在此基礎上整合建立了全網(wǎng)態(tài)勢洞知平臺。此外還包括一款“基于神經(jīng)網(wǎng)絡及領域知識的機器混譯系統(tǒng)成套裝備”(該裝備已被列為2019年中關村首套重大技術裝備試驗、示范項目),向不同行業(yè)提供解決方案。
(全網(wǎng)態(tài)勢洞知平臺上線儀式)
例如,“信譯”智能翻譯系統(tǒng)可以為用戶提供最優(yōu)質(zhì)、專業(yè)、準確、高效的機器翻譯服務,它支持包括英語、日語、韓語、俄語、西班牙語等語種以及泰語、越南語、緬甸語、阿拉伯語等“一帶一路”國家語種在內(nèi)的70多個語種;“信推”智能摘要系統(tǒng)采用深度學習+強化學習技術,融合抽取式和生成式模型,針對長文本完成多模態(tài)自動摘要生成和關鍵詞提;“信析”提供多語言詞法分析、句法分析、命名實體識別等基礎模塊,服務于機器翻譯、自動摘要、情感分析等自然語言處理中的應用,提升產(chǎn)品性能;“信服”智能分析系統(tǒng)為各個細分領域提供智能對話系統(tǒng),實現(xiàn)多輪交互對話,節(jié)省大量人力成本和時間成本,提升服務質(zhì)量;“信取”信息獲取系統(tǒng),則提供跨場景、多語言、多粒度的數(shù)據(jù)爬取、融合、分類及管理。
全網(wǎng)態(tài)勢洞知平臺則基于多年“五信”產(chǎn)品功能積累和NLP實踐經(jīng)驗,運用系統(tǒng)化、模塊化、工具化的設計,以組件定制的形式來整合模塊功能以對外輸出解決方案,如要素提取、文本分類、知識圖譜、觀點提取、文字識別、機器翻譯等,針對不同用戶的零散的、多樣的、特殊的場景需求,進行多維度、多功能的產(chǎn)品方案定制,推進人機協(xié)同優(yōu)化效率,最終形成面向多行業(yè)領域的產(chǎn)品矩陣。
目前,中科凡語已經(jīng)服務于國際國內(nèi)20余家知名企業(yè),80余家B端G端重要客戶,同時還承擔了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務等。
在具體案例上,中科凡語服務一家國際知名航空公司,完成每天約10萬條飛行維修日志的實時翻譯、譯后信息處理;服務某全球生物制藥集團和某國內(nèi)三甲醫(yī)院,幫助推進醫(yī)療Al,在電子病歷結(jié)構(gòu)化處理、醫(yī)療文本分析、智能輔助診療、智能分診問診等方面提供機器翻譯系統(tǒng)、提升協(xié)同效率,等等。
就在去年11月12日,中國外文局翻譯院與中科凡語簽署協(xié)議,共建智能翻譯實驗室、開展翻譯領域技術賦能模式研發(fā)合作,共建共享語料庫、術語庫、人才庫、翻譯院官網(wǎng)及中國外文界多語種終身學習平臺“三庫一網(wǎng)一平臺”。
無論是To B還是To G,中科凡語勢頭都非常強勢,不斷向高端和權(quán)威推進。從NLP的行業(yè)發(fā)展來看,這是落地場景的不斷拓展、商業(yè)機遇的不斷迸發(fā),技術在源源不斷推向市場、獲得應用反饋并迭代提升。
出機杼:不斷擴展融入新的發(fā)展元素拉升行業(yè)發(fā)展天花板
在完成技術、人才、市場的充分準備之外,還有更重要的是深層次布局。不僅要在企業(yè)核心產(chǎn)品上自出機杼,更要在對下一代行業(yè)技術風向能夠未雨綢繆。對NLP而言,就是在不斷挖掘NLP技術價值潛力的同時,不滿足于市面既有的創(chuàng)新、業(yè)務框架,不斷融入新的發(fā)展元素拉升發(fā)展天花板。
中科凡語在NLP領域的自出機杼,表現(xiàn)在兩個方面。
一是擺脫To B、To G的行業(yè)固有業(yè)務框架,而通過更廣泛的資源配置惠及更廣泛群體。
這尤其表現(xiàn)在To B、To G的眾多商業(yè)合作項目之外,中科凡語所投入建立的To C項目上——“飛譯”。該平臺與“信譯”產(chǎn)品技術能力相結(jié)合,將原本面向B端客戶的翻譯學習方案和輔助翻譯技術通過平臺化的方式惠及更廣泛的人群,解決翻譯等領域的大眾痛點問題。目前,該平臺已可實現(xiàn)70多種語言翻譯,30多個語種的圖像翻譯,顯著提升了翻譯效率,且該平臺已完成國產(chǎn)化適配,技術上自主可控。通過平臺形式,讓NLP產(chǎn)業(yè)層面的資源配置效率提升,也讓更多的群體享受到技術所帶來的應用紅利。
(飛譯CAT平臺上線儀式)
據(jù)了解,飛譯平臺已推出了具有實用性和針對性的四個版本,即高校版、醫(yī)療版、通用版和個人版,實現(xiàn)了對不同人群、不同領域、不同需求的全方位覆蓋,這背后既需要To B領域的積淀,也需要團隊以平臺化的方式將原本束之高閣的技術、方法不斷向C端用戶開放,提供更好的體驗,凸顯了中科凡語一定程度上的互聯(lián)網(wǎng)能力印記。
顯然,飛譯平臺將幫助中科凡語在C端市場拓展業(yè)務規(guī)模,不斷拉升企業(yè)發(fā)展的天花板。
二是不斷擁抱NLP的技術未來,為一切變化和趨勢做最充分的準備。
NLP的技術不會有終點,在效率之外,超越人類的理解能力也早晚會實現(xiàn),但在這之前,作為技術方面的行業(yè)領導者,中科凡語還必須進行更前沿的技術和應用探索。
2020年11月,凡語AI研究院成立,共有高級發(fā)展顧問、教授級專家委員、博士青年委員等60多人加入,它成為中科凡語不斷探索更前沿的算法、突破現(xiàn)有算法模型的抓手。典型如當下大熱的多模態(tài)大模型,中科凡語的研發(fā)團隊很早之前便已經(jīng)參與研發(fā),在推進跨模態(tài)語義關聯(lián)以及實現(xiàn)更完善的算法模型方面積累了豐富的經(jīng)驗。
(凡語AI研究院成立揭牌)
技術上突破新的基礎模型,業(yè)態(tài)上向新語言、新場景落地,開拓NLP應用的版圖,AI研究……這些都在成為中科凡語在NLP前沿發(fā)展領域的重要支撐,乃至在此基礎上可能向行業(yè)反向輸出、引領NLP的趨勢,做行業(yè)的領導者而不是跟隨者。
深挖洞,廣積糧,高筑墻,出機杼,中科凡語在這場NLP藍海搶灘中已經(jīng)做好了關于技術、人才、產(chǎn)品和市場的完善布局。這個過程與NLP行業(yè)日新月異的快速發(fā)展息息相關,而中科凡語對行業(yè)的吸引力也變得越來越強,體系化的職能架構(gòu)越來越清晰,無論是作為職業(yè)選擇還是作為投資對象,都表現(xiàn)出一個趨近成熟的科技企業(yè)特質(zhì)。
未來,NLP的每一次創(chuàng)新突破、場景落地,來自中科凡語的表現(xiàn)都值得期待。
*本文圖片均來源于網(wǎng)絡
原文標題 : 在AI創(chuàng)新賽道啃下最硬的骨頭:中科凡語搶灘NLP藍海

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?