訂閱
糾錯
加入自媒體

“人機自然交互技術”的趨勢與挑戰(zhàn)

2019-06-14 01:38
AI銳見
關注

即便如此,第一個問題我們還要闡述清晰,因為這不僅有市場趨勢問題,還有商業(yè)路徑問題。我們首先看下面一張圖片,我們知道全球最大的圖書館是美國國會圖書館,大概有3000多萬本藏書,若每本書按照100萬字來統(tǒng)計,總共也就30TB左右的數(shù)字容量,實際上人類每年產(chǎn)生的文字資料總共也就160TB。相比之下,僅Facebook一家產(chǎn)生的數(shù)據(jù)就有300 x 365 TB,全球的數(shù)據(jù)可能超過了2000PB,而且這個總量還在快速增加。那么面對這些海量的數(shù)據(jù),我們?nèi)祟愒趺床拍塬@取知識?我們一生也不可能讀完美國國會圖書館的藏書,就更沒有可能遍歷當今的機器數(shù)據(jù)。當然我們知道這其中很多都是重復數(shù)據(jù),但是篩選重復信息本身也是人類學習的過程。顯然,我們?nèi)祟悷o法記住1億人的面孔,也無法辨識1億人的聲音。人類知識和機器知識實際上已經(jīng)開始各成體系,機器顯然具有比人類更強的知識去重、篩選、復制和迭代的能力,而我們?nèi)祟愔R想要獲得更快的發(fā)展,也必須依賴機器知識的支撐,這就必須要解決人類知識和機器知識的交互相通問題,怎么才能簡單的把機器所理解的知識復制粘貼到人類世界?以前文本時代我們有搜索引擎,那以語音圖像為主的人工智能時代呢?所以,我們必須要有人機自然交互系統(tǒng),只有這樣才能高效的獲取更有價值的機器知識,才能解決未來數(shù)據(jù)爆炸時代的知識獲取問題。至于商業(yè)化路徑,其實搜索引擎已經(jīng)做了很好的示范,人機交互系統(tǒng)肯定會催生更多的商業(yè)變現(xiàn)路徑。

“人機自然交互技術”的趨勢與挑戰(zhàn)

至于第二點對于巨頭加入競爭的擔憂,其實任何一個賽道只要未來市場空間足夠大,就必然會產(chǎn)生這種結(jié)果。巨頭為了支撐不斷攀升的市值,就必須布局未來天花板足夠高的產(chǎn)業(yè),即便這個產(chǎn)業(yè)的商業(yè)模式當前還比較模糊,除非這個行業(yè)沒有足夠的商業(yè)空間或者戰(zhàn)略價值。我們一定要相信這個世界的聰明人很多,即便倒下了很多巨頭,也從來沒有哪個巨頭純粹是因為戰(zhàn)略方向問題倒下的,更多的原因反而是巨頭在執(zhí)行方面出現(xiàn)了巨大的問題,戰(zhàn)略其實也是一個執(zhí)行問題。

但是我們也要承認語音行業(yè)的不足,語音行業(yè)還比較缺乏對于商業(yè)落地的認知,若比較圖像、語音和自動駕駛這三個賽道,語音特別喜歡使用晦澀的術語比如自動語音識別、自然語言理解等等來給技術貼標簽,而不像人臉識別、車牌識別、自動駕駛這樣直接對應場景應用。而更為麻煩的是,晦澀的術語不僅增加了商務對于場景的解釋難度,也拔高了客戶對于技術的應用預期。這其實都非常不利于新技術在商業(yè)的規(guī);瘧。

舉個例子,“人機自然交互技術”就倒霉在這個術語上,這估計是人類追求的終極夢想,可以作為學術術語,但是落地到產(chǎn)業(yè)這個名詞就過于抬高預期,非常不友好。坦誠的來說,我們現(xiàn)在能做好人機任務對話特別是遠場系統(tǒng)就相當厲害了,至于能否挑戰(zhàn)人類智慧現(xiàn)在還是看不到任何苗頭。即便作為學術名稱,卻也感覺有點單薄,不如學學通信領域用“G”來定義。這完全可以類比,因為通信解決的是人和人交互的問題,人機自然交互解決的是人和機器交互的問題。隨著機器的數(shù)量越來越多而且越來越智能,人和機器的交互將是未來世界的主要問題。若采用“G”來劃分人機交互技術,則大概可以劃分成如下5代,和移動通信類似,當前也就在第4代階段,距離5G還有一定的周期。

即便參照“G”的分類方法也有很多種,若以商業(yè)普及作為重要的參考因素,個人覺得可以按照如下的方式來劃分:

第1代人機交互技術:以旋鈕和鍵盤為代表,以模擬信號和字符為主要交互手段,可交互信息復雜度較高,效率很低,只能實現(xiàn)相對簡單的任務,但是可靠性也最強。這個階段的產(chǎn)品主要是包括打字機、電視、照相機、早期計算機、功能手機等各種電子設備,一般都是小巧簡單的操作系統(tǒng)或者不用操作系統(tǒng)。

第2代人機交互技術:以鼠標為代表,以復雜圖形為主要交互手段,可交互信息復雜度較低,效率得到提升,易用性增強,學習成本降低。這個階段的產(chǎn)品主要就是個人計算機,Windows和Linux是代表性的操作系統(tǒng)。

第3代人機交互技術:以觸摸屏為代表,以簡單圖形為主要交互手段,可交互信息復雜度更低,易用性提升,學習成本急劇降低。這個階段的產(chǎn)品主要就是以觸摸屏為核心的智能手機,IOS和Android是代表性的操作系統(tǒng)。

第4代人機交互技術:以語音為代表,以遠場語音為主要交互手段,從這個階段開始,人機交互的作用半徑變得更遠,真正釋放了雙手,而且人機交互變得更加簡單,同時人機交互和內(nèi)容服務耦合更強,交互具備了知識學習和傳遞的屬性,但是由于存在更多模糊空間,遠場語音交互的可靠性相對下降。Amazon Alexa、Baidu DuerOS、iFlytek iFlyOS和SoundAI Azero是代表性的交互系統(tǒng)。

第5代人機交互技術:以多傳感融合為主要交互手段,可交互信息的理解度和可靠性更高,融合交互將成為人和機器互相學習的關鍵路徑,并且這個階段人機交互的智能程度和主動程度都會得到大幅提升,機器可以感知人類的情感并且與人發(fā)起主動交互。

再總結(jié)探討一下,第5代人機交互(5G or 5I 5I means the fifth generationhuman-robot interaction technology)的技術趨勢可以暫時歸結(jié)為下面4個方向:

第1個方向就是遠場化,雖然第4代人機交互就主打遠場語音交互,但是我們要坦誠地面對現(xiàn)實的殘酷,當前的技術遠沒有那么好,我們在遠場可靠性方面還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術。第5代技術應該徹底解決這些問題,讓機器聽覺遠超人類的感知能力。這不能僅僅只是算法的進步,需要整個產(chǎn)業(yè)鏈的共同技術升級,包括更為先進的傳感器和算力更強的芯片。更為重要的則是基礎理論技術的進步,特別是聲學的基礎理論突破,我們已經(jīng)等待太久了。當然這也很難,比如生理聲學就受制于當前實驗條件和人類倫理的約束比較難于突破,所以腦機接口當前來看就更加困難,直接挑戰(zhàn)人類智慧的技術路線當前來看都不太靠譜。

第2個方向就是融合化,“聲光電熱力磁”這些物理傳感手段,必然都要融合在一起,只有這樣機器才能感知世界的真實信息,這是機器能夠?qū)W習人類知識的前提條件。而且,機器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。機器的感知能力必須要超越人,事實上眾多儀器也已經(jīng)達到了這個目標,只不過,我們要把這些先進的傳感手段做的更加小巧更加便宜更加可靠,這是高端技術能夠走進尋常百姓家的關鍵所在。從當前的技術進展來看,聲音和圖像的融合更為成熟,關鍵就在遠場化。圖像識別若應用到消費場景也必須遠場化才行,比如說:抬眼一撇,從此便記住了她的容貌,而不是尷尬的站在攝像頭面前不知所措,這種交互體驗非常不友好更不吸引人。

第3個方向就是智能化,這也是最難實現(xiàn)的,因為智能本身的定義就是模糊的,這個智能化也不是類人智能,而是人類知識和機器知識互相傳遞的泛化,也就是讓機器可以理解人類的模糊知識,這并不是自然語義處理所能解決的事情。比如“像魚忘掉海的味道”,當前再好的NLP引擎也無法釋義,同樣機器也無法準確理解“小橋流水人家”,這就是意境。人也是這樣,高學歷也并不意味著有文化,比如我們AI公司,學歷都很高但是有時就比較缺文化。機器要智能就要有文化,那怎么來實現(xiàn)呢?人類怎么做的呢?比如高考時候的語文和英文考試,想拿高分閱讀量就是一個硬指標,所以機器也要這樣,先不用管什么方法什么模型的,記憶的足夠多就會有顯著效果。數(shù)據(jù)足夠多的公司,未來必然也會比較聰明。

第4個方向就是主動化,主動化要在智能化的基礎上實現(xiàn),讓機器嘗試理解人類情感表達。這才是人工智能最大的商業(yè)價值所在,因為人和人之間的交互過程中,特別是在有商業(yè)價值的地方,主動交互占據(jù)相當大的比例。想想其中的奧妙,當前互聯(lián)網(wǎng)最為火熱的三大領域:搜索、電商和社交,歸根結(jié)底,到底是在做什么呢?搜索的商業(yè)變現(xiàn)為什么最終落在廣告業(yè)務呢?社交的商業(yè)變現(xiàn)為什么最終落在游戲業(yè)務呢?若想挖掘人機交互的商業(yè)價值,主動交互就是關鍵的技術。只需要部分理解人類思想和情感,就能稍稍影響人類的決策,這就是巨大的商業(yè)空間。況且,機器沒有人類的那么多情感負擔,比如說機器怎么說甜言蜜語都不會覺得惡心,我們?nèi)祟惪隙ú粫褭C器看成我們的上下級關系,也不會把人類的框框強加于機器,當然另外一個可能也是極為可怕,機器可能也無底線的無恥,其目的就是為了推銷一款商品。任何技術其實都有兩面性,但是掌握技術的是人類,是每一家的企業(yè),所以一家的企業(yè)價值觀決定了技術是服務人類還是敗壞世界規(guī)則。歸根結(jié)底,還是人的問題,人的問題,也都是教育的問題。要讓機器不斷學習更好的造福人類,人類也應該不斷學習適應機器才是。

這點還要稍微展開一下,人世間最難的莫過于重塑一個人的思想,以遠場語音為核心的人機交互技術逐漸影響人類的決策,想想這就是令人激動的偉大事業(yè)。顯然,機器以海量的數(shù)據(jù)、強大的算力和優(yōu)異的算法為基礎,永不疲憊的進化迭代,遲早是能夠大概理解一下人類的,這就足以影響一個人簡單的決策了,我們?nèi)祟惼鋵嵰残U懶的,日常小的決策非常依賴于周邊人群的建議,這就是一種趨同性,而機器恰恰擅長參與并引導這種趨同性。當然,若將這種能力用錯了地方,對人類的傷害也很大,所以搜索引擎的谷歌才會有“不作惡”這個價值觀,若沒有這個風險誰會閑來無事提這個價值觀呢。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號