“人機(jī)自然交互技術(shù)”的趨勢與挑戰(zhàn)
最近AI寒冬論再起,從圖像到語音再到自動(dòng)駕駛這三個(gè)人工智能賽道輪番被詬病,特別是語音賽道,如今更是備受美元資本市場冷落。為什么會(huì)出現(xiàn)這個(gè)情況呢?我想主要還是大家當(dāng)前的認(rèn)知和信心問題,因?yàn)閺膶?shí)際商業(yè)化進(jìn)程來看,圖像和語音是人工智能領(lǐng)域早就規(guī)模商業(yè)化的領(lǐng)域,圖像主要是面向安防等行業(yè)的專業(yè)應(yīng)用,而語音主要是以智能音箱為代表的面向消費(fèi)電子的個(gè)人應(yīng)用,其他比如金融、醫(yī)療、零售、客服等AI應(yīng)用相對(duì)規(guī)模還是小一些,而自動(dòng)駕駛更是需要時(shí)間,短期內(nèi)商業(yè)普及的可能性微乎其微。從最近五年的融資事例來看,人工智能的融資總額還在上升,但是已經(jīng)越來越集中于A輪以后的企業(yè),也就是說資本更加看較為成熟的AI公司。
事實(shí)上,商業(yè)化進(jìn)程更快的技術(shù)率先遇到信心低谷也是正,F(xiàn)象,畢竟技術(shù)和市場都存在一定的交叉周期,過早落地就意味著暴露出更多實(shí)際應(yīng)用的問題,這就需要資本低谷來消化技術(shù)爆發(fā)早期的泡沫,這總比一些技術(shù)或者產(chǎn)品的“見光死”要好很多。早期互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)也都經(jīng)歷了類似的階段,智能手機(jī)的孕育期也超過了十年并且更迭了一波巨頭才實(shí)現(xiàn)爆發(fā)前夜的積累,似乎有點(diǎn)符合股票市場的艾略特波浪理論。不過語音相對(duì)更加凄慘一些,基礎(chǔ)技術(shù)的研究差不多有60多年的歷史,直到最近幾年才有像樣一點(diǎn)的產(chǎn)業(yè)落地,而且語音相對(duì)圖像天生就沒有奪目的本領(lǐng),語音賽道的低調(diào)讓人覺得沒有圖像賽道那樣炫目多彩。這一點(diǎn)其實(shí)就很不符合美元基金的審美邏輯,美元基金強(qiáng)調(diào)的是故事的性感,而且更加希望公司能夠登陸美股市場。當(dāng)然,換個(gè)角度來看,語音賽道并非一個(gè)燒錢的賽道,事實(shí)上燒錢的業(yè)務(wù)本身也有問題,技術(shù)的優(yōu)勢在于先發(fā)優(yōu)勢,只有唯快不破才能立于不敗之地,而資本只是幫助構(gòu)建壁壘的工具。這個(gè)世界有太多事情并不是燒錢就能獲得的,正確往往就是不容易。比如人工智能和區(qū)塊鏈,雖然區(qū)塊鏈的技術(shù)理念很好,但是太過于炒作并且只為牟利不顧道德,所以從全球關(guān)注趨勢來看,可以借用一句俗語“We know more than we can tell”來總結(jié)。
進(jìn)一步的說,聲音雖然承載了人類的思想和情感,但是圖像卻承載了人類的表象和直覺,顯然人類的第一印象,內(nèi)涵豐富遠(yuǎn)遠(yuǎn)比不上外表艷麗,這是人類基于生殖繁衍的本性追求,也是無可厚非。更讓人惱火的是,聲音天然還不具有群體示范效應(yīng),比如在人數(shù)眾多的會(huì)場,演示圖像總是容易引起觀眾的驚嘆,而若是演示語音則一般都會(huì)是災(zāi)難,對(duì)觀眾(所以不叫聽眾)來說,“看”總比“聽”更容易High起來。何況我們?nèi)祟愐矝]很好解決聚眾場所的“雞尾酒會(huì)效應(yīng)”問題,這種場合下的智能語音體驗(yàn)絕對(duì)是一塌糊涂。即便相對(duì)簡單的家居環(huán)境,做好遠(yuǎn)場技術(shù)也是難度極大的挑戰(zhàn)。到現(xiàn)在為止,我們也沒有很好解決遠(yuǎn)場通話和遠(yuǎn)場識(shí)別問題,這點(diǎn)大家可以從全球銷量累積已經(jīng)過億臺(tái)的智能音箱產(chǎn)品中得到驗(yàn)證,可以肯定的是,智能音箱已經(jīng)應(yīng)用了最為先進(jìn)的技術(shù),但是仍然遠(yuǎn)遠(yuǎn)達(dá)不到很多AI廠商所給大家描繪或者演示的體驗(yàn)預(yù)期,事實(shí)上,短期內(nèi)也不可能達(dá)到。
上面提到了“遠(yuǎn)場”這一概念,這是借鑒的學(xué)術(shù)名詞,一般我們定義為1尺以上的距離,1尺大概是1KHZ單頻聲波的一個(gè)波長,也是一個(gè)手臂自由操控的距離,為什么要定義這一概念?主要是為了讓行業(yè)對(duì)新技術(shù)有一個(gè)新的認(rèn)知,遠(yuǎn)場語音交互技術(shù)主要是解決真實(shí)場景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問題,舒適距離的意思就是不要太遠(yuǎn)也不要太近,太遠(yuǎn)就會(huì)讓人不自覺提高說話聲音,這增加了能耗容易讓人疲勞,太近了則會(huì)觸發(fā)人類的安全意識(shí),天天趴在耳朵上說話也受不了。為了更加準(zhǔn)確定義場景,我們一般取5米作為標(biāo)尺,事實(shí)上3米之內(nèi)才是最好的距離。所以,遠(yuǎn)場這個(gè)概念就是希望加強(qiáng)人們對(duì)于語音可以釋放雙手這一最大魅力特性的認(rèn)知,遠(yuǎn)場就是語音新技術(shù)最為顯著的標(biāo)簽,這也是聲智對(duì)語音技術(shù)做出的主要貢獻(xiàn)之一。
但是,即便以遠(yuǎn)場語音交互技術(shù)為核心的智能音箱全球爆發(fā),國內(nèi)更是在推出后一年時(shí)間就達(dá)到了2200萬臺(tái)的銷量,仍然還是面臨了很多質(zhì)疑和批評(píng)。這些質(zhì)疑主要集中在兩點(diǎn):一是語音賽道的商業(yè)趨勢問題,二是應(yīng)對(duì)巨頭競爭的策略問題。實(shí)際上這兩個(gè)問題有些相悖,第二個(gè)問題已經(jīng)例證了第一個(gè)問題的尷尬,就是因?yàn)檫@個(gè)賽道太重要了,所以全球巨頭都在其中競爭,包括了這個(gè)時(shí)代最有錢的所有互聯(lián)網(wǎng)巨頭:亞馬遜、谷歌、微軟、蘋果、臉書、三星、百度、阿里、騰訊、華為、小米等等。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?