訂閱
糾錯(cuò)
加入自媒體

計(jì)算機(jī)視覺(jué)簡(jiǎn)史:被稱為“人臉識(shí)別”的計(jì)算機(jī)視覺(jué)經(jīng)歷了什么?

導(dǎo)語(yǔ):發(fā)展60多年來(lái),機(jī)器視覺(jué)作為AI技術(shù)的急先鋒,經(jīng)歷了幾輪起落,終于迎來(lái)技術(shù)上的爆發(fā)。但隨著技術(shù)進(jìn)入深水區(qū),尋找合適的商業(yè)模式真正成為了機(jī)器視覺(jué)這門(mén)技術(shù)的最大難點(diǎn)。

1999年上映的《黑客帝國(guó)》雖然不是人類關(guān)于人工智能的第一次影視化探索,卻可以說(shuō)是最有影響力的一次。

電影講述的是基努李維斯飾演的網(wǎng)絡(luò)黑客尼奧發(fā)現(xiàn)自己生活的世界被某種外部力量控制并通過(guò)調(diào)查發(fā)現(xiàn)自己活在人工智能的虛擬世界里,之后同一個(gè)反抗者組織奮起而抗?fàn)幍墓适隆?/p>

在《黑客帝國(guó)》設(shè)定的真實(shí)世界中,他們的肉體早已被當(dāng)作被養(yǎng)殖的作物,為母體供應(yīng)能量,只有意識(shí)在母體Matrix中活動(dòng),誤以為自己還在過(guò)正常生活。

2011年,英劇《黑鏡》第一季上線,之后連續(xù)推出四季,這是一部探討科技對(duì)人類生活改變的電影,其中也包含諸多人工智能對(duì)于人類生活的改變與顛覆故事。

2016年,HBO發(fā)行的科幻類美劇《西部世界》上線,講述了由一座巨型高科技以西部世界為主題的成人樂(lè)園,提供機(jī)器人接待員給游客,讓他們實(shí)現(xiàn)殺戮與性欲的滿足;但后來(lái)隨著接待員有了自主意識(shí)和思維,他們開(kāi)始懷疑這個(gè)世界的本質(zhì),進(jìn)而覺(jué)醒并反抗人類的故事。

這些電影,講述的多是人工智能發(fā)展的高級(jí)階段,更是最近大家討論的“元宇宙”的形象化表現(xiàn)。

拋開(kāi)道德上的善惡對(duì)錯(cuò)不談,回到人工智能技術(shù)本身,在達(dá)成這些了不起的成就之前,在計(jì)算機(jī)能夠“思考”之前,最早需要開(kāi)始學(xué)習(xí)的技能是“感知”,其中最重要部分之一就是學(xué)會(huì)“看”,這也幾乎是公認(rèn)的人工智能第一步。

就在《黑鏡》上映的同一年——2011年,如今被稱為“AI四小龍”之一的曠視科技在三個(gè)天才少年的帶領(lǐng)下成立了,隨后四年間,商湯科技、依圖科技和云從科技業(yè)全部拔地而起,所選擇的賽道都是“人臉識(shí)別”,其實(shí)本質(zhì)就是讓計(jì)算機(jī)看圖。

最近,在經(jīng)過(guò)多年的奮戰(zhàn)之后,基于搶占賽道或者搶占資金的想法,他們?nèi)缃窠K于走進(jìn)了資本市場(chǎng)的視野。除了依圖科技已經(jīng)撤回上市申請(qǐng)之外,其他三家都離上市僅一步之遙了。

  

走進(jìn)了資本市場(chǎng).jpg

這些年,被稱為“人臉識(shí)別”的計(jì)算機(jī)視覺(jué)都經(jīng)歷了什么?

起步階段:人類對(duì)教會(huì)機(jī)器“看”的執(zhí)念

在我們講述計(jì)算機(jī)視覺(jué)之前,先要了解目前人工智能所處的階段,那就是“感知智能”,無(wú)論是AI四小龍的“人臉識(shí)別”還是科大訊飛的“語(yǔ)音識(shí)別”,都落在這一階段。

在此之前,我們還只是用計(jì)算機(jī)來(lái)計(jì)算數(shù)據(jù)、運(yùn)行代碼,但這只是初級(jí)的“計(jì)算智能”階段。現(xiàn)在計(jì)算機(jī)已經(jīng)學(xué)會(huì)了“感知”,不過(guò)距離計(jì)算機(jī)“能理解、會(huì)思考”的認(rèn)知智能階段,也就是最開(kāi)始講的那些電影里能達(dá)到的最終水平,還差得很遠(yuǎn)。

  

人工智能發(fā)展三個(gè)階段.jpg

讓計(jì)算機(jī)學(xué)會(huì)“感知”,最重要的一步就是”看“了。

眼睛,是人類用來(lái)觀察這個(gè)世界的最重要器官,也是唯一的視覺(jué)器官。在佛家所謂的六根——眼耳鼻舌身意中,眼睛也排在首位。

用眼睛看,是人類與生俱來(lái)的能力,剛出生的嬰兒只需要幾天的時(shí)間就能學(xué)會(huì)模仿父母的表情,人們能從復(fù)雜結(jié)構(gòu)的圖片中找到關(guān)注重點(diǎn)、在昏暗的環(huán)境下認(rèn)出熟人。

人類對(duì)眼睛的功能是有執(zhí)念的。

為了將自己看到的東西保存下來(lái),人類發(fā)明了照相機(jī)。最早的真正照相機(jī)來(lái)自1839年1月,當(dāng)時(shí)中國(guó)還在清朝的道光年間。攝影師達(dá)蓋爾在巴黎沙龍上展示了銀板照相法,將涂有碘化銀的銅片暴露在光線下,然后通過(guò)汞蒸汽和食鹽溶液來(lái)顯影,震驚了法國(guó)科學(xué)院,并于當(dāng)年推廣開(kāi)來(lái)。

銀板照相法所使用的就是這種用木箱子裝的相機(jī)。

自此人類終于學(xué)會(huì)長(zhǎng)時(shí)間保存眼睛看到的圖像了,之后又有了膠卷和即顯攝影。

但似乎對(duì)于人類來(lái)說(shuō),光是記錄并不夠,我們還想讓機(jī)器自己去看,并且告訴我它們看到了什么。

為了讓機(jī)器學(xué)會(huì)如何去“看”,就有了計(jì)算機(jī)視覺(jué),當(dāng)然,它更為大家所熟知的名稱是“人臉識(shí)別”。

最初的探討發(fā)生在1956年左右。在當(dāng)年的達(dá)特茅斯會(huì)議上,約翰麥卡錫、馬文閔斯基、克勞德香農(nóng)、艾倫紐厄爾和赫伯特西蒙等科學(xué)家聚在一起,討論著一個(gè)完全不食人間煙火的主題:用機(jī)器來(lái)模仿人類學(xué)習(xí)以及其他方面的智能。

會(huì)議一共開(kāi)了兩個(gè)月的時(shí)間,雖然大家沒(méi)有達(dá)成普遍的共識(shí),但是卻為會(huì)議討論的內(nèi)容起了一個(gè)名字:人工智能。因此,1956年也就成為了人工智能元年。

1957年春天,美國(guó)國(guó)家標(biāo)準(zhǔn)局的科學(xué)家拉塞爾·基爾希為他的兒子瓦爾登拍了一張照,并將其掃描到了東部標(biāo)準(zhǔn)自動(dòng)計(jì)算機(jī)(SEAC)中。為了使圖片可以放進(jìn)SEAC有限的存儲(chǔ)空間中,他將圖片分割成176176的網(wǎng)格——共30976位二進(jìn)制,并進(jìn)行了多次掃描。這張邊長(zhǎng)5厘米的正方形圖片就是歷史上第一張數(shù)字圖像,從某種意義上來(lái)講它甚至是CT掃描、衛(wèi)星圖像和數(shù)碼攝影的鼻祖。

1959年,神經(jīng)生理學(xué)家大衛(wèi)·休伯爾和托斯坦·維厄瑟爾通過(guò)貓的視覺(jué)實(shí)驗(yàn),首次發(fā)現(xiàn)了視覺(jué)初級(jí)皮層神經(jīng)元對(duì)于移動(dòng)邊緣刺激敏感,發(fā)現(xiàn)了視功能柱結(jié)構(gòu),為視覺(jué)神經(jīng)研究奠定了基礎(chǔ)——促成了計(jì)算機(jī)視覺(jué)技術(shù)40年后的突破性發(fā)展,奠定了深度學(xué)習(xí)的核心準(zhǔn)則。

到了60年代,勞倫斯羅伯茨在《三維固體的機(jī)器感知》描述了從二維圖片中推導(dǎo)三維信息的過(guò)程,成為計(jì)算機(jī)視覺(jué)的前導(dǎo)之一,開(kāi)創(chuàng)了理解三維場(chǎng)景為目的的計(jì)算機(jī)視覺(jué)研究。這個(gè)研究給世界帶來(lái)了很大啟發(fā),并且對(duì)邊緣、線條、明暗等各種特征建立了各種數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則。

  

勞倫斯羅伯茨.jpg

1969年秋天,貝爾實(shí)驗(yàn)室的兩位科學(xué)家韋拉德博伊爾和喬治史密斯正忙于電荷耦合器件(CCD)的研發(fā)。它是一種將光子轉(zhuǎn)化為電脈沖的器件,很快成為了高質(zhì)量數(shù)字圖像采集任務(wù)的新寵,逐漸應(yīng)用于工業(yè)相機(jī)傳感器,標(biāo)志著計(jì)算機(jī)視覺(jué)走上應(yīng)用舞臺(tái),投入到工業(yè)機(jī)器視覺(jué)中。

70年代是人工智能發(fā)展的低潮期。

80年代后計(jì)算機(jī)視覺(jué)成為一門(mén)獨(dú)立學(xué)科,并開(kāi)始從實(shí)驗(yàn)室走向應(yīng)用。80年日本科學(xué)家福島邦彥建立了第一個(gè)神經(jīng)網(wǎng)絡(luò),82年大衛(wèi)馬爾發(fā)表了一篇非常有影響力的論文,介紹了處理視覺(jué)數(shù)據(jù)的算法框架,同年《Vision》這本書(shū)問(wèn)世,標(biāo)志著計(jì)算機(jī)視覺(jué)正式成為了一門(mén)獨(dú)立學(xué)科。

《Vision》.jpg

大發(fā)展:卷積神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

90年代計(jì)算機(jī)視覺(jué)的發(fā)展整體比較落寞,因?yàn)橛?xùn)練神經(jīng)網(wǎng)絡(luò)是一項(xiàng)資源非常密集、并且進(jìn)展極為緩慢的工作。

一直到2005年之后,才又迎來(lái)快速發(fā)展階段。

人工智能發(fā)展.jpg

2006年左右,杰弗里·希爾頓(Geoffrey Hilton)和他的學(xué)生首次提出了深度置信網(wǎng)絡(luò)(DBN)的概念。他給多層神經(jīng)網(wǎng)絡(luò)相關(guān)的學(xué)習(xí)方法賦予了一個(gè)新名詞–“深度學(xué)習(xí)”(Deep Learning)。

人腦視覺(jué)系統(tǒng)的信息處理是分層的。簡(jiǎn)單來(lái)說(shuō),就是要先從功能相對(duì)低級(jí)的區(qū)域分辨出朝向、空間位置和運(yùn)動(dòng)方向,然后到下一個(gè)區(qū)域再去處理形狀和顏色等信息。

比如當(dāng)你看《黑客帝國(guó)》時(shí),你是先看到一個(gè)人朝著鏡頭走過(guò)來(lái),然后才分出這個(gè)人的臉型和各種面部特征、穿著的衣服顏色,根據(jù)這些信息和你大腦中原有的海量信息做匹配,你就能夠判斷出來(lái)這個(gè)正在運(yùn)動(dòng)的人是基努里維斯。

所以在大腦中,對(duì)一個(gè)形象的判別是分層次處理的,并不是一股腦把所有信息交給某個(gè)部分,然后它突然得出結(jié)論這個(gè)人是里維斯。

而深度學(xué)習(xí)就是借鑒人腦的信息處理過(guò)程,對(duì)信息進(jìn)行分層處理,進(jìn)行特征提取和分類。深度學(xué)習(xí)的實(shí)質(zhì),是通過(guò)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類的準(zhǔn)確性。

計(jì)算機(jī)需要學(xué)習(xí)足夠的數(shù)據(jù),才能訓(xùn)練出一個(gè)能夠用于識(shí)別的模型。

識(shí)別.jpg

數(shù)據(jù)量很重要,對(duì)你的大腦也是一樣。一個(gè)不是特別恰當(dāng)?shù)睦邮?如果你沒(méi)見(jiàn)過(guò)里維斯,你就算看到了這個(gè)五官、清晰地分別出頭發(fā)和瞳孔顏色,也沒(méi)有辦法判斷他到底是誰(shuí)。

這也是為什么,在網(wǎng)絡(luò)數(shù)據(jù)受限的情況下,深度學(xué)習(xí)的資源就不夠。

此外,神經(jīng)網(wǎng)絡(luò)的分層也是在不斷進(jìn)步的。

2005 年以前提出的人工神經(jīng)網(wǎng)絡(luò)只是一種淺層模型,只含有一層隱層節(jié)點(diǎn),但這比人腦簡(jiǎn)化太多了,效果也就差得多。

而用深度置信網(wǎng)絡(luò)解決來(lái)這個(gè)問(wèn)題,可以構(gòu)建更多層的模型,更接近人的視覺(jué)神經(jīng)系統(tǒng)的結(jié)構(gòu)。

不過(guò)隨著時(shí)間的推移,深度置信模型(DBP)也有一些問(wèn)題,包括計(jì)算量太大、樣本量太大等等。卷積神經(jīng)網(wǎng)絡(luò)(CNN)又可以解決這個(gè)問(wèn)題,它將每一層信息僅通過(guò)一個(gè)“卷積核”相連。

你可以理解兩個(gè)平面之間,前者是需要每個(gè)點(diǎn)直接相連,現(xiàn)在只需要中間的一個(gè)點(diǎn)直接相連。

等于DBN需要計(jì)算機(jī)一次性看完整張圖,全局對(duì)比;但CNN可以一步一步一塊一塊地對(duì)比小特征,和分布式系統(tǒng)的感覺(jué)有點(diǎn)像。

這樣處理樣本的速度就顯著加快了。

據(jù)廣證恒生在2019年的研究報(bào)告,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)公布了全球權(quán)威人臉識(shí)別比賽(FRVT)最新報(bào)告,從前十名企業(yè)在千分之一的誤報(bào)率下的識(shí) 別準(zhǔn)確率來(lái)看,其平均能達(dá)到 99.69%,在千萬(wàn)分之一誤報(bào)下的識(shí)別準(zhǔn)確率超過(guò) 99%,意味著機(jī)器幾乎可 以做到在 1000 萬(wàn)人的規(guī)模下準(zhǔn)確識(shí)別每一個(gè)人。

而人腦記憶100個(gè)人的身份都有可能出錯(cuò)。

人工識(shí)別專利.jpg

這幾年,無(wú)論是安防中的人臉識(shí)別,還是高鐵閘機(jī)上的人臉識(shí)別,抑或是證券在線開(kāi)戶、交易等,大家都開(kāi)始自由地使用人臉作為個(gè)人識(shí)別的特征。

當(dāng)技術(shù)不再困難的時(shí)候,在討論倫理之前,創(chuàng)業(yè)公司們卻首先迎來(lái)了商業(yè)化的難題。

1  2  下一頁(yè)>  
聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)