計(jì)算機(jī)視覺(jué)簡(jiǎn)史:被稱為“人臉識(shí)別”的計(jì)算機(jī)視覺(jué)經(jīng)歷了什么?
導(dǎo)語(yǔ):發(fā)展60多年來(lái),機(jī)器視覺(jué)作為AI技術(shù)的急先鋒,經(jīng)歷了幾輪起落,終于迎來(lái)技術(shù)上的爆發(fā)。但隨著技術(shù)進(jìn)入深水區(qū),尋找合適的商業(yè)模式真正成為了機(jī)器視覺(jué)這門(mén)技術(shù)的最大難點(diǎn)。
1999年上映的《黑客帝國(guó)》雖然不是人類關(guān)于人工智能的第一次影視化探索,卻可以說(shuō)是最有影響力的一次。
電影講述的是基努李維斯飾演的網(wǎng)絡(luò)黑客尼奧發(fā)現(xiàn)自己生活的世界被某種外部力量控制并通過(guò)調(diào)查發(fā)現(xiàn)自己活在人工智能的虛擬世界里,之后同一個(gè)反抗者組織奮起而抗?fàn)幍墓适隆?/p>
在《黑客帝國(guó)》設(shè)定的真實(shí)世界中,他們的肉體早已被當(dāng)作被養(yǎng)殖的作物,為母體供應(yīng)能量,只有意識(shí)在母體Matrix中活動(dòng),誤以為自己還在過(guò)正常生活。
2011年,英劇《黑鏡》第一季上線,之后連續(xù)推出四季,這是一部探討科技對(duì)人類生活改變的電影,其中也包含諸多人工智能對(duì)于人類生活的改變與顛覆故事。
2016年,HBO發(fā)行的科幻類美劇《西部世界》上線,講述了由一座巨型高科技以西部世界為主題的成人樂(lè)園,提供機(jī)器人接待員給游客,讓他們實(shí)現(xiàn)殺戮與性欲的滿足;但后來(lái)隨著接待員有了自主意識(shí)和思維,他們開(kāi)始懷疑這個(gè)世界的本質(zhì),進(jìn)而覺(jué)醒并反抗人類的故事。
這些電影,講述的多是人工智能發(fā)展的高級(jí)階段,更是最近大家討論的“元宇宙”的形象化表現(xiàn)。
拋開(kāi)道德上的善惡對(duì)錯(cuò)不談,回到人工智能技術(shù)本身,在達(dá)成這些了不起的成就之前,在計(jì)算機(jī)能夠“思考”之前,最早需要開(kāi)始學(xué)習(xí)的技能是“感知”,其中最重要部分之一就是學(xué)會(huì)“看”,這也幾乎是公認(rèn)的人工智能第一步。
就在《黑鏡》上映的同一年——2011年,如今被稱為“AI四小龍”之一的曠視科技在三個(gè)天才少年的帶領(lǐng)下成立了,隨后四年間,商湯科技、依圖科技和云從科技業(yè)全部拔地而起,所選擇的賽道都是“人臉識(shí)別”,其實(shí)本質(zhì)就是讓計(jì)算機(jī)看圖。
最近,在經(jīng)過(guò)多年的奮戰(zhàn)之后,基于搶占賽道或者搶占資金的想法,他們?nèi)缃窠K于走進(jìn)了資本市場(chǎng)的視野。除了依圖科技已經(jīng)撤回上市申請(qǐng)之外,其他三家都離上市僅一步之遙了。
這些年,被稱為“人臉識(shí)別”的計(jì)算機(jī)視覺(jué)都經(jīng)歷了什么?
起步階段:人類對(duì)教會(huì)機(jī)器“看”的執(zhí)念
在我們講述計(jì)算機(jī)視覺(jué)之前,先要了解目前人工智能所處的階段,那就是“感知智能”,無(wú)論是AI四小龍的“人臉識(shí)別”還是科大訊飛的“語(yǔ)音識(shí)別”,都落在這一階段。
在此之前,我們還只是用計(jì)算機(jī)來(lái)計(jì)算數(shù)據(jù)、運(yùn)行代碼,但這只是初級(jí)的“計(jì)算智能”階段。現(xiàn)在計(jì)算機(jī)已經(jīng)學(xué)會(huì)了“感知”,不過(guò)距離計(jì)算機(jī)“能理解、會(huì)思考”的認(rèn)知智能階段,也就是最開(kāi)始講的那些電影里能達(dá)到的最終水平,還差得很遠(yuǎn)。
讓計(jì)算機(jī)學(xué)會(huì)“感知”,最重要的一步就是”看“了。
眼睛,是人類用來(lái)觀察這個(gè)世界的最重要器官,也是唯一的視覺(jué)器官。在佛家所謂的六根——眼耳鼻舌身意中,眼睛也排在首位。
用眼睛看,是人類與生俱來(lái)的能力,剛出生的嬰兒只需要幾天的時(shí)間就能學(xué)會(huì)模仿父母的表情,人們能從復(fù)雜結(jié)構(gòu)的圖片中找到關(guān)注重點(diǎn)、在昏暗的環(huán)境下認(rèn)出熟人。
人類對(duì)眼睛的功能是有執(zhí)念的。
為了將自己看到的東西保存下來(lái),人類發(fā)明了照相機(jī)。最早的真正照相機(jī)來(lái)自1839年1月,當(dāng)時(shí)中國(guó)還在清朝的道光年間。攝影師達(dá)蓋爾在巴黎沙龍上展示了銀板照相法,將涂有碘化銀的銅片暴露在光線下,然后通過(guò)汞蒸汽和食鹽溶液來(lái)顯影,震驚了法國(guó)科學(xué)院,并于當(dāng)年推廣開(kāi)來(lái)。
銀板照相法所使用的就是這種用木箱子裝的相機(jī)。
自此人類終于學(xué)會(huì)長(zhǎng)時(shí)間保存眼睛看到的圖像了,之后又有了膠卷和即顯攝影。
但似乎對(duì)于人類來(lái)說(shuō),光是記錄并不夠,我們還想讓機(jī)器自己去看,并且告訴我它們看到了什么。
為了讓機(jī)器學(xué)會(huì)如何去“看”,就有了計(jì)算機(jī)視覺(jué),當(dāng)然,它更為大家所熟知的名稱是“人臉識(shí)別”。
最初的探討發(fā)生在1956年左右。在當(dāng)年的達(dá)特茅斯會(huì)議上,約翰麥卡錫、馬文閔斯基、克勞德香農(nóng)、艾倫紐厄爾和赫伯特西蒙等科學(xué)家聚在一起,討論著一個(gè)完全不食人間煙火的主題:用機(jī)器來(lái)模仿人類學(xué)習(xí)以及其他方面的智能。
會(huì)議一共開(kāi)了兩個(gè)月的時(shí)間,雖然大家沒(méi)有達(dá)成普遍的共識(shí),但是卻為會(huì)議討論的內(nèi)容起了一個(gè)名字:人工智能。因此,1956年也就成為了人工智能元年。
1957年春天,美國(guó)國(guó)家標(biāo)準(zhǔn)局的科學(xué)家拉塞爾·基爾希為他的兒子瓦爾登拍了一張照,并將其掃描到了東部標(biāo)準(zhǔn)自動(dòng)計(jì)算機(jī)(SEAC)中。為了使圖片可以放進(jìn)SEAC有限的存儲(chǔ)空間中,他將圖片分割成176176的網(wǎng)格——共30976位二進(jìn)制,并進(jìn)行了多次掃描。這張邊長(zhǎng)5厘米的正方形圖片就是歷史上第一張數(shù)字圖像,從某種意義上來(lái)講它甚至是CT掃描、衛(wèi)星圖像和數(shù)碼攝影的鼻祖。
1959年,神經(jīng)生理學(xué)家大衛(wèi)·休伯爾和托斯坦·維厄瑟爾通過(guò)貓的視覺(jué)實(shí)驗(yàn),首次發(fā)現(xiàn)了視覺(jué)初級(jí)皮層神經(jīng)元對(duì)于移動(dòng)邊緣刺激敏感,發(fā)現(xiàn)了視功能柱結(jié)構(gòu),為視覺(jué)神經(jīng)研究奠定了基礎(chǔ)——促成了計(jì)算機(jī)視覺(jué)技術(shù)40年后的突破性發(fā)展,奠定了深度學(xué)習(xí)的核心準(zhǔn)則。
到了60年代,勞倫斯羅伯茨在《三維固體的機(jī)器感知》描述了從二維圖片中推導(dǎo)三維信息的過(guò)程,成為計(jì)算機(jī)視覺(jué)的前導(dǎo)之一,開(kāi)創(chuàng)了理解三維場(chǎng)景為目的的計(jì)算機(jī)視覺(jué)研究。這個(gè)研究給世界帶來(lái)了很大啟發(fā),并且對(duì)邊緣、線條、明暗等各種特征建立了各種數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則。
1969年秋天,貝爾實(shí)驗(yàn)室的兩位科學(xué)家韋拉德博伊爾和喬治史密斯正忙于電荷耦合器件(CCD)的研發(fā)。它是一種將光子轉(zhuǎn)化為電脈沖的器件,很快成為了高質(zhì)量數(shù)字圖像采集任務(wù)的新寵,逐漸應(yīng)用于工業(yè)相機(jī)傳感器,標(biāo)志著計(jì)算機(jī)視覺(jué)走上應(yīng)用舞臺(tái),投入到工業(yè)機(jī)器視覺(jué)中。
70年代是人工智能發(fā)展的低潮期。
80年代后計(jì)算機(jī)視覺(jué)成為一門(mén)獨(dú)立學(xué)科,并開(kāi)始從實(shí)驗(yàn)室走向應(yīng)用。80年日本科學(xué)家福島邦彥建立了第一個(gè)神經(jīng)網(wǎng)絡(luò),82年大衛(wèi)馬爾發(fā)表了一篇非常有影響力的論文,介紹了處理視覺(jué)數(shù)據(jù)的算法框架,同年《Vision》這本書(shū)問(wèn)世,標(biāo)志著計(jì)算機(jī)視覺(jué)正式成為了一門(mén)獨(dú)立學(xué)科。
大發(fā)展:卷積神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
90年代計(jì)算機(jī)視覺(jué)的發(fā)展整體比較落寞,因?yàn)橛?xùn)練神經(jīng)網(wǎng)絡(luò)是一項(xiàng)資源非常密集、并且進(jìn)展極為緩慢的工作。
一直到2005年之后,才又迎來(lái)快速發(fā)展階段。
2006年左右,杰弗里·希爾頓(Geoffrey Hilton)和他的學(xué)生首次提出了深度置信網(wǎng)絡(luò)(DBN)的概念。他給多層神經(jīng)網(wǎng)絡(luò)相關(guān)的學(xué)習(xí)方法賦予了一個(gè)新名詞–“深度學(xué)習(xí)”(Deep Learning)。
人腦視覺(jué)系統(tǒng)的信息處理是分層的。簡(jiǎn)單來(lái)說(shuō),就是要先從功能相對(duì)低級(jí)的區(qū)域分辨出朝向、空間位置和運(yùn)動(dòng)方向,然后到下一個(gè)區(qū)域再去處理形狀和顏色等信息。
比如當(dāng)你看《黑客帝國(guó)》時(shí),你是先看到一個(gè)人朝著鏡頭走過(guò)來(lái),然后才分出這個(gè)人的臉型和各種面部特征、穿著的衣服顏色,根據(jù)這些信息和你大腦中原有的海量信息做匹配,你就能夠判斷出來(lái)這個(gè)正在運(yùn)動(dòng)的人是基努里維斯。
所以在大腦中,對(duì)一個(gè)形象的判別是分層次處理的,并不是一股腦把所有信息交給某個(gè)部分,然后它突然得出結(jié)論這個(gè)人是里維斯。
而深度學(xué)習(xí)就是借鑒人腦的信息處理過(guò)程,對(duì)信息進(jìn)行分層處理,進(jìn)行特征提取和分類。深度學(xué)習(xí)的實(shí)質(zhì),是通過(guò)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類的準(zhǔn)確性。
計(jì)算機(jī)需要學(xué)習(xí)足夠的數(shù)據(jù),才能訓(xùn)練出一個(gè)能夠用于識(shí)別的模型。
數(shù)據(jù)量很重要,對(duì)你的大腦也是一樣。一個(gè)不是特別恰當(dāng)?shù)睦邮?如果你沒(méi)見(jiàn)過(guò)里維斯,你就算看到了這個(gè)五官、清晰地分別出頭發(fā)和瞳孔顏色,也沒(méi)有辦法判斷他到底是誰(shuí)。
這也是為什么,在網(wǎng)絡(luò)數(shù)據(jù)受限的情況下,深度學(xué)習(xí)的資源就不夠。
此外,神經(jīng)網(wǎng)絡(luò)的分層也是在不斷進(jìn)步的。
2005 年以前提出的人工神經(jīng)網(wǎng)絡(luò)只是一種淺層模型,只含有一層隱層節(jié)點(diǎn),但這比人腦簡(jiǎn)化太多了,效果也就差得多。
而用深度置信網(wǎng)絡(luò)解決來(lái)這個(gè)問(wèn)題,可以構(gòu)建更多層的模型,更接近人的視覺(jué)神經(jīng)系統(tǒng)的結(jié)構(gòu)。
不過(guò)隨著時(shí)間的推移,深度置信模型(DBP)也有一些問(wèn)題,包括計(jì)算量太大、樣本量太大等等。卷積神經(jīng)網(wǎng)絡(luò)(CNN)又可以解決這個(gè)問(wèn)題,它將每一層信息僅通過(guò)一個(gè)“卷積核”相連。
你可以理解兩個(gè)平面之間,前者是需要每個(gè)點(diǎn)直接相連,現(xiàn)在只需要中間的一個(gè)點(diǎn)直接相連。
等于DBN需要計(jì)算機(jī)一次性看完整張圖,全局對(duì)比;但CNN可以一步一步一塊一塊地對(duì)比小特征,和分布式系統(tǒng)的感覺(jué)有點(diǎn)像。
這樣處理樣本的速度就顯著加快了。
據(jù)廣證恒生在2019年的研究報(bào)告,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)公布了全球權(quán)威人臉識(shí)別比賽(FRVT)最新報(bào)告,從前十名企業(yè)在千分之一的誤報(bào)率下的識(shí) 別準(zhǔn)確率來(lái)看,其平均能達(dá)到 99.69%,在千萬(wàn)分之一誤報(bào)下的識(shí)別準(zhǔn)確率超過(guò) 99%,意味著機(jī)器幾乎可 以做到在 1000 萬(wàn)人的規(guī)模下準(zhǔn)確識(shí)別每一個(gè)人。
而人腦記憶100個(gè)人的身份都有可能出錯(cuò)。
這幾年,無(wú)論是安防中的人臉識(shí)別,還是高鐵閘機(jī)上的人臉識(shí)別,抑或是證券在線開(kāi)戶、交易等,大家都開(kāi)始自由地使用人臉作為個(gè)人識(shí)別的特征。
當(dāng)技術(shù)不再困難的時(shí)候,在討論倫理之前,創(chuàng)業(yè)公司們卻首先迎來(lái)了商業(yè)化的難題。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?