Facebook AI發(fā)力,2D照片變3D
最先進的機器學習算法可以從照片中提取二維物體,并在三維中忠實地呈現它們。這種技術可以適用于增強現實的應用程序、機器人以及導航,因此它成為Facebook的一個重要研究領域。
在近日于首爾舉辦的國際計算機視覺會議(ICCV)之前,Facebook在一篇博客文章中強調了其在智能內容理解方面的最新進展。據透露,它的系統(tǒng)甚至可以用來檢測復雜的前景和背景對象,如椅子腿或重疊的家具。
“我們研究的最新進展是建立在利用深度學習來預測和定位圖像中的物體,以及用新的工具和架構來理解三維形狀,如體素、點云和網格,”Facebook的研究人員Georgia Gkioxari、Shubham Tulsiani和David Novotny在一篇博客中寫道!叭S理解將在提高人工智能系統(tǒng),更貼近地理解、解釋和操作現實世界的能力方面發(fā)揮核心作用!
其中一個亮點是Mesh R-CNN,這是一種能夠從雜亂和遮擋物體的圖像中預測三維形狀的方法。
Facebook的研究人員表示,他們在開源的Mask R-CNN的二維目標分割系統(tǒng)上增加了一個網格預測分支,并使用一個包含高度優(yōu)化的三維操作符的庫(Torch3d),來進一步支持該系統(tǒng)。Mesh R-CNN有效地利用了Mask R-CNN對圖像中不同的物體進行檢測和分類,然后利用上述的預測器對三維形狀進行推斷。
Facebook表示,在公共可用的Pix3D語料庫上進行評估后,Mesh R-CNN成功地檢測到所有類別的物體,并在家具場景中估計它們的完整三維形狀。在一個單獨的數據集上(ShapeNet ),Mesh R-CNN比之前的研究有7%的相對優(yōu)勢。
Facebook開發(fā)的另一個系統(tǒng)是Canonical 3D Pose Networks,簡稱為C3DPO,解決了網格和相應圖像無法用于訓練的情況。建立三維關鍵點模型重建,利用二維關鍵點監(jiān)控實現最先進的重建結果。(這里的關鍵點指的是被跟蹤的物體部分,它們提供了一組關于幾何圖形及其視角變化的線索。)
C3DPO利用重建模型預測相應攝像機視點參數和三維關鍵點位置。輔助組件與模型一起學習,以解決在分解三維視點和形狀時引入的模糊性。
Facebook指出,這種重建在以前是可以實現的,部分原因是內存限制。C3DPO體系結構可以在硬件無法捕獲的情況下進行三維重建,比如對大型的對象。
“(三維)計算機視覺有許多開放的研究問題,我們正在試驗多種問題陳述、技術和監(jiān)督方法,以探索推動該領域向前發(fā)展的最佳方式,就像我們在二維理解領域所做的那樣,”Gkioxari、Tulsiani和Novotny表示!半S著數字世界適應并轉向使用3D照片、沉浸式AR和VR體驗等產品,我們需要不斷推動復雜的系統(tǒng)更準確地理解視覺場景中的對象并與之互動。”

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?