99精品免费视频在线,视频一区二区欧美

當前位置： OFweek 人工智能網 > 正文

谷歌+亞馬遜：知道你不是個成熟的AI，但你也該自己學習了

2020-04-16 14:18

將門創(chuàng)投

人工智能的學習總是需要大量數(shù)據(jù)的“喂養(yǎng)”�？墒沁@數(shù)據(jù)要喂多少才是個頭呢？有沒有什么辦法能在少喂數(shù)據(jù)的同時，不影響AI的學習能力呢？或者直接把一些學習法則交給AI，讓它們舉一反三？谷歌和亞馬遜的研究人員近來就在琢磨這件事。

谷歌AI：背著有限的數(shù)據(jù)去探索新環(huán)境

來自卡耐基梅隆大學、谷歌和斯坦福大學的研究人員近日在一篇論文中寫道，他們開發(fā)出了一種“弱監(jiān)督”的人工智能訓練框架。該模型會給機器人大量有限的、不精確的、或者是有噪聲的數(shù)據(jù)，讓它們通過數(shù)據(jù)學習，更好地探索一些極具挑戰(zhàn)性的環(huán)境。值得一提的是，研究人員“喂”給機器人的數(shù)據(jù)其實并不“完整”，機器人所得到的只是與它們所處的周圍環(huán)境直接相關的數(shù)據(jù)。然而出人意料的是，這套相對較少的數(shù)據(jù)反而提升了機器人操作任務的訓練效率。

這個名叫“弱監(jiān)督控制”（Weakly－Supervised Control，后文簡稱為WSC）的框架可以對語料庫進行學習；在學習過程中，智能代理（intelligent agents）可以生成自己的目標并執(zhí)行探索任務。

從形式上看，該框架整合了“強化學習機制”（一種通過獎勵來激勵完成目標的訓練形式）。但不同的是，傳統(tǒng)的強化學習需要研究人員手動設計獎勵，智能代理獲取獎勵的計算成本很高；與之相比，WSC構建的這種弱監(jiān)督學習機制是一種能隨著智能代理數(shù)據(jù)收集的進度而自行伸縮擴展的監(jiān)督方式。換句話說，該模型給代理們提出的獎勵目標是基于它們的學習能力和進度的。這樣不僅有利于智能代理的學習，對于研究人員來說，他們也不必在智能代理的強化學習循環(huán)中不斷增加新標簽了。

譯者注：在人工智能領域，智能代理／智能主體指的是一個能夠觀察周遭環(huán)境并為實現(xiàn)具體目標而付出一系列行動的自主實體。它通常是以軟件程序的形式出現(xiàn)的。

在實驗中，研究人員試圖確定弱監(jiān)督機制對學習一個解纏表現(xiàn)（disentangled state representation）是否足夠必要。他們給幾個模型布置了不同復雜度、基于視覺、以目標為條件的模擬操作任務。在一個環(huán)境中，智能代理的任務是將特定的對象移動到目標位置；而在另一個環(huán)境中，代理必須打開一扇門，并讓門開的角度符合任務要求。

論文作者表示，WSC比此前最先進的目標導向式強化學習機制的學習速度還要快。特別是當研究人員不斷提升智能代理所處環(huán)境復雜性的時候，這種學習速度上的優(yōu)勢表現(xiàn)的格外明顯。另外，研究人員還指出，對比智能代理的預設目標和其達成目標后的最終形態(tài)，WSC的智能代理呈現(xiàn)出了更高的一致性。這表明，代理們通過該機制學到的是可釋性更強的目標達成策略。

不過研究人員也承認，WSC并非沒有局限性。它需要使用者給智能代理們標出各種與下游任務直接相關的各種要素，這就對使用者的專業(yè)知識提出了較高要求。此外，專家們還指出，他們目前的實驗都是在預訓練階段完成的，這個階段生成的內容其實并不一定來自代理們與機制中的新要素所產生的互動結果。基于此，他們下一步的工作就是要細致研究弱監(jiān)督機制的其他形式，看看它們能否給智能代理們提供新的有益信息。

“目前在實驗中的復雜環(huán)境里，WSC已經呈現(xiàn)出了令人欣喜的成果。我們有理由相信，未來若能給真實環(huán)境下的機器人也應用這種機制，效果會更為喜人�！闭撐牡暮现邆儗懙溃昂喲灾�，我們相信，這個新框架提供了一個監(jiān)督通用目標學習機制在復雜環(huán)境下進行應用實踐的新視角�！�

亞馬遜AI：用元學習機制來學會“舉一反三”

從上面的技術原理來看，谷歌的專家們有點像商人，他們的經營思路是要在降低成本的同時，不影響產品（也就是AI的學習能力）的質量和性能。與之相比，亞馬遜的研究人員更像是個老師，他們致力于“授人以漁”，讓AI學會舉一反三的能力。

在即將到來的ICLR上，亞馬遜的研究人員將提交一份關于元學習任務（meta－learning tasks）如何大幅提升AI學習能力的論文。

所謂元學習任務，即是一種能讓AI在完成相關目標的同時，還能引導其學會如何更好的進行學習的任務模式。亞馬遜的研究者聲稱，他們研發(fā)的這種任務模式資源消耗很小：只需少數(shù)幾個標簽訓練模板就能讓AI“舉一反三”，完成好一個個新任務。

在傳統(tǒng)的機器學習過程中，模型先是吸納一系列標記數(shù)據(jù)（支持集，support set），學習如何把標記數(shù)據(jù)與特征標簽（labels）關聯(lián)起來；而后，研究人員再喂給模型一些測試數(shù)據(jù)（測試集，query set），看看它能否根據(jù)此前學到的特征標簽來厘清這些新數(shù)據(jù)。

與此種方式相反，在元學習機制下，AI模型要同時運用自身訓練數(shù)據(jù)和研究人員給出的測試數(shù)據(jù)集來完成任務。在此過程中，模型還可以對兩套數(shù)據(jù)進行比對。這樣一來，AI在完成任務的同時，也能看得到自身對訓練數(shù)據(jù)的反應是如何影響其在測試數(shù)據(jù)上的表現(xiàn)的。

而在第二階段，也就是所謂的元測試階段（meta testing），模型要完成的測試任務與自己此前做的元學習任務有明顯的關聯(lián)，卻又并不完全相同。和之前的方法相似，在執(zhí)行每個新任務的過程中，模型還是能同時看到訓練數(shù)據(jù)與測試數(shù)據(jù)，但這一次，特征標簽都是未知的，AI必須通過此前的學習與自己得到的數(shù)據(jù)來進行判斷，正確找出數(shù)據(jù)與標簽的關聯(lián)性。

在元訓練過程中，研究人員所采用的技術并不需要學習一個完整的全局模型。他們的做法是訓練一個輔助模型，再通過它為每一個任務生成本地模型，并同時確定其所對應的支持集。

在完成上述工作后，他們又準備了一個輔助網絡，目的是充分利用測試集里的未標記數(shù)據(jù)。這樣到了元測試階段，研究人員就可以用測試集來對前文提到的本地模型進行微調了。

按照該團隊的說法，他們的系統(tǒng)通過一次任務學習就達到了16基線（baselines）。更具體的說，其所應用的新機制提高了AI從一個標記的示例出發(fā)，去學習一個新對象分類任務的性能。根據(jù)底層AI模型體系結構的不同，這種提升幅度在11％和16％之間。

關于這項技術，Alexa Shopping 應用科學家巴勃羅·加西亞（Pablo Garcia）還在一篇博客中進行了介紹：

“過去10年，深度學習系統(tǒng)已經在很多人工智能任務中取得了非同凡響的巨大成功。但在具體應用層面，其發(fā)揮空間一直比較有限。元學習機制有望讓機器學習系統(tǒng)訓練成‘多面手’……該機制的主體思路是讓系統(tǒng)能通過少量標簽訓練示例就能完成一個個新任務。很明顯，如果進展順利，元學習將大幅縮減勞動密集型數(shù)據(jù)注釋工作的需求�！�

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频