高中浪荡女挨CAO日常,久久精品二区,97午夜福利理论片

<s id="gia2o"></s>

<tbody id="gia2o"></tbody><tbody id="gia2o"></tbody>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

谷歌公布新研究BiT探索大規(guī)模數(shù)據(jù)如何影響預(yù)訓(xùn)練模型性能

2020-05-28 11:28

將門(mén)創(chuàng)投

計(jì)算機(jī)視覺(jué)的研究人員在利用現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)解決問(wèn)題時(shí)常常會(huì)無(wú)奈地感受到其對(duì)數(shù)據(jù)的龐大需求，當(dāng)前很多先進(jìn)的CNN模型都需要在像OpenImages和Places這樣包含上百萬(wàn)張標(biāo)注圖片的數(shù)據(jù)集上進(jìn)行訓(xùn)練。然而對(duì)于很多領(lǐng)域的應(yīng)用來(lái)說(shuō)，收集如此海量的數(shù)據(jù)其時(shí)間和經(jīng)濟(jì)成本幾乎是常人無(wú)法承受的。

為了解決計(jì)算機(jī)視覺(jué)領(lǐng)域缺乏數(shù)據(jù)的問(wèn)題，人們提出了預(yù)訓(xùn)練模型的遷移學(xué)習(xí)方法，通過(guò)在大規(guī)模的通用數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練而后再?gòu)?fù)用到目標(biāo)任務(wù)上，用少量數(shù)據(jù)對(duì)模型進(jìn)行適應(yīng)性調(diào)優(yōu)。

盡管預(yù)訓(xùn)練模型在實(shí)踐中十分有效，但它仍不足以迅速地在新場(chǎng)景下掌握概念并進(jìn)行深入的理解，在工程實(shí)踐中還面臨著一系列問(wèn)題。由于大規(guī)模的預(yù)訓(xùn)練使得BERT和T5等方法在語(yǔ)言領(lǐng)域取得了巨大的進(jìn)展，研究人員堅(jiān)信大規(guī)模的預(yù)訓(xùn)練可以有效提升計(jì)算機(jī)視覺(jué)任務(wù)的性能。

為了充分研究大規(guī)模預(yù)訓(xùn)練和遷移學(xué)習(xí)的內(nèi)在機(jī)理和規(guī)律，來(lái)自谷歌的研究人員發(fā)表了一篇名為BigTransfer的論文，探索了如何有效利用超常規(guī)的圖像數(shù)據(jù)規(guī)模來(lái)對(duì)模型進(jìn)行預(yù)訓(xùn)練，并對(duì)訓(xùn)練過(guò)程進(jìn)行的系統(tǒng)深入的研究。研究人員發(fā)現(xiàn)，隨著預(yù)訓(xùn)練數(shù)據(jù)的增加，恰當(dāng)?shù)剡x擇歸一化層、拓展模型架構(gòu)的容量對(duì)于預(yù)訓(xùn)練的結(jié)果至關(guān)重要。

在有效的調(diào)整和訓(xùn)練后，這種方法展示了多個(gè)領(lǐng)域的視覺(jué)任務(wù)上展現(xiàn)了前所未有的適應(yīng)性和先進(jìn)的性能，包括小樣本是識(shí)別任務(wù)和最近提出的真實(shí)數(shù)據(jù)基準(zhǔn)ObjectNet上都取得了非常優(yōu)異的成績(jī)。

預(yù)訓(xùn)練

為了探索數(shù)據(jù)規(guī)模對(duì)于模型性能的影響，研究人員重新審視了目前常用的預(yù)訓(xùn)練配置（包括激活函數(shù)和權(quán)重的歸一化，模型的寬度和深度以及訓(xùn)練策略），同時(shí)利用了三個(gè)不同規(guī)模的數(shù)據(jù)集包括：ILSVRC－2012 （1000類(lèi)128萬(wàn)張圖像）， ImageNet－21k （2．1萬(wàn)類(lèi)的1400萬(wàn)張圖像）和 JFT （1．8萬(wàn)類(lèi)的三億張圖像），更重要的是基于這些數(shù)據(jù)研究人員可以探索先前未曾涉足的數(shù)據(jù)規(guī)模。

研究人員首先探索了數(shù)據(jù)集規(guī)模和模型容量間的關(guān)系，選擇了ResNet不同的變體進(jìn)行訓(xùn)練。從標(biāo)準(zhǔn)大小的“R50x1”到x4倍寬度的，再到更深度152層“R152x4”，都在上面的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。隨后研究人員獲得了關(guān)鍵的發(fā)現(xiàn)，如果想要充分利用大數(shù)據(jù)的優(yōu)勢(shì)，就必須同時(shí)增加模型的容量。

下圖左半部分箭頭開(kāi)頭的擴(kuò)大顯示了這一結(jié)論，數(shù)據(jù)量增大的情況下容量更大的模型性能增加更大，而容量小的模型反而會(huì)有一定程度地下降。

左半部分顯示了隨著數(shù)據(jù)量的增加需要擴(kuò)充模型的容量，紅色箭頭的擴(kuò)大意味著小模型架構(gòu)在大數(shù)據(jù)集下變差，而大模型架構(gòu)則得到改善。右圖顯示了在大數(shù)據(jù)集下的預(yù)訓(xùn)練并不一定改善，而是需要提高訓(xùn)練時(shí)間和計(jì)算開(kāi)銷(xiāo)來(lái)充分利用大數(shù)據(jù)的優(yōu)勢(shì)。

其次，訓(xùn)練的時(shí)間對(duì)模型性能也具有關(guān)鍵的作用。如果在大規(guī)模數(shù)據(jù)集上沒(méi)有進(jìn)行充分地訓(xùn)練調(diào)整計(jì)算開(kāi)銷(xiāo)的話，性能會(huì)有顯著下降（上圖中有半部分紅色點(diǎn)到藍(lán)色點(diǎn)下降），但通過(guò)適當(dāng)?shù)卣{(diào)整模型訓(xùn)練時(shí)間就能得到顯著的性能提升。

在探索的過(guò)程中研究人員還發(fā)現(xiàn)了適當(dāng)?shù)臍w一化可以有效提升性能。下圖中展示了將批歸一化BN替換為組歸一化GN后可以有效提升預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集上的性能，其原因主要來(lái)源于兩個(gè)方面。

首先在從預(yù)訓(xùn)練遷移到目標(biāo)任務(wù)時(shí)BN的狀態(tài)需要進(jìn)行調(diào)整，而GN卻是無(wú)狀態(tài)的從而避開(kāi)了需要調(diào)整的困難；其次，BN利用每一批次的統(tǒng)計(jì)信息，但這對(duì)于每個(gè)設(shè)備上的小批量來(lái)說(shuō)這種統(tǒng)計(jì)信息會(huì)變得不可靠，而對(duì)于大型模型來(lái)說(shuō)多設(shè)備上的訓(xùn)練不可避免。由于GN不需要計(jì)算每個(gè)批次的統(tǒng)計(jì)信息，又一次成功避開(kāi)了這一問(wèn)題。

圖中展示了預(yù)訓(xùn)練策略，在標(biāo)準(zhǔn)ResNet基礎(chǔ)上增加寬度和深度，將BN替換為GN和權(quán)重標(biāo)準(zhǔn)化，并在非常大規(guī)模數(shù)據(jù)集上訓(xùn)練更長(zhǎng)的時(shí)間。

1 2 下一頁(yè)>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<dl id="m8cci"></dl>

<dl id="m8cci"></dl>