訂閱
糾錯(cuò)
加入自媒體

欠擬合與過擬合技術(shù)總結(jié)

前言:

機(jī)器學(xué)習(xí)的模式是通過大量的數(shù)據(jù)喂給一個(gè)模型,模型會(huì)根據(jù)數(shù)據(jù)不斷調(diào)整自身參數(shù),最終具備判別這些數(shù)據(jù)的模式或特征的能力。若模型無法從這些數(shù)據(jù)中訓(xùn)練出一個(gè)很好的效果,則認(rèn)為它是欠擬合。若模型在訓(xùn)練的時(shí)候達(dá)到很好的效果,而在未參與訓(xùn)練的數(shù)據(jù)上測試,效果不好,則認(rèn)為它是過擬合。

在本文,將介紹欠擬合與過擬合的概念、特點(diǎn)、產(chǎn)生的原因、解決的方法。在認(rèn)真閱讀本文后,讀者將會(huì)對欠擬合與過擬合有個(gè)全面的認(rèn)識(shí)。

更多內(nèi)容歡迎關(guān)注公眾號(hào)CV技術(shù)指南,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié),最新技術(shù)跟蹤。

欠擬合與過擬合的概念

在訓(xùn)練模型的過程中,我們通常希望達(dá)到以下兩個(gè)目的:

1. 訓(xùn)練的損失值盡可能地小。

2. 訓(xùn)練的損失值與測試的損失值之間的差距盡可能地小。

當(dāng)?shù)谝粋(gè)目的沒有達(dá)到時(shí),則說明模型沒有訓(xùn)練出很好的效果,模型對于判別數(shù)據(jù)的模式或特征的能力不強(qiáng),則認(rèn)為它是欠擬合的。

當(dāng)?shù)谝粋(gè)目的達(dá)到,第二個(gè)沒有達(dá)到時(shí),說明模型訓(xùn)練出了很好的效果,而測試的損失值比較大,則說明模型在新的數(shù)據(jù)上的表現(xiàn)很差,此時(shí)可認(rèn)為模型過度擬合訓(xùn)練的數(shù)據(jù),而對于未參與訓(xùn)練的數(shù)據(jù)不具備很好的判別或擬合能力,這種情況下,模型是過擬合的。

用一個(gè)通俗的例子來說明:

假定你家里安排你去相親,告訴你女方在某某餐廳等你。

若你家里人告訴你,女方穿裙子,披肩長發(fā)。結(jié)果你進(jìn)去,發(fā)現(xiàn)有好幾個(gè)位置都是穿裙子、披肩長發(fā)的女生,此時(shí)你無法判斷是哪一個(gè),這說明你了解女生身上的特征不夠多,是欠擬合的。

若你家里人告訴你,女方穿裙子,戴了個(gè)帽子,披肩長發(fā),手機(jī)殼是哆啦A夢,眉角有顆痣。結(jié)果女方覺得餐廳太熱,進(jìn)餐廳沒多久就脫了帽子,你進(jìn)去后發(fā)現(xiàn)有一個(gè)女生其它條件都符合,就是沒戴帽子,你就因此認(rèn)定她不是你相親對象,這說明你了解的女生的特征太多,對于稍微有點(diǎn)不同的特征,你就做出了錯(cuò)誤判斷,這是過擬合的。

若家里人告訴你,女方穿裙子,披肩長發(fā),眉角有顆痣。你進(jìn)去后發(fā)現(xiàn),雖然穿裙子的有好幾個(gè),披肩長發(fā)的也不少,但眉角有痣的就那一位,即便那位還戴了個(gè)帽子,也不妨礙你認(rèn)為她就是你相親對象,于是你準(zhǔn)確地走到了她面前開始了尷尬的交流,這是合理的擬合。

在這個(gè)例子中,裙子,披肩長發(fā)都是女生很普遍的特征,眉角的痣和裙子、披肩長發(fā)的組合是她特有的特征,手機(jī)殼和戴帽子這屬于偶然的特征,不能因?yàn)樗龘Q了手機(jī)殼或沒戴帽子就不認(rèn)識(shí)這人了。過擬合在于將偶然的特征也作為識(shí)別身份的標(biāo)志,而欠擬合在于了解的特征的特征不夠多,在機(jī)器學(xué)習(xí)中表示模型的學(xué)習(xí)能力不夠,無法學(xué)到足夠的數(shù)據(jù)特征。

欠擬合的特點(diǎn):訓(xùn)練的損失值很大,且測試的損失值也很大。

過擬合的特點(diǎn):訓(xùn)練的損失值足夠小,而測試的損失值很大。

對于一個(gè)足夠復(fù)雜度或足夠參數(shù)量的模型或神經(jīng)網(wǎng)絡(luò)來說,隨著訓(xùn)練的進(jìn)行,會(huì)經(jīng)歷一個(gè)“欠擬合-適度擬合-過擬合”的過程。

對于一個(gè)復(fù)雜度不夠的模型或參數(shù)量太少的神經(jīng)網(wǎng)絡(luò)來說,只有欠擬合。

欠擬合產(chǎn)生的原因與解決方法

根據(jù)欠擬合的特點(diǎn)來看,產(chǎn)生欠擬合的主要原因有兩個(gè):

1. 模型的容量或復(fù)雜度不夠,對神經(jīng)網(wǎng)絡(luò)來說是參數(shù)量不夠或網(wǎng)絡(luò)太簡單,沒有很好的特征提取能力。通常為了避免模型過擬合,會(huì)添加正則化,當(dāng)正則化懲罰太過,會(huì)導(dǎo)致模型的特征提取能力不足。

2. 訓(xùn)練數(shù)據(jù)量太少或訓(xùn)練迭代次數(shù)太少,導(dǎo)致模型沒有學(xué)到足夠多的特征。

根據(jù)欠擬合產(chǎn)生的原因來分析,解決方法有兩個(gè):

1. 換個(gè)更復(fù)雜的模型,對神經(jīng)網(wǎng)絡(luò)來說,換個(gè)特征提取能力強(qiáng)或參數(shù)量更大的網(wǎng)絡(luò)。或減少正則化的懲罰力度。

2. 增加迭代次數(shù)或想辦法弄到足夠的訓(xùn)練數(shù)據(jù)或想辦法從少量數(shù)據(jù)上學(xué)到足夠的特征。如適度增大epoch,數(shù)據(jù)增強(qiáng),預(yù)訓(xùn)練,遷移學(xué)習(xí),小樣本學(xué)習(xí),無監(jiān)督學(xué)習(xí)等。

過擬合產(chǎn)生的原因與解決方法

根據(jù)過擬合的特點(diǎn)來看,過擬合產(chǎn)生的原因有以下四個(gè):

1. 模型太復(fù)雜,對神經(jīng)網(wǎng)絡(luò)來說,參數(shù)太多或特征提取能力太強(qiáng),模型學(xué)到了一些偶然的特征。

2. 數(shù)據(jù)分布太單一,例如訓(xùn)練用的所有鳥類都在籠子里,模型很容易把籠子當(dāng)成識(shí)別鳥的特征。

3. 數(shù)據(jù)噪聲太大或干擾信息太多,如人臉檢測,訓(xùn)練圖像的分辨率都是幾百乘幾百,而人臉只占了幾十到幾百個(gè)像素,此時(shí)背景太大,背景信息都屬于干擾信息或噪聲。

4. 訓(xùn)練迭代次數(shù)太多,對數(shù)據(jù)反復(fù)地訓(xùn)練也會(huì)讓模型學(xué)到偶然的特征。

根據(jù)過擬合產(chǎn)生的原因來看,解決方法有以下四個(gè):

1. 換一個(gè)復(fù)雜度低一點(diǎn)的模型或正則化,對神經(jīng)網(wǎng)絡(luò)來說,使用參數(shù)量少一點(diǎn)的網(wǎng)絡(luò),或使用正則化。

2. 使用不同分布的數(shù)據(jù)來訓(xùn)練。如數(shù)據(jù)增強(qiáng),預(yù)訓(xùn)練等。

3. 使用圖像裁剪等方法對圖像進(jìn)行預(yù)處理。

4. 及時(shí)地停止訓(xùn)練。如何判斷什么時(shí)候該停止訓(xùn)練?使用K折交叉驗(yàn)證,若訓(xùn)練損失還在減少,而驗(yàn)證損失開始增加,則說明開始出現(xiàn)過擬合。

更多內(nèi)容歡迎關(guān)注公眾號(hào)CV技術(shù)指南,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié),最新技術(shù)跟蹤。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請輸入評(píng)論內(nèi)容...

請輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)