自動(dòng)機(jī)器學(xué)習(xí)簡(jiǎn)述
目錄:
一、為什么需要自動(dòng)機(jī)器學(xué)習(xí)
二、超參數(shù)優(yōu)化 Hyper-parameter Optimization
三、元學(xué)習(xí) Meta Learning
四、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索 Neural Architecture Search
五、自動(dòng)化特征工程
六、其它自動(dòng)機(jī)器學(xué)習(xí)工具集
一、為什么需要自動(dòng)機(jī)器學(xué)習(xí)
對(duì)于機(jī)器學(xué)習(xí)的新用戶而言,使用機(jī)器學(xué)習(xí)算法的一個(gè)主要的障礙就是算法的性能受許多的設(shè)計(jì)決策影響。隨著深度學(xué)習(xí)的流行,工程師需要選擇相應(yīng)的神經(jīng)網(wǎng)絡(luò)架構(gòu),訓(xùn)練過(guò)程,正則化方法,超參數(shù)等等,所有的這些都對(duì)算法的性能有很大的影響。于是深度學(xué)習(xí)工程師也被戲稱為調(diào)參工程師。
自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的目標(biāo)就是使用自動(dòng)化的數(shù)據(jù)驅(qū)動(dòng)方式來(lái)做出上述的決策。用戶只要提供數(shù)據(jù),自動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)自動(dòng)的決定最佳的方案。領(lǐng)域?qū)<也辉傩枰鄲烙趯W(xué)習(xí)各種機(jī)器學(xué)習(xí)的算法。
自動(dòng)機(jī)器學(xué)習(xí)不光包括大家熟知的算法選擇,超參數(shù)優(yōu)化,和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,還覆蓋機(jī)器學(xué)習(xí)工作流的每一步:
自動(dòng)準(zhǔn)備數(shù)據(jù)
自動(dòng)特征選擇
自動(dòng)選擇算法
超參數(shù)優(yōu)化
自動(dòng)流水線/工作流構(gòu)建
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索
自動(dòng)模型選擇和集成學(xué)習(xí)
二、超參數(shù)優(yōu)化
Hyper-parameter Optimization
學(xué)習(xí)器模型中一般有兩類參數(shù),一類是可以從數(shù)據(jù)中學(xué)習(xí)估計(jì)得到,還有一類參數(shù)時(shí)無(wú)法從數(shù)據(jù)中估計(jì),只能靠人的經(jīng)驗(yàn)進(jìn)行設(shè)計(jì)指定,后者成為超參數(shù)。比如,支持向量機(jī)里面的C Kernal Gamma;樸素貝葉斯里面的alpha等。
超參數(shù)優(yōu)化有很多方法:
最常見(jiàn)的類型是黑盒優(yōu)化 (black-box function optimization)。所謂黑盒優(yōu)化,就是將決策網(wǎng)絡(luò)當(dāng)作是一個(gè)黑盒來(lái)進(jìn)行優(yōu)化,僅關(guān)心輸入和輸出,而忽略其內(nèi)部機(jī)制。決策網(wǎng)絡(luò)通常是可以參數(shù)化的,這時(shí)候我們進(jìn)行優(yōu)化首先要考慮的是收斂性。
以下的幾類方法都是屬于黑盒優(yōu)化:
網(wǎng)格搜索 (grid search)
Grid search大家都應(yīng)該比較熟悉,是一種通過(guò)遍歷給定的參數(shù)組合來(lái)優(yōu)化模型表現(xiàn)的方法。網(wǎng)格搜索的問(wèn)題是很容易發(fā)生維度災(zāi)難,優(yōu)點(diǎn)是很容易并行。
隨機(jī)搜索 (random search)
隨機(jī)搜索是利用隨機(jī)數(shù)求極小點(diǎn)而求得函數(shù)近似的最優(yōu)解的方法。
很多時(shí)候,隨機(jī)搜索比網(wǎng)格搜索效果要更好,但是我們可以從上圖看出,它們都不能保證找到最優(yōu)解。
貝葉斯優(yōu)化
貝葉斯優(yōu)化是一種迭代的優(yōu)化算法,包含兩個(gè)主要的元素,輸入數(shù)據(jù)假設(shè)的模型和一個(gè)采集函數(shù)用來(lái)來(lái)決定下一步要評(píng)估哪一個(gè)點(diǎn)。每一步迭代,都使用所有的觀測(cè)數(shù)據(jù)fit模型,然后利用激活函數(shù)預(yù)測(cè)模型的概率分布,決定如何利用參數(shù)點(diǎn),權(quán)衡是Explaoration還是Exploitation。相對(duì)于其它的黑盒優(yōu)化算法,激活函數(shù)的計(jì)算量要少很多,這也是為什么貝葉斯優(yōu)化被認(rèn)為是更好的超參數(shù)調(diào)優(yōu)的算法。
黑盒優(yōu)化的一些工具:
hyperopt
hyperopt 是一個(gè)Python庫(kù),可以用來(lái)尋找實(shí)數(shù),離散值,條件維度等搜索空間的最佳值
Google Vizier
Google的內(nèi)部的機(jī)器學(xué)習(xí)系統(tǒng) Google Vizier能夠利用遷移學(xué)習(xí)等技術(shù)自動(dòng)優(yōu)化其他機(jī)器學(xué)習(xí)系統(tǒng)的超參數(shù)
advisor
Google Vizier的開源實(shí)現(xiàn)
katib
基于Kubernetes的超參數(shù)優(yōu)化工具
由于優(yōu)化目標(biāo)具有不連續(xù)、不可導(dǎo)等數(shù)學(xué)性質(zhì),所以一些搜索和非梯度優(yōu)化算法被用來(lái)求解該問(wèn)題,包括我們上面提到的這些黑盒算法。此類算法通過(guò)采樣和對(duì)采樣的評(píng)價(jià)進(jìn)行搜索,往往需要大量對(duì)采樣的評(píng)價(jià)才能獲得比較好的結(jié)果。然而,在自動(dòng)機(jī)器學(xué)習(xí)任務(wù)中評(píng)價(jià)往往通過(guò) k 折交叉驗(yàn)證獲得,在大數(shù)據(jù)集的機(jī)器學(xué)習(xí)任務(wù)上,獲得一個(gè)評(píng)價(jià)的時(shí)間代價(jià)巨大。這也影響了優(yōu)化算法在自動(dòng)機(jī)器學(xué)習(xí)問(wèn)題上的效果。所以一些減少評(píng)價(jià)代價(jià)的方法被提出來(lái),其中多保真度優(yōu)化(multi-fidelity methods)就是其中的一種。這里的技術(shù)包括:基于學(xué)習(xí)曲線來(lái)決定是否要提前終止訓(xùn)練,探索-利用困境(exploration exploitation)的多臂老虎機(jī)算法 (Multi-armed bandit)等等。
另外還有一些研究是基于梯度下降的優(yōu)化。
超參數(shù)優(yōu)化面臨許多挑戰(zhàn):
對(duì)于大規(guī)模的模型或者復(fù)雜的機(jī)器學(xué)習(xí)流水線而言,需要評(píng)估的空間規(guī)模非常大
配置空間很復(fù)雜
無(wú)法或者很難利用損失函數(shù)的梯度變化
訓(xùn)練集合的規(guī)模太小
很容易過(guò)擬合

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?