精品2022露脸国产偷人在视频,黑人巨大XX00,男警察被男人肉粗暴进入

<center id="25li5"></center>

<style id="25li5"></style>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

醫(yī)學(xué)數(shù)據(jù)集訓(xùn)練算法期間面臨的問題及解決方案

2020-09-10 17:47

磐創(chuàng)AI

在醫(yī)學(xué)數(shù)據(jù)集的訓(xùn)練算法期間面臨的許多問題中，以下三個(gè)是最常見：類別不均衡多任務(wù)數(shù)據(jù)集大小對(duì)于這些問題，本文將分享一些解決的方法。類別不均衡挑戰(zhàn)在現(xiàn)實(shí)世界中，我們看到的健康人遠(yuǎn)遠(yuǎn)比患病的人要多得多，這也反映了在醫(yī)學(xué)數(shù)據(jù)集中，健康和患病類別的樣本數(shù)量是不平均。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集中，你可能會(huì)看到正樣本的數(shù)量是負(fù)樣本的一百倍。所以模型訓(xùn)練的結(jié)果往往被誤認(rèn)為是表現(xiàn)出色的，然而實(shí)際上卻并非如此。如果使用accuracy＿score準(zhǔn)確度這樣的簡(jiǎn)單度量，就會(huì)發(fā)生這種情況。準(zhǔn)確度對(duì)于這類數(shù)據(jù)集來說不是一個(gè)很好的度量標(biāo)準(zhǔn)，因?yàn)闃?biāo)簽嚴(yán)重傾斜，所以一個(gè)只輸出正常標(biāo)簽的神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率甚至還能略高于90％。

解決方案：終上所述，我們可以定義更有用的指標(biāo)，例如F1度量或＂精確度／召回率＂。精確度定義為＂真正例個(gè)數(shù)／（真正例個(gè)數(shù)＋假正例個(gè)數(shù)）＂，在假正例很多的情況下，這是一個(gè)很好的度量；另一方面，召回率定義為＂真正例個(gè)數(shù)／（真正例個(gè)數(shù)＋假反例個(gè)數(shù)）＂，在假反例本很多的情況下，這是一個(gè)很好的度量。醫(yī)療領(lǐng)域的大多數(shù)模型是這種情況，但是我們也經(jīng)常需要同時(shí)考慮假正例個(gè)數(shù)和假反例個(gè)數(shù)，這就是F1度量的功能，它在精確度（Precision）和召回率（Recall）之間取得均衡，由公式2 ＊（（Precision＊Recall）／（Precision＋Recall））給出。處理類不均衡的另一種流行技術(shù)是＂重采樣＂，這是從多數(shù)類（樣本過多的那一類）中刪除樣本（稱為欠采樣）或在少數(shù)類中添加樣本（稱為過采樣）來在這兩個(gè)類之間取得均衡的行為。盡管它們可以通過使用復(fù)雜的重采樣技術(shù)來解決，但它們具有自己的缺點(diǎn)，如信息丟失和過擬合。多任務(wù)挑戰(zhàn)在現(xiàn)實(shí)世界中，通常僅預(yù)測(cè)健康或患病是不夠的，我們經(jīng)常需要將醫(yī)療數(shù)據(jù)分為多個(gè)類別或標(biāo)簽，例如，僅從心律中檢測(cè)出心律失常并沒有什么市場(chǎng)，對(duì)患者進(jìn)行分析判斷得到哪種心律失常更有價(jià)值，例如病狀可能是房顫，室上性心動(dòng)過速或任何其他類型。從理論上講，可以為需要分類的每個(gè)標(biāo)簽訓(xùn)練單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型，但是這對(duì)于寫代碼來說是非常不切實(shí)際的，如果我們可以將所有這些分類模型組合到一個(gè)返回多個(gè)預(yù)測(cè)的單個(gè)深度神經(jīng)網(wǎng)絡(luò)中，就比較有價(jià)值。

解決方案：我們可以使用一種稱為＂多類別分類＂或＂多標(biāo)簽分類＂的方法來應(yīng)對(duì)這一挑戰(zhàn)。這兩種方法略有不同，在多類別中，數(shù)據(jù)樣本的類別是互斥的，而在多標(biāo)簽中，數(shù)據(jù)樣本可以屬于多個(gè)類別。在醫(yī)學(xué)領(lǐng)域，我們通常使用多標(biāo)簽分類，因?yàn)槿绻颊弑辉\斷為肺不張（肺的膨脹不全），則并不意味著他／她就不會(huì)有心臟肥大。我們將模型最后一層的分?jǐn)?shù)再傳遞給Sigmoid激活函數(shù)，這會(huì)把最后一層的每個(gè)分?jǐn)?shù)轉(zhuǎn)換為0到1之間的值，而與其他分?jǐn)?shù)無關(guān)。對(duì)于多標(biāo)簽分類，我們選擇的損失函數(shù)變?yōu)閎inary＿crossentropy，其中由于我們使用了Sigmoid激活函數(shù)，因此每個(gè)標(biāo)簽都被視為獨(dú)立的伯努利分布。在需要多類的情況下，可以用損失函數(shù)設(shè)置為categorical＿crossentropy的softmax激活函數(shù)來替換Sigmoid激活函數(shù)。數(shù)據(jù)集大小挑戰(zhàn)另外一個(gè)處理醫(yī)學(xué)數(shù)據(jù)集的挑戰(zhàn)為數(shù)據(jù)集的大小。大型訓(xùn)練數(shù)據(jù)集除了具有良好的體系結(jié)構(gòu)外，還對(duì)模型的性能起著重要的作用，但可用于疾病的患者數(shù)據(jù)數(shù)量往往不夠。低數(shù)據(jù)集大小會(huì)導(dǎo)致高偏差和高方差，這些原因?qū)е履Ｐ偷耐茝V和優(yōu)化困難。

解決方案：為了解決模型優(yōu)化的困難，我們可以使用一種稱為＂遷移學(xué)習(xí)＂的方法，其中我們使用從相關(guān)網(wǎng)絡(luò)較低層中學(xué)習(xí)來訓(xùn)練較高層，而無需它們從頭開始學(xué)習(xí)。由于先前的訓(xùn)練，較低的圖層可以用作良好的特征提取器，因此我們可以根據(jù)數(shù)據(jù)集對(duì)其進(jìn)行微調(diào)，該技術(shù)優(yōu)化速度更快，并減少了訓(xùn)練新模型所需的數(shù)據(jù)量。為了解決模型泛化的困難，我們可以使用一種稱為＂數(shù)據(jù)增強(qiáng)＂的技術(shù)，將數(shù)據(jù)提供給模型之前，可以對(duì)樣本進(jìn)行一些隨機(jī)轉(zhuǎn)換，這樣我們可以使模型對(duì)于大小或亮度等微小變化保持不變。諸如水平或垂直翻轉(zhuǎn)圖像，更改圖像的亮度或?qū)Ρ榷龋瑢D像旋轉(zhuǎn)或縮放到一定程度之類的做法都有助于數(shù)據(jù)擴(kuò)充。此技術(shù)在小型數(shù)據(jù)集中避免過度擬合非常有用。

☆ END ☆

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<del id="gvv5n"></del>
<ruby id="gvv5n"><ul id="gvv5n"></ul></ruby>

<style id="gvv5n"></style>

<style id="gvv5n"></style>