極鏈科技HPAIC人類蛋白質(zhì)圖譜分類挑戰(zhàn)賽金牌經(jīng)驗(yàn)分享
近期,由Kaggle主辦,Leica Microsystems和NVIDIA贊助的HPAIC(Human Protein Atlas Image Classification)競賽正式結(jié)束。比賽為期三個月,共有來自全球的2236個隊(duì)伍參加,極鏈AI研究院與工程院最終獲得挑戰(zhàn)賽金牌。
比賽介紹
蛋白質(zhì)是人體細(xì)胞中的“行動者”,執(zhí)行許多共同促進(jìn)生命的功能。蛋白質(zhì)的分類僅限于一種或幾種細(xì)胞類型中的單一模式,但是為了完全理解人類細(xì)胞的復(fù)雜性,模型必須在一系列不同的人類細(xì)胞中對混合模式進(jìn)行分類。
可視化細(xì)胞中蛋白質(zhì)的圖像通常用于生物醫(yī)學(xué)研究,這些細(xì)胞可以成為下一個醫(yī)學(xué)突破的關(guān)鍵。然而,由于高通量顯微鏡的進(jìn)步,這些圖像的生成速度遠(yuǎn)遠(yuǎn)超過人工評估的速度。因此,對于自動化生物醫(yī)學(xué)圖像分析以加速對人類細(xì)胞和疾病的理解,需要比以往更大的需求。
雖然這是生物學(xué)方面的競賽,但是其本質(zhì)是機(jī)器視覺方向的圖像多標(biāo)簽分類問題,參賽隊(duì)伍也包括許多機(jī)器視覺和機(jī)器學(xué)習(xí)領(lǐng)域的競賽專家。
數(shù)據(jù)分析
官方給我們提供了兩種類型的數(shù)據(jù)集,一部分是512x512的png圖像,一部分是2048x2048或3072x3072的TIFF圖像,數(shù)據(jù)集大概 268G, 其中訓(xùn)練集:31072 x 4張,測試集:11702 x 4張。
一個蛋白質(zhì)圖譜由4種染色方式組成(red,green,blue,yellow),圖像示例如下:
我們將4個通道合并成3通道(RYB)可視化的圖像如下所示:
在本次競賽中一共有28個類別,比如 Nucleoplasm、Nuclear membrane等,每個圖譜圖像都可以有一個或者多個標(biāo)簽。標(biāo)簽數(shù)量統(tǒng)計(jì)如下:
可以發(fā)現(xiàn)標(biāo)簽數(shù)量集中在1-3個,但是仍然會有圖像有5個標(biāo)簽,給比賽增加了一定的難度。
另一方面的難點(diǎn)是數(shù)據(jù)集中樣本數(shù)量很不均勻,圖像最多的類別有12885張,而圖像最少的類別只有11張圖像,這給競賽造成很大的困難,樣本數(shù)量分布情況可以在圖中看出。
在比賽過程中逐步有參賽者發(fā)現(xiàn)官方的額外數(shù)據(jù)集HPAv18,并得到官方授權(quán),這些數(shù)據(jù)集有105678張,很大程度的擴(kuò)大了樣本數(shù)量,同時給我們提供了很大的幫助。
環(huán)境資源
硬件方面我們使用了4塊NVIDIA TESLA P100顯卡,使用pytorch作為我們的模型訓(xùn)練框架。
圖像預(yù)處理
HPAv18 圖像與官方給出的圖像有一定的差別,雖然也是由4中染色方式組成,但是每個染色圖像是一個RGB圖像,而不是官方的單通道圖像,而且RGB三個通道的值差別較大,我們對這些圖像做了預(yù)處理,對每個RGB圖像只取一個通道(r_out=r,g_out=g,b_out=b,y_out=b),并將這些圖像縮放到512x512和1024x1024兩種尺度。
對于TIFF文件,我們用了一周的時間把這個數(shù)據(jù)集下載下來,然后將所有圖像縮放到1024x1024。
數(shù)據(jù)增廣
我們比賽中使用的增廣方式有Rotation, Flip 和 Shear三種;因?yàn)槲覀儾恢酪粡垐D像中的多個細(xì)胞之間是否有關(guān)聯(lián)關(guān)系,所以比賽中沒有使用隨機(jī)裁剪的增廣方式。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局