大數據在癌癥研究中的應用現狀和未來挑戰(zhàn)
前言
癌癥是一種非常復雜的疾病,其進展涉及患者體內的多種生物進程。因此,癌癥研究產生了大量的分子和表型數據,在高通量技術突破的推動下,組學數據的快速積累產生了癌癥“大數據”的概念。其定義為具有兩個基本屬性的數據集:首先,它包含豐富的信息;其次,它的分析需要大量的計算資源,并可能為基本問題帶來新的見解。
大數據并非癌癥領域獨有,在許多科學學科中發(fā)揮著重要作用。然而,癌癥領域的數據集在幾個關鍵方面不同于其他領域。首先,癌癥數據集的大小通常明顯更小。其次,癌癥研究數據通常是異構的,可能包含許多測量細胞系統(tǒng)和生物過程不同方面的維度。由于每種模式的數據量相對有限,而且它們之間存在高度的異質性,因此需要開發(fā)創(chuàng)新的計算方法來整合不同維度和隊列的數據。
隨著數據的不斷積累和技術進步,大數據、生物信息學和人工智能的結合將使我們對癌癥生物學的基本理解和臨床轉化發(fā)生顯著進步。這需要科學家、臨床醫(yī)生、生物學家和決策者的共同努力。
通用數據類型
癌癥研究中有五種基本數據類型:分子組學數據、擾動表型數據、分子相互作用數據、成像數據和文本數據。分子組學數據描述細胞系統(tǒng)和組織樣本中分子的豐度或狀態(tài)。這些數據是癌癥研究中從患者或臨床前樣本中產生的最豐富的類型,包括關于DNA突變(基因組學)、染色質或DNA狀態(tài)(表觀基因組學)、蛋白質豐度(蛋白質組學)、轉錄物豐度(轉錄組學)和代謝物豐度的信息。
擾動表型數據描述了細胞表型(如細胞增殖或標記蛋白豐度)在基因水平抑制、擴增或藥物治療后如何改變。常見的表型實驗包括使用CRISPR敲除、干擾或激活的擾動篩選;RNA干擾;開放閱讀框的過度表達;或用藥物文庫處理。
分子相互作用數據描述了分子與其它不同分子相互作用的潛在功能。常見的分子相互作用數據類型包括蛋白質-DNA相互作用、蛋白質-RNA相互作用、蛋白質-蛋白質相互作用和3D染色體相互作用。與擾動表型數據類似,分子相互作用數據集通常使用細胞系生成,因為它們的生成需要大量的材料,這些材料通常超過從臨床樣品中獲得的材料。
此外,臨床數據如健康記錄、組織病理學圖像和放射學圖像也具有相當大的價值。
數據存儲和分析平臺
癌癥研究的關鍵數據資源,可以分為三類。第一類包括來自系統(tǒng)生成數據項目的資源,例如TCGA生成了10000多個癌癥基因組的轉錄組學、蛋白質組學、基因組學和表觀基因組學數據,并匹配了33種癌癥類型的正常樣本。第二類描述了展示來自上述項目的已處理數據的存儲庫,如基因組數據共享區(qū),它托管TCGA數據供下載。第三類包括Web應用程序,這些應用程序系統(tǒng)地集成了不同項目的數據,并提供交互式分析模塊。例如,TIDE框架系統(tǒng)地收集了來自免疫腫瘤學研究的公共數據,并提供了互動模塊,以研究腫瘤免疫逃逸和免疫治療反應的途徑和調節(jié)機制。
大數據在癌癥基礎研究中的應用
目前,癌癥研究的數據規(guī)模仍遠遠落后于計算機的其他領域?珀犃芯酆虾涂缒B(tài)集成可顯著增強大數據分析的穩(wěn)健性和深度。
跨隊列數據聚合
整合來自多個中心或研究的數據集可以獲得更穩(wěn)健的結果和潛在的新發(fā)現,特別是在個別數據集有噪聲、不完整或帶有某些人為因素的情況下?珀犃袛祿酆系囊粋里程碑是發(fā)現TMPRSS2–ERG融合和TMPRSS2-ETV1融合是前列腺癌的致癌驅動因素。通過對代表10486個微陣列實驗的132個基因表達數據集的分析,首先確定ERG和ETV1在六個獨立的前列腺癌隊列內是高表達基因,進一步的研究確定它們與TMPRSS2的融合是ERG和ET V1過度表達的原因。另一個例子是對許多臨床數據集的腫瘤免疫逃逸的綜合研究,該研究表明SERPINB9表達與腫瘤內T細胞功能障礙和對免疫檢查點阻斷的抵抗相關。進一步研究發(fā)現,SERPINB9激活是癌細胞和免疫抑制細胞對免疫檢查點阻斷產生抵抗的機制。
跨模態(tài)數據集成
不同數據類型的跨模態(tài)集成是一種有希望和有成效的方法,可以最大化從數據中獲得的信息,因為每個數據類型中嵌入的信息通常是協同和互補的?缒B(tài)數據集成的例子包括TCGA等項目,該項目提供基因組學、轉錄組學、同一組腫瘤的表觀基因組學和蛋白質組學數據?缒B(tài)整合帶來了許多關于癌癥進展相關因素的新見解。例如,EGFR信號通路中蛋白質的磷酸化狀態(tài)與頭頸癌中編碼EGFR配體的基因的高表達相關,而與受體的表達和磷酸化水平無關,這表明患者應根據配體豐度而不是受體狀態(tài)分層接受抗EGFR治療。
利用現有數據的知識轉化
此外,可以利用現有數據進行新的發(fā)現。例如,細胞分數去卷積技術可以推斷出腫瘤轉錄組學中單個細胞類型的組成。這些方法通常從許多現有數據集中收集不同細胞類型的基因表達譜,并進行回歸或特征富集分析,以在體腫瘤表達譜中分析細胞片段或譜系的特異性表達。
數據轉化還可以幫助開發(fā)新的實驗測試。例如,現有腫瘤全外顯子組測序數據用于優(yōu)化循環(huán)腫瘤DNA測定,通過最大化每個患者檢測到的改變數量,同時最小化基因和區(qū)域選擇大小。通過檢測從多個腫瘤區(qū)域或不同腫瘤部位釋放的DNA的變化,由此產生的循環(huán)腫瘤DNA測定可提供治療抗性和癌癥復發(fā)和轉移的綜合視圖。
大數據在臨床轉化研究中的應用
許多臨床診斷和決定,如組織病理學解釋,本質上是主觀的,依賴于醫(yī)生的經驗或標準化診斷術語和分類法的可用性。這些主觀因素可能會導致解釋錯誤和診斷差異,大數據方法可以提供系統(tǒng)和客觀的補充選項,以指導診斷和臨床決策。
從數據隊列中分析診斷生物標志物
從大數據中分析診斷生物標志物,一些早期例子包括雌激素受體(ER)或孕激素受體(PR)陽性乳腺癌患者的預后分析,如Oncotype DX、MammaPrint、EndoPredict和Prosigna。這些測試特別有用,因為單獨的輔助內分泌治療可以為ER/PR陽性、HER2陰性的早期乳腺癌患者帶來足夠的臨床益處。分層為低風險的患者可以避免不必要的額外化療。其他癌癥類型的預測因子包括結腸癌和前列腺癌的Oncotype DX和早期肺癌的Pervenio。
分子數據指導的臨床試驗
全基因組和多模式數據已開始在前瞻性多組臨床試驗中起到匹配患者的作用,特別是那些研究精準治療的試驗。例如,WINTHER試驗根據來自實體腫瘤活檢的DNA測序或RNA表達數據,前瞻性匹配晚期癌癥患者接受治療。WINTHER研究得出結論,這兩種數據類型對于改善治療和患者預后都很有價值。
其他類似的試驗也已經證明,基于全基因組基因組學或轉錄組學數據匹配患者使用靶向治療的效用。在這些研究中,接受組學數據匹配治療的入選患者比例從19%到37%,在這些匹配的患者中,約三分之一的患者表現出顯著的臨床益處。
隨著這些初步的成功,新興的臨床研究旨在收集大量樣本序列之外的額外數據,如各種藥物治療后的腫瘤細胞死亡反應或患者樣本中收集的scRNA序列數據,以研究治療反應和耐藥性機制?梢灶A期,新的數據模式和分析將為臨床試驗設計提供新的方法。
用于癌癥診斷的人工智能
目前,很多臨床診斷中的數據類型,如成像數據或文本報告,可能無法與樣本之間直接對接。基于深度神經網絡的人工智能方法是一種新興的方法,可以將這些數據類型集成到臨床應用中。
人工智能在分析成像數據方面最常用的應用包括臨床結果預測和腫瘤檢測,以及根據HE染色的組織進行分級。2021 9月,FDA批準使用人工智能軟件Paige Prostate來協助病理學家從前列腺穿刺的活檢樣本中檢測癌癥區(qū)域。這一批準反映了組織病理學圖像上人工智能應用的加速勢頭。
除了組織病理學,放射學是人工智能成像分析的另一個應用。使用3D計算機斷層掃描的深度卷積神經網絡已顯示出預測肺癌風險的準確性與經驗豐富的放射科醫(yī)生的預測相當,卷積神經網絡可以使用計算機斷層掃描數據對肺癌患者的生存期進行分層,并強調腫瘤周圍組織在風險分層中的重要性。
人工智能也開始在分析電子健康記錄方面發(fā)揮重要作用。除圖像和健康記錄外,在其他數據類型上訓練的人工智能也具有廣泛的臨床應用,如通過液體活組織檢查捕獲無細胞DNA或T細胞受體序列進行早期癌癥檢測,或基于基因組學的癌癥風險預測。
大數據分析輔助新療法開發(fā)
開發(fā)新藥成本高、周期長且失敗率高。新療法的開發(fā)是大數據應用的一個有前景的方向。一些大數據驅動的臨床前研究已經吸引了制藥行業(yè)的注意,可能很快對臨床做出重大貢獻。
大數據已被用于幫助現有藥物的再利用,以治療新疾病和設計協同組合。此外,最近的研究結合藥理學數據和人工智能已用于設計新藥;诂F有DDR1抑制劑和化合物文庫的信息,使用深度生成模型設計抑制受體酪氨酸激酶DDR1的新分子,主要候選物在小鼠中顯示出有利的藥代動力學特征。
AI還可用于目標蛋白質結構上生物活性配體的虛擬篩選。卷積神經網絡可以全面整合來自先前虛擬篩選研究的訓練數據,以優(yōu)于基于最小化經驗分數的對接方法。系統(tǒng)評估顯示,使用由分子描述和藥物生物活性組成的大型多樣數據集訓練的深度神經網絡比其他方法更好地預測了測試分子的活性。
挑戰(zhàn)與未來展望
盡管基于大數據的進步令人鼓舞,但在癌癥研究和臨床中的大數據應用方面仍存在相當大的挑戰(zhàn)。組學數據通常存在隊列間的測量不一致、顯著的批次效應和對特定實驗平臺的依賴性。這種缺乏一致性是臨床轉化的主要障礙。關于腫瘤組學數據的測量和標準化的共識對于每種數據類型都至關重要。除了這些技術挑戰(zhàn)之外,還存在結構性和社會挑戰(zhàn),可能阻礙整個癌癥數據科學領域的進步。
不理想的數據可用性
癌癥數據科學的一個關鍵挑戰(zhàn)是數據和代碼的可用性不足。最近的一項研究發(fā)現,生物醫(yī)學領域基于機器學習的研究在公共數據和源代碼可用性方面與其他領域的研究相比較差。有時,即使在安全和隱私問題得到解決的情況下,也無法提供或完成與公布的癌癥基因組學數據相關的臨床信息。這個瓶頸的一個可能原因與數據發(fā)布策略和數據管理成本有關。
數據規(guī)模差距
可用于癌癥治療的數據集大幅小于其他領域的數據集。造成這種差距的一個原因是,醫(yī)學數據的生成依賴于受過專業(yè)培訓的科學家。為了縮小數據規(guī)模差距,將需要更多的投資來自動生成某些類型的注釋醫(yī)療數據和患者組學數據。罕見癌癥尤其缺乏臨床前模型、臨床樣本和專用資金。此外,生物醫(yī)學數據的可用性通常受到人群遺傳背景的限制。例如,東亞、歐洲和美國人群中可作用突變的頻率可能不同。
數據規(guī)模差距的另一個原因是癌癥臨床和生物學研究缺乏數據生成標準。例如,大多數臨床試驗尚未收集患者的組學數據。隨著測序成本的下降,臨床試驗中組學數據的收集應顯著擴大,并可能成為強制性標準要求。
小結
數據科學和人工智能正在通過各種各樣的應用改變我們的世界。目前,我們已經有了可用的腫瘤數據,通過跨模式整合、跨隊列聚合和數據轉化,促進了癌癥的生物醫(yī)學突破,并且在生成和分析此類數據方面取得了非凡的進展。然而,大數據在該領域的狀態(tài)是相當復雜的,我們應該承認癌癥的“大數據”還沒有那么大。全球癌癥研究未來在擴大癌癥數據集方面的投入將至關重要,這將有助于更好的推動大數據在基礎研究、癌癥診斷和新療法開發(fā)的應用。
參考文獻:
1.Big data in basic and translational cancerresearch. Nat Rev Cancer.2022 Sep 5 : 1–15.
原文標題 : 大數據在癌癥研究中的應用現狀和未來挑戰(zhàn)

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?