極道:探尋生命科學(xué)領(lǐng)域數(shù)據(jù)“多樣化”的解決之道
近年來生命科學(xué)領(lǐng)域的數(shù)據(jù)量呈爆炸式增長的趨勢,包括基因測序、臨床檢測、冷凍電鏡、腦科學(xué)等。數(shù)據(jù)的爆發(fā)增長導(dǎo)致了數(shù)據(jù)和數(shù)據(jù)分析方式呈現(xiàn)出多樣化的特征,而這些“多樣化”特征是多個層次的,如何解讀生命科學(xué)領(lǐng)域數(shù)據(jù)多樣化帶來的一系列挑戰(zhàn),成為了業(yè)內(nèi)及數(shù)據(jù)系統(tǒng)公司需要解決的一大難題。
數(shù)據(jù)類型的“多樣化”
第一個層次的“多樣化”是數(shù)據(jù)類型的多樣化。
這包括動植物基因組學(xué)數(shù)據(jù)、醫(yī)學(xué)臨床數(shù)據(jù)、結(jié)構(gòu)生物學(xué)研究中冷凍電鏡產(chǎn)生的蛋白和大分子結(jié)構(gòu)數(shù)據(jù),甚至還包括由3D基因組學(xué)發(fā)展而來的3維基因空間結(jié)構(gòu)數(shù)據(jù)。多樣化的數(shù)據(jù)類型,讓能夠觀察到和分析出來的數(shù)據(jù)特征越來越多樣化。
除了門、綱、目、科、屬、種、變異、突變、臨床表征等,越來越多維度的數(shù)據(jù)特征進(jìn)入了生命科學(xué)研究工作者的視野中。如何從多樣化的數(shù)據(jù)特征中發(fā)現(xiàn)數(shù)據(jù)、利用數(shù)據(jù)特征生成多維度數(shù)據(jù)集合,對數(shù)據(jù)的管理提出了相當(dāng)高的要求。
非結(jié)構(gòu)化數(shù)據(jù)的“非結(jié)構(gòu)”特性本身造成了管理上的困難,同時海量數(shù)據(jù)的特征越來越豐富,數(shù)十億級別的數(shù)據(jù)加上每個數(shù)據(jù)都可能有多個不同強(qiáng)關(guān)聯(lián)的特征,而利用關(guān)系型數(shù)據(jù)庫加數(shù)據(jù)路徑實(shí)現(xiàn)的傳統(tǒng)LIMS系統(tǒng)來進(jìn)行數(shù)據(jù)管理的方式,其擴(kuò)展性差、海量數(shù)據(jù)強(qiáng)關(guān)聯(lián)搜索效率極低并且難以分析的弱點(diǎn)也逐漸被暴露出來。
針對這一現(xiàn)象,極道的新型數(shù)據(jù)管理系統(tǒng)能夠利用分布式圖技術(shù)對數(shù)據(jù)進(jìn)行大規(guī)模強(qiáng)關(guān)聯(lián)實(shí)時數(shù)據(jù)特征管理,解決生命科學(xué)領(lǐng)域用戶的多樣化數(shù)據(jù)特征的痛點(diǎn),有序管理、快速搜索、生成多維度數(shù)據(jù)視圖。
數(shù)據(jù)計算模式的“多樣化”
第二個層次的“多樣化”是數(shù)據(jù)計算模式的多樣化。
傳統(tǒng)的生命科學(xué)領(lǐng)域無論是基因測序還是冷凍電鏡數(shù)據(jù),通常采用的是批量計算或者高性能計算的工具和算法。但是隨著計算技術(shù)的發(fā)展,計算模式的不斷進(jìn)步,更多新型方法實(shí)現(xiàn)的算法和工具加入到生命科學(xué)相關(guān)領(lǐng)域的研究和生產(chǎn)中。比如測序領(lǐng)域的GATK4spark和一些其他的基于大數(shù)據(jù)MapReduce技術(shù)實(shí)現(xiàn)的算法工具誕生,導(dǎo)致生命科學(xué)用戶傳統(tǒng)的單一HPC集群已不能滿足計算的需要。而近兩年AI技術(shù)的興起,Google的DeepVariant、Nvidia的Clara等基于人工智能的生物醫(yī)學(xué)平臺帶來了更多新型分析生物數(shù)據(jù)的工具和算法,各種異構(gòu)的計算模式也給生物數(shù)據(jù)處理和分析帶來了很大的挑戰(zhàn)。
如何改造傳統(tǒng)的計算基礎(chǔ)架構(gòu)?構(gòu)建和運(yùn)維獨(dú)立割裂的HPC集群、大數(shù)據(jù)集群、AI集群并不是最有效的解決方法。多樣化的計算模式帶來了資源上的壁壘,資源利用率和運(yùn)維的復(fù)雜度也成為了生命科學(xué)研究工作者需要解決的難題,而更為重要的是,新技術(shù)誕生并不能一次性的顛覆所有以前的算法實(shí)現(xiàn)。
因此可以預(yù)見,未來,多樣化模式實(shí)現(xiàn)的算法將會長期共存。一個復(fù)雜的生物數(shù)據(jù)分析流程很可能會同時涉及到批量計算、高性能計算、MapReduce和深度學(xué)習(xí)相關(guān)的各種算法。
在這種情況下極道Achelous計算系統(tǒng)誕生了。Achelous通過共享硬件的一套集群,動態(tài)地構(gòu)建多模式計算框架、利用智能執(zhí)行引擎協(xié)助生命科學(xué)領(lǐng)域用戶構(gòu)建高效率、混合算法的數(shù)據(jù)流程,有效的解決計算的多樣化需求。
計算硬件需求異構(gòu)化
第三個層次的“多樣化”是計算硬件需求的異構(gòu)化。
隨著生命科學(xué)領(lǐng)域計算模式的樣化,計算硬件也在迅速發(fā)展。除CPU以外,GPU、FPGA等稀缺計算資源也加入了進(jìn)來,以滿足復(fù)雜和高速的數(shù)據(jù)分析處理。
解決異構(gòu)計算資源的共享和調(diào)度問題,需要足夠智能的計算平臺。例如GPU如何根據(jù)拓?fù)湔{(diào)度化零為整、如何根據(jù)顯存調(diào)度化整為零?極道的計算系統(tǒng)Achelous能夠面對異構(gòu)硬件平臺,根據(jù)不同稀缺計算資源的特征設(shè)計高級調(diào)度策略,盡可能把稀缺計算資源的利用率發(fā)揮到極致。
多種算法模型共存
第四個層次的“多樣化”是多種算法模型帶來的的多樣化。
在生物信息分析計算過程中,一套系統(tǒng)會同時存在多種算法模型的運(yùn)行實(shí)例,而每個算法的實(shí)現(xiàn)都對數(shù)據(jù)存取有不一樣的要求,有的要求吞吐、有的要求Ops、有的要求元數(shù)據(jù)訪問的延遲,多樣化的IO模式給數(shù)據(jù)存取效率帶來了很大的挑戰(zhàn)。面對這種多樣化的IO存儲模式,存儲需要進(jìn)行相應(yīng)的優(yōu)化和動態(tài)調(diào)整,才能滿足數(shù)據(jù)分析的需要。
比如計算集群登陸節(jié)點(diǎn)交互操作多,要求數(shù)據(jù)和元數(shù)據(jù)的訪問延遲,而計算節(jié)點(diǎn)很可能一段時間內(nèi)是吞吐密集,另一個算法同時需要求高的Ops。解決這種多IO模式共存情況下數(shù)據(jù)存取的效能,需要計算系統(tǒng)和存儲系統(tǒng)的協(xié)同,極道獨(dú)創(chuàng)的“應(yīng)用感知”理論,其目的是要存儲系統(tǒng)通過高級策略根據(jù)應(yīng)用算法多樣化IO模式進(jìn)行實(shí)時調(diào)整,盡可能把存儲的數(shù)據(jù)存取效能在多樣化計算過程中發(fā)揮到極致。
事實(shí)上,生命科學(xué)數(shù)據(jù)所面對的四個層次的“多樣化”,在很多的行業(yè)中都有共性表現(xiàn),面對“多樣化”挑戰(zhàn),需要各種各樣的“門道”。極道有“道”,能夠用產(chǎn)品和優(yōu)勢技術(shù)把所有的“道兒”都發(fā)揮到極致。
這就是極道作為一個數(shù)據(jù)系統(tǒng)公司與傳統(tǒng)的存儲公司、或者IT系統(tǒng)公司的不同之處。極道不僅站在系統(tǒng)公司的角度設(shè)計和研發(fā)產(chǎn)品,更重要的是還能夠深度理解行業(yè)應(yīng)用、根據(jù)行業(yè)用戶的真實(shí)數(shù)據(jù)需要設(shè)計產(chǎn)品,來迎接行業(yè)所面臨的多樣化數(shù)據(jù)挑戰(zhàn)。
目前,極道的數(shù)據(jù)系統(tǒng)產(chǎn)品在國內(nèi)外頂級的基因公司、臨床檢測公司、國家級科研機(jī)構(gòu)、藥物研發(fā)等領(lǐng)域廣泛應(yīng)用,并收獲眾多客戶好評。未來,極道仍將不斷提供創(chuàng)新的技術(shù)與產(chǎn)品,為生物基因技術(shù)的快速發(fā)展發(fā)揮重要作用。
關(guān)于極道
極道,專注于數(shù)據(jù)“存”、“管”、“算”的創(chuàng)新數(shù)據(jù)系統(tǒng)公司,由國內(nèi)頂尖的存儲和數(shù)據(jù)分析專家團(tuán)隊組建。以分布式并行文件存儲、強(qiáng)關(guān)聯(lián)大規(guī)模實(shí)時數(shù)據(jù)管理系統(tǒng),以及集群的調(diào)度系統(tǒng)和執(zhí)行引擎為核心產(chǎn)品,滿足企業(yè)對數(shù)據(jù)處理、分析和建模的多樣化需求,幫助客戶迅速提升IT資源效率,將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為真正的數(shù)據(jù)資產(chǎn)。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
技術(shù)文庫
最新活動更多
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報名參會>>> 全數(shù)會2025中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會
-
精彩回顧立即查看>> 【在線會議】研華嵌入式核心優(yōu)勢,以Edge AI驅(qū)動機(jī)器視覺升級
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 【在線會議】從直流到高頻,材料電特性參數(shù)的全面表征與測量
- 1 2025高端醫(yī)療器械國產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 【洞察】中國第三方質(zhì)控品市場高速增長 進(jìn)口品牌占據(jù)大部分份額
- 3 一季度醫(yī)療儀器及器械進(jìn)出口報告:前十大出口市場在哪?
- 4 不確定的時代,確定的藥明康德
- 5 醫(yī)藥賽道的“新能源戰(zhàn)爭”
- 6 2025年至少拿下352億元營收,百濟(jì)神州“不說大話”
- 7 麥角硫因,誰是盈利最強(qiáng)企業(yè)?
- 8 當(dāng)恒瑞醫(yī)藥BD國內(nèi)權(quán)益
- 9 從“跟隨”邁向“領(lǐng)跑”,中國醫(yī)藥創(chuàng)新進(jìn)展及熱門賽道
- 10 中國創(chuàng)新藥,群星閃耀的時代來了!