中文電子病歷數(shù)據(jù)挖掘標(biāo)準(zhǔn)化時(shí)代,醫(yī)渡云如何搶坐頭把交椅?
近日,為全面實(shí)施健康中國(guó)戰(zhàn)略,落實(shí)《國(guó)務(wù)院辦公廳關(guān)于促進(jìn)“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見(jiàn)》,國(guó)家醫(yī)政醫(yī)管局發(fā)布了《關(guān)于進(jìn)一步推進(jìn)以電子病歷為核心的醫(yī)療機(jī)構(gòu)信息化建設(shè)工作的通知》。
《通知》中提到,要發(fā)揮臨床診療決策支持功能。鼓勵(lì)醫(yī)療機(jī)構(gòu)在電子病歷信息化建設(shè)工作中,將臨床路徑、臨床診療指南、技術(shù)規(guī)范和用藥指南等嵌入信息系統(tǒng),提高臨床診療規(guī)范化水平。并且指出目標(biāo),到2020年,要達(dá)到分級(jí)評(píng)價(jià)4級(jí)以上,即醫(yī)院內(nèi)實(shí)現(xiàn)全院信息共享,并具備醫(yī)療決策支持功能。
要發(fā)展臨床決策,電子病歷的數(shù)字化、智能化成為了必然。其中,為實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化可計(jì)算,可推理,命名實(shí)體識(shí)別(Named Entity Recognition, NER)等自然語(yǔ)言處理任務(wù)的重要性凸顯。
據(jù)悉,電子病歷的NER,是通過(guò)對(duì)既定電子病歷純文本文檔,識(shí)別和抽取出與醫(yī)學(xué)臨床相關(guān)的實(shí)體提及,結(jié)合數(shù)據(jù)源“現(xiàn)病史記錄”的內(nèi)容及特點(diǎn),將它們歸類到預(yù)定義類別。
它不僅是文本挖掘的第一步,還是生物醫(yī)學(xué)領(lǐng)域的重要工具,可被應(yīng)用于諸多方面,如醫(yī)學(xué)文獻(xiàn)、在線醫(yī)療社區(qū)和電子醫(yī)療記錄上。所以構(gòu)建電子病歷NER的公開(kāi)數(shù)據(jù)集,能達(dá)到的效果可謂是“一箭多雕”——有助于使醫(yī)療實(shí)體結(jié)構(gòu)化和標(biāo)準(zhǔn)化,并完成醫(yī)療實(shí)體關(guān)系抽取和醫(yī)療知識(shí)圖譜構(gòu)建等任務(wù)。
國(guó)際上,已有一批面向英文電子病歷的的NER公開(kāi)評(píng)測(cè)及標(biāo)注數(shù)據(jù)集,包括I2b2、ShARe/ CLEF eHealth和SemEval等,但在國(guó)內(nèi),此測(cè)評(píng)尚處空白。
為了促進(jìn)中文電子病歷相關(guān)研究的發(fā)展,填補(bǔ)國(guó)內(nèi)面向電子病歷NER評(píng)測(cè)競(jìng)賽及標(biāo)注數(shù)據(jù)集的空白,醫(yī)渡云聯(lián)合清華大學(xué)知識(shí)工程實(shí)驗(yàn)室和哈爾濱工業(yè)大學(xué),共同組織了“面向中文電子病歷的命名實(shí)體識(shí)別”項(xiàng)目的測(cè)評(píng)。
NER評(píng)測(cè)競(jìng)賽的初衷
據(jù)醫(yī)渡云首席人工智能科學(xué)家閆峻介紹,通常情況下,醫(yī)療數(shù)據(jù)不是醫(yī)院里有了就可以直接用于臨床應(yīng)用。臨床病歷設(shè)計(jì)的初衷是面向記錄,而不是面向研究。換句話講,醫(yī)生會(huì)把臨床的所有的情況原原本本地記錄下來(lái),但卻并沒(méi)有針對(duì)信息做面向研究和應(yīng)用的加工處理。
這樣一來(lái),臨床電子病歷大部分都是自然語(yǔ)言。而這種文本信息放到計(jì)算機(jī)里無(wú)法進(jìn)行任何形式的計(jì)算,所以首先要做的是數(shù)據(jù)結(jié)構(gòu)化。
國(guó)內(nèi)信息化系統(tǒng)廠商繁多,不僅采用的標(biāo)準(zhǔn),且每個(gè)醫(yī)院醫(yī)生的書寫習(xí)慣和表達(dá)習(xí)慣也不同。一些疾病的名稱,醫(yī)院里甚至有上百種表達(dá)方式。所以,要從整段的自然語(yǔ)言文本里提出數(shù)據(jù),如果沒(méi)有技術(shù)支撐,需要巨大的人力投入。
“醫(yī)渡云舉辦‘面向中文電子病歷的命名實(shí)體識(shí)別’項(xiàng)目的測(cè)評(píng),初衷也在于此!遍Z峻說(shuō)。
為了攻克難點(diǎn),醫(yī)渡云首先對(duì)數(shù)據(jù)進(jìn)行了“去粗取精”:一方面,在預(yù)定義類別中直接將本次測(cè)評(píng)的關(guān)鍵點(diǎn)——醫(yī)療實(shí)體提及、起止位置識(shí)別和預(yù)定義類別等三項(xiàng)進(jìn)行梳理,使海量數(shù)據(jù)的“站隊(duì)”有條不紊;另一方面,在細(xì)節(jié)之處“精益求精”,單在預(yù)定義類別中就設(shè)置了五個(gè)方面:獨(dú)立癥狀、癥狀描述、解剖部位、藥物和手術(shù)。具體數(shù)據(jù)信息如下:
為了保障測(cè)評(píng)專業(yè)性和權(quán)威性,醫(yī)渡云在項(xiàng)目的測(cè)評(píng)的數(shù)據(jù)整理和標(biāo)注環(huán)節(jié),還組織專業(yè)的醫(yī)生團(tuán)隊(duì)做后盾。且為了確保數(shù)據(jù)安全,向報(bào)名參賽的118個(gè)隊(duì)伍明確指出,數(shù)據(jù)僅限CCKS 2018 競(jìng)賽評(píng)測(cè)。
為何這樣一項(xiàng)評(píng)測(cè)在我國(guó)要到今天才能展開(kāi)?對(duì)于這一問(wèn)題,醫(yī)渡云人工智能實(shí)驗(yàn)室自然語(yǔ)言處理專家焦增濤也給出了解釋:“這與其中的技術(shù)難點(diǎn)不無(wú)關(guān)系。其難點(diǎn)一般有兩處:一是由于癥狀類型實(shí)體大多表現(xiàn)為結(jié)構(gòu)化形式;二是一些醫(yī)學(xué)術(shù)語(yǔ)特有的表達(dá)方式,使電腦在識(shí)別并讀取中經(jīng)常“卡殼”,這給醫(yī)學(xué)術(shù)語(yǔ)的整理和分門別類,產(chǎn)生了難度!
因此,如果能夠克服上述難點(diǎn),解決當(dāng)前中文電子病歷NER可供使用的公開(kāi)資源匱乏問(wèn)題,其價(jià)值就能得到更大程度的體現(xiàn)。雖然這次評(píng)測(cè)任務(wù)由于醫(yī)療數(shù)據(jù)的敏感性所有數(shù)據(jù)都是專業(yè)醫(yī)生團(tuán)隊(duì)模擬撰寫,但無(wú)論從感觀數(shù)據(jù)仿真度還是統(tǒng)計(jì)學(xué)意義數(shù)據(jù)分布情況均經(jīng)過(guò)嚴(yán)格科學(xué)測(cè)試。
如何形成行業(yè)認(rèn)可的標(biāo)準(zhǔn)?
NER評(píng)測(cè)的背后,反映出醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化的重要性。除了命名問(wèn)題,數(shù)據(jù)的質(zhì)控也同等重要。
在對(duì)醫(yī)院文本進(jìn)行結(jié)構(gòu)化處理的過(guò)程中,醫(yī)渡云發(fā)現(xiàn)醫(yī)療數(shù)據(jù)的質(zhì)量其實(shí)并不高。雖然醫(yī)渡云合作的醫(yī)院都是國(guó)內(nèi)排名前150名的三甲醫(yī)院,但它們的數(shù)據(jù)依然有很多質(zhì)量不達(dá)標(biāo)、不準(zhǔn)確的地方。
為了解決這些問(wèn)題,醫(yī)渡云用三年半的時(shí)間專注開(kāi)發(fā)出一個(gè)整合性極強(qiáng)的“醫(yī)學(xué)數(shù)據(jù)智能平臺(tái)”(DPAP),能把原始零散的不可計(jì)算數(shù)據(jù)變成高質(zhì)量可計(jì)算可應(yīng)用數(shù)據(jù),平臺(tái)上聚集了大量知識(shí)圖譜、300種以上的智能處理模塊以及二十余種專病庫(kù)。
DPAP通過(guò)對(duì)散落的數(shù)據(jù)整合,構(gòu)建患者的時(shí)間軸模塊,以診療事件時(shí)間為主線,完成疾病數(shù)據(jù)建模;從疾病的角度來(lái)看,DPAP還能夠提供疾病數(shù)據(jù)模型。而無(wú)論是疾病數(shù)據(jù)模型,還是患者診療模型,這都是臨床科研、路徑挖掘、療效評(píng)價(jià)、輔助診斷應(yīng)用的基礎(chǔ)。
在此過(guò)程中,醫(yī)渡云還對(duì)整個(gè)數(shù)據(jù)的生產(chǎn)進(jìn)行強(qiáng)力的質(zhì)控,通過(guò)建立醫(yī)學(xué)常識(shí)的知識(shí)庫(kù)和歸一化處理,將醫(yī)院內(nèi)不同的說(shuō)法,映射到同一個(gè)標(biāo)準(zhǔn)。
但問(wèn)題在于,標(biāo)準(zhǔn)如何制定?
現(xiàn)階段,在醫(yī)療行業(yè),包括政府、學(xué)術(shù)、民間和企業(yè)在內(nèi)的各種組織,都在嘗試定義各種標(biāo)準(zhǔn)。但難題在于,標(biāo)準(zhǔn)制定出來(lái)之后,如何讓行業(yè)遵從它。
閆峻表示:“醫(yī)渡云不愿意去等待標(biāo)準(zhǔn)的產(chǎn)生,所以我們與很多的專家、醫(yī)院去嘗試制定數(shù)據(jù)標(biāo)準(zhǔn)。另外,我們覺(jué)得更行之有效的方式是,先不通過(guò)市場(chǎng)去推廣標(biāo)準(zhǔn),而是與上百家三甲醫(yī)院合作,按照每家醫(yī)院自己的習(xí)慣,幫助其數(shù)據(jù)質(zhì)量提升。”
這意味著,不管是哪一家醫(yī)院,用什么樣的標(biāo)準(zhǔn),都會(huì)跟醫(yī)渡云自己的標(biāo)準(zhǔn)形成映射。只要映射關(guān)系存在,醫(yī)渡云就可以實(shí)現(xiàn)臨床多中心的研究,只需在醫(yī)院授權(quán)前提下開(kāi)放一個(gè)接口,所有合作的醫(yī)院都可以在一個(gè)平臺(tái)上協(xié)同合作。
只有把數(shù)據(jù)服務(wù)做好,才有機(jī)會(huì)在潛移默化中形成大家認(rèn)可的標(biāo)準(zhǔn)。
標(biāo)準(zhǔn)的好壞的界定,閆峻認(rèn)為可以從兩個(gè)途徑來(lái)看:一能否真正能帶來(lái)實(shí)際價(jià)值的落地,二是是否有人愿意追隨。醫(yī)渡云希望能夠把自己在科研領(lǐng)域的專業(yè)化產(chǎn)品,不僅為臨床科室賦能,還要推動(dòng)醫(yī)院信息科與臨床之間產(chǎn)生共識(shí)和共鳴。
此外,從人才結(jié)構(gòu)來(lái)看,如果真的想要形成標(biāo)準(zhǔn),閆峻認(rèn)為一定要包含醫(yī)學(xué)專家和計(jì)算機(jī)專家。
以知識(shí)圖譜為例,專家的知識(shí)和經(jīng)驗(yàn),便是知識(shí)圖譜的基礎(chǔ),而數(shù)據(jù)得出的規(guī)律,就是機(jī)器學(xué)習(xí)的范疇,所以兩大學(xué)派的融合,不僅是大數(shù)據(jù)和人工智能企業(yè)追求的人才結(jié)構(gòu)組合,也是最終形成行業(yè)標(biāo)準(zhǔn)的必然融合。
專病數(shù)據(jù)價(jià)值多多
標(biāo)準(zhǔn)化的結(jié)果,是幫助醫(yī)院產(chǎn)生高質(zhì)量的專病數(shù)據(jù),這也是醫(yī)渡云這樣的大數(shù)據(jù)公司的重要價(jià)值體現(xiàn)。在很多的醫(yī)院的專病庫(kù)建設(shè)的過(guò)程中,醫(yī)渡云并不是醫(yī)院提供了數(shù)據(jù),就單只作為數(shù)據(jù)的加工處理方完成交付。
工作中,會(huì)經(jīng)歷很多專病庫(kù)的生產(chǎn),經(jīng)歷多次迭代。醫(yī)渡云先要根據(jù)醫(yī)生對(duì)數(shù)據(jù)的解釋進(jìn)行加工生產(chǎn),回過(guò)頭來(lái),還要把產(chǎn)出的數(shù)據(jù)與醫(yī)生進(jìn)行對(duì)接和修正。高質(zhì)量專病數(shù)據(jù)的生產(chǎn)需要經(jīng)歷非常多道工序!搬t(yī)生對(duì)數(shù)據(jù)有了更深刻的認(rèn)知,企業(yè)也從這個(gè)過(guò)程中學(xué)到很多醫(yī)學(xué)知識(shí),這是一個(gè)共同進(jìn)步的過(guò)程!遍Z峻說(shuō)。
在不少項(xiàng)目中,醫(yī)渡云還要更多做一步。例如某專病庫(kù),在醫(yī)學(xué)學(xué)術(shù)界有著大量的論文文獻(xiàn)。醫(yī)渡云除了評(píng)價(jià)數(shù)據(jù)質(zhì)量、結(jié)構(gòu)化的程度的高低,還要看這份數(shù)據(jù)能否重現(xiàn)之前的一些科研論文,達(dá)到其表述的效果。通過(guò)這樣的方式,醫(yī)渡云來(lái)驗(yàn)證其交付水準(zhǔn)。
醫(yī)渡云的核心:“醫(yī)療大腦”
“這些年,醫(yī)渡云的核心是‘醫(yī)療大腦’的建設(shè),一方面是人工智能技術(shù),另一方面是醫(yī)療知識(shí)圖譜的建設(shè)。人工智能離不開(kāi)真實(shí)世界數(shù)據(jù)和最新的醫(yī)學(xué)論文的研究成果的支持,它們結(jié)合形成的知識(shí)點(diǎn),是構(gòu)建醫(yī)療大腦的關(guān)鍵。”醫(yī)渡云CTO徐濟(jì)銘告訴記者。
據(jù)了解,目前醫(yī)渡云已與700余家醫(yī)療機(jī)構(gòu)建立戰(zhàn)略合作,其中包括全國(guó)top150 中的100家頂級(jí)醫(yī)療機(jī)構(gòu),為醫(yī)院集成融合3億多患者、13億人次的醫(yī)學(xué)數(shù)據(jù)。另外,醫(yī)渡云還建立了近30個(gè)高質(zhì)量專病庫(kù),且每年仍在不斷增加中。
在全國(guó),醫(yī)渡云已與醫(yī)療機(jī)構(gòu)產(chǎn)出近20篇國(guó)內(nèi)/國(guó)際期刊論文。通過(guò)強(qiáng)大的技術(shù)處理數(shù)據(jù),醫(yī)渡云為合作機(jī)構(gòu)提供理論依據(jù),通過(guò)建立標(biāo)準(zhǔn)、整合數(shù)據(jù)、培養(yǎng)醫(yī)學(xué)大腦、提供科研靈感來(lái)輔助臨床診療決策、提高效能。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
ChatZOC,藏在口袋里的「眼科醫(yī)生」
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
技術(shù)文庫(kù)
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺(jué)升級(jí)
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】從直流到高頻,材料電特性參數(shù)的全面表征與測(cè)量
- 1 2025高端醫(yī)療器械國(guó)產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 多數(shù)人錯(cuò)估了關(guān)稅將對(duì)中國(guó)醫(yī)藥產(chǎn)業(yè)的影響
- 3 一季度醫(yī)療儀器及器械進(jìn)出口報(bào)告:前十大出口市場(chǎng)在哪?
- 4 認(rèn)購(gòu)火爆,映恩生物打響18A IPO重啟信號(hào)槍
- 5 中國(guó)創(chuàng)新藥出海:機(jī)遇、挑戰(zhàn)與未來(lái)展望
- 6 核藥賽道解碼:高壁壘、國(guó)產(chǎn)替代與千億市場(chǎng)卡位
- 7 創(chuàng)新藥是避風(fēng)港,更是發(fā)射臺(tái)!
- 8 第一醫(yī)藥扣非凈利潤(rùn)僅687.40萬(wàn)元:上!半[形土豪”要再沉淀沉淀
- 9 隱匿的醫(yī)療大佬,10年干出千億級(jí)公司
- 10 外骨骼機(jī)器人,誰(shuí)是盈利最強(qiáng)企業(yè)?