老焦專欄 | 解開(kāi)知識(shí)圖譜神秘的面紗
2知識(shí)圖譜建設(shè)的主要過(guò)程
目前知識(shí)圖譜應(yīng)用的領(lǐng)域比較多,例如智能問(wèn)答、智能搜索、金融行業(yè)的反欺詐/信用審核/信用證審核、電子商務(wù)的智能推介、公共安全的數(shù)據(jù)對(duì)碰、大型裝備的故障檢測(cè)與維修、電網(wǎng)的故障檢測(cè)與應(yīng)急預(yù)案、保險(xiǎn)行業(yè)的智能核保/智能核賠,總之這是一種讓軟件更加智能化的手段。但是如何構(gòu)建一個(gè)相對(duì)完備的知識(shí)圖譜應(yīng)用是一個(gè)挑戰(zhàn),難點(diǎn)主要包括:
1)如何建立知識(shí)的模型,也就是上述的“概念”如何建立;2)知識(shí)的獲得比較困難,因?yàn)槲覀兠媾R的可能是海量的知識(shí);3)所獲得知識(shí)的正確性如何驗(yàn)證;4)如何存儲(chǔ)知識(shí),進(jìn)行快速的推理;5)如何將知識(shí)在軟件中得到應(yīng)用,發(fā)揮價(jià)值等等。
這里面歸根結(jié)底還是如何用工程化方式建設(shè)知識(shí)圖譜,如何用工程化方式基于知識(shí)圖譜建設(shè)應(yīng)用的問(wèn)題,因此后面我們主要探討如何進(jìn)行知識(shí)圖譜建設(shè)與應(yīng)用的工程化方法。
知識(shí)圖譜可以分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,實(shí)際上谷歌或者百度這樣的大型互聯(lián)網(wǎng)公司在構(gòu)建的是通用知識(shí)圖譜,它主要是用于搜索引擎,它的用戶是全部的互聯(lián)網(wǎng)的用戶,它構(gòu)建的是常識(shí)性知識(shí)為主,包括結(jié)構(gòu)化的百科知識(shí),它強(qiáng)調(diào)的是一種知識(shí)的廣度,對(duì)知識(shí)的深度方面不做更多的要求,它的使用者也是普通的用戶。對(duì)于領(lǐng)域知識(shí)圖譜而言,它首先是面向一個(gè)特定的領(lǐng)域,它的知識(shí)來(lái)源是特定行業(yè),基于行業(yè)的數(shù)據(jù)來(lái)構(gòu)建,而且要有一定的行業(yè)的深度,它強(qiáng)調(diào)的是深度能夠解決行業(yè)人員的問(wèn)題,它的使用者也是這個(gè)行業(yè)內(nèi)的從業(yè)人員。
從上述定義上可以看出,這兩者的構(gòu)建過(guò)程和目的會(huì)有很大的不同,作為一個(gè)企業(yè)級(jí)軟件的從業(yè)者,我關(guān)注的主要是領(lǐng)域知識(shí)圖譜,因此這里我要探討的也是領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用的工程化問(wèn)題。
由于是工程化問(wèn)題,我們希望不要講更多的理論,而是采用類似軟件工程的方法,將知識(shí)圖譜構(gòu)建與應(yīng)用的過(guò)程講清楚,在過(guò)程的每一個(gè)環(huán)節(jié)上探討涉及的方法與技術(shù):
1)知識(shí)圖譜技術(shù)架構(gòu):確定知識(shí)的表示方式和知識(shí)的存儲(chǔ)方式;2)知識(shí)圖譜建設(shè)方法論:知識(shí)圖譜建設(shè)可以分為知識(shí)建模、知識(shí)抽取、知識(shí)驗(yàn)證這樣幾個(gè)階段,形成一個(gè)知識(shí)圖譜;3)基于知識(shí)圖譜建設(shè)應(yīng)用:每一類應(yīng)用的側(cè)重點(diǎn)不同,使用技術(shù)和達(dá)到的效果也不同,我們總結(jié)為知識(shí)推理類、知識(shí)呈現(xiàn)類、知識(shí)問(wèn)答類、知識(shí)共享類,后面會(huì)具體介紹。
3知識(shí)圖譜技術(shù)架構(gòu)
知識(shí)圖譜的關(guān)鍵技術(shù)架構(gòu)分為知識(shí)表示、知識(shí)存儲(chǔ)兩個(gè)部分。常用的知識(shí)圖譜表示是通過(guò)三元組方式,三元組是由實(shí)體、屬性和關(guān)系組成的(由Entity、Attribute、Relation組成)。具體表示方法為,實(shí)體1跟實(shí)體2之間有某種關(guān)系,或者是實(shí)體屬性、屬性詞。基于已有的三元組,可以推導(dǎo)出新的關(guān)系,知識(shí)圖譜要有豐富的實(shí)體關(guān)系,才能真正達(dá)到它實(shí)用的價(jià)值。
如果我們把上面周杰倫的例子描繪如下圖,你會(huì)發(fā)現(xiàn)知識(shí)的表示方式和面向?qū)ο蟮母拍罘浅n愃,概念就是元模型/類,?shí)體就是對(duì)象,關(guān)系就是對(duì)象間的關(guān)系。實(shí)際上,在很多著作中也把面向?qū)ο笞鳛橐环N知識(shí)表示方法。
利用我們熟悉的面向?qū)ο蠓绞竭M(jìn)行知識(shí)的表述,結(jié)合其他一些知識(shí)圖譜的技術(shù),是一個(gè)比較容易入手的方式。既然知識(shí)的表示以概念、實(shí)體、關(guān)系、屬性為基礎(chǔ)元素,就可以利用圖數(shù)據(jù)庫(kù)存儲(chǔ),目前有很多圖數(shù)據(jù)庫(kù)可以做選擇,例如Neo4J、JanusGraph等,也可以在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)上進(jìn)行存儲(chǔ),這里我就不深入探討了,因?yàn)榇_定了表示方式,如何存儲(chǔ)不是一個(gè)大問(wèn)題。 這一篇我們介紹了知識(shí)圖譜的基本概念和用途,下一篇主要介紹知識(shí)圖譜建設(shè)的方法論,第三篇將用實(shí)際的案例,介紹一個(gè)基于知識(shí)圖譜的知識(shí)推理類應(yīng)用。
- The End -
關(guān)于作者:焦烈焱,普元信息CTO,致力于技術(shù)創(chuàng)新和金融創(chuàng)新解決方案研究。專注于企業(yè)技術(shù)架構(gòu)領(lǐng)域,對(duì)分布式環(huán)境的企業(yè)計(jì)算、 企業(yè)信息架構(gòu)的規(guī)劃與實(shí)踐有著豐厚經(jīng)驗(yàn),帶領(lǐng)普元技術(shù)團(tuán)隊(duì)相繼在云計(jì)算、大數(shù)據(jù)及移動(dòng)開(kāi)發(fā)領(lǐng)域取得多項(xiàng)突破,并主持中國(guó)工商銀行、中國(guó)建設(shè)銀行等多家大型企業(yè)技術(shù)平臺(tái)的規(guī)劃與研發(fā)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局