萬(wàn)字詳解:騰訊如何自研大規(guī)模知識(shí)圖譜 Topbase
2) 實(shí)體分類的特征選擇:
屬性名稱:除了通用類的屬性名稱,如:中文名,別名,正文,簡(jiǎn)介等,其他屬性名稱都作為特征;
屬性值:不是所有的屬性值都是有助于實(shí)體分類,如性別的屬性值“男”或者“女”對(duì)區(qū)分該實(shí)體是“商業(yè)人物”和“娛樂(lè)人物”沒(méi)有幫助,但是職業(yè)的屬性值如“歌手”“CEO”等對(duì)于實(shí)體的細(xì)類別則有很強(qiáng)的指示作用,這些屬性值可以作為實(shí)體細(xì)分類的重要特征。一個(gè)屬性值是否需要加入他的屬性值信息,我們基于第一部分得到的訓(xùn)練數(shù)據(jù),利用特征選擇指標(biāo)如卡方檢驗(yàn)值,信息增益等進(jìn)行篩選。
簡(jiǎn)介:由于簡(jiǎn)介內(nèi)容相對(duì)較長(zhǎng)且信息冗余,并非用得越多越好。針對(duì)簡(jiǎn)介的利用我們主要采用百科簡(jiǎn)介中頭部幾句話中的主語(yǔ)是該實(shí)體的句子。
3) 實(shí)體分類模型
模型架構(gòu):基于 bert 預(yù)訓(xùn)練語(yǔ)言模型的多 Label 分類模型
圖16 實(shí)體分類基礎(chǔ)模型
模型輸入:我們針對(duì)上述特征進(jìn)行拼接作為 bert 的輸入,利用[sep]隔開(kāi)實(shí)體的兩類信息,每一類信息用逗號(hào)隔開(kāi)不同部分。第一類信息是實(shí)體名稱和實(shí)體簡(jiǎn)介,刻畫(huà)了實(shí)體的一個(gè)基本描述內(nèi)容,第二類信息是實(shí)體的各種屬性,刻畫(huà)了實(shí)體的屬性信息。例如,劉德華的輸入形式如下:
圖17 實(shí)體分類模型的輸入形式
模型 loss:基于層次 loss 方式,實(shí)體 Label 是子類:父類 Label 要轉(zhuǎn)換為正例計(jì)算 loss;實(shí)體 Label 是父類:所有子類 label 以一定概率 mask 不產(chǎn)生負(fù)例 loss,避免訓(xùn)練數(shù)據(jù)存在的細(xì)類別漏召回問(wèn)題。
七、知識(shí)融合 - 實(shí)體對(duì)齊
知識(shí)融合的目的是將不同來(lái)源的數(shù)據(jù)進(jìn)行合并處理。如從搜狗百科,體育頁(yè)面以及 QQ 音樂(lè)都獲取到了"姚明"信息,首先需要判斷這些來(lái)源的"姚明"是否指同一實(shí)體,如果是同一個(gè)實(shí)體(圖 18 中的搜狗和虎撲的姚明頁(yè)面)則可以將他們的信息進(jìn)行融合,如果不是(QQ 音樂(lè)的姚明頁(yè)面)則不應(yīng)該將其融合。知識(shí)融合的核心是實(shí)體對(duì)齊,即如何將不同來(lái)源的同一個(gè)實(shí)體進(jìn)行合并。
圖18 知識(shí)融合示列說(shuō)明
1. 實(shí)體對(duì)齊挑戰(zhàn)
不同來(lái)源實(shí)體的屬性信息重疊少,導(dǎo)致相似度特征稀疏,容易欠融合;
圖19 來(lái)自于百科和旅游網(wǎng)站的武夷山頁(yè)面信息
同系列作品(電影,電視。┫嗨贫雀,容易過(guò)融合,如兩部還珠格格電視劇
圖20 兩部還珠格格的信息內(nèi)容
多路來(lái)源的實(shí)體信息量很大(億級(jí)別頁(yè)面),如果每次進(jìn)行全局融合計(jì)算復(fù)雜度高,而且會(huì)產(chǎn)生融合實(shí)體的 ID 漂移問(wèn)題。
2. 實(shí)體對(duì)齊的解決思路
實(shí)體對(duì)齊的整體流程如圖所示,其主要環(huán)節(jié)包括數(shù)據(jù)分桶,桶內(nèi)實(shí)體相似度計(jì)算,桶內(nèi)實(shí)體的聚類融合。
圖21 Topbase實(shí)體對(duì)齊流程圖
1)數(shù)據(jù)分桶:
數(shù)據(jù)分桶的目的是對(duì)所有的多源實(shí)體數(shù)據(jù)進(jìn)行一個(gè)粗聚類,粗聚類的方法基于簡(jiǎn)單的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分桶,具體規(guī)則主要是同名(原名或者別名相同)實(shí)體分在一個(gè)桶內(nèi),除了基于名稱匹配,我們還采用一些專有的屬性值進(jìn)行分桶,如出生年月和出生地一致的人物分在一個(gè)桶。
2)實(shí)體相似度計(jì)算:
實(shí)體相似度直接決定了兩個(gè)實(shí)體是否可以合并,它是實(shí)體對(duì)齊任務(wù)中的核心。為了解決相似屬性稀疏導(dǎo)致的欠融合問(wèn)題,我們引入異構(gòu)網(wǎng)絡(luò)向量化表示的特征,為了解決同系列作品極其相似的過(guò)融合問(wèn)題,我們引入了互斥特征。
異構(gòu)網(wǎng)絡(luò)向量化表示特征:每個(gè)來(lái)源的數(shù)據(jù)可以構(gòu)建一個(gè)同源實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),邊是兩個(gè)實(shí)體頁(yè)面之間的超鏈接,如下圖所示,百科空間可以構(gòu)建一個(gè)百科實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),影視劇網(wǎng)站可以構(gòu)建一個(gè)影視劇網(wǎng)站的實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)。不同空間的兩個(gè)實(shí)體,如果存在高重合度信息,容易判別二者相似度的兩個(gè)實(shí)體,可以建立映射關(guān)系(如影視劇網(wǎng)站的梁朝偉頁(yè)面和百科的梁朝偉頁(yè)面信息基本一致,則可以認(rèn)為二者是同一個(gè)實(shí)體,建立鏈接關(guān)系),這樣可以將多源異構(gòu)網(wǎng)絡(luò)進(jìn)行合并,梁朝偉和劉德華屬于連接節(jié)點(diǎn),兩個(gè)無(wú)間道重合信息少,則作為兩個(gè)獨(dú)立的節(jié)點(diǎn)。然后基于 deepwalk 方式得到多源異構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)向量化表示特征。
圖22 多源異構(gòu)網(wǎng)絡(luò)關(guān)聯(lián)圖
文本相似特征:主要是針對(duì)存在簡(jiǎn)介信息的實(shí)體,利用 bert 編碼得到向量,如果兩個(gè)實(shí)體都存在簡(jiǎn)介信息,則將兩個(gè)簡(jiǎn)介向量進(jìn)行點(diǎn)乘得到他們的文本相似度特征;
基本特征:其他屬性的相似度特征,每一維表示屬性,每一維的值表示該屬性值的一個(gè) Jaccard 相似度;
互斥特征:主要解決同系列作品及其相似的問(wèn)題,人工設(shè)定的重要區(qū)分度特征,如電視劇的集數(shù),系列名,上映時(shí)間。
最后,按照下圖結(jié)構(gòu)將上述相似度特征進(jìn)行融合預(yù)測(cè)兩兩實(shí)體是否是同一實(shí)體;
圖23 實(shí)體對(duì)相似度打分模塊
3)相似實(shí)體的聚類合并:
Base 融合:在上述步驟的基礎(chǔ)上,我們采用層次聚類算法,對(duì)每一個(gè)桶的實(shí)體進(jìn)行對(duì)齊合并,得到 base 版的融合數(shù)據(jù),然后賦予每一個(gè)融合后的實(shí)體一個(gè)固定的 ID 值,這就得到了一個(gè) Base 的融合庫(kù);
增量融合:對(duì)于每日新增的實(shí)體頁(yè)面信息,我們不再重新進(jìn)行聚類處理,而是采用“貼”的模式,將每一個(gè)新增實(shí)體頁(yè)面和已有的融合實(shí)體進(jìn)行相似度計(jì)算,判斷該實(shí)體頁(yè)面應(yīng)該歸到哪一個(gè)融合實(shí)體中,如果相似度都低于設(shè)置的閾值,則該新增實(shí)體獨(dú)立成一堆,并設(shè)置一個(gè)新的融合實(shí)體 ID。增量融合的策略可以避免每次重復(fù)計(jì)算全量實(shí)體頁(yè)面的融合過(guò)程,方便數(shù)據(jù)及時(shí)更新,同時(shí)保證各個(gè)融合實(shí)體的穩(wěn)定性,不會(huì)輕易發(fā)生融合實(shí)體 ID 的漂移問(wèn)題;
融合拆解:由于 Base 融合可能存在噪聲,所以我們?cè)黾恿艘粋(gè)融合的修復(fù)模塊,針對(duì)發(fā)現(xiàn)的 badcase,對(duì)以融合成堆的實(shí)體進(jìn)行拆解重新融合,這樣可以局部修復(fù)融合錯(cuò)誤,方便運(yùn)營(yíng)以及批量處理 badcase。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?