訂閱
糾錯(cuò)
加入自媒體

萬(wàn)字詳解:騰訊如何自研大規(guī)模知識(shí)圖譜 Topbase

2) 實(shí)體分類的特征選擇:

屬性名稱:除了通用類的屬性名稱,如:中文名,別名,正文,簡(jiǎn)介等,其他屬性名稱都作為特征;

屬性值:不是所有的屬性值都是有助于實(shí)體分類,如性別的屬性值“男”或者“女”對(duì)區(qū)分該實(shí)體是“商業(yè)人物”和“娛樂(lè)人物”沒(méi)有幫助,但是職業(yè)的屬性值如“歌手”“CEO”等對(duì)于實(shí)體的細(xì)類別則有很強(qiáng)的指示作用,這些屬性值可以作為實(shí)體細(xì)分類的重要特征。一個(gè)屬性值是否需要加入他的屬性值信息,我們基于第一部分得到的訓(xùn)練數(shù)據(jù),利用特征選擇指標(biāo)如卡方檢驗(yàn)值,信息增益等進(jìn)行篩選。

簡(jiǎn)介:由于簡(jiǎn)介內(nèi)容相對(duì)較長(zhǎng)且信息冗余,并非用得越多越好。針對(duì)簡(jiǎn)介的利用我們主要采用百科簡(jiǎn)介中頭部幾句話中的主語(yǔ)是該實(shí)體的句子。

3) 實(shí)體分類模型

模型架構(gòu):基于 bert 預(yù)訓(xùn)練語(yǔ)言模型的多 Label 分類模型

圖16 實(shí)體分類基礎(chǔ)模型

模型輸入:我們針對(duì)上述特征進(jìn)行拼接作為 bert 的輸入,利用[sep]隔開(kāi)實(shí)體的兩類信息,每一類信息用逗號(hào)隔開(kāi)不同部分。第一類信息是實(shí)體名稱和實(shí)體簡(jiǎn)介,刻畫(huà)了實(shí)體的一個(gè)基本描述內(nèi)容,第二類信息是實(shí)體的各種屬性,刻畫(huà)了實(shí)體的屬性信息。例如,劉德華的輸入形式如下:

圖17  實(shí)體分類模型的輸入形式

模型 loss:基于層次 loss 方式,實(shí)體 Label 是子類:父類 Label 要轉(zhuǎn)換為正例計(jì)算 loss;實(shí)體 Label 是父類:所有子類 label 以一定概率 mask 不產(chǎn)生負(fù)例 loss,避免訓(xùn)練數(shù)據(jù)存在的細(xì)類別漏召回問(wèn)題。

七、知識(shí)融合 - 實(shí)體對(duì)齊

知識(shí)融合的目的是將不同來(lái)源的數(shù)據(jù)進(jìn)行合并處理。如從搜狗百科,體育頁(yè)面以及 QQ 音樂(lè)都獲取到了"姚明"信息,首先需要判斷這些來(lái)源的"姚明"是否指同一實(shí)體,如果是同一個(gè)實(shí)體(圖 18 中的搜狗和虎撲的姚明頁(yè)面)則可以將他們的信息進(jìn)行融合,如果不是(QQ 音樂(lè)的姚明頁(yè)面)則不應(yīng)該將其融合。知識(shí)融合的核心是實(shí)體對(duì)齊,即如何將不同來(lái)源的同一個(gè)實(shí)體進(jìn)行合并。

圖18  知識(shí)融合示列說(shuō)明

1. 實(shí)體對(duì)齊挑戰(zhàn)

不同來(lái)源實(shí)體的屬性信息重疊少,導(dǎo)致相似度特征稀疏,容易欠融合;

圖19  來(lái)自于百科和旅游網(wǎng)站的武夷山頁(yè)面信息

同系列作品(電影,電視。┫嗨贫雀,容易過(guò)融合,如兩部還珠格格電視劇

圖20  兩部還珠格格的信息內(nèi)容

多路來(lái)源的實(shí)體信息量很大(億級(jí)別頁(yè)面),如果每次進(jìn)行全局融合計(jì)算復(fù)雜度高,而且會(huì)產(chǎn)生融合實(shí)體的 ID 漂移問(wèn)題。

2.  實(shí)體對(duì)齊的解決思路

實(shí)體對(duì)齊的整體流程如圖所示,其主要環(huán)節(jié)包括數(shù)據(jù)分桶,桶內(nèi)實(shí)體相似度計(jì)算,桶內(nèi)實(shí)體的聚類融合。

圖21  Topbase實(shí)體對(duì)齊流程圖

1)數(shù)據(jù)分桶:

數(shù)據(jù)分桶的目的是對(duì)所有的多源實(shí)體數(shù)據(jù)進(jìn)行一個(gè)粗聚類,粗聚類的方法基于簡(jiǎn)單的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分桶,具體規(guī)則主要是同名(原名或者別名相同)實(shí)體分在一個(gè)桶內(nèi),除了基于名稱匹配,我們還采用一些專有的屬性值進(jìn)行分桶,如出生年月和出生地一致的人物分在一個(gè)桶。

2)實(shí)體相似度計(jì)算:

實(shí)體相似度直接決定了兩個(gè)實(shí)體是否可以合并,它是實(shí)體對(duì)齊任務(wù)中的核心。為了解決相似屬性稀疏導(dǎo)致的欠融合問(wèn)題,我們引入異構(gòu)網(wǎng)絡(luò)向量化表示的特征,為了解決同系列作品極其相似的過(guò)融合問(wèn)題,我們引入了互斥特征。

異構(gòu)網(wǎng)絡(luò)向量化表示特征:每個(gè)來(lái)源的數(shù)據(jù)可以構(gòu)建一個(gè)同源實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),邊是兩個(gè)實(shí)體頁(yè)面之間的超鏈接,如下圖所示,百科空間可以構(gòu)建一個(gè)百科實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),影視劇網(wǎng)站可以構(gòu)建一個(gè)影視劇網(wǎng)站的實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)。不同空間的兩個(gè)實(shí)體,如果存在高重合度信息,容易判別二者相似度的兩個(gè)實(shí)體,可以建立映射關(guān)系(如影視劇網(wǎng)站的梁朝偉頁(yè)面和百科的梁朝偉頁(yè)面信息基本一致,則可以認(rèn)為二者是同一個(gè)實(shí)體,建立鏈接關(guān)系),這樣可以將多源異構(gòu)網(wǎng)絡(luò)進(jìn)行合并,梁朝偉和劉德華屬于連接節(jié)點(diǎn),兩個(gè)無(wú)間道重合信息少,則作為兩個(gè)獨(dú)立的節(jié)點(diǎn)。然后基于 deepwalk 方式得到多源異構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)向量化表示特征。

圖22 多源異構(gòu)網(wǎng)絡(luò)關(guān)聯(lián)圖

文本相似特征:主要是針對(duì)存在簡(jiǎn)介信息的實(shí)體,利用 bert 編碼得到向量,如果兩個(gè)實(shí)體都存在簡(jiǎn)介信息,則將兩個(gè)簡(jiǎn)介向量進(jìn)行點(diǎn)乘得到他們的文本相似度特征;

基本特征:其他屬性的相似度特征,每一維表示屬性,每一維的值表示該屬性值的一個(gè) Jaccard 相似度;

互斥特征:主要解決同系列作品及其相似的問(wèn)題,人工設(shè)定的重要區(qū)分度特征,如電視劇的集數(shù),系列名,上映時(shí)間。

最后,按照下圖結(jié)構(gòu)將上述相似度特征進(jìn)行融合預(yù)測(cè)兩兩實(shí)體是否是同一實(shí)體;

圖23 實(shí)體對(duì)相似度打分模塊

3)相似實(shí)體的聚類合并:

Base 融合:在上述步驟的基礎(chǔ)上,我們采用層次聚類算法,對(duì)每一個(gè)桶的實(shí)體進(jìn)行對(duì)齊合并,得到 base 版的融合數(shù)據(jù),然后賦予每一個(gè)融合后的實(shí)體一個(gè)固定的 ID 值,這就得到了一個(gè) Base 的融合庫(kù);

增量融合:對(duì)于每日新增的實(shí)體頁(yè)面信息,我們不再重新進(jìn)行聚類處理,而是采用“貼”的模式,將每一個(gè)新增實(shí)體頁(yè)面和已有的融合實(shí)體進(jìn)行相似度計(jì)算,判斷該實(shí)體頁(yè)面應(yīng)該歸到哪一個(gè)融合實(shí)體中,如果相似度都低于設(shè)置的閾值,則該新增實(shí)體獨(dú)立成一堆,并設(shè)置一個(gè)新的融合實(shí)體 ID。增量融合的策略可以避免每次重復(fù)計(jì)算全量實(shí)體頁(yè)面的融合過(guò)程,方便數(shù)據(jù)及時(shí)更新,同時(shí)保證各個(gè)融合實(shí)體的穩(wěn)定性,不會(huì)輕易發(fā)生融合實(shí)體 ID 的漂移問(wèn)題;

融合拆解:由于 Base 融合可能存在噪聲,所以我們?cè)黾恿艘粋(gè)融合的修復(fù)模塊,針對(duì)發(fā)現(xiàn)的 badcase,對(duì)以融合成堆的實(shí)體進(jìn)行拆解重新融合,這樣可以局部修復(fù)融合錯(cuò)誤,方便運(yùn)營(yíng)以及批量處理 badcase。

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)