訂閱
糾錯
加入自媒體

萬字詳解:騰訊如何自研大規(guī)模知識圖譜 Topbase

首先我們獲取知識圖譜中重要度高的實體名構(gòu)建 Tri 樹,然后回標新聞數(shù)據(jù)和百科正文數(shù)據(jù),并將包含實體的句子作為候選抽取語料(新聞和百科數(shù)據(jù)需要區(qū)別對待,新聞數(shù)據(jù)往往包含最及時和最豐富的三元組信息,百科數(shù)據(jù)質(zhì)量高,包含準確的知識,且百科摘要或正文描述相對簡單,抽取結(jié)果的準確率高)。

然后,我們利用 Topbase 的實體鏈接服務(wù),將匹配上的實體鏈接到知識庫的已有實體中,避免了后期的數(shù)據(jù)融合。比如:實體“李娜”匹配到一句話是“歌手李娜最終歸一了佛門”,那么這句話中的李娜會對應(yīng)到知識庫中的歌手李娜,而不是網(wǎng)球李娜,從這句話中抽取的結(jié)果只會影響歌手李娜的。實體鏈接之后,我們將候選語料送入我們的抽取服務(wù),得到實體的三元組信息。

最后,三元組結(jié)果會和知識庫中已有的三元組數(shù)據(jù)進行匹配并給每一個抽取得到的三元組結(jié)果進行置信度打分,如果知識庫已經(jīng)存在該三元組信息則過濾,如果知識庫中三元組和抽取得到的三元組發(fā)生沖突則進入眾包標注平臺,如果三元組是新增的知識則根據(jù)他們的分值決定是否可以直接入庫或者送入標注平臺。此外,標注平臺的結(jié)果數(shù)據(jù)會加入到抽取服務(wù)中 Fine-tune 模型,不斷提升抽取模型的能力。

上述流程中的核心是抽取服務(wù)模塊,它是非結(jié)構(gòu)化抽取策略的集合。抽取服務(wù)構(gòu)建流程如圖 6 所示,其主要包括離線模型構(gòu)建部分以及在線服務(wù)部分。離線模型構(gòu)建的重點主要在于如何利用遠監(jiān)督的方式構(gòu)建抽取模型的訓(xùn)練數(shù)據(jù)以及訓(xùn)練抽取模型。在線流程重點是如何針對輸入的文本進行預(yù)處理,走不同的抽取策略,以及抽取結(jié)果的后處理。針對不同屬性信息的特點,抽取策略主要可以簡單歸納為三大類方法:

基于規(guī)則的抽取模塊:有些屬性具有很強的模板(規(guī)則)性質(zhì),所以可以通過人工簡單的配置一些模板規(guī)則就可以獲得高準確率的三元組結(jié)果。一般百科摘要文本內(nèi)容描述規(guī)范,適合于規(guī)則抽取的輸入數(shù)據(jù)源。此外,適用于規(guī)則抽取的屬性主要有上位詞,別名,地理位置,人物描述 tag 等。當然,規(guī)則模塊召回有限往往還得搭配模型抽取模塊,但是規(guī)則模塊結(jié)果適合直接入庫,無需標注人員審核。

基于 mention 識別+關(guān)系分類模塊:基本思想是先用 NER 或者詞典匹配等方式識別出句子中的 mention,然后利用已有的實體信息以及識別出來的 mention 進行屬性分類。舉例:給定識別出 mention 的句子“<org>騰訊</org>公司是由<per>馬化騰</per>創(chuàng)立的!,用 schema 對輸入進行調(diào)整,一種情況是 org 作為頭實體,per 作為尾實體,那么該樣本的分類結(jié)果是關(guān)系“創(chuàng)始人”,另一種情況是 per 作為頭實體,org 作為尾實體,那么該樣本的分類結(jié)果是“所屬公司”,所以最終可以得到三元組<騰訊,創(chuàng)始人,馬化騰>和<馬化騰,所屬公司,騰訊>。一般人物,地點,機構(gòu),影視劇,時間等實體可以利用 qqseg-ner 識別。詞典性質(zhì)的實體如:職業(yè),名族,國籍,性別等適合于詞典匹配的方式識別。

基于序列標注模塊:此外,還有許多屬性值是無法進行 mention 識別,因此針對這類屬性,我們采用一種序列標注的聯(lián)合抽取方式來同時識別實體的屬性值以及屬性。這類屬性主要有人物的“主要成就”信息,人物的描述 tag 信息,以及一些數(shù)值型屬性信息。

圖6 Topbase的非結(jié)構(gòu)化抽取服務(wù)

3.  專項抽取

專項抽取模塊主要是針對一些重要知識的抽取。目前知識圖譜設(shè)計的專項抽取內(nèi)容主要有:上位詞抽。ǜ拍睿,實體描述抽取,事件抽取,別名抽取等。

1 ) 上位詞抽。

上位詞可以理解為實體細粒度的概念,有助于更好的理解實體含義。圖 7 是構(gòu)建上位詞圖譜的一個簡要流程圖,其中主要從三路數(shù)據(jù)源中抽取上位詞數(shù)據(jù),主要包括:知識圖譜的屬性數(shù)據(jù),百科人工標注 Tag,純文本語料。由于抽取得到的上位詞表述多樣性問題,所以需要在抽取后進行同義上位詞合并。此外,抽取生成的上位詞圖譜也會存在著知識補全的問題,所以需要進一步的進行圖譜的連接預(yù)測,進行上位詞圖譜的補全。

圖7 上位詞抽取流程

2) 實體描述 tag 抽取:

實體描述 tag 是指能夠描述實體某個標簽的短句,圖 7 是從新聞文本數(shù)據(jù)中挖掘到的實體“李子柒”的部分描述 tag。描述 tag 目前主要用于相關(guān)實體推薦理由生成,以及搜索場景中實體信息展示。描述 tag 抽取的核心模塊以 QA-bert 為主的序列標注模型,query 是給定的實體信息,答案是句子中的描述片段。此外,還包括一系列的預(yù)處理過濾模塊和后處理規(guī)整過濾模塊。

圖8  描述tag的示列說明

3)事件抽。

事件抽取的目的是合并同一事件的新聞數(shù)據(jù)并從中識別出事件的關(guān)鍵信息生成事件的描述。事件抽取的基本流程如圖 8 所示。

圖9  Topbase的事件抽取流程框圖

預(yù)處理階段主要是對新聞流數(shù)據(jù)按照實體進行分堆處理。

事件聚類階段主要是對每一堆的新聞數(shù)據(jù)進行關(guān)鍵詞的提取等操作,將堆內(nèi)的新聞進一步的聚類。

事件融合主要包括同批次事件融合和增量事件融合。事件抽取流程是分批次對輸入數(shù)據(jù)進行處理。同批次事件融合主要解決不同實體屬于同一事件的情況,將前一步得到的類簇進行合并處理。增量事件融合是將新增的新聞數(shù)據(jù)和歷史 Base 的事件庫進行增量融合。

最后,我們需要識別每一個事件類簇中的事件元素,過濾無效事件,生成事件的描述。

六、知識規(guī)整 - 實體分類

知識規(guī)整目的是將實體數(shù)據(jù)映射到知識體系,并對其關(guān)系屬性等信息進行去噪,歸一化等預(yù)處理。如圖 9 所示,左側(cè)是從百科頁面獲取的武則天人物信息,右側(cè)是從電影相關(guān)網(wǎng)站中獲得的武則天信息,那么左側(cè)的“武則天”應(yīng)該被視為“人物類--歷史人物--帝王”,右側(cè)“武則天”應(yīng)該被視為“作品--影視作品--電影”。左側(cè)人物的“民族”屬性的原始名稱為“民族族群”,所以需要將其規(guī)整為 schema 定義的“民族”,這稱之為屬性歸一。此外,由于不同來源的數(shù)據(jù)對實體名稱會有不同的注釋,如豆瓣的“武則天”這部電影后面加了一個年份備注,所以我們還需要對實體名進行還原處理等各種清洗處理。知識規(guī)整的核心模塊是如何將實體映射到知識體系,即實體分類。

圖10 數(shù)據(jù)規(guī)整的示列說明

1.  實體分類的挑戰(zhàn):

概念類別多(200+類),具有層次性,細分類別差異。娪,電視。;

實體屬性存在歧義:

圖11 實體分類中屬性歧義問題

實體名稱或者實體簡介信息具有迷惑性:例如實體"菅直人"是一個政治家,其名稱容易和民族類別混淆,電影“寄生蟲”簡介如下圖所示,其內(nèi)容和人物概念極其相似。

圖12 實體分類中簡介迷惑性問題

2.  實體分類方法:

實體分類本質(zhì)是一個多分類問題。針對知識庫的特點以及上述挑戰(zhàn),我們分別從訓(xùn)練樣本構(gòu)建,特征選擇以及模型設(shè)計三方面實現(xiàn)實體分類模塊。

1 )實體分類的訓(xùn)練樣本構(gòu)建:

圖13 實體分類訓(xùn)練數(shù)據(jù)構(gòu)建流程

屬性規(guī)則模塊:每個實體頁面包含了實體結(jié)構(gòu)化屬性信息,利用這些屬性字段可以對實體進行一個規(guī)則的分類。如:人物類別的實體大多包含民族,出生日期,職業(yè)等字段,歌手類實體的職業(yè)字段中可能有“歌手”的屬性值。通過構(gòu)建正則式規(guī)則,可以批量對實體頁面進行分類;谝(guī)則模塊得到的類別信息準確率高,但是泛化能力弱,它的結(jié)果既可以作為后續(xù)分類模型的訓(xùn)練數(shù)據(jù) 1 也可以作為實體分類的一路重要分類結(jié)果。

圖14 Topbase中用于實體分類的屬性規(guī)則配置頁面

簡介分類模塊:簡介分類模塊以規(guī)則模塊的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),可以得到一個以簡介為實體分類依據(jù)的分類模型,然后基于該模型預(yù)測屬性規(guī)則模塊無法識別的實體,選擇高置信度的結(jié)果作為訓(xùn)練數(shù)據(jù) 2。

自動構(gòu)建的訓(xùn)練數(shù)據(jù)去噪模塊:基于規(guī)則和簡介分類模塊可以得到部分分類樣本,但是這些訓(xùn)練樣本不可避免的會引入噪聲,所以我們引入 N-折交叉訓(xùn)練預(yù)測自清洗數(shù)據(jù),進一步保留高置信的訓(xùn)練樣本,清洗思路如下圖所示。

圖15 實體分類訓(xùn)練數(shù)據(jù)自清洗流程

運營模塊:運營模塊主要包括日常 badcase 收集以及標注人員審核的預(yù)測置信度不高的樣本。運營數(shù)據(jù)會結(jié)合自動構(gòu)建數(shù)據(jù),聯(lián)合訓(xùn)練最終的實體分類模型。

<上一頁  1  2  3  4  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號