訂閱
糾錯
加入自媒體

深蘭DeepBlueAI團隊少量數(shù)據(jù)關(guān)系抽取論文被錄用

2021-11-10 11:33
AI世界
關(guān)注

近日,EMNLP 2021在官網(wǎng)提前公布了今年的論文審稿結(jié)果,深蘭DeepBlueAI團隊論文《MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction》被錄用。該論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標簽語義兩個方面的信息的方法,并在多個關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實驗中得到了SOTA結(jié)果。

2021

Nov

EMNLP(全稱Conference on Empirical Methods in Natural Language Processing)是國際自然語言處理頂級會議,由ACL SIGDAT主辦,每年舉辦一次,在Google Scholar計算語言學(xué)刊物指標中排名第二,主要關(guān)注統(tǒng)計機器學(xué)習方法在自然語言處理領(lǐng)域的應(yīng)用。近幾年隨著大規(guī)模數(shù)據(jù)的機器學(xué)習方法的發(fā)展,該會議人數(shù)逐年增加,受到越來越廣泛地關(guān)注。

EMNLP論文入選標準極為嚴格,EMNLP 2021共收到有效投稿3114篇,錄用754篇,錄用率僅為24.82%。按照慣例,EMNLP 2021評選了最佳長論文、最佳短論文、杰出論文和最佳Demo論文四大獎項,共7篇論文入選。

今年EMNLP 2021 將于11月7日 - 11日在多米尼加共和國蓬塔卡納和線上聯(lián)合舉辦,會議為期五天,復(fù)旦大學(xué)計算機科學(xué)學(xué)院教授黃萱菁將擔任本次會議的程序主席。在即將召開的EMNLP學(xué)術(shù)會議上將展示自然語言處理領(lǐng)域的前沿研究成果,這些成果也將代表著相關(guān)領(lǐng)域和技術(shù)細分中的研究水平以及未來發(fā)展方向。

深蘭DeepBlueAI團隊的論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標簽語義兩個方面信息的方法,并在多個關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實驗中得到了SOTA結(jié)果。

關(guān)系提取旨在發(fā)現(xiàn)給定句子中兩個實體之間的正確關(guān)系,是NLP中的一項基本任務(wù)。該問題通常被視為有監(jiān)督的分類問題,由大規(guī)模標記數(shù)據(jù)進行訓(xùn)練。近年來,關(guān)系提取模型得到了明顯的發(fā)展。然而,訓(xùn)練樣本過少時,模型性能會急劇下降。

在最近工作中,深蘭DeepBlueAI團隊利用小樣本學(xué)習的進步來解決低資源問題。少樣本學(xué)習的關(guān)鍵思想是學(xué)習一個用來比較query和support set samples中樣本相似度的模型,這樣,關(guān)系抽取的目標從學(xué)習一個通用的、準確的關(guān)系分類器變?yōu)閷W(xué)習一個將具有相同關(guān)系的實例映射到相近區(qū)域的映射模型。在少樣本學(xué)習的設(shè)定下,標簽信息,即包含關(guān)系本身語義知識的關(guān)系標簽,在訓(xùn)練和預(yù)測時并沒有被模型用到。深蘭DeepBlueAI團隊的實驗結(jié)果表明,在預(yù)訓(xùn)練和微調(diào)中結(jié)合上述標簽信息和各關(guān)系類別的樣本兩類映射可以顯著提高模型在少樣本關(guān)系提取任務(wù)上的表現(xiàn)。

01

語義映射預(yù)訓(xùn)練

預(yù)訓(xùn)練部分的目標函數(shù)由三個部分組成:

CCR: 樣本表示間損失

CRR:樣本與標簽間損失

MLM:語言模型損失,同BERT

深蘭DeepBlueAI團隊采取類似CP (Peng et al., 2020)的方法中對模型進行預(yù)訓(xùn)練。不同之處在于團隊還考慮了標簽信息,使用Wikidata作為預(yù)訓(xùn)練語料庫,去除了Wikidata和DeepBlueAI團隊用于后續(xù)實驗的數(shù)據(jù)集之間的重復(fù)部分。

本部分中,深蘭DeepBlueAI團隊使用BERT base作為基礎(chǔ)模型,采用AdamW優(yōu)化器,最大輸入長度設(shè)置為60。深蘭DeepBlueAI團隊共訓(xùn)練了11,000步,其中前500步為warmup,batch size設(shè)為2040,學(xué)習比率為3e-5。

02

監(jiān)督性關(guān)系抽取

本部分深蘭DeepBlueAI團隊一共試驗了MapRE預(yù)訓(xùn)練模型的兩種使用方式,即MapRE-L(直接使用全連接層對文本編碼輸出預(yù)測關(guān)系)和MapRE-R(采用關(guān)系編碼器編碼關(guān)系標簽,再做相似度匹配),模型結(jié)構(gòu)如圖:

在監(jiān)督性關(guān)系抽取任務(wù)中深蘭科技評估兩個基準數(shù)據(jù)集:ChemProt和Wiki80。前者包括56,000個實例和80種關(guān)系,后者包括10,065個實例和13種關(guān)系。

實驗結(jié)果如下:

這里深蘭DeepBlueAI團隊重點關(guān)注低資源關(guān)系抽取,選取以下三個有代表性的模型進行比較。

1)BERT:該模型在文本的頭實體和尾實體部分分別增加特殊的標記token,在BERT輸出后接幾個全連接層用于關(guān)系分類。

2)MTB (Soares et al., 2019):MTB模型假設(shè)無監(jiān)督數(shù)據(jù)中頭實體和尾實體相同的句子均為正樣本對,即具有相同的關(guān)系。在測試階段,對query和support set的相似度得分進行排名,將得分最高的關(guān)系作為預(yù)測結(jié)果。

3)CP (Peng et al., 2020):同MTB類似,我們的方法同CP模型的不同點在于,我們在預(yù)訓(xùn)練和微調(diào)時均考慮了標簽信息。

我們可以觀察到:

1)在BERT上進行預(yù)訓(xùn)練(即MTB, CP和MapRE)可以提高模型性能

2)比較MapRE-L與CP和MTB,在預(yù)訓(xùn)練期間添加標簽信息可以顯著提高模型性能,尤其是在資源極少的情況下,例如僅1%的訓(xùn)練集用于微調(diào)

3) 比較 MapRE-R 和 MapRE-L,其中前者在微調(diào)中也考慮了標簽信息,表現(xiàn)出更好更穩(wěn)定的實驗結(jié)果

結(jié)果表明在預(yù)訓(xùn)練和微調(diào)中使用標簽信息均可顯著提高低資源監(jiān)督性關(guān)系抽取任務(wù)上的模型性能。

03

少樣本與零樣本關(guān)系抽取

在少樣本學(xué)習的情況下,模型需要在只有給定一定關(guān)系類別,每個類別少數(shù)樣本的情況下進行預(yù)測。對于N way K shot問題,Support set S包含N個關(guān)系,每個關(guān)系有K個樣本,查詢集包含Q個樣本,每個樣本屬于 N 個關(guān)系之一。

該模型結(jié)構(gòu)如下:

模型預(yù)測結(jié)果由下式得出:

深蘭DeepBlueAI團隊在兩個數(shù)據(jù)集上評估提出的方法:FewRel和NYT-25。FewRel 數(shù)據(jù)集包含70,000個句子和100個關(guān)系(每個關(guān)系有700個句子),數(shù)據(jù)來源為維基百科。其中64個關(guān)系用于訓(xùn)練,16個用于驗證,以及20個用于測試。測試數(shù)據(jù)集包含 10,000 個句子,必須在線評估。NYT-25數(shù)據(jù)集是由Gao et al., 2019。DeepBlueAI團隊隨機抽取 10 個關(guān)系用于訓(xùn)練,5 個用于驗證,10 個用于測試。

實驗結(jié)果如下:

如上表所示,在所有的實驗設(shè)置下,深蘭DeepBlueAI團隊提出的MapRE,由于在預(yù)訓(xùn)練和微調(diào)中均考慮了support set樣本句子和關(guān)系標簽信息,提供了穩(wěn)定的性能表現(xiàn),并大幅優(yōu)于一系列baseline方法。結(jié)果證明了團隊提出的框架的有效性,并表明了關(guān)系抽取中關(guān)系標簽語義映射信息的重要性。

深蘭DeepBlueAI團隊進一步考慮了低資源關(guān)系抽取的極端條件,即零樣本的情況。在該設(shè)定下,模型輸入不包含任何support set樣本。在零樣本條件下,以上大部分少樣本關(guān)系抽取框架不適用,因為其它該類模型的每個關(guān)系類別中至少需要有一個樣本。

結(jié)果表明,與其它最近零樣本學(xué)習工作相比,深蘭DeepBlueAI團隊提出的MapRE在所有設(shè)定下都獲得了出色的表現(xiàn),證明了MapRE的有效性。

總結(jié)

在這項工作中,深蘭DeepBlueAI團隊提出了一種同時考慮標簽信息和樣本信息的關(guān)系抽取模型,MapRE。大量實驗結(jié)果表明,MapRE模型對監(jiān)督性關(guān)系抽取、少樣本關(guān)系抽取和零樣本關(guān)系抽取任務(wù)中展示了出色的表現(xiàn)。結(jié)果表明樣本和標簽信息兩者在預(yù)訓(xùn)練和微調(diào)中都起到了重要作用。在這項工作中,深蘭DeepBlueAI團隊沒有研究領(lǐng)域遷移造成的潛在影響,我們將相關(guān)分析作為下一步的工作。

綜上,深蘭DeepBlueAI團隊提出的MapRE模型結(jié)合了零樣本和少樣本學(xué)習的特點,結(jié)合了同關(guān)系樣本和關(guān)系語義兩個方面的信息,目前已在深蘭科技智能數(shù)據(jù)標注平臺文本關(guān)系抽取功能中得以應(yīng)用,大幅提升了模型在少量訓(xùn)練樣本下的表現(xiàn),在數(shù)據(jù)的智能標注等領(lǐng)域可大幅節(jié)省人力,提升標注效率及標注質(zhì)量。


聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號