訂閱
糾錯(cuò)
加入自媒體

什么是文本摘要?為什么要有注意力機(jī)制?

推理部分

下圖是整個(gè)Encoder-Decode的結(jié)構(gòu)。通過上面的理解,我覺得這個(gè)圖非常清晰。

什么是文本摘要?為什么要有注意力機(jī)制?

Encoder整個(gè)輸入序列,并且用Encoder最后一個(gè)狀態(tài)結(jié)果來初始化Decoder。

將[start]作為輸入傳遞給解碼器Decoder。

使用通過Encoder初始化過的Decoder運(yùn)行一個(gè)time stpe。

輸出將是下一個(gè)單詞的概率,將選擇概率最大的單詞。

這個(gè)預(yù)測(cè)的單詞將會(huì)在下一時(shí)間Step中作為輸入。并且通過當(dāng)前狀態(tài)更新內(nèi)部參數(shù)。

重復(fù)步驟3-5,直到生成[end]或達(dá)到目標(biāo)序列的最大長度。

image.png

Encoder-Decoder結(jié)構(gòu)的局限性

Encoder將整個(gè)輸入序列轉(zhuǎn)為固定的長度,但是當(dāng)序列很長的時(shí)候,Encoder將會(huì)很難記住整個(gè)序列的內(nèi)容,無法將所有必要信息準(zhǔn)確的編碼到固定長度。但是,我們需要關(guān)注序列中所有的內(nèi)容么,不需要。

注意力機(jī)制

為了解決長句子的問題,注意力機(jī)制出現(xiàn)在人們的視野。注意力機(jī)制為對(duì)結(jié)果重要的部分添加高的權(quán)重,以保留主要信息。舉個(gè)例子:

需要編碼的序列[x1,x2,x3,x4,x5,x6,x7] Source sequence: “Which sport do you like the most?

需要解碼的序列[y1,y2,y3] Target sequence: I love cricket. 我們可以判斷,y1[I]與x4[you]有關(guān),而y2[love]則與x5[like]有關(guān)。所以,相比記住序列中的所有單詞,不如增加對(duì)目標(biāo)序列重要部分的權(quán)重,忽視低權(quán)重的部分。

image.png

Global Attention and Local Attention

全局注意力機(jī)制 編碼器的隱藏層中,所有部分都參與attention的計(jì)算上下文。

什么是文本摘要?為什么要有注意力機(jī)制?

局部注意力機(jī)制 編碼器的隱藏層中,僅有部分參與attention的計(jì)算上下文。

本文最終采用全局注意力機(jī)制。(只是添加了注意力機(jī)制,編碼的固定長度依然需要固定。所以實(shí)戰(zhàn)中需要通過數(shù)據(jù)確定一個(gè)合適的長度數(shù)值。短了無法表達(dá)文本內(nèi)容,長了會(huì)造成計(jì)算資源浪費(fèi)。)

實(shí)戰(zhàn)

我們的目標(biāo)是為亞馬遜美食評(píng)論生成文本摘要。(這里我只提取了我覺得有用的部分)

數(shù)據(jù)表述

這些評(píng)論通常很長而且具有可描述性。數(shù)據(jù)集下載:kaggleData。 數(shù)據(jù)涵蓋了超過10年的時(shí)間,包括截至2012年10月的所有?500,000條評(píng)論。這些評(píng)論包括產(chǎn)品,用戶信息,評(píng)級(jí),純文本評(píng)論和摘要。它還包括來自所有其他亞馬遜類別的評(píng)論。

數(shù)據(jù)處理

由于評(píng)論文本和摘要中涉及的預(yù)處理步驟略有不同,因此我們需要定義兩個(gè)不同的函數(shù)來預(yù)處理評(píng)論和摘要。

評(píng)論文本處理

將所有字母小寫;

移除HTML標(biāo)簽;

Contraction mapping;

移除(‘s);

刪除括號(hào)內(nèi)的內(nèi)容(覺得括號(hào)里面的內(nèi)容解釋說明不重要);

消除標(biāo)點(diǎn)符號(hào)和特殊字符;

刪除停用詞;

刪除低頻詞;

摘要文本處理

為摘要文本添加[start]和[end]。

數(shù)據(jù)分布

通過數(shù)據(jù)統(tǒng)計(jì),可以看到摘要與文本數(shù)據(jù)的長度分布。通過數(shù)據(jù)可視化,我們可以將評(píng)論文本的長度限定在80,而摘要的長度限定在10。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)