精品潮喷中文字幕在线,边摸边吃奶边做下面免费视频

當前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

基于樸素貝葉斯自動過濾垃圾廣告

2019-01-24 08:36

Python進階學(xué)習(xí)交流

交叉訓(xùn)練

交叉訓(xùn)練簡單點說就是在同一份樣本中選擇部分作為測試樣本，剩余的作為訓(xùn)練樣本。這里一共有5574條數(shù)據(jù)，抽取1000條作為測試樣本（testdata）

trainset ＝［i for i in range（len（txt＿class））］

testset ＝［］

testclass ＝［］

for i in range（1000）：

number ＝ int（random．choice（trainset））

testset．a(chǎn)ppend（words＿vec（dataset［number］， wordlist））

testclass．a(chǎn)ppend（txt＿class［number］）

trainset．remove（number）

trainMat ＝［］；

trainclass ＝［］

for i in trainset：

trainMat．a(chǎn)ppend（words＿vec（dataset［i］， wordlist））

trainclass．a(chǎn)ppend（txt＿class［i］）

在這段代碼中，trainset是訓(xùn)練樣本的編號，testset是測試樣本的數(shù)據(jù)集，testclass表示測試樣本是否為垃圾廣告，trainmat是訓(xùn)練樣本數(shù)據(jù)集，trainclass表示訓(xùn)練樣本是否為垃圾廣告。

構(gòu)造訓(xùn)練器

現(xiàn)在來計算P（y1｜x），P（y2｜x）

def train（trainmatrix，traincategory）：

numword＝len（trainmatrix［0］）

numtrain＝len（trainmatrix）

pa＝sum（traincategory）／float（len（trainmatrix））

p0num，p1num＝ones（numword），ones（numword）

p0dem，p1dem＝2．0，2．0

for i in range（numtrain）：

if traincategory［i］＝＝1：

p1num＋＝trainmatrix［i］

p1dem＋＝sum（trainmatrix［i］）

else：

p0num＋＝trainmatrix［i］
p0dem＋＝sum（trainmatrix［i］）

p1vect＝ log（p1num ／ p1dem）

p0vect ＝ log（p0num ／ p0dem）

return p1vect，p0vect，pap0num，p1num表示在類別0和類別1下各個單詞出現(xiàn)的總數(shù)；p1dem，p0dem表示類別0和類別1的單詞總數(shù)；p0vect和p1vect代表P（xi｜y0）以及P（xi｜y1）；這里進行Log變化避免下溢；同時進行了拉普拉斯平滑處理，即p0num，p1num的初始變量為ones（）。p1dem，p0dem則為2（一共有兩種結(jié)果，垃圾廣告和有用廣告，所以為2）

構(gòu)造分類器

def classify（vec，p0vec，p1vec，pclass1）：

p1＝sum（vec＊p1vec）＋log（pclass1）

p0＝sum（vec＊p0vec）＋log（1．0－pclass1）

if p1＞p0：

return 1

else：

return 0

驗證訓(xùn)練模型精確度

由于在進行交叉訓(xùn)練時測試樣本是隨機抽取的，所以訓(xùn)練準確度一直都不一樣，為了讓結(jié)果具有代表性，再構(gòu)造一個循環(huán)，進行n次訓(xùn)練，取誤差的平均值。

def mul（num）：

totalerror ＝ 0

for times in range（num）：

＃通過交叉訓(xùn)練獲得訓(xùn)練樣本和測試樣本

p1vect， p0vect， pa ＝ train（trainMat， trainclass）

error＝0

for i in range（len（testset））：

if classify（array（testset［i］）， p0vect， p1vect， pa）！＝ testclass［i］：

error ＋＝ 1

print（＇the accurate is＇， 1 － error ／ float（len（testset）））

totalerror＋＝error ／ float（len（testset））

print（＇after ％d times the accurate of bayes is ％f＇％（num，1－float（totalerror）／num））

這個模型的準確度還是非常高的，平均精確度達到93．64％。

詞袋模型

請大家思考一個問題，在垃圾廣告中有沒有一些詞會頻繁提到呢？如果頻繁的出現(xiàn)這個詞，是不是代表這則廣告為垃圾廣告的概率要增加？現(xiàn)在為止只是將某一個詞語是否出現(xiàn)當作一個特征，這被稱為詞集模型。如果一個詞出現(xiàn)次數(shù)不止一次，將它出現(xiàn)的次數(shù)作為一個特征就稱為詞袋模型。這兩個模型的不同點在于詞語出現(xiàn)與否和出現(xiàn)次數(shù)，將函數(shù)word＿vec稍稍修改即可：

def words＿vec（txt，wordlist）：

returnvec＝［0］＊len（wordlist）

for word in txt：

if word in wordlist：

returnvec［list（wordlist）．index（word）］＝1＋returnvec［list（wordlist）．index（word）］

return returnvec

基于詞袋模型的平均準確度高達93．63％；盡管比詞集模型小了0．01％；但是其中一個準確率達到了95．5％；兩個模型都是很不錯的呢。

如果是中文的話使用jieba就可以分詞噢。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<ruby id="brozt"></ruby>