訂閱
糾錯
加入自媒體

人工智能之樸素貝葉斯(NB)

樸素貝葉斯基本框架,c類別,A特征

樸素貝葉斯分類器:

比較流行的樸素貝葉斯分類器有:

高斯樸素貝葉斯(Gaussian naive Bayes):適用于多個類型變量,假設(shè)特征符合高斯分布。

多項式樸素貝葉斯(Multinomial naive Bayes):用于離散計數(shù),如一個句子中某個詞語重復(fù)出現(xiàn),我們視它們每個都是獨立的,所以統(tǒng)計多次,概率指數(shù)上出現(xiàn)了次方。

伯努利樸素貝葉斯(Bernoulli naive Bayes):如果特征向量是二進制(即0和1),那這個模型是非常有用的。不同于多項式,伯努利把出現(xiàn)多次的詞語視為只出現(xiàn)一次,更加簡單方便。

可以根據(jù)特定數(shù)據(jù)集選取上述3個分類器中的合適者。

人工智能之樸素貝葉斯(NB)

算法優(yōu)點:

1)既簡單又快速,預(yù)測表現(xiàn)良好。

2)如果變量獨立這個條件成立,相比Logistic回歸等其他分類方法,樸素貝葉斯分類器性能更優(yōu),且只需少量訓(xùn)練數(shù)據(jù)。

3)相較于數(shù)值變量,樸素貝葉斯分類器在多個分類變量的情況下表現(xiàn)更好。若是數(shù)值變量,需要正態(tài)分布假設(shè)。

4)對缺失數(shù)據(jù)不太敏感,算法也比較簡單。

算法缺點:

1) 如果分類變量的類別(測試數(shù)據(jù)集)沒有在訓(xùn)練數(shù)據(jù)集總被觀察到,那這個模型會分配一個0概率給它,同時也會無法進行預(yù)測。這通常被稱為“零頻率”。為了解決這個問題,可以使用平滑技術(shù),拉普拉斯估計是其中最基礎(chǔ)的技術(shù)。

2) 樸素貝葉斯也被稱為bad estimator,所以它的概率輸出predict_proba不應(yīng)被太認(rèn)真對待。

3) 刪除重復(fù)出現(xiàn)的高度相關(guān)的特征,可能會丟失頻率信息,影響效果。

4) 樸素貝葉斯的另一個限制是獨立預(yù)測的假設(shè)。在現(xiàn)實生活中,這幾乎是不可能的,各變量間或多或少都會存在相互影響。

主要應(yīng)用:

1) 實時預(yù)測:運用樸素貝葉斯進行很快地實時預(yù)測。

2) 多類預(yù)測:這個算法以多類別預(yù)測功能聞名,因此可以用來預(yù)測多類目標(biāo)變量的概率。

3) 文本分類/垃圾郵件過濾/情感分析:相比較其他算法,樸素貝葉斯的應(yīng)用主要集中在文本分類(變量類型多,且更獨立),具有較高的成功率。因此被廣泛應(yīng)用于垃圾郵件過濾(識別垃圾郵件)和情感分析(分辨積極情緒和消極情緒的用戶)。

4) 推薦系統(tǒng):樸素貝葉斯分類器和協(xié)同過濾結(jié)合使用可以過濾出用戶想看到的和不想看到的東西。

人工智能之樸素貝葉斯(NB)

結(jié)語:

樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,分類效果不好。而在屬性相關(guān)性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關(guān)聯(lián)性適度改進。樸素貝葉斯在有些領(lǐng)域很有用,比如文本分類、垃圾郵件過濾、情感分析等;樸素貝葉斯原理和實現(xiàn)都比較簡單,學(xué)習(xí)和預(yù)測的效率都很高,是一種經(jīng)典而常用的分類算法。人工智能領(lǐng)域,樸素貝葉斯方法是一種十分有代表性的不確定性知識表示和推理方法。

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號