訂閱
糾錯
加入自媒體

機器學習中常用的十類算法

AI技術發(fā)展的三大支柱:“算法+大數據+計算能力”,算法是人工智能發(fā)展的核心關鍵之一,很多技術環(huán)節(jié)和系統(tǒng)功能的實現都依賴于算法的精準度,算法的優(yōu)劣直接影響了人工智能的發(fā)展方向。那么我們當下感受到的人工智能生活服務,運用了哪些AI算法呢?跟隨OFweek編輯一起來看看吧。

1.人工神經網絡

人工神經網絡(ANN)以大腦處理機制作為基礎,開發(fā)用于建立復雜模式和預測問題的算法。該類型算法在語音、語義、視覺、各類游戲等任務中表現極好,但需要大量數據進行訓練,且訓練要求很高的硬件配置。

ANN在圖像和字符識別中起著重要的作用,手寫字符識別在欺詐檢測甚至國家安全評估中有很多應用。ANN 的研究為深層神經網絡鋪平了道路,是「深度學習」的基礎,現已在計算機視覺、語音識別、自然語言處理等方向開創(chuàng)了一系列令人激動的創(chuàng)新。

2.決策樹

在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。其采用一種樹形結構,其中每個內部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。

決策樹算法屬于非參數型,較為容易解釋,但其趨向過擬合;可能陷入局部最小值中;無法在線學習。決策樹的生成主要分為兩步:1.節(jié)點的分裂:當一個節(jié)點所代表的屬性無法給出判斷時,則選擇將該節(jié)點分成2個子節(jié)點 2. 閾值的確定:選擇適當的閾值使得分類錯誤率最小。

3.集成算法

簡單算法一般復雜度低、速度快、易展示結果,其中的模型可以單獨進行訓練,并且它們的預測能以某種方式結合起來去做出一個總體預測。每種算法好像一種專家,集成就是把簡單的算法組織起來,即多個專家共同決定結果。

集成算法比使用單個模型預測出來的結果要精確的多,但需要進行大量的維護工作。

AdaBoost的實現是一個漸進的過程,從一個最基礎的分類器開始,每次尋找一個最能解決當前錯誤樣本的分類器。好處是自帶了特征選擇,只使用在訓練集中發(fā)現有效的特征,這樣就降低了分類時需要計算的特征數量,也在一定程度上解決了高維數據難以理解的問題。

4.回歸算法

回歸分析是在一系列的已知自變量與因變量之間的相關關系的基礎上,建立變量之間的回歸方程,把回歸方程作為算法模型,通過其來實現對新自變量得出因變量的關系。因此回歸分析是實用的預測模型或分類模型。

5.貝葉斯算法

樸素貝葉斯分類是一種十分簡單的分類算法:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。

樸素貝葉斯分類分為三個階段,1.根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,形成訓練樣本集合2.計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計3.使用分類器對待分類項進行分類。

6.K近鄰

K緊鄰算法的核心是未標記樣本的類別,計算待標記樣本和數據集中每個樣本的距離,取距離最近的k個樣本。待標記的樣本所屬類別就由這k個距離最近的樣本投票產生,給定其測試樣本,基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然后基于這k個“鄰居”的信息來進行預測。

K緊鄰算法準確性高,對異常值和噪聲有較高的容忍度,但計算量較大,對內存的需求也較大。該算法主要應用于文本分類、模式識別、圖像及空間分類。

7.聚類算法

聚類算法是機器學習中涉及對數據進行分組的一種算法。在給定的數據集中,我們可以通過聚類算法將其分成一些不同的組。應用中科利用聚類分析,通過將數據分組可以比較清晰的獲取到數據信息。該算法讓數據變得有意義,但存在結果難以解讀,針對不尋常的數據組,結果可能無用。

在商業(yè)領域中,聚類可以幫助市場分析人員從消費者數據庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習慣。

8.隨機森林算法

隨機森林是一種有監(jiān)督學習算法,基于決策樹為學習器的集成學習算法。隨機森林非常簡單,易于實現,計算開銷也很小,但是它在分類和回歸上表現出非常驚人的性能,因此,隨機森林被譽為“代表集成學習技術水平的方法”。

隨機森林擁有廣泛的應用前景,從市場營銷到醫(yī)療保健保險,既可以用來做市場營銷模擬的建模,統(tǒng)計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。

9.支持向量機

支持向量機通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的。它是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機的學習策略便是間隔最大化,最終可轉化為一個凸二次規(guī)劃問題的求解。

支持向量機可應用于諸如文本分類,圖像分類,生物序列分析和生物數據挖掘,手寫字符識別等領域。

10.深度學習

深度學習基于人工神經網絡的機器學習,區(qū)別于傳統(tǒng)的機器學習,深度學習需要更多樣本,換來更少的人工標注和更高的準確率。

深度學習是學習樣本數據的內在規(guī)律和表示層次,這些學習過程中獲得的信息對諸如文字,圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。 作為復雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關技術。

小結

算法是計算機科學領域最重要的基石之一,當下需要處理的信息量是呈指數級的增長,每人每天都會創(chuàng)造出大量數據,無論是三維圖形、海量數據處理、機器學習、語音識別,都需要極大的計算量,在AI時代越來越多的挑戰(zhàn)需要靠卓越的算法來解決。

聲明: 本網站所刊載信息,不代表OFweek觀點?帽菊靖寮瑒战洉媸跈。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像,違者將依法追究法律責任。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號