訂閱
糾錯(cuò)
加入自媒體

工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark

生活離不開水,同樣離不開數(shù)據(jù),我們被數(shù)據(jù)包圍,在數(shù)據(jù)中生活。當(dāng)數(shù)據(jù)越來(lái)越多時(shí),就成了大數(shù)據(jù)。

在“中國(guó)制造2025”的技術(shù)路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點(diǎn)來(lái)規(guī)劃的,而在未來(lái)的十年,以數(shù)據(jù)為核心構(gòu)建的智能化體系會(huì)成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動(dòng)力。而想要理解大數(shù)據(jù),就需要理解大數(shù)據(jù)相關(guān)的查詢、處理、機(jī)器學(xué)習(xí)、圖計(jì)算和統(tǒng)計(jì)分析等。Apache Spark 作為新一代輕量級(jí)大數(shù)據(jù)快速處理平臺(tái),集成了大數(shù)據(jù)相關(guān)的各種能力,是理解大數(shù)據(jù)的首選。

簡(jiǎn)單來(lái)講,Spark就是一個(gè)快速、通用的大規(guī)模數(shù)據(jù)處理引擎,各種不同的應(yīng)用,如實(shí)時(shí)流處理、機(jī)器學(xué)習(xí)、交互式查詢等,都可以通過(guò)Spark 建立在不同的存儲(chǔ)和運(yùn)行系統(tǒng)上。今天的格物匯,就帶大家來(lái)認(rèn)識(shí)一下如日中天、高速發(fā)展的大數(shù)據(jù)處理明星——Spark。

一、  Spark發(fā)展歷程

l  2009年,Spark誕生于伯克利大學(xué)AMPLab,最開初屬于伯克利大學(xué)的研究性項(xiàng)目,最開始Spark只是一個(gè)實(shí)驗(yàn)性的項(xiàng)目,代碼量非常少,僅有3900行代碼左右,屬于輕量級(jí)的框架。

l  2010年,伯克利大學(xué)正式開源了Spark項(xiàng)目。

l  2013年6月,Spark成為了Apache基金會(huì)下的項(xiàng)目,進(jìn)入高速發(fā)展期,第三方開發(fā)者貢獻(xiàn)了大量的代碼,活躍度非常高。

l  2014年2月,Spark以飛快的速度稱為了Apache的頂級(jí)項(xiàng)目。

l  2014年5月底Spark1.0.0發(fā)布。

l  2016年6月Spark2.0.0發(fā)布

l  2018年11月 Spark2.4.0 發(fā)布

Spark作為Hadoop生態(tài)中重要的一員,其發(fā)展速度堪稱恐怖,從誕生到成為Apache頂級(jí)項(xiàng)目不到五年時(shí)間,不過(guò)在如今數(shù)據(jù)量飛速增長(zhǎng)的環(huán)境與背景下,Spark作為高效的計(jì)算框架能收到如此大的關(guān)注也是有所依據(jù)的。

二、  Spark的特點(diǎn)

1.  速度快

Spark通過(guò)使用先進(jìn)的DAG調(diào)度器、查詢優(yōu)化器和物理執(zhí)行引擎,可以高性能地進(jìn)行批量及流式處理。使用邏輯回歸算法進(jìn)行迭代計(jì)算,Spark比Hadoop速度快100多倍。

2.     簡(jiǎn)單易用

Spark 目前支持多種編程語(yǔ)言,比如Java、Scala、Python、R。熟悉其中任一門語(yǔ)言的都可以直接上手編寫Spark程序,非常方便。還支持超過(guò)80種高級(jí)算法,使用戶可以快速構(gòu)建不同應(yīng)用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來(lái)驗(yàn)證解決問(wèn)題的方法,而不是像以前一樣,需要打包、上傳集群、驗(yàn)證等。這對(duì)于原型開發(fā)非常重要。

3.     通用性高

Spark 目前主要由四大組件,如下:

1)   Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報(bào)表查詢,通過(guò)JDBC等接口調(diào)用;

2)   Spark Streaming::流式計(jì)算引擎;

3)   Spark MLlib: 機(jī)器學(xué)習(xí)庫(kù);

4)   Spark GraphX:圖計(jì)算引擎。

擁有這四大組件,成功解決了大數(shù)據(jù)領(lǐng)域中,離線批處理、交互式查詢、實(shí)時(shí)流計(jì)算、機(jī)器學(xué)習(xí)與圖計(jì)算等最重要的任務(wù)和問(wèn)題,這些不同類型的處理都可以在同一應(yīng)用中無(wú)縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺(tái)處理問(wèn)題,減少開發(fā)和維護(hù)的人力成本和部署平臺(tái)的物理成本。當(dāng)然還有,作為統(tǒng)一的解決方案,Spark并沒有以犧牲性能為代價(jià)。相反,在性能方面Spark具有巨大優(yōu)勢(shì)。

1  2  下一頁(yè)>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)