訂閱
糾錯
加入自媒體

萬字詳解數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺和湖倉一體

2022-02-21 11:51
園陌
關(guān)注


三、具體區(qū)別

1. 數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖

相較而言,數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會接受數(shù)據(jù)治理,但專家們一致認為良好的數(shù)據(jù)管理對預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數(shù)據(jù)湖非常適合使用機器學習和深度學習來執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等。

2. 數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺

數(shù)據(jù)倉庫和傳統(tǒng)的數(shù)據(jù)平臺,其出發(fā)點為一個支撐性的技術(shù)系統(tǒng),即一定要先考慮我具有什么數(shù)據(jù),然后我才能干什么,因此特別強調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理;而數(shù)據(jù)中臺的第一出發(fā)點不是數(shù)據(jù)而是業(yè)務(wù),一開始不用看你系統(tǒng)里面有什么數(shù)據(jù),而是去解決你的業(yè)務(wù)問題需要什么樣的數(shù)據(jù)服務(wù)。

在具體的技術(shù)處理環(huán)節(jié),二者也有明顯不同,數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT結(jié)構(gòu)轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進行建模分析。

3. 總結(jié)

根據(jù)以上數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念論述和對比,我們進行如下總結(jié):

數(shù)據(jù)中臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關(guān)系;

數(shù)據(jù)中臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個維度上為業(yè)務(wù)產(chǎn)生價值的形式有不同的側(cè)重;

數(shù)據(jù)中臺是企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;

數(shù)據(jù)倉庫是一個相對具體的功能概念,是存儲和管理一個或多個主題數(shù)據(jù)的集合,為業(yè)務(wù)提供服務(wù)的方式主要是分析報表;

數(shù)據(jù)中臺距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù);

數(shù)據(jù)倉庫是為了支持管理決策分析,而數(shù)據(jù)中臺則是將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),不僅限于分析型場景,也適用于交易型場景;

數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價值的過程的中間層。

四、湖倉一體

有人說“湖倉一體成為下一站燈塔,數(shù)倉、數(shù)據(jù)湖架構(gòu)即將退出群聊”。

2020年,大數(shù)據(jù)DataBricks公司首次提出了湖倉一體(Data Lakehouse)概念,希望將數(shù)據(jù)湖和數(shù)據(jù)倉庫技術(shù)合而為一,此概念一出各路云廠商紛紛跟進。

Data Lakehouse(湖倉一體)是新出現(xiàn)的一種數(shù)據(jù)架構(gòu),它同時吸收了數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢,數(shù)據(jù)分析師和數(shù)據(jù)科學家可以在同一個數(shù)據(jù)存儲中對數(shù)據(jù)進行操作,同時它也能為公司進行數(shù)據(jù)治理帶來更多的便利性。

1. 目前數(shù)據(jù)存儲的方案

一直以來,我們都在使用兩種數(shù)據(jù)存儲方式來架構(gòu)數(shù)據(jù):

數(shù)據(jù)倉庫:主要存儲的是以關(guān)系型數(shù)據(jù)庫組織起來的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過轉(zhuǎn)換、整合以及清理,并導(dǎo)入到目標表中。在數(shù)倉中,數(shù)據(jù)存儲的結(jié)構(gòu)與其定義的schema是強匹配的。

數(shù)據(jù)湖:存儲任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖通常更大,其存儲成本也更為廉價。存儲其中的數(shù)據(jù)不需要滿足特定的schema,數(shù)據(jù)湖也不會嘗試去將特定的schema施行其上。相反的是,數(shù)據(jù)的擁有者通常會在讀取數(shù)據(jù)的時候解析schema(schema-on-read),當處理相應(yīng)的數(shù)據(jù)時,將轉(zhuǎn)換施加其上。

現(xiàn)在許多的公司往往同時會搭建數(shù)倉、數(shù)據(jù)湖這兩種存儲架構(gòu),一個大的數(shù)倉和多個小的數(shù)據(jù)湖。這樣,數(shù)據(jù)在這兩種存儲中就會有一定的冗余。

2. Data Lakehouse(湖倉一體)

Data Lakehouse的出現(xiàn)試圖去融合數(shù)倉和數(shù)據(jù)湖這兩者之間的差異,通過將數(shù)倉構(gòu)建在數(shù)據(jù)湖上,使得存儲變得更為廉價和彈性,同時lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余。在lakehouse的構(gòu)建中,ETL起了非常重要的作用,它能夠?qū)⑽唇?jīng)規(guī)整的數(shù)據(jù)湖層數(shù)據(jù)轉(zhuǎn)換成數(shù)倉層結(jié)構(gòu)化的數(shù)據(jù)。

下面詳細解釋下:

湖倉一體(Data Lakehouse):

依據(jù)DataBricks公司對Lakehouse 的定義:一種結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫優(yōu)勢的新范式,解決了數(shù)據(jù)湖的局限性。Lakehouse 使用新的系統(tǒng)設(shè)計:直接在用于數(shù)據(jù)湖的低成本存儲上實現(xiàn)與數(shù)據(jù)倉庫中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。

解釋拓展:

湖倉一體,簡單理解就是把面向企業(yè)的數(shù)據(jù)倉庫技術(shù)與數(shù)據(jù)湖存儲技術(shù)相結(jié)合,為企業(yè)提供一個統(tǒng)一的、可共享的數(shù)據(jù)底座。

避免傳統(tǒng)的數(shù)據(jù)湖、數(shù)據(jù)倉庫之間的數(shù)據(jù)移動,將原始數(shù)據(jù)、加工清洗數(shù)據(jù)、模型化數(shù)據(jù),共同存儲于一體化的“湖倉”中,既能面向業(yè)務(wù)實現(xiàn)高并發(fā)、精準化、高性能的歷史數(shù)據(jù)、實時數(shù)據(jù)的查詢服務(wù),又能承載分析報表、批處理、數(shù)據(jù)挖掘等分析型業(yè)務(wù)。

湖倉一體方案的出現(xiàn),幫助企業(yè)構(gòu)建起全新的、融合的數(shù)據(jù)平臺。通過對機器學習和AI算法的支持,實現(xiàn)數(shù)據(jù)湖+數(shù)據(jù)倉庫的閉環(huán),提升業(yè)務(wù)的效率。數(shù)據(jù)湖和數(shù)據(jù)倉庫的能力充分結(jié)合,形成互補,同時對接上層多樣化的計算生態(tài)。

Lakehouse有如下關(guān)鍵特性:

事物支持:Lakehouse 在企業(yè)級應(yīng)用中,許多數(shù)據(jù)管道通常會同時讀取和寫入數(shù)據(jù)。通常多方同時使用 SQL 讀取或?qū)懭霐?shù)據(jù),Lakehouse 保證支持ACID事務(wù)的一致性。

模式實施和治理:Lakehouse 應(yīng)該有一種支持模式實施和演變的方法,支持 DW 模式規(guī)范,例如 star /snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并且應(yīng)該具有健壯的治理和審核機制。

BI支持:Lakehouse 可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少陳舊度和等待時間,提高新近度,并且降低必須在數(shù)據(jù)湖和倉庫中操作兩個數(shù)據(jù)副本的成本。

存儲與計算分離:事實上,這意味著存儲和計算使用單獨的群集,因此這些系統(tǒng)能夠擴展到更多并發(fā)用戶和更大數(shù)據(jù)量。一些現(xiàn)代數(shù)據(jù)倉庫也具有這種屬性。

兼容性:Lakehouse 使用的存儲格式是開放式和標準化的,例如 Parquet,并且它提供了多種 API,包括機器學習和 Python/R 庫,因此各種工具和引擎都可以直接有效地訪問數(shù)據(jù)。

支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型:Lakehouse 可用于存儲,優(yōu)化,分析和訪問許多新數(shù)據(jù)應(yīng)用程序所需的數(shù)據(jù)類型,包括圖像,視頻,音頻,半結(jié)構(gòu)化數(shù)據(jù)和文本。

支持各種工作場景:包括數(shù)據(jù)科學,機器學習和 SQL 分析。這些可能依賴于多種工具來支持的工作場景,它們都依賴于相同的數(shù)據(jù)存儲庫。

端到端流式任務(wù):實時報告是許多企業(yè)的日常需要。對流處理的支持消除了對專門服務(wù)于實時數(shù)據(jù)應(yīng)用程序的單獨系統(tǒng)的需求。

上面這張圖是DataBricks給出的架構(gòu)演化參考圖。

我們可以看到,傳統(tǒng)的數(shù)倉目標非常明確,適用于將各業(yè)務(wù)數(shù)據(jù)源合并后,進行商務(wù)BI分析和報表。隨著企業(yè)需要處理的數(shù)據(jù)類型越來越多,包括客戶行為,IoT,圖片,視頻等, 數(shù)據(jù)規(guī)模也成指數(shù)增加。

數(shù)據(jù)湖技術(shù)被引入,并用于承擔通用數(shù)據(jù)存儲和處理平臺的作用,數(shù)據(jù)湖由于其分布式存儲和計算能力的特點,也可以更好的支持機器學習計算, 在數(shù)據(jù)湖時代,我們通?梢钥吹紻ataLake和Data Warehouse還是會同時存在的。

隨著大數(shù)據(jù)時代的到來,是不是有可能讓大數(shù)據(jù)技術(shù)可以取代傳統(tǒng)數(shù)倉,形成一個統(tǒng)一的數(shù)據(jù)處理架構(gòu),湖倉一體的概念被提出,并由DataBricks和云廠商們在進行快速的推演和實踐。

--END--

       原文標題 : 萬字詳解數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺和湖倉一體

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號