萬字詳解數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺和湖倉一體
本文目錄:
一、前言
二、概念解析
1.數(shù)據(jù)倉庫
2.數(shù)據(jù)湖
3.數(shù)據(jù)中臺
三、具體區(qū)別
1.數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖
2.數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺
3.總結(jié)
四、湖倉一體
1.目前數(shù)據(jù)存儲方案
2.Data Lakehouse(湖倉一體)
一、前言
數(shù)字化轉(zhuǎn)型浪潮卷起各種新老概念滿天飛,數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺輪番在朋友圈刷屏,有人說“數(shù)據(jù)中臺算個啥,數(shù)據(jù)湖才是趨勢”,有人說“再見了數(shù)據(jù)湖、數(shù)據(jù)倉庫,數(shù)據(jù)中臺已成氣候”……
企業(yè)還沒推開數(shù)字化大門,先被各種概念絆了一腳。那么它們 3 者究竟有啥區(qū)別?別急,先跟大家分享兩個有趣的比喻。
1、圖書館VS地攤
如果把數(shù)據(jù)倉庫比喻成“圖書館”,那么數(shù)據(jù)湖就是“地攤”。去圖書館借書(數(shù)據(jù)),書籍質(zhì)量有保障,但你得等,等什么?等管理員先查到這本書屬于哪個類目、在哪個架子上,你才能精準拿到自己想要的書;而地攤上沒有人會給你把關(guān),什么書都有,你自己翻找、隨用隨取,流程上比圖書館便捷多了,但大家找書的過程是沒有經(jīng)驗可復(fù)用的,偶爾多拿少拿咱們可能也不知道。
2、升級版銀行
假定數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺都是銀行,可以提供現(xiàn)金、黃金等多種服務(wù)。過去大家進銀行前都得先問門衛(wèi),里面每個門牌上的數(shù)字對應(yīng)哪個服務(wù)呢?是現(xiàn)金還是黃金呢?然后推開對應(yīng)的門把東西取出來。而有了“數(shù)據(jù)中臺”這個銀行,大家一進來就能看到標著“現(xiàn)金”、“黃金”漢字的窗口,一目了然,你只需要走到窗口前,就有專人幫你辦理。
以上兩個例子不一定全面,但基本能解釋三者的優(yōu)劣勢。數(shù)據(jù)倉庫具備規(guī)范性,但取數(shù)用數(shù)流程長;數(shù)據(jù)湖取數(shù)用數(shù)更實時、存儲量大,但數(shù)據(jù)質(zhì)量難以保障;數(shù)據(jù)中臺能精準快速地響應(yīng)業(yè)務(wù)需求,離業(yè)務(wù)側(cè)最近。
為了更清晰地區(qū)別三者,接下來咱們再來看看它們各自的定義以及應(yīng)用區(qū)別。
二、概念解析
1. 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫誕生于 1990 年,絕對算得上是“老前輩”了,它是一個相對具體的功能概念。目前對數(shù)據(jù)倉庫的主流定義是位于多個數(shù)據(jù)庫上的大容量存儲庫,它的作用在于存儲大量的結(jié)構(gòu)化數(shù)據(jù),并能進行頻繁和可重復(fù)的分析,幫助企業(yè)構(gòu)建商業(yè)智能(BI)。
具體定義:
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),分析出有價值的資訊。
所謂主題:是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進行組織的。
所謂集成:是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。
所謂隨時間變化:是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
數(shù)據(jù)倉庫的作用:
數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當?shù)臅r候通過恰當?shù)姆绞桨亚‘數(shù)男畔鬟f給恰當?shù)娜恕?/p>
是面向企業(yè)中、高級管理進行業(yè)務(wù)分析和績效考核的數(shù)據(jù)整合、分析和展現(xiàn)的工具;
是主要用于歷史性、綜合性和深層次數(shù)據(jù)分析;
數(shù)據(jù)來源是ERP(例:SAP)系統(tǒng)或其他業(yè)務(wù)系統(tǒng);
能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析;
不是日常交易操作系統(tǒng),不能直接產(chǎn)生交易數(shù)據(jù);
實時數(shù)倉
實時數(shù)倉和離線數(shù)倉非常的像,誕生的背景主要是近幾年企業(yè)對于數(shù)據(jù)服務(wù)的實時性需求日益增多。里面的數(shù)據(jù)模型也會像中臺一樣分好幾層:ODS 、CDM、ADS。但整體對于實時性要求極高,因此一般存儲會考慮采用Kafka這種log base的MQ,而計算引擎會采用Flink這種流計算引擎。
2. 數(shù)據(jù)湖
數(shù)據(jù)湖是一種不斷演進中、可擴展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施,它就像一個大型倉庫存儲企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導(dǎo)向,實現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強大的信息處理能力和處理幾乎無限的并發(fā)任務(wù)或工作的能力。
數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級應(yīng)用。結(jié)合先進的數(shù)據(jù)科學與機器學習技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。
進入互聯(lián)網(wǎng)時代,有兩個最重要的變化。
一個是數(shù)據(jù)規(guī)模前所未有,一個成功的互聯(lián)網(wǎng)產(chǎn)品日活可以過億,就像你熟知的頭條、抖音、快手、網(wǎng)易云音樂,每天產(chǎn)生幾千億的用戶行為。傳統(tǒng)數(shù)據(jù)倉庫難于擴展,根本無法承載如此規(guī)模的海量數(shù)據(jù)。
另一個是數(shù)據(jù)類型變得異構(gòu)化,互聯(lián)網(wǎng)時代的數(shù)據(jù)除了來自業(yè)務(wù)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),還有來自 App、Web 的前端埋點數(shù)據(jù),或者業(yè)務(wù)服務(wù)器的后端埋點日志,這些數(shù)據(jù)一般都是半結(jié)構(gòu)化,甚至無結(jié)構(gòu)的。傳統(tǒng)數(shù)據(jù)倉庫對數(shù)據(jù)模型有嚴格的要求,在數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫前,數(shù)據(jù)模型就必須事先定義好,數(shù)據(jù)必須按照模型設(shè)計存儲。
所以,數(shù)據(jù)規(guī)模和數(shù)據(jù)類型的限制,導(dǎo)致傳統(tǒng)數(shù)據(jù)倉庫無法支撐互聯(lián)網(wǎng)時代的商業(yè)智能。
05年的時候,Hadoop誕生了。Hadoop 相比傳統(tǒng)數(shù)據(jù)倉庫主要有兩個優(yōu)勢:
完全分布式,易于擴展,可以使用價格低廉的機器堆出一個計算、存儲能力很強的集群,滿足海量數(shù)據(jù)的處理要求;
弱化數(shù)據(jù)格式,數(shù)據(jù)被集成到 Hadoop 之后,可以不保留任何數(shù)據(jù)格式,數(shù)據(jù)模型與數(shù)據(jù)存儲分離,數(shù)據(jù)(包含了原始數(shù)據(jù))在被使用的時候,可以按照不同的模型讀取,滿足異構(gòu)數(shù)據(jù)靈活分析的需求。而數(shù)倉更加關(guān)注可以作為事實依據(jù)的數(shù)據(jù)。
隨著Hadoop與對象存儲的成熟,數(shù)據(jù)湖的概念在10年被提出:數(shù)據(jù)湖(Data Lake)是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)(這意味著數(shù)據(jù)湖的底層不應(yīng)該與任何存儲耦合)。
對應(yīng)的來說,如果數(shù)據(jù)湖沒有被治理好(缺乏元數(shù)據(jù)、定義數(shù)據(jù)源、制定數(shù)據(jù)訪問策略和安全策略,并移動數(shù)據(jù)、編制數(shù)據(jù)目錄),則會變成數(shù)據(jù)沼澤。
而從產(chǎn)品形態(tài)上來說,數(shù)倉往往是獨立標準化的產(chǎn)品。而數(shù)據(jù)湖更像是一種架構(gòu)指導(dǎo)——需要配合一系列的周邊工具,來實現(xiàn)業(yè)務(wù)需要的數(shù)據(jù)湖。
3. 數(shù)據(jù)中臺
大規(guī)模數(shù)據(jù)的應(yīng)用,也逐漸暴露出現(xiàn)一些問題。
業(yè)務(wù)發(fā)展前期,為了快速實現(xiàn)業(yè)務(wù)的需求,煙囪式的開發(fā)導(dǎo)致企業(yè)不同業(yè)務(wù)線,甚至相同業(yè)務(wù)線的不同應(yīng)用之間,數(shù)據(jù)都是割裂的。兩個數(shù)據(jù)應(yīng)用的相同指標,展示的結(jié)果不一致,導(dǎo)致運營對數(shù)據(jù)的信任度下降。如果你是運營,當你想看一下商品的銷售額,發(fā)現(xiàn)兩個報表上,都叫銷售額的指標出現(xiàn)了兩個值,你的感受如何? 你第一反應(yīng)肯定是數(shù)據(jù)算錯了,你不敢繼續(xù)使用這個數(shù)據(jù)了。
數(shù)據(jù)割裂的另外一個問題,就是大量的重復(fù)計算、開發(fā),導(dǎo)致的研發(fā)效率的浪費,計算、存儲資源的浪費,大數(shù)據(jù)的應(yīng)用成本越來越高。
如果你是運營,當你想要一個數(shù)據(jù)的時候,開發(fā)告訴你至少需要一周,你肯定想是不是太慢了,能不能再快一點兒?
如果你是數(shù)據(jù)開發(fā),當面對大量的需求的時候,你肯定是在抱怨,需求太多,人太少,活干不完。
如果你是一個企業(yè)的老板,當你看到每個月的賬單成指數(shù)級增長的時候,你肯定覺得這也太貴了,能不能再省一點,要不吃不消了。
這些問題的根源在于,數(shù)據(jù)無法共享。2016 年,阿里巴巴率先提出了“數(shù)據(jù)中臺”的口號。數(shù)據(jù)中臺的核心,是避免數(shù)據(jù)的重復(fù)計算,通過數(shù)據(jù)服務(wù)化,提高數(shù)據(jù)的共享能力,賦能數(shù)據(jù)應(yīng)用。之前,數(shù)據(jù)是要啥沒啥,中間數(shù)據(jù)難于共享,無法積累,F(xiàn)在建設(shè)數(shù)據(jù)中臺之后,要啥有啥,數(shù)據(jù)應(yīng)用的研發(fā)速度不再受限于數(shù)據(jù)開發(fā)的速度,一夜之間,我們就可以根據(jù)場景,孵化出很多數(shù)據(jù)應(yīng)用,這些應(yīng)用讓數(shù)據(jù)產(chǎn)生價值。
數(shù)據(jù)中臺樣板
在建設(shè)中臺的過程中,一般強調(diào)這樣幾個重點:
效率、質(zhì)量和成本是決定數(shù)據(jù)能否支撐好業(yè)務(wù)的關(guān)鍵,構(gòu)建數(shù)據(jù)中臺的目標就是要實現(xiàn)高效率、高質(zhì)量、低成本。
數(shù)據(jù)只加工一次是建設(shè)數(shù)據(jù)中臺的核心,本質(zhì)上是要實現(xiàn)公共計算邏輯的下沉和復(fù)用。
如果你的企業(yè)擁有 3 個以上的數(shù)據(jù)應(yīng)用場景,數(shù)據(jù)產(chǎn)品還在不斷研發(fā)和更新,你必須要認真考慮建設(shè)數(shù)據(jù)中臺。
那么接下來就看一下阿里巴巴對于數(shù)據(jù)中臺的實踐。
正如上述提到的數(shù)據(jù)只加工一次是建設(shè)數(shù)據(jù)中臺的核心,本質(zhì)上是要實現(xiàn)公共計算邏輯的下沉和復(fù)用。阿里數(shù)據(jù)中臺提到了各種one思想,如:
OneData:公共數(shù)據(jù)只保存一份OneService:通過一個服務(wù)接口進行暴露

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?