久久婷婷五月综合综合色啪,精品国产日韩亚洲一区

當(dāng)前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

探索圖數(shù)據(jù)庫在數(shù)據(jù)資產(chǎn)可視化中的應(yīng)用

2020-07-09 10:04

劣勢：

新圖形數(shù)據(jù)庫

可視化工具缺乏（可繼承第三方工具Cytoscape、Gephi等）

2．關(guān)系型數(shù)據(jù)庫和圖數(shù)據(jù)庫的區(qū)別

與傳統(tǒng)關(guān)系型數(shù)據(jù)庫相比，圖數(shù)據(jù)庫的優(yōu)勢

優(yōu)秀的查詢性能

相對于關(guān)系型數(shù)據(jù)庫，圖數(shù)據(jù)庫產(chǎn)品在設(shè)計上避免大量的join操作，提供快速的查詢。圖數(shù)據(jù)庫則天然把關(guān)聯(lián)數(shù)據(jù)連接在一起，無需耗時耗內(nèi)存的Join操作，可以保持常數(shù)級時間復(fù)雜度。

靈活的數(shù)據(jù)建模和查詢語言，Schema－less

多數(shù)圖數(shù)據(jù)庫沒有預(yù)設(shè)的schema，借助底層的存儲機(jī)制，能夠更加靈活的變更結(jié)構(gòu)

靈活的圖查詢語言，輕松實現(xiàn)復(fù)雜關(guān)系網(wǎng)絡(luò)的分析

靈活的數(shù)據(jù)模型可以適應(yīng)不斷變化的業(yè)務(wù)需求

易于理解，更加敏捷

相對于關(guān)系型數(shù)據(jù)庫的二維表格，圖的組織形式更接近于現(xiàn)實世界，易于理解

可以很自然的表達(dá)現(xiàn)實世界中的實體及其關(guān)聯(lián)關(guān)系（對應(yīng)圖的頂點及邊）

關(guān)系型數(shù)據(jù)庫在遍歷關(guān)系網(wǎng)絡(luò)并抽取信息的能力非常弱，圖數(shù)據(jù)庫則為此而生

基于圖算法提供強(qiáng)大分析能力

PageRank／社區(qū)發(fā)現(xiàn)算法等

圖數(shù)據(jù)庫的功能是傳統(tǒng)關(guān)系型數(shù)據(jù)庫的一個拓展，相比較關(guān)系型數(shù)據(jù)庫僅支持表結(jié)構(gòu)，圖數(shù)據(jù)支持的圖結(jié)構(gòu)更為靈活。圖數(shù)據(jù)庫在基于圖的數(shù)據(jù)增加、刪除、查詢、修改等方面做了不同于其他數(shù)據(jù)庫的設(shè)計。在圖數(shù)據(jù)的操作抽象上，采用基于頂點的視角，比如頂點通過其所有處、邊訪問其鄰接頂點，這一類的操作也是圖數(shù)據(jù)庫系統(tǒng)設(shè)計的核心。

圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫優(yōu)劣比對

優(yōu)勢

a）用戶可以面向?qū)ο蟮乃伎�，用戶使用的每個查詢都有顯式語義；

b）用戶可以實時更新和查詢圖數(shù)據(jù)庫；

c）圖數(shù)據(jù)庫可以靈活應(yīng)對海量的關(guān)系變化，如增加刪除關(guān)系、實體等；

d）圖數(shù)據(jù)庫有利于實時的大數(shù)據(jù)挖掘結(jié)果可視化。

劣勢

a）不適合記錄大量基于事件的數(shù)據(jù)（例如日志條目）；

b）二進(jìn)制數(shù)據(jù)存儲。

c）并發(fā)性能要求高的項目。

d）目前相關(guān)圖查詢語言比較多，尚未有很好統(tǒng)一。

e）圖數(shù)據(jù)庫相關(guān)的一些書籍文檔偏少，相關(guān)生態(tài)還在不斷完善。

圖數(shù)據(jù)庫在處理關(guān)聯(lián)關(guān)系上具有完全的優(yōu)勢，但是在一些場景下，圖數(shù)據(jù)庫并不能完全代替關(guān)系型數(shù)據(jù)庫。

圖數(shù)據(jù)庫在處理關(guān)聯(lián)數(shù)據(jù)時三個技術(shù)優(yōu)勢

1、性能方面：

隨著數(shù)據(jù)量的增多和關(guān)聯(lián)深度的增加，傳統(tǒng)關(guān)系型數(shù)據(jù)庫受制于檢索時需要多個表之間連接操作，數(shù)據(jù)寫入時也需考慮外鍵約束，從而導(dǎo)致較大的額外開銷，產(chǎn)生嚴(yán)重的性能問題。而圖模型固有的數(shù)據(jù)索引結(jié)構(gòu)，使得它的數(shù)據(jù)查詢與分析速度更快。在關(guān)聯(lián)關(guān)系的處理上，用關(guān)系型數(shù)據(jù)庫處理不可避免要用到表的JOIN操作，對性能的影響較大；而圖數(shù)據(jù)庫則是類指針直接跳轉(zhuǎn)訪問，更高效的操作關(guān)聯(lián)數(shù)據(jù)，比關(guān)系型數(shù)據(jù)庫有2到4個數(shù)量級的性能提升。

2、靈活度方面：

圖數(shù)據(jù)庫有非常靈活的數(shù)據(jù)模型，使用者可以根據(jù)業(yè)務(wù)變化隨時調(diào)整數(shù)據(jù)模型，比如任意添加或刪除頂點、邊，擴(kuò)充或者縮小圖模型這些都可以輕松實現(xiàn)，這種頻繁的 Schema 更改在關(guān)系型數(shù)據(jù)庫上不能到很好的支持。現(xiàn)實中，項目的進(jìn)程往往是不斷演進(jìn)的。數(shù)據(jù)的內(nèi)容甚至數(shù)據(jù)格式也會不斷發(fā)生變化。在關(guān)系型數(shù)據(jù)庫中，這意味著表結(jié)構(gòu)的變化，或者多個新表的建立，對源數(shù)據(jù)的改動非常大。而在圖數(shù)據(jù)庫里，僅需添加新的頂點、邊、屬性，設(shè)置為對應(yīng)的類型即可。從本質(zhì)上說，一個表代表一個類型的數(shù)據(jù)，一個頂點代表一個特定的數(shù)據(jù)，意味著關(guān)系數(shù)據(jù)庫更關(guān)注數(shù)據(jù)的類型，而圖數(shù)據(jù)庫更關(guān)注數(shù)據(jù)的個體，識別其關(guān)聯(lián)關(guān)系。

3、敏捷度方面：

圖數(shù)據(jù)庫的圖模型非常直觀，支持測試驅(qū)動開發(fā)模式，每次構(gòu)建時可進(jìn)行功能測試和性能測試，符合當(dāng)今最流行的敏捷開發(fā)需求，對于提高生產(chǎn)和交付效率也有一定幫助。使用圖（或者網(wǎng)）的方式來表達(dá)現(xiàn)實世界的關(guān)系更加直接、自然，在萬物互聯(lián)的物聯(lián)網(wǎng)時代尤為突出。如果采用關(guān)系型數(shù)據(jù)，先將人物建表，再將關(guān)系建表，最后將數(shù)據(jù)進(jìn)行映射，需要高度的抽象思維。在圖數(shù)據(jù)上進(jìn)行分析查詢時，也可以直觀地通過點邊連接的拓?fù)�，交互式找到想要的�?shù)據(jù)，不需要具備任何的專業(yè)知識。

傳統(tǒng)關(guān)系數(shù)據(jù)庫的性能問題

性能問題的本質(zhì)在于數(shù)據(jù)分析面臨的數(shù)據(jù)量，假如只查詢幾十個節(jié)點或者更少的內(nèi)容，這種操作是完全不需要考慮數(shù)據(jù)庫性能優(yōu)化的，但當(dāng)節(jié)點數(shù)據(jù)從幾百個變成幾百萬個甚至幾千萬個后，數(shù)據(jù)庫性能就成為了整個產(chǎn)品設(shè)計的過程中最需考慮的因素之一。

在數(shù)據(jù)量這么大的場景中，使用傳統(tǒng) SQL 會產(chǎn)生很大的性能問題，原因主要有兩個：

1、大量 JOIN 操作帶來的開銷：

之前的查詢語句使用了大量的 JOIN 操作來找到需要的結(jié)果。而大量的 JOIN 操作在數(shù)據(jù)量很大時會有巨大的性能損失，因為數(shù)據(jù)本身是被存放在指定的地方，查詢本身只需要用到部分?jǐn)?shù)據(jù)，但是 JOIN 操作本身會遍歷整個數(shù)據(jù)庫，這樣就會導(dǎo)致查詢效率低到讓人無法接受。

2、反向查詢帶來的開銷：

查詢單個經(jīng)理的下屬不需要多少開銷，但是如果我們要去反向查詢一個員工的老板，使用表結(jié)構(gòu)，開銷就會變得非常大。表結(jié)構(gòu)設(shè)計得不合理，會對后續(xù)的分析、推薦系統(tǒng)產(chǎn)生性能上的影響。比如，當(dāng)關(guān)系從＿老板－＞員工變成＿用戶－＞產(chǎn)品，如果不支持反向查詢，推薦系統(tǒng)的實時性就會大打折扣，進(jìn)而帶來經(jīng)濟(jì)損失。

圖數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫性能比較

如圖所見，傳統(tǒng)關(guān)系型數(shù)據(jù)庫可以非常好地處理深度為2和3的查詢。join操作在關(guān)系型數(shù)據(jù)庫世界中很常見，大多數(shù)數(shù)據(jù)庫都是如此設(shè)計，在某些特定列上使用索引相關(guān)也能幫助最大化join操作的性能。然而，當(dāng)深度達(dá)到4和5時，您會看到性能顯著下降：一個涉及4個join的查詢需要10秒以上才能完成，而在深度為5時更花了太長時間，超過一分半鐘，雖然計數(shù)結(jié)果沒有改變。這恰恰說明了在對圖結(jié)構(gòu)數(shù)據(jù)建模時關(guān)系型數(shù)據(jù)庫的局限性：深度圖遍歷需要多個join操作，關(guān)系數(shù)據(jù)庫通常并不擅長這種處理。

但是圖數(shù)據(jù)庫，可以看見，除了最簡單的查詢，圖數(shù)據(jù)庫在其他查詢的性能表現(xiàn)上都是明顯更好的那一個。只有在尋找朋友的朋友時（深度為2），關(guān)系型數(shù)據(jù)庫性能可與圖數(shù)據(jù)庫遍歷的性能相媲美。在深度為3時的遍歷比關(guān)系型數(shù)據(jù)庫快4倍。在深度為4，結(jié)果則要好五個數(shù)量級。深度為5時，圖數(shù)據(jù)庫結(jié)果的速度甚至要比關(guān)系型數(shù)據(jù)庫要快1000萬倍。關(guān)系型數(shù)據(jù)庫查詢性能下降如此之快正是由于，join操作需要對全部數(shù)據(jù)進(jìn)行笛卡爾積運(yùn)算，其中大部分的數(shù)據(jù)我們并不需要。

3．探索圖數(shù)據(jù)庫在數(shù)據(jù)資產(chǎn)可視化中的應(yīng)用

當(dāng)前這種任務(wù)擴(kuò)展方式僅僅只是給開發(fā)人員提供了便利，但是用戶仍然很難擴(kuò)展自己的任務(wù)，因此后續(xù)會考慮將任務(wù)擴(kuò)展的能力做成平臺功能的一部分提供給用戶使用。

我們以Apache Atlas為例，探索圖數(shù)據(jù)庫在數(shù)據(jù)資產(chǎn)可視化方面的應(yīng)用。

Apache Atlas是Hadoop的數(shù)據(jù)治理和元數(shù)據(jù)框架。是一組可擴(kuò)展和可擴(kuò)展的核心基礎(chǔ)治理服務(wù)，使企業(yè)能夠有效，高效地滿足Hadoop中的合規(guī)性要求，并允許與整個企業(yè)數(shù)據(jù)生態(tài)系統(tǒng)集成。

<上一頁 1 2 3 4 下一頁> 余下全文

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频