專場6.2-Hubble Ai-native數據庫存儲之列存-喬旺龍.pdf

編號:126858 PDF 24頁 1.19MB 下載積分:VIP專享
下載報告請您先登錄!

專場6.2-Hubble Ai-native數據庫存儲之列存-喬旺龍.pdf

1、Hubble Ai-Natve數據庫混合存儲之列存喬旺龍+天云數據+分布式平臺負責人Hubble數據庫架構圖邏輯計劃圖應用圖表達圖數據存儲索引邏輯PageRank社團分析廣度優先搜索(BFS)關聯性分析深度優先搜索(DFS)最短路徑相似性發現隨機游走接口層管理接口TinkerPop接口GremlinSQL邏輯計劃JDBC接口管理接口庫表管理權限管理系統管理事務管理分片管理服務管理SQL解析JDBC服務資源管理Web管理服務客戶端混合計算框架混合存儲存儲層(Storage)存儲/索引引擎(Storage Engine)分片(Shard)分片(Shard)分片(Shard)分片(Shard)存儲層

2、(Storage)存儲/索引引擎(Storage Engine)分片(Shard)分片(Shard)分片(Shard)分片(Shard)存儲層(Storage)存儲/索引引擎(Storage Engine)分片(Shard)分片(Shard)分片(Shard)分片(Shard)執行器(Execution)數據掃描(條件下壓)內存計算任務管理執行器(Execution)數據掃描(條件下壓)內存計算任務管理執行器(Execution)數據掃描(條件下壓)內存計算任務管理混合資源管理資源管理AP/TP任務分配資源告警資源收集資源池資源分配資源管理AP/TP任務分配資源告警資源收集資源池資源分配資源管

3、理AP/TP任務分配資源告警資源收集資源池資源分配邏輯計劃融合-圖邏輯計劃融合實現數據結構映射 圖的存儲結構映射到Hubble的存儲層 圖的索引結構映射Hubble的索引 通過SQL可以查看圖的底層數據多源異構圖結構 圖的節點、邊、屬性等映射為數據庫的表和字段等 圖的數據可以供給Hubble的計算層 通過SQL可以方便的訪問圖的數據,且可以把結構化數據轉換為圖的數據結構支撐圖算法 用Hubble的計算引擎支撐圖的算法 在統一的組件中實現圖的AP、TP操作 圖算法計算結果可以直接在圖庫中表達兼容Gremlin 延續用戶使用圖數據庫習慣 Gremlin中擴展SQL表達,可以同時操作結構化數據和圖結

4、構數據數據復用 在實際應用中,沒有必要把全部的數據加載到圖庫中 因為圖結構和數據庫結構為一體的所以圖的數據直接調用數據庫中的數據 圖結構更適合高維的表達,數據庫結構更適合表結構數據實現互補混合存儲混合存儲數據映射數據映射多源異構圖數據庫邏輯SQL接口接口ThinkerPop API-Gremlin混合計算引擎混合計算引擎嵌入接口服務供數分析任務讀取數據管理管理API存取數據用戶用戶數據轉換名稱名稱中文中文描述描述Dataspace數據空間是一個分布式空間,通常一張表對應一個dataspace,一個dataspace對應多個Shard,dataspace可以是獨占的存儲空間也可以是非獨占空間。E

5、xclusivespace獨占空間是dataspace的一種,可以通過dataspace中的一個屬性來描述,通常這個空間會在磁盤上有獨占的存儲目錄,與其他空間是物理隔離的,獨占空間包含多個shard,所有的shard屬于同一個dataspace,屬于同一張表。Non-exclusivespace非獨占空間是dataspace的一種,可以通過dataspace中的一個屬性來描述,會與其他非獨占空間的dataspace共用磁盤目錄,通過邏輯來隔離,非獨占空間會包含多個shard,多個shard可能屬于多個dataspace,屬于多張表。Diskstorage磁盤存儲1個diskstorage指的就

6、是一個磁盤目錄,也就是一個存儲的實例。磁盤Diskstorage1(目錄1)Diskstorage2(目錄2)Diskstorage N(目錄N)服務器磁盤1Diskstorage1(目錄1)Diskstorage2(目錄2)DiskstorageN(目錄N)磁盤2Diskstorage1(目錄1)Diskstorage2(目錄2)DiskstorageN(目錄N)磁盤NDiskstorage1(目錄1)Diskstorage2(目錄2)DiskstorageN(目錄N)DiskstorageShard1(規則1)Shard2(規則2)Shard N(規則N)存儲樣例服務器1磁盤1Diskst

7、orage1(目錄1)Diskstorage2(目錄2)shard1shard2shard3shard7shard8shard9”磁盤2Diskstorage3(目錄1)Diskstorage4(目錄2)shard4shard5”shard6”shard10shard11shard12”服務器3磁盤1Diskstorage9(目錄1)Diskstorage10(目錄2)Shard1”Shard2”Shard3”Shard7”shard8Shard9磁盤2Diskstorag11(目錄1)Diskstorage12(目錄2)Shard4”shard5shard6shard10”shard11sh

8、ard12服務器2磁盤1Diskstorage5(目錄1)Diskstorage6(目錄2)shard1shard2shard3Shard7shard8”shard9磁盤2Diskstorage7(目錄1)Diskstorage8(目錄2)shard4shard5shard6shard10shard11”shard12Dataspace1非獨占空間圖例:Dataspace2非獨占空間Dataspace3獨占空間假定有3臺服務器,每臺服務器有兩塊磁盤,總共有3張表:表1對應 Dataspace1表2對應 Dataspace2表3對應 Dataspace3表1 為非獨占空間非獨占空間,有2個sha

9、rd分別是shard1和shard4表2 為非獨占空間非獨占空間,有4個shard分別是shard2、shard3、shard5、shard6表3 為獨占空間獨占空間,有6個shard分別是 shard7、shard8、shard9、shard10、shard11、shard12從圖中可以看到表1 和 表2共用一個磁盤目錄,表3單獨占用了一個磁盤目錄注:因為對應的線過多,圖中僅畫shard1和shard2的復制路徑獨占空間的進一步細化,針對多個目錄下如何分片數據。圖邏輯計劃-數據結構映射存儲結構存儲結構描述描述圖ID圖的ID數據管理,負責圖ID自動生成,復用序列管理節點序列邊序列屬性標簽序列等

10、數據存儲用于存儲點、邊、屬性、標簽等數據圖索引圖的索引管理,復用Hubble的索引系統參數系統參數表Hubble混合存儲提供分布式KV接口數據結構映射需要把圖的點、邊、屬性、標簽等內容映射到KV的數據結構中圖數據庫ID,復用數據庫分布式序列管理圖索引,復用數據庫的索引機制1、通過多源異構的方式,實現了圖的SQL表達:通過SQL來訪問圖的點、邊、屬性等數據2、圖的批量數據加載,只需一條SQL語句(create table as 或者 insert into select*from)3、對分析類操作直接在Hubble數據庫的計算層和調度層處理,真正實現圖數據庫的一體化結構化表達邊點屬性標簽Hubb

11、le關鍵技術點 數據一致性Mastermaster1master2master3Client機器1ShardServer1Shard1Shard2.機器2ShardServer2Shard2Shard1.機器3ShardServer3Shard3Shard1.機器4ShardServer4Shard3Shard2.Shard3Raft GroupsHubble Store刷新路由表訪問RouteShard1LeaderShard1FollowerShard1Follower日志復制日志復制Shard2LeaderShard2FollowerShard2Follower日志復制日志復制Clien

12、tHubble關鍵技術點-高并發存儲行存儲格式3種sharding機制等值哈希范圍數據sharding基于LSM KV儲存結構流程說明:流程說明:客戶端通過不同的接口訪問形式,直接訪問主服務節點服務主服務節點收到服務請求進行分析處理,分配到不同的分配服務節點執行分片服務節點收到執行請求,進行sql解析處理并執行SQL計劃SQL執行服務底層存儲數據進行處理訪問,并反回處理結果Zookeeper保證相關服務應用的高可用HDFS持久化底層存儲數據,并利用三副本技術保證數據不丟失索引index_id為自增二級索引可以刪除、修改等操作每個二級索引對應一個ColumnFamily,CF名稱index na

13、meKeyIndex_id,NULL-byte,二級索引列,主鍵列二級索引字段為索引的IDValue主鍵在key的起始位置存儲和索引在同一存儲和索引在同一個個shard中中KV索引索引倒排索引倒排索引復合索引、索引選復合索引、索引選擇評分機制使用最擇評分機制使用最匹配的索引映射查匹配的索引映射查詢詢Hubble關鍵技術點-高并發索引Hubble關鍵技術點-高并發事務事務事務開始,記錄事務唯一ID,執行操作,記錄修改的shard,執行預提交動作,提交或回滾MVCC讀取使用快照讀取,存儲層每次寫入都是追加寫入,通過覆蓋機制進行數據變更寫入時當前采用鎖機制寫事務讀事務全局事務:2PC本地事務:LOC

14、K全局轉本地Hubble關鍵技術點-高并發事務高并發事務分布式事務控制2PC執行步驟1、開始事務,產生事務唯一ID(UUID)2、執行操作、記錄修改的Shard3、執行預提交4、執行提交或回滾MVCC機制1、每次讀取都是當前狀態下的快照2、每次寫入都是追加寫入,通過覆蓋機制實現數據變更鎖機制悲觀鎖1,事務開始鎖定需要記錄的Key2、事務結束釋放Key樂觀鎖1、事務開始不做任何操作2、事務結束,做事務合并,數據已經變更,事務失敗回滾,數據未變更提交成功Hubble關鍵技術點-混合實現JDBC接口負載均衡TPAP資源控制數據索引索引算法優化LOOKUP列存儲內存計算資源管理Hubble關鍵技術點

15、資源管理資源管理 實時獲取每個shardservercpu的使用情況 以及每個任務cpu資源占用情況CPU管理內存管理 實時獲取每個shardserver內存的使用情況 以及每個任務cpu資源占用情況 FIFO Scheduler 先進先出 Fair Scheduler 公平調度每個單獨的任務可以指定優先級調度模式為提升AP的性能,Hubble中的表可以是列式存儲,列式存儲可以是一個連續的IO操作,減少隨機讀取列存Hubble可以指定每張表在數據入庫時,或者入庫后做數據統計根據數據統計值與數據分布情況,可以做boolfilter,減少數據提取的量預先統計線程的啟動快速,資源占用少,啟動靈活,可

16、以支持更多并發線程調度支持snappy、gz、izo、iz4等多種壓縮格式,減少數據IO壓縮Hubble在Shardserver的執行層實現了基于內存的計算框架,減少數據的落地內存計算Hubble關鍵技術點 性能保證應用場景怎么跑這么慢,今天要是不能按時開門就慘了。領導要的報表還沒跑出來,要扣獎金了。今天月末了,不知道指標都完成的怎么樣了?市場有新的動向,不知行內客戶的反應怎么樣?查到客戶存了一筆錢進來,想針對客戶推個新產品,結果不知道客戶已經把錢取走了。一個貸款的審批流程加工好再審批都過了一天了,客戶不能及時得到批復,客戶反映體驗不好。銀行科技人員總行分行領導一線營銷經理一線客戶經理訪問速度

17、慢,延時性高決策及時性差營銷精準性差客戶體驗性差傳統數據集市現狀基于傳統技術的銀行數據建設現狀業務科技固定報表有需求,去提工單由IT驅動變為業務驅動業務科技自助分析有需求,自助分析高效的OLAP分析業務驅動數據分析成為流行文件存儲關系數據庫關系數據庫文件存儲寬表存儲Key-Value存儲實時查詢企業數據應用系統連接Hubble的使用價值Hubble數據庫適用場景Hive加工數據性能問題Spark加工數據并發訪問問題ES 開發復雜度問題Hbase開發復雜度問題Hbase數據庫查詢不靈活問題Kylin數據加工時效性和數據靈活訪問問題Phenix組件穩定性問題數據遷移問題加工性能問題開發難度問題BI

18、分析的小屏化數據在線化AP場景高并發訪問數倉消費化數據下沉數據即席服務歷史數據在線服務實時數據在線服務 場景1 行業數據中臺統一數據交換統一數據門戶數據通道計算平臺數據治理平臺數據管控內部結構化數據內部非結構化數據外部結構化數據外部非結構化數據數據標準化區海量數據區數據中臺圖計算平臺人工智能平臺數據產品門 戶實時流數據數據倉庫非結構化數據平臺行外數據平臺人物畫像數據魔方實時預警模型探索場景1 行業數據中臺統一數據交換統一數據門戶數據通道計算平臺數據治理平臺數據管控內部結構化數據內部非結構化數據外部結構化數據外部非結構化數據數據標準化區海量數據區數據中臺HilbertMaximAI數據產品門 戶

19、人物畫像數據魔方實時預警模型探索Kafka+FlinkMPPHadoop HbaseElastic SearchKafka+FlinkMPPHadoop HbaseElastic Search實時數據處理多數據源系統數據源數據采集Flume定制化Agent AAgent BAgent NKafkaTopic BTopic NTopic A實時流處理StormJob BJob NJob A數據中臺檢索查詢Hbase全文搜索索引存儲Elastic Search混布數據平臺Hubble數據訪問方式人工智能數據挖掘KaleidoMaximAI分析展現圖展現SQL/BIHilbert實時告警實時儀表盤應用系統日志Syslog網站訪問日志weblog其他日志系統日志類數據實時流數據外部數據源內部數據源場景場景1 1-數據中臺數據中臺

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(專場6.2-Hubble Ai-native數據庫存儲之列存-喬旺龍.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站