《AnalyticDB-快數據時代的實時數據倉庫技術內幕(15頁).pdf》由會員分享,可在線閱讀,更多相關《AnalyticDB-快數據時代的實時數據倉庫技術內幕(15頁).pdf(15頁珍藏版)》請在三個皮匠報告上搜索。
1、AnalyticDB 快數據時代的實時數據倉庫技術內幕 林亮 阿里云智能 研究員 Realtime Datawarehouse In the Fast Data Era 從 Big Data 到 Fast Data 41%41%?尋求買家?Fast Fast+OnlineOnline Full Data?Realtime Data?Cloud-Native?Realtime Computing?AnalyticDBAnalyticDB FastDataFastData的最佳代表的最佳代表?Big Data to Fast Data實時數倉的設計挑戰 靈活 Arbitrarily Join Ar
2、bitrarily Filter 高并發 100K QPS 10K Clients 低延時 95%50ms 高可用 99.999%實時 Read Committed 10M Records/s Insert 準確 100%AnalyticDBAnalyticDB 755M755M+Active Users 5+PB 5+PB Max instance Design Challenges for Realtime DatawarehouseAgilityConcurrencyLow LatencyHigh AvailabilityRealtimeAccuracy阿里巴巴OLAP系統演進 Orac
3、le RAC 2008 Greenplum AnalyticDB 1.0 2012 HBase MySQL Sharding Hadoop AnalyticDB 3.0 2018 p High concurrency p Volume p High concurrency p High availability (leadernode)p Realtime Write p Consistency(offline/online)p Agility(Cube)p ACID p Consistency(offline/online)p Realtime Write p ACID Realtime C
4、onsistency Agility Accuracy Volume(PB)Agility Accuracy Volume(PB)High concurrency Low Latency Accuracy Volume(PB)High concurrency Agility Low Latency Accuracy High availability Volume(100PB)High concurrency Agility Low Latency High availability Accuracy Realtime RW p ACID High concurrencyHigh concur
5、rency:1000 QPS(Complex Query)VolumeVolume:10PB+Realtime WriteRealtime Write :10M Records/s 2009 2011 Evolution of Alibaba OLAP systemsAnalyticDB:阿里唯一經過大規模驗證的分析類數據庫 以下是生產環境的真實數據:?阿里巴巴集團某營銷應用單DB表數超過20000張?某客戶單DB數據量近3PB,單日分析查詢次數超過1億?阿里巴巴集團內某單個ADB集群超過2000臺節點規模?云上某業務實時寫入壓力高達1000w TPS?菜鳥網絡某數據業務極度復雜分析場景,查詢
6、QPS 100+?支撐阿里集團雙十一業務支撐阿里集團大部分OLAP業務阿里集團內部超過300+業務單日查詢次數1億+Alibabas only large-scale validated OLAP databaseAnalyticDB-PB級實時數倉 云原生云原生 實時按需極致彈性實時按需極致彈性 存儲從GB至100PB 計算節點從3臺到2000臺 混合負載 完備的企業級特性完備的企業級特性 備份/恢復/回收站 審計/白名單/自建賬號/VPC 跨AZ/跨Region(On-going)兼容兼容&超越超越 MySQL/PostgreSQL MySQL/PostgreSQL 全面兼容MySQL/P
7、G生態 ANSI SQL:2013 復雜分析支持 非結構化與結構化融合分析非結構化與結構化融合分析 全面支持非結構化數據的存儲、檢索、碰撞比對、融合分析 5+向量數據類型,5+向量檢索算法 極致性價比驅動數據價值在線化極致性價比驅動數據價值在線化 千億/萬億 多表關聯分析 毫秒級 異構加速的MPP+DAG 融合分布式執行引擎 存儲計算分離架構,智能化行列混存實現極速檢索 AnalyticDB PB scale real-time Datawarehouse世界級認可 Gartner Niche Player Forrester Strong Performers World-class Rec
8、ognition云原生-系統架構 Cloud Native System Architecture分布式強一致存儲 基于基于RaftRaft三副本三副本 基于raft協議,保證強一致 數據默認三副本,工業安全 高吞吐并行高吞吐并行 多coordinator并行寫入 多shard的multi raft group并行 數據實時可見數據實時可見 Raft+Apply 保證可見性 Raft leader讀+leader打散 完備的完備的ACID ACID 2PC分布式事務支持 存儲引擎MVCC+快照隔離 Distributed Consistent Storage多維分析多維分析 l任意列Join
9、l復雜大任務/ETL 復雜查詢復雜查詢 l1000+列 超大寬表 l半結構化數據 實時讀寫實時讀寫 lLive updates l10 million TPS l10K+QPS 行列混合存儲 Hybrid Row-Column Storage面向分析的存儲引擎 謂詞計算謂詞計算 寫優化架構寫優化架構 MVCC MVCC 行列混存行列混存 智能索引智能索引 冷熱分離冷熱分離 Analytics-oriented storage engine極致性價比-融合引擎 統一內存架構統一內存架構 減少碎片、提高流水線 提升序列化性能 感知存儲感知存儲+面向分析面向分析 向量執行(源頭批量讀+Page化)C
10、odegen+SIMD+CPU-Cache友好 混合負載混合負載 CPU時間片公平調度 內存分層復用 ETLETL批處理能力批處理能力 Stage by Stage+Pipeline融合 Spill、容錯、UDF支持 Extreme Price/Performance Ratio-Fusion Engine極致性價比-智能優化器 可擴展優化架構可擴展優化架構 自適應優化自適應優化 可擴展優化可擴展優化 改進的代價模型改進的代價模型?Extreme Price/Performance Ratio Intelligent Optimizer企業特性企業特性 -備份恢復備份恢復&容災技術容災技術 備份恢復備份恢復 數據按周全量備份 日志秒級實時備份 支持數據恢復到時間點 只讀只讀/容災實例(計劃容災實例(計劃)只讀/容災實例 數據跨實例自動復制 Enterprise Features-Backup Recovery-Disaster Resilience TechnologyTHANKS!