《阿里云:擁抱未來!數據庫技術最新發展與創新趨勢(2023)(26頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:擁抱未來!數據庫技術最新發展與創新趨勢(2023)(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、擁抱未來!數據庫技術的最新發展與創新趨勢章穎強(江疑)阿里云數據庫資深技術專家個人簡介章穎強,花名江疑。阿里云資深技術專家(P9),PolarDB事務引擎和新架構研發負責人。q 浙江大學本科、研究生,十年以上的數據庫研發經驗,AliSQL的創始研發之一。q 14-18年阿里雙十一數據庫內核負責人,主導集團數據庫架構從MySQL演進到基于Paxos的X-DB架構。q 目前負責阿里云主營戰略產品PolarDB的內核研發和架構演進,并擔任ICDE 等數據庫頂級國際會議的程序委員。同時多個技術架構突破在 SIGMOD/VLDB/ASPLOS 等頂會發表。Outlines 傳統數據庫架構和云的本質 云原
2、生數據庫的最新發展 新一代云原生數據庫的趨勢傳統數據庫架構MemoryCPUDatabaseStoragePhysical MachinePhysical MachineVMVMVMMemoryCPUDatabaseStorageMemoryCPUDatabaseStorageMemoryCPUDatabaseStorage傳統IT架構下的傳統數據庫云架構下的傳統數據庫傳統數據庫架構Physical MachineVMVMVMMEMCPUDatabaseStoragePhysical MachineVMVMVMMEMCPUDatabaseStorage 多種資源規格耦合 彈性困難云的本質和云原
3、生數據庫 Cloud computing is the on-demand availability of computer system resources,especially data storage(cloud storage)and computing power,without direct active management by the user.Cloud computing relies on sharing of resources to achieve coherence and economies of scale.For system builders,it is
4、imperative to purposely optimize system design and implementation explicitly for the underlying cloud infrastructure to achieve the best elasticity,cost,and efficiency.These purpose-built cloud systems are called cloud-native systems.Ref:https:/en.wikipedia.org/wiki/Cloud_computinghttps:/www.cs.purd
5、ue.edu/homes/csjgwang/cloudb/云原生數據庫 Storage DisaggregationMemoryCPUDatabaseStorageMemoryCPUDatabaseStorageData migration happenedwhen scaling upMemoryCPUDatabaseMemoryCPUShared StorageScale up withoutdata migrationDatabase On-demand storage Fast scale up for compute node Fast scale out for read repl
6、icaOutlines 傳統數據庫架構和云的本質 云原生數據庫的最新發展 新一代云原生數據庫的趨勢云原生數據庫架構 計算存儲分離架構MemoryCPUDatabaseShared StorageMemoryCPUDatabaseMemoryCPUDatabaseRead-write nodeRead-only nodes Amazon Aurora(2014)Alibaba PolarDB(2017)Azure Hyperscale(2018)Tencent CynosDB(2019)Huawei TaurusDB(2020)阿里云數據庫的歷史和發展Gartner 2022 全球數據庫魔力象限
7、PolarDB阿里自研云原生數據庫 17年國內首個云原生數據庫 支持1寫16讀,最大100TB存儲 軟硬件一體化設計 高性能一致性協議阿里云數據庫的歷史和發展去IOE時代20092013AliSQL時代20132017PolarDB時代2017PolarDB在云數據庫中的位置PolarDB的創新點 PolarFSPolarFS:An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database(VLDB 2018)OS-bypass and zero-copy
8、-by RDMA ParallelRaftPolarDB的創新點 ParallelRaftPolarFS:An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database(VLDB 2018)Out-of-Order Ack/Commit/Apply Fast CatchupPolarDB的創新點 基于共享內存的一寫多讀TransactionB+TreeBuffer PoolRedo LogServerInnoDBQueryBinlogTransactionB
9、+TreeBuffer PoolServerInnoDBQueryBinlogRedo ApplyPhysical ReplicationDataRedoRWROACL CacheSP CacheCacheQuery CacheTable StatsParser/Optimizer/ExcutorACL CacheSP CacheQuery CacheTable StatsParser/Optimizer/ExcutorCacheUpdate34568lwmhwm21118trx_idsACL CacheSP CacheQuery CacheTableStatistics1.B+樹正確性2.事
10、務 MVCC 隔離3.Server Cache 同步QueryPolarDB的創新點 庫表級多寫STOSTOSTOMEMMEMMEMRWRW全局ROScale OutRWRW 庫表級多寫庫表級多寫l支持不同庫/表在不同RW節點并發寫入l秒級橫向擴展,極大提升整體的并發讀寫能力l多主互備,秒級切換,無需熱備,成本降低一半l支持全局只讀節點,高效執行匯聚庫請求Scale UpPolarDB的創新點 無感Serverless基于熱備技術秒級切換連接、事務跨機續傳快速CPU 彈降無感BufferPool Resize高效的遠程內存池支持 智能決策本地 ScaleUp跨機 ScaleUp集群維度高性能全
11、局一致性熱資源池秒級橫向彈性跨機 ScaleOutPolarDB的創新點 IMCI大容量、更低成本的CXL內存可提供更多的數據緩存空間,進一步減少磁盤I/O列存節點支持多機并行執行,共享同一份數據,橫向伸縮能力再度加強RWHTAP-RO MPP ClusterHybrid DataPolarProxyRow-indexSQL Parser/OptimizerRow-ExeColumn-ExeColumn-indexSQLCacheExedispatcherSQLCacheExedispatcherSQLCacheExedispatcherCXL mem clusterShared Column
12、 Index DatadatacmddatacmdScale In/OutScale In/Out更大數據量、更高性能TPCH-1TB單節點性能再提升10倍多機執行性能實現近線性加速比Outlines 傳統數據庫架構和云的本質 云原生數據庫的最新發展 新一代云原生數據庫的趨勢云原生數據庫的發展方向staticscaleelastic云原生數據庫的發展方向 Memory Disaggregation The End of Slow Networks:Its Time for a Redesign,VLDB16.Accelerating Relational Databases by Levera
13、ging Remote Memory and RDMA,SIGMOD16 Efficient Memory Disaggregation with Infiniswap,NSDI17 LegoOS:A Disseminated,Distributed OS for Hardware Resource Disaggregation,OSDI18 Best Paper Understanding the Effect of Data Center Resource Disaggregation on Production DBMSs,VLDB20新一代云原生數據庫架構 PolarDB三層解耦基于高
14、速RDMA的三層分離架構分布式共享存儲分布式共享內存計算節點代理層主節點SQL事務本地BP分布式提交時間戳分布式緩存一致性分布式全局鎖行存索引 Buffer Pool列存索引-IMCI行列索引同步RDMA networkChunkServerAbcPolarFS PolarStoreChunkServeraBcChunkServerabCParallel Raft主節點SQL事務本地BP主節點SQL事務本地BPRDMA networkPolarProxy分析節點Vectorized Execution EngineExpression Framework(SIMD)Table ScanSche
15、dulerGroup ByAggregationHash JoinNested Loop JoinOtherOperatorSchedulerSchedulerScheduler新一代云原生數據庫架構 行級多寫 利用全局事務ID和提交時間戳確定事務提交序和可見性 利用多級別不同粒度的全局鎖實現高效的跨節點的并發控制 通過Page鎖實現跨節點緩存一致性 支持多個master節點的行級并發行級并發寫入,突破單點寫入瓶頸Buffer fusionMEMTRX fusionLock fusionMEMPolarFusion ServicesPROXYScale OutRWRWRWRWPolarStor
16、e行級并發寫入PolarFusion 實現事務、鎖、緩存信息全局協調 實現高速的跨節點的信息協調高度融合RDMA新一代云原生數據庫架構 Polar4AI0500100015002000ResNet-50BERTEfficientNet-B7GPT-2GPT-3!#$%&%()*+,%&%-!#$%&數據加工模型評估模型訓練模型部署數據清洗、特征計算模型選擇、參數選擇穩定、高效在線部署、離線推理模型和數據的交互涉及多個系統,越來越復雜通過擴展的通過擴展的AIAI SQLSQL和和AIAI節點,節點,PolarDBPolarDB支持支持大模型:阿里通義千問等大模型開箱即用MLOps:模型訓練,模型推理,模型部署等操作NL2SQL:自然語言驅動的數據查詢ID Mapping:便捷的實體對齊AIGC:模型產生數據與數據庫數據互操作在Polar4AI覆蓋場景下,能夠:幫助用戶節省50%以上的AI硬件成本,節約80%以上AI模型開發時間一個系統PolarDB一種語言SQLAIAI寫在最后 工業和學術的GAPWhat are we doing with our lives?nobody cares about our concurrencycontrol research.Pavlo,Andy SIGMOD 2017 Keynote