《周飛-現代化實時數據倉庫+SelectDB-周飛.pdf》由會員分享,可在線閱讀,更多相關《周飛-現代化實時數據倉庫+SelectDB-周飛.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、姜國強-飛輪科技-產品副總裁演講嘉賓:周飛1數據分析的痛點與機遇2SelectDB 產品簡介3SelectDB 的設計探索與創新4SelectDB 應用場景與用戶案例數據分析的痛點與機遇1第一部分數據分析的痛點實時性 Real Time 服務實時化 數據處理實時化 數據分析實時化成本 Cost 落后的技術棧 冗余的資源成本 大量的人力投入數據分析痛點數據分析的機遇云原生 Cloud Native統一化 Unified 湖倉一體 在離線一體 流批一體 結構化、半結構化統一 全新的軟硬件技術棧 極簡的使用和運維體驗 多云中立:容災、隨時隨地可用數據分析機遇SelectDB 產品簡介2第二部分累計貢
2、獻者月度活躍貢獻者在全球大數據開源項目排行中活躍貢獻者數連續 10 個月位列 Top1,已超越 Spark 最活躍時期。Top1Apache Doris:開源實時數據倉庫2013項目建立2017項目開源12.5K+GitHub Star5000+使用企業2022商業化公司Apache Doris 是一個基于 MPP 架構的開源數據倉庫,支持對大規模實時數據上的極速分析。當前全球最活躍的大數據項目之一Apache Doris累計貢獻者超過 652+人,同比新增貢獻者超過 70%,并仍處于持續上升的態勢。652+獲得全球超過 5000 家企業的信賴互聯網互聯網金融金融游戲游戲電信電信游戲游戲交通物
3、流交通物流零售快消零售快消能源制造能源制造互聯網互聯網SelectDB:基于Apache Doris的云原生實時數倉全托管在阿里云、華為云、騰訊云、AWS、GCP,并提供 SaaS、BYOC 產品形態SelectDB Cloud阿里云直接提供的 SelectDB 服務,類云廠商和 MongoDB、Elastic 的合作模式阿里云數據庫 SelectDB私有化部署在物理機/虛擬機、K8S、公有云/私有云上SelectDB EnterpriseSelectDB 的設計探索與創新3第三部分SelectDB 四大核心設計理念數據實時寫入與極速查詢湖倉一體與多分析負載支持極致性價比與靈活彈性能力開放設計
4、簡化周邊生態集成Real-Time實 時 極 速實時分析即未來數據隨著時間的推移而價值降低。大規模實時數據分析日益成為各個企業的核心競爭力。從跑批報表到實時儀表盤,從預置報表到交互式即席查詢,從面向內部的分析到面向外部客戶的分析,從面向人的分析到算法自動決策,企業正全面進入實時分析的時代。數據延遲和查詢延遲是實時分析的核心指標實時的數據導入和數據存儲,確保分析數據的新鮮性。極速、高并發的數據查詢以便滿足響應的及時性。實時數據:數據的實時導入與實時存儲數據源:數據庫、數據流、數倉、數據湖等實時 API:Stream Load、Routine Load、Insert Into數據生態:Flink/
5、Spark/Kafka Connector、DataX 等全面的秒級數據導入 API 和生態支持高效實時更新:主鍵模型(Unique)秒級加減列等表模式修改:Light Schema Change服務端攢批:Group Commit多種實時存儲模型和輕量化表模式修改Stream loadBroker LoadRoutine loadInsert IntoS3 LoadMySQL LoadDTSFlink ConnectorSpark ConnectorKafka ConnectorDataX實時和離線導入方式及工具X2Doris對象存儲HDFS離線數倉FlinkKafka流式數據Iceberg
6、Hudi數據湖MySQLPG關系型數據庫本地文件SelectDB實時數據:Group CommitGroup Commit 模式異步模式:立即返回,WAL 保障數據持久化同步模式:SelectDB 合并提交后返回關閉模式:不開啟數據 Flush時間間隔:可達秒級,默認 10 秒 數據量:默認 64 MB支持導入類型Insert Into Values Stream Load極致性能:多種查詢負載上擁有極速性能萬級 QPS、毫秒級延時的高并發點查能力優化器定向優化行列混合存儲多級緩存豐富內置索引高并發點查詢Clickbench 排名第一,比友商性能提升 30%-100%Pipeline 執行引擎
7、全鏈路向量化列式存儲豐富內置索引大寬表查詢TPC-H/DS 數量級領先,千億級數據分析秒級自研查詢優化器Pipeline 執行框架Runtime Filter物化視圖復雜多表 JOIN 查詢極致性能:高并發點查詢主要應用場景面向用戶的明細&報表:轉賬,運單等面向機器的自動化查詢:用戶畫像,實時風控,物聯網高并發分析的典型問題(以 select*from table where id=xxx 為例)表如果比較寬,列存帶來 IOPS 放大執行引擎和查詢優化器對于簡單的查詢來說太重SQL 解析規劃由 FE 模塊負責,并發高形成瓶頸SelectDB 的優化方案PrepareStatement:執行計劃
8、緩存,解決解析規劃瓶頸短路徑優化:點查詢延時敏感,減少框架耗時行列混存:解決 IOPS 瓶頸多級緩存:云盤、內存緩存加速內置索引:加速查詢過濾效果 YCSB 10列測試,Doris 2.0 主鍵高并發點查能力提升 20 倍 YSCB 100列測試,Doris 2.0 主鍵高并發點查吞吐是某云產品 H 的 2.5 倍 YSCB 100列測試,Doris 2.0 非主鍵高并發點查吞吐是某云產品 H 的 11 倍Unified融 合 統 一ALL IN ONE企業通常需要部署大量針對特定場景的技術產品來滿足不同分析場景的需求。這個帶來了組件過多、運維成本高、數據鏈路長、數據重復存儲等一系列問題。Se
9、lectDB 作為現代化統一的數據倉庫,單一系統支持多種數據源,支持多種數據類型,支持多種數據分析負載。All-In-One 的分析平臺,更加易于使用和管理,讓企業精力從管理復雜的數據基礎設施轉為關注上層的數據應用。湖倉融合(多種數據源)集成方式:通過 Multi Catalog 提供的聯邦查詢能力訪問數據湖和數據庫數據湖/庫:Hive、Iceberg、Hudi 等數據湖,MySQL、PostgreSQL、ES 等數據庫訪問鏈路:內外表聯邦查詢,外表數據導入內表,內表數據導出外表基于實時數倉的湖倉融合方案實時批量統一(多種分析負載)庫內 ETL:性能為 Hive 的 54 倍,Spark 的
10、12 倍不僅僅支持實時數據分析大寬表分析多表關聯分析高并發點查詢庫內 ETL不依靠外部 Spark、Flink 做 ETL基于 SQL 及其算子:Insert Into Select應用場景:數據同步、類型轉換、數據加工、物化視圖.特性增強性能優化:復用超高性能執行引擎作業調度:輕量級 Job Scheduler負載隔離:多計算集群、Workload Group多模統一(多種數據類型)不僅僅結構化數據兼容 MySQL 基礎數據類型復雜數據類型支持純文本類型嵌套類型:Array、Map、Json 等任意數據類型 Variant:自動類型推斷和列式存儲復雜類型分析處理倒排索引SQL 擴展:MATC
11、H_ALL/ANY/PHRASE、ColKey_1Key_21.測試數據和 Case:來源于 ES 官方性能工具 Rally中 http logs,數據量 32GB,2.47 億行2.查詢時間:ES 官方性能 benchmark 中的 11個 query,每個串行執行 100 次的總時間3.測試環境:3 個 16c 64g 云主機節點,寫入速度越高越好,磁盤空間越低越好,查詢時間越低越好相比 ElasticSearch 10+倍性價比的日志搜索分析方案Cloud Native云 原 生 架 構SelectDB Cloud 云原生特性存儲卸載到低成本高可靠的對象存儲服務存算分離計算呈現波峰波谷,
12、希望計算更加彈性同一份數據被多個計算業務使用數據共享讀寫分離,業務隔離等計算負載隔離云原生計算彈性核心存儲:對象存儲 OSS,實時擴容計算集群:分鐘級彈性彈性,支持多集群緩存存儲:通過云盤緩存加速,秒級擴容存算分離與彈性計算存儲:數據分片單副本,對象存儲廉價,相比存算一體降低 60%計算:消除冗余副本寫入、合并開銷,結合彈性能力,計算資源可降低 50%極致性價比SelectDB Cloud 云原生架構帶來極致性價比SelectDB Cloud 云原生架構的靈活彈性對象存儲NodeCacheNodeCacheNodeCacheNodeCache計算節點計算節點計算節點固定計算節點對象存儲計算節點
13、計算節點計算節點彈性計算節點共享存儲與本地緩存計算節點彈性伸縮共享存儲與本地緩存l對象存儲:存儲全部數據,持久化到對象后寫入成功l數據緩存:熱數據,用于查詢加速l設計關鍵:存儲 IO 優化、緩存親和性、緩存遷移集群彈性伸縮l按需伸縮:計算和緩存l按需啟停:節省計算成本l混合計費:包月、按量集群混合SelectDB Cloud 云原生架構的多計算集群數據共享:元數據和數據均共享,強一致多讀多寫:多集群均可以讀寫計算隔離:讀寫隔離、在離線隔離等計算節點計算節點計算節點導入集群對象存儲計算節點計算節點計算節點查詢集群多計算集群計算集群計算隊列、計算組一套分布式系統,包含一個或多個 BE 節點功能特性
14、數據共享:元數據和數據均共享,強一致多多讀寫:多集群均可同時讀寫集群隔離:計算資源隔離、權限隔離應用場景讀寫隔離、在離線隔離臨時集群、仿真測試、平滑變更、跨可用區容災等Open開 放 生 態開放源碼基于 Apache Doris 構建,100%與其兼容與 Doris 存儲格式兼容與 Doris 使用接口一致,兼容 Doris 所有開源生態支持 SelectDB 與 Doris 隨時切換,不鎖定用戶開放標準實現 MySQL 的連接協議和 SQL 方言,兼容 MySQL 生態支持 MySQL Client、JDBC、ODBC 等的連接支持 Navicat、DBeaver 等工具連接各類對接 MyS
15、QL 的 BI 工具都可以連接 SelectDBSelectDB 應用場景與用戶案例4第四部分統一分析平臺-頭部品牌服裝生產商公司統一的大數據分析平臺生產、銷售、庫存、渠道等全鏈路數據分析需求實時報表、即席查詢、數據 ETL、數據導出等原有架構:多系統組合式架構SR、Doris、PostgreSQL、ADB 等痛點:維護復雜、質量弱、成本高新架構:統一到 SelectDB整體性能提升 2+倍架構簡單,SaaS 產品免運維綜合成本降低 60%+千億級的統一分析平臺,可輕松擴展滿足客戶 10 倍級的業務增長日志搜索分析-大模型獨角獸公司海量的訪問日志分析:每天新增 400TB,總數據量 10PB+用戶流量統計分析基于 Tracing 機制的線上問題定位原有架構:ES、Loki基于 ES,成本高(3天),聚合分析性能一般基于 Loki,成本低,分析性能差新架構:SelectDB綜合成本降低 75%分析性能相比 ES 提升 2+倍采用 Beat、Grafana 組合平替 ELK 生態快速成為公司統一的日志分析平臺,大幅提升客戶數據分析、問題定位能力Thanks