《6 唯品會-StarRocks在電商數據分析場景的實踐.pdf》由會員分享,可在線閱讀,更多相關《6 唯品會-StarRocks在電商數據分析場景的實踐.pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、StarRocks在電商數據分析場景的實踐從2.5到3.X的迭代升級王新春唯品會-數據平臺0102030405OLAP 在電商場景的發展歷程StarRocks 2.5 存算一體加速分析StarRocks 3.1 存算分離優化和實踐StarRocks 湖倉一體增強智能BI分析StarRocks Next:統一分析場景01OLAP在電商場景的發展歷程Presto/ClickHouse到StarRocksOLAP在電商場景的發展歷程2015年至今通用數據產品查詢和數倉分析主要工作:2019年:基于負載的集群調度,用戶智能查詢路由2019年:全部容器化,集群智能擴縮容2022年:Spark和Prest
2、o潮汐混部,Presto夜間縮容調度ETL2020年至今專有數據產品加速和日志降本主要工作:2020年:AB實驗場景下Flink百萬級/s寫入性能優化2022年:日志場景下替換ES,節約50%以上成本;BulkLoad出倉加速2倍以上2024年:核心集群多AZ容災和高可用2022年至今指標分析加速和湖倉分析主要工作:2023年:部分場景替代Presto,提升5-10倍查詢效率(P85查詢小于5s)2024年:大規模存算分離和統一湖倉分析加速2024年:Serverless架構,資源動態擴縮容02StarRocks 2.5存算一體加速分析提升分析效率5-10倍分析1.0版排隊時間久排隊時間久下載
3、數據量少下載數據量少分析耗時長分析耗時長查詢時間范圍短查詢時間范圍短StarRocks 2.5存算一體加速分析分析1.0基于PrestoDB+Alluxio,由于引擎能力和資源的有限,在用戶體驗層面痛點突出5012015031520020406080100120140160交易主題流量主題交易流量交叉主題主題平均耗時前后對比(單位:秒)1.0耗時2.0耗時只支持查詢1414天內的流量數據分析 1.0原始數據超過 1000 億!分析 2.0流量查詢時間范圍大幅延伸支持高頻指標和維度一年以上的整體分析StarRocks 2.5存算一體加速分析StarRocks的引入,利用向量化和更好的下推能力,整
4、體分析能力提升了7倍以上資源利用率在雙11、雙12活動大促、運營推廣、復盤、年末匯算期間長期保持在85%以上查詢 p70 低至8秒,p90 能始終保持在60秒內StarRocks 2.5存算一體加速分析數據導入StarRocks的定制化優化,提升查詢的穩定性和數據時效例如:導入數量限制、回刷歷史數據時使用批量導入功能、以及是否將任務在空閑時段執行等 03StarRocks 3.1存算分離優化和實踐2倍查詢的增長,50%性能提升存算一體到存算分離存算一體計算和存儲資源的緊耦合,導致獨立資源的彈性擴展能力不足PB級別數據的分析,數倉和StarRocks數據交換成本巨大 極致的性能,最佳查詢性能高度
5、的彈性和可擴展性存算分離優化:視圖提升時效性、分析范圍和存儲利用率自研 SQL 路由的 SQL 改寫 rewrite 功能靈活定義視圖的范圍靈活調配使用 內表和外表(Hive+Block Cache 加速)的分區比例,彌補了之前僅使用純內表模式的局限性 存算分離優化:HyperLogLog優化,秒級匯總億級數據Velox 的 HyperLogLog 實現,替換 StarRocks 自帶的相關函數二進制兼容由Spark使用Java 版 HLL UDAF 寫入Hive的預聚合結果4-5X性能提升4.825.852.220102.6205.620.21032071千萬級5千萬級1億級Velox C+
6、xxhashAirlift xxhashAirlift murmurhash04StarRocks湖倉一體增強智能BI分析滿足智能BI分析高并發和低延遲要求StarRocks湖倉一體增強智能BI分析智能BI分析的對OLAP的挑戰:大量指標的并發查詢(長周期 30-180天、同環比等)每個分析需要數十個指標的查詢并發查詢StarRocks湖倉一體增強智能BI分析解決方案:指標全數據湖倉;擴分析能力多集群、存儲分離StarRocks Next:統一分析場景基于StarRocks強大的查詢和分析能力,解決分析場景各種業務需求,One Fits ALL實現路徑:通過統一的對外接入服務,根據SLA要求自動路由對應的集群感謝觀看!Thank you!關注公眾號