2019年阿里巴巴新一代交互式分析引擎.pdf

編號:95903 PDF 29頁 2.75MB 下載積分:VIP專享
下載報告請您先登錄!

2019年阿里巴巴新一代交互式分析引擎.pdf

1、新一代交互式分析引擎hologres阿里云智能-計算平臺事業部-交互式分析目錄一.背景介紹二.基礎架構三.技術亮點四.典型場景介紹五.未來規劃背景介紹背景:典型場景分析(業務需求,數據/計算量與資源消耗的分布)Lambda架構的問題:1.使用多種引擎和系統去組合,開發和維護成本高,學習生成高2.數據在不同的View中存儲多份,空間浪費,數據一致性的問題如何解決3.從使用上來說,Batch,Streaming及Query均使用不同的language,使用起來并不容易背景:典型開源架構 技術源于流計算+數據庫技術,落地于搜索與廣告業務 開源的解決方案無法滿足阿里巴巴復雜的業務場景 實時數據中臺建設

2、的需求:一個入口,一份數據,一種查詢語言 成本,易用性,實時數據中臺架構的統一性 Alibaba Blink(Flink內部版,已開源)創始人量仔老師牽頭打造新一代交互式分析引擎背景:技術和業務背景Hologres架構介紹 新一代海量數據交互式分析引擎 一套引擎支持Point Query(hbase場景),Ad-hoc Query(Druid場景),OLAP Query(Impala場景)快 存儲計算分離 支持實時數據與批量數據導入 支持External Storage,與阿里云大數據產品無縫對接Hologres介紹Hologres架構Pangu/FuxiHolo QEHolo SEHolo

3、FEJDBC ServerUser AuthSQL ParserDataWorksBI toolsJDBC DriverOptimizerCoordinatorQuery RewriteQE RuntimeOperatorsIndexBuffer/CacheFileFormat/IndexHolo SMCatalogServiceClusterManagerMetrics SystemWatchDogTraceSystemHologres 存儲計算分離的架構 內置存儲引擎(行存,列存)行存:整行數據連續存放,更新高效,對point query和批量scan更友好(Hbase場景)列存:相關列的

4、數據連續存放,按列做聚合更高效,壓縮更高效,適合分析型場景 External TableStorage Engine(SE)自研QE(性能卓越)異步執行引擎 向量化計算 支持Filter/Agg計算的pushdown PostgreSQL QE(兼容生態)兼容PostgreSQL生態 與生態合作開發Query Engine(QE)PostgreSQL協議及SQL語法的兼容 更加智能的優化器,提供Query Federation的能力 調度,流控,反壓Frontend(FE)Hologres技術亮點 Why?大數據業務Hbase中數據存一份,Druid里存一份,XXX里存一份 浪費!數據一致性怎

5、么保證?學習成本高,成天學習新系統的使用 功能 內置支持兩種存儲格式,創建表的時候選其一或者都選,數據一致有保證 QE提供兩個版本,自研和開源 能夠替換現有業務的Hbase,Druid和impala,且性能更好 阿里巴巴業務已得到驗證 團隊十多名Flink commiter,兩名Hbase PMC,多名Hbase/Druid/Kylin等開源系統commiterhologres技術亮點-統一引擎架構 Why?用戶只關心自己有多少計算資源,根本不關心自已的機器是什么 已經申請的計算資源可否利用,如ODPS/Blink 新的NVME SSD盤可以達到150000IOPS,磁盤IO不再是性能瓶頸,問

6、題轉變為如何把CPU高效利用起來 存儲計算分離是未來大勢所趨,存儲和計算非對齊采購,成本更低,部署運維更方便 功能 存儲使用Pangu 2.0,由存儲團隊維護,QE和SE可運行在K8S及飛天集群中 全異步的存儲和計算引擎,吃盡所有CPU計算能力 靈活擴容,缺存儲擴存儲,缺計算擴計算hologres技術亮點-存儲計算分離 Why?用戶寫好Query如何去調優?一套引擎中支持多套QE,查詢計劃如何去生成?多種文件格式,不同版本的operator多種實現方案,如何去選擇?如何更高效的去生成上述查詢計劃?功能 支持多引擎的查詢優化器,能夠很容易與各種QE結合 基于代價的優化器模型,支持各種index,

7、predicted pushdownhologres技術亮點-更加聰明的Optimizer Why?近幾年硬件性能提升的很快,N年前的技術方案不一定能夠很好的利用現在的硬件性能發揮到極致 技術追求,沒有最好,只有更好 功能 全異步框架(Thread-per-core架構),把CPU利用到極致 vectorization(細節很多坑),集團內大規模使用向量化計算技術加速計算(1個量級)各種Index的實現 精細化的Cachehologres技術亮點-新技術傳統存儲系統/數據庫系統資源瓶頸?最新硬件發展性能指標?Open大量線程(大于core數的2倍)會帶來什么副作用?技術亮點舉例-為什么要用全異

8、步架構?傳染性,系統整體執行流程需要全部異?;幊谈訕O致的利用cpu?cpu調度,thread-per-core代碼中不能有blocker,tracing,debugging技術亮點舉例-全異步架構實現有何難點Flynn分類法:SISD,SIMD,MISD,MIMD技術亮點舉例-向量化計算Flynn分類法:SISD,SIMD,MISD,MIMDSIMD:intel MMX-SSE-AVX并非新技術,但對于大數據處理卻非常有用如何更多的實現向量化版本的function?重劍無鋒,大巧不工。細節技術亮點舉例-向量化計算operater實現可能同時存在行存版本,列存版本,向量化版本query如何高

9、效的執行,如何去選擇不同的operater實現如何去支持各種 index如何去支持多種QE重劍無鋒,大巧不工技術亮點舉例-優化器典型業務場景介紹 用戶需求 大數據復雜準實時分析 T+1(億級別)對latency敏感 但可以接受資源消耗的成本 查詢復雜,需要支持完善的SQL語義(join/distinct/topk/window)以及方便的接入協議(jdbc)優勢 完備的SQL支持 支持實時和批量導入,性能遠超同類產品 便捷性+性能 與MaxCompute共享資源(計算/存儲),錯峰調度服務場景-海量數據復雜查詢 用戶需求 海量數據 PB級別存儲+Billion級記錄 高頻寫入,高頻查詢,計算簡

10、單 典型客戶,搜索廣告,集團安全部,支付寶風控(平臺型用戶)現有方案(Hbase)導入任務難以維護+浪費存儲+導入性能極低(5-8個小時)無SQL接口 海量存儲成本極高 優勢 統一存儲,無需導入操作 提供SQL接口,方便開發集成服務場景 海量數據點查詢(Hbase)用戶需求 需要完備SQL,并支持JDBC以及開源BI工具,方便開發 報表展現,Latency敏感,數據量可以控制到非常小,如百萬級別 當前解決方案 MaxCompute做好處理,產出報表需要的結果表 將結果表通過datax/dts導入到rds,后續通過rds查詢 問題 維護多套服務的同步任務太復雜,且數據時效性一致性不好保證,浪費存

11、儲 阿里云 odps.pop 日均查詢 2w+阿里體育 直接通過PHP接入 對對業務侵入小 云賬號打通 數據安全服務場景-小表直讀(RDS)未來規劃一.Hologres是alibaba Blink創始人蔣曉偉(量仔)老師牽頭研發的交互式分析產品,團隊集結了眾多在分布式存儲計算深耕多年資深工程師。目標是打造一款高性能低成本的交互式分析產品。二.Hologres從誕生到現在,已經在集團內服務近4年,積累了非富的生產經驗。在2019年6月將正式登陸阿里云,為云上客戶提供一站式的實時數倉解決方案三.在此次Qcon會上首次對外公開Hologres,后續將有其它方式,陸續揭露更多的技術細節四.https:/

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(2019年阿里巴巴新一代交互式分析引擎.pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站