《2019年搜狗大數據分析中臺建設實踐.pdf》由會員分享,可在線閱讀,更多相關《2019年搜狗大數據分析中臺建設實踐.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、搜狗大數據中臺建設實踐關于我們來自搜狗大數據平臺部基于Apache Hadoop生態,建設搜狗海量數據存儲和計算平臺提供穩定高效的數據分析系統,為搜狗各類型大數據應用,提供一站式數據處理服務每天數十億的數據增量,數以百萬計的數據計算流程,使數據的價值得到充分利用最前沿技術落地及推進開源技術的發展目錄I.背 景目標定位II.技術演進架構改進歷程III.Sogou數據中臺架構?背景背景背景傳統的數據倉庫不能滿足數據分析需求數據的處理架構發生了變化從統計分析向預測分析轉變從單領域向跨領域轉變從被動分析向主動分析轉變從非實時分析向實時分析轉變從結構化數據向多元化轉變以Hadoop、Spark等分布式技
2、術和組件為核心的“計算&存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業務需求數據的預處理流程正在從傳統的ETL結構向ELT轉變背景基礎效率協作背景之前架構數據效率數據效率數據協作數據協作數據能力數據能力數據倉庫層次建設權限管理弱,安全性不佳BI分析能力元數據管理混亂倉庫集市,數據互通難度大業務數據轉化價值能力弱Hive/pig的計算效率 重復報表多,統計口徑不一致無數據接口背景數據服務能力不統一數據建設和數據資產管理能力不統一數據口徑規范不統一背景目標數據中臺定位?大中臺小前臺后臺中臺首先是一種戰略選擇、一種組織形式,其次才是一些有形的產品支撐和實施的方法論。后臺前臺企業級
3、的能力復用概述數據庫業務單一數據量小數據倉庫業務眾多量級偏大數據平臺倉庫管理平臺報表平臺數據中臺數據共享服務共享BI平臺概述數據中臺的基本思想就是不重復造輪子,把復用共享的東西提煉出來,變成一個可以被其它業務單元引用的基本能力,為前端的業務賦能概述功能設計架構-優化后基礎效率協作https:/ Governance)是指對數據湖中的數據進行存取、處理、分析及傳輸。倉庫建設分析工程自動調度架構-數據倉庫架構-數據倉庫HiveSparkSQLPhoenixPresto穩定性優良中差查詢性能差良良優并發性優良差差擴展性優優優優SQL兼容性良良差良統計分析引擎的對比架構-數據統計Hive任務執行Spa
4、rkOnAlluxio多輪迭代執行架構-數據統計架構-BI可視化邏輯層配置層展現層?大數據平臺的業務具有多流程、多作業、業務低耦合的特性,因此從技術實現上來說,使用MVVM這種開發模式比較適合,以此達到前后端徹底分離,各個業務模塊只需要提供API即可Service-ldDaoRedisMySQLServer層Response基礎服務CS配置管理AS報警監控Login登錄服務Web層WebappWebapp-Request提交接口請求Api-ServiceKnex外部服務MySQLMySQLMySQLRedis前端平臺構建管理權限管理FS文件服務構建ServerGPU Server日志Server倉庫Server任務管理ServerSogou數據中臺架構Sogou數據中臺架構Sogou數據中臺架構業務查看報表集市查看/建立報表服務統一技術口徑數據倉庫建模Sogou數據中臺架構