《專場17.3-快狗打車實時數倉演進之路-楊錚.pdf》由會員分享,可在線閱讀,更多相關《專場17.3-快狗打車實時數倉演進之路-楊錚.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、快狗打車實時數倉演進之路楊錚 快狗打車 數據負責人訂單用戶運力流水業務線N端流量應用廣告貨的企業 業務復雜度高流量大應用場景多對實時數據需求多開發時長存在問題 業務背景1.以往的開發流程和實時計算歷史開發流程歷史實時計算2.從上云開始轉變spark+多源存在諸多問題2019上云完成OneDataOneService2020智能化系列20223.解決痛點擺脫混亂開發,建設分層模型,數據重復利用。采取實時=離線的方案ODS:基礎數據層,在實時倉庫,ODS數據層在消息中間件:kafkaDWS:服務數據層,作用為數據脫敏,輕匯。在業務上應用于分析,數倉進行數據查詢補充。在實時倉庫,DWS數據層在消息中
2、間件:kafka或者OLAP系統。DWF:事實數據,即寬表所在。該層次數據主要為三種類型寬表建設,用于日常分析洞察,數據查詢等。在實時倉庫,DWF數據層在消息中間件:kafka或者OLAP系統。DWA:高度匯總數據,沉淀指標數據。在實時倉庫,DWA數據層在OLAP系統。DIM:維度數據。分為不同類型存于Redis和Mysql模型升級-分層模型引擎對比SparkFlink數據處理微批批/流處理SQLSpark SQLTable&SQL API容錯WAL算法Chandy-Lamport算法成本開發成本高開發成本低優化手動自動語言Scala,Java,PythonJava,Scala,Python,
3、SQL窗口定時時間,計數延遲秒亞秒RDS:主要為Binlog訂閱,添加中間處理,統一數據格式日志日志:各個端上的日志傳輸,統一規范,日志中心格式處理ODS-格式預處理數據一鍵集成Flink SQL讀取kafka數據源格式固定,可變的是topic參數和讀取位點,group等;創建視圖,利用核心UDF統一離線和實時Schema信息,任務啟動階段進行校驗兩方的shcema信息(類型,名稱等),嚴格一致多流處理階段,一般無法定制模板,需要注意state,資源等輸出階段,分為輸出至OLAP,Mysql,Kafka。輸出至Kafka利用核心UDF固定格式。數據流入和流出階段,進行嚴格的格式控制,利用通用模
4、板提高效率,同時保持數據流入和流出階段,進行嚴格的格式控制,利用通用模板提高效率,同時保持離線實時一致。離線實時一致。開發模板參數化配置僅需傳入離線日志表,任務自動獲取離線任務所有信息,自動配置到實時任務自動創建自動創建topic,初步清洗好的日志數據自動傳入topic,并且優化格式資源優化內部核心為任務清洗程序,配置后臺根據任務資源,日志數據切分任務010203日志處理主存儲系統的演進Hologres當前主要使用的HOLAP系統。PB級別,支持高并發Ad HocHbase+ESHbase存儲數據+ES構建加速查詢索引ADB云原生數據倉庫,同時也是即席分析平臺支持存算分離,動態擴展,高并發等H
5、ologres共享存儲故障隔離讀寫分離權限可控Hologres-實時+離線聯邦查詢,實時和離線數據混合使用統一數據出口,無論是即席分析還是實時接口查詢等,數據出口均在Hologres4.應用應用接口Http接口靈活性高,可拓展性強表映射形式解耦,無感知變更接口監測響應時長,ip,查詢頻率等進行資源監控平臺一站式開發內部研發的接口管理平臺,上線接口從測試到上線達到分鐘級別慢查詢監控慢查詢及時監控預警接口接口配置為SQL開發,測試之后自動生成接口id,分鐘級別上線。目前接口規模300+,平均查詢時長在毫秒級別。接口開發平臺風控應用構建出1個實體表和8個關系表指標預警自定義規則定制實時預警和離線預警方式目前支持SQL和指標形式進行監控小時級別和天級別的預警智能預警形式結合算法,自動測算,實時預警OneData-指標管理實時指標和離線指標統一管理平臺;指標血緣,版本等各種管理功能。無論實時或者離線指標,首先是指標管理平臺收錄,再進行三方嵌入使用整體架構未來一套系統一個邏輯流批一體智能營銷動態規則展望