1、王星 同程數科 大數據高級工程師|Apache DorisApache Doris在同程數科數倉建設中的實踐在同程數科數倉建設中的實踐0101目錄目錄CONTENT|業務場景業務場景架構演變架構演變收益現狀收益現狀未來展望未來展望030302020404 業務場景01|業務場景-企業介紹|同程數科同程數科 同程集團旗下的旅游產業金融科技服務平臺。前身為同程金服,成立于2015年11月。愿景是,以“數字科技引領旅游產業”。以科技的力量,賦能旅游產業。業務包含:產業金融服務、消費金融服務、金融科技、數字科技等板塊。累計服務用戶超過千萬,涵蓋76座城市。業務場景-業務介紹|業務場景-業務需求|基于基
2、于DorisDoris實現實現 看板類:業務實時駕駛艙;T+1業務看板 預警類:實時業務流程預警(比如:風控熔斷、資金異常、流量監控)分析類:數據查詢分析;臨時取數;實時用戶標簽查詢 財務類:財務清算對賬;支付對賬 架構演變02|架構演變-架構1.0|架構演變-架構1.0|不足不足 引入組件過多,(組件、作業)維護復雜,問題排查困難,數據修復困難 數據開發鏈路過長,對數倉人員技術要求高,開發效率低 聚合查詢能力不足,大表join效率不高 離線與實時集群未做分離,導致資源相互競爭 有預警能力,但是作業自動恢復能力不足優點優點 使用CDH構建,在現有CDH集群下,能夠快速相互集成并投入使用 實時采
3、集能夠可視化配置式開發架構演變-架構2.0|架構2.0-選型Doris|選型原因選型原因 豐富的數據接入能力(支持眾多數據源)采用MySQL協議通信 Doris SQL基本覆蓋MySQL語法 支持MPP并行計算能力 官方文檔健全,上手較快架構2.0-Doris部署架構|DorisDoris架構特點架構特點 獨立于Hadoop架構之外 整體分兩層:FE(前端節點)、BE(后端節點)運維簡便,高可用,可擴展性強機房遷移機房遷移 doris集群,3天全部遷移完成 時間主要用在了,機器下架、搬移、上架Doris實時系統架構|產業金融消費金融風控數據日志數據Canal其它數據API接口數據平臺數據源數據
4、源數據采集數據采集消消息息隊隊列列KafkaKafka數據倉庫數據倉庫DWD(明細層)DWS(匯總層)ADS(應用層)DIMCanal-Admin實時開發任務調度任務監控數據質量集群監控數據應用數據應用實時看板挖掘分析數據服務Doris新數倉特點|1 1、數據導入方式簡便,針對不同場景數據采用方式如下:、數據導入方式簡便,針對不同場景數據采用方式如下:1、routine load:業務數據實時接入Doris 2、broker load:離線數據定時或手工導入Doris(包含:基礎維度表、歷史數據等)3、insert into:定時作業,從DWD層處理出DWS層,之后處理出ADS層2 2、良好的
5、數據模型,使開發效率更高、良好的數據模型,使開發效率更高 1、unique模型:業務數據接入Doris時使用,防止重復采集 2、aggregate模型:從DWD層到DWS或ADS層使用3 3、使用門檻低,查詢效率高、使用門檻低,查詢效率高 1、基于MySQL協議,標準的SQL查詢語法,查詢分析無壓力 2、使用物化視圖到達預計算效果,如果查詢命中,將快速響應4 4、部署架構簡便,運維維護成本低、部署架構簡便,運維維護成本低 1、針對FE、BE、BROKER角色,配置監控,異常重啟如何更友好的使用Doris|大家在意什么大家在意什么 1、快速開發:如何能夠簡單快速的將數據導入Doris,并快速實現
6、ETL開發 2、調度管理:如何管理上線的任務,保證任務調度的穩定,以及調度恢復能力 3、數據查詢:生產與辦公網絡隔離,如何讓大家安全便捷的查詢分析 4、集群管理:如何感知節點異常,并且能夠重試自動恢復宗旨:宗旨:高效率、高質量、高穩定高效率、高質量、高穩定數據平臺-Doris開發|1 1、DorisDoris數據開發,通過快速構建代碼,實現數據開發,通過快速構建代碼,實現routine loadroutine load、broker loadbroker load任務開發任務開發數據平臺-Doris開發|2 2、routine loadroutine load、broker loadbroke
7、r load、常規任務提交或測試、常規任務提交或測試數據平臺-Doris調度與監控|3 3、針對、針對routine loadroutine load、broker loadbroker load進行調度查看;進行調度查看;routine loadroutine load可持續監控;可持續監控;broker loadbroker load與常規任務有失敗預警與常規任務有失敗預警數據平臺-Doris數據查詢|4 4、自研查詢頁面,同時集成、自研查詢頁面,同時集成Doris HelpDoris Help幫助功能幫助功能數據平臺-Doris集群監控|5 5、針對、針對FEFE、BEBE、BROKER
8、BROKER節點監控,異常自動提醒節點監控,異常自動提醒 收益現狀03|新架構收益|基于基于DorisDoris架構收益架構收益數據接入:新架構數據接入代碼可快速構建,3-5分鐘完成一個接入。老架構手工部分比較多。接入一張表需要20-30分鐘數據開發:doris自帶unique、aggregate模型,能夠加速ETL開發過程。老架構數據ETL過程沒有底層數據模型支撐,很多處理邏輯需要自行開發數據查詢:基于doris新架構帶有物化視圖或Rollup物化索引提升查詢效率。同時大表join時doris內部提供很多優化機制數據報表:基于doris的查詢展示,報表相應速度基本在秒級或毫秒級響應環境維護:沒有hadoop數倉環境復雜,整個平臺鏈路方案清晰。同時doris集群的運維成本遠低于hadoop集群運維(遷移一次就懂了)未來展望04|未來展望|規劃規劃 1、嘗試引入Doris Manager對集群進行維護和管理 2、實現基于Flink CDC方式的數據接入。這是我們3.0架構的規劃,估計很多小伙伴已經實現了 3、對現有Doris集群進行升級,使用新特性,更快速響應需求 4、針對“指標管理體系”、“數據質量監控體系”進行強化建設感謝您的觀看感謝您的觀看|