Talkingdata:為數據賦能-敏捷高效的數據處理(29頁).pdf

編號:14450 PDF 29頁 4.82MB 下載積分:VIP專享
下載報告請您先登錄!

Talkingdata:為數據賦能-敏捷高效的數據處理(29頁).pdf

1、為數據賦能 敏捷高效的數據處理 徐岷峰 TalkingData 資深架構師 數據處理 Data Wrangling ETL:從多種數據源提取數據,做清理、聚合、派生,加載到特定存儲 ELT:利用存儲的計算能力做數據變換 數據處理的流程 Data Wrangling Data Wrangling TalkingData 遇到的問題 需求 理解不一致/不清晰 溝通成本高 開發 技術棧紛雜 功能重復開發 預計算 缺乏統一的標準與服務 即席查詢 多種異構數據 元數據系統 Meta Data System Meta Data System 元數據是定義數據的數據 是實現系統復用的關鍵 可以直接作為系統的

2、外部接口 元數據驅動 元數據是實現敏捷的關鍵 元數據是對業務的高度抽象 某種程度上確定了系統的數據邊界 Meta-Meta Data Meta Model Meta Data Data Data set Specification Data set Data set Definition 數據源(Data Source) 分區定義(Partition) 數據集(Data Set) 模式(Schema) 數據處理過程(Recipe) 算子(Operator) 元數據規范(meta model) 多維模型(Multi-Dimension) 實體關系模型(ER) 模型(model) Meta Dat

3、a System 實現 Meta Data System JSON 對象 MySql SQLite/Derby 存儲 索引ES 檢索 MQ 通知 Service Process 部署 數據變換 Data Transform 沒有銀彈 Data Transform 數據處理的核心 機器學習的基礎 (特征工程) 不深奧的技術 卻最耗費人力 尤其是維護工作 紛繁的ETL工具: PDI(Kettle) Talend Data Integration Oracle Data Integration DataX 適合的才是最好的 共同的思路: 語義抽象 (Session/JOB/Operator,DAG)

4、 元數據驅動(數據源、目的地、 數據結構、依賴、過程) 執行引擎 數據質量監測 流程監測 數據安全與審計 Data Transform BPMN JSON DAG Sequence condition Operator Function Parameter returnAS Parallelism TalkingData 的解決方案 語義抽象 Data Transform 邏輯計劃(DAG) 配置文件 算子庫,多種語言實現 通用特性 日志 審計 計量 安全 運行時文件,Jar,.R,.so,.py TalkingData 的解決方案 編譯器 Operator Libraries Common

5、Aspect compilerRun Time Files Execute Plan Config Plan DAG Java Python R C/C+ Spark Flink Strom H2O.ai Scikit-Learn 索引服務 Index Service 索引服務 Index Service B+樹、跳表、倒排 索引,是數據查找和定位的關鍵 Bitmap 精準的排重統計 集合運算,Intersect, Union, Except 索引,也是一種數據,可以運算 生成索引 檢索 運算 維護 索引服務 Index Service 舉個例子: 定義Offset為UserId 時間粒度為天

6、, 索引1(藍色)代表玩“吃雞”游戲的用戶 索引2(黃色)代表玩“王者”游戲的用戶 Bitmap 統計: 今天玩了“吃雞”或“王者”的用戶 今天既玩了“吃雞”又玩了“王者”的用戶 今天玩了“吃雞”但沒玩“王者”的用戶 Index Service 索引生成 可適配多種執行引擎,Storm,Flink, Spark 索引存儲 支持異構存儲 索引查詢 查詢能力可擴展 支持實時數據查詢與運算 元數據驅動 Zookeeper同步狀態 架構 SchedulerMetaData Broker ZooKeeper Worker Manager Real Time Cache Execute Engine Ca

7、che Storage MySQLHBase HDFS Index Service Domain Dimension Storage Implementation uniqueKey Index 元數據 Index Service DSL ISQL Filter,維度間的集合運算 查詢類型:select,groupby,topN,timeSeries,window,subQuery 返回結果:index,count,idList Logical Plan Physical Plan 固定“場景”的查詢 查詢 Index Service 按時間粒度分層的多叉樹 用bitmap實現的倒排索引 以索

8、引維度做Key 以索引標識作為Offset 二級索引 Year:2019 Bitmap:indexes Month:3 Bitmap:indexes Month:7 Bitmap:indexes Month:12 Bitmap:indexes Day:5 Bitmap:indexes Day:6 Bitmap:indexes Day:30 Bitmap:indexes Day:27 Bitmap:indexes Day:21 Bitmap:indexes Day:30 Bitmap:indexes Index Service 處理方式: 維護-金字塔模型 年數據 月數據 天數據 合并刪除導出

9、Index Service 用bitmap存儲事件的時序關系: 以時間作為Offset,精度不宜太高,秒 壓縮存儲:1個RoaringBitmap可以存儲1242 個用戶在一天內的20個基準事件序列。 (231/3600/24/20) 掩碼 不同的二級索引。 有序漏斗 - 時序索引 配合Index Service和關系數據庫實現有序漏斗 每日事件發生的用戶索引 分群索引 事件明細過濾 UID=28769 8:43:23 EventID = 0EventID = 1EventID = 19 查詢引擎 Query Engine Query Engine ETL-ELT Custom Query 異

10、構數據 不同的DSL 查詢優化 解耦物理存儲和業務邏輯 虛擬表,視圖 解決的問題 Data Analysis Query Engine RDBNoSqlFile System Index Service Query Engine 統一的查詢接口:SQL 語義優化的邏輯計劃 按數據源轉化到對應的DSL(物理計劃) 通過客戶端發送請求,獲取數據 元數據:DataSet,特定的轉換規則,Client 部署:Library(Jar) 設計思路 Analytics Application JDBC Iinterface Logical Plan with Semantic optimization Ph

11、ysical Plan against specific DSL Client MetaData Data Set Query Engine Query Engine Core: Apache Calcite 新增或改寫Adapter: Druid,CarbonData, Kudu 元數據 客戶端 實現 Analytics Application JDBC Iinterface Logical Plan with Semantic optimization Physical Plan against specific DSL Client MetaData Data Set Query Eng

12、ine 實例 Query Engine Query Engine Pitfall : 性能降低 10%-30% Cache Bypass optimization and Translation 增強 Analytics Application JDBC Iinterface Logical Plan with Semantic optimization Physical Plan against specific DSL Client MetaData Data Set Query Engine Cache Apache Calcite Summary 需求 理解不一致/不清晰 溝通成本高 開發 技術棧紛雜 功能重復開發 預計算 缺乏統一的標準與服務 即席查詢 多種異構數據 Transform ToolIndex ServiceQuery EngineMetaData

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(Talkingdata:為數據賦能-敏捷高效的數據處理(29頁).pdf)為本站 (科技新城) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站