《重磅發布:DataWorks 全鏈路數據治理系列新品-全鏈路數據治理峰會(15頁).pdf》由會員分享,可在線閱讀,更多相關《重磅發布:DataWorks 全鏈路數據治理系列新品-全鏈路數據治理峰會(15頁).pdf(15頁珍藏版)》請在三個皮匠報告上搜索。
1、重磅發布DataWorks 全鏈路數據治理系列新品黃博遠阿里云智能計算平臺事業部大數據與AI產品負責人高級產品專家例:這里是標題標題標題New Future on CloudDataWorks:阿里巴巴12年數據治理建設最佳實踐201520162017200920192018進入空氣稀薄地帶首次突破調度5000臺服務器投10年,投10個億中國第一家擁有完整云計算能力的企業登月計劃開源?自研?飛天的第一行代碼阿里云技術之路的起點阿里云大數據品牌商業化20+款大數據產品MaxCompute+DataWorks普惠大數據商業化飛天云操作系統獲得中國電子學會16年來頒發的唯一科技進步獎特等獎突破創新M
2、axCompute再次打破排序世界紀錄DataWorks升級為一站式智能數據開發平臺飛天X城市大腦2.0驅動數字中國中國唯一自研計算引擎業務領先的性能與算力DataWorks發布數據綜合治理體系AI加持的飛天大數據平臺2020年雙11,MaxCompute日處理數據超過1.7EB,DataWorks日調度實例數超過10,000,000DataWorks是阿里巴巴集團數萬名產品運營/分析師/數據開發/算法工程師的生產力工具同時廣泛應用于城市大腦、數字政府、電力、金融、零售、智能制造、智慧農業等各個領域的大數據建設與生態合作伙伴一起數智升級DataWorks全新推出開放平臺全面支持開源計算引擎開放
3、、生態、共贏2020DataWorks新品發布DataWorks 數據治理中心實現數據治理的現狀評估-問題治理-成效評估,讓企業數據治理步入“自動化”階段數據治理規則模板事前預防事后診斷可持續數據治理內置模板開箱即用行業最佳實踐沉淀自定義擴展插件企業數據治理健康度評估模型前置的問題預防卡點歷史存量問題自動發現全局、個人等多維度視角問題處理建議健康度評估數據治理運營機制研發規范健康分數據質量健康分數據安全健康分計算資源健康分存儲資源健康分命名規范檢測注釋檢測運行時長檢測分區檢查distinct檢查select*檢查禁用insert into未配質量規則表檢查告警未處理表檢測基線任務質量規則檢測指
4、定規則未配置檢測臟數據檢測質量規則覆蓋度檢測連續告警檢測數據下載控制數據保護模式數據存儲加密安全訪問模式數據源訪問控制開發生產數據源隔離成員與角色控制費用消耗檢測任務參數不合理檢測簡單加工檢測產出表未被讀取檢測輸入為空檢測數據傾斜檢測暴力掃描檢測空表檢測無生命周期表檢測長時間未訪問檢測表大小檢測重復表檢測表引用次數檢測無效表檢測數據治理健康度五維評估模型基于問題驅動的方式,覆蓋事前、事中、事后的全鏈路主動式數據治理和健康度評估,實現數據的可持續治理DataWorks 數據治理健康度評估模型DataWorks 數據治理健康度評估模型DataWorks智能數據建模數據開發讓模型更規范讓指標更規范數
5、據指標原子/派生指標批量創建指標智能解析生成指標維度建??梢暬D嫦蚪W詣由蒃TL代碼數據標準數據標準標準代碼度量單位命名詞典讓數據開發更規范更高效DataWorks智能數據建模提供可視化建模能力,提升建模效率;支持逆向建模,解決數倉建模冷啟動難題DataWorks智能數據查詢聚焦業務場景;通過自然語言查詢數據,簡單實用;有明細,有匯總,可視化,可交互;產品特色業務痛點數據查詢門檻較較高;數據查詢、數據報表等需求旺盛,且數據研發團隊人員不足;基于自然語言的數據分析查詢,讓一線業務人員“一句話”輕松獲取數據洞察數據集成全新改版新增實時同步數據源全量增量實時同步一體化DataWorks數據集
6、成實時同步能力升級向導式任務配置任務配置更簡易網絡連通診斷工具讀數據源:PolarDB-X(DRDS)、OceanBase、PostgresSQL寫數據源:MySQL、Oracle、AnalyticDB for MySQL、PolarDBfor MySQL、DataHub支持Kerberos認證支持MySQL的分庫分表數據同步支持kafka大規模分布式數據同步支持15分鐘級自動Merge支持動態分區自動分發數據數據作業遷云工具與服務阿里云EMR數據開發調度Azkaban作業搬站上云DataWorksDataWorks地域1地域2跨環境、跨賬號、跨地域、跨云作業遷移、克隆部署大數據遷云專家服務架
7、構評估與設計遷云最佳實踐遷云實施指導開源引擎作業搬站上云多環境作業發布跨賬號跨地域作業遷移服務商成果快速克隆部署DataWorks全新推出“遷移助手”開源調度引擎的作業搬站上云,DataWorks作業跨云遷移和快速克隆部署,同時提供遷云專家服務擴展程序(Extensions)擴展點(Extension Points)DataWorks 開放平臺生態伙伴 SaaS行業數倉建模行業數據治理搬站分銷商對接系統集成效能提升聯合解決方案數據安全行業業務場景DataWorks開放平臺核心能力OpenAPI:已開放200+核心API,覆蓋元數據、數據集成、數據開發調度、數據治理、數據服務等場景:批量操作、自
8、動化操作、搬站、成果復制進展:公共云企業版及混合云均已商業化輸出OpenMessage:開放DataWorks中的事件消息,用戶可通過訂閱消息實現對DataWorks中處理過程的對接場景:自定義DataWorks監督大屏進展:公共云公測中擴展點與擴展程序:通過提供擴展點(流程卡點,即Hook)和回調API,支持用戶開發擴展程序(插件),實現對DW中操作流程的自定義處理和檢查場景:自定義任務變更/表變更等檢查、自定義審批流、成本控制、精細化數據治理進展:計劃9月發布公測Open APIOpen Message訂閱消息訂閱消息回調API調用APIDataWorks 數據開發與治理平臺DataWor
9、ks開放平臺全新升級構建以OpenAPI、OpenMessage、Extension Points&Extensions為一體的全方位開放平臺隱私安全計算能力幫助企業(組織)間構建安全、合規、高效的數據分享渠道,實現數據價值釋放。公共云&專有云Pubic cloud x private cloud全棧安全體系保護數據堅如磐石從底層(數據中心/網絡/供電)至交互界面(權限管理/隱私保護)超20項安全能里滿足監管合規基于核心數倉安全能力構建隱私計算預置豐富算法覆蓋各類隱私計算場景預置多種安全計算方式:隱私求交PSI、PrivateID、匿蹤查詢、聯邦學習等預置久經阿里集團沉淀算法(LRDeepFM
10、等常用聯邦學習算法)相關能力已通過信通院測評提供安全算法定制擴展框架數據分享可追溯、數據可用不可得久經沉淀、滿足測評的產品能力云原生數倉架構實現性能無限擴展超大規模分布式、存算分離的云原生架構內置MPC/FL/TEE技術提供高可靠/高性能隱私計算能力基礎算力在10-30s內完成百萬條隱私數據求交(帶寬達150Mbps)支持通過橫向伸縮,彈性擴展計算力自研飛天架構賦能隱私計算場景面向開發設計重新定義安全計算使用模式隱私計算任務與日常數據生產調度任務無縫銜接輕松支持日常聯合營銷、聯合訓練等綜合場景融合業界領先的數據開發平臺核心能力Demo流程:1、查看A、B企業的原始數據集2、企業A、B創建合作關
11、系3、企業A、B將原始數據集共享至合作關系中4、企業B創建并配置PSI求交任務,顯示求交結果5、企業B至數據查詢界面驗證產出求交數據隱私安全計算能力幫助企業(組織)間構建安全、合規、高效的數據分享渠道,實現數據價值釋放。DataWorks 一站式大數據開發治理平臺數據服務數據治理數據建模全域數據集成數據分析開放平臺數據開發數據資產數據穩定性智能查詢數據資產門戶智能建模數據治理自動化存儲計算健康分離線/實時/交互式/AI四合一開發臟數據監控計算存儲引擎MaxCompute10萬臺集群智能數倉湖倉一體E-MapReduceHologres實時計算Flink版機器學習PAI資源優化掃描智能基線管理E
12、lasticsearch零代碼生成API函數計算服務編排數據共享交換電子表格透視分析儀表盤NotebookOpenAPIOpenDataOpenMessagePlug-in逆向建模數倉規劃數據標準數據指標模型評估原創建模語言日千萬級周期任務調度智能編程助手可視化任務編排支持50+種數據源日3萬億+記錄同步百萬級表實時同步整庫一鍵遷移增量同步數據轉換傳輸速率與并發控制單Topic彈性最高256000Records/s百萬核集群云原生數據湖億級數據亞秒級查詢50億條消息/秒業界最大的中文多模態預訓練AI模型監控告警事件管理智能運維診斷比開源內核性能提升7倍數據地圖10+引擎元數據發現表/字段級血緣30+種表基礎信息上下游影響分析數據質量37種質量規則模板彈性規則調度引擎動態閾值智能規則推薦數據安全31種敏感數據自動識別數據水印溯源數據訪問審計數據分級與脫敏智能進化阿里巴巴12年數據平臺建設積累THANKS