《阿里云:ODPS降本增效新能力解讀(2023)(140頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:ODPS降本增效新能力解讀(2023)(140頁).pdf(140頁珍藏版)》請在三個皮匠報告上搜索。
1、阿里云ODPS降本增效新能力解讀合一(劉一鳴)阿里云智能高級產品專家2023/03/10“高質量的增效降本是用創新型的技術來實現數量級式的效率提高,以實現單位成本下降?!币茫簞ス馓嗥髽I在吃“降低成本”的虧發展歷程:大數據從規模到效率的蛻變20092010MaxCompute1.0 發布 支撐螞蟻小微貸款業務2013MaxCompute商業化 單集群突破5k 公共云開始部署2015MaxCompute全面替換Hadoop 聯合Dataworks構建阿里統一數據中臺體系2017MaxCompute2.0發布核心引擎整體重構單集群過萬臺全球部署超過10個數據中心2020MaxCompute3.
2、0發布性能再提升,綜合成本減低30%湖倉一體企業級安全性持續增強發布Hadoop聯邦計算2021MaxCompute&Hologres離線實時一體化2022MaxCompute(ODPS)研發啟動 飛天大數據平臺啟動幾點觀察數據處理從半結構化為主,到80%結構化+20%半結構化、非結構化開發語言從Java到SQL,從過程語言到描述語言團隊從成本中心轉為效益中心(推薦、風控、營銷)從為老板駕駛艙服務轉為一線用數、取數服務,從離線到在線從開源自建轉為產品力優先云是一種運維方式的改變,而不是開發方式Big Data is Dead,Big Data Long LiveODPS再出發:滿足多樣化計算需
3、求大規模計算實時化計算全頻譜計算融合化體驗一體化架構統一存儲,統一開發平臺,多引擎可擴展平臺架構 ODPS-MaxCompute:面向規模數據的Serverless數倉引擎10萬臺2.79EB6年新紀錄300+項20+項服務器并行計算單日最大數據處理規模蟬聯TPCx-BB世界冠軍TPC-H 2022年全球性能海內外專利軟件著權數據驅動而生的超大規模多場景融合的大數據智能計算平臺計算引擎數據集成、開發與治理數據存儲OSS(Open Storage)數據應用ODPS-MaxComputeODPS-Hologres實時計算FlinkDataWorks 大數據開發治理平臺Pangu(Managed S
4、torage)Reporting&DashboardAIOnline Applications行業解決方案合作伙伴方案ODPS開放架構,面向未來可擴展 ODPS-Hologres:面向交互式分析場景的實時數倉引擎ODPS云原生一體化數倉云原生一體化數倉是集阿里云大數據產品MaxCompute(數倉加工)、DataWorks(數據治理)、Hologres(數據服務)三種產品能力于一體的一站式大數據處理平臺。技術上通過離線實時一體、分析服務一體、湖倉一體和數據綜合治理架構實現成本更低,速度更快,性能更好,運維更簡單。DataHub數據總線運營看板數據大屏MaxCompute離線數倉服務分析Holo
5、gres實時數倉實時計算Flink版OSS/DLF 數據湖在線應用DataWorks 數據綜合治理離線實時一體湖倉一體分析服務一體離線實時一體:數倉架構簡化湖倉一體:開放融合分析服務一體:統一數據出口全鏈路數據治理:保障質量DataHub數據總線埋點數據訂單數據MaxCompute的Serverless架構及特點Serverless的數據接入服務 Tunnel批量、流式導入,轉換為MC 列存格式、自動伸縮、免費 OSS導入/導出命令:LOAD/UNLOAD、免費Serverless的多計算環境 Servlerss計算資源池:大規模資源池,On-demand按需提供,按作業付費 獨占計算資源:支
6、持包年包月付費、Workload管理(負載隔離、優先級、分時伸縮)運行環境(runtime)支持ETL/OLAP/ML等大數據分析使用場景Serverless的存儲服務 與計算無關,獨立伸縮,GB-EB級 按實際存儲大小付費 無需指定,默認面向分析優化(列存、壓縮)支持分區/分桶/Zorder等優化手段Serverless的管理 透明升級 豐富監控服務從N到1,融合的、一站式實時數倉Hologres歸檔實時寫入實時寫入維表關聯FlinkMaxCompute離線分析離線加速聯邦查詢點查實時分析結果緩存RedisMysqlDrillPrestoHBaseDruid結果緩存歸檔實時寫入維表關聯Fli
7、nkMaxComputeHologres點查結果緩存離線加速聯邦分析交互式分析實時加工批量加工/低成本存儲業務敏捷響應,數據自助分析,避免數據割裂,賦能數據服務,降低運維成本MaxComputeHologres使用場景數據加工ETL交互式分析OLAP、數據服務Serving、實時數倉核心技術異步調度引擎,Serverless,多租戶,高可靠MPP架構,服務常駐,同步響應,LSM用戶使用異步的Job提交,秒級、分鐘級、小時級,兼容Hive語法同步的Query,毫秒級,秒級,兼容PostgreSQL生態集群資源共享集群,資源Job運行時分配獨享集群,資源獨占,實例啟動時分配計算引擎基于Stage和
8、File設計的,資源按需分配的,中間狀態持久化基于內存的,面向IO優化的極速SQLEngine,計算不落盤擴展性幾乎不受限制,自適應擴展復雜查詢盡量避免跨多節點數據shuffle,容易OOM存儲格式列存,AliORC,更新成本高行存、列存,更新效率高存儲成本基于Pangu,HDD,面向文件,成本低基于Pangu,利用SSD做緩存加速,豐富索引,成本相對高性能、并發規模、擴展性ETL ProcessingAd Hoc QueryOLAPData Service數據應用開發工程師(關注穩定、并發、系統集成)數倉開發工程師(關注數據分層、質量、基線出數)數據分析師(關注語義層、靈活性、取數能力)數倉
9、開發敏捷化:減少層次,減少加工,面向公共層復用DWS:多維分析、數據集市DWD:數據加工ADS:報表類、服務化ODS:數據歸集數據入口面向主題的、可共享的數倉分層加工服務一體化:在MaxCompute中加工,在Hologres中服務,減少數據移動,減少數據孤島數倉建模敏捷化:減少數據層次,敏捷適應需求變化,弱化ADS、面向DWS、DWD的應用開發Hologres(Serving)MaxCompute(ETL)公共層實時離線一體化數倉:Hologres+MaxComputeHolo向量引擎直讀MC30%性能提升Hologres原生向量引擎直讀MaxCompute,30%-80%性能提升,更少RP
10、C,更少序列化復用Block Cache,避免存儲IO開銷支持表達式下推異步ORC Reader,異步Prefetch,支持LazyRead,Lazy DecodingMC直讀Hologres數據百萬每秒同步支持MC直讀Hologres,更低的CPU和連接數消耗支持百萬行/秒MaxCompute與Hologres之間同步數據,簡化數據發布、回刷場景支持跨集群加速訪問MaxCompute,支持就近訪問支持MaxCompute Transactional表,Schema evaluation 表、三層模型元數據自動可見支持MaxCompute元數據批量導入支持MaxCompute外表自動加載支持H
11、ologres External Schema支持更多數據類型:Array,Date等一些值得關注的新能力MaxCompute計費模式?CU?CU?Job 1MaxCompute?Job NJob 2MaxCompute?Quota 1Quota 2Quota 3?user1user2user3user4user5user1user2user3?計算費用存儲費用下載費用注:包年包月計算資源購買時長為1年或2年可享8.5折優惠,購買時長為3年可享7折優惠。Serverless,更是滿足企業現實需求的Serverless算力方案理想中的Serverless資源模型追求的目標:在滿足現實中的差異化需
12、求的前提下,最小化成本0101-?(y)?(x)?1000cu0?0202-?(y)?(x)?00303-?(y)?(x)?1000cu0?1000cu3000cu?0404-?/?(y)?(x)?0?現實中的差異化需求場景業務敏捷性需求 長期處于成長期,處理能力能滿足業務自然增長的需要,特別是業務快速變化的階段 可以是企業的初期,也可以是創新部門的創業業務周期性峰谷差異明顯 每天、每月周期性的峰谷波動巨大,以峰值容量規劃,成本和SLA難以平衡 常規算力+彈性算力,根據調度/人為指定作業資源策略穩定的業務,關注關鍵任務的按SLA產出 基線作業,與非關鍵作業的SLA需求不同,基線產出時間需要保障
13、 非關鍵作業盡可能低成本處理,同時不影響關鍵作業資源治理:算力需求由快速變化轉變為穩定可預期 對CU的容量規劃,相互轉換及測算 固定資源的精細化的Workload管理大數據計算對計算資源的需求特點借助固定資源池(Quota),財務可預測,滿足不同業務、不同組織需求作業優先級:保障關鍵動態作業鏈路查出分時伸縮:設置白天、夜間資源分配策略,最大化利用負載隔離,避免相互爭搶,優先關鍵項目與組織成本與業務敏捷性的融合關鍵作業2日常作業1探索型作業3set odps.task.quota.preference.tag=payasyougo;1.按量付費Project:發起的作業使用Serverless資
14、源-切換Project綁定的資源組2.使用人員主動設定:根據需要臨時指定選擇合適的計算資源-彈性CUMaxCompute提供彈性預留CU,結合全新的Quota管理能力對計算資源進行更靈活的擴縮容,最終達到降本增效的目標。提升資源使用率,降低閑置成本更低的成本,提升更大的效率無彈性,費用可控為保高峰期效率,付費閑置區域大分時彈性,保持費用可控高峰期效率可保障,次高峰期也可保障,大幅減少閑置成本無彈性,費用可控資源平均水位高,作業平均耗時長分時彈性,保持費用可控保持資源高水位,同時滿足部分業務提效需求錢花哪里了-費用中心和元數據服務project總體思路阿里云費用中心賬單詳情、成本分析查看項目級、
15、計費項級信息通過InformationSchema視圖中的TASKS_HISTORY進行作業級費用分析通過Information Schema視圖中的TUNNELS_HISTORY分析公網下載費用通過用量明細分析存儲費用MaxCompute的Information Schema提供項目級別的元數據及使用歷史數據等信息。例如資源消耗、運行時長、數據處理量等指標進行分析,用于優化作業或規劃資源容量。阿里云費用中心Information Schema提供的是當前項目的元數據視圖。元數據系統表目前提供準實時視圖(3小時延遲)。如果需要對歷史數據進行快照備份或獲得超過14天的作業歷史,您可以定期將Inf
16、ormation Schema的數據備份到指定項目。賬單詳情:明細賬單+用量明細成本分析TASKS_HISTORYTUNNELS_HISTORY阿里云費用中心賬單詳情、成本分析查看項目級、計費項級信息通過InformationSchema視圖中的TASKS_HISTORY進行作業級費用分析通過Information Schema視圖中的TUNNELS_HISTORY分析公網下載費用通過下載費用中心用量明細分析存儲費用Information Schema什么作業花錢分析示例Step1:統計分析SQL作業費用分布-開啟2.0數據類型開關。2.0數據類型詳情,請參見2.0數據類型版本。set odp
17、s.sql.decimal.odps2=true;-通過InformationSchema視圖中的TASKS_HISTORY統計SQL作業費用select inst_id-實例id,input_bytes-數據輸入量,complexity-作業復雜度,cast(input_bytes/1024/1024/1024*complexity*0.3 as DECIMAL(18,5)cost_sum,get_json_object(settings,$.SKYNET_ID)SKYNET_ID-DataWorks調度任務IDfrom information_schema.tasks_history-如果
18、是查詢14天前的元數據,需要提前備份元數據表where task_type=SQL OR task_type=SQLRT-task_type=SQL表示SQL作業;task_type=SQLRT表示SQL查詢加速作業。AND ds=待查詢的日期分區ORDER BY cost_sum DESCLIMIT 10000;一次SQL計算費用=計算輸入數據量(input bytes)SQL復雜度(complecity)單價(0.3元/GB)Step2:查看單個作業具體的執行情況如果有SKYNET_ID(DataWorks調度任務ID),請在DataWorks上查看節點具體執行情況。如果沒有ID,說明此任
19、務不是通過DataWorks調度節點發起的任務,可以根據inst_id,查看具體的執行信息,命令示例如下:select operation_text from information_schema.tasks_history where ds=and inst_id=;MaxCompute成本分析(Coming Soon)成本分析旨在提供便捷的項目、作業等多維度的費用情況觀測與分析渠道,快速定位優化項,以實施優化動作。項目費用統計項目費用匯總0510152023/3/32023/3/42023/3/52023/3/6projectAprojectBprojectC050100150200202
20、3/3/32023/3/42023/3/52023/3/6SQL作業計算存儲Spark作業計算計費項費用統計快速定位高額消費項目與計費項作業統計與分析存儲統計與分析作業數量趨勢圖作業CU時消耗趨勢圖作業計量用量趨勢圖作業用量排行榜Inst_id提交人項目Quota用量(掃描量*復雜度)28749280RAM$abcprojectA默認按量付費Quota100073882649RAM$abcprojectB默認按量付費Quota930Signature項目包含的Inst_id用量(掃描量*復雜度)878642projectA82492171,73826491,274691,10000快速定位高額
21、消費作業,進行作業優化存儲費用分布圖總存儲標準存儲備份存儲項目存儲量排行榜項目名稱創建時間標準存儲(GB)備份存儲(GB)統計時間projectA2022-01-012782687292023-01-01projectB2022-05-20163726282023-01-01快速定位大存儲項目,進行存儲優化MaxCompute成本優化(Coming Soon)計算成本優化旨在基于您近30天內預付費資源請求情況,依據您設定的分段時間模擬得出現狀預付費資源配置下的滿足度與作業延遲,并依據您的優化期望生成推薦變配方案。分段時間后被滿足的作業請求滿足度作業延遲分段時間前提交作業的完成度。作業完成時相較
22、于分段時間的延遲。分段時間您期望的作業完成時間。時間CU05001k06:0006:30分段時間前提交的作業請求時間CU05001k06:0006:30延遲30min被滿足的作業請求未被滿足的作業請求近30天平均CU消耗現狀預付費方案下的CU消耗模擬設定的分段時間預留CU=750CU分段時間后提交的作業請求概念闡釋方案與成本對比預留CU量彈性預留CU時間計劃計算成本750-112500元預留CU量彈性預留CU時間計劃計算成本50050005:30-06:0084375元5008:00-8:30時間CU05001k06:0006:30被滿足的作業請求推薦方案下的CU消耗模擬無延遲預留CU=500
23、CU+彈性預留CU=500CU時間計劃05:30-06:00分段時間后被滿足的作業請求MC物化視圖-節省重復計算物化視圖(Materialized View)本質是種預計算,即把某些耗時的操作(例如JOIN、AGGREGATE)的結果保存下來,以便在查詢時直接復,從避免這些耗時的操作,最終達到加速查詢的的它具備物理表的特性,同時也具備視圖的優點:物化:物理存儲數據,不僅僅只是個計算邏輯定義自動更新:可以設置手工定時更新,或者設置成自動更新,也可以根據調度依賴進行更新。物化視圖自動穿透:如果物化視圖沒有物化的分區數據,支持穿透到源表進行查詢,然后組合把數據返回自動創建物化視圖(研發中):系統會自
24、動分析公共子查詢,自動建立物化視圖自動改寫:系統自動分析sql,共同邏輯會自動改寫sql查詢物化視圖,并且支持自動穿透去查源表的數據。MC分層存儲(Coming Soon)數據是公司的核心資產,同時為了滿足合格監管等要求,需要長時間保存數據,給公司帶來了很大的存儲成本壓力。高頻操作:近一個月的訂單數據,交易數據等;客戶信息,產品信息等特點:每天被訪問,可能一天訪問多次;占總數據3%-10%中頻操作:最近半年的訂單數據,交易數據等;特點:季度或者半年才會訪問一次,主要用于生成季度報表數據等;占總數據10%-20%左右低頻操作:半年,或者更歷史的訂單,交易數據等;特點:半年以上才會偶爾讀取一下,主
25、要為了定位問題或者應對監管合規審查等場景Hologres:持續演進JSON數據的支持,提升查詢性能針對JSON數據的場景,Hologres持續演進技術能力,在最開始0.10版本支持JSON的數據類型和相關操作符,在1.1版本優化查詢層,包括支持GIN索引等,1.3則是重點在存儲層發力,支持列式存儲,實現更低的存儲和更高的查詢效率。半結構化JSON數據消息中間件 支持JSON、JSONB數據類型 支持構造、訪問、更新等多種操作符,如,?,-支持JDBC、Flink等方式寫入協議層查詢層存儲層 JSON數據列式存儲優化,存儲壓縮效率接近原生列存自動索引能力,支持Bitmap、字典編碼(ing)稀疏
26、字段元數據壓縮(ing)倒排索引(GIN),加速過濾 表達式識別下推,精準訪問列存子節點 優化訪問operator,減少索引recheck開銷JSONB數據列式存儲,列式訪問(V0.10)(V1.1)(V1.3)Hologres:JSON列式存儲,提升半結構化數據查詢和存儲效率1.3版本對JSON存儲優化,采用列式存儲,存儲壓縮效率接近原生列存,提升存儲和查詢效率。用途與優勢:將JSON類型的數據按照列式存儲,提升數據存儲壓縮效率,減少數據轉換等操作,提升查詢效率舉例:某視頻網站廠商,希望查詢男性用戶的用戶數量和平均年齡addressmoviesfullNameagegender小李55Mal
27、e小明66Male小王77Male小劉28MaleareaCodesuitenamebudgetproducerSELECTavg(json_raw-age:int)FROM user_infoWHERE json_raw-age=Male;SQL示例不依賴列式存儲,需要掃描所有JSON數據使用列式存儲,僅需要掃描2列數據列式存儲客戶案例:升級JSONB列式存儲,Hologres助力淘寶搜索2022雙11降本增效!Hologres:內存水位高,分區管理難?隨著客戶業務量的上漲,也慢慢在Hologres建更多的表,增加更多的業務。但隨之而來的問題是,因為表數量增多(meta數據增加),內存水位會
28、隨之變高,同時非常多的業務習慣使用分區表,對分區表的管理有一定的難度。分區表數據小、數量多Meta數據多,內存水位高手動建分區,刪除分區分區管理難Hologres:動態分區管理,支持自動刪除、創建分區、自動冷熱轉存Hologres 從1.3版本開始支持動態分區管理,通過建表時設置指定的規則,提前創建分區子表/刪除過期分區子表,減少用戶管理分區生命周期的負擔。BEGIN;CREATE TABLE if not exists.(,.|,.)PARTITION BY LIST();CALL set_table_property(.,auto_partitioning.enable,xxx);CALL
29、 set_table_property(.,auto_partitioning.time_unit,xxx);CALL set_table_property(.,auto_partitioning.time_zone,xxx);CALL set_table_property(.,auto_partitioning.num_precreate,xxx);CALL set_table_property(.,auto_partitioning.num_retention,xxx);CALL set_table_property(.,auto_partitioning.num_hot,xxx);COM
30、MIT;DDL示例-指定分區鍵-開啟自動創建分區:true/false-動態分區時間設置:HOUR、DAY、MONTH、QUARTER、YEAR-動態分區時區設置-預先創建分區子表數量【0,512】,0是不創建-保留歷史分區子表數量【-1,512】,-1是不清理,0是不保留-冷熱分層,熱分區數生成分區子表表名parent_table_time_unit分區表使用建議:單表數據1億條,建議使用分區表 不建議小表使用分區表,文件多,碎片多 經常對某日數據進行整體替換,使用分區表+truncate語法 單實例分區數建議在10萬個以內Hologres:冷熱分層,成本優化熱數據:訪問頻次較高的數據,存儲
31、在SSD存儲介質中,滿足高性能訪問的需求。1元/GiB冷數據:訪問頻次較低的數據,存儲在HDD存儲介質中,滿足高性價比的存儲需求。0.144/GiB冷熱數據分層存儲提供了支持按照時間將歷史分區子表數據歸檔到HDD存儲介質中,滿足高性價比的存儲需求。SSDOrders_202211Orders_202208Orders_202210Orders_202207Orders_202209Orders_202206HDDOrders_202204Orders_202203Orders_202205Orders_202202Orders_202206Orders_202201歸檔技術優勢21025010
32、0000330000隨機讀(4K IOPS)隨機寫(4K IOPS)HDDSSD25025040003500順序讀(MB/s)順序寫(MB/s)HDDSSDCALL set_table_property(tbl1,storage_mode,hot);/表創建在熱存上CALL set_table_property(tbl2,storage_mode,cold);/表創建在冷存上CALL set_table_property(tbl_parent,auto_partitioning.num_hot,3);/自動冷熱轉存CALL set_table_property(tbl1_20211111,ke
33、ep_storage,true);/pin住分區,不讓自動冷熱轉存影響此分區Insert into xxxHologres:查看表日志信息,精細化管理表從1.3版本開始提供表日志信息hologres.hg_table_info,查看表的占用存儲變化趨勢、表訪問趨勢、文件大小等,提升對表的進一步精細化管理。SELECTdb_name,schema_name,table_name,collect_time:date as collect_date,hot_storage_size,cold_storage_size,hot_file_count,cold_file_count,total_read
34、_count,total_write_count,row_countFROMhologres.hg_table_infoWHEREcollect_time (current_date-interval 1 week):timestamptz-近一周AND type=TABLE;示例查看所有表近一周的趨勢變化:包括存儲、訪問次數等Hologres.hg_table_info字段介紹最佳實踐:查看占用存儲較大的表近一個月的訪問趨勢治理大表,降存儲空間 查看近一周存儲較少的表的訪問趨勢治理小表,減少內存占用 查看存儲較大且查詢時間較長的query治理大表的bad query專業分工是最大的降本增效,
35、云是現代IT的基礎設施阿里巴巴數據治理平臺建設實踐DataWorks團隊 江諳2023/03目錄數據繁榮的紅利與挑戰面向增效降本的數據治理中臺治理實踐總結與展望大數據平臺建設帶來的“數據繁榮”平臺、用戶、業務的正向循環,推動企業數據價值不斷釋放201620172018201920202021DataWorks每年新增內部用戶數23000名覆蓋運營/財務/分析師/開發/算法等崗位年新增內部用戶數2015201620172018201920202021MaxCompute單日處理數據量(PB)2.79EB雙11峰值即來年日常均值單日處理數據量2015201620172018201920202021
36、DataWorks單日調度任務實例數(萬)1181萬50多種復雜業務依賴關系單日調度實例數各階段的數據治理需求元數據規范數據模型規范數據開發規范生產發布規范數據質量規范數據資產規范數據安全規范共享合規規范數據治理規范API使用規范主要矛盾典型問題成熟階段業務變化與成本治理 業務增長、成本線性增長,需要成本治理 業務受限,成本冗余大,需要成本治理怎么降、降哪些,成本治理不知道如何做,如何成為常態化工作規模階段靈活便捷與風險管控 業務形成一定規模,各類法律法規直指內部各類數據安全風險 絕大部分人員在使用數據,審計能力弱,不知道誰在什么時候怎么使用數據,出現一些數據泄露事件數據管理機制反彈大,限制數
37、據生產力進一步釋放應用階段數據普惠與使用效率 數據感覺很多,用起來很難。各個部門人員找數、查數、用數需求不斷增加,使用數據人員開始增多,數倉人員疲于取數 數據逐漸走向前臺,開始賦能業務,各類數據應用需求井噴,數據團隊壓力增大,數據的穩定性、準確性、開放靈活性等收到挑戰數倉建設開始混亂,逐步走向失控起步階段數據量與穩定性 任務長時間等待,計算、存儲、調度等各種資源不足,數據無法產出,或者產出臟數據,集群掛了,運維無法定位問題,問題處理時間長,補數據止血難度大,人肉運維無自動化業務感知波動、甚至造成業務資損不同建設階段數據治理的主要矛盾與典型問題方法論沉淀數據治理:以增效降本為目標總體業務收益增加
38、單位產品成本降低可持續的效益提升業務核心能力增強通過合理的人力和資源成本投入來支撐業務,同時不影響業務的穩定性、迭代效率和可擴展性。表數量越來越多,找不到需要的數據缺少數據規范與標準,每次使用都要溝通數據需求經常變更,數倉人員壓力巨大數據使用人員多,管理與易用難以平衡法規不斷更新,敏感數據發現與分類分級難度高人力效能人力效能集群經常掛掉,計算資源不足降本成為大趨勢,技術挑戰大不知道成本問題在哪,在哪個部門/人數據不敢刪、任務不敢下資源成本資源成本員工經常起夜處理告警,故障無法快速恢復突發大流量導致數據服務宕機或不可用數據出口多,人為泄露行為管控難事故成本事故成本增效降本數據治理:組織架構設計集
39、團數據專業委員會集團數據治理專題小組數據平臺團隊協同合作團隊業務治理團隊定標準:阿里巴巴數據資產治理規范修訂與迭代資產健康度普查健康分評估治理目標設定治理工具建設治理策略制定治理文化建設協同法務/財務/安全等多個團隊共同開展常態化數據治理數據治理專題小組制定數據治理規范,協調各團隊目標與進度沉淀各類治理實踐,數據治理運營業務數據團隊基于業務現狀設立治理目標與重點方向落實數據治理規范、帶動團隊數據治理意識數據平臺團隊數據治理規范落地產品化,提高治理效率不斷技術突破,規?;尫偶夹g紅利協同合作團隊法務、財務、安全、組織文化等團隊提供專業的建議、或牽頭部分項目團隊核心工作治理方案:全鏈路數據治理+治
40、技合一組織協同集團數據委員會事業部數據團隊財務團隊MaxCompute團隊.成本治理團隊DataWorks團隊常態運營治理標準規范治理培訓月刊/季刊/考試治理評選與激勵.治理大比武部門預算管理治技合一:數據治理平臺及工具構建DataWorks數據建模OpenAPI元數據回刷工具事前管控任務調度MaxCompute+Hologres存儲升級智能數據分層重分布壓縮查詢加速物化視圖UDF優化其他工具健康分全鏈路血緣風險預警埋點治理非結構化數據治理.全鏈路數據治理:從數據生產到數據消費數據源埋點分級埋點收費埋點生命周期數據倉庫全鏈路數據血緣同步任務治理數據應用數據應用BI報表API上下游產品數倉分層維
41、度建模指標重復性數據標準TOP節點優化TOP表優化TOP計算優化模型鏈路優化生命周期管理節點管控任務下線過期表清理治理規則離線實時一體流批一體計算實時數據治理全鏈路治理-統一衡量標準(健康分),統一治理平臺現狀分析問題診斷效果評估優化治理治理工作臺治理策略個人中心管理專項資源監控治理效果資產分治理項表任務計算集團精準定位個人部門存儲質量安全模型成本決策建議治理領域治理方法和策略治理平臺n 豐富完善治理領域n 沉淀優化治理規則n 以個人治理帶動全局優化n 逐層細分,多維度組合n 數據治理一體化策略n 形成治理閉環n 數據治理一站式服務n 自動化、智能化定標準全鏈路治理-確立多治理領域的標準評估度
42、量體系治理專題組通過不斷豐富完善治理領域,沉淀優化治理規則,評估度量體系是發起治理工作的鑰匙。定標準計算存儲質量安全研發模型數據治理健康度評估模型治理健康分模型數據服務指標計算任務數據建模數據集成數據研發數據管理數據服務維度統一評估度量體系用戶工作空間SLA產出時效破線率起夜率模型規范率使用熱度資產價值成本消耗風險指數質量異常率訪問頻度全鏈路治理-梳理數據治理現狀及階段目標定目標完整豐富的元數據體系,是統一標準后,評估治理目標及分析治理情況的基礎支撐規則維度確定治理對象治理現狀評估健康分、資源成本治理收益預估設定治理目標治理實施目標達成度跟進生成治理報告明確治理計劃技術元數據存儲|表|API操
43、作元數據計算|統計|操作業務元數據管理|模型|應用數據質量數據服務數據地圖數據資產數據指標計算存儲質量安全研發模型元數據倉庫治理規則治理分析數據分析數據研發數據管理告警問題解決安全風險預防計算消耗成本模型規范程度研發問題修復存儲消耗成本問題分布治理場景統計報告治理規則多維治理評估治理角色周期統計任務明細數據明細周期趨勢效果預估研發責任人治理負責人治理項明細成本人效收益近百個維度,5大板塊衡量數據治理健康分研發規范健康分數據質量健康分數據安全健康分計算資源健康分存儲資源健康分命名規范檢測注釋檢測運行時長檢測分區檢查distinct檢查select*檢查禁用insertinto未配質量規則表檢查告
44、警未處理表檢測基線任務質量規則檢測指定規則未配置檢測臟數據檢測質量規則覆蓋度檢測連續告警檢測數據下載控制數據保護模式數據存儲加密安全訪問模式數據源訪問控制開發生產數據源隔離成員與角色控制費用消耗檢測任務參數不合理簡單加工檢測產出表未被讀取輸入為空檢測數據傾斜檢測暴力掃描檢測空表檢測無生命周期表檢測長時間未訪問檢測表大小檢測重復表檢測表引用次數檢測無效表檢測確定治理對象治理現狀評估健康分、資源成本治理收益預估設定治理目標治理實施目標達成度跟進生成治理報告明確治理計劃數據治理健康度評估模型治理平臺內置開箱即用的事后50+治理項全鏈路治理-明確治理手段存儲健康分無必要消耗未管理數據表無訪問數據表待專
45、項優化93天內無讀取使用表超大表專項下線冷熱數據拆分計算健康分無必要消耗無訪問的數據任務低訪問、低優先級、高消耗的數據治理同源數據重復同步治理無調用API治理低調用API治理待專項優化高優先級、高消耗的數據治理高消耗數據傾斜治理更關注業務使用,精確識別數據的生命周期和價值定方法訪問頻度數據產品全鏈路治理-明確治理手段存儲健康分治理手段無必要消耗未管理數據表無訪問數據表待專項優化93天內無讀取使用表超大表專項優化/下線冷熱數據拆分計算健康分治理手段無必要消耗無訪問的數據任務低訪問、低優先級、高消耗的數據治理同源數據重復同步治理無調用API治理低調用API治理待專項優化高優先級、高消耗的數據治理高
46、消耗數據傾斜治理定方法訪問頻度生命周期表下線分層存儲模型重構數據壓縮重排任務下線任務暫停參數優化代碼重構任務合并更關注業務使用,精確識別數據的生命周期和價值數據產品全鏈路治理-嵌入式的全鏈路數據治理效能提升分業務階段確認治理方法,明確治理領域和維度,以及需生效的治理策略主動化的治理手段 融入數據流程持續運作主動規范建模研發規范校驗自動質量管控智能基線運維安全服務保障數據治理平臺構建DataWorks數據建模OpenAPI元數據運維體系事前管控任務調度MaxCompute+Hologres存儲升級智能數據分層重分布壓縮查詢加速物化視圖UDF優化治理專項生命周期全鏈路血緣風險預警業務治理批量下線.
47、命名規范檢測模型發布影響檢測即時研發建議運行異常告警問題節點阻斷模型發布影響檢測提交發布主動檢查數據測試數據分級分類線上代碼審核機制值班運維處理機制數據脫敏查詢標準規則模板數據權限流程定方法以負責人為機制建立責任透明度明確角色和職責,做到負責人的正確性和完整性。以此基礎,面向管理員和普通成員提供不同視角,簡化治理推進難度,以個人治理帶動全局治理優化個人團隊應用定責任阿里巴巴數據治理平臺建設經驗1套組織文化+1部數據治理方法論+1套全鏈路治理平臺成熟-成本治理規模-安全管控應用-應用提效起步-生產穩定組織協同文化運營數據開發數據質量數據運維數據地圖數據建模數據資產數據集成.任務調度數據分析性能提
48、升風險識別權限隔離數據服務計算穩定大數據開發治理平臺DataWorks一體化大數據智能計算平臺ODPS+方法論緊密結合平臺建設集團數據委員會數據治理委員會業務數據團隊數據平臺團隊數據治理學院數據治理大比武預算與治理考核常態月刊季刊02 中臺治理實踐數據生產穩定性治理數據生產質量治理數據生產規范性治理數據應用提效治理數據安全管控治理數據治理運營建設數據生產穩定性治理01數據風險:一位數倉值班同學的一晚凌晨1:30,收到電話告警,機器人自動播報“XX任務已延遲XX分鐘,請盡快處理!”凌晨1:31,起床打開電腦,處理告警問題,1:40、1:50、2:00,電話告警不斷轟炸,手機不斷震動,前往客廳辦公
49、凌晨2:00,對于上下游任務邏輯不太清楚,拉起一批同學起夜凌晨3:00,老板被Call醒,打來電話詢問情況,溝通后續處理方案凌晨5:00,所有任務處理完成,等待集群資源計算數據上午7:00,睡眼朦朧,起床前往公司上班上午9:00,剛出電梯口,被業務小二圍住追問數據產出時間,并開啟一天的工作天下數倉工程師苦值班久矣!產出失敗產出延遲數據異常人效降低事故影響資源浪費智能基線,守護數據安全生產期望產出時間9:00、告警余量30min、基線8級(最高級)傾斜DataWorks調度資源傾斜MaxCompute計算資源安全-正常運行任務責任人當日值班表人員全鏈路任務診斷排障運行對比依賴檢查定時檢查調度檢查
50、質量規則檢查引擎資源檢查歷史運行趨勢日志代碼詳情9:00任務正常運行產出告警-啟動通知預測基線產出時間歷史運行數據當前調度/計算水位30秒 updata期望時間提前干預穩定性問題正常穩定產出專利公開號CN106874100A:計算資源分配方法及裝置專利公開號CN107291548A:任務的資源調度方法及裝置基于上下游及當前任務運行狀態,定位發生源頭,當前/下游/自定義節點等多種補數據方式,保障任務運維高效及時全鏈路智能診斷與排障基于歷史運行記錄及當前運行及資源情況,智能預測產出時間,提前干預延遲任務,保障任務產出時間穩定智能預測與告警按照優先級為核心數據產出進行重要性分級,高優先級任務獲得更多
51、的調度與計算資源,保障核心任務資源穩定智能分級調度與資源分配起夜率基破破線率事前治理檢查-融入研發過程治理手段提交/發布:即時自動攔截治理問題評估處置治理攔截問題實現研發與治理的一體化治理項治理手段研發健康分超長運行任務連續出錯任務等待資源過長任務生命周期表下線分層存儲模型重構數據壓縮重排起夜率基破破線率數據生產穩定性治理效果某內部數倉團隊起夜成本計算(每周2.5人日):VS4次0次月7級基線破線次數97%33%值班同學起夜率135天值班人日135天日間天工作效率員工幸福感90天開發人日90天日間天工作效率員工幸福感人效提升風險規避資源節省數據生產質量治理02一件包裹數據質量帶來的業務問題業務
52、問題結費計算,平臺與消費者、平臺與商家、平臺與供應商網絡規劃,網點配置、倉儲配置、運力配置其他供應鏈優化問題數據問題重量為空值、重量超過閾值、重量地域閾值體積為空值、體積超過閾值、體積低于閾值數據質量全流程建設重心事前事中事后業務質量需求數據質量需求開發測試運維監控問題修復質量運營業務研發|數據研發|數據測試數據研發|數據運維數據研發|數據運維|質量管理業務高保障響應數據高準確性要求異構數據的一致性要求業務承諾約束要求過程高效率協作不斷更新的質量用例和質量監控規則質量問題定量定性定期匯總分析標準和機制的可落地計費數據質量商品數據質量用戶數據質量營收數據質量業務治理數據質量全流程建設重心事前資產
53、級別事中事后風險預警問題定位業務承諾業務質量需求數據質量需求開發測試運維監控問題修復質量運營指標口徑質量用例數據建模數據同步數據加工數據服務代碼評審功能測試數據測試服務測試告警觸達問題阻斷問題監控事件復盤應急修復復盤總結故障定級方案沉淀規則優化學習培訓數據質量規則庫完整性規范性一致性準確性及時性業務研發|數據研發|數據測試數據研發|數據運維數據研發|數據運維|質量管理數據生產及質量穩定性方案集團工具橫向平臺治理業務治理元數據工具智能閾值變更通知工單系統質量健康分數據質量平臺問題監控指標波動監控業務規則監控字段異常探查質量治理SQLSCAN代碼交叉檢查回歸測試度量評估質量工單質量量化質量看板協同
54、處理質量機制上游溝通保障變更通知下游計費數據質量商品數據質量用戶數據質量營收數據質量制度規范數據開發規范數據測試規范數據質量規范基線管理規范制度運營質量保障小組質量雙周報質量排名考核數據故障處理事件告警數據重構業務流程,包裹參數數據準確率從95%提升至99%以上數據端數據異常監控,空值、波動值數據異常推送,形成明細報表異常分析,異常修復統計業務端測量數據前置校驗,錄入限制或者告警小二異常判責,發起重新測量或確認數據商家/倉庫重新測量,更新數據質量規則智能設置規則智能推薦動態閾值設置自動標準檢測臟數據自動攔截數據生產規范性治理03數據規范性是多種數據問題的源頭010203040506數倉架構混亂
55、跨bu、跨團隊依賴較多,數倉架構逐漸混亂,逐步有失控趨勢,面臨重建危機數據開發效率低模型設計與物理表開發斷鏈,有了模型開發效率也沒提高數據指標構建難業務需要的數據指標開發較慢,類似指標沒有批量構建的方式,缺乏指標的統一管理找數用數難業務數據含義口口相傳,人工問口徑耗費大量時間,交接人員也不清楚數據情況數據穩定性差數據混亂,數據產出時效受影響,數據質量穩定性不高數據成本不斷增長數據隨意開發、大量任務重復計算、找不到也治不了,導致成本不斷增加某事業部數據生產規范建設成果3大創新核心價值規范沉淀多樣降本提效使用人數輔助數據體系的規范化建設,能讓規范落到實處全部逆向明細層模型數據建模有線下轉為線上,沉
56、淀企業級核心數據資產面向業務視角自頂向下進行規范建模與面向開發視角自底向上構建數倉,雙管齊下,相輔相成降低儲存成本;降低計算成本逆向建設中治理并下線了歷史15%的模型表減少人員溝通成本,產品化支持快速建模以及開發打通,提升建模效率及研發效率開發效率整體提升30%數倉團隊全員使用公共層團隊全員使用1數倉規范和建模實操銜接23多種提效的便捷開發功能不同視角的大圖該數倉團隊從2020年開始與DataWorks團隊不斷共建智能數據建模產品,從最初版簡單的錄入系統,到集成逆向建模、多表克隆、多種引擎的代碼模式、excel交互等功能,極大提升了建模規范和研發效率,成為事業部落地數倉規范的統一平臺。以數據中
57、臺方法論為指導,多部門共建DataWorks數據建模平臺數倉規劃數據標準數據建模數據指標支持數倉分層、數據域、數據集市等的定義,是數倉設計的核心規劃支持數據字典、標準代碼、度量單位等的定義,以保障數據模型和指標的標準化支持可視化數倉維度建模,支持多種大數據引擎的正向和逆向建模支持原子指標、派生指標等的設計與定義,并支持指標作為模型字段,確保業務口徑統一支持從業務抽象到數倉頂層規劃;支持設置模型設計空間,不同部門可共享一套數倉規范等,可以統一管理不同研發空間的數據模型;與數據質量無縫打通,能一鍵創建質量規則,落標檢查不再難;支持逆向建模,解決現有數倉的建模冷啟動難題;支持通過Excel文件導入模
58、型和通過FML快速構建模型;支持與數據開發無縫打通,自動生成ETL框架代碼;可根據原子指標、修飾詞等批量創建派生指標;與維度建模無縫打通,能通過將指標快速搭建成模型;涉及菜鳥/天貓/淘寶/盒馬/本地生活等多個事業部數據應用提效治理04一線人員使用數據的痛點找數難 想找的數據,不知道去哪找,特別是用業務術語去找的時候 相似表太多,不知道用哪個 搜索的結果太多,需要逐一點擊查看 搜索的結果不準,很多和自己的業務不相關用數難 表命名奇怪,字段沒有注釋,缺少文檔 表注釋太簡略,沒有有效信息 人工問口徑耗費大量時間 很多表的owner是被交接的,也不清楚業務邏輯 如何快速開放數據或者構建個性化數據應用多
59、管齊下,用戶找數/用數提效方案數據規范數據地圖數據服務數據標準數據建模數據指標逆向建模模型評審數據血緣表/字段血緣血緣準確度優化數據預覽探查全局檢索表/字段檢索模型檢索指標檢索元數據元數據自動采集Schema詳情數據目錄智能推薦官方/我的專輯猜你需要更優表推薦數倉分層分析服務SQL查詢快速圖表數據API服務零代碼生成服務編排開放服務開放接口(全平臺100+種OpenAPI)開放擴展程序/擴展點,開放事件提高數據規范性提升數據可讀性消除指標二義性避免指標重復算數據檢索快/準打通數據建模各事業部/部門官方專輯基于數倉規范智能推薦更優表個人用數管理統一SQL取數快速生成API業務應用定制數據表、數據
60、字段上下游血緣信息用數提效:以SQL查詢為核心構建數據分析平臺智能SQL編輯器左右布局利用率更高,更快數據比對明細數據模式數據圖表模式多管齊下,業務找數/用數提效成果10000+各事業部模型表數64%核心表使用人數提升1500萬API日均調用次數5萬人月活躍小二數據安全管控治理05數據安全治理的難點存儲用戶界面流轉交付 用戶基數大:萬級別 用戶類型:開發/運營/分析師/銷售/HR 界面分散:命令/OA/可視化取數界面/BI工具 錯綜復雜:即席查詢鏈路/離線鏈路/實時鏈路/數據服務API/其他系統級通道 跨系統 跨部門 跨責任人 數據量:動輒PB級 數據類型:結構化/非結構化/半結構化 分級分類
61、成本高,費時費力 分級分類遺漏 授權管理難 權限治理難:權限蠕變/離職撤權 風險管理難:篡改/泄露/濫用/不可用 業務連續性難以把控:產出質量/產出時效 機密性難以把控:非法出境(出域)/脫庫/泄露建設數據安全技術體系基于I(識別)P(防護)D(檢測)R(響應)的安全技術體系I 識別P 防護D 檢測R 響應敏感數據識別數據分類分級數據資產自動發現數據采集l端權限/采集行為檢測l三方SDK檢測l形式合規分析l動態運行時風險分析數據存儲l存儲加密l數據備份l安全銷毀數據傳輸l加密傳輸l數據源訪問控制l臨時Token訪問l關鍵數據傳輸審批數據處理l行/列級權限管控l多級授權機制l風險行為暴露l規范化
62、開發生產流程數據使用l即席查詢脫敏l即席查詢(展示/復制/下載)管控l數據API鑒權、發布審批l泄露數據溯源數據操作監控風險行為識別l數據操作行為審計l數據生產血緣圖譜l數據使用血緣圖譜l跨境傳輸檢測(邀測)l正則表達式l名稱匹配l專家規則l行業模板l自生成識別模型生產行為監控l實時操作事件消息l準實時操作行為日志l事件發生時間異常l事件發生頻率異常l高風險數據操作指令(敏感條件讀/寫/刪/傳輸/導出/下載)l高風險平臺生產操作指令(下線任務、刪除任務、補數據)審批/告警/阻斷l重要數據權限多級審批l關鍵生產操作申請執行l可疑操作觸發告警l禁止操作事中阻斷通用防護措施l企業、部門、角色間權限隔
63、離l增強身份鑒別l人員離職權限交回l登陸地、登錄Client黑白名單典型場景:角色劃分與權限控制精細化的權限控制調用示例結合DataWorks各類安全能力,實現人員自動添加、自動授權、自定義審批。L1類數據L2類數據L3類數據開發者表Owner開發者部門安全負責人表Owner開發者部門安全負責人表OwnerCIO自定義敏感數據審批流,進行訪問控制角色權限劃分模板基于角色映射+Policy+API的自動化授權方案典型場景:數據脫敏敏感數據脫敏(去標識化)基于已識別的敏感數據,管理員可以選擇為其開啟動態脫敏、靜態脫敏開關,以確保開發態與分析態的明細數據機密性。數據分析場景下的敏感數據保護開發測試場
64、景下的敏感數據保護數據平臺應用系統去標識化的數據動態數據脫敏系統數據源數據源數據源數據源靜態數據脫敏系統開發測試數倉開發測試應用數據保護:有效保護敏感數據內容不被泄露、竊取。滿足合規:符合個人信息保護法,國標35273等主流要求。效率兼顧:在脫敏前提下支撐業務分析,兼顧安全與效率。數據保護:有效保護敏感數據內容不被泄露、竊取。合規:縮減合規范圍,個人信息保護法規定匿名化后的數據不再屬于“個人信息”范疇;效率兼顧:脫敏后數據保留業務屬性和數據分布特征,不影響開發測試需求,兼顧安全與效率。能力價值數據可算不可見,支持保留格式加密、掩蓋、HASH加密、字符替換區間變換、取整、置空等多種方式開放治理架
65、構及文化建設06以開放平臺為核心構建個性化的治理擴展應用DataWorks開放平臺提供了豐富的OpenAPI、開放事件以及擴展程序(插件),允許用戶自有系統與DataWorks進行深度對接,以及對DataWorks的處理流程進行自定義擴展程序(Extensions)擴展點(Extension Points)DataWorks 開放平臺開放生態應用部門數倉建模部門數據治理應用集成生態伙伴對接系統集成效能提升聯合開發數據安全部門業務場景開放接口(Open API)開放事件(Open Event)訂閱消息訂閱消息回調API調用APIDataWorks 數據開發與治理平臺個性化治理01能力:下線能力及
66、主流平臺覆蓋目標:任務自動識別,識別后自動下線自動批量下線020304能力:離線數據強制清理目標:三無垃圾數據(無訪問、無責任人、無管理)自動識別,識別后自動刪除清理自動清理規則:低效率sql自定義檢查器,如笛卡爾積等能力:自定義SQL攔截能力目標:提交前攔截、運行中超過閾值后強制中止自動攔截規則:常用參數設置及優化規則,內存、MapReduce數量、Mapjoin使用等目標:自動設置及優化SQL自動參數設置業務化場景數據治理文化運營持續進行數據治理運營及文化建設,讓數據治理成為常態化工作 促進數據治理管理規范在不同場景的落地 促進業務規則不斷沉淀進入平臺治理規則庫 促進數據治理問題的反饋和流
67、轉規則運營 運營數據治理平臺,促進問題解決方法和案例的沉淀 持續以產品化能力輸出數據治理自動化解決方案產品運營 針對治理過程收集并運營案例,使各類用戶對數據治理問題嚴重性、解決辦法、項目進度有深刻的了解 推動不同級別用戶的治理水平提升,持續激勵優秀員工 為數據治理健康度的推廣打下基礎案例運營 批露并推進結果類指標的改進健康指數、治理指數 通過排行榜明確責任情況及進展 推進治理健康分被平臺工具、關聯數據產品、流程平臺等引用;指標運營數據治理學院數據治理大比武預算與治理考核常態月刊季刊數據治理文化建設持續進行數據治理運營,讓數據治理成為常態化工作04 總結阿里巴巴數據治理平臺總結數據治理的未來展望
68、阿里巴巴數據治理經驗總結1套組織文化+1部數據治理方法論+1套全鏈路治理平臺全鏈路數據治理平臺數據管理者治理全局分析、評估、決策,管控數據消費者準確性、易用性、可讀性、快速應用數據生產者規范性、時效性、穩定性、數據質量、數據安全組織架構數據委員會數據治理小組數據資產團隊BU治理團隊數據平臺團隊數據引擎團隊財務團隊安全團隊法務團隊方法論數據治理規范數據模型規范數倉開發規范數據質量規范穩定性規范安全規范合規規范應用規范埋點規范大數據計算服務MaxCompute實時數倉Hologres實時計算Flink版大數據開發治理平臺DataWorks數倉分層智能數據建模維度建模數據標準數據指標離線同步全域數據
69、集成實時同步全增量同步網絡方案可視化開發高效數據生產多引擎混編規范發布管控告警及運維治理健康分主動數據治理治理評估檢查器數據質量權限隔離控制全面數據安全敏感數據識別數據分類分級數據脫敏開放平臺快速分析服務SQL查詢電子表格數據服務組織高效通暢權責分明制度規范完整執行落地流程清晰透明反復迭代技術統一完備沉淀復用數據治理責任人可關注增效降本的數據架構資源使用合理性標準應用合理性&鏈路標準數據體系標準數據冷備標準跟隨業務的單位收益技術成本業務價值顯性化量化業務支持價值成本和業務收益的均衡為業務定價模式提供支持自動化數據治理彈性、混部、分時復用等先進技術治理工具的多種更新治理方案治理流程的自動化與提效
70、主動式、可量化、可持續的全鏈路數據治理研發問題主動攔截治理問題主動發現治理任務高效處置數據治理融入開發流程,拋棄“先開發后治理”治理健康分持續評估治理過程持續運營治理知識持續沉淀數據治理成效可量化、可持續運營,避免“應對式治理”生意參謀應用集市模型實踐美迦阿里巴巴生意參謀數倉工程師2023/03/10目錄生意參謀業務介紹生意參謀模型架構數據建模平臺建設應用層模型治理&實施生意參謀業務介紹01生意參謀,淘系店鋪一站式數據化運營工具面向商家的全鏈路經營數據產品,用商家一盤生意背后的一盤數據加速業務成長,促進生態繁榮生意參謀,提升商家自運營能力,幫助商家成長解決商家看數問題傳遞平臺經營信號部門角色經
71、營鏈路業務分析動線經營鏈路高管市場品牌部運營推廣部商品企劃部客服銷售部研發生產部倉配物流部財務部等商品企劃研發供應生產管理市場品牌運營推廣售前/中管理訂單處理物流倉儲售后管理財務管理看自己看客戶看市場看競爭概覽支付金我的店鋪商品流量交易多店服務活動營銷消費者行業競爭多維度排行商品詳情訂閱商品轉化率店鋪排行負面評價活動日歷品牌喜好特征行業供需容量競爭對比來源構成類目構成支付金額評分支付金額廣告投放文娛喜好特征行業商品排行競店發現品牌商交易流量商品活動財務渠道服務更多生意參謀模型架構02生意參謀-標準的阿里大數據體系架構圖:阿里大數據體系架構圖生意參謀-標準的阿里大數據體系架構SAAS智能診斷PA
72、AS人群應用OneserviceQuickBIDSE數據庫DIHU(下線中)HbaseLindormADB商家數據集市離線部分ADS葉子節點mds離線集市中間層DIM維表實時部分交易匯總層流量匯總層內容匯總層引導加購明細層引導下單明細層引導支付明細層實時引導中間層Aplus店鋪明細層UT店鋪明細層IMMER明細層引導收藏明細層應用層數據管理管理顆粒度業務主題(單元化)流量渠道商品類目內容財務消費者客服商家營銷活動物流表metadata指標onedata管理項全鏈路血緣質量穩定性成本模型健康度公共層DWS tbcdmone_mining交易匯總層交易匯總層交易匯總層實時公共層OneData規范:
73、基于數據域的管理平臺服務 PAAS(Platform as a service)軟件服務 SAAS(Software as a service)tbcdmDWDwireless dw生意參謀數據分層-MDS應用場景明細數據層 DWD(Data Warehouse Detail)匯總數據層 DWS(Data Warehouse Summary)應用數據層 ADS(Application Data Service)公共維度層 DIM(Dimension)定位應用集市中的公共層,不具備行業通用性生意參謀特有的共性需求1.跨業務域;2.生參特有公共數據ADSDWS流量主題行業主題商家主題買家主題廣告主
74、題行業主題會員域交易域日志域銷售客服互動域DWDDIMADSDWS流量主題行業主題商家主題買家主題廣告主題行業主題會員域交易域日志域銷售客服互動域DWDDIMmds數據建模平臺建設03生意參謀正向建模實施流程數倉規劃業務域定義數據域&業務過程定義模型發布數據標準定義維度建模原子/派生指標定義菜鳥數據模型管理建設成果生意參謀模型設計規范模型分層+業務域+集市域+主題域+表粒度+自定義詞根+統計時間周期/刷新周期標識/info將數據集市按照分析視角進行切分。根據業務過程,拆分為子主題域面向某個應用場景或者產品的數據組織,一般會依賴數據公共層。維度建模-保障模型建設規范,減少新人學習成本5層數據分層
75、12大業務分類(多級)13大數據域及若干業務過程分層劃域表名規范6類命名規范:數倉分層、業務分類(一級二級)、數據域、業務過程、存儲策略等要素數據指標-onedata方法論,標準化、體系化管理數據資產大數據建設方法論:從規范定義(維度、指標定義)、模型設計、數據研發到數據服務,可管理、可追溯、可規避重復建設數據規范定義輸出:One Data 規范。集團數據公共層建設-數據規范定義1.數據域及業務過程的劃分,包括交易,日志,商品,會員&店鋪,營銷等2.指標的規范和管理,包括原子指標、時間周期和修飾詞的抽象及命名規范3.屬性的規范和管理,包括源系統引入和應用定制的屬性規范數據模型設計輸出:One
76、Data 規范。集團數據公共層建設-數據模型設計1.ODS 層數據同步、命名、存儲和生命周期管理、數據質量等規范2.中間層(DWD&DWS)設計原則和邊界、表命名及不同類型事實表設計、存儲和生命周期管理、數據質量、數據安全等規范ETL開發規范輸出:One Data 規范。集團數據公共層建設-ETL 開發規范1.數據處理流程、研發流程和 ODPS 項目管理規范2.編碼的基本原則、要求和規范3.測試及質量規范、發布、運維及故障處理等數據指標-onedata方法論,標準化、體系化管理數據資產規范定義 統一的、可執行的規范定義 一個指標只有一個英文字段、一個中文字段、一個指標定義模型設計 基于規范定義
77、建設統一的數據公共層以及應用層研發運維 進行風險點事前、事中、事后有效檢查與提醒應用層模型評估&治理04生意參謀數據現狀,凸顯集市臃腫與業務快速迭代之間的矛盾模型痛點:如何衡量一個模型的好壞,將模型治理常態化通過應用層模型治理,提升研發效率、降低數據成本治理專項分工協作事前事中事后研發效率提升,數據成本降低無效表下線無關表遷移應用層模型治理命名規范化依賴合理化加工層級精簡過度設計識別重復建設識別應用層研發應用層:敏捷開發,迅速迭代邏輯快速復用共性邏輯下沉公共層研發公共層:運維保障,口徑統一產品化智能建模規范表名規范依賴規范模型評估管理機制評估&治理看板數字化大盤橫向賦能評估方法輸出沉淀oneD
78、FD命名規范治理,通過完善表信息、工具化保障命名規范,提效運維依賴規范治理,通過數據健康流轉,依賴監控,保障數據單元化層級依賴集市間依賴集市內依賴ads不能跨層依賴ods,ads也不能被cdm、mds引用同一集市不同主題間的表不能相互依賴,如果存在依賴,應該下沉mds集市間不能相互依賴,如果存在依賴,應該下沉公層衡量指標重復建設治理,減少無用數據,精簡加工層級,減少運維成本(過度設計ads表數/淘系生參ads有效表)ads過度設計mds過度設計重復設計多層加工(過度設計mds表數/淘系生參mds有效表)(空間內加工層級=5/淘系生參ads有效表)(相似作業表數/淘系生參ads有效表)案例:共性
79、數據下沉,增加能提效的中間層,提效開發,保障數據口徑統一mds下沉表數案例衡量指標現象ads下沉表數集市內共性數據:同集市下的ads下游屬于包含關系集市間共性數據:同一中間層數據,共同服務于兩個不同集市激活企業數據資產,助力企業做“活”數據中臺DataWorks智能數據建模愛桐阿里云計算平臺事業部-DataWorks產品團隊2023/03/10數據建模核心價值讓大數據真正驅動企業業務發展數據開發更簡單數據資產更清晰數據應用更簡單、更智能目錄阿里巴巴數據需求工作流轉介紹阿里巴巴數據中臺最佳實踐DataWorks智能數據建模-行業模型模版介紹DataWorks智能數據建模&數據資產-產品實操介紹阿
80、里巴巴數據需求工作流轉介紹01阿里巴巴數據需求工作流轉介紹阿里巴巴數據中臺最佳實踐02阿里巴巴數據中臺建設最佳實踐有組織有產品有策略有目標阿里巴巴數據倉庫建設最佳實踐-組織篇組織保障制度保障交接質量參與者保障新人標準鍛煉機制數據交接傳代碼,更傳經驗明確數據標準共建機制明確組織成員職責分工阿里巴巴數據倉庫建設最佳實踐-策略篇日常治理保健康增量規范存量盤點阿里巴巴數據倉庫建設最佳實踐-目標篇列出問題清單對問題進行歸類制定相應的建設目標規范率計算應用建模效率存儲費用研發效率阿里巴巴數據倉庫建設最佳實踐-產品篇阿里巴巴數據倉庫建設的得力助手全集團推進數據標準化建設工作在DataWorks產品體系內實現
81、閉環;工作效率大幅提升;年成本節約數億元;阿里云DataWorks產品十三年發展歷程好的產品需要經歷時間的打磨DataWorks在阿里集團立項,當年Hadoop集群規模達1000臺立項2009201520172019DataWorks進入公共云和專有云市場,開始服務企業和政府客戶對外發布DataWorks完成全球12+Region部署,走向國際化,開始服務全球客戶國際化全面支持多種計算引擎任務混合編排調度,全新構建數據綜合治理體系飛天大數據平臺發布DataWorks V3.0 發布2013阿里集團啟動登月計劃,全面從Hadoop轉向MaxCompute,集群規模達5K臺登月計劃阿里云數加品牌建
82、立,DataWorks全新啟航版本數加平臺發布20162018DataWorks V2.0全新發布,形成數據集成-數據開發-數據服務-應用開發的一站式大數據智能云研發平臺DataWorks V2.0 發布2020DataWorks全新推出開放平臺,構建合作伙伴生態IDC 2020年中國大數據管理平臺廠商評估,入圍領導者象限DataWorks全面開放阿里靈杰發布2021DataWorks全新推出數據建模與數據治理中心產品大數據與AI一體化阿里云DataWorks:一站式大數據開發與治理平臺智能進化-阿里巴巴十三年數據平臺建設積累DataWorks 一站式大數據開發與治理平臺數據服務數據治理數據建
83、模全域數據集成數據分析開放平臺數據開發穩定性治理SQL查詢正向建模離線/實時/交互式/AI四合一開發臟數據監控計算存儲引擎MaxCompute10萬臺集群智能數倉湖倉一體E-MapReduceHologres實時計算Flink版機器學習PAI智能基線管理Elasticsearch零代碼生成API函數計算服務編排數據共享交換電子表格透視分析儀表盤Notebook開放API開放消息擴展點擴展程序逆向建模數倉規劃數據標準數據指標模型評估原創建模語言日千萬級周期任務調度智能編程助手可視化任務編排支持50+種數據源日3萬億+記錄同步百萬級表實時同步整庫一鍵遷移增量同步數據轉換傳輸速率與并發控制單Topi
84、c彈性最高256000Records/s百萬核集群云原生數據湖億級數據亞秒級查詢50億條消息/秒業界最大的中文多模態預訓練AI模型監控告警事件管理智能運維診斷比開源內核性能提升7倍數據地圖10+引擎元數據發現30+種表基礎信息表/字段級血緣上下游影響分析數據質量管理37種質量規則模板彈性規則調度引擎動態閾值智能規則推薦數據安全管理31種敏感數據自動識別數據水印溯源數據訪問審計數據分級與脫敏數據治理中心檢查項(問題預防)問題處理閉環健康分模型治理項(問題發現)DataWorks數倉建設最佳實踐路徑數據建模數據集成數據開發數據服務數據分析數據資產數據治理數據建模行業模型模板介紹03開箱即用加速數倉
85、構建速度緊跟行業步伐零售免費期待您的加入最新優惠聯系您的阿里云接口同學,可以在第一時間免費獲得數據建模的零售行業模型模版數據建模新購客戶,享數據建模dw.idm.small規格首月199元活動(原價7500元)數據建模老客續費,享5折優惠,買多久都5折DataWorks智能數據建模&數據資產實操介紹04DataWorks-智能數據建模數倉規劃數據標準維度建模數據指標支持數倉分層、數據域、數據集市等的定義,是數倉設計的核心規劃支持字段標準、標準代碼、數據字典、度量單位等的定義,以保障數據模型和指標的標準化支持可視化數倉維度建模,支持多種大數據引擎的正向和逆向建模支持原子指標、派生指標等的設計與定
86、義,并支持指標作為模型字段,確保業務口徑統一 支持從業務抽象到數倉頂層規劃;支持設置模型設計空間,不同部門可共享一套數倉規范等,可以統一管理不同研發空間的數據模型;支持逆向建模,解決現有數倉的建模冷啟動難題;支持通過快速復用元數據結構、Excel文件導入模型和通過FML快速構建模型;支持與數據開發無縫打通,自動生成ETL框架代碼;可根據原子指標、修飾詞等批量創建派生指標;與維度建模無縫打通,能通過將指標快速搭建成模型;DataWorks智能數據建模-數倉規劃公共層應用層數據域業務過程數據集市主題域DIM維度層DWD明細數據層DWS輕度匯總層數據域數據域ADS應用數據層業務分類研發空間A建??臻g
87、研發空間B系統設置(建表檢查器設置、模型模版設置、規范默認值等)通用個性化DataWorks智能數據建模-數據標準 字段標準:即數據字典,定義字段的類型、取值范圍、度量單位、標準代碼等約束內容;可在數據建模中表的字段定義時進行引用;標準代碼 標準代碼:設置某一數據標準可選擇的數據的枚舉值內容。主要在數據字典中引用,定義字段的取值約束;貨幣單位字段標準命名詞典 度量單位:字段參數的數量單位(如個、元、米等)??稍谥笜硕x和數據建模中表的字段定義時進行引用;命名詞典:管理業務名詞、物理表、字段的詞根和詞素及其標準化翻譯;標準規范定義模型設計引用自動落標質量規則DataWorks智能數據建模-數據指
88、標批量創建派生指標指標批量構建模型模型字段關聯指標以上數據,全部為展示用demo數據,非真實業務數據。原子指標=業務過程+度量;派生指標=時間周期+修飾詞+原子指標DataWorks智能數據建模-逆向建模支持將已有物理表逆向生成邏輯模型根據表名關鍵詞精確匹配/模糊匹配逆向全流程可視化以上數據,全部為展示用demo數據,非真實業務數據。DataWorks智能數據建模-正向建模根據已有物理表/視圖/指標快速構建模型根據規范,自動生成表名類Excel建模操作FML/DDL建模Excel導入建模根據已有物理表/視圖/指標快速構建模型以上數據,全部為展示用demo數據,非真實業務數據。DataWorks智能數據建模-ETL簡代碼支持根據模型信息自動生成ETL代碼以上數據,全部為展示用demo數據,非真實業務數據。DataWorks智能數據建模-維度建模生命周期過程DataWorks智能數據建模-人員分工DataWorks-數據資產3D業務全景圖資產概覽資產市場資產價值資產消費資產管理產品界面實際操作