《1-1 阿里云大數據成本優化實踐.pdf》由會員分享,可在線閱讀,更多相關《1-1 阿里云大數據成本優化實踐.pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、阿里云大數據成本優化應用實踐楊祎 阿里云產品解決方案架構師|01阿里云大數據成本優化方案02增效篇:云上大數據與開源對比03降本篇:數據平臺與引擎降本04云原生一體化數倉成本優化案例目錄CONTENT|阿里云大數據成本優化方案云原生一體化數倉01|造一個大數據平臺,我們首選Hadoop開源組件?Hadoop生態的紛繁蕪雜Hadoop生態組件發展日新月異,帶來巨大的集成、運維、迭代更新的挑戰|推積木式發展技術棧過于復雜,組件眾多(常用20+),學習成本高,集成難度大,運維挑戰多Hadoop組件發展一覽表:常見的基于Hadoop構建大數據平臺體系要什么加什么,有什么用什么,按下葫蘆浮起瓢|架構復雜
2、、數據同步難、資源消耗大、數據孤島、缺乏治理工具、人才培養難、學習及開發成本高、不敏捷Spark逃離復雜性,擁抱云原生Gartner云計算技術成熟度曲線報告:云原生架構使得更多企業收益|技術萌芽期期望膨脹期泡沫破裂谷底期 穩步爬升復蘇期生產成熟期云計算得益于其敏捷、資源彈性等優勢,已被越來越多的企業采納,并選擇云服務形態作為主要計算模型。而云原生技術(Cloud Native)為大數據平臺提供更好的計算和存儲資源彈性,實現數據快速上云便捷分析(只關注業務邏輯實現),幫助企業增效降本。|阿里云的最佳實踐,擁抱云原生一體化數倉,加速企業數據上云提升數據分析效率!阿里云大數據成本優化方案:云原生一體
3、化數據倉庫全托管的數據與分析解決方案,可簡化平臺運維、管理投入,提升面向業務的服務能力,加速價值實現|DataHub數據總線運營看板數據大屏MaxCompute離線數倉服務分析Hologres實時數倉實時計算Flink版OSS/DLF 數據湖在線應用DataWorks 數據綜合治理離線實時一體湖倉一體分析服務一體云原生一體化數倉是集阿里云大數據產品MaxCompute、DataWorks、Hologres、實時計算Flink版四種產品能力于一體的一站式大數據處理平臺。技術上通過離線實時一體、分析服務一體、湖倉一體和全鏈路數據治理架構實現成本更低,速度更快,性能更好,運維更簡單。離線實時一體以M
4、axCompute和Hologres為核心的從N到1極簡架構,提供離線實時一體化海量云數倉服務;MaxCompute和Hologres 10X性能高速原生互訪,深度集成;MaxCompute發布EB級海量云數倉的快速查詢能力。湖倉一體持續提升易用的湖倉開發體驗;新增非結構化數據的湖倉管理能力;廣泛支持開源生態對接。分析服務一體數倉實時化、敏捷化、在線化、一體化趨勢明顯;一個平臺上、一份數據實現靈活探索式分析和高并發在線應用查詢,同時實現良好的資源隔離和可用性;減少數據割裂,減少數據移動,統一數據服務出口。全鏈路數據治理 面向業務視角自頂向下進行數倉規范建模;問題驅動的可持續數據治理與企業數據治
5、理成效評估;DataWorks開放平臺全新升級。增效篇:云上大數據與開源對比02|開箱即用云原生/免運維開箱即用彈性與性能隨意彈性性能與成本的平衡完整工具全鏈路開發治理工具經歷阿里巴巴集團十二年打磨企業級安全金融級平臺安全能力各類風險識別模型云原生一體化數倉增效四大要點云原生一體化數倉VS開源組件方案|DataWorks:全鏈路數據開發與治理平臺MaxComputeHologres離線實時一體化數倉云上開箱即用,簡單便捷上下適配,運維復雜MaxCompute彈性與性能|簡單、易用匹配業務發展的彈性擴展Hadoop數倉MPP數倉EMRMaxComputeDataWorks數據倉庫(Data Wa
6、rehouse)面向數倉優化高性能存儲、計算多服務預集成、標準SQL,開發簡單企業級服務-內建完善的管理和安全能力服務化(As a Service)Serverless、免運維按量付費、不用不花錢自動升級(y)?(x)?0(y)?(x)?1000cu0?1000cu3000cu?動態擴縮容,無需提前容量規劃,滿足突發業務增長存儲-計算獨立擴展,無擴展性限制業務增長性能不降級多分析場景支持機器學習機器學習數據湖分析數據湖分析傳統數倉傳統數倉近實時數倉近實時數倉ETL:SQL+UDFBI:查詢加速、MC-HologresPAI原生集成內置Spark MLMars科學計算SQL外表聯邦查詢非結構化數
7、據處理近實時寫入近實時分析MaxCompute強大的性能在實時化、交互分析、AI分析、數據湖分析方面增強,支持更多業務場景MaxCompute五連冠全球冠軍,打破TPCx-BB世界記錄在海量數據場景下,完成低成本、穩定的數據查詢能力。Hologres彈性與性能|高吞吐數據寫入更新,寫入即可見在海量數據下構建實時數倉方案及亞秒級查詢服務相比相比MC訪問速度加速訪問速度加速5-10倍,倍,PB級數據亞秒級交互級數據亞秒級交互支持十萬支持十萬QPS的服務型點查,相比開源系統提升的服務型點查,相比開源系統提升10倍以上倍以上DataWorks:全鏈路大數據開發治理平臺阿里巴巴12年數據中臺建設積累數百
8、項核心能力,集團內月活5萬,真實業務錘煉而成|搭配底層MaxCompute/Hologres云數倉產品為企業用戶提供全鏈路數據治理能力。全域數據集成(實時離線一體化同步),支持50+數據源,提供臟數據監控。提供可視化建模能力,提升建模效率;支持逆向建模,解決數倉建模冷啟動難題??梢暬蝿站幣排c運維,提供智能基線、運維診斷、監控告警等運維能力。支持37種數據治理內置規則模板和自定義監控規則配置。提供31種敏感數據自動識別,數據分級與脫敏,數據訪問審計等。零代碼生產數據API,同時提供OpenAPI、OpenData、OpenEvent、擴展程序等開發能力。DataWorks智能數據建模:為數倉建
9、設提供規范化和標準化保障阿里巴巴數據中臺維度建模方法論實踐、天貓、淘寶、菜鳥、盒馬同款建模工具、數倉高效運轉與業務口徑統一的利器|數倉規劃數據標準數據建模數據指標支持數倉分層、數據域、業務過程等定義,是數倉設計的基礎規劃支持數據字典、標準代碼、度量單位等定義,以保障數據模型和指標的標準化支持可視化數倉維度建模,支持多種大數據引擎的正向和逆向輔助建模支持原子指標、派生指標設計與定義,并自動生成指標代碼,確保業務口徑統一?MaxCompute內置金融級數據安全能力|關鍵發布數據安全加密持續備份恢復實時審計日志跨地域的容災備份安全事件頻發,云上大數據服務如何保障企業數據和服務安全數據泄露惡意刪庫安全
10、攻擊業務中斷DataWorksMaxCompute安全生態權限申請和審批權限審計OA對接安全衛士審批流程管理權限生命周期數據打標敏感數據識別風險識別與預警數據風險審計數據脫敏數據保護傘MaxCompute平臺系統安全訪問控制與授權身份識別和賬戶體系接入控制權限管理數據安全數據存儲加密自帶密鑰(BYOK)脫敏和防泄漏自動備份和恢復風險管控實時審計日志元數據&血緣多租戶安全隔離沙箱安全隔離UDF/Spark自定義應用基礎設施安全獨立大規模集群及網絡隔離環境全鏈路數據集服務高可用設計多層次的服務安全部署設計異地容災與恢復MaxCompute服務部署環境阿里云數據中心數據中心保障設施數據中心安全管控數
11、據中心網絡安全構建全面、多層次的安全管理能力,持續保護云上數據及服務安全Hologres結合MaxCompte提供企業級安全能力|DataWorks安全能力|成員管理身份鑒別授權管理審計管理風險管理租戶管理租戶隔離功能操作審計數據權限功能權限管控權限權限審批(自定義)權限審計數據操作審計管控操作審計操作行為分析安全資產管理部門級角色組織級角色離職轉交數據分級分類敏感數據識別項目空間管理任務/規則/策略管理實體所知實體所有多因素引擎身份映射跨境傳輸管理風險識別規則定義存儲加密傳輸加密風險行為發現風險處置風險響應:放行、告警、審批、去標識化、阻斷降本篇:引擎與數據平臺降本03|MaxCompute
12、提供高性能存儲計算引擎五次突破世界記錄的大數據計算引擎|高性能存儲引擎存儲成本:默認Aliorc比Apache ORC和Parquet節約20%和33%存儲空間計算效率:對比Apache ORC和Parquet分別有30%和40%的性能提升持續優化:ZSTD高壓縮算法進一步提升壓縮率,自動冷熱分層存儲TieredStorage自動冷熱分層存儲成本:低頻存儲價格0.033元/GB/月,為正常存儲價格1/4自動分層:系統自動冷熱分層且不影響性能與可用性高性能計算引擎完整支持標準SQL(TPC-DS 100%兼容)且支持Hive/Spark兼容一套SQL引擎支持離線、近實時分析、交互式分析場景TPC
13、-H指標上領先Spark 3X以上,TPC-BigBench上持續保持業界領先基于Calcite的Volcano模型CBO優化器,CBO+HBO融合MaxCompute五連冠全球冠軍,打破TPCx-BB世界記錄阿里巴巴伏羲調度系統入選頂會VBDL2021論文6問阿里云“盤古”:何以代表存儲技術世界領先MaxCompute提供多種靈活的資源使用方式帶來TCO最低不同業務場景下對資源不同的使用|Hologres提供高性能的實時數倉引擎10億+/秒寫入,億級數據亞秒級查詢的大數據引擎|雙111.45億亞秒級查詢高并發在線查詢QPS高性能點查詢1.3億TPS實時存儲1.3億實時寫入TPS寫入即可查無冗
14、余不做數據搬運工實時離線一體化實時查詢MaxCompute數據PG生態兼容開源支持PG生態文檔和工具無縫對接BI工具Hologres產品核心技術揭秘入選頂會VBDL2020論文Hologres:共享存儲多實例,減少數據冗余,加速數據分析與服務資源隔離,高可用,按需擴展|既支持同一實例內部的資源組隔離(線程級別隔離),也支持共享存儲多實例(物理級別隔離)高可用模式多實例同Region部署共享存儲,實時高可用,多Region部署數據自動復制,秒級災備計算資源物理隔離,實例之間故障隔離,主實例最多4個子實例,支持系統高可用部署DataWorks為大數據引擎提供統一的開發治理平臺“好馬配好鞍”,無木桶
15、效應的降本組合規范設計數據開發數據集成開放平臺開放接口開放消息擴展點與擴展程序業務場景實時同步整庫遷移分庫分表同步增量同步全量同步數據指標數倉規劃數據標準維度建模ER建模(Datablau)任務運維和監控任務統一調度離線/實時/交互式分析/AI一體化集成開發環境交互式分析引擎(Hologres)阿里自研大數據計算服務(MaxCompute)數據服務低代碼化數據API構建服務編排API網關數據轉換數據分析自助分析電子表格Notebook數據治理開放數據檢查器(事前預防)數據治理中心治理項(事后發現)問題處理方案健康分評估模型數據質量質量規則模板智能規則推薦動態規則閾值離線表、消息通道數據資產地圖
16、元數據采集數據目錄和檢索全鏈路數據血緣影響分析數據安全數據權限管理數據分級分類隱私數據保護風險預警訪問審計政務云/城市大腦行業數據中臺智能搜索/推薦/廣告數據報表/大屏車聯網/智能制造數據分析與應用用戶增長/分析/營銷計算存儲引擎DataWorks數據治理中心:為成本優化提供功能、治理模板、量化評估支撐讓數據治理不再一個“運動式項目”,而是一個“可持續的運營項目”。|數據治理量化評估模型數據治理問題預防/檢測數據治理問題優化/解決基于阿里巴巴內部最佳實踐,以問題驅動,事前預防、事后整治,形成治理閉環,構建數據治理健康度評分模型,量化治理成效數據治理健康分評估模型五個維度數據治理健康度評分模型拆
17、解數據治理健康度評估模型研發規范健康分數據質量健康分數據安全健康分計算資源健康分存儲資源健康分命名規范檢測注釋檢測運行時長檢測分區檢查distinct檢查select*檢查禁用insertinto未配質量規則表檢查告警未處理表檢測基線任務質量規則檢測指定規則未配置檢測臟數據檢測質量規則覆蓋度檢測連續告警檢測數據下載控制數據保護模式數據存儲加密安全訪問模式數據源訪問控制開發生產數據源隔離成員與角色控制費用消耗檢測任務參數不合理簡單加工檢測產出表未被讀取輸入為空檢測數據傾斜檢測暴力掃描檢測空表檢測無生命周期表檢測長時間未訪問檢測表大小檢測重復表檢測表引用次數檢測無效表檢測|數據治理中心的正確降本方
18、式量化評估,治理改進,長效運營|研發規范、數據治理、數據安全、計算資源、存儲資源內置檢查項,對于治理問題的新增引入自動預防攔截治理問題的處理優化-自動預防(檢查項)事前治理,基于內置數十種檢查項模板,對于治理問題的新增引入進行自動預防攔截|按需啟用檢查項在任務提交、發布等環節自動觸發檢查依據處理指南進行優化修復查看檢查攔截成效數據治理運營管理平臺工具以人為本,面向管理員和普通成員提供不同視角,簡化治理推進難度,以個人治理帶動全局治理優化|自定義數據治理:基于DataWorks開放平臺拓展新增自定義檢查項允許自有系統與DataWorks進行深度對接,對處理流程進行自定義拓展,滿足不同業務場景|?阿里云云原生一體化數倉成本優化案例04|措施1:看數據治理中心資源消耗分析報告發現問題解決問題|措施2:合理使用付費模式,達到資源最高效利用分析各空間資源消耗趨勢,評估合理付費模式|措施3:針對回刷數據場景成本管控方案|?use quota?SLA?SLA?inputsize?/?/?use quota?set odps.task.wlm.quota=quotaname;?Quota?SLA?SLA?-DataWorks?Quota?非常感謝您的觀看|