《數據湖和湖倉一體產業觀察(1).pdf》由會員分享,可在線閱讀,更多相關《數據湖和湖倉一體產業觀察(1).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、數據湖和湖倉一體產業觀察云計算與大數據研究所2023 數據湖和湖倉一體技術發展及現狀介紹數據湖&湖倉一體產業觀察信通院未來工作計劃數據湖和湖倉一體技術發展及現狀介紹我國大數據發展態勢好動力足多年來,我國大數據高速發展,不斷取得重要突破,發展態勢良好。1.3萬億產業規模31%論文全球占比50%全球專利受理占比超18萬家大數據市場主體超800億元企業獲投總金額近一年,我國在政策、人才、資金等方面持續加碼,為大數據后續發展注入強勁動力。時間文件名稱2021.11工信部“十四五”大數據產業發展規劃2022.1國務院要素市場化配置綜合改革試點總體方案2022.4中共中央 國務院關于加快建設全國統一大市場
2、的意見2022.12中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見147所“雙一流”高校中有87所已開設了大數據專業,占比達到59%廣東實施“十萬”產業數字化符合性人才培訓行動;浙江圍繞數字人才制定“高精尖缺”人才目錄;福建明確要求縣級以上地方人民政府制訂大數據人才發展計劃人才資金寧夏對于區內符合標準的優質大數據企業給予最高300萬的資金支持山東、黑龍江等省份要求省內縣級以上人民政府每年需統籌安排資金專項扶持大數據相關企業江蘇省每年在省級財政安排12億元專項資金支持工業企業“智改數轉”部分代表性政策大數據技術進入深度優化階段計算實時性和數據源多樣性存儲使用需求催生了數據湖概念,
3、同時隨著云計算技術的深入應用,數據平臺技術完成了從私有化部署到云上部署再向云原生的轉變20世紀60年代支撐數據存儲計算的軟件系統起源于本時期的數據庫20世紀70年代關系型數據庫誕生,并成為沿用至今的數據存儲計算系統20世紀80年代數據倉庫理論被提出,成為之后一段時期內發掘數據價值的主要手段2000年前后面 向 非 結 構 化 數 據 的NoSQL數據庫興起2010年前后來源:中國信通院,2022經過60余年發展,大數據技術框架趨于成熟,進入深度優化階段。目前已經形成了以分布式數據庫、數據倉庫、批處理平臺、流處理平臺為代表的總體技術框架,并廣泛應用,已能夠支撐具有高并發、低延遲數據處理分析需求的
4、極端場景。企業復雜多變的業務訴求需要湖倉一體平臺需求統計分析 預測分析轉變單領域分析 跨領域分析轉變被動分析 主動分析轉變非實時分析 實時分析轉變結構化數據分析 多元化數據分析轉變12345隨著數據類型多樣化、分析場景的多元化,企業需要搭建數據平臺來支撐各種數據應用系統,比如SQL分析、實時監控、機器學習等,進而助力企業加速實現數據價值變現。當前常見的數據平臺架構是使用多個系統來平衡數據倉庫和數據湖的優劣勢。系統復雜 昂貴數據移動成本 高延遲 限制了對機器學習的支持 缺乏開放性1個數據湖N個數據倉庫N個專用系統:流、時間序列、圖像數據庫等實時性融合性復雜多變的業務訴求湖倉一體數據平臺湖倉一體提
5、升數據管理效率和靈活性統一元數據管理七大技術特性:多種數據類型分析數據治理事務支持BI支持存算分離開放型實時性湖倉一體是為解決大數據場景下的實時處理訴求高、非結構化數據治理難、系統運維復雜等問題的一種新型架構。湖倉一體打破數據倉庫與數據湖之間的壁壘,融合兩種架構的優勢:構建在數據湖低成本的數據存儲架構之上,同時具備數據倉庫的數據處理和管理能力。實現方案:基于Hadoop體系的數據湖向數據倉庫能力擴展基于云平臺進行架構構建基于三大開源數據湖(Hudi、Iceberg、Delta Lake)的解決方案基于數據庫的自研平臺安全應用數據湖數據倉庫數據源湖倉數據治理統一湖倉血緣統一數據管理計算流動數據湖
6、&湖倉一體產業觀察中國信通院信息社會創新發展的思想庫和使能者郵電部郵電部郵電科學研究院郵電部郵電分營郵電部電信科學研究規劃院組建信產部信產部電信研究院組建工信部工信部電信研究院1957年1994年1998年2008年2014年工信部中國信息通信研究院國家高端專業智庫產業創新發展平臺國家高端專業智庫產業創新發展平臺發展定位文化理念發展使命信息社會創新發展的思想庫和使能者厚德實學興業致遠信息社會創新發展的思想庫和使能者14個業務部門政策與經濟研究所技術與標準研究所產業與規劃研究所云計算與大數據研究所信息化與工業化融合研究所工業互聯網與物聯網研究所安全研究所泰爾系統實驗室泰爾終端實驗室泰爾認證研究所
7、無線電研究中心移動通信創新中心工業和信息化法律服務中心知識產權中心4個部屬中心電信設備認證中心電信用戶申訴受理中心信息通信業務受理信息通信工程定額質監中心4個分院南方分院西部分院華東分院廣州智慧城市研究院 19個省通信管理局行業支撐中心 20家創新中心(京外)智能制造與工業互聯網領域【上海、江蘇、湖北、廣東、重慶】車聯網領域【上海、四川】人工智能、大數據等新一代信息技術領域【江蘇、河南】4個分院(深圳、重慶、上海、廣州)中國信通院信息社會創新發展的思想庫和使能者鼎力支撐國家大數據戰略中國信通院秉持“國家高端專業智庫 產業創新發展平臺”的宗旨和要求,在大數據領域積極落實國家戰略,為國務院及工信部
8、、網信辦、發改委等部委完成了大量支撐工作,獲得廣泛認可20222021國務院以國發201550 號印發促進大數據發展行動綱要成為我國發展大數據產業的戰略性指導文件,中國信息通信研究院是主要起草單位。20162015牽頭起草工業和信息化部大數據產業發展規劃(2016-2020年)并參與宣貫實施工作參與起草工業和信息化部大數據產業發展規劃(2021-2025年)并參與宣貫實施工作參與起草關于構建數據基礎制度更好發揮數據要素作用的意見,支撐相關政策未來的細化和落地。持續發布大數據研究成果 在大數據領域深入研究,共計發布白皮書等研究成果50余份名稱發布時間大數據白皮書(2014年)2014.5中國大數
9、據發展調查報告(2015)2015.5大數據白皮書(2016年)2016.12中國大數據發展調查報告(2017)2017.3數據資產管理實踐白皮書(1.0版)2017.11大數據白皮書(2018年)2018.4數據資產管理實踐白皮書(2.0版)2018.4中國大數據發展調查報告(2018)2018.4金融分布式事務數據庫白皮書2018.6大數據白皮書(2019年)2019.12數據庫遷移技術報告2020.7大數據白皮書(2020年)2020.12數據庫發展研究報告(2021年)2021.6大數據白皮書(2021年)2021.12數據庫發展研究報告(2022年)2022.6云原生數據庫白皮書20
10、22.6 中國信通院大數據工作體系提供存儲、計算、分析等數據智能基礎能力 數據基礎設施的功能、性能、穩定性、安全性 數據基礎設施實施服務體系、運維保障數據基礎設施生態側:政策支撐、標準制定、人才培訓、案例征集、產業大會、合作平臺供給側:產品評測、服務能力評估、方法論提煉輸出、聯合研究報告應用側:政策解讀、項目咨詢、項目驗收、應用水平評估、方法論提煉輸出、實驗室共建、聯合研究報告數據基礎設施工作體系數據基礎設施工作體系從2015年起開始搭建,核心圍繞數據采集、存儲、計算領域的技術產品、解決方案以及供應商,覆蓋其選型、實施、應用、運維全流程,從而指導大數據實現技術突破、合理應用。分布式批處理分布式
11、流處理對象存儲文件存儲基礎平臺類消息中間件云原生數據湖云原生實時數倉云原生湖倉一體開發管理類數據集成工具數據管理平臺數據開發平臺數據質量管理平臺數據標準管理平臺數據標注管理平臺數據模型管理平臺數據資產目錄管理平臺解決方案類數據平臺整體解決方案數據中臺解決方案分析應用類商務智能分析工具數據可視化產品數據科學平臺圖計算平臺知識圖譜工具用戶行為分析供給側服務能力應用側運維能力平臺建設服務商咨詢規劃能力成熟度模型數據基礎設施穩定性保障組織制度能力截止2022年底:已有144家企業參與測試;依照標準的貫標測試次數達到360次平臺建設服務商實施部署能力成熟度模型平臺建設服務商運維運營能力成熟度模型數據基礎
12、設施穩定性保障技術工具能力數據基礎設施系統穩定性能力技術產品(功能、性能、穩定性、安全性)持續進行理論研究,自研多款測試工具國際標準(2項)行業標準(9項)團體標準(50余項)ITU-T F.FDAMFramework for data asset managementITU-T F.AFBDIAssessment framework for big data infrastructure大數據 數據挖掘技術要求與測試方法大數據 數據集成工具技術要求與測試方法大數據 分布式批處理平臺技術要求與測試方法大數據 分布式事務型數據庫技術要求與技術方法大數據大數據 分布式分析型數據庫技術要求與測試方法
13、大數據 用戶行為分析技術技術要求與測試方法3款測試工具,覆蓋多場景、多能力持續發布大數據研究成果在大數據領域深入研究,共計發布白皮書等研究成果30余份中國信通院從2014年起,開始發布大數據白皮書,內容包括大數據領域內政策、技術、產業、應用等,旨在梳理產業現狀、定位產業問題、引導產業方向。目前已經發布7版,已經成為業界洞察大數據產業發展的重要參考。云原生數據湖技術要求云原生數據湖技術要求包括存儲、計算、安全、數據管理、兼容、運維、湖應用、高可用共計8大能力域,46個能力項存儲運維安全計算兼容性數據管理湖應用高可用數據格式計量認證彈性-擴容計算生態支持數據源管理數據處理故障恢復能力存儲分級配置管
14、理授權彈性-縮容數倉生態支持統一元數據管理數據工作流容災能力緩存加速監控告警審計數據湖格式CPU/操作系統兼容性文件/對象操作 事件通知加密存算分離版本兼容數據可靠性多租戶完整性保護 支持多場景分析多語言支持域名管理支持混合節點擴縮容-1身份鑒別容器化存儲生態支持計算下推支持混合節點擴縮容-2合規保留數據格式加速容器生態支持跨域訪問支持混合節點擴縮容-3防盜鏈存儲系統限流運維授權標準牽頭單位:標準參與單位:數據湖9阿里云、騰訊、星環等9家企業產品通過測評云原生湖倉一體數據平臺技術要求云原生湖倉一體數據平臺技術要求包括湖倉數據集成、湖倉存儲、湖倉計算、湖倉數據治理、湖倉其他能力共計5大能力域,2
15、3個能力項湖倉數據集成湖倉存儲湖倉計算湖倉數據治理湖倉其他能力數據源管理存算分離存儲生態支持統一元數據管理異地容災湖倉數據轉換能力存儲分級認證授權統一數據管理入湖倉能力數據湖格式統一開發平臺統一湖倉血緣存儲加速彈性能力數據評估能力存儲加密多場景融合分析數據標準及數據質量統一資源管理動態數據加密多計算模式支持數據建模能力標準牽頭單位:標準參與單位:湖倉一體4阿里云、科杰、新華三、南大通用等4家企業產品通過測評觀察1:數據湖和湖倉一體技術快速發展、功能不斷完善30%以下以下31%-50%51%-85%85%以上以上云原生湖倉一體數據平臺基礎能力云原生數據湖基礎能力對象存儲基礎能力數據可視化工具數據
16、科學平臺基礎能力數據庫管理平臺基礎能力時序數據庫功能關系型數據庫安全能力圖計算平臺基礎能力數據開發平臺基礎能力數據集成工具圖數據庫分布式分析型數據庫可選項通過率范圍項目數統計可選項通過率范圍項目數統計分布式流處理平臺基礎能力分布式批處理平臺基礎能力 項目可選項通過率在51%-85%和31%-50%的數量最多,有數據湖、湖倉一體、商務智能(BI)、數據可視化、圖計算、圖數據庫、數據開發等項目,可見這些技術都在不斷發展,能力不斷完善。平均每個評測項目的可選項通過率為59.99%。云原生實時數倉基礎能力數據庫管理系統智能化HTAP數據庫基礎能力觀察2:數據湖的云原生能力有待進一步提升 云原生能力中容
17、器化、serverless能力比較弱,分別為:33%、22%。三大開源數據湖協議中Hudi和和Iceberg支持度最高支持度最高,均占44.5%。云原生特性支持度統計云原生特性支持度統計100%100%33%22%0246810存算分離彈性擴縮容容器化SERVERLESS78%“統一元數據管理”組件形式單獨產品非單獨產品 測試過程中發現,數據湖在存儲、數據源管理、多場景分析、計算生態支持等能力上,各產品差別不大。而統一元數據管理能力項,目前集成單獨產品的會支持的更好。44.5%44.5%0%11%HudiIcebergDelta其他其他開源數據湖協議使用統計開源數據湖協議使用統計觀察3:湖倉一
18、體中湖到倉的發展路線產品化程度更高75%25%湖倉一體技術路線統計湖-倉倉-湖 湖倉一體演進的兩個技術路線:湖倉和倉湖,其中湖倉的落地產品化程度更高,功能更完備,占比75%。從能力項演示形式統計來看,湖-倉路線的湖倉一體產品可視化能力支持更好。0%20%40%60%80%100%湖-倉A湖-倉B湖-倉C倉-湖D能力項演示形式統計命令行演示可視化演示信通院未來工作計劃信通院未來工作計劃0 20 2產業研究 持續跟進大數據產業發展,研究產出實踐方法論湖倉一體技術與產業研究報告0 10 1標準與評估 啟動并完成湖倉一體建設成熟度模型標準編制湖倉一體建設能力匯總數據湖數據倉庫IAAS數據存儲數據生命周
19、期存儲、擴展等操作數據湖底座支持Delta lake、iceberg、hudi多場景需求并發、索引、文件格式等實時訴求存算集成度、微批近實時化數據準備數據抽取&清洗、數據轉換&加載&同步Serverless部署云化、低成本兼容性云兼容&外部兼容,數據格式&接口,國產化適配查詢與計算性能查詢與分析性能、高可用&高可擴展數據分析1、批數據、流數據分析,批流融合數據分析、OLAP交互式聯機分析、圖計算、內存計算、日志分析2、多湖、多長聯合計算分析數據編排與管理工作流管理、可維護性、資源管理、數據管理其 他數據治理數據質量管理、數據血緣關系、數據治理數據安全可信計算服務、全密態數據、隱私加密、安全防護
20、、安全合規、認證、節點訪問、審計等災備建設數據備份、遷移、恢復服務支持實施服務、增值服務、專家團隊、產品文檔等開源社區開源情況,開源組件、代表用戶產業鏈生態產業鏈合作情況,硬件、同業、中間件、內部產品線等方案成熟化業務結構與數據架構設計咨詢服務,操作頁面本地化方案場景化行業化、場景化的解決方案,營銷管理、風險管理、客戶運營等服務場景化。實踐的行業廣度和深度。每項能力的成熟度如何?湖倉一體建設成熟度模型湖倉一體建設成熟度模型標準編制工作標準編制工作標準推進計劃湖倉一體建設成熟度模型2023年6月大會發布3/15第一次標準會討論框架3/29第二次標準會討論能力域4/13第三次標準會討論技術要求4/27第四次標準會討論技術要求5/18第五次標準會討論技術要求感謝您的觀看