1、中國面向人工智能的數據治理行業研究報告2022.3 iResearch Inc. 擊破業務落地要害22022.3 iResearch Inc. 摘要來源:艾瑞研究院自主研究繪制。實踐-高頻高價值應用及數據痛點:本篇報告選擇金融、零售、醫療和工業四大典型行業為切入點,分析呈現各行業的信息化建設階段與高頻高價值的AI應用場景,并基于高頻高價值AI應用引發的數據治理需求,對面向人工智能的數據治理體系搭建給到建設指導。展望-治理陷阱與趨勢洞察:1)企業需避免落入“數據埋點大而全”的治理陷阱;2)供需兩側需共同保證數據治理體系建設后的運營流轉;3)企業需建立符合管理現狀及發展需求的數據安全治理框架,確保
2、數據全周期的安全與合規;4)聯邦學習技術可帶來數據安全合規線內的共同富裕;5)數據的“自治與自我進化”成為未來數據處理發展的必由之路,為企業打造“治理+AI”體系的良性循環。前言-數據與數據治理:如今數據不再局限于傳統數字形式的認知,由結構化數據延伸到半結構化、非結構化的數據范疇。數據治理越來越受到企業的普遍重視,在數據生命周期的各個階段通過相應的工具與方法論,使數據發揮出更大的價值,是實現數據服務與應用必不可少的階段。參與-行業規模與受益圈立足點:數據治理與AI應用產品開始交匯融合,廠商參與更加多元,咨詢公司、數據服務提供商和人工智能產品服務商三方陣營構建行業競合格局,而“智”,即AI應用,
3、為面向人工智能的數據治理服務的核心立足點。2021年面向人工智能的數據治理市場規模約為40億元,預計五年后規模將突破百億。主題-面向人工智能的數據治理:AI技術創新應用走向大規模落地,帶動了大數據智能市場的蓬勃發展。2021年大數據智能市場規模約為553億元。目前傳統數據治理體系多停留在結構性數據化治理工作,尚難滿足AI應用對數據的高質量要求。企業可吸收傳統體系的智慧沉淀,以AI應用數據需求為核心,優化建設“面向人工智能的數據治理”體系,顯著提升AI應用的規?;涞匦Ч?。SMS3前言:數據與數據治理1主題:面向人工智能的數據治理2參與:行業規模與受益圈立足點3實踐:高頻高價值應用及數據痛點4案
4、例:標桿企業與新銳勢力5展望:治理陷阱與趨勢洞察642022.3 iResearch Inc. 數據:范圍界定信息經濟的“貨幣”,早已不限于數字形式數據的價值被不斷認可,“數據資產化”已經成為了企業發展的重要組成部分。長期以來,數據被理解為以數字形式存儲的信息,而目前技術可以測量更多的事件和活動,人們可以收集、存儲并分析這些不被視為傳統數據的各類信息,如郵件、圖片、音視頻等。數據可根據其特性及治理方法差異劃分為內部數據與外部數據,結構化數據、非結構化數據與半結構化數據,元數據與主數據等。來源:艾瑞研究院自主研究繪制。企業數據的主要類型企業內部數據按照數據來源分類在企業內部經營中產生的數據,在企
5、業的業務流程中產生或在業務管理規定中定義,受企業經營影響企業外部數據企業通過公共領域合規獲得的數據,其產生、修改不受公司影響按照數據格式分類結構化數據可以存儲在傳統的關系型數據庫中,用二維表結構來表達實現的數據,可以用關系型數據庫存儲非結構化數據形式相對不固定,不方便用數據庫二維邏輯表來表現的數據,通常存儲在非關系型數據庫中,數據量通常較大半結構化數據介于結構化與非結構化之間,半結構化數據可以通過靈活的鍵值調整獲取相應信息,且數據的格式不固定元數據是描述數據的數據(描述性標簽),描述了數據(如數據元素、數據模型)、相關概念(如業務流程、應用系統、軟件代碼、技術架構)以及他們之間的聯系國家、幣種
6、、匯率合同、項目、組織日志文件、XML文檔、JSON文檔、Email等Excel表格、 SQL數據庫里的數據文本、圖片、HTML、各類報表和音頻、視頻主數據描述企業核心實體的一組一致而統一的標識符和拓展屬性,實體可包括現有或潛在客戶、產品、服務、員工、供應商、提供商、層次結構和會計科目表等實時數據是在收集后立即傳遞的信息,所提供信息的及時性沒有延遲數據治理常用數據類型分類標準定義以及特征數據類型舉例實體型組織、客戶、人員基本配置數據標準、業務術語、指標定義實時OLAP場景下的數據數據抽象的內容,獨立時無意義信息經過收集和整理的數據智慧經過人為解讀和經驗充實的信息產生辨析判斷、發明創造能力知識5
7、2022.3 iResearch Inc. 2022.3 iResearch Inc. 182633414717561221422016201720182019e2020e2025e2030e2035e全球每年產生的數據量(ZB)數據量:爆發式增長基礎設施“擴容”、IoT 廣泛連接帶來的數據量暴漲數據時代來臨,數據量的暴漲為企業數字化提供了基礎支撐,大量的業務數據能夠被采集、存儲并最終創造經濟效益。數字化轉型從頭部企業的可選項,轉變為更廣泛企業的必選項。新變化為企業帶來新機遇的同時,也帶來了諸多挑戰。很多企業在前期的信息化建設中,缺乏統籌規劃,為解決當下業務問題而按照垂直的、個性化的業務邏輯獨
8、立采購與部署IT系統,導致企業內部形成多個數據孤島。數據不規范、不一致、難以互聯互通成為普遍問題,阻礙企業去充分發揮數據價值。這種先建設后治理的常態,使得數據治理越來越受到企業的普遍重視,另一方面,新興技術與應用場景的快速落地,也帶領數據治理需求在加速攀升。注釋:1ZB = 10244GB來源:中國信通院,Statista(2020),艾瑞研究院自主研究繪制。來源:中國信通院,艾瑞研究院根據專家訪談與公開資料研究繪制。2016-2035年全球產生的數據量2015-2020年中國數字經濟內部結構變化CAGR=28.6%74.3%77.0%77.4%79.5%80.2%80.9%25.7%23.0
9、%22.6%20.5%19.8%19.1%201520162017201820192020產業數字化占比(%)數字產業化占比(%)62022.3 iResearch Inc. 2022.3 iResearch Inc. 非結構化數據, 30%結構化數據, 70%數據治理:需求釋放治理需求普遍存在,非結構化數據成為價值挖掘的重難點企業歷經數字化轉型不同階段時,需通過數據治理解決數據在生產、管理和使用中的問題,而數據治理的需求與復雜度也會隨著企業數字化程度提升而增加。從企業內部的數據類型來看,非結構化數據占企業內數據總量的80%,卻僅占整體使用率的30%,長期以來其價值未得到充分有效利用。未來,隨
10、著非結構化數據的積累增加與AI應用的數據需求推動,企業對非結構化數據的價值化需求將加速釋放,而多源異構數據基礎下的數據治理模塊也將獲得進一步的關注與優化。注釋:僅列舉代表性數據治理需求。來源:艾瑞研究院自主研究繪制。來源:艾瑞研究院根據專家訪談自主研究繪制。非結構化數據, 80%結構化數據, 20%企業內結構化數據與非結構化數據占比情況在企業的數據中,結構化數據僅占20%,其余80%都是以文件、語音、圖片等形式存在的非結構化數據。且非結構化數據的增速遠遠高于結構化數據,隨著時間的推移,非結構化數據所占的比例將會越來越高企業內結構化數據與非結構化使用現狀企業長期以來,受技術影響,對結構化數據的利
11、用率均高于對非結構化數據的利用率。但實際上,非結構化數據的體量與其包含的信息量都更多,是企業未得到充分利用的寶貴資產不同企業數字化程度下的主要數據治理需求企業數字化程度治理需求局部數據優化提升數字化業務流程打破數據孤島可視化呈現內外部協同數字化管理智能輔助決策監控預警數據安全、合規要求72022.3 iResearch Inc. 數據治理:范圍界定數據治理為實現企業數據應用服務的重要環節數據治理以數據源匯入為伊始,對數據進行清洗加工,并在數據存儲、數據計算、數據服務應用等環節予以持續的治理服務,是企業實現數據服務與應用的重要環節。從數據層面來看,數據本身存在著從生產到消亡的生命周期,而數據治理
12、會在數據生命周期的各階段通過相應工具與方法論進行規范與定義,在企業內部構建出切實有效的數據閉環,使數據發揮出更大的價值。來源:艾瑞研究院自主研究繪制。數據治理在數據應用流程中的位置服務接口智能BI數據分析分布式關系數據庫分布式NoSQL數據庫分布式文件系統數據倉庫數據湖智慧決策精準營銷.可視化分析預測性維護智能推薦數據源社交媒體互聯網社會機構第三方機構HR財務OACRMERPCDP數據治理數據治理環節開始,對數據清洗加工,對整個企業內部的數據集進行規范和定義貫穿數據使用周期,是實現大數據服務必不可少的階段數據標準管理數據模型管理數據資產管理主數據管理數據質量管理元數據管理數據共享管理數據安全治
13、理數據存儲數據計算數據服務與應用內存計算批量離線計算在線流式計算機器學習模型訓練數據治理環節82022.3 iResearch Inc. 數據治理:整體概述讓數據可知、可用、可管,成為業務發展與創新的基石數據治理旨在消除數據的不一致性,建立規范的數據標準,提高組織的數據質量與實現數據廣泛共享,最終將數據變為寶貴資產,應用于企業的經營、管理與決策中。當下,讓數據可知、可用、可管,充分發揮數據資產的價值已成為企業共同的數據治理目標。數據治理的對象與范圍則會根據企業需求差異而有所區別。在不斷發展變化的外部環境與業務需求下,企業數據治理工作在對應階段也會有各自不同的目標。來源:艾瑞研究院自主研究繪制。
14、數據治理的對象、目的與范圍概述數據治理的對象數據治理的目的數據治理的范圍大部分企業都有明確的數據治理目的,供應商僅需要圍繞企業需求的模型及模型效果來確定需要治理的數據源,在其中,充分了解企業需求與現狀是必要程序。找到企業可變為的“數據資產”:數據治理范圍并非為企業全部數據,而是要在企業海量數據中找到“值得”治理的數據范圍,將其變為可用寶貴的“數據資產”,為企業進一步發揮數據要素價值。從企業的數據使用現狀來看,集中于對結構化數據的開發與利用,所以數據治理工作多圍繞于結構化數據的治理,非結構化數據僅做入庫、入湖等初步處理,利用率并不高。結構化數據非結構化數據半結構化數據結構化數據轉化可用、可知、可
15、管、可量化,可運營達到一致性、質量與安全水平等指標企業數據外部數據價值化數據原始數據初步處理過的數據供業務使用提升數據使用價值:在實踐中,企業發現原始數據或只經過初步處理的數據,與價值化數據之間存在巨大鴻溝,需經由數據治理做對應的清洗、規范及定義等,以提升數據使用價值。缺乏技術手段、缺乏方法指導、缺乏保障機制、缺乏流程規范的等是大多數企業無法解決數據價值化問題的主要原因。貫穿數據生命周期:數據治理是貫穿整個數據生命周期,復雜且需要長期建設的項目。對不同企業而言,業務需求千差萬別,聚焦于核心數據問題、結合企業特點選取合適的數據范圍,方能把控好治理方向。產生新的數據再次治理已有數據規劃制定規范標準
16、落地采集存儲應用維護銷毀92022.3 iResearch Inc. 數據治理:體系架構結合企業的特點及需求,設計符合企業要求的數據治理架構雖然業界對數據治理的定義不盡相同,但涉及的數據架構模塊大體一致,核心包括數據標準管理、數據集成管理、元數據管理、主數據管理、數據資產管理、數據質量管理、數據模型管理、數據服務與數據安全管理模塊。依托于企業對數據治理的側重點不同,數據治理體系與架構也會根據企業所在的行業特點、經營性質及信息化程度的不同而有所差異。在實際設計時,一方面,企業可參考先進體系框架與行業最佳實踐,另一方面,企業也需從實際需求與發展需要出發,設計搭建適合自身情況的數據治理架構。來源:艾
17、瑞研究院自主研究繪制。數據治理各模塊內容以及相互之間的關系技術元數據業務元數據自定義調度數據集成管理API人工數據數據庫 流式數據清洗轉換集成傳輸運維可視化元數據管理管理元數據盤點企業數據情況元模型元模型聯系建立奠定基礎維護企業重要業務核心數據的一致性、統一性、準確性血緣分析影響分析數據生命周期主數據管理主數據識別主數據規范治理支撐企業業務流和工具鏈的打通和串聯數據資產管理建立數據資產目錄數據全景可觀以元數據為基礎,通過腳本注釋形成數據資產形成數據關系網絡豐富的服務接口拓展數據質量管理數據質量標準數據質量目標數據質量度量數據質量管控數據服務數據模型管理來源層數據模型設計數據安全管理集市層數據模
18、型設計數據分層,建模,對數據有更清晰的掌控搭建統一總線,提供數據接口,通過接口服務化方式對企業內外提供數據服務為數據應用提供可追溯的數據數據安全等級定義數據安全訪問控制身份驗證數據訪問日志審計數據在應用過程中的拉通提供有數量、質量保證的數據數據標準管理業務運營人員數據管理人員IT技術人員標準制定標準管理標準執行數據開發支撐統一指標體系數據標準業務系統建設基礎類 指標類數據質量規則依據統一輸出沉淀滿足業務服務102022.3 iResearch Inc. 數據治理:政策指引推動各行業數據治理標準建設,為相關主體提供指引性文件近年來,我國政府從戰略規劃、體系建設、標準制定和制度落地四個方面,全力推
19、動數據治理的行業規范發展。一方面,國家通過立法構建數據安全保障、明確數據安全法律責任、完善監管體系;另一方面,各地方政府、行業主管部門、各行業組織、標準化機構積極規劃制定數據規范文件與鼓勵政策,推進數據治理考核、評估標準建立,為相關數據治理項目主體提供指引,共同促進數據治理行業的發展。來源:艾瑞研究院自主研究繪制。中國數據治理相關政策梳理與解讀數據的利用與保護戰略規劃強調要加快培育數據要素市場,推進政府數據開放共享,提升社會數據資源價值。培育數字經濟新產業、新業態和新模式,支持構建工業、安防等領域規范化數據開發利用的場景。加強數據資源整合和安全保護。探索建立統一規范的數據管理制度,提高數據質量
20、和規范性,豐富數據產品關于構建更加完善的要素市場化配置體制機制的意見2020年4月10日 國務院促進大數據發展行動綱要2015年8月31日 國務院建立標準規范體系,推進關鍵共性標準的制定和實施,開展標準驗證和應用試點示范,建立標準符合性評價體系行業主管部門探索制定和出臺數據治理相關要求、標準、框架與體系2018年5月21日中國銀行業監督管理委員會銀行業金融機構數據治理指引2019年9月29日中國銀行保險監督管理委員會銀行業金融機構監管數據標準化規范2016年9月5日國務院政務信息資源共享管理暫行辦法2018年5月25日民政部關于加強和完善民政統計工作 全面提高統計數據真實性的實施意見地方政府、
21、行業組織、標準化機構陸續發布數據規范文件與鼓勵政策2019年1月1日國家標準化管理委員會信息技術數據質量評價指標2021年5月31日深圳市人大常委會辦公廳深圳經濟特區數據條例(征求意見稿)2018年3月15日國家標準化管理委員會國家標準數據管理能力成熟度評估模型(DCMM)2021年6月10日全國人大會常務委員會數據安全法個人信息保護法數據安全管理辦法構建數據安全保障,明確數據安全法律責任,完善監管體系2021年11月1日全國人大會常務委員會2019年5月28日國家互聯網信息辦公室個人信息安全規范2020年3月6日信息安全標準化技術委員會2020年2月27日工業和信息化部辦公廳工業數據分類分級
22、指南(試行)11前言:數據與數據治理1主題:面向人工智能的數據治理2參與:行業規模與受益圈立足點3實踐:高頻高價值應用及數據痛點4案例:標桿企業與新銳勢力5展望:治理陷阱與趨勢洞察6122022.3 iResearch Inc. AI應用規?;疉I技術創新應用大規模落地,帶動大數據智能市場蓬勃發展近年來,隨著新技術模型出現、各行業應用場景價值打磨與海量數據積累下的產品效果提升,人工智能應用已從消費、互聯網等泛C端領域,向制造、能源、電力等傳統行業輻射。各行業企業在設計、采購、生產、管理、營銷等經濟生產活動主要環節的人工智能技術與應用成熟度在不斷提升,加速人工智能在各環節的落地覆蓋,逐漸將其與主
23、營業務相結合,以實現產業地位提高或經營效益優化,進一步擴大自身優勢。AI技術創新應用的大規模落地,帶動了大數據智能市場的蓬勃發展,同樣也為底層的數據治理服務注入了市場活力。來源:2021年中國人工智能產業研究報告(IV),艾瑞研究院自主研究繪制。人工智能技術廣泛滲透進經濟生產活動主要環節政府金融互聯網交通零售教育制造能源電力電信產品設計、定價及組合優化采購評估工藝優化貨倉物流產能補充與作業效率提升情報大數據研判、決策支持客戶觸達營銷運營管理調度運籌優化質控、風控和安全窗口服務遠程辦事遠程作業人機對話交互設備運維故損分析該行業較少涉及該場景嘗試應用AIAI價值得到驗證,進入規?;涞谹I示范項目
24、增加,形成典型應用場景圖例醫療與制藥132022.3 iResearch Inc. 2022.3 iResearch Inc. 大數據智能市場的行業規模2021年市場規模約為553億元,金融數據率先得到價值釋放據艾瑞咨詢統計測算,2021年涵蓋大數據分析預測(機器學習/深度學習模型)、領域知識圖譜及NLP應用的大數據智能市場規模約為553億元,預計2026年市場規模將達到1456億元,2021-2026 CAGR=21.3%。隨著市場大數據基礎的完善與數據需求的喚醒推動,大數據智能市場的規模將持續走高,但未來在行業理性建設與增量市場逐步完善的大背景下,大數據智能市場增速會出現下降趨勢。從細分結
25、構來看中,金融領域的數據價值率先得到釋放,市場規模占比高達32%。來源:2021年人工智能產業研究報告(IV),艾瑞根據專家訪談、招投標項目統計推算而得來源:2021年人工智能產業研究報告(IV),艾瑞根據專家訪談、招投標項目統計推算而得2019-2026年大數據智能市場規模2021年大數據智能市場規模細分結構32141755368684410151215145630.0% 32.6%24.0% 22.9%20.4%19.6% 19.8%-200.0%-150.0%-100.0%-50.0%0.0%50.0%-300200700120017002200201920202021e 2022e 2
26、023e 2024e 2025e 2026e大數據智能市場規模(億元)大數據智能市場增長率(%)金融32%互聯網12%醫療11%工業10%其他35%142022.3 iResearch Inc. 2022.3 iResearch Inc. 84514304643586872992011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021大數據智能市場投融資事件數量(起)大數據智能市場的投融資熱度融資規模穩步提升,事件數量創歷史新高從2011-2021年的投資數量來看,資本市場對大數據智能市場的關注度不斷提高,融資事件逐年攀升,2021年大數據智能
27、市場單年投融資數量已高達99起;從2011-2021年的融資輪次來看,C輪及早期投融資事件占比達到50%。受政策的高度支持與技術的成熟推動,大數據智能應用在多行業的成功落地極大地增強了市場與投資者的信心,“大數據智能”標簽已成為市場創業與投資的熱點,具備市場想象空間與明確使用價值是企業早期吸引投資的關鍵。來源:艾瑞研究院根據融資網站數據調整與處理繪制注釋:其他包含IPO上市與基石投資輪。來源:艾瑞研究院根據融資網站數據調整與處理繪制2011-2021年大數據智能市場投融資事件數量2011-2021年大數據智能市場投融資事件輪次情況共計447起事件C輪及早期投融資事件:占比50%70252193
28、1294153049114527其他股權轉讓股權融資定向增發并購pre-IPO戰略投資E-E+輪D-D+輪PreC-C+輪PreB-B+輪PreA-A+輪天使輪種子輪大數據智能市場投融資事件數量(起)152022.3 iResearch Inc. 大數據智能產業生態圈注釋:以上廠商與行業為不完全列舉,排名不分先后。來源:艾瑞研究院自主研究繪制。提供數據基礎咨詢公司大數據智能數據可視化/數據分析AI基礎數據服務數據治理服務數據庫/數據倉庫咨詢服務合作提供AI基礎數據解決智能應用場景痛點咨詢服務部署實施合作提供基礎服務外包數據治理提供數據平臺數據基礎設施芯片IDC網絡基礎智能硬件云服務金融其他零售
29、醫療工業行業應用行業客戶大數據產業圖譜與數據服務關系鏈提供數據治理服務大數據平臺/數據中臺基礎云服務162022.3 iResearch Inc. 面向人工智能的數據治理:需求傳導人工智能應用引發的數據治理需求企業在部署AI應用時,數據資源的優劣極大程度決定了AI應用的落地效果。因此,為推進AI應用的高質量落地,開展針對性的數據治理工作為首要且必要的環節。而對于企業本身已搭建的傳統數據治理體系,目前多停留在對于結構性數據的治理優化,在數據質量、數據字段豐富度、數據分布和數據實時性等維度尚難滿足AI應用對數據的高質量要求。為保證AI應用的高質效落地,企業仍需進行面向人工智能應用的二次數據治理工作
30、。來源:艾瑞研究院自主研究繪制。AI應用對數據治理需求傳導圖AI應用的數據要求數據治理的需求傳導基于AI應用的數據治理需求數據規模挖掘企業內外部信息,納入結構化數據、半結構化數據和非結構化數據,提升與AI模型相關的數據積累。數據訓練規模擴張,數據類型異構,數據噪聲指數級增加,對此建立針對性的數據治理體系特征工程AI模型需納入實時數據,構建批流一體的數據聚合計算模式傳統的數據治理更多是以人為面向對象,基于有限數據容量進行聚合類信息展示,AI可以接納的數據量遠遠大于人所接納的數據量和信息量,且可用高質量數據越多,模型質量和準確性越好。AI應用,尤其是知識圖譜的搭建,需要大量的半結構化和非結構化數據
31、支持來開展工作。因此AI應用在結構化數據的基礎上,會將各類半結構化或非結構化數據納入數據源并支持上層分析應用。AI模型對數據高度敏感,其質量優劣極大程度影響AI模型的應用效果,因此AI數據源需極力規避“garbage in, garbage out”的問題發生,多維度的質量檢查成為必修課。AI模型對實時性要求高,大部分應用需基于實時數據實現分析、推薦和預警等目的,支持AI應用的數據源更強調具備實時性接入能力。接入實時性數據1)多個數據源下的數據內容不一致等問題2)缺失值、缺失字段;3)錯誤值、異常樣本;數據融合&質量優化融合結構化數據、半結構化數據和非結構化數據,進行以AI應用為目的的特征工程
32、接入多源異構數據源數據類型數據質量數據實時性172022.3 iResearch Inc. 面向人工智能的數據治理:反復治理面對反復的治理工作,搭建針對性體系解決重復性環節數據治理在人工智能項目的實施中花費90%以上的精力,而面對企業的各人工智能項目,在AI數據層面多存在反復治理工作,極大拉低了AI應用的規?;涞匦?。借助有效的方法論和實用的工具提高數據治理的效率,是企業管理數據資產與實現AI規?;瘧玫闹匾n題。搭建面向人工智能的數據治理體系,可將面向AI應用的數據治理環節流程化、標準化和體系化,降低數據反復準備、特征篩選、模型調優迭代的成本,縮短AI模型的開發構建全流程周期,最終顯著提升
33、AI應用的規?;涞匦?。來源:艾瑞研究院自主研究繪制。搭建面向人工智能的數據治理體系 解決AI數據的重復性“治理”反復準備數據反復特征篩選反復模型調優反復模型迭代數據收集數據選擇數據清洗特征抽取特征構造特征選擇運營監控模型自學習模型更新模型訓練模型調參模型評估182022.3 iResearch Inc. 面向人工智能的數據治理:體系搭建吸收傳統體系智慧沉淀,以AI應用數據需求為核心優化建設面向人工智能的數據治理是傳統數據治理體系在以AI應用落地為導向下的體系“升級”。從數據管理維度來看,在接入并處理分析半結構化數據、非結構化數據與流式數據的多源異構數據基礎上,面向人工智能的數據治理體系仍會
34、根據數據結構化流向、數據資產管理需要、數據安全需求等角度順應搭建元數據管理、數據資產管理、主數據管理、數據生命周期管理和數據安全隱私管理等組件模塊。而在數據治理過程中,則會更強調底層實現多源數據融合、數據采集頻率、數據標準建立、數據質量管理,滿足AI模型所需數據的規模、質量和時效,以AI應用的數據需求為核心,優化對應模塊的體系建設。來源:艾瑞研究院自主研究繪制。數據源流式數據其他系統數據結構化數據半結構化數據非結構化數據數據接入數據采集數據存儲分布式關系數據庫分布式NoSQL數據庫分布式文件系統數據倉庫數據湖數據治理元數據管理企業大數據智能/人工智能應用數據資產管理主數據管理數據生命周期管理數
35、據安全隱私管理數據標準管理數據質量管理全量抽取增量抽取實時抽取基于AI模型的訓練、推理對企業數據原料的高質量要求,面向人工智能的數據管理體系打造升級針對性的“數據標準管理體系、數據質量管理體系與特征管理中臺”。以AI模型落地應用為角度出發,對數據質量進行多維度的評估治理,并在數據匯入標準基礎上統一數據模型開發與特征化工程標準,為企業AI數據沉淀復用打下優質基礎。DB2DB2DB2文本XML視頻音頻面向人工智能的數據治理體系吸收傳統體系智慧沉淀針對性優化建設特征管理中臺192022.3 iResearch Inc. 面向人工智能的數據治理:數據準備基于AI模型需求明確數據的特征準備、實時與否和閉
36、環流通從搭建流程來看,AI模型可大致分為離線訓練和上線推理兩個階段。離線訓練時,需基于AI模型運行目的確認數據采集來源,選擇數據對應的時間間隔和時間節點,讓AI能夠在離線建模及上線運行后獲取真實業務數據,模型訓練效果能夠保質保量落地。如果模型需要AI數據的實時接入,還需打造批流一體式的產品體系?;趯崟r數據處理、實時特征開發和實時應用開發等數據架構搭建批流一體的數據產品,將流式數據的接入實時反饋到模型運行輸出,使模型結果更加及時準確。另外,AI模型上線后,需達到AI數據的閉環流通,通過打造數據采集和回饋分析的閉環式自學習體系,達到AI模型上線后的持續迭代優化。來源:艾瑞研究院自主研究繪制。AI
37、模型的數據準備時序性AI數據的閉環流通AI數據的時間選擇AI數據的實時接入時序性數據為按照時間維度索引的數據,描述了數據產生主體在某時間范圍內的時點上的產生值。面對時序性數據,需準確記錄每個數據的產生時間點,并基于AI模型運行目的選擇所需數據的時間間隔和時間節點。比如,若想通過AI模型去預測分析某導演A電影的上映票房 ,則需選擇該導演A電影上映以前的歷史票房數據作為模型原料,而不能將A電影上映以后的電影票房數據計算在內,避免AI“偷看”未來數據,給模型判斷結果帶來偏差。在批式數據(全量)基礎上,將流式數據(增量)納入模型計算,打造“批流一體”的數據產品,使模型分析結果更加實時準確,滿足用戶對動
38、態變化的場景可即時作出反應的需求為了讓AI模型的預測結果更加準確,可將模型運行后的結果數據更新反饋給AI模型,利用實時閉環數據進行自學習,強化反饋回路以優化模型算法,防止模型效果因搭建時間久遠而衰退。比如,在智能推薦模型上線后,如果持續用靜態模型預測動態數據,不更新閉環數據反饋的話,隨著時間的流逝,模型將逐漸降低精準推薦效果,導致業務決策的效果越來越差。實時特征開發實時AI應用開發判斷是否需要需達成實時推薦 /實時交易反欺詐 /實時訂單監控.運行數據反饋更新保證離線和在線的特征開發標準一致確認AI模型所需數據的采集來源,對接企業IT系統獲取數據源202022.3 iResearch Inc.
39、面向人工智能的數據治理:數據質量對應AI應用的高質量要求,喚醒沉睡數據,挖掘核心價值多源異構數據的質量管理體系可從數據有效性、數據一致性、數據唯一性、數據時序性、數據完備性、數據完整性、數據合理性和數據準確性六個維度建立。其中,傳統數據治理體系同樣會高度關注數據的有效性、一致性和唯一性,但當數據治理范圍擴大到多源異構數據時,需在數據融合過程中對這三個維度進行重新判斷,例如非結構化數據在清洗處理后與結構化數據出現實體重復或內容不一致的情況;數據時序性是對數據時間維度的質量要求,從AI應用模型的需求出發,考慮數據接入的實時性和如何選擇數據的時間間隔;數據完備性和數據完整性是對數據選取的評估維度,數
40、據完備性要求數據需符合多維度字段特征以滿足建模,數據完整性則對數據從歷史到上線反饋的完整性接入以達到優質閉環;數據合理性和數據準確性則是對數據本身表達的更高質量要求。傳統數據治理體系為做數據可視化和數據基本分析應用服務時,不會過多考慮到數據分布是否合理及表達內容是否準確等問題。然而在AI模型開發訓練時,數據的合理分布和準確表達極大程度上決定了AI模型的分析決策效果,因此在面向人工智能的數據治理體系中,數據合理性和數據準確性的質量評估是體系需重點關注提升的維度模塊。來源:DAMA數據管理知識體系指南第二版,艾瑞研究院根據參考資料與專家訪談自主研究繪制。多源異構數據的質量管理體系數據有效性即數據值
41、與定義的值域(有效值/有效參考范圍/通過規定確定的值)一致數據一致性即數據屬性表達一致,數據一致性是數據標準化的基礎,確保數據符合內容和形式規范數據唯一性即數據集的實體不會重復出現。對數據進行去重,底層實現數據一致性管理數據時序性一方面需根據數據更新頻率和數據需求時效判斷數據的及時性,一方面需根據AI模型的需求結果判斷數據選取的時間間隔數據完備性數據完整性數據合理性數據準確性即數據字段維度是否符合AI建模要求。尤其對于非結構化數據來說,需要有足夠完備的數據基礎可提取到建模時所需字段特征AI 應用的算法模型不僅需要業務歷史數據訓練,也需及時更新模型上線后的數據,基于反饋對模型進行不斷的迭代優化,
42、打造優質數據閉環即數據模式符合預期的程度?;蛲ㄟ^基準數據比較,或基于過去相似數據集實例判斷數據的分布、變化和模式是否合理,是否出現異常值影響建模效果即數據正確表示“真實”實體的程度。數據準確性是基于數據有效性和數據合理性的進階版,需人或機器基于事實或規則判斷數據是否準確212022.3 iResearch Inc. 面向人工智能的數據治理:數據標準為AI模型開發提供“一致的數據語言”,實現數據復用共享數據標準是數據治理工作的開展基礎,為AI模型開發及應用提供“一致的數據語言”。在面向人工智能的數據治理體系中,數據標準的建立仍是數據實現共享流通、價值挖掘的核心環節。企業根據對應的國家標準、行業標
43、準、地方標準等規范,結合自身情況和業務術語參考,以AI應用需求圈定的數據范圍為治理導向,構建相關基礎數據標準、指標數據標準和數據模型標準,形成全局統一的數據定義與價值體系。來源:艾瑞研究院自主研究繪制。多源異構數據的標準體系國家標準行業標準地方標準業務術語基礎數據標準指標數據標準數據模型標準數據元代碼集編碼集指標參照&指標源系統指標名稱指標定義指標口徑使用場景數據元,專業定義又稱數據類型,是通過定義、標識、表示以及允許值等一系列屬性描述的數據單元。通過對數據元的標準化,可以讓企業人員對數據達到一致的理解、記錄與應用,有效增加跨部門跨系統的數據共享與沉淀復用,減少對數據的重復性溝通。通用屬性行業
44、屬性例:人口相關的數據元包括姓名、身份證件名稱、身份證件號碼、性別等代碼表是能夠完整表達特定業務對象某個特性的全部值的集合,一般與對應的數據元配套使用,作為數據元表示中的值域,可作為統計分析維度為機器和人類使用。例:性別代碼:0為未知性別,1為男性,2為女性,9為未說明的性別將文字、標點符號、圖形符號等字符轉換為計算機可以接受的數字系統的規則。例:GB2312編碼指標在數據基礎上增加了計算和統計維度,是反映了企業經營管理在一定時間和條件下的規模、程度、比例、結構等的概念和數值。指標口徑不統一指標體系不完整指標問題追溯難指標數據通常從企業管理和經營需求角度選取,達到企業數據的靈活使用與準確分析,
45、指標數據的標準化可以保障跨部門之間對指標展現有統一理解認知,帶來企業數據應用的價值提升。需建議統一指標體系數據模型是用于表示一組數據和概念的定義,即數據的數據結構,可理解為元數據的標準化,從源頭提高數據的一致性。在傳統數據治理中,數據模型標準的統一多為規劃數據的存儲結構,以數據表述數據,方便數據共享。但在面向AI的數據治理中,因面向上層應用,因此數據模型的概念會被擴大,不僅僅為元數據的標準化范圍,還會包括如何讓機器理解數據的數據開發模型,即特征工程。數據開發模型的標準化可有效實現面向AI應用高質量數據的高效復用,減少AI數據反復清洗、標注的成本,實現AI應用的快速落地與高效復用。數據存儲結構的
46、標準化-元數據的標準化數據開發模型的標準化-特征工程的標準化&特征管理中臺222022.3 iResearch Inc. 面向人工智能的數據治理:特征管理將多源異構數據源轉化為機器可理解的“結構化數據”在圈定AI數據源范圍并接入相應數據后,特征管理中臺會對數據進行預處理,基于AI應用的數據要求處理缺失值、異常值、重復值和數據格式等問題,而后經過特征工程轉化為人工智能模型可理解的結構化數據。在特征化工程環節中,面向人工智能的數據治理體系可濃縮沉淀業務場景中的數據治理和模型開發經驗,對AI數據形式進行標準定義,搭建特征管理中臺,將特征工程環節標準化、自動化、智能化,快速對接得到可被機器理解的優質結
47、構化數據,投喂給AI模型。來源:艾瑞研究院自主研究繪制。讓機器 “理解”多源異構數據的流程圖面向人工智能的數據治理覆蓋環節結構化數據面對多源異構數據源,面向人工智能的數據治理體系會結合AI模型需求,以AI應用落地為導向,選擇性圈定數據治理范圍,并對數據源的對應調取給到梳理參考半結構化數據優質結構化數據用于人工智能算法模型的調優訓練-模型上線非結構化數據可被機器理解的結構化數據數據預處理特征抽取特征構造特征選擇模型訓練缺失值處理異常值處理重復值處理數據格式處理特征化工程 挖掘有效特征:利用機器學習/深度學習技術,對企業的結構化數據、半結構化數據和非結構化數據進行降維與特征抽取,去除原始數據中的雜
48、質和冗余,將其轉化為人工智能模型算法可理解的結構化數據,可從語義層面進行深度關聯和融合,根據場景需求特性選取適配的結構化數據,展開AI模型的調優訓練,并基于AI應用需求進行數據源的持續性優化。隸屬于數據質量評價體系,在數據源進行特征化工程前進行數據清洗,達到質量提升數據標準特征工程 特征管理中臺面向人工智能的數據治理體系會濃縮沉淀業務場景中的數據治理和模型開發經驗搭建特征管理中臺,對AI數據形式進行標準定義,將特征工程標準化、自動化、智能化,快速對接得到可被機器理解的結構化數據,投喂給AI模型。數據質量數據標準體系:在數據共享互通的標準化基礎上將AI數據形式標準化,實現AI數據的快速轉化對接數
49、據質量 提升特征提取范圍 提升特征提取精度&顆粒度從小數據量+低特征維度升級為大數據量加高特征維度232022.3 iResearch Inc. 面向人工智能的數據治理:效果優化顯著提升AI應用的規?;涞匦Ч麃碓矗喊鹧芯吭鹤灾餮芯坷L制。來源:艾瑞研究院自主研究繪制。體系搭建-效果優化關注環節問題優化效果數據采集準備數據質量&標準數據特征維度模型迭代優化 未考慮數據時序性 時效性差,難支持數據實時接入 基于AI模型運行目的選擇所需數據的時間間隔和時間節點 接入實時性數據,打造“批流一體”的產品架構數據價值離線實時 離線建模的時候獲取真實業務數據 接入實時性數據,發揮數據時效價值時間 多源異構
50、數據的質量待優化 數據標準不統一,難以共享復用 重復性特征工程 特征維度低,模型欠擬合 打造多源異構數據的質量管理體系,從六維度針對性評估提升數據質量 構建基礎數據標準、指標數據標準和數據模型標準,在數據共享流通基礎上為模型開發提供“一致語言”數據質量管理體系數據標準體系 為AI模型提供高質量數據原料,提高模型擬合效果 一致性語言減少數據反復治理工作 沉淀AI項目的數據治理經驗,構建特征管理中臺 提升特征提取范圍、精度和顆粒度,從小數據量+低特征維度升級為大數據量加高特征維度特征管理中臺 減少重復性特征工程的精力投入 指數級提升數據的特征維度,優化模型擬合效果 模型上線后不迭代優化,隨時間流逝