《Talking Data:數據應用工程成熟度模型(48頁).pdf》由會員分享,可在線閱讀,更多相關《Talking Data:數據應用工程成熟度模型(48頁).pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、數據應用工程 成熟度模型Data Application Engineering Maturity Model 目錄1.1 背景1.2 模型概述 1.3 適用對象 2.1 業務系統化 定義 特征2.2 業務數據化 定義 特征2.3 數據資產化 定義 特征2.4 業務智能化 定義 特征2.5 成熟度進階3.1 數據理解 概述 業務理解 數據評估 關鍵點 & 難點3.2 數據準備 概述 數據獲取 數據定義 數據整理 數據增強 關鍵點與難點引言01成熟度模型04數據應用過程 09020203050505050505060606070707071010101112121212131314153.3 數
2、據開發 概述 數據分析 數據探索 數據建模 關鍵點與難點3.4 部署運營 概述 數據應用 運營監控 效果分析 關鍵點與難點4.1 數據維度概述4.2 元數據管理 元數據概述 元數據定義及分類 如何管理元數據4.3 數據質量 數據質量概述 數據質量維度 如何進行數據質量管理4.4 數據安全 數據安全概述 如何做好數據安全管理數據應用過程 13數據維度 201515151616171717171818182121212121222222242525265.1 綜述5.2 大數據工具列表 常用主要開源工具 數據倉庫與數據管理工具 數據清洗、集成和 ETL 工具 BI 與可視化工具 數據建模與數據科學
3、工具【附錄 1】術語【附錄 2】溯源與關系 IBM- 數據治理成熟度模型 微軟 - 團隊數據科學模型 阿里 - 大數據安全成熟度模型 CRISP-DM 模型 御數坊 -DCMM 模型 NIST- 大數據架構【附錄 3】參考文獻數據工具與技術28附錄 322929293030303133363638383940404201引言01引言01 背景02 模型概述03 適用對象02引言背景?在現代社會,隨著企業的發展產生了大量的數據,生產部門有生產制造的數據記錄,業務運營部門有營銷數據,財務部門有經營數據,數據無處不在,數據又時時刻刻影響著企業運轉中每個環節的決策。數據已經成為除了資金和人才以外企業新
4、的資產價值增長點。數據本身并不代表價值,數據僅僅是以一定格式對事實進行記錄,是原始材料;只有結合環境和上下文的數據才有意義,這就是信息;伴隨著信息的積累,我們從趨勢和關系的挖掘中總結出了規律,這些規律就變成了知識;然后依據知識在企業經營中進行決策和行動,能進一步促進企業的良性循環。數據產生價值的過程需要經歷獲取、存儲、評估、整理、增強、分析、應用等多個環節,在小數據時代這些過程都相對簡單和成熟。隨著近些年數據收集方式的增多、傳感設備數量的增加,計算能力的增強和存儲方式的改進,導致了人們可感知的數據量急劇增多;按照摩爾定律,數據生成和存儲的生長速度一直在呈現指數增長。大數據應運而生,帶來了俗稱的
5、大數據 4V 特征:數量多(即數據集的規模)、多樣性(即來自多種數據倉庫、領域或類型的數據)、速度快(數據的流速)、多變性(在不同特征里的變化)。大數據的到來,使得在數據系統的演化進程中,人們對于高經濟效益以及高效率的數據分析需求迫使現有技術不斷變化。伴隨著大數據革命,必須考慮如下四個方面的相互作用:數據集的特征、對數據集的分析、數據處理系統的性能以及對經濟效益的商業考慮。這些決定了數據應用的價值效果。通過不斷的實踐,我們總結出了當前大數據環境下的數據應用工程 - 成熟度(LPDT)模型。?數據應用工程 - 成熟度(LPDT)模型(以下簡稱“成熟度模型”)主要針對大數據環境下的數據應用工程提供
6、方法論依據。 可以用來指導企業評估自身所處的數據應用成熟度階段,也可以用來指導企業如何晉級到更高階的成熟度階段。 成熟度模型分為成熟度階段 (Level) 、過程(Process)、維度(Dimensionality)和工具(Tool)四個方面展開。數據應用工程 成熟度模型(LPDT)03引言適用對象成熟度階段(Level)分為 Level1 業務系統化、Level2 業務數據化、Level3 數據資產化、Level4 業務智能化共四個階段;除此以外,還有一個更高階的隱藏階段為 Level5 企業智能化。成熟度階段(Level)主要代表了企業在業務運轉中應用數據能力的高低,可以通過過程(Pro
7、cess)、維度(Dimensionality)和工具(Tool)等多個維度去評估。本成熟度模型不設置詳細的打分機制,只提供部分階段的特征供企業自評估參考。數據應用過程(Process)分為數據理解(Understand)、數據準備(Prepare)、數據開發(Develop)、部署運營(Operation)四個階段,基本涵蓋了所有數據應用過程,其中每個過程還會細分子過程、入輸出及操作項,這些會在后續的章節詳細闡述。數據應用過程可以理解為一個數據應用的最小迭代原型,也可以理解為一個大項目或企業的整體數據應用,其中過程與過程之間也可能發生小的迭代和回溯。使用時應在抽象理解的基礎上與企業的實際情況
8、映射。數據維度(Dimensionality)是指貫穿于數據應用全過程的一些數據領域維度,是數據應用過程中必須考慮的方面,當前我們只考慮“元數據”、“質量”和“安全”三個維度展開,由于每個維度單獨展開都是一個很大的話題,本文檔中只結合數據應用過程有限地展開闡述。數據應用過程中還有很多其他維度本次暫不涉及,也歡迎各位使用者反饋。數據工具(Tool)是指結合數據應用過程和數據維度各個環節會用到的工具,可能是開源的,可能是定向開發的,可能是 SaaS 的,可能是私有化部署,可能是免費的,可能是付費的。數據工具與過程和維度是相輔相成的關系,三者一起為成熟度階段提供評估依據。?數據應用工程 - 成熟度模
9、型可適用于如下場景:企業管理決策層(CEO、CIO 等)可以參考該模型評估企業數據應用的階段,進行業務相關的數據戰略決策,進一步規劃數據在業務中的應用思路。業務部門可以使用該模型優化業務流程,參考該模型系統進行數據應用,挖掘數據價值,提高效率,提升業務效果。數據部門可以使用該模型更系統地建立數據管理和應用的流程機制,為更多的業務部門提供數據應用支撐能力。04?02成熟度模型01 業務系統化02 業務數據化03 數據資產化04 業務智能化05 成熟度進階05?數據應用工程 - 成熟度模型(LPDT)主要從數據管理和應用的角度來衡量企業應用數據的能力,并將其分為以下多個成熟度階段。針對不同的階段,
10、從企業管理、數據應用過程、數據維度、技術 / 工具等多個方面不同特征進行參照判定。?業務系統化階段是指:企業的業務流程清晰,且業務過程都已經通過 IT 系統實現,IT 系統的實現以業務為導向,可能有少量數據記錄,但并沒有以數據為導向積累數據。?“業務系統化”階段主要有以下特征:企業管理:該階段的企業戰略以純業務角度驅動;整個公司無數據意識,業務實施過程中無數據積累及數據優化業務的理念;企業的組織架構中無數據相關部門和職位的設置。數據應用過程:該階段的企業只是使用業務系統中必備的數字進行業務和財務的統計管理和分析。尚未開始理解業務鏈條背后各個環節的數據,也沒有考慮使用技術工具進行數據積累。每次基
11、于業務目標的數據統計都需要定制化開發處理。數據維度:該階段的元數據只涉及業務元數據,可能只在業務系統中使用,但并未統一所有的元數據術語,各業務線的業務單元分散管理。質量方面,可能會有一些測試和質檢,但是并未從質量保證和質量控制角度設計質量管理指標和質量評價體系。數據安全層面只界定了財務數據,尚未對數據的分等定級和數據安全保密級別進行設計和劃分。技術 / 工具:開始使用平臺 / 系統管理部分業務或整個業務線,但業務系統間并未打通和串聯,各業務系統無數據沉淀,業務系統背后的數據未被收集或處于散亂無序的未管理狀態。?業務數據化是指企業在業務系統化的基礎上開始建立數據理念,開始基于單業務各個環節進行數
12、據的收集、管理、分析,并反饋優化該業務,數據體量相對單一,可能有業務的 BI報表進行閉環的業務分析和迭代。該階段是基于業務目標去收集數據和分析數據。?“業務數據化”階段主要有以下特征:企業管理:該階段的企業開始建立數據的理念,在業務過程中注重數據的積累,戰略上開始考慮通過數據來分析和解決業務問題;組織架構中有數據相關的部門和數據分析師等相關的職位來支撐。業務系統化06?數據應用過程:該階段開始考慮在業務系統中設置功能進行數據收集,有專門的團隊對收集的數據進行管理和分析,挖掘數據對業務的優化;有數倉進行數據管理,有系統的dashboard 等工具向決策層數字化反饋業務情況。各產品線和各個環節的數
13、據孤立進行,管理和分析的數據主要是小體量的指標數據,很少涉及大量底層日志數據。數據維度:該階段有專門的系統平臺功能進行元數據管理,統一了術語,該階段分析處理的數據主要以結構化數據為主, 可能有少量非結構化數據。 質量方面開始設計質量監控指標,實施過程質量控制,建立對應的質量保證體系,并且實現平臺化管理監控。數據安全維度對數據做了基本的分等定級,明確了涉密與非涉密的劃分。技術 / 工具:研發部門針對數據收集管理建立了專門的數據倉庫或類似的技術架構進行業務線的數據沉淀,可以在系統上針對已存儲的數據進行 ETL 處理和挖掘分析。?數據資產化是指企業在業務數據化的基礎上,考慮將數據作為資產去挖掘其價值
14、。在該階段會將所有的數據匯聚管理起來,實現不同的數據聯通,跨界考慮數據價值的應用。且該階段處理的數據維度更多源化,數據體量更大,不僅要處理內部數據,還需要考慮基于業務場景,如何與外部數據對接連通。該階段是先收集數據,再從海量數據中去挖掘可能的價值。?“數據資產化”階段主要有以下特征:企業管理:該階段企業戰略層面已經將數據作為企業的資產,將其與資金和人才一起同等考慮。設立了專門的數據部門來管理企業生態內外的所有數據匯集、管理、分享。組織架構方面, 在管理層設置了數據管理委員會或者首席數據官 (CDO) 來負責決策層的數據管理,職位方面除了有數據分析師以外,還設置了數據科學家等角色基于數據、統計和
15、行業知識的綜合高階角色。數據應用過程:該階段開始考慮將公司內部所有可數據化的環節數據化,將各個業務產品線的底層日志到業務指標多個維度數據收集、融合、打通,并統一管理,數據準備階段還會考慮從外部獲取合作或購買的數據進行數據增強 / 放大,在數據開發過程中更多的使用算法技術進行數據價值挖掘和業務優化迭代。數據維度:該階段處理數據維度廣,數據體量大,數據結構復雜。元數據管理要同時考慮結構化和非結構化數據。質量方面更多的面對非標準化數據、非結構化數據的質量問題,要考慮面對未知領域數據快速確定質量情況的能力。數據安全維度要更多的考慮同一類數據在不同場景過程中的安全保密級別, 其中要充分考慮數據連通后的隱
16、私被挖掘的可能性。鼓勵數據不動,算法向數據靠攏,計算出合規結果后輸出的模式。數據資產化07?技術 / 工具:有專門的技術團隊基于 hadoop 等開源系統開發大數據收集、ETL 處理的工具,有數據目錄等數據資產展現的工具,有沙箱環境等數據探索的平臺和能力??梢蕴幚泶罅糠墙Y構化數據;基于業務場景可實現實時處理或離線處理。?業務智能化是在數據資產化的基礎上,結合企業內外部的全域數據進行分析挖掘,使用 ML(機器學習)和 AI(人工智能)等技術自動化地處理數據,優化迭代業務。?“業務智能化”階段主要有以下特征:企業管理:該階段企業戰略層面開始更多的關注 AI(人工智能)在企業業務中的應用,讓更多數據
17、自動化的優化業務。組織架構方面會建立專門的數據科學部門或研究院,考慮企業未來的業務,可能會有未來架構師等職位角色出現。數據應用過程:該階段數據理解、數據準備(含收集)、數據開發(含探索應用)、運營部署等各個環節都考慮如何將AI融入其中, 提高每個環節的效率和效果。 更自動智能的處理、分析和應用數據。數據維度:該階段元數據管理范圍更大,需要考慮企業內包含業務、財務、人力等全域數據的元數據管理。數據質量在數據資產化的基礎上,更多地考慮基于 AI 的數據模型的質量如何度量和管理。數據安全角度,更多地考慮區塊鏈等先進技術在安全領域的應用。技術 / 工具:在企業業務的大數據場景下,基于人工智能算法的數據
18、探索平臺,數據智能業務模型的挖掘成為主要的方向。更多地考慮在原有技術平臺處理數據的環節中 AI 能力的集成和應用。?基于每個成熟度階段,整理特征概要如下:?1234成熟度階段業務系統化業務數據化數據資產化業務智能化戰略組織和人員戰略 /理念企業無數據略,純業務驅動企業樹立數據價值理念,開始注重數據積累和應用企業開始將數據作為一種戰略資產考慮,關注數據的連通性企業有自動化智能化理念組織架構企業無數據相關部門和職位設置企業有數據部門或者職位中有數據分析師公司決策層有 CDO或數據管理委員會、職位有數據科學家企業中有數據或 AI 研究院,有大量數據科學家,開始出現未來架構師業務智能化08?數據工程應
19、用過程數據理解只考慮業務相關的數據指標開始挖掘業務背后數據并評估收集可能性開始評估所有業務環節和終端的數據采集與連接開始評估業務、 財務、人力等企業內全域數據的收集管理數據準備業務未收集數據,無數據積累有團隊進行數據的收集和處理數據準備可以通過外部數據源來增強數據能力引入 AI(人工智能)和 ML(機器學習)在數據獲取、整理和增強中的使用數據開發基于業務的指標需要單獨開發系統有基于業務的報表系統或 dashboard將分析結果展示數據開發探索融合內外部數據基礎上使用不同算法能力引入 AI(人工智能)和 ML(機器學習)在數據探索分析中使用運營部署只有單純的業務指標分析部署系統實現單業務線的數據
20、閉環分析數據應用更多考慮跨界數據的使用引入 AI(人工智能)和 ML(機器學習)在數據應用和監控使用數據應用基礎能力元數據管理業務元數據分散且不統一以結構化數據管理為主,有系統管理數據管理中出現大量非結構化數據考慮全域數據的元數據管理數據質量有簡單測試和質檢,無質量體系開始設計質量監控指標控制過程和結果質量數據質量更多面對多維度、大體量、非結構化的質量度量方法有 AI 和 ML 在質量管理中的應用數據安全無數據分等定級和安全級別劃分對數據做了基本的分等定級區分涉密級別需要考慮數據聯通的安全隱私保護問題更多考慮 AI 和區塊鏈在數據安全領域的應用數據應用技術工具技術 /系統 /工具有基于業務線的
21、IT 系統,但各條業務系統相對孤立有專門的團隊負責數倉和 ETL 并開發相關工具開始構建數據資產目錄管理企業所有數據;有沙箱環境AI 模型優化原有系統各個技術環節,同時建立 AI 的模型庫基于每個成熟度階段,企業要想進階升級,可以從以下角度考慮。成熟度階段 Level進階路線成熟度進階09?03數據應用過程01 數據理解02 數據準備03 數據開發04 部署運營10?數據應用過程(Process)是數據應用工程 - 成熟度模型的核心組成部分,其闡述了一般數據應用經歷的完整過程。數據應用過程從工程思維的角度將數據從收到用的過程進行梳理定義,包含數據理解(Understand)、數據準備(Prep
22、are)、數據開發(Develop)、部署運營(operation)四個大的過程,每個過程還有細分子過程。數據應用過程可以理解為一個數據應用的最小迭代原型,也可以理解為一個大項目或企業的整體數據應用。數據分析數據探索數據建模數據應用運營監控效果分析數據評估業務理解數據理解部署運營數據開發數據準備數據過程Process數據定義數據增強數據整理數據獲取?數據理解是指充分理解企業業務和數據,在此基礎上定義數據要解決的業務問題,并評估其關聯關系和可行性的過程。很多數據應用案例中曾出現無法正確辨別實際業務問題,而導致數據和業務之間的價值鏈斷裂的情況。 為了避免這類問題同時減少時間和資源的浪費,在工程開始
23、之前就要清晰的識別出業務和數據之間的關聯關系, 明確范圍、 職責和最終目標。這就是數據理解環節要解決的問題。數據理解包含業務理解和數據評估兩個子過程。?業務理解是從商業角度全面理解客戶想要達到的目標或者要解決的問題,劃定業務目標和問題范圍?!救蝿枕棥浚毫私鈽I務:了解公司業務發展、企業或需求部門提出的數據應用場景、需求背景、要解決的問題和商業機會。梳理需求:分析干系人的需要以明確需求,通常企業中不同部門、不同職級人員的需概述11?求不同,應分別訪談并記錄,以備后續步驟討論使用。明確目標:比較企業內部不同人員對數據應用結果的預期,數據分析師應協助企業需求方梳理預期達成的目標。如果有多個目標,可以將
24、其分排優先級,規劃在項目的各期逐步實現。量化標準:與業務人員、項目干系人共同討論本次數據應用工程結果的評判標準,在商業層面確定成功、失敗的度量方式。如果項目周期較長,建議在項目執行中的重要環節設置驗收標準?!境晒浚簶I務調研報告:包括行業發展趨勢、企業現狀、業務現狀 / 流程、業務問題等。需求文檔:包含業務需求提出人、 要解決明確的業務問題 (需求目標) 、 預期結果是什么、計劃在項目的什么階段完成并交付、最后的評判標準。?數據評估是從工程角度評估可行性,評估中需要包含數據的可獲取性、技術的可行性、業務可行性(即是否能真正解決業務問題)、資源評估(人員和設備)、成本分析、風險分析等?!救蝿枕棥?/p>
25、:數據可行性評估:梳理企業內部所有的數據源,數據內容(schema),數據質量情況,數據間的血緣聯通關系, 歷史數據的使用情況, 數據存儲位置, 數據是否都可以獲取到,需要什么流程獲取。企業外部可以獲取什么數據資源,什么時候能獲取到,詳細內容和質量如何。 基于所有可能獲取的數據中哪些與目前項目有關聯, 數據是否需要再處理。主要從以上角度對企業內外部的數據情況及其可用性進行評估。 技術可行性評估:了解企業內部數據存儲的技術環境,數據處理 / 分析 / 探索使用的平臺系統及程序語言,基于不同環境下的數據轉移或打通的技術可行性。資源與風險評估:基于項目目標和數據現狀評估整個項目的人力資源、存儲 /
26、計算等軟硬件資源需求。與需求部門和數據部門一起明確項目的約束、限制和風險,重點確認前期數據準備復雜度、中期數據分析顆粒度、后期模型 / 產品交付過程中各個環節風險點及備用方案。工作項分解:在數據應用目標明確的前提下,結合各項評估結果,將項目分拆各個子目標,并制定對應的工作計劃安排?!境晒浚嚎尚行苑治鰣蟾妫喊瑪祿尚行栽u估結果、技術可行性評估結果、資源與風險評估結果、基于數據應用后業務問題的預期效果。項目實施方案:包含但不限于以下內容,基于可行性分析結果設計的數據應用項目方案,各個環節的分拆實施方案,資源和計劃安排,驗收方案(包含效果和質量等)。數據理解12? & ?“數據理解”過程的關鍵點
27、主要集中在“明確目標”和“數據可行性評估”兩個環節。解決問題前先要明確問題是什么,很多數據應用最終效果不佳都在于初始的問題定義就不清晰,比如說“希望通過數據應用在營銷環節提升效果”就是一個不明確的目標,需要明確到“將營銷中的哪個指標提高到什么程度”,所以“明確目標”變的至關重要,我們要用 SMART 原則清晰地量化目標?!皵祿尚行栽u估”十分重要,是因為只有了解了數據的現狀,才能使項目方案在落地時順利執行。如果只知道有數據,到了使用數據時才發現數據不可獲取,或者數據的質量無法支撐項目使用,或者數據量匹配率極低,這樣會導致項目執行中造成極大的風險,甚至無法完成預計目標。所以需要在數據理解階段做好
28、充分的“數據可行性評估”?!皵祿斫狻边^程中還可能會出現如下一些難點也是要重點關注的:首先通常企業內部會認為此類項目是 IT 部門的職責,實際上 IT 部門只是技術、設備的保管和協助部門,數據應用工程應該由明確的數據治理或數據分析部門來管理,由多個業務和職能部門協助完成。其次,在考慮約束和風險的時候,除了時間和資源風險,還需要重點考慮數據安全以及相關法律法規。?數據準備是從各種數據源處獲取原始數據, 按照預期的業務需求定義數據應用的目標數據,將所有原始數據抽取、清洗、融合、轉換、處理成為預期待分析挖掘的目標數據的過程。數據準備是所有數據應用工程都必須經歷的過程,可以理解為是為數據分析或建模準備
29、數據集的過程, 我們將數據準備劃分為數據獲取、 數據定義、 數據整理、 數據增強四個子過程,這四個子過程并不一定都是必須的,也并不要求有強順序關系。?數據獲取是指用系統的方法,收集和測量各種來源的信息,以獲得完整、準確的數據內容。獲取的數據可以是結構化的,也可以是非結構化,可以是數字、文字、語音、圖表等。在傳統數據階段,是需要什么數據才去設計收集的方法和指標;而大數據階段正好相反,是先將所有的數據(比如日志數據)收集起來,再想辦法從中抽取或挖掘想要的數據內容?!救蝿枕棥浚簲祿创_認 : 一般獲取數據的渠道有內部業務系統產生/收集, 公開網絡獲取、 外部購買、合作交換等。從不同數據源獲取數據時的
30、關注點不同,如果是內部業務系統,更多的是原始日志數據,可能很多是 rawdata,重點關注數據抽取和質量問題;如果是公開網絡獲取數據,一般都是整理好的數據或指標,需要重點關注其元數據和更新時間;如果是購買或交換的數據,最好是能讓提供方給出數據說明或質量報告等。數據內容分類標注:由于數據源不同,內容也差異很大,可能很多不同類型的內容是數據準備13?混在一起的,需要將其按照主題域分類標注。從內容來看可以分為企業內部數據、宏觀與行業數據、交互數據、檢測數據和自然數據。從生成方式看可以分為人、機器和自然三個方面。從數據形式看可以分為符號、文字、數字、圖像、語音等。獲取質量及穩定性確認:一般獲取的數據在
31、后期業務中是否能被應用起來,“質量及穩定性”至關重要,分析獲取數據的質量可以采用先抽樣評估,然后按照質量評價維度的各種指標的方式進行。數據獲取頻率要明確是一次性數據獲取,還是周期性固定頻率,還是以 API 接口的方式持續不定期的實時獲取,不同獲取頻率需要關注的技術指標不同?!境晒浚簲祿茨夸?: 記錄了企業中可獲取的所有數據源、 負責人、 獲取的數據集內容 (schema) 、量級、格式、類型、頻率、質量、歷史使用記錄等,可以通過元數據管理系統體現。數據質量監控 / 評估系統:若是企業內部日志數據,需要有專門的監控系統來監控收集數據的各項質量指標;若是外部購買或合作交換的數據,需要對收到的數
32、據進行質量評估后報告。?數據定義是指在獲取的數據源基礎上,按照數據應用的業務目標定義目標數據集,并設計數據處理流程方案的過程。系統性來看,可以理解為定義數據處理流程、定義數據處理流程中每個環節的數據集,定義每個環節數據集的數據字段。該過程是數據準備過程的核心,相當于設計的過程,后續的工作都是在此基礎上展開的?!救蝿枕棥浚簲祿鞒淘O計:是基于數據評估過程中的工作分解結果,確定數據應用的目標數據集,設計如何從不同的數據源中抽取需要的數據,進行必要的轉換和清洗,生成目標數據集的處理路徑,具體的處理方法。該工作相當于針對原始數據的重新組織,或者說制定數據處理的路線圖。 數據集定義:定義明確的目標數據集
33、和中間數據集,并清晰定義出每個數據集中的數據字段及其約束條件,數據的血緣關系圖(即上游來源數據集和下游使用數據集)。關于目標數據集的定義,一般從“人”和“業務”兩個維度來考慮,比如零售企業一般的業務從“商品”、“客群”、“交易”等三個大方面組織數據?!境晒浚簲祿幚矸桨福阂话惆苏w數據處理的流程,每個環節數據集的數據處理方法,數據監控的指標,數據集的質量評估方案,是后續數據整理和增強的指南。數據資產目錄:是一個元數據管理系統或者元數據管理表,其中包含了數據集定義任務項中的所有內容。?數據準備14?數據整理是按照數據定義的處理方案,對數據源進行抽取、清洗、轉換等加工處理,使之系統化、條理化
34、,重新組織生成目標數據集的過程。數據整理是為了更方便進行后續的統計分析和數據挖掘,同時為數據消費者提供統一數據視圖的集成方式,也可以理解為傳統的 ETL 過程?!救蝿枕棥浚簲祿槿。簩⒏髑罃祿传@取的數據裝載至適當的數據處理工具中,挑選適合本項目的數據。選擇的標準包括與數據工程目標的相關性、質量和技術限制。數據抽取可以是選擇特定的數據集、數據字段、特定屬性范圍內的數據記錄(如一段時間、一個區域、一類商品)??蓪⒊槿〉臄祿b載到新的存儲位置,構建新的數據集,為下一步做好準備。數據清洗:即數據標準化的過程,抽樣分析已有數據的質量,制定數據有效性策略和數據清洗策略,如針對特定字段格式的清洗、數據格
35、式統一等。清洗后抽樣驗證數據質量是否達到既定標準、是否符合當地法規的數據安全標準?!境晒浚簲祿呵逑赐瓿傻臉藴驶男聰祿瘮祿Y產目錄:對新生成的數據集的名稱、schema、格式、血緣關系、質量情況等各種數據集信息。數據操作文檔:記錄了數據處理的每一步操作策略,處理的代碼,處理的效果及質量情況、處理過程中發生的問題記錄等。這些信息可以在不同的系統或文檔中體現。?數據增強是將標準化后的多個單來源數據,以某一個字段進行數據聯通,將聯通的不同數據融合在一起生成新的字段更全的數據集,或者將通過聯通后的數據交叉映射補充空缺字段內容。數據增強是多個數據集之間運算生成新的數據集的過程?!救蝿枕棥浚簲祿?/p>
36、通匹配:是指針對不同的數據集,相同數據字段進行交集運算,確定不同數據集之間匹配率的過程,匹配率的高低決定了后續數據融合或者數據分析應用的最終效果。數據聯通匹配也是很多企業與企業之間進行數據合作或進行數據業務開展的關鍵指標。比如:某電商想通過手機號匹配運營商數據確定其客戶在不同區域的分布量及其通信消費情況, 前提是該電商數據與運營商數據的聯通匹配率高, 其結果才能有價值。數據融合:不同的數據集有相同的字段,以相同的字段將多個數據集從記錄角度或從字段角度進行并集或交集運算的過程。在融合以前需要先將數據清洗標準化,并確定融合字段的共有性?!境晒浚簲祿簲祿鰪姾笊傻男聰祿瘮祿蕚?5?數據資
37、產目錄:對新生成的數據集的名稱、schema、格式、血緣關系、質量情況等各種數據集信息。數據增強文檔:記錄了數據增強的策略,各數據源的匹配率,增強的效果,記錄了數據增強的每一步操作,處理的代碼,處理過程中發生的問題記錄等。這些信息可以在不同的系統或文檔中體現。?數據準備是整個數據應用過程中最耗時的階段,一般會消耗 80% 的時間或者資源,也是最苦最累最需要細心的過程。數據準備的每個環節都對最終的結果有很大的影響,其中有很多關鍵點需要重視:數據源的穩定性和數據鮮度(時效性)數據集定義中的處理策略和約束條件數據處理過程中每個環節的質量監控數據聯通匹配率的高低(漏斗有效性)數據準備過程中的難點主要集
38、中在技術系統和數據孤島兩個問題上。數據整理和增強都會涉及到技術工具,海量數據對技術要求很高,各技術系統之間的適配和耦合能力至關重要,對該環節工作人員的技術要求也很高。在大公司數據可能被不同的生產線 / 部門擁有,要想使用數據,必須將數據匯聚或者開放數據訪問的權限,統一數據過程就需要拆掉部門墻,這是很多生態型企業的難點,需要高層戰略層面強力支持。?數據開發是以工程思維的角度將數據應用的關鍵實施過程進行演繹,是指在目標明確、數據集已整理完備的基礎上進行分析挖掘探索數據應用模式的過程。數據開發是數據在業務領域最基本的模型探索,可以認為是小范圍抽樣實驗的過程,并不包含在業務生產線上的工程化。數據開發包
39、含數據分析、數據探索和數據建模三個子過程,三個子過程并不都是必須的,也并不具有強關聯或順序關系。?數據分析是指在一定的商業場景或模型下,使用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息,形成結論,并對數據加以詳細研究和概括總結的過程。數據分析更多的偏重于問題的答案是封閉式的一些業務場景,面對的主要是結構化數據?!救蝿枕棥浚悍治龇椒ǎ?有兩個維度的選擇,數據開發16?一個維度是很多業務領域有自己的場景和業務模型,比如:3A3R 模型、客群生命周期模型、流失預警模型、價值分級模型,只需要按照對應的模型指標,分析其數據分布、質量情況,以及與模型的符合度等;第二個維度是數據統計方法的選擇
40、, 包含描述性統計、 回歸分析、 方差分析、 假設檢驗、相關分析、聚類分析、因子分析、主成分分析等。這些都取決于分析的業務模型要解決的問題, 隨后的模型建立階段也會包含其中部分內容, 但更多是從算法角度深入切入,當前數據分析階段主要使用的是描述統計、 相關分析和方差分析等簡單分析方法居多。工具使用:一般情況需要依據數據量、維度,以及需要使用的分析方法和程序語言判斷哪一款工具更適合分析場景的使用,同時也需要考慮程序復雜度與對使用者的知識和技能要求。分析可視化 : 選定了分析方法和使用的工具基礎上, 調用準備好的數據執行分析的過程,將分析結果以圖表等可視化形式展現。效果驗證:所有的分析結果都需要進
41、行效果驗證,一般可以與預期目標進行驗證,可以使用歷史數據進行驗證,也可以使用真實結果進行驗證,進一步評估分析的效果?!境晒浚悍治鰣蟾妫盒枰x擇的分析方法、分析工具、分析的過程、可視化分析成果、分析結論、效果驗證方法及結果。?數據探索:與數據應用相似,有兩點不同,一是數據探索面對的以半結構化和非結構化數據居多 ; 二是數據探索更多的是從業務場景中解決開放性的問題, 可能探索沒有明確的對錯,可能探索沒有明確定量定性的目標而只有一個方向或要解決的問題?!救蝿枕棥客皵祿治觥?。但更多的強調業務邏輯上的創新?!境晒客皵祿治觥?。?數據建模:是指在準備好的數據集基礎上,基于業務要解決的問題,設
42、定假設,特征提取,使用算法構建模型,并迭代驗證的過程。此處的數據建模是狹義的建模,可以理解為我們經常說的數據科學。從經驗來看一般的數據科學問題可以分為 5 大類,分別是:分類、異常檢測、回歸預測、聚類和強化學習。分析方法和工具也與這 5 類相對應,例如常見的預測類問題,當獲得的數據可靠時,依靠數據做出決策會變得簡單;其次面對一個全新領域,需要找出領域內實體間關系,則聚類分析和關聯分析可以使數據之間的關系清晰化;偏差分析法可以為質量管理和異常檢測提供分析的理論基礎。實際操作時參與人員需要根據問題有針對性的選擇?!救蝿枕棥浚禾岢黾僭O:包含業務假設和算法假設(選擇)兩個方面,業務假設是指基于業務要解
43、數據開發17?決的問題設置預期的假設目標,可以是枚舉或是非,可以是趨勢方向,可以是指標,可以是規律;算法假設是指解決該業務問題預期使用的算法或方法,可以是分類、異常檢測、回歸、聚類和強化學習等任何一種。特征工程:所有的數據集都可以從描述性角度確認其特征,依據要解決的業務問題和選擇的算法, 從數據集中抽取需要的特征數據, 并按照算法要求進行格式化處理的過程。模型訓練:將準備好的特征數據集帶入算法,進行運算訓練,并不斷調整算法參數和特征數據進行迭代, 直至訓練達到預期效果, 或者在現有算法和特征數據下的最優結果。若訓練中一直未達到預期效果,可以調整算法或者特征數據。模型評估:一般在進行模型訓練時,
44、會將特征數據分為兩份或者多份,將其定義為訓練集和驗證集,在訓練集上進行模型訓練達到預期效果的情況下,使用驗證集數據進行模型的評估,從召回率和正確率等多個角度綜合評估?!境晒浚耗P驮O計方案:包含假設提出, 數據集的選擇, ground truth的準備, 特征工程的過程 (包含特征描述、特征分析等),算法描述,訓練結果,部分可能還涉及升維或降維等。模型代碼:可以存儲在 git 或企業內部自有平臺上。模型評估報告:包含模型評估的方法及其效果。? 整個數據開發的關鍵點在于建模的過程,無論特征選擇還是算法選擇都不是一蹴而就的,都是一個不斷試錯和迭代的過程,這其中如果維度不夠或者過多還會涉及到升維或者
45、降維的過程。難點在于假設的提出,要有充分的業務經驗積累才能針對業務問題提出好的假設,所以開發的過程一定要有業務專家的參與才行。? 部署運營是指將開發階段模型成果在業務線上部署,在生產環境中例行化,并跟蹤其運行效果的過程。一個算法模型在小量數據的實驗階段對系統和性能的壓力都比較小,但是一旦將其部署在真正的業務線上,對存儲和計算資源等算力的要求就會很大,對性能要求就很苛刻。運營部署過程可以分為數據應用、運營監控和效果分析三個子過程。 ?數據應用是指將算法模型在生產環境下部署的過程?!救蝿枕棥浚翰渴疬\營18?模型部署評估:主要是根據業務情況和模型要求,對正式業務環境下的數據存儲、數據計算、性能指標及
46、業務線影響進行綜合評估。并制定正式部署方案和容災備份方案。模型部署操作:按照模型評估的結果進行部署操作?!境晒浚翰渴鹪u估報告業務系統模型部署?運營監控是指在業務系統部署模型后設置業務或質量監控指標,持續監控業務運營效果?!救蝿枕棥浚褐笜嗽O定:基于業務運營效果設置監控指標,可以是以往已有的監控指標,也可以是基于新的模式新增的指標 , 其中包含業務指標和性能指標。指標監控:針對設置指標設置監控周期,在周期內進行對應指標的監控并記錄。前期指標監控可以是人工參與,但當確定后,后期需要將其在監控系統自動化?!境晒浚褐笜硕x說明指標監控結果:可以在某個監控系統上,也可以在例行報告或郵件中。?效果分析是
47、基于運營監控效果的數據,與數據理解階段設置的數據目標和業務目標進行閉環分析。確認整個數據應用工程效果的效果?!救蝿枕棥浚簲祿Ч治觯夯凇斑\營監控”中的數據指標進行模型應用前后的歷史對比分析,同時與預期目標進行對標分析, 在分析過程中系統性的評審 “數據理解” 、 “數據準備” 、“數據開發”和“部署運營”整個大閉環階段所有數據處理環節的效果。業務效果分析:是指將業務真實運行情況做預期目標對標分析,同時可以考慮與競品的對標分析,對此次數據應用效果進行評價,同時基于現狀提出將來的方向和目標?!境晒浚簲祿治鰣蟾鏄I務分析報告?部署運營階段的關鍵點在于要數據分析與業務分析緊密結合來說明數據應用的
48、效果,且要部署運營19?將整體“數據理解”、“數據準備”、“數據開發”和“部署運營”每個過程中的所有數據效果進行系統性的分析,而不只是最終效果的歷史對標。部署運營階段的一個難點在于對于某些業務場景調整后的效果是受到多種因素的影響,而非僅僅是數據的影響,這種情況下應該盡量減少其他變量的調整,另外從變化因子的影響程度進行評估。另外一個難點在于真實效果數據的獲取,這個要在業務理解階段就需要考慮最后的評價方式。部署運營20?04數據維度01 數據維度概述02 元數據管理03 數據質量04 數據安全21?數據維度(Dimensionality)是數據應用工程 - 成熟度模型的關鍵組成部分,是將數據應用工
49、程中每個環節都會涉及到的同類型工作,從系統性的角度來整體考慮,類似的事情可能很多,本版本先從最重要的元數據、數據質量和數據安全三個維度來展開。?業界有專門針對元數據的全面介紹,本體系不做詳細展開,僅將涉及數據應用工程相關的主要內容做必要闡述。元數據相當于一個數據環境中的目錄卡,在這個受控的數據環境中,元數據是描述數據的標簽或數據的上下文背景。元數據為用戶展示了在哪里可以找到什么類型的數據和信息,還提供了這些數據從哪里來,是如何處理的,相關數據轉換規則和數據質量要求等詳細信息,有助于理解數據的真實含義和對數據進行解釋說明??梢岳斫鉃樵獢祿拖喈斢跀祿哪夸浐妥值?。所以做好元數據管理在數據應用工程
50、中至關重要,一般的元數據字典信息可以存儲在專門的元數據, 或者元數據文檔, 或者我們稱之為 “數據目錄” 的數據管理系統。并且一個公司最好有一個統一的元數據管理體系,這樣能讓公司所有員工在同一個語言頻道上溝通和交流,業務人員和技術人員可以方便的理解數據。?元數據(Meta Data)是指描述數據的數據,是關于一個企業所使用的物理數據、數據規則和約束、數據的物理與邏輯結構的信息。元數據通??梢苑譃闃I務元數據、技術元數據和操作元數據。業務元數據包括規則、定義、數據、術語表、運算法則和系統使用業務語言等,主要使用者為業務用戶。技術元數據主要用來定義數據應用過程中各個組成部分元數據結構,具體包括各個系
51、統表和字段結構、屬性、出處、依賴關系等,以及存儲過程、函數、序列等各種對象。這其中描述的對象既包含結構化數據也包含非結構化數據。操作元數據主要是指應用程序運行的信息,比如頻率,記錄數以及各個組件的分析和其他統計信息等。?1、明確元數據管理策略及架構為了支撐數據工程,構建智慧的分析洞察,企業需要實現貫穿整個企業的元數據集成,建立完整且一致的元數據管理策略。這需要明確企業元數據管理的需求、目標、約束和詳細策略,依據企業現狀制定元數據管理的實施路線,確定元數據管理的安全策略、版本策略、數據維度概述22?訪問推送策略等等。在策略確定后進行體系架構設計,體系架構從技術架構和數據架構兩個角度考慮。技術架構
52、方面,一般的元數據集成體系可以分為:點對點的元數據體系結構、中央輻射式元數據體系結構、分布式元數據集成體系結構和層次 / 星型元數據集成體系結構。數據架構方面,可以從以下幾個角度展開:數據源角度、主題域的角度、實體的角度和業務角度等多方面。2、實施元數據管理創建業務術語詞庫??紤]到企業可以獲取數據的容量和多樣性,應該創建一個體現關鍵數據業務術語的業務定義詞庫(本體),該業務定義詞庫不僅僅包含結構化數據,還可以將半結構化和非結構化數據納入其中。創建技術和操作元數據庫?;跀祿眠^程的所有環節,參照數據架構和數據策略建立包含數據源、主題域、數據處理過程的元數據庫。建立長效支持機制。及時跟進和理解
53、各種數據技術中的元數據,提供對其連續、及時地支持,比如 MPP 數據庫、流計算引擎、Apache Hadoop/ 企業級 Hadoop、NoSQL 數據庫以及各種數據治理工具如審計 / 安全工具、信息生命周期管理工具等。打通元數據鏈路。將業務元數據和技術元數據進行鏈接,可以通過操作元數據監測數據的流動;可以通過數據血緣關系分析在整個信息供應鏈中實現數據的正向追溯或逆向追溯, 了解數據都經歷了哪些變化, 查看字段在信息供應鏈各組件間轉換是否正確等 ;可以通過影響分析了解具體某個字段的變更會對信息供應鏈中其他組件中的字段造成哪些影響等。擴充元數據管理角色。擴展企業現有的元數據管理角色,比如可以擴充
54、元數據管理者、數據主管、數據架構師以及數據科學家的職責,加入數據治理的相關內容。?質量是產品或工作的優劣程度,從字面意思分拆來看是指品質和數量,品質代表了可用性,數量代表了可測量性,所以質量管理需要更多的關注可用性和可度量性。數據是 DIKW 模型(Data-Information-Knowledge-Wisdom)中的最基礎層,只有數據被準確的保存記錄才有后續有效信息的分析,才有知識規律的總結。將“數據”和“質量”兩個詞組合在一起就可以看出數據質量的重要性。它是數據業務的基石。數據從收集、整理、分析到應用會受到多個環節的影響,所以要想使最后數據應用環節的數據質量效果好, 必須保證前序各個環節
55、的數據質量。 所以數據質量不是單點的管理,是全方位的管理,是持續的管理。需要所有部門一起付出努力才能保證最后數據應用產品的質量。?元數據管理23?數據質量維度包括 :1. 準確性 (Accuracy):數據準確性是指數據準確反映其所建模的“真實世界”實體的程度。通常,度量數據值與一個已確定的正確信息參照源的一致性可以度量準確性,如 : 將數據值與來自數據庫或其他數據表的正確數據集比較,根據動態計算的數值進行檢查,有時可能需要手工檢查數值的準確性 ;2. 完整性 (Completeness): 完整性的要求之一是一個數據集的特定屬性都被賦予了數值。完整性的另一個要求,是一個數據集的全部行記錄都存
56、在。要對一個數據集的不同約束類型的屬性應用完整性規則,如 : 必須有取值的必填屬性,有條件可選值的數據元素,以及不適用的屬性值。還可以認為完整性包括數據值的可用性和適當性 ;3. 一致性 (Consistency): 一致性是指確保一個數據集的數值與另一個數據集的數值一致。一致性的概念相對寬泛,可以包括來自不同數據集的兩個數值不能有沖突,或者在預定義的一系列約束條件內定義一致性??梢詫⒏降囊恢滦约s束作為一系列定義一致性關系的規則,這些規則可以應用于屬性值之間,記錄或消息之間,或某一屬性的全部數值之間。需要注意的是,不能將一致性與準確性或正確性相混淆。一致性可以定義在同一條記錄中的一個屬性值
57、集合與另一個屬性值集合之間 ( 記錄級一致性 ),或定義在不同記錄中的一個屬性值集合與另一個屬性值集合之間 ( 跨記錄一致性 ),還可以定義在同一條記錄中但在不同時間點的同一屬性值集合之間 ( 時間一致性 );4. 時效性 (Currency): 數據時效性是指信息反映其所建模的當前真實世界的程度。數據時效性度量了數據的“新鮮程度”以及在時間變化中的正確程度??梢愿鶕祿厮⑿碌念l率度量數據的時效性,從而驗證數據是最新的。數據時效性規則定義了一個數據值在失效或需要更新之前已經歷的“壽命”;5. 精確度 (Precision): 精確度是指數據元素的詳細程度。數值型數據可以有若干精確數位。例如
58、,對數據取整或截斷可能會產生精確度錯誤 ;6. 有效性 (Validity): 有效性是指數據實例的存儲、交換或展現的格式是否與數據值域一致,是否與其他相似的屬性值一致。 有效性確保了數據值遵從于數據元素的多個屬性:數據類型、精度、格式、預定義枚舉值、值域范圍及存儲格式等。為確定可能取值而進行有效性驗證不等同于為確定準確取值而進行真實性驗證。?“如何進行數據質量管理”面對這個問題不同的企業和個人會給出多種不同的答案,有正向的質量控制方法,有逆向的質量保證方法,有豐田的 QCC,有問題管理導向的 5-WHY和 8D。但綜合來看,一般數據質量管理可以從質量理念,質量管理方法和質量工具三個角度入手。
59、1、理念戴明環(PDCA)在此僅介紹一個簡單的理念數據質量24?2、方法數據質量管理提升方法結合數據管理的生命周期定義以及戴明環(PDCA)理論,數據質量管理的生命周期可以分為四大階段,八個工作步驟,具體定義如下:?1. 定義業務需求。定義和明確數據質量管理的目標和范圍,以指導數據質量管理整個階段的工作,數據的業務管理需求是數據質量規則的重要體現,在本階段需要明確數據質量管理的目標以及業務需求,為后續的工作提供指導。2. 定義質量評估指標。根據數據質量的管理目標以及業務規則,結合數據相關的信息技術環境分析,選取適合本部分數據的數據質量評價指標。3. 評估數據質量。針對適用于本部分數據的數據質量
60、評價指標,結合數據質量評價方法和數據質量評估工具, 綜合評估數據質量。 評估結果為未來步驟提供基礎。 例如 : 確定根本原因、需要的改進和數據更正等等。4. 評估業務影響。使用各種方法、技術來評估劣質數據對業務、經濟的影響。該步驟為建立改進業務案例,獲取數據質量支持、確定適當的信息資源投資提供依據。5. 分析根本原因。從業務、流程、信息系統等多方面來分析引起數據質量的真實原因?;跀祿|量根本原因的分析可以幫助制定并執行數據質量的提升方案。數據質量25?6. 制定改進措施。根據數據質量的原因分析,制定數據質量提升的行動計劃和建議?;谶@些計劃和建議可以進行數據的更正。7.數據更正。 對存在問題
61、的數據進行更正或者提升, 并且對數據更正的過程進行監控和確認,確保業務規則和目標得到滿足。8. 業務、流程優化。根據數據質量原因的分析、業務影響的分析、業務規則的分析等多方面的因素,對當前的業務、流程以及相關的信息環境進行優化,預防未來類似數據問題的出現。同時,對典型案例進行總結,形成數據質量管理知識庫。3、工具傳統的質量領域經常會提到質量七工具,他們是流程圖、直方圖、柏拉圖、控制圖、散布圖、推移圖、魚骨圖。從產品質量設計、過程質量控制和質量問題分析角度可以對應使用。由于數據質量是存在于數據相關的所有環節,所以現在各類數據相關產品中都設置有質量模塊 / 功能,比如在數據資產管理中的數據目錄中就
62、可以設置對每個數據集的數據質量指標進行監控。綜上,在數據質量這個大范疇中只是舉例說明了質量理念、數據質量管理方法和數據質量工具。更多的數據質量管理還需要結合企業的發展階段、數據場景和技術能力做出有效的選擇。? ?數據安全是指通過建立和采用技術和管理的安全保護,保護數據不因偶然和惡意的原因遭到破壞、更改和泄露。數據安全26?數據安全存在著多個層次,如:制度安全、技術安全、運算安全、存儲安全、傳輸安全、產品和服務安全等。對于數據安全來說:制度安全治標,技術安全治本,其他安全也是必不可少的環節。數據安全不僅關系到個人隱私、企業商業隱私;而且數據安全技術直接影響國家安全。?數據安全管理是計劃、制定、執
63、行相關安全策略和規程,確保數據和信息資產在使用過程中有恰當的認證、授權、訪問和審計等措施。有效的數據安全策略和規程要確保合適的人以正確的方式使用和更新數據,并限制所有不適當的訪問和更新數據。數據安全管理過程可以從要求、策略、實施、審計四個方便開展。1、明確數據安全管理要求數據安全管理目標是保證數據和數據主體信息保密性、數據和數據主體信息真實性和數據可用性。創建合適的數據安全策略,建立相應的機構組織結構和安全管理體系,包括系統和數據資產清單、組織和人員管理、符合業務流程的數據供應鏈管理體系、滿足數據安全服務的元數據體系、各種安全合規性規范等數據服務基礎安全能力的相關要求。針對數據生命周期管理相關
64、的數據活動,形成數據服務安全規范、控制措施、管理流程等數據活動安全能力,目的是降低各種數據活動的安全風險,保障數據安全。從規劃、開發、部署到系統運維的生命周期各階段對數據平臺和應用采取必要的安全技術和管理安全措施,目的是建立安全的數據服務環境,降低運行安全風險。2、定義數據安全策略在實施數據安全管理前,首先要參考數據安全管理要求及相關依據建立數據安全策略,可以參考如下一些依據進行:國家的法律法規:以個人信息安全為例,歐盟頒布了GDPR,中國先后頒布了網絡安全法、個人信息和重要數據出境安全評估辦法國家標準或行業監管要求:以個人信息安全為例,有信息安全技術個人信息安全規范、信息安全技術個人信息去標
65、識化指南、數據出境安全評估指南數據的分類分級標準:數據分類維度可以按照數據主體分類、主題分類、行業分類。分級可以將非涉密數據分為公開、敏感數據大數據安全管理原則:職責明確原則、意圖合規原則、最小授權原則、數據保護原則、可審計原則等業務規則要求及權限管理策略數據安全27?3、實施數據安全管理數據安全策略和要求的落實主要靠企業的安全制度流程及相關平臺工具進行,在數據應用工程從數據源、網絡傳輸、采集、存儲、處理計算、應用等各個維度都需要進行安全策略的控制。如下圖為簡單列舉。4、審計數據安全數據安全審計是一項控制活動,負責經常性分析、驗證、討論、建議數據安全管理相關的政策、標準和活動。數據安全審計的目
66、標是為管理層和數據工程委員會提供客觀中肯的評價、合理可行的建議。數據安全策略聲明、標準文檔、實施指南、變更請求、訪問監控日志、報表輸出,以及其他電子和書面記錄等形成審計的基礎。數據安全審計包括:分析數據安全策略和標準;分析實施規程和實際做法,確保數據安全目標、策略、標準、指導方針和預期結果相一致;評估現有標準和規程是否適當,是否與業務要求和技術要求相一致;驗證機構是否符合監管法規要求;檢查安全審計數據的可靠性和準確性;評價違背數據安全行為的上報規程和通知機制;評審合同、數據共享協議、確保外包和外部供應商切實履行他們的數據安全義務,同時保證組織要履行自己應盡的義務;向高級管理人員、數據管理專員以
67、及其他利益相關者報告數據安全狀態,以及數據安全實踐成熟度;推薦數據安全的設計、操作和合規改進工作。 對于有效的數據安全管理而言,沒有什么可以替代數據安全審計工作。審計是一個支持性、可重復的過程,應當有規律的、高效的持續執行數據安全審計工作。以上是依據數據安全管理的思路舉例,數據安全多個層次的管理側重點不同,企業要依據自己的業務特點確定數據安全的側重點,但安全策略必須考慮法律和行業監管的要求。數據安全28?05數據工具與技術01 綜述02 大數據工具列表29?工欲善其事必先利其器,無論方法和理論多么的高深,要落地和實施必須依靠技術的力量,必須依靠工具和平臺。隨著移動互聯網的發展及計算科學的不斷演
68、進,各種數據處理框架、大數據工具也都應運而生。盤點所有數據工具與技術發現以下特點:1. 數據處理工具從收費走向開源。傳統的數據存儲和分析工具基本上以收費為主。比較典型的包括數據庫類軟件 Oracle、數據處理分析類工具 Excel、建模類工具 Matlab 以及SPSS Modeler 等。但是在大數據場景下,最常用的工具往往是開源的工具。例如,目前廣泛使用的 Hadoop、Spark、Hive 都是優秀的開源工具,Python、R 等編程語言也提供例如Pandas、Scikit-Learn 等易用的開源庫。同樣,很多產品供應商提供的平臺類產品都是基于這些開源工具構建的。因此,大數據處理場景下
69、,常用的工具和平臺都趨于開源化。2. 大數據處理工具更為多樣化。相比傳統的數據軟件,當前的大數據工具更具有多樣性,在數據處理的各個階段 (數據采集、 數據存儲、 數據探索、 數據分析、 數據建模、 數據發布等)都浮現出了眾多的工具, 有的工具專注于做強某一個方面, 有的貫穿了整個數據處理的流程,探索統一的大數據工具平臺。3. 大數據處理工具更為智能化。從功能上講,當前大數據處理工具相比傳統處理工具最令人興奮的是智能化趨勢,工具的智能化在貫穿數據處理的整個過程。例如,Tamr 主要用機器學習的方式來解決數據的關聯、唯一實體的識別;DataRobot 等工具實現了建模過程、調參的智能化。這些都極大
70、的簡化了數據處理的過程。?每個公司都有自己的技術特點和工具體系,以下列出市面上常用的工具列表,供數據應用過程中參考使用。?名稱說明Apache Hadoop開發可靠、可擴展、分布式計算的開源軟件ClouderaCloudera 的開源 Apache Hadoop 發行版,亦即(Cloudera Distribution including Apache Hadoop,CDH),面向 Hadoop 企業級部署。Apache Spark相對于 Hadoop 的 MapReduce 會在運行完工作后將中介數據存放到磁盤中,Spark使用了內存內運算技術,能在數據尚未寫入硬盤時即在內存內分析運算。Sp
71、ark 在內存內運行程序的運算速度能做到比 Hadoop MapReduce 的運算速度快上 100 倍,即便是運行程序于硬盤時,Spark 也能快上 10 倍速度。Apache StormApache Storm 是一個免費的開源分布式實時計算系統。KafkaKafka 是一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據。Hive基于 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的 SQL 查詢功能,可以將 SQL 語句轉換為 MapReduce 任務進行運行。其優點是學習成本低,可以通過類 SQL 語句快速實現簡單
72、的 MapReduce 統計,不必開發專門的 MapReduce 應用,十分適合數據倉庫的統計分析。Elasticsearch基于 Lucene 的搜索服務器。提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web 接口。用于云計算中,能夠達到實時搜索、穩定、可靠、快速、安裝使用方便。綜述30?MongoDBMongoDB 是一個基于分布式文件存儲的數據庫。由 C+ 語言編寫。旨在為 WEB 應用提供可擴展的高性能數據存儲解決方案。MongoDB 是一個介于關系數據庫和非關系數據庫之間的產品,是非關系數據庫當中功能最豐富,最像關系數據庫的。Hbase開源的非關系型分布式數據庫(N
73、oSQL),它參考了谷歌的 BigTable 建模。Hadoop項目的一部分,運行于 HDFS 文件系統之上,為 Hadoop 提供類似于 BigTable 規模的服務。?名稱說明Informatica PowerCenterPowerCenter 構成了所有數據集成計劃的基礎,包括分析和數據倉庫,應用程序遷移或整合與數據治理。WhereHowsLinkedIn 開源了的一個元數據中心工具,已經在 LinkedIn 內部長期使用。方便內部員工發現公司內部的數據,跟蹤數據集的移動和查看各種內部工具和服務的動向。Atlas一個可擴展和可擴展的核心基礎治理服務集 - 使企業能夠有效地和高效地滿足 H
74、adoop 中的合規性要求,并允許與整個企業數據生態系統的集成。Waterline Data一款自動化的數據發現平臺,可幫助數據架構師大規模自動清理 Hadoop 中的所有數據,并將數據安全地提供給業務用戶,并使數據自動進行分析,無需手動探索每個文件。 水線數據還有助于自動發現沿襲和業務元數據,并管理元數據。名稱說明OpenRefine有力的處理混亂數據的工具??梢詮囊环N格式清洗、轉化為另一種格式。Google 目前不在支持該工具的迭代。Talend Open Studio支持 ETL 過程的所有方面。直觀的流程建模工具使企業利益相關者能夠參與最初的ETL 設計工作。提供了超過 800 個內置
75、連接器。Informatica PowerCenter Big Data Edition使用可視化開發環境構建在 Hadoop 上本地運行的 ETL 數據流。 數據流可以重復使用,并與其他開發人員和分析師通過集成開發環境(IDE)進行協作。 允許訪問包括RDBMS,OLTP,OLAP,ERP,CRM 等。PowerCenter Big Data Edition 在 Hadoop上提供了一個預建的轉換功能庫,包括數據類型轉換和字符串操作,支持高性能緩存的查找,篩選器,連接器,分類器,路由器,聚合等等。Jaspersoft ETLJaspersoft ETL 易于部署,用于從交易系統提取數據,以創
76、建用于報告和分析的整合數據倉庫或數據集市。Apache AirflowApache Airflow 是一個用于編寫,安排和監控工作流程的開源工具。它具有豐富的用戶界面,可以方便地查看生產中運行的管道,監視進度,并在需要時排除故障。名稱說明Tableau可以幫助用戶快速的看到并理解數據。幫助任何人快速的分析、可視化并分享信息。Power BI微軟為非技術人員提供的自服務式的 BI 解決方案。Sisense為復雜的數據簡化了 BI 操作,包括大數據集以及分散的多個數據集。支持 R 語言。Qlik自助服務可視化使用數據可視化應用程序驅動洞察發現。 組織中的每個人都可以輕松創建靈活的交互式可視化,并做
77、出有意義的決策。使用簡單的拖放界面來創建靈活的交互式數據可視化。 利用智能可視化技術探索數據,自動適應您設置的參數 - 無需開發人員,數據科學家或設計人員。ECharts百度開源的可視化圖表工具。遵循 BSD 開源協議,免費商用。滿足各種可視化需求。HighCharts用純 JavaScript 編寫的一個圖表庫, 能夠很簡單便捷的在 web 網站或是 web 應用程序添加有交互性的圖表,并且免費提供給個人學習、個人網站和非商業用途使用。HighCharts支持的圖表類型有曲線圖、 區域圖、 柱狀圖、 餅狀圖、 散狀點圖和綜合圖表。? ETL ?BI ?大數據工具列表31?名稱說明IBM Da
78、ta Science Experience(DSx)一站式的數據科學工作空間,支持各種數據科學家需要的開源的工具集,支持 R, Python, Scala,并且與 Rstudio, Spark, Python 進行了集成。DSx 可以訪問 Watson 數據平臺提供的數據集,并且支持云端、私有部署以及桌面版本。Azure Machine Learning完全托管在云上的機器學習服務??梢暂p松構建、部署和分享預測分析解決方案。KNIME功能完備并且富有彈性的針對數據科學家的平臺。KNIME 可以通過 KNIME Bigdata Extension 去進行大數據的計算和機器學習。KNIME 分析平
79、臺提供了比較強大的數據準備能力,包括連接和混合數據、驗證數據質量、值匯聚、平滑、數據集分區以及特征生成和選舉等等。SAS Visual Analytics SuiteSAS 公司一系列可視化分析的套件,包括 Visual Statistics, Visual Data Mining and Machine Learning。具備很好的數據訪問能力以及數據準備能力,同時具備卓越的數據可視化和探索能力。支持不同的數據源和數據類型,并且具備非常好的社區的支持。RapidMiner平臺包含大量的算法、靈活的模型能力、數據源集成能力以及數據準備的能力。平臺易于使用,能夠非??焖俚倪M行模型的開發,并且具備
80、良好的開源支持。Dataiku注重協作、對用戶友好的數據科學平臺。支持業務人員點擊分析處理數據,支持數據分析師、數據科學家寫腳本處理數據的能力,主要支持 PythonRSparkHive 等腳本語言。同時,支持快速模型的能力。數據連接能力也很強悍。支持私有化部署。Domino Data Lab可以自己訂制開發環境的平臺,主要面向數據科學家,基本全部的操作都基于代碼。只能在云端運行。ANACONDA一個由 Python 支持的開放式數據科學平臺。 Anaconda 的開源版本是 Python 和 R 的高性能版本,包括超過 100 種用于數據科學的最受歡迎的 Python,R 和 Scala 軟
81、件包。 還可以訪問超過 720 個軟件包,可以很容易地安裝 conda 包。DataRobotDataRobot 為所有技能水平的數據科學家提供了一個機器學習平臺,可以在過去幾分之一的時間內構建和部署準確的預測模型。該技術通過改變預測分析的速度和經濟性來解決數據科學家的嚴重短缺問題。H2OH2O 是智能應用(深度學習、梯度提升、隨機森林、廣義線性建模(Logistic 回歸、彈性網絡)、K 均值等)的開源快速可伸縮機器學習 API。大數據工具列表32?06附錄01 【附錄 1】術語02 【附錄 2】溯源與關系03 【附錄 3】參考文獻33? 【附錄 1】術語? 1?元數據(MetaData):
82、是指描述數據的數據,是關于一個企業所使用的物理數據、數據規則和約束、數據的物理與邏輯結構的信息。數據(Data):可以是數字、文字、圖像、符號等,它直接來自于事實,可以通過原始的觀察或度量來獲得。信息(Information):信息,指音訊、消息、通訊系統傳輸和處理的對象,泛指人類社會傳播的一切內容。數據集(DataSet):是一種由數據組成的集合。數倉:即數據倉庫,英文名稱為 Data Warehouse,可簡寫為 DW 或 DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導
83、業務流程改進、監視時間、成本、質量以及控制。結構化數據:是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理。非結構化數據:數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻 / 視頻信息等等。ETL(Extract-Transform-Load ):用來描述將數據從來源端經過抽?。╡xtract)、轉換(transform)、加載(load)至目的端的過程。數據理解:充分理解企業業務和數據,在此基礎上定義數據要解決的業務問題,并評估其關
84、聯關系和可行性的過程。數據準備:從各種數據源處獲取原始數據,按照預期的業務需求定義數據應用的目標數據,將所有原始數據抽取、清洗、融合、轉換、處理成為預期待分析挖掘的目標數據的過程。數據開發:是以工程思維的角度將數據應用的關鍵實施過程進行演繹,是指在目標明確、數據集已整理完備的基礎上進行分析挖掘探索數據應用模式的過程。部署運營:將開發階段模型成果在業務線上部署,在生產環境中例行化,并跟蹤其運行效果的過程。業務理解:是從商業角度全面理解客戶想要達到的目標或者要解決的問題,劃定業務目標和問題范圍。數據評估:是從工程角度評估可行性,評估中需要包含數據的可獲取性、技術的可行性、業務可行性、資源評估、成本
85、分析、風險分析等。數據獲?。菏侵赣孟到y的方法, 收集和測量各種來源的信息, 以獲得完整、 準確的數據內容。數據定義:是指在獲取的數據源基礎上,按照數據應用的業務目標定義目標數據集,并設34?計數據處理流程方案的過程。數據整理:是指對數據源進行抽取、清洗、轉換等加工處理,生成目標數據集的過程。數據增強:是將標準化后的多個單來源數據,進行數據聯通,將聯通的不同數據融合在一起生成新的字段更全的數據集,或者將通過聯通后的數據交叉映射補充空缺字段內容。BI(Business Intelligence):商業智能,又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數
86、據分析以實現商業價值。數據分析:是指在一定的商業場景或模型下,采用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據挖掘:一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。AI(Artificial Intelligence):人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科,主要包括計算機實現智能的原理、制造類似于人腦智能的計算機,使計算機能實現
87、更高層次的應用。ML(Machine Learning):機器學習是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。是人工智能的核心。CDO(Chief Data Officer):是隨著企業不斷發展而誕生的一個新型的管理者。 其主要是負責根據企業的業務需求、選擇數據庫以及數據抽取、轉換和分析等工具,進行相關的數據挖掘、數據處理和分析,并且根據數據分析的結果戰略性地對企業未來的業務發展和運營提供相應的建議和意見。SaaS (Software-as-a-Service)(軟件即服務):一種通過 Internet 提供軟件的模式,用戶不用
88、再購買軟件,而改用向提供商租用基于 Web 的軟件,來管理企業經營活動,且無需對軟件進行維護,服務提供商會全權管理和維護軟件。數據源:數據的來源,是提供某種所需要數據的器件或原始媒體。一般獲取數據的渠道有內部業務系統產生 / 收集,公開網絡獲取、外部購買、合作交換等。數據質量管理:是指為了滿足信息利用的需要,對信息系統的各個信息采集點進行規范,包括建立模式化的操作規程、原始信息的校驗、錯誤信息的反饋、矯正等一系列的過程。數據孤島:數據孤島分為物理性和邏輯性兩種。物理性的數據孤島指的是,數據在不同部門相互獨立存儲,獨立維護,彼此間相互孤立,形成了物理上的孤島。邏輯性的數據孤島指的是,不同部門站在
89、自己的角度對數據進行理解和定義,使得一些相同的數據被賦予了不同的含義。分類 : 根據預先確定的系統對數據進行分類, 結果目錄用于提供易于訪問和檢索的概念框架。異常檢測:異常檢測是指利用定量的方式來描述可接受的行為特征,以區分和正常行為相違背的、非正常的行為特征來檢測入侵?!靖戒?1】術語35?回歸預測:就是把預測的相關性原則作為基礎,根據相關因素和預測目標建立模型,用模型預測目標。聚類分析:是把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集,讓在同一個子集中的成員對象都有相似的一些屬性。強化學習:又稱再勵學習、評價學習,是一種重要的機器學習方法,在智能控制機器人及分析預測等領域有許多
90、應用。強化學習系統學習的目標是動態地調整參數,以達到強化信號最大。特征工程:其本質是一項工程活動,目的是最大限度地從原始數據中提取特征以供算法和模型使用。模型訓練:將準備好的特征數據集帶入算法,進行運算訓練,并不斷調整算法參數和特征數據進行迭代,直至訓練達到預期效果,或者在現有算法和特征數據下的最優結果。模型評估:一般在進行模型訓練時,會將特征數據分為兩份或者多份,將其定義為訓練集和驗證集,在訓練集上進行模型訓練達到預期效果的情況下,使用驗證集數據進行模型的評估,從召回率和正確率等多個角度綜合評估。ground truth:指的是用于有監督訓練的訓練集分類的準確性。數據探索:對數據進行初步研究
91、,以便更好的理解它的特殊性質。數據建模:是指在準備好的數據集基礎上,基于業務要解決的問題,設定假設,特征提取,使用算法構建模型,并迭代驗證的過程。運營監控:是指在業務系統部署模型后設置業務或質量監控指標,持續監控業務運營效果。數據目錄:是指一種數據管理系統。是一種用戶可以訪問的記錄數據庫和應用程序元數據的目錄。 主題域:是聯系較為緊密的數據主題的集合。DIKW 模型(Data-Information-Knowledge-Wisdom):是一個解釋數據(Data)、信息(Information)、知識(Knowledge)和智慧(Wisdom)之間的關系的模型,這個模型描述了數據一步步轉化為信息
92、、知識、乃至智慧的方式。QCC(品管圈):是由相同、相近或互補的工作場所的人們自動自發組成數人一圈的小圈團體(又稱 QC 小組,一般 6 人左右),全體合作、集思廣益,按照一定的活動程序來解決工作現場、管理、文化等方面所發生的問題及課題。5-why 分析法:又稱“5 問法”,對一個問題點連續以 5 個“為什么”來自問,以追究其根本原因。8D:是解決問題的8條基本準則或稱8個工作步驟。 D0:征兆緊急反應措施。 D1:小組成立。D2:問題說明。D3:實施并驗證臨時措施。D4:確定并驗證根本原因。D5:選擇和驗證永久糾正措施。D6:實施永久糾正措施。D7:預防再發生。D8:小組祝賀戴明環(PDCA
93、) :PDCA 的含義是將質量管理分為四個階段,即計劃(Plan)、執行(Do)、【附錄 1】術語36?檢查(Check)、調整(Action)。GDPR:歐盟發布的一般數據保護條例(General Data Protection Regulation)。數據安全:通過技術及管理進行安全保護,保護數據不因偶然和惡意的原因遭到破壞、更改和泄露。數據安全審計:是一項控制活動,負責經常性分析、驗證、討論、建議數據安全管理相關的政策、標準和活動。數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。? 2?數據應用工程 - 成熟度模型(LPDT)借鑒了國內
94、外數據管理 / 治理、數據挖掘、數據科學等眾多模型和理論,結合 TalkingData 的數據實踐經驗,總結得出數據應用工程理論。其中借鑒了:IBM- 數據治理成熟度模型、微軟 - 團隊數據科學模型、阿里 - 大數據安全能力成熟度模型、CRISP-DM 模型、御數坊 -DCMM 模型、中國信息標準委員會各類標準材料、美國商務部的 NIST 框架等等素材。以下簡單介紹幾個主要模型的特點和內容。?IBM- ?2010 年 IBM 在IBM 數據治理統一流程中,結合 Software Engineering Institute (SEI) 在 1984 年開發的容量成熟度模型 (Capability
95、 Maturity Model, CMM),提出了 IBM 數據治理成熟度評估模型,如圖所示,主要分為 5 個等級,11 個功能模塊。1、11 個功能模塊隸屬于 4 個大組:【附錄 2】溯源與關系37?a. 成果:數據風險管理及合規性、價值創造數據風險管理及合規性:確定數據治理與風險管理關聯度,用來量化、跟蹤、避免或轉移風險等。價值創造:確定數據資產是否幫助企業創造更大價值。b. 支持條件:組織結構與意識、管理工作、策略組織結構和意識:主要用來評估企業針對數據治理是否擁有合適的數據治理委員會、數據治理工作組和全職的數據治理人員,是否建立了數據治理章程以及高級主管對數據的重視程度等。管理工作:是
96、指質量控制規程,用來管理數據以實現資產增值和風險控制等。策略:為企業如何管理數據在高級別指明方向。c. 核心規程:數據質量管理、信息生命周期管理、信息安全與隱私數據質量管理:主要指用來提高數據質量,保證數據準確性、一致性和完整性的各種方法。信息生命周期管理:主要指對結構化、半結構化以及非結構信息化全生命周期管理相關的策略、流程和分類等。信息安全與隱私:主要指保護數據資產、降低風險的各種策略、實踐和控制方法。 d. 支持規程:數據架構、分類與元數據、審計信息記錄與報告數據架構:是指系統的體系結構設計,支持向適當用戶提供和分配數據。分類與元數據:是指用于業務元數據和技術元數據以及元模型、存儲庫創建
97、通用語義定義的方法和工具。 【附錄 2】溯源與關系38?審計信息記錄與報告:是指與數據審計、內部控制、合規和監控超級用戶等有關的管理流程。2、五個等級:初始級,臨時的流程,整體環境不夠穩定;受管級,可重復流程,但可能無法針對組織中所有項目重復流程,存在基本的項目管理和流程規則,但仍有超出預期成本和時間的風險;定義級,建立了標準流程集,通過組織的標準流程集定制標準、流程描述和項目過程,以適應特定項目或組織單位;定量管理級,對流程進行定量度量和控制,所選的子流程大大提高了整體流程績效;優化級,在該級明確了組織的定量流程改進目標,并不斷優化以適應變化的業務目標。? - ?微軟提供了一種有助于團隊協作
98、和學習的敏捷的迭代式數據科學方法 -Team Data Science Process (TDSP)。Team Data Science Process (TDSP) 提供了用于構建數據科學項目開發的生命周期。生命周期概述了執行項目時,其從開始到結束所遵循的步驟。該生命周期概述了項目通常執行項目時主要遵循的幾個階段:了解業務、數據采集和理解、建模、部署、客戶驗收。? - ?阿里巴巴 - 大數據安全能力成熟度模型(Data Security Maturity Model, DSMM):2016 年阿里巴巴基于組織數據的全生命周期( 數據產生、 數據存儲、 數據使用、 數據傳輸、 數據共享、數據銷
99、毀 ),從組織和人員、流程和操作以及技術和工具三個能力維度,針對組織的結構化數據的數據安全過程管理,提出規范性的大數據安全能力成熟度模型?!靖戒?2】溯源與關系39?阿里 - 大數據安全能力成熟度模型數據安全能力成熟度等級?CRISP-DM ?CRISP-DM 將數據挖掘過程分為六個主要階段。階段的順序并不嚴格,總是需要在不同階段之間來回移動。流程圖中的箭頭表示階段之間最重要且頻繁的依賴關系。圖中的外圈表示數據挖掘本身的循環性質。數據挖掘過程在解決方案部署后繼續進行。在這個過程中吸取的經驗教訓可能會引發新的、往往更加重點突出的業務問題,隨后的數據挖掘過程將受益于以前的經驗。并描述了各階段的一般
100、任務(粗體)和其輸出(斜體)?!靖戒?2】溯源與關系40? -DCMM ?2017 年御數坊借鑒國內外成熟度相關理論,結合數據生命周期管理各個階段的特征,提出了數據管理能力成熟度模型(Data Management Capability Maturity Model, DCMM), 包含了 8 個能力域,對應的 29 個能力項,并對其評價劃分為 5 個等級。數據管理能力成熟度模型是通過一系列的方法、關鍵指標和問卷來評價某個對象的數據管理現狀,從而幫助其查明問題、找到差距、指出方向,并且提供實施建議。?NIST- ?2015 年,NBD-PWG 參考架構小組開發了一個獨立于供應商、技術方案和基礎
101、結構的大數據架構的概念模型。這個稱作 NBDRA 的概念模型如圖所示,它中立于供應商,展示了一個由相互關聯的接口 / 服務相連接的功能組件組成的獨立于技術和基礎設施的大數據系統,為大數據標準化提供基本參考點,為大數據系統的基本概念和原理提供了一個總體框架,為各種利益相關者提供一種交流大數據技術的通用語言, 鼓勵大數據實踐者遵守通用標準、規范和模式?!靖戒?2】溯源與關系41?NBDRA 圍繞兩大價值鏈的兩個軸線展開:信息價值鏈(水平軸)和 IT 價值鏈(垂直軸)。信息價值鏈的核心價值通過數據收集、數據準備 / 集成、數據分析、數據可視化及訪問等應用產生。 IT價值鏈的核心價值由提供網絡、 基礎
102、設施、 平臺、 應用工具和其他 IT 服務產生,這為大數據處理應用程序提供了托管和操作的支持。大數據應用程序提供商組件位于兩個價值鏈的交叉點,這意味著數據分析及其實現在這兩個價值鏈中都處于重要地位。五個主要的架構模塊代表在每個大數據系統中存在的不同技術角色:系統協調者:定義和集成所需的數據應用活動到垂直操作系統中來數據提供者:將數據和信息引入到大數據系統中大數據應用提供者:執行一個生命周期 , 以滿足安全性和隱私需求,也包括系統協調者定義的需求大數據框架提供者:建立一個計算結構,在其中執行某些應用程序轉換,同時保護隱私和數據的完整性數據消費者:包括最終用戶或其他系統利用大數據應用提供者的結果安
103、全和隱私問題會影響 NBDRA 中的所有組件。管理的作用是總體控制系統的執行,部署和維護?!靖戒?2】溯源與關系42? 3?1 DAMA InternationalD,AMA 數據管理知識體系指南,北京:清華大學出版社,20172 Danette McGilveray,數據質量工程實踐,北京:電子工業出版社,20103 車品覺,數據的本質,北京:北京聯合出版公司,20174 CRISP-DM 聯盟(www.Crisp-DM.org),跨行業數據挖掘標準過程 -1.0 版本 (CRISP-DM 1.0),20055 桑尼爾 索雷斯,大數據治理,北京:清華大學出版社,2015 6 阿里巴巴數據技術
104、與產品部,大數據之路:阿里巴巴大數據實踐,電子工業出版社,20177 scar Marbn, Gonzalo Mariscal, Javier Segovia. A Data Mining & Knowledge Discovery Process Model. Universidad Europea de Madrid Spain, 20098 Microsoft Azure, 什么是團隊數據科學過程,https:/ 9 NIST 大數據工作組(NBD-PWG),大數據定義,https:/bigdatawg.nist.gov/,201710 IBM, 大數據治理統一流程參考模型,https:
105、/ IBM, 大數據治理,https:/ 全國信息安全標準化技術委員會,信息安全技術 個人信息安全規范(征求意見稿),https:/ 全國信息安全標準化技術委員會,信息安全技術 個人信息去標識化指南(征求意見稿),https:/ 全國信息安全標準化技術委員會,信息安全技術 數據出境安全評估指南指南(征求意見稿),https:/ 張群、吳東亞、趙菁華,大數據標準體系,中國電子技術標準化研究院 http:/ 16 崔曉波 , https:/ 服務過很多金融和互聯網客戶,金融企業利用大數據的話,一般要經過“四化”。17 托雷,從數據來源、數據生態、數據技術、數加平臺等方面,漫談阿里大數據http:/ TOP 50 bigdata platforms and bigdata analytics softwarehttps:/ 3】參考文獻數據應用工程 成熟度模型Data Application Engineering Maturity Model