您的當前位置: 首頁 > 新聞中心 > 行業知識 > 數據治理為什么很重要?方法有哪些?

數據治理為什么很重要?方法有哪些?

1.數據治理的定義

在大數據時代背景下, 治理理論相對完善,在當前形勢下的連續取得成就的現狀來看,伴隨著數據治理的理念和逐步推動的信息技術發展,數據治理概念也已經被公眾所接受。

數據治理是數據資源及其應用過程中相關管控活動、績效和風險管理的集合,是將數據作為治理對象,從元數據管理開始,進行數據標準、數據安全建設,逐步擴展到流程建設、組織保障,最終形成全生態體系,為國家或組織發展提供基礎性和戰略性資源。

數據治理

2.數據治理為什么很重要

(1)數據質量層次不齊

“數據資產化”的概念已經被大多數人理解和接受。不論是企業、政府、校園還是其他組織機構,對于數據資產的管理越來越重視。然而,數據并不等于資產,也就是說不是所有數據都是數據資產,數據中也有垃圾數據。需要治理的是能夠創造價值的數據資產,而不是全部數據。

(2)數據交換和共享困難

信息化建設初期缺乏整體的信息化規劃,系統建設大多都是以業務部門驅動的單體架構系統或套裝軟件,數據分散在這些架構不統一、開發語言不一致、數據庫多樣化的系統中,甚至還有大量的數據存放在員工的個人電腦中,導致在企業內部形成了一個個的“信息孤島”。這些“孤島”之間缺乏有效的連接通道,數據不能互聯互通,不能按照用戶的指令進行有意義的交流,數據的價值不能充分發揮。只有聯通數據,消除這些“信息孤島”,才能實現數據驅動業務、數據驅動管理,才能真正釋放數據價值。

(3)缺乏有效的管理機制

許多企業或學校都認識到了數據的重要性,并嘗試通過生產系統的業務流來控制數據流,但由于缺乏有效的管理機制和某些人為的因素,在數據流轉過程中,存在數據維護錯誤、數據重復、數據不一致、數據不完整的情況,導致了產生了大量的垃圾數據。數據產權不明確,管理職責混亂,管理和使用流程不清晰,是造成數據質量問題的重要因素。

(4)存在數據安全隱患

2018年3月份的Facebook5000萬用戶信息被泄露和濫用的事件,受該事件影響,Facebook股價當日大跌7%,市值縮水360多億美元,而盜用數據的劍橋分析這家公司也于同年5月停止運營,并申請破產。這種數據安全事件,在我國發生頻率更多,2011年,黑客在網上公開了CSDN的用戶數據庫,高達600多萬個明文的注冊郵箱賬號和密碼遭到曝光和外泄;2016年,順豐員工盜取大量客戶信息被送上法庭;2017年,京東員工盜取用戶個人信息50億條,并通過各種方式在網絡黑市販賣。近年來,隨著大數據的發展,諸如此類的數據安全事件多不勝數。數據資產管理上,正在由傳統分散式的人工管理向計算機集中化管理方向發展,數據的安全問題愈來愈受到人們的關注。

3.數據治理的主要方法

(1)數據資源梳理:數據治理的第一個步驟是從業務的視角厘清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以數據庫、網頁、文件和API接口形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。

(2)數據采集清洗:通過可視化的ETL工具(例如阿里的DataX,PentahoDataIntegration)將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數據集中存儲起來。

(3)基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據?;A數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基于業務主題數據綜合分析而得的分析結果數據,例如數字化校園管理中的教師生分析、學科人數分布、校況分析等。那么基礎庫和主題庫的建設就是在對業務理解的基礎上,基于易存儲、易管理、易使用的原則抽象數據存儲結構,說白了,就是基于一定的原則設計數據庫表結構,然后再根據數據資源清單設計數據采集清洗流程,將整潔干凈的數據存儲到數據庫或數據倉庫中。

(4)元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便于業務人員也能夠理解數據庫中的數據字段含義,并且,元數據是后面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。

(5)血緣追蹤:數據被業務場景使用時,發現數據錯誤,需要快速定位數據來源,修復數據錯誤。那么數據治理需要知道業務團隊的數據來自于哪個核心庫,核心庫的數據又來自于哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。數據資源目錄:數據資源目錄一般應用于數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基于業務場景和行業規范而創建,同時依托于元數據和基礎庫主題而實現自動化的數據申請和使用。

(6)質量管理:數據價值的成功發掘必須依托于高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴于對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如Hadoop,MapReduce,HBase等。商業智能(BI):數據治理的目的是使用,對于一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那么可以使用BI類的產品快速獲取需要的數據,并分析形成報表。

(7)數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和API接口三種共享方式,庫表共享比較直接粗暴,文件共享方式通過ETL工具做一個反向的數據交換也就可以實現。我們比較推薦的是API接口共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過API接口的形式進行了轉移。API接口共享可以使用API網關實現,常見的功能是自動化的接口生成、申請審核、限流、限并發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等。

以上就是有關于數據治理的定義、重要性及主要方法的全面梳理,如果還想了解更多數據治理的相關內容,敬請關注三個皮匠報告網站。

推薦閱讀

什么是邊緣數據中心?核心技術分析

什么是云原生數據湖?怎么樣?簡單介紹

《2022六大行數據治理現狀盤點:治理架構、數據標準與數據平臺(10頁).pdf》

《華為:數據湖治理中心-數據治理方法論(2021)(22頁).pdf》

本文由作者AG發布,版權歸原作者所有,禁止轉載。本文僅代表作者個人觀點,與本網無關。本文文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

相關報告

碳會計財務伙伴關系(PCAF):金融行業的全球溫室氣體會計及報告準則(英文版)(134頁).pdf
碳會計財務伙伴關系(PCAF):金融行業的全球溫室氣體會計及報告準則(英文版)(134頁).pdf

碳會計金融合作伙伴關系是一個行業主導的倡議。由荷蘭金融機構于2015年創建,PCAF于2018年擴展到北美,并于2019年擴展到全球。PCAF通過溫室氣體核算幫助金融機構評估和披露其貸款和投資的溫室氣體排放量。溫室氣體核算使金融機構能夠按照金融核算期在固定時間點披露這些排放量。衡量資助的排放量使金融機構能夠

【研報】金融行業專題:中國的老百姓“長什么樣“?高凈值客戶有什么特征?-210315(26頁).pdf
【研報】金融行業專題:中國的老百姓“長什么樣“?高凈值客戶有什么特征?-210315(26頁).pdf

總量上看:我國居民負債約90%為貸款(根據社科院數據,剩余10%為P2P、民間借貸、個體戶應付賬款等); 2020年末我國居民部門總貸款規模62.3萬億,人均貸款4.5萬元,過去5年年均復合增速18.5%,增速較快; 結構上看:A、長期消費貸(住房按揭)共計40.8萬億,占比64.6%,“房住不炒”基調下,

【研報】金融行業中國養老金三支柱行業深度報告:商業養老未來是星辰大海-210317(37頁).pdf
【研報】金融行業中國養老金三支柱行業深度報告:商業養老未來是星辰大海-210317(37頁).pdf

2020 年四季度以來,政府部門多次提出加快建設養老金第三支柱,持續向市場釋 放鼓勵第三支柱發展的政策信號;從實踐來看,繼 2018 年 5 月稅延商業養老保 險試點落地后,2021 年 3 月專屬商業養老保險試點落地,第三支柱實踐深化。鼓勵第三支柱發展的政策信號近期密集釋放從此前政策來看,2007 年,原

【研報】金融行業:基金投顧業務發展研究-210331(20頁).pdf
【研報】金融行業:基金投顧業務發展研究-210331(20頁).pdf

美國成功投顧業務發展模式分析美國的基金投顧業務起步較早。1940 年,美國頒布了投資顧問法,以規范管理投資顧問開展投資咨詢相關活動過程中的各項行為。經過 70 余年的發展,美國的基金投顧市場極度成熟。根據 ICI2020 年發布的美國投資公司發展報告,在通過 401k、403b、IRA 等退休計劃之外渠道投

【研報】金融行業2021年信托市場年度報告:監管“從嚴”基調不變轉型發展攻堅期-210610(20頁).pdf
【研報】金融行業2021年信托市場年度報告:監管“從嚴”基調不變轉型發展攻堅期-210610(20頁).pdf

3.2. 金融類信托2020 年,新發行的集合信托中投向金融領域的規模為 10942 億元,同比增加 58.9%;規模占比36.1%,較2019 年上升10.3 個百分點。金融類信托表現異常突出。這其中主要是靠標品信托的規模的增長來拉動的。標品信托是指信托公司依據信托文件的約定,將信托資金直接或間接投資于公

【研報】金融行業碳中和背景下的金融體系發展專題報告:全面實現雙碳目標綠色金融大有可為-210614(52頁).pdf
【研報】金融行業碳中和背景下的金融體系發展專題報告:全面實現雙碳目標綠色金融大有可為-210614(52頁).pdf

碳融資:主要集中于綠色信貸和綠色債券綠色信貸增速快于貸款總額,投放力度持續加大綠色信貸是我國綠色金融體系重要的組成部分。目前我國銀行業綠色信貸主要產品主要由三大類型組成,分別為:面向綠色項目的擔保類信貸產品,排碳排污額度相關的金融衍生品型信貸產品以及未來收益權型信貸產品。其中,目前市場主要產品為面向綠色項目

巨量算數:2021金融行業生態及用戶洞察報告(42頁).pdf
巨量算數:2021金融行業生態及用戶洞察報告(42頁).pdf

超兩成財經興趣用戶已購險,主要險種滲透率均有提升重疾、財險、教育為滲透率提升最快險種,用戶避險意識進一步增強30歲以上、有孩子的用戶保險意識激增女性、高收入用戶風險防范意識強

2021年金融行業基金投顧業務發展分析報告(17頁).pdf
2021年金融行業基金投顧業務發展分析報告(17頁).pdf

美國成功投顧業務發展模式分析美國的基金投顧業務起步較早。1940 年,美國頒布了投資顧問法,以規范管理投資顧問開展投資咨詢相關活動過程中的各項行為。經過 70 余年的發展,美國的基金投顧市場極度成熟。根據 ICI2020 年發布的美國投資公司發展報告,在通過 401k、403b、IRA 等退休計劃之外渠道投

客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站