《阿里云:全域數據“觀”(2023)(65頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:全域數據“觀”(2023)(65頁).pdf(65頁珍藏版)》請在三個皮匠報告上搜索。
1、封面頁(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)作者簡介 作者:劉偉光 阿里巴巴集團副總裁、阿里云智能新金融&互聯網事業部總經理,畢業于清華大學電子工程系。加入阿里云之前,在螞蟻金服負責金融科技的商業推廣和生態建設工作以及螞蟻區塊鏈的商業拓展工作;在企業軟件市場深耕多年,曾經創建 Pivotal 軟件大中華區分公司,開創了企業級大數據以及企業級云計算 PaaS 平臺的市場先河。在創建 Pivotal 中國軟件公司之前,劉偉光曾經擔任 EMC 大中國區數據計算事業部總經理,并在甲骨文中國公司工作多年,曾經創建了 Exadata 大中國區的產品事業部并擔任事業部總監
2、。專家力薦 過去幾年,阿里云、瓴羊等平臺和企業,致力于將阿里十數年沉淀的數字化經驗,幫助企業尤其是金融機構,通過數據智能落地,探索業務的不斷增長。今天,這些經驗和思考集結成冊,相信無論對金融行業,還是每一個力求數字化的企業,都是極好的經驗交流的機會。信息(數據)只有流動起來,才能發揮出最大的價值。數據的未來,就是我們的未來。阿里巴巴集團副總裁、瓴羊 CEO 朋新宇 在過去的二十年,我們看到一個越來越明顯的趨勢,數據要素正在轉化成為金融企業新的“資產”,在風險防范、客戶服務、產品推廣等領域發揮著不可或缺的作用,助推金融企業的業務發展。但是數據并不會自發地轉化為資產,業界的成功經驗表明,這背后需要
3、建設一套完整的數據體系,并且需要有體系化的建設方法,否則企業會深受數據質量差、底數不清、數據更新不及時、數據口徑不一致等問題的困擾。該文基于阿里云多年服務金融行業的成功經驗,針對金融企業在數據領域可能遭遇的挑戰,從多個維度闡述了數據體系的建設,并且總結了一套完整的數據體系建設方法,對于金融企業而言有很強的借鑒意義。阿里云智能副總裁、行業解決方案研發部總經理 曾震宇 一個看似穩定的行業會在什么時候迎來重大的業態改變?可能是新的生產要素出現以及配合新要素的生產工具也出現新發展的時候,這個轉變恰好剛剛開始。數據作為新要素獲得社會級的支持是近兩年的事情,從數據要素統一大市場到數據資產記賬規則再到“數據
4、二十條”的發布,我們看到的是國家為新要素發展做出的基礎性改變,但企業是否已經真的意識到了新要素的重要性?是否為此準備好了新工具?是否為新工具調適了新組織?可能大部分企業尚未做好這樣的準備,也在思考要不要做、要怎么做。阿里云既經歷了阿里自身的新要素建設,也觀察了多個行業的新要素探索,本次阿里云將經驗與思考合盤托出,是一次對數據要素發展的“盤評治享”,相信企業會在此找到同行者。北京天潤聚糧咨詢執行董事總經理、中國計算機學會軟件工程專委會委員 付曉巖 目錄 引言.5 一、金融行業數據領域面臨的困擾.7 1.數據平臺逐漸“掉隊”.7 2.數據治理面臨“熵增”困境.8 3.數據資產面臨“兵多、精兵少”.
5、9 4.數據服務“效率低”.9 二、金融數據發展瓶頸的破題之術.11 1.轉換頂層設計思維.11 2.錨定業務價值目標.13 3.破除數據供需壁壘.14 4.嚴控數據高質提效.15 5.融合算力數智驅動.16 6.強化數字人才能力.17 三、金融數據能力建設的核心觀點.19 1.以全局視角的驅動力.19 2.以分層視角的核心力.23 3.以業務視角的價值鏈.48 四、金融數據能力建設的成功要素.57 1.關鍵能力和價值方向.57 2.關鍵路徑和成功要素.58 尾聲.64 引言 5 引言 “大風起于青萍之末,浪成于微瀾之間?!庇眠@句話來形容中國金融行業數據領域發展的歷程頗為恰當。從 2003 年
6、銀行的數據倉庫開始建設到今天整整 20 年過去了,相比其他行業,金融行業是真正完整地經歷了數據倉庫建設和大數據建設的兩個十年周期;同時經歷了從 MPP 技術到 Hadoop 大數據開源技術,再到存儲計算分離的云原生數據處理技術;再到 AI 數據智能化的時代;從持續了 20 年的數據治理到今天全域數據資產管理的數據中臺化架構,關于金融行業的數據計算分析和智能化運營的探索從來沒有停止過。但是如何在原有的數據基礎和平臺技術積累上完成全局視角的數據能力提升和技術體系的迭代,這是今天金融行業共同關注的話題,也是金融機構進入數字化智能時代的重要標志。阿里云歷時五年助力阿里巴巴集團完成了全域數據中臺的建設,
7、同時也服務了眾多不同類型的金融行業客戶在數據平臺的建設和數據治理;數據智能化方面,在接觸了近千家金融機構了解實際業務需求和現狀后,激發了我們創造本文的熱情與初衷,期望用更全面、更立體的視角去定義數據的技術和業務價值;站在全局視角去剖析數據生命周期的管理;站在云原生技術的視角去審視數據計算能力的未來布局。同時全文解析了從底層數據計算到數據資產化的完整建設方法和路徑,分析了當前數據平臺如何從分而治之的建設模式和技術體系逐步演進到全局的數據智能化中臺。關于數據領域研究,不僅僅是單純的技術命題,我們也討論了金融機構內部數據運營模式以及數據人才建設體系這些當前重要話題。期待本文能夠為金融機構不同部門在治
8、理/應用/運營/計算/決策等諸多數據方面的工作,帶來有價值的新發現,帶來更多關于數據思想的碰撞。本文共分為四個章節,全面圍繞當前金融機構在經歷近 20 年的數據建設中,依然面臨的效率、質量、服務、人才等方面問題,核心從業務對數據的痛點入手,通過能力體系建設方法,助力金融機構掌握數據能力體系的建設目標、方法和成功要素,從而推動金融機構逐步實現數據驅動業務發展的目標:第一章從金融行業數據領域面臨的問題出發,重點描述當前金融機構在經歷近20年的數據領域建設后,仍然面臨數據底數摸不清、數據治理差、數據服務低效、數據資源不足和響應慢的問題,而這些都是我們面對不同金融機構、不同層級的客戶提 引言 6 出的
9、痛點和困惑。我們綜合了相關問題,通過部分示例列舉的方式給出了相關的判斷。第二章結合第一章分析的數據體系、數據質量、數據資產、數據服務等領域面臨的困惑,提出采用全局思維,以業務價值為終極目標,分析數據領域問題,再進行分層分步推進的總體策略。同時,為了便于讀者理解,引出數據建設的 6 大斷言,涵蓋了數據能力體系頂層設計、業務價值、數據服務、數據治理、數據平臺、數字人才相關領域的建設方向,希望為讀者帶來啟發和幫助。第三章從建設方法入手,給出金融行業未來數據能力建設的核心觀點,首先從全局視角規劃企業數據能力體系的“1”張數據戰略藍圖、“3+1”數據體系以及“6”大核心能力,并對其中的數據體系提出了算力
10、驅動、數據驅動和價值驅動的 3 大驅動力;其次用分層思維,深化“3+1”數據體系設計,提出了數字基建 5 大法則、數字資產 8 項能力、數字應用 3 個要素、運營保障 1 套機制的核心能力;最后站在金融機構的“前中后臺”不同部門的視角,以獲客營銷、產品定價、風險審計、數據治理、技術架構等 5 個領域為例,分析數據體系為企業數字化經營帶來的價值。第四章結合第三章的數據體系建設方法,本章以目標為導向,開篇提出金融行業數據體系建設的 5 個價值方向,目的是為了讓讀者了解未來建設數據體系的成效目標。然后圍繞數據體系化建設、數據模型合理選擇、數倉建設模式、數據服務協同、數據資產運營、數據確信機制等方面給
11、出相應的策略分析,幫助金融機構結合自身現狀和現有成果進行選擇,滿足自身發展需求的建設路徑和方法,或者是整體重構,也或者是升級優化。此外也建議金融機構在實施路徑上,既要有戰略層面的全局設計,也要能小步快跑,滿足現階段業務發展需求。合理的選擇實施策略和制定短中長期建設目標,將成功助力金融機構數字化轉型。一、金融行業數據領域面臨的困擾 7 一、金融行業數據領域面臨的困擾 真正的競爭力,是把所有人都可能擁有的東西變成財富,讓沙子變成硅,這才是核心。王堅在線 數據是戰略資源。如何高效獲取更多有用有價值的數據?如何讓數據賦能業務創新?如何保持指標口徑一致,讓監管數據更加準確?如何讓更多的業務人員懂數據,又
12、如何讓更多的普通人會使用數據?這些問題都是當前各金融機構在數據領域建設中普遍面臨的困擾。1.數據平臺逐漸“掉隊”“哪里的數字化程度高,用戶就往哪里遷徙?!睌底只潭纫粋€重要標志就是,“數據與業務的關系”是否能從“跟隨”(事后分析)、走到“伴隨”(實時分析)、再走到“引領”(智能服務)。數據平臺能力越強大,將會越快步入數字化程度更高的階段。金融數據是大數據商業應用最早的數據源。早在 1996 年摩根大通銀行就聘請數學家丹尼爾利用遞歸決策樹統計方法,對抵押貸款用戶進行統計分析,幫助銀行找到可能提前還款或者未來不會還款的客戶。國內金融機構以國有大行為代表,從建設數據倉庫至今已有近20年的時間,大數據
13、技術從商業產品到開源產品“百花齊放”,一、金融行業數據領域面臨的困擾 8 數據大集中推動了企業級數據平臺的形成與發展,在發展的過程中,金融機構形成了一套相對完整的數據技術體系和管理體系,支撐了以監管報送、統計分析、業務決策為代表的應用場景,取得了一定的成果。但同時,業務發展對數據井噴式的需求,金融服務粒度正在從“大”到“小”到“微”,數據平臺對業務起到“實時精準制導”作用,原有的數據架構逐漸顯得“力不從心”。數據需求和海量數據的激增使數據平臺資源規模的爆發式增加,大型金融機構節點規模達到數百甚至上千臺,大規模集群的穩定性與數據容災等問題凸顯;面對異構數據的集成,差異化的數據格式分析,如何滿足多
14、樣化應用的數據服務需求存在挑戰。如,海量數據查詢難以高質高效;多源數據統一存儲管理,需要非常簡單的融合分析能力;源系統數據變更頻繁,需要自動識別和管理;全量建倉或者直連分析對源庫壓力較大,卸載壓力規避故障,建倉延時長,需要低延時入湖;海量數據在事務庫或者傳統數倉中存在成本高,面臨降本壓力等等。過去 5 年金融機構的數據總量增長了 3 倍多,實時數據、觸點數據、過程數據、流數據、音視頻(非結構化)數據等數據價值不斷被挖掘,未來業務對數據規模、數據類型、數據應用需求會更進一步放大,現有的數據架構開始出現“掉隊”情況。2.數據治理面臨“熵增”困境 數據天然面臨著“熵增”(模型、指標、數據量)問題,需
15、要一個“都江堰工程”,持續治理、持續做減法。金融行業是最早具有數據管理意識、最早開始建設數據治理體系的行業。雖然經過十幾年數據標準建設,但金融機構中的數據仍然很難實現統一和規范,管理決策中數據普遍存在“同義不同名、同名不同義”的局面。例如,銀行在監管報送和內部管理兩個場景都使用“涉農貸款”這一指標,但是因為口徑不同計算的結果肯定不同。監管報送中“涉農貸款”的口徑只統計“涉及用于農業、林、牧、副、漁業所屬活動或支農活動的貸款”,而內部管理的指標還要包含新農村建設、集體經濟發展、民俗旅游等維度,因此出現“同名不同口徑”的現象。這類同名指標雖有標準定義,但計算加工過程因沒有管控,導致不同部門應用指標
16、時會產生差錯。造成數據標準“只有定義、沒有落地”的一個非常核心的問題在于,數據標準的“定義”和“實現”實際是兩層皮,標準一旦定義完成,就變成“墻上的畫”,沒有切實鑲嵌和固化到日常的數據生產、加工處理和應用的環節當中去,沒能建立全鏈路數據治理能力,有效地從數據生產源頭加以強制約束,確保數據質量。一、金融行業數據領域面臨的困擾 9 據監管公布數據:2021 年度,人民銀行及銀保監會向各類金融機構共開出“數據相關”的罰單超過 1000 張,其中與數據質量相關罰單超過 800 張,占罰單總量的近80%,位列處罰事由榜首。所有超千萬大額罰單均與數據質量相關,數據質量直接影響了金融機構的生存質量,如何提高
17、數據質量,已成為金融機構亟待解決的問題。3.數據資產面臨“兵多、精兵少”“數據指標數據資產”。企業往往面臨著“指標多、資產少”的困境,報表很多,但能夠服務業務,且可復制、可重用的數據資產(精兵)卻很少。經過多年的信息化系統建設,一個中等規模的金融企業往往擁有數百個應用系統、多套數據平臺、業務數據表數十萬張、業務報表少則幾百張、多則數千張。面對這樣的“海量信息”,業務和技術人員都會存在一種“坐在金山上討飯吃”而望數興嘆的感覺。數據部門的數據分析師“找數難”:例如數據分析師建立分析模型時會困擾“沒人能告訴我全貌數據都包含什么內容,我怎么能知道分析模型需要的數據咱們行是不是都有?!睒I務部門的數據用戶
18、“查數難”:“這個報表數據的內容看起來不對,我懷疑加工過程中有計算邏輯錯誤,可是科技也不清楚數據的加工鏈路,不知道錯誤出現在哪個環節?!笨萍疾块T的技術人員“用數難”:例如數據研發人員經常會遇到的困境“在五六個系統當中都有類似的客戶信息數據,我用哪份數據去加工報表更合適?”事實上,這些問題的產生根源都在于我們沒有對企業的“數據家底”進行全面的梳理和盤點,不同“數據用戶”缺乏有效的工具和手段對企業的數據資產進行全面的了解。4.數據服務“效率低”拿破侖說“真理只在大炮射程之內”。同樣,“數據價值也只在數據射程(數據服務)之內”。一、金融行業數據領域面臨的困擾 10“數據服務響應慢”是大部分金融機構用
19、數部門面臨的數據供給能力不足、效率低下的問題。在傳統的數據服務模式中,業務部門與數據部門陷入到了“提需求提數未達預期再提需求再提數”無限循環的“莫比烏斯怪圈”中。這種工作模式中存在兩個方面的關鍵問題:一方面是業務人員“懂業務不懂數據”,數據人員“懂數據不懂業務”,互相理解不夠,傳遞層次越多、信息衰減越大。另一方面是數據需求往往靠技術團隊逐個響應和滿足(技術團隊成為瓶頸),缺少統一的自助數據服務、共性數據需求提煉、差異化需求優先級管理等。目前,很多金融機構已經意識到這一點,開始提出“數據產品”、“數據門戶”、“數據工廠”的理念來建設“自助化、可配置、可共享”的數據服務。二、金融數據發展瓶頸的破題
20、之術 11 二、金融數據發展瓶頸的破題之術 金融機構當前所面臨的問題和挑戰,不再是建設大數據的初期從無到有的過程,經過多年的建設,不論從技術、數據、應用各個維度或多或少已經沉淀了一定的數據基礎,現階段已經到了優化數據體系,推動數業融合,釋放數據價值的階段。下面我們分別從頂層設計、業務價值、數據服務、數據治理、數據平臺、數字人才6 個維度提出數據建設思路和斷言,希望能夠給大家帶來一些啟發和幫助。1.轉換頂層設計思維 “未來商業的 DNA 有兩個螺旋:一個是網絡協作,另一個是數據智能?!敝悄苌虡I 斷言 1:數據體系建設不再只是“科技的事”,“數據戰略就是企業戰略”。需要一把手站在“上帝視角”,有決
21、心打破一定的傳統業務慣性,推動業務、技術、組織來形成的企業級能力。目前數據架構正在從“大數據”走向“快數據”,未來的金融機構都是“數據驅動型”企業,企業級數據架構需要數據覆蓋更全,數據質量更高,數據流通更快,數據應用更準,加快數據與業務的深度融合。二、金融數據發展瓶頸的破題之術 12 1)從業務視角 數據應用一定是業務場景與數據技術緊密融合的產物,如何讓數據技術快速賦能業務,又如何縮短從業務提出數據需求到變現落地的時間窗口?是必須經過一個場景一個場景地打磨嗎?顯然不是??茖W合理的方案是通過一個數據歸集平臺和一套高效的數據工具,讓每個業務人員都能自主操作、自行分析,推動業務人員既是場景問題的提出
22、者、也是場景方案的創作者。2)從技術視角 金融機構普遍在數據領域已經有了沉淀積累,但需要結合自身現狀,形成一套覆蓋數據采、建、管、用各個領域的“數據藍圖”。對數據采集而言,核心能力要做到全域數據實時采集,而“建”數據的核心能力是敏捷構建數據基礎、數據資產和數據連接的能力,“管”數據的核心是實現全鏈路數據治理能力,“用”數據則是強調業務場景驅動的高效數據服務能力。此外,隨著金融機構數據規模的激增,除了數據融通之外,平臺的計算效率、存儲成本、數據容災、資源可擴展、可運維等方面都需要進行打造。3)從組織視角 打破部門墻,讓數據團隊走向業務團隊,并建立跨部門協同機制,這是數據創造價值的一大利器。為此,
23、很多金融機構提出了打破部門墻,培養綜合人才的做法。有條件的金融機構紛紛成立了數據管理部門,統領全公司數據能力建設;也有些金融機構成立固定數據領域業務需求團隊,對接業務部門,建立業務、科技的數據橋梁,并由此不斷沉淀共性的數據需求。在這樣的組織形式下,數據部門與業務部門融為一體,建立專職人員組成協同團隊,相互了解對方的工作內容和專業術語,數據應用的順暢度大幅提升,業務部門的抱怨少了,數據部門的價值也就得到了體現。由此可見,數據領域的建設不是單純的技術建設,而是需要將技術、業務、數據以及組織與人才有機地結合起來,形成一個能力閉環,持續地沉淀數據能力并不斷釋放數據價值。二、金融數據發展瓶頸的破題之術
24、13 2.錨定業務價值目標 “數據主義認為,萬物皆算法,任何現象或實體的價值就在于其背后的數據與算法,企業運作就是一套數據+算法”。未來簡史 斷言 2:未來數字企業的核心競爭力在于,能否將業務的最佳實踐“固化”為數據產品(數據和算法),形成一套業務實踐與數據體系之間“閉環反饋”的“數字化神經系統”。數據體系建設的成功與否,最終是以業務部門創造的業務價值來衡量和檢驗效果。數據體系一定要圍繞著業務應用,以解決業務部門在不同場景中的痛點為根本目標。因此,引導業務部門積極主動參與建設,從各個業務場景出發設計數據應用方案是數據體系創造業務價值的關鍵因素。以往金融機構的經營運轉,特別是影響重大的業務運作極
25、其依賴于人的知識與經驗。有大量碎片化、難以結構化存儲的知識是以經驗的形式留存在一線員工的頭腦中,這也造成了金融業務的開展很依賴于人,一些工作環節雖然無數次重復但卻無法快速復制,一些關鍵決策點需要人的參與,無法保證前后多次決策的一致性。例如:銀行在進行貸前風險調查中,通常依賴于有經驗的信貸經理實地調查。這些信貸經理常年與客戶打交道,總結出了一套頗有成效的經驗打法,但經驗豐富的信貸經理畢竟是少數,大量年輕的信貸員要在老員工的傳幫帶下經過多年的錘煉才能足夠勝任。像這樣沉淀在信貸經理頭腦中的業務經驗,如果可以拆解到多種業務場景中,每個場景又包含了可量化的指標、可規則化的邏輯判斷,以及可歸納總結的決策環
26、節,最終再通過數字產品化的方法,為信貸經理提供直觀的數據呈現和關鍵的決策點,信貸調查效率就能大大提升。同樣信貸業務,銀行在貸后風險識別中,過去是由信貸經理上門查看企業生產運轉情況,分析企業經營流水。有經驗的信貸經理能從企業的工廠物料堆放,經常往來的供應商清單中看出風險痕跡。而現在,有些技術領先的銀行已經在嘗試通過 AI 視覺技術對企業生產現場照片和視頻進行識別分析,采用 NLP 技術對企業在銀行的流水記錄進行分析,從而將信貸調查進行數字化、結構化,通過新技術嘗試風險識別的智能化,從而輔助信貸人員提升風險判斷能力。二、金融數據發展瓶頸的破題之術 14 數據的最大價值是通過對歷史業務的挖掘分析,將
27、以人為驅動的業務經驗總結出來,形成以數據驅動的業務動作,用量化結果輔助業務決策。把人員從重復勞動中解放,讓有經驗的人員集中精力于業務決策。3.破除數據供需壁壘 “宇宙中最反直覺的真理是,你給別人的越多,你得到的也越多?!睌嘌?3:數據與業務是相互啟發的,數據給業務的啟發越多,業務對數據的需求越多?!笆止ぬ釘怠弊鳛橐环N“低水平滿足”,將由“全民化的數據服務”所取代。如果期待業務背景的數據用戶能夠自主的把數據用起來,一定是能夠感受到數據對他們的工作帶來了幫助和便利,甚至能夠直接提升他們工作的成效。能夠讓用戶用數的門檻降下來,讓用戶用數更加方便快捷,能夠快速敏捷地形成數據產出。通過數據服務一體化平臺
28、建設,為各類數據用戶提供低門檻的一體化入口,提供瀏覽、搜推、個性化訂制、一鍵取數和智能交互等服務功能。通過數據服務一體化平臺,用戶登錄時,系統按照客戶的角色、工作內容、既往訪問行為等信息,推薦給客戶最適合使用的數據產品,用戶也可以采用主動查詢的方式來搜索數據內容,系統將綜合考慮資產使用熱度、數據源質量等信息對返回結果進行排序,使得用戶以最快的方式鎖定自己想要訪問的數據表。用戶可以通過“一鍵取數”的功能,直接訪問數據表中的部分或全部數據內容而不用按照慣有流程手動進行數據申請并等待審批處理,系統會根據用戶數據權限自動審批訪問申請。二、金融數據發展瓶頸的破題之術 15 智能化服務引擎為業務用戶提供更
29、為便利的交互方式業務人員可以嘗試以語音的方式表達自己的數據訪問需求,例如:可以問“上個月的個貸貸款總額是多少?”通過對語音和語義的識別,屏幕上會顯示個貸貸款匯總月報表,供用戶瀏覽和分析。一站式平臺的端到端方案,以可視化、零代碼的方式,實現“所想即所見,所見即所得?!弊寯祿氖褂酶咏拥貧?,真正的走進業務、賦能業務。4.嚴控數據高質提效 “不能翻來覆去做同一件事兒,卻期待能有不同的結果?!睈垡蛩固?斷言 4:“數據質量決定生存質量?!睂ξ磥淼臄底謽I務而言,數據質量的好與壞會直接反應在關鍵經營指標上(比如:壞賬率等)。數據質量將建立和食品質量管理一樣全流程管控體系,從源頭抓起,嵌入數據生產和消費加
30、工全鏈路各個環節。在數字化能力建設中,“高質量數據”是保證數據服務效能之“器”,沒有“好數據”作為基礎,無論在任何數據建設和服務的場景中,都免不了陷入“垃圾進、垃圾出”的無效工作怪圈。通常來講,一名成熟的 AI 數據工程師只有 10%-20%的時間真正花在算法編碼上,有超過 50%的工作時間,是在對數據進行處理和加工。如果數據質量低,充滿空值和錯誤的數據,就會占用 AI 工程師更多的時間在數據質量的修正和空值處理上。如果 AI 工程師不幸沒有識別出全部的錯誤數據,那么以這些數據作為輸入,算法就可能會得出錯誤的結論,誤導決策者做出錯誤的判斷,從而影響業務的發展,這個是更為可怕的后果。有時數據質量
31、的問題產生是由于一線業務人員缺乏對數據重要性的理解,在數據錄入時過于隨意,例如因為嫌棄錄入麻煩而忽略對重要信息項的填寫;有時業務人員會因為各種原因故意錄入錯誤的數據內容,例如:明明應該錄入客戶真實的手機號碼和地址信息,業務員會因為不想把自己的客戶信息透露給企業或者其他同事(這種情況在壽險公司非常普遍),就故意把自己的手機號和家庭住址填寫到客戶信息當中,這種現象嚴重制約了企業做精準的客群畫像,使得企業沒辦法精準地了解客戶,難為客戶提供最匹配、最適合的產品。二、金融數據發展瓶頸的破題之術 16 數據質量管理的破局思路在于,質量問題必須從源頭入手,并貫穿數據生命周期。數據質量的治理卡點必須要鑲嵌到數
32、據產生、獲取、加工、使用的各個流程,通過數據質量治理工具嵌入到集成、加工、使用的各個環節中,并通過統一的管控平臺進行任務分發、任務追蹤和整體監控,以此達到對數據質量優化的效能提升。5.融合算力數智驅動 “只有精準,才有未來?!敝悄苌虡I 斷言 5:“數據的下一站是智能,數據最終會走向與業務系統的數智融合”,數據消費正在由“人”變成“系統”。未來數據技術將與云原生和智能化全面融合,形成“云數智一體化”服務。由于歷史原因,大部分金融機構數據應用系統都是先于數據平臺建設,不同應用涉及的責任主體、流程、數據和系統各自獨立,這個階段應用系統主要以業務需求驅動為主,業務個性化、效率優先,建設方式也是以豎井式
33、的,應用間缺少復用及共享。數據倉庫的誕生從組織層面一定程度上解決了復用共享、標準統一的問題,重復建設、各自為政的現象也大為減少。截至目前,在處理策略、語義支持、場景支撐以及工程經驗上,數據倉庫是目前沉淀下來的企業管理數據較好的解決方案。當前,大規模數據計算和基于數據的智能決策,已經成為企業業務數據化運營的重要基礎。隨著大數據系統整體架構趨于穩定,各種引擎的發展逐漸進入收斂期,批計算、流計算、交互分析、機器學習收斂成為四個核心計算模式,變化的趨勢不斷加快。1)數據和算力保持高速增長 未來幾年對數據和計算力的需求持續旺盛。同時,海量數據涌入,單位數據的價值持續下降,拿到同樣業務效果的算力要求持續上
34、升。因此算力優化會持續成為核心課題,優化會來自于軟件本身,軟硬結合。二、金融數據發展瓶頸的破題之術 17 2)支持多模態計算和服務化 大數據計算需求場景和模態越來越多樣化,覆蓋從大規模的離線分析型計算,到交互式查詢,到實時數據處理等多種場景。另一方面,由于缺乏能夠統一支持多種計算模態的大數據系統,帶來了系統部署碎片化、數據冗余、運維成本高等挑戰,同時無形中提高了用戶使用大數據技術的門檻。未來大數據平臺會向整合統一、多種計算模態需求的方向發展,使計算系統更加透明,數據分析作為一種基礎能力更加服務化、便捷化,用戶的業務邏輯可以做到“一次編寫,多場景、多模態適用”。3)面向 AI 的大數據系統 當前
35、大數據系統的設計主要面向 BI,隨 AI 技術在深度學習上的突破,通過 ML/DL帶來更多的業務價值已逐漸被客戶認可。大數據平臺和機器學習技術的深度融合,包括數據平臺傳統組件,例如:優化器和索引,基于機器學習算法重新設計,機器學習組件更直接地嵌入大數據平臺,直接為數據用戶服務,Data Warehouse 和 ML Platform的界限越來越模糊。還有一些可能的發展方向包括硬件設計上(包括網絡、內存等)更面向 AI 框架優化,從面向表的存儲模式轉向面向多維的存儲,調度和算力分配的重新設計,數據處理充分考慮特征工程的需要,編程接口滿足大數據和 AI(以 Python 為主)的融合。4)云原生化
36、多引擎融合 云原生化解決方案將充分利用云的資源彈性、異構算力、標準化服務以及容器、自動化、微服務等云原生技術手段,通過彈性和軟硬協同優化,持續提升資源利用率,并兼容各類主流或者用戶自有的計算引擎,統一運行各類異構工作負載流程,統一管理作業生命周期,統一調度任務工作流,保證任務規模和性能,為 AI/ML 提供工程效率高、成本低、可擴展、可復制的端到端解決方案。6.強化數字人才能力 數據分析,分析的從來不是“數據”,而是分析和還原“業務”。斷言 6:未來數據團隊與業務團隊是雙向融合的,大部分業務團隊會配備“數據政委”和“數據科學家”,以提高業務方的“數據變現”能力。二、金融數據發展瓶頸的破題之術
37、18 在上一章節討論數據服務面臨響應慢的困惑中,描述了業務需求和技術實現上的差異問題,其根本的破局關鍵在于真正“打通”需求和技術的“雙向不理解”,洞悉應用場景側真正的訴求,選擇最適合的技術架構和原型方案,以數據產品的形式落地,并通過產品運營工作持續優化和迭代,從而優化開發效能,改善開發服務供給能力,在這些方面,人的因素至關重要。數據產品經理或將成為數據創造業務價值的“破局者”。1)數據產品經理是誰?數據產品經理,以“業務賦能”為第一目標,引領各部門和角色充分協作,以“數據產品”為手段和載體,最終實現數據對一線業務能力的促進和提升。數據產品經理不是簡單的需求“承接方”,而是主動打破當前的問題解決
38、思路,通過對業務的深入洞察,重構解決方案,將貫穿數據產品生命周期的始終,從需求形成階段就參與和陪伴業務用戶,從需求分析階段開始、理解業務訴求、洞察和判斷產品的應用價值、主導產品的規劃設計、推進產品開發、并在產品上線后了解用戶反饋、持續優化并推廣產品的用戶范圍。2)數據產品經理需要具備什么條件?稱職的數據產品經理是懂業務、懂數據、懂產品、懂技術的多重能力素養的人才,能夠熟悉業務流程,熟知現有數據服務情況,并能夠分析其中可能的改善點;理解業務所沉淀的數據,并了解業務對數據的需求;掌握產品設計的基礎技能;例如:數據產品設計方法和標準工作流程、設計工具等;具備對數據以及主流數據技術的理解,例如:數據的
39、存儲形態、AI 和 BI 的主流技術等;此外,還要具備開闊的視野并充分實踐精神。三、金融數據能力建設的核心觀點 19 三、金融數據能力建設的核心觀點 數據能力是一面業務“鏡子”,如何把數據的價值從“后視鏡”(做歷史分析),轉變為“望遠鏡”(看方向)、“放大鏡”(精細化操作)、“顯微鏡”(發現問題真相),關鍵是看企業的數據體系的完整度(木桶的短板)和數據能力的應用程度(水位的高低)。數據能力和數據體系就像“水”和“木桶”的關系,水位越高、要求的木桶短板越高。為了具備更高的數據能力的“水位”,則需要數據體系“木桶”的每塊板越長。我們認為,數據體系需要從頂層設計、業務價值、數據服務、數據治理、數智算
40、力、數字人才等 6 個維度“木板”來整體考慮和建設,避免長板夠長、但短板漏水的情況。1.以全局視角的驅動力 “公司級數據能力體系,需要站在整體看局部、站在結果來看過程?!眰鹘y的數據架構就像“老城”,是自然生長出來的。而現代的數據架構就像“新城”,是“先規劃再建設”的,首先需要一個整體數據能力藍圖,圍繞企業數據戰略和對應的數據能力要求(從頂向下),系統化落地“3+1”數據體系(數字基礎設施、數據資產、數據應用、運營機制)(從底向上),并實現提升效率、降低成本、提高質量、敏捷創新、人才培養和生態建設的 6 大核心能力建設目標。三、金融數據能力建設的核心觀點 20 1)藍圖規劃(自頂向下)通過自頂向
41、下的設計方法,整體分析企業數據現狀,拆解當前數據能力,歸集并總結存在問題,結合企業數據戰略,統一規劃和設計數據體系的具體目標和落地路徑,推動企業整體數字化經營,從而體系化解決原有數據體系分散建設的問題。2)“3+1”數據體系(自底向上)隨著數據規?;l展,數據領域從技術架構、數據架構、數據研發、數據管理以及數據應用都提出新的要求,由此催生構建數據體系的算力、數據和價值的三大驅動力和一套運營保障機制。驅動力一:算力驅動,打造企業級數字基建。所謂數據基建是為了滿足大規模離線計算、實時計算、AI 等各類數據處理引擎的算力需求,提升數據算力資源供給效率,從而利用云原生、容器技術,采用存算分離、多引擎算
42、力融合、統一調度等技術構建的“云原生化數據底座”,具備如下 6 大特點:數字基建使用基于云的基礎架構來支持資源管理、可擴展性以及運營效率。通過容器化技術在資源隔離和提供一致性的開發、測試和運維環境。利用多租戶和安全技術,為用戶提供一套綜合的數據安全環境,解決數據安全共享問題。采用計算、存儲物理分離,實現計算層與存儲層解耦。通過構建統一數據庫湖,計算層通過容器技術和數據沙箱,實現不同算力模型的快速交付和穩定運營。利用云和容器化的能力,集成實時、離線、流式數據存儲與計算產品,關系型數據庫、MPP 數據庫等,多引擎支撐多種不同的數據計算與分析需求,同時實現數據在多計算引擎間進行融合,減少數據搬遷和存
43、儲,消除不同引擎數據研發和模型的割裂問題,提升資源效率,降低成本。三、金融數據能力建設的核心觀點 21 驅動力二:數據驅動,沉淀企業高價值數字資產。所謂數字資產是指企業數據的核心資產,包括數據表、數據模型、指標、標簽等。通過“采、建、管、用”的數據體系建設方法和“盤、評、治、享”的數據資產管理方法,可以分為多層的數據資產管理:針對數據模型層:數字資產建設通過統一的企業數據公共層建設,構建企業數據視圖,幫助數據管理者提升數據資產質量和資產運營能力。針對數據研發層:通過建設一體化數據研發平臺,建立數據集成、數據建模、數據研發、數據分析、運維管理等的一站式能力,同時數據研發需要同時支持實時、離線研發
44、、AI 模型訓練及研發等能力,提高數據研發效率,加速高價值數據的資產化。針對數據治理層:通過構建全鏈路數據治理和企業級數據標準,實現包括數據架構、資產目錄、數據質量、數據安全、元數據等在線管理能力,消除線上線下兩張皮的現象,提升數據資產質量,保障資產健康度,并利用一系列生產力工具(例如:數據產品、BI、AI)等構建自助式的數據服務,為業務場景提供敏捷的服務體驗。驅動力三:價值驅動,業務場景驅動的數字應用。所謂數字應用是指通過沉淀的核心數字資產,數字應用可以通過多種形態的數據服務方式滿足多場景數據消費的需求:如 API 服務可嵌入業務流程使用。數據產品可直接為客戶經理提供展業服務。BI 和 AI
45、 工具可幫助分析師進行在線分析和挖掘數據。數字門戶還可通過集成方式打造一站式數據工作臺。讓數據應用真正做到“水到田頭”多元化服務和便捷的數據消費體驗。三、金融數據能力建設的核心觀點 22 一套機制:運營機制,組織及運營的持續保障。運營機制是一個企業的“數據軟實力”,是保障數據體系能夠長治久安、持續發展的“數據軍規”。它本身就是需要基于數據驅動的“機制”,而非“人治”?;跀祿脚_的技術、業務、管理、運維等多維元數據信息,結合業務目標和有限的資源(技術和人力),建立一套匹配的資產運營目標(資產復用率、業務覆蓋率、降低成本等)、資產管理制度(發布變更、上下架、安全管理、資產積分)等,同時建立組織保
46、障(數據產品經理、數據認證、創新大賽等)和數字化人才成長體系,在企業內部形成數據素養的文化氛圍,通過不斷學習和運用,讓使用數據成為日常工作中不可或缺的內容。并不斷完善全鏈路治理跟蹤機制,不斷進行資產評估和價值分析,打造企業的“數據精品品牌”心智。通過運營保障機制的不斷作用,讓數據真正成為推動企業高質量發展的“核心動能”。3)“6”大核心能力 通過“3+1”數據體系的建設,將幫助金融機構在以下 6 項核心能力上得以提升:三、金融數據能力建設的核心觀點 23 2.以分層視角的核心力 分層視角是全局視角的進一步細化和落地指導,幫助我們將復雜問題簡單化,化整為零,分層分類有序推進。在數據能力體系總體框
47、架基礎上,我們采用自下而上的設計方法,更細粒度拆解和抽象“3+1”數據體系,從支撐海量計算和存儲能力的數字基建,圍繞采建管用的數字資產,以數據驅動業務經營的數字應用,以組織保障的運營機制四個維度詳細闡述數據體系的核心能力。1)數字基建 5 大法則 針對海量數據算不動、效率低、成本高、難運維等方面的問題,新一代大數據平臺建設通常遵循以下 5 大法則:法則 1:具有云原生可擴展的多種計算模式融合 云原生框架天生具備快速交付、彈性伸縮、標準化、自動化、隔離性等諸多優勢,持續提升資源利用率。再結合云原生數據架構的存算分離、融合計算、混合部署等優勢,支持批、流、交互式、多模、圖等不同計算模式的融合,例如
48、:湖倉一體、三、金融數據能力建設的核心觀點 24 流批一體、流式機器學習,使多種計算系統進行深度整合,在功能、生態上形成互補,用戶能夠在一套系統內完成更多種類型計算,提升平臺運行效率,降低使用成本。法則 2:具有多層智能化的分布式存儲層 存儲計算分離會在兩三年內成為標準,數據平臺向托管化和云原生的方向發展。存儲內部精細化的分層成為平衡性能和成本的關鍵手段,基于分布式存儲系統上的多層存儲(熱存儲/標準存儲/冷存儲等)與存儲利用率相結合實現存儲降本。其中,AI 在分層算法上將發揮更大的作用,編碼和壓縮在通用處理器上的優化空間有限的情況下,未來更大的突破和技術換代將取決于軟硬一體化的技術發展及應用情
49、況。法則 3:具有統一調度和彈性伸縮的資源池管理 隨著數據湖存算分離不斷深入,圍繞基于云原生架構下來建立統一容器化資源調度系統成為數據湖存算分離發展的必要組件,為大數據與 AI 一體化架構提供統一資源池化及在離線混部的基礎支撐;通過統一算力資源池實現資源統籌調度,優化資源細粒度的管理與調度,可以將離線計算與其它在線計算任務進行資源混部達到峰谷互補的效果,有助于提升服務器資源利用率;同時,也可以根據業務優先級分配計算任務資源,確保資源調度期間不發生爭搶,實現在業務高峰期,以彈性擴縮容模式調用算力資源,充分發揮資源算力,提升響應效率。法則 4:具有異構計算引擎的工作負載協同 從計算引擎層面看,多種
50、異構引擎混部協同是提升大數據資源利用率的重要手段之一,主要包括“離線實時一體、湖倉一體、大數據 AI 一體”等。其中:三、金融數據能力建設的核心觀點 25 離線實時一體 單純的離線或實時架構都無法完全滿足業務場景的需求,通過在兩類系統中進行數據同步來支撐不同的場景需求,也對整體數據鏈路的成本、代價和復雜性帶來了不小的挑戰。通過提供面向異構計算工作資源負載下的統一多維度查詢分析服務,在線與離線計算共用計算和存儲資源,解決資源波峰波谷問題,實現資源動態削峰填谷。另外,近實時架構興起,在離線批量計算和流式實時計算之間,近實時架構避免了流計算龐大的狀態存儲與管理,在成本和延遲上找到了另一個平衡。隨著近
51、實時架構的逐步形成,計算架構最終將實現從離線到實時的全面支持能力。湖倉一體 湖倉一體是一種結合了數據湖和數據倉庫優勢的新范式,解決了數據湖的局限性。在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。提供數據管理特性和高效訪問性能,支持多樣數據分析和計算,綜合了數據倉庫以及數據湖的優點形成了新的架構。大數據 AI 一體 支撐規?;臉I務增長仍是數據平臺需要解決的問題。當前,AI 計算與智能數倉融合、算力加速的需求已經成為趨勢,因此數據平臺在智能化、多計算模式融合、軟硬一體化架構升級、以及數據管理智能等方面的發展正在進入到加速期,未來數據即智能。數據與 AI 一體對平臺能力提
52、出了相應要求,云原生化的算力與數據、規?;恼{度與編程范式、標準化和普惠化的開發與服務、一體化的服務平臺讓 AI 工程化具備基礎能力。大數據與 AI 應用一體化,把 AI 技術通過數據賦能給業務,成為數據智能的新基石,讓數據分析、治理和智能應用變得更簡單。法則 5:具有大數據 SRE 智能運維能力 大數據技術多樣性和數據平臺架構的復雜性,為大數據平臺的運維帶來挑戰。新一代大數據平臺可支持在線滾動升級,縮短升級時長;提供統一運行各類異構工作負載流程,統一管理作業生命周期,統一調度任務工作流,為任務的規模和性能提供保證,通過作業日志,性能指標,資源利用率等數據,結合歷史記錄和實時負載情況,使用機器
53、學習方式進行分析、檢測和調優,在查詢計劃、數據模型、資源管理 三、金融數據能力建設的核心觀點 26 自適應,以及系統異常檢測和自愈等方面不斷優化,形成大規模數據平臺的智能化運維能力。2)數字資產 8 項能力 “采、建、管、用”打造好數據,“盤、評、治、享”管理好資產。數據資產是數據對業務賦能的核心能力層。它通過全域數據資產建設、智能化數據分析手段以及多樣數據服務能力,實現全企業數據的采集、建設、管理、應用和反饋的閉環,打通各層級與多業務間的數據壁壘,實現數據的統一整合與運營,提高企業數據建設和應用的效率。下面我們依然通過采、建、管、用四個關鍵能力介紹數字資產的構建、管理和運營方法。a)采:企業
54、數據資產全域采集 “采”的核心能力在于“全域和時效”。全域是解決企業數據完整性問題,時效是解決數據實時性問題,同時多樣數據源為了確保與企業內部數據融合,還需要規范化和標準化的管理機制保障。全域數據采集包括按照數據采集的頻度、采集數據內容以及企業內外部數據的采集和獲取方式進行劃分。三、金融數據能力建設的核心觀點 27 從數據采集頻度劃分,一般分為批量數據采集和實時數據采集,批量數據定義的采集周期通常為小時、日、周等。實時數據一般包括在批量采集中,采集周期通常為分鐘;實時數據的采集周期是以秒為單位,數據產生后立即采集。隨著經營管理決策對時效性的要求越來越高,金融機構對實時數據的采集需求也隨之增多,
55、對企業級的實時計算提出了更高的要求。從采集數據內容的角度,一般分為業務數據、日志數據、行為數據等內容。業務數據和日志數據通常由后端業務系統產生,以數據庫或文件形式存儲,可通過離線和實時采集工具進行采集。而對于金融機構的客戶行為數據,通常需要移動端、PC 端等系統的埋點技術進行采集。埋點采集是采用可視化埋點技術,通過標準化業務模型,即應用-方案-頁面-事件-屬性,進行線上系統管理,形成統一的埋點元數據。通過線上全流程管理需求-開發-測試-上線,保障埋點數據質量,結合可視化分析工具,沉淀流量數據資產。后續結合數據連接技術形成客戶的行為數據資產,可用于客戶經營旅程分析。目前完整、準確、易用的行為數據
56、是金融機構相對比較缺失的數據資產。從企業內外部數據采集的視角,內部數據可通過相應的離線或實時采集工具進行,外部數據對接一般采用數據 API 的方式。隨著數據安全合規要求的提升以及跨企業間數據連接價值的挖掘,隱私計算技術逐漸被金融機構采用,讓不同機構的數據可用不可見,解決機構間數據協同計算過程中的數據安全和隱私保護問題,推動機構間數據流通和共享。三、金融數據能力建設的核心觀點 28 b)建:敏捷構建企業級核心數據資產 “建”的核心能力在于“敏捷和復用”。敏捷解決的是數據模型研發效率低的問題,復用解決的是公共層、萃取層建設的企業級數據資產共享問題,建設“好”資產是企業提升數據能力的基礎。數據資產的
57、建設需要從企業級視角規劃設計,同時結合應用場景按照分層邏輯進行數據加工和處理,并針對多個部門場景的分析,逐步沉淀為企業具有復用能力的數據資產,減少不同業務部門為了滿足數據需求,單獨建設數據,形成更多數據孤島等問題。此外,通過數據資產的共享打通原有部門間的數據壁壘,構建了企業內數據互通的底層邏輯,讓數據為企業數字化釋放更多的活力。整個數據建設體系較為復雜,本文從數據模型體系、指標/標簽體系、數據連接技術、DataOps 敏捷研發等方面介紹如何打造企業級“好”資產。數據模型分層體系 數據模型分層體系構建的是企業數據能力的底層邏輯。簡單回顧一下數據模型分層設計,通常分為四層,即貼源層、公共層、萃取層
58、和應用層。貼源層總體上保持與源系統一致,可輕度進行數據清洗。數據應用原則上不應從貼源層直接提取數據。但目前從行業平均情況看,有近 50%的比例是直接到貼源層使用數據,這是造成大量數據重復存儲、數據孤島的主要原因。公共層之上是我們重點建設的內容,公共層數據模型需要從企業視角梳理和匯總各個業務部門用數需求,從業務場景入手提取數據共性并設計相應數據模型,最終通過設計即開發的建模技術,快速沉淀為公共層模型資產,是作為業務部門數據應用的主要來源。萃取層是基于公共層數據模型構建的企業級指標體系和標簽體系,具體建設方法可參考后續章節。應用層是基于公共層和萃取層建設,為不同業務條線的需求提供個性化數據服務的能
59、力,也是常說的集市層。應用層模型可根據企業自身數據團隊和業務分析團隊定 三、金融數據能力建設的核心觀點 29 位確定建設主體,通常采用共建模式,數據團隊提供計算和存儲資源、數據標準、研發工具等,而業務分析團隊負責與其業務相關的數據加工、指標和標簽建設,通過組織協同機制,拉近數據團隊與業務團隊的距離,真正為企業打造百花齊放的數據應用場景。數據模型設計即開發 模型設計即開發是數據研發高質高效的利器。從模型設計方法上,包括三范式模型和維度模型。傳統數倉通常采用三范式的建模方法,已經在金融行業形成了一定的標準與模型體系。三范式建模的優點是減少數據冗余,物理存儲層面盡可能降低成本。缺點是業務分析需求與三
60、范式模型體系無法直接映射,需要進行特殊處理,造成模型開發效率低。此外,查詢效率方面,在數據量小有索引情況下表現不明顯,但如果數據量數以億計,查詢速度十分緩慢,甚至可能會造成宕機,因此三范式模型不適合直接應用于業務決策分析和大規模計算場景。維度模型是 Ralph Kimball 在 90 年代提出的數倉建模理論,它從企業決策分析角度出發,旨在使用戶更快的完成數據分析和大規模復雜查詢的數據分析服務。從模型設計方法上更貼近業務和數據分析人員理解的角度,因此維度建模也成為金融行業構建數據模型的重要選擇。當然不同金融機構需要結合自身實際情況,選擇適合的建設方式,有些基于貼源層直接用維度建模構建公共層模型
61、,這種方式適合尚未建設數倉或現有數倉不滿足需求需要重構的企業。有些在已有三范式模型的基礎上,構建維度模型層支持應用層,這種方式適合數據體系相對完備,并且三范式模型能夠覆蓋大部分應用場景的企業。不論是范式模型還是維度模型設計,建模效率則成為敏捷數據研發體系中的重要環節。利用建模工具,以設計即開發的理念實現數據建模與數據研發聯動。在建模過程中,關鍵是確保設計原則、標準及規范的真正落地,而不再是線下的管理要求和約束,如數據域定義、業務過程拆解原則、指標定義規范等,通過建模工具進行標準貫標,并與數據開發深度融合,基于概念模型快速創建邏輯模型,采用智能數據研發引擎根據邏輯模型自動生成相應的物理表及調度任
62、務,因此通過邏輯模型屏蔽了底層物理表的細節,數據分析人員直接訪問邏輯模型即可拿到最終結果。通過設計即開發的智能建模工具不僅解決了原有數據研發效率低的問題,也有效地從源頭把控標準,提升數據研發質量,為數據治理奠定基礎。三、金融數據能力建設的核心觀點 30 維度模型構建數據公共層 數據公共層的建設不是一蹴而就,是由局部逐步沉淀而成。那么如何來構建數據公共層?如上所說,在數據倉庫領域,數據建模一直對范式建模還是維度建模有兩種爭鋒相對的觀點。而現在我們在大數據應用的場景,一般只提一種方法,就是維度建模。通過前文,我們已經了解維度模型的構建是以實際業務需求為導向,模型也是通過不斷的需求累積出來,并需要適
63、應快速的業務變化。那么公共層數據模型不是一開始進行企業級設計就能夠全部覆蓋的,也絕非一蹴而就,通常是由業務場景驅動,由局部的業務需求演化為大量共性需求,再使用維度建模的方法構建而成。數據公共層建設是多種場景業務需求的一個復合,代表了企業數據能力最基礎和最通用的模型。核心解決了企業級數據的全局一致性、可復用、可共享的問題。好的數倉公共層數據模型設計,需要滿足以下幾方面的目標:可用與易用性,性能與成本,質量與效率,穩定與擴展性。在實際建設過程中,可結合企業自身特點,包括數據量、資源、業務需求等因素選擇側重目標。三、金融數據能力建設的核心觀點 31 建設企業級指標/標簽體系 從層次上來說,數據公共層
64、至關重要,起到承上啟下的作用,向下負責跟上游多個交易型業務系統對接,向上對應用集市屏蔽了上游變化帶來的影響,使得應用層只需關注利用公共層的模型解決自己的業務需求,比如指標、標簽、產品等。首先,指標是企業重要的高價值數據資產。是數據萃取層主要建設內容。指標是業務信息的“高濃度”萃取,每個指標加工結果,都是對業務范圍的清晰理解和對加工口徑的準確加工。指標體系的構建要以對業務目標和業務過程的理解為前提,以完整反映業務經營狀況為目標,從整體到局部,逐層提煉和分解得出。指標體系建設的兩步原則:一是業務分析:指標體系的構建過程由業務分析開始。首先分析企業的業務板塊,定義數據域。再基于具體業務過程的分析,定
65、義維度屬性。二是指標構建:指標定義的范圍包括原子指標定義和衍生指標定義。原子指標是基于某一業務行為事件的度量,其特點是不可再分拆,例如:貸款余額;派生指標由“原子指標+修飾詞+維度”組成,是對原子指標在業務統計范圍周期內的統計值。三、金融數據能力建設的核心觀點 32 基于以上原則,在業務過程的分析,建立業務過程和維度的總線矩陣關系,確保在數倉中公共維度不重復,在不同業務過程中保持一致,并對不同系統間的維度進行邏輯和概念上的統一和標準化。然后進行原子指標的定義,實現全局指標口徑唯一,解決指標口徑二義性的問題。通過一定組合關系生成派生指標,從而形成統一的指標體系,同時通過工具平臺的規則配置,從技術
66、層面保證相同業務和技術涵義的指標有且只有一個,避免“同名不同義”、“同義不同源”的亂象,確保業務在使用指標時的準確性。其次,標簽也是業務價值挖掘的重要數據資產。標簽是面向業務的數據資產組織方式,實現數據資產對于業務可見、可懂、可用,通過標簽體系構建,標簽場景化拆分,打通數據資產和業務的通道,解決數據人員和業務人員“雞同鴨講”困境,發揮數據價值,讓數據“用”起來。標簽體系構建,核心打造圍繞“金融產品、內容、渠道”等多對象實體的標簽體系,有效支撐面向總部運營人員的渠道投放、私域運營等場景,面向一線理財經理的客戶經營、精準營銷等場景,有效提升用戶終端體驗和機構服務效率。企業級標簽體系的建設以業務經營
67、場景為驅動,基于“統一設計、統一建設、統一完善、統一運營”的四個統一原則,全面進行規劃,實現標簽全生命周期線上化、平臺化、透明化。構建標簽體系需要遵循一下四項原則:一是理現狀:梳理當前業務狀態,發現技術和業務短板,結合業務需要和業務現狀設計標簽體系,同時設計相應的管理制度和流程。二是引實踐:引入金融行業指標、標簽體系建設的實踐經驗,規劃標簽體系。三是重場景:深入標簽應用各類場景,對接現有數據和系統,契合業務需求完成功能建設,為數字化客戶服務、數據分析、業務決策提供有力服務。四是奠基礎:滿足部門訴求的同時,為企業級應用與推廣奠定基礎,結合標簽統一管理的制度與流程,提供運營輔導,促進業務目標的實現
68、。三、金融數據能力建設的核心觀點 33 構建數據連接 圍繞企業內部數據,在數據合規的前提下,如何識別來自不同設備、不同注冊賬號、不同身份的同一個客戶呢?通常我們可以通過數據連接技術實現多端設備連接,建立數據互通?!皵祿B接技術”具體指什么?是金融機構常說的客戶編號嗎?客戶編號是已經和金融機構發生交易往來產生的,還有大量的未知客戶,如游客通過營銷渠道下載手機銀行準備注冊但中途放棄,又或者一個金融機構由于不同部門建設不同 APP,導致客戶注冊信息不同,難以從客戶為中心的視角全面分析其行為和偏好,因此需要通過智能化的技術手段將不同端的數據形成映射,建立數據連接。數據連接技術可以生成代表自然人的身份代
69、號,類似于實際生活中的身份證號,是通過算法賦予的一個穩定的虛擬身份 ID,并且識別自然人所擁有的各類身份 ID 和工具 ID,如賬號 ID、設備 ID 等。數據連接還將自然人來源各個系統、各個領域的ID 進行聚合,突出活躍 ID,剔除不屬于該自然人的 ID,為精準營銷、標簽體系建設等提供幫助。如下圖所示:同樣,企業客戶通過知識圖譜構建圍繞企業基礎信息、經營行為、風險能力、資產資質、資訊環境、關系網絡等領域的企業數據資產,并基于企業關系圖譜的深度挖掘推動在風控、招商、商業化等領域的業務發展。三、金融數據能力建設的核心觀點 34 顯而易見,因為無論個人客戶還是企業客戶,其信息是散落在各個場景中的,
70、要想了解客戶需求,就需要構建全面客戶畫像。例如:某科技公司在銀行開有賬戶,過去銀行僅僅通過賬戶流水掌握其經營特征?,F在可以通過數據連接體系,讓銀行歸集相關數據后可清晰刻畫出該企業的真實經營情況,如這家企業由于實現技術突破潛在訂單趨于旺盛。由于企業擴大規模產生大量結算、貸款、甚至上市等需求,還會增加銷售回款帶來的存款、理財需求。此外,銀行還可以通過經營流水反查其產業鏈上下游往來的商業伙伴,建立“客戶關系圈”圖譜,可進一步挖掘大量的潛客線索。通過這個場景可以看到,數據連接技術是通過“數據+算法+服務”(如下圖)技術實現原有孤島數據的連接,通過對客戶的多維度刻畫,讓數據與業務場景的連接更加緊密,最大
71、程度挖掘數據價值。數據研發運營一體化(DataOps)數據研發領域 DataOps 效率提升的目標就是“更快的交付高質量的數據”。本質是通過貫穿數據研發的全生命周期,覆蓋事前、事中、事后,從而滿足數字化轉型不同階段、不同層次數據交付的需求。三、金融數據能力建設的核心觀點 35 DataOps 是面向數據全生命周期,包括從數據需求輸入到交付結果輸出到全鏈路數據研發過程,在系統工具、組織模式、安全風險管理的支撐下,實現數據研發運營一體化、敏捷化、標準化、自動化、智能化、價值化的理念。一個成功的 DataOps具有如下 5 大特質,其中:持續性:首要保證的就是盡可能的持續性,不間斷,不論什么樣的情況
72、出現,都能夠自適應的持續讓數據流動起來,所以持續性是 DataOps 的首要特質。敏捷性:在持續的基礎上,DataOps 需要一定的敏捷性,能夠快速響應外部的各種變化,支持多種云化部署模式,公共云、專有云、虛擬機、容器等;自動支持數據湖和數據倉庫;支持未來的架構變化。全面性:作為企業全域數據的底座,DataOps 要全面的支持所有的場景和數據??尚牛簲祿目尚欧浅V匾?,保證數據資產和用戶產生的數據集的數據目錄可訪問性;能夠清晰的知道數據從哪里來的,是怎么被加工和處理的數據血緣;確保每一個源數據在變化的時候所有相關的數據集也被復制和更新的數據驗證。自動化:自動化是 DataOps 的重要基礎能力
73、,從數據的產生,處理到交付數據產品和服務,整個過程要盡可能的自動化處理。DataOps 為數據體系構建帶來的價值主要包括,提供實時的數據洞察能力、加速數據應用的構建過程、讓數據價值鏈的每一個角色都能更高效的協作、提供數據的透 三、金融數據能力建設的核心觀點 36 明度,從而能夠更好地產生數據創新和增進協作、提升數據和數據服務的可復用性、優化數據質量、構建統一、標準化的數據協作能力。c)管:打造精品數據資產管理及運營體系 數據體系建設的“采、建、管、用”四個環節中,“采”和“建”的工作目標是完成數據獲取和公共數據資產的沉淀,而“用”的目標是達成應用側的場景化賦能,那么“管”則是“建”和“用”之間
74、的“中腰”環節。數據資產管理和運營的核心目標,是對企業擁有的數據資產有全面完整的了解和充分的管控,就像球場上的中鋒隊員,觀察全局,精準篩選數據資產,把業務側需要的數據服務“精準、穩定、快速”的“傳球”到業務具體場景的先鋒隊員腳下,助力實現業務“臨門一腳”。如上圖,我們將完整的數據資產管理能力總結為:“盤”“評”“治”“享”4 項擴展能力(即數據資產盤點、數據資產評估、數據資產治理和數據資產服務),具體內容如下:“盤”:全面了解家底。數據資產盤點工作主要是在明確數據資產范圍的基礎上,構建數據資產目錄,盤點數據資產內容、存儲和管理情況,并通過可視化手段支持各類數據用戶快捷高效的查詢和了解數據資產情
75、況,摸清底數。數據資產盤點工作的目標不應該只拘泥于解決“有什么數據、數據在哪里”的問題,而是要通過盤點的動作,解決對數據的一致性理解問題這里講的“理解”,既包括對數據內容的理解、同時也包括對數據權利和數據責任的理解。三、金融數據能力建設的核心觀點 37 對數據資產內容的理解,首先,需要通過構建統一數據資產類目和數據資產掛載實現對數據的業務內容以及業務分類的統一理解;其次,通過多維度的數據資產標簽體系建設,豐富對數據的描述和不同應用場景當中的靈活應用。對數據權利和責任的理解,則需要通過數據資產管理和確信機制的建立來實現。數據資產的管理和確信機制是在數據資產盤點的活動過程當中逐漸確立的。例如,數據
76、類目體系建設的過程中,會征求業務相關部門從業務視角審視和復核數據分類的合理性;在數據資產標簽體系建設過程當中,會征求開發部門就僵尸資產、過長鏈路資產等進行技術閾值定義。通過工作上的協同,各部門的數據工作角色、權力和責任劃分逐漸清晰,并沉淀在相關的管理機制和流程當中。特別需要強調的是,由于金融機構已經沉淀了海量數據資產,那么資產盤點的效率也是必須考慮的重要因素。通過實踐,采用知識圖譜、自然語言等人工智能技術手段,可實現數據資產盤點效能的指數級提升?!霸u”:評估資產價值。數據資產評估針對資產價值、資產效能、資產質量、資產活性和資產安全等不同維度建立對數據資產的觀察和評價方法,以量化的方式描述和評價
77、數據資產,便于數據生產者、數據管理者和數據使用者可以更準確的了解數據資產的狀態。下面是數據資產評估不同維度的具體定義或方法,可作為實踐參考:價值評估。通常指數據資產價值的貨幣化度量,即數據資產的價值。例如我們購買外部數據花了多少錢,這就是數據資產的成本價值?;蛘呶覀円罁惴óa生的營銷清單使理財產品銷售額提升了 100%,這就屬于數據資產創造的業務價值。三、金融數據能力建設的核心觀點 38 質量評估。即評估數據資產的數據質量。評估維度通常包括數據完整性、準確性、有效性、一致性、唯一性等。數據資產質量是數據可用性的重點評估維度,數據質量差也是目前金融機構數據領域普遍面臨的問題?;钚栽u估。即對數據資
78、產的維護和使用的頻繁程度進行評估。數據資產使用頻率意味著數據是否充分被復用。長期未被使用,可定義為僵尸資產,考慮進行資源降配或者刪除。資源評估。即量化數據資產的資源使用成本,包括計算資源、存儲資源等。數據資產資源評估是實現企業數據資產成本核算的基礎,讓金融機構逐步建立數據成本的計量計費體系,促進企業持續增效降本。安全評估。金融行業數據資產安全是一道不可觸碰的紅線,數據的有效應用必須以滿足金融行業監管機構發布的各類行業安全規范和監管要求,以及金融企業內部的數據安全管理要求為前提。綜上,數據資產評估的視角非常豐富,在具體工作中,到底優先從哪個視角展開評估、評估工作的方法和顆粒度應該如何把握?這些問
79、題都要先深入明確數據資產的評估目標,如降本增效,則需要進行資源使用成本評估等,在確定評估目標后,再選擇相匹配的評估視角和工作方法。三、金融數據能力建設的核心觀點 39 “治”:提升數據質量。數據資產治理是從數據資產可用性的角度提升數據質量。新一代數據治理機制的關鍵點在于“全鏈路數據治理”,抓住數據生產源頭,強化業務系統元數據管理,從源頭消除數據標準不落地問題,推動治理工作遷移,將規范設計嵌入研發體系,形成全鏈路數據治理能力,從而解決設計與運行、線下與線上兩張皮的現象。傳統數據治理往往以分析類系統(即 AP 系統,典型系統為數據平臺類、數據集市和應用系統為代表)為主要治理對象,很少從數據生產源端
80、的業務系統入手,沒有在根源上杜絕問題的發生,所以各個金融機構常常發動數據治理“運動”,但數據質量依然不盡人意。傳統數據治理是治“表”。全鏈路數據治理是覆蓋數據生產、數據分析以及數據消費全鏈路,首先是以全域數據為治理對象,既覆蓋生產域(TP 環境,業務系統數據庫),也覆蓋分析域(AP 環境,分析系統數據庫)。生產域主要包含各類業務數據產生的源頭數據庫,分析域主要包含各類數據分析平臺和應用。業務系統作為數據生產者,在研發流程中引入數據標準的規范性要求,結合數據庫開發工具,從業務系統數據庫表結構設計開始進行約束,就如同治理河流上游污染,可讓下游污染治理起到事半功倍的作用。全鏈路數據治理是治“本”。當
81、然,在全鏈路數據治理體系下,首先需要建立更強的組織協同能力,數據治理是數據部門主導,而業務研發是科技部門主導,一個追求數據質量,一個追求研發效 三、金融數據能力建設的核心觀點 40 率,由于目標不同會導致部門間配合上產生相互掣肘,因此需要更高層的組織管理機制進行協同和推動?!跋怼保悍张c共享。數據資產服務與共享考慮的問題是如何讓具體的應用端便捷、高效的實現數據資產在企業內部的充分共享。數據資產的服務與共享工作圍繞著數據產品超市、數據服務計價和數據服務運營幾個方面展開,其中:數據產品超市。建立數據產品管理體系,數據產品建設完成后,可借鑒“產品超市”思路建設,以清晰和友好的訪問形式,開放給數據用戶
82、。通過較好的產品設計體驗,用戶可以快速瀏覽和選擇適合自己需求的數據產品。通過線上獲取數據產品訪問權限,一鍵即可開通權限獲取數據,提升數據的獲取效率和用戶體驗。數據資產服務計價。數據資產服務計價,需綜合考慮數據資產成本、數據資產業務價值、數據資產市場價值以及現有和預期的服務規模。由于受行業監管和數據安全等因素制約,目前金融行業的對外數據服務發展有限,數據資產服務仍然以內部服務為主。但隨著金融科技的輸出,更是進一步把服務計價的訴求逐步提上日程。數據資產服務運營管理。數據資產服務運營的目標是為數據用戶提供穩定的、持續的、高質量的數據服務。d)用:數據產品與服務打通數據應用“最后一公里”“用”的核心能
83、力在于“價值和體驗”,展現高價值數據、降低用數門檻、提升用數體驗成為打造數據產品和服務能力的根本目標?!敖ā焙脭?、“管”好數最終還是為了“用”好數,推動企業內部形成人人都會用數據,人人都是分析師的文化氛圍。三、金融數據能力建設的核心觀點 41 數據資產如何為業務提供服務?過往的做法通常是用 BI 報表或數據服務(API)的方式實現,雖然可以滿足業務需求,并沒有以數據產品的視角,通過產品化設計,沉淀可復用能力和更好的用戶體驗,通常做法都是按需開發,不僅開發中期長,容易產生數據孤島,服務體驗也不好。為了加快數據服務體系建設,我們提出三個關鍵方向:一是,數據產品化將成為數據資產從資源態到服務態的重要
84、載體。通過數據產品化將數據服務能力透傳到最終業務用戶側,實現業務價值的完整鏈路,打通數據應用的“最后一公里”。那么數據產品的價值總體來說在于:首先數據產品從機制上優化了數據服務的供給和需求關系。在構建數據產品化體系之前,數據服務以逐一響應數據服務需求的方式進行生產和供給,大部分是低質量滿足的“提數”,單次生產、單次消費,生產速度和質量低效;相似需求,重復響應,如報表建了很多,但訪問頻次卻不高,浪費生產資源。未來在構建數據產品機制后,對相同、相似的需求進行合并和封裝,形成“一次研發,重復消費”的高效機制,改善供需關系。其次數據產品從客觀上規范了數據服務標準和服務質量。在構建數據產品體系之前,數據
85、需求的服務響應速度、服務質量高度依賴于提供服務的開發者個人水平。在機制建立后,數據產品本身封裝了標準化的服務,保證了服務質量。此外,建立了數據產品的運營機制,保障了服務時效和服務響應率。三、金融數據能力建設的核心觀點 42 最后數據產品從工作方法上加速了數據服務的需求響應效率。之前數據服務當中單純的“需求響應”工作模式具有很大的差異,數據產品的研發流程以數據產品的機會探查為起點,通過調研、可行性判斷,需求管理,原型設計到研發上線,并通過產品的運營不斷挖掘新的機會點,形成閉環。二是,數據產品經理將成為數據人才建設中的“靈魂人物”。在整個數據產品化過程中貫穿始終,數據產品經理要有敏銳的產品化的“機
86、會嗅覺”,能夠從復雜的需求中識別出哪些需求是共性的、值得沉淀的,同時又要有產品化思維,從業務需求描述中洞察真正的訴求,并把這種訴求轉化為產品的功能設計,以較好的用戶體驗將服務傳遞到業務側,最終形成可上架的數據產品,并建立圍繞產品的運營機制,進行持續迭代和優化。前文中已經詳細介紹了數字化人才能力建設以及數據產品經理培養路徑,這里不再贅述。借用阿里巴巴集團數據中臺一位數據產品經理的自我定位:“產品經理是黑暗中舉著火把的人(代表洞見),不僅要照亮前行的路,也要照亮隊友腳下的路(代表協同)。產品經理需要通過不斷重塑自己,而不斷賦予業務新的生命和增長?!比?,一站式數據工作臺將加速推動金融機構的數據平民
87、化進程。數據產品是數據服務業務的一種內容形態,但當一個企業數據部門面對大量的數據服務需求,面對不同受眾不同用數據需求時,降低數據使用門檻,讓更多的人懂數據,讓數據好找,為數據消費者提供便捷、直觀、高效的服務,是現代數據建設和管理者開始思考和建設的目標。三、金融數據能力建設的核心觀點 43 通常在金融機構內,數據消費者可分為數據分析者、數據管理者和數據研發者,他們對數據的需求各有側重。數據分析者希望提供高質量數據,并通過 API 直接訪問;數據管理者希望站在全局視角看到企業級數據資產;數據研發者希望提供統一數據研發工具,提升研發效率。為了滿足不同用戶的不同需求,應以場景為核心,為數據消費者建立統
88、一的數據門戶,整合金融機構已有及新建的數據資產內容,并非是簡單頁面嵌入,包括數據表、標簽、指標、數據 API、數據產品等,通過數據門戶打通實現元數據統一管理,并構建數據搜索推薦能力。通過能力打造,可為數據管理者提供全域數據資產地圖,讓企業數據底數盡在掌握;可為數據分析師提供統一的數據搜索入口,找數用數更便捷;為數據開發者提供完備的數據開發工具集成,提升數據開發效率,形成開發規范化管理,進一步提高數據質量。除此之外,數據門戶還可以成為企業數字化人才培養基地。讓數據門戶真正成為企業找數據、看數據、用數據的一站式數據工作臺。3)數字應用 3 個要素 “人、貨、場”構建數字化運營體系的核心三要素。數字
89、基建和數字資產構建了企業核心的數據資產,是數字化轉型的基石。那么數字應用則是金融機構真正實現業務數字化、經營管理數字化、組織數字化轉型的加速器。借用阿里巴巴業務矩陣中“消費者運營“的理念,貫穿客戶全生命周期、圍繞“人-貨-場”為核心的數字化運營體系,這個體系的底層邏輯是建立在業務通、數據通、技術通的跨業務單元和技術團隊的高效協同上。那么,各大金融機構也早已意識到“以客戶為中心”,通過轉變業務管理理念,豐富業務場景,提升敏捷+在線化內部管理效率,并與產業生態融合,升級服務體驗,不斷完善數字化轉型的實施策略。三、金融數據能力建設的核心觀點 44 a)“人”:客戶經營數字化 大部分金融機構早已建立了
90、以客戶為中心的管理體系,建立了圍繞客戶的標簽體系,但從目前運營的結果來看,大多業務經營還是基于業務條線、產品、分支機構等展開,而真正從一個客戶視角,對其在一個企業內部整體資產情況、產品偏好、行為習慣等方面進行深度刻畫,并形成企業運營管理和分析決策的支撐顯然不足??蛻舢嬒褡鳛榭蛻艚洜I重要的數據資產,在精準營銷、實時風控等領域具有舉足輕重的作用,也是金融機構實現差異化運營和服務的前提。從銀行業務視角,客戶畫像可細分為零售客戶、公司客戶、機構客戶、小微客戶、同業客戶等,以零售客戶畫像為例,除了構建基礎屬性外(如:年齡、性別、職業、地區等),更重要的還應結合前文介紹的全域埋點數據、數據連接技術和標簽體
91、系等,全方位刻畫的行為信息、偏好信息等,通過識別不同客戶不同階段的需求,推薦個性化產品。例如:通過客戶轉賬記錄分析,針對個人賬戶從事直播帶貨的小本經營客戶,可挖掘收單、結算、循環授信額度等小微企業的需求。需要說明的是,這些高價值的數據大部分都來源于金融機構內部的交易數據,消除金融機構認為自身數據不足的誤區,外部數據僅作為部分補償和參考?;诳蛻粜袨楫嬒?,金融機構才具備開展客戶全旅程精細化和數字化運營工作的基礎,通過客戶行為的真實刻畫,讓金融機構的經營者可以深度挖掘海量的客戶線索,從而進一步圍繞客戶經營旅程,針對不同客戶在不同階段的活動喜好或需求,推薦差異化活動,包括投資教育、財富管理、養老規劃
92、等。三、金融數據能力建設的核心觀點 45 如上圖所示,客戶經營旅程數字化運營是用數據驅動實現從潛客線索初篩到獲客開戶再到業務培育最終實現忠誠沉淀的過程,是一條完整鏈路的客戶經營視角,是對客戶陪伴服務的過程。在客戶初篩及價值定位階段,將會深度使用之前的客戶畫像、交易數據、行為數據等各項指標和標簽。從最早觸達客戶開始,就通過數據+AI 技術構建如智能搜索、圈人、推薦的數據智能決策能力?;跀祿B接技術識別客戶來源,可以對不同來源渠道的潛客進行分級分類,評估潛客質量及其熱度,針對客戶偏好和需求設計個性化定制產品。根據客戶在不同分群中的變化,驗證客戶經營策略的有效性。通過對客戶在全旅程不同節點的反饋變
93、化,定位客戶體驗不足問題,及時調整策略,提升客戶體驗。這些舉措的目標始終圍繞提升客戶經營的數字化,從客戶定位-有效開戶-培育爬升-忠誠沉淀-以客薦客的長期過程中,通過數據驅動業務流程,優化決策分析,使我們與客戶真正形成互助共贏的緊密關系,真正培育出金融機構的長期粘性客戶。除了外部客戶外,金融機構還應建立圍繞企業高管、內部員工、外部監管、生態客戶的經營管理體系,從整個企業服務的對象角度提升數字化服務能力,通過識別“人”,形成圍繞“人”的業務目標,如高管關注整個企業經營指標、員工關注敏捷數據服務體驗、監管機構關注監管數據質量等,通過不同客戶,不同需求建立靈活多樣的經營服務體系。b)“貨”:產品運營
94、精細化 在“貨”的建設上,結合客戶經營管理的數字化能力,形成不同客群、不同階段、不同需求的個性化產品運營體系。應用數據分析的算法,通過產品組合提供相應產品建議,并支持客戶一鍵完成購買的交易過程,同時能跟進市場和需求變化情況動態調整,大幅度提升客戶體驗。三、金融數據能力建設的核心觀點 46 下面以產品定價為例,介紹如何通過數據能力形成的產品精細化運營、客戶服務體驗、以及跨組織協同能力的全面提升。過往,金融機構下達經營指標計劃是按照業務條線和分支機構進行,并建立考核目標。為了快速完成指標,通常業務拓展時大多選擇大客戶,但大客戶有很強勢的議價權,雖然客戶營銷成功,但金融機構多是賺了規模沒賺到效益的結
95、果?,F在,我們通過數據體系的建設,金融機構開始嘗試通過數字化經營的思路重新對存量客戶進行了分析。首先利用價值評估模型,結合對公客戶畫像進行客戶價值評估,發現企業經營利潤多是來源于主營業務為本行的中小企業客戶的貢獻。經過業務決策,重新制定客戶產品定價策略,改變原來按照客戶規模進行優惠的策略,而是將價值貢獻度高的中小客戶設置為優質客群,重新設計產品定價策略,進一步提升客戶忠誠度。同時,由于產品運營的精細化提升,隨之客戶經營管理也打破了傳統以業務條線劃分的模式,將原屬于公司業務部的中小企業部門和原屬于零售部的高端個人業務部門歸集成了一個新的客群業務,服務團隊也由兩個部門的業務人員混編組成,服務團隊都
96、可以通過客戶經營全旅程的數字化業務流程驅動,實現信息共享、產品服務無縫銜接、客戶專享服務體驗等方面的提升。此外,在內部管理中,兩個團隊仍然沿用原有的管理職能,通過完善效益核算數據使兩個團隊的績效合理切分,通過這樣跨條線的合作模式組合銷售產品,實現客戶需求一次性滿足,客戶滿意度和產品交叉銷售率都大大提高,激發了兩個團隊共贏的協同作戰,以及敏捷化組織帶來的戰斗力的提升。c)“場”:渠道生態多樣化 在“場”的建設上,主要探索多渠道協同經營模式。通過多樣化的渠道建設,實現線上線下一體化,解決金融服務“最后一公里”難題。構建數字渠道核心思想是構建用戶承接渠道矩陣,連接用戶教育到用戶轉化,形成和客戶的多層
97、次連接,主要包括三層:第一層的“場”:通過新媒體流量運營的方式,打造金融機構的品牌心智,比如小紅書、抖音、廣告投放等渠道傳播。三、金融數據能力建設的核心觀點 47 第二層“場”:通過類似支付寶、微信公眾號等可交互渠道,形成用戶和金融機構的交互心智,通過交互加深用戶需求理解,產生更強的粘性。第三層“場”:金融自有運營陣地。比如自建的 APP,如手機銀行、網上銀行等,自建渠道可以是客戶享受全鏈路的金融服務的陣地。每個場的定位和運營策略都有差異,金融機構可根據客戶分層選擇適用的渠道開展運營工作,通過不同的“場”完成“人”和“貨”的協同。未來隨著數據與 AI 更加深度融合,相信數據將進一步滲透到金融機
98、構數字化經營發展的方方面面。4)運營保障 1 套機制 數據體系建設不單純是技術、平臺和產品能力,還需要配套相應的組織運營能力,確保金融機構在數字化能力推進中保持持續發展和迭代。運營體系的建設需要與金融機構自身的業務戰略進行匹配,并作為數據戰略的重要組成部分。運營體系的建立包括對應的工作內容與職責、組織保障及人才培養三個層面,圍繞戰略目標、組織制度、數據產品及服務運營、數據資產運營、及平臺工具等維度展開。三、金融數據能力建設的核心觀點 48 運營體系的具體工作,包括數據產品與數據服務運營、數據資產運營、數據平臺工具運營。其中:數據產品與數據服務運營需要同業務深度融合,主要工作涉及識別應用場景、提
99、煉業務需求,規劃設計數據產品與數據服務、孵化并創造業務價值,數據產品與數據服務推廣和運營,持續創造業務價值并打造數據品牌;數據資產運營的具體工作包括全鏈路標準的制定與完善,建設相應的數據治理體系,實現核心數據資產的沉淀;數據平臺工具運營的具體工作包括數據建模、研發、服務一體化平臺建設,圍繞“采、建、管、用”構建全鏈路的數據工具持續沉淀與優化。運營體系的建設往往涉及人員、組織架構和部門職責的調整,其目的就是要集中力量形成組織級的積累,建立可重用的數據能力和培育用數文化。能力與組織架構支撐是數字技術運營體系建設的保障,它對業務、數據、技術等關系人的專業性提出了相應的要求,并需要匹配相應的組織架構來
100、保障,確保建設、運營的順暢。實踐過程中,多家金融機構開始探索敏捷組織模式,設置多專業部門融合跨組織專業團隊,如在數字應用的經營管理數字化介紹的場景,通過建立敏捷團隊模型形成業務創新的閉環模式,在帶來業務價值的同時有效提升組織架構靈活性,讓金融企業在數字化時代真正具備差異化核心競爭力。此外,數字化人才應具備跨部門、跨領域協作能力,掌握跨界知識和數字技術基本知識,具有批判性思維和創新思維,擁有良好的工作與學習自驅力。數字化人才具備對業務或技術觀點獨立思考能力,并通過分析、比較,進而達到對事物本質更為準確和全面認識的能力,善于利用數據分析結果尋找到最佳解決方案。通過學習自驅力能夠自主尋找各種資源、并
101、將新的體驗應用于新的創新場景中。因此,運營體系還需要構建學習型組織,持續迭代進化,實現人才數字化能力的可持續發展。3.以業務視角的價值鏈 本章節將以精準獲客、產品定價、風險識別、數據管理質量和數據平臺增效 5 個場景為例,站在金融機構前臺、中臺、后臺部門,以及數據管理和科技研發部門的不同視角,“看”數據驅動下企業數字化經營的價值體現。三、金融數據能力建設的核心觀點 49 1)業務前臺部門:潛客精準識別 痛點 圍繞人貨場的數字化經營理念,通常銀行在對私客戶經營模式上相對成熟,而對公客戶較為傳統,大多還是由客戶經理線下拜訪,客戶關系的維護和拓展新客戶大多依賴客戶經理自身的能力。通過存量客戶再拓新也
102、是一種營銷形式,據某個大型銀行內部統計,在中小企業領域,每 10 名存量客戶就可以成功推薦 1 名新客戶開戶落地。由此帶來的思考是我們的存量客戶經常往來的他行客戶都有哪些?如果通過數據挖掘的方法,用數據識別存量客戶的行為,從而幫助客戶經理直接快速地找到他行新客戶呢?應用場景 結合客戶經營旅程分析方法,帶著這樣的問題,我們通過對銀行自有的交易流水進行了分析,嘗試挖掘存量客戶的新客線索。通過 150 萬存量對公客戶的畫像分析,找出經營主賬戶開在該行,且日常經營結算活躍的核心企業客戶約 7 萬戶。然后梳理這些核心客戶的交易結算業務,利用知識圖譜技術,沿著資金流水去向挖掘其經營上下游的商業伙伴,從而建
103、立客戶關系圈,并從中挑選出往來關系密切但尚未在該行開戶的客戶。三、金融數據能力建設的核心觀點 50 從數據挖掘出的結果來看是驚人的,通過約 7 萬戶的核心企業客戶挖掘出 220 多萬上下游往來的他行客戶,這個數據甚至遠超該行現有存量客戶的規模。最終,再結合外部數據,針對 220 多萬客戶進一步分析,圈選出約 3 萬戶成為具備發展潛質的優質客群。價值分析 通過對公客戶畫像和交易行為分析,數智化技術深度挖掘潛客線索,智能化客戶價值評估,精準篩選潛客名單,并可直接推動客戶經理進行重點營銷。通過客戶經營數字化能力的提升,改變了原來低效的線下拓客方式,讓客戶經理營銷客戶更精準。整個驗證過程從取數、建模、
104、打標、分析、圈選等資源花費約 3 個人/月,整體人效比大幅提升。2)業務中臺部門:產品精確定價 痛點 通常銀行金融產品的價格管理部門是計財部或資債部,這些部門屬于中臺部門,對一線的客戶并不掌握一手材料。所以在制定價值管理政策時通常是一刀切,或者根據業務一線部門反饋建議修訂。前者的弊端是管理與業務脫節,會導致優質客戶無法享受優惠價格面臨流失,而留下的往往是不在意價格且風險較高的客戶。后者把 三、金融數據能力建設的核心觀點 51 定價權下放到了業務部門,雖然業務更了解客戶需求,但弊端是容易造成為了拉動客戶,無節制地給予優惠而造成全行效益下滑的問題。所以對于中臺部門來說,也同樣需要借助數字技術能夠清
105、晰了解客戶基本信息、行為偏好、價值貢獻等方面,建立企業的產品精細化運營體系。應用場景 在前文中已經多次提到,通過數據體系建設,每個企業都構建了客戶標簽體系,但通過客戶價值分析,讓中臺部門形成的差異化產品定價,并圍繞客戶經營形成最佳的管理決策能力尚未形成。以一家數字化建設領先的銀行為例,他們數據部門采用人工智能技術,通過對業務數據挖掘分析,構建了一套對客評價模型仿真系統,用于總結每個客戶的業務特征。具體來說,就是綜合運用客戶交易行為、產品持有、事件響應等數據構建客戶畫像,以業務經驗為仿真輸入,從客戶需求、價值、風險三方面深入剖析評價客戶,再結合全行管理目標進行客戶分群制定經營策略和價格策略。這樣
106、設計的價格策略將不再是通過簡單規則配置而成,而是既考慮了客戶特征,又結合業務目標,同時兼顧了全行經營計劃目標的均衡策略。價值分析 通過客群分層價值評估,實現了精細化產品價格管理。針對客戶需求、風險、價值貢獻制定客戶差異化經營策略及定價標準,讓管理政策更符合業務需求,做到有序 三、金融數據能力建設的核心觀點 52 簡政放權。經過一段時間運行,資債部價格業務審批量下降了 40%,一線業務部門滿意度提升,各客群年度規模、利潤、客戶增長等全行經營指標均圓滿達成。3)業務后臺部門:風險防患未然 痛點 在數據技術爆發的今天,除了業務前臺和中臺部門,數據還能為后臺部門挖掘什么價值?以審計部門為例,金融機構尤
107、其注重對各項業務的合規審計,通常都是從一線業務部門選拔具有豐富經驗的人員配置到內控審計部門,究其原因,就是內部人員作案的手段是極其專業且隱蔽的,如果沒有任何業務敏感性很難在第一時間發現違規時間的蛛絲馬跡。然而內控風險識別,僅憑業務經驗往往也是不夠的,過去審計人員大多采用調研取證的方式,對于單個已經發生的事件還可行,但針對全機構的業務風險進行及時預警,規避風險的發生就行不通了。應用場景 借助數據體系構建的全域數據資產,我們可以通過挖掘業務數據識別違規事件線索。例如一家銀行在日常經營中發現有些客戶行為出現異常,沉默多年的賬戶突然活躍,并出現申請網上小額貸款的業務。通過數據分析發現,這些賬戶具有共同
108、特征:都是在縣域網點為村民集體辦理“農補代發、社保代繳”等業務時開立的賬戶,賬戶在開戶后很少發生交易行為,而且登記的手機號與戶主其他賬戶登記的手機號都不相同。主要原因是,過去以整村為 三、金融數據能力建設的核心觀點 53 單位的業務辦理中,通常是村干部收集全體村民的證件和登記信息,交由客戶經理批量辦理,這個過程中讓別有用心的客戶經理濫用客戶信息。審計部門通過這個數據線索,挖掘業務記錄數據,牽出了客戶經理冒用客戶資料私自開戶并冒名貸款的風險案件。通過這個案件舉一反三,該行分析了全部集體代辦業務數據,分析同一客戶多部手機、多名客戶相同手機號碼的各類業務場景,還挖掘了數名內部違規借貸人員。借此,該行
109、優化集體業務辦理流程為全部線上化,增加人臉識別、筆跡驗真等方式規避了人為操作,既防范風險又提高辦理效率。價值分析 在以往純靠人防控操作風險的時代,這樣的小額貸款既不起眼又隱藏多年,通常都是案件發生后由受害人報案才能知道違規事件的發生。而在這個案件中通過客戶異常行為指標監測,及時規避風險。審計部門對案例的評價:通過數據能力建設將案件的苗頭消滅在萌芽階段。4)數據管理部門:數據高質高效 痛點 如何厘清家底,讓數據質量更高是數據管理部門面臨最大的痛點。數據管理部門是企業數據資產的“大內總管”,經過多年的發展,數據問題依然居高不下,就質量而言,如監管指標二義性問題,在定位和定責方面始終無法從源頭解決。
110、前文中介紹過,絕大多數的數據在業務系統中產生,在分析環境中進行深度加工和使用,TP環境作為數據的生產方,AP 系統則是數據消費方和再加工方。由于業務系統數量較多,來源千差萬別,有自研系統,還有外購系統,從數據規范化上很難實現完全的統一,同時即使自研系統由于歷史包袱使得改造的難度也非常大,AP 系統也就成為傳統數據治理的主戰場,管控力度擴散不到 TP 系統。這就如同河流源頭的污染源不斷在制造污水,中下游的凈水器滿負荷晝夜不停的運轉,辛勞異常卻無休無止。三、金融數據能力建設的核心觀點 54 應用場景 全鏈路數據治理的方法就是圍繞數據資產的“盤、評、治、享”,開展數據領域的日常工作,促進數據資產的流
111、通和使用?!氨P”用于摸清全量家底,“評”用于識別資產價值和成本,“治”用于持續保證數據質量,“享”用于讓數據用的更便捷。這些內容是金融機構常年做數據治理追求的目標。隨著數據技術的發展,智能化手段可以實現對數據資產管理能力的增強,比如希望了解企業的全量資產看似容易,實際沒有哪家做的非常完美,依然常常出現用數的時候找不到,有數的時候口徑對不上,或者每年花費大量的人力投入在治理上。比如,對于全量資產盤點來說,每年的投入人力成本非??捎^,但還是不全也不準,我們嘗試采用人工智能技術構建自動掛載引擎,通過內容、名稱、血緣關系等輸入便可自動化實現資產盤點結果與目錄的映射,大大提升構建數據資產體系的效率。再比
112、如,很多金融機構都建設了數據血緣分析,但是指標依然不準,正如痛點中的描述,指標的生成不僅僅來源于 AP 系統,有大量是來源于 TP 系統,指標加工和計算口徑往往需要溯源整條鏈路,如從落標的角度來看,業務系統在新增/修改一張表時,從數據庫研發階段的表結構設計開始,每新增一個欄位都要通過數據標準查找和引用規范性定義,我們利用在線知識圖譜技術分別從元數據的物理關系、邏輯關系、加工血緣關系、Schema matching 技術、工單與數據庫變更關系、應用與中間件關系、人與數據庫的權限關聯關系等進行圖譜構建,比如當某個數據表要做結構變更時,上下游的依賴及時聯動或提醒聯動風險,對上下游的數據消費穩定性非常
113、有益,通過管理與工具相結合,實現從數據的生產、存儲、傳輸、加工到計算的全生命周期管理。三、金融數據能力建設的核心觀點 55 價值分析 通過全鏈路數據治理的核心思想把數據開發流程和數據治理流程整合在一起。在數據開發過程中完成數據治理,而不是先開發后治理。全鏈路數據治理要求數據加工的過程使用數據 MAPPING 來做列級映射,可以從數據產生的最源端的交易型業務系統貫穿到目標端的分析型系統。數據在業務系統和分析系統的存在除了要以表的形式外,還要以最終展示界面的形式提供。以監管報送指標為例,通過業務系統數據研發規范開始進行管控,利用數據治理工具能力,使得數據治理真正從源頭入手進行數據規范性落地,就像是
114、從河流的源頭治理污染源,達到“一勞永逸”的效果;其次,利用知識圖譜和列算子血緣分析等關鍵技術,實現精準的數據加工鏈路定位,指數級提升復雜加工的數據質量溯源(例如:跨多業務條線數據加工的監管報送指標)和問題定位能力。通過實踐驗證,利用圖譜和列算子血緣分析后,可以將原有 SQ 解析成功率從 70%提升到 97%,利用資產目錄自動掛載引擎預估將減少 100 人/年的人力費用,一方面大幅提升數據管理人員和分析人員的工作效率,另一方面大幅降低了人力投入成本,真正實現“增效”“降本”的目標。5)科技研發部門:算力增效降本 痛點 如何讓數據回歸業務本源是科技部門都要回答的問題??萍疾块T對于數字技術不應追求大
115、而全,而應將目標聚焦在數字技術的價值釋放上,利用成熟技術與創新技術充分融合,明確適用場景,產生可量化、業務有體感的價值。然而要達到這樣的目標并不容易,科技部門在數字技術建設過程中依然面臨著很多痛點。例如:如何利用大數據技術、存儲技術、網絡技術等多項技術改造,優化現有數據平臺架構,實現提效降本??萍疾块T在支撐穩態業務方面已具備了成熟的技術體系與服務流程,但面對日益增加的敏態業務場景,如何利用數字技術進行有效地支撐,提升數據研發效率,縮短從業務需求到產出結果的服務周期。三、金融數據能力建設的核心觀點 56 應用場景 在數據存儲與計算建設方面,在金融行業中已實踐了采用存算分離+湖倉一體相融合的架構進
116、行數據平臺的建設。實現了一份數據存儲支持多套異構計算引擎,滿足不同計算引擎之間的數據共享,避免了數據的多次復制與遷移,有效提升數據加工效率并大大降低存儲成本。同時打通不同計算引擎之間的元數據,實現異構引擎之間的數據互訪,將計算引擎的優勢形成合力。在支持敏態數據研發方面,與穩態的最大區別在于穩態的開發環境和生產環境是物理隔離的,開發上線有嚴格的管控流程,適合傳統的數據加工場景。而敏態模式對開發和生產資源構建在統一的基礎設施上,通過云平臺進行開發環境與生產環境的資源邏輯隔離與統一管控;在數據層面,提供數據脫敏與加密的能力,確保數據安全可控;在數據研發層面,實現開發、測試、部署的一鍵打通,大大提升數
117、據研發效率。我們已看到有多家國有銀行、頭部保險集團在敏態數據研發方面進行了深入地探索以及落地推廣。價值分析 通過存算分析+湖倉一體的技術能力,實現了數據存儲與計算的提效降本。在存儲方面,大大降低了原始數據多次復制與重復存儲,進而有效節省了存儲成本,減少數據復制的同時,能夠將更多資源投入到滿足業務需求的計算場景中,并將計算引擎從元數據層面進行打通,提升了不同引擎之間的資源互訪能力,進而提升了計算效率。通過敏態研發能力的建設有效提升數據研發的效能,大大縮短了從提出業務需求到產出數據結果的周期,提升了業務部門對科技的滿意度。四、金融數據能力建設的成功要素 57 四、金融數據能力建設的成功要素 Cap
118、ital One 創始人曾說:“我們不是一家銀行,我們是一家以數據作為基礎戰略的公司,只不過我們公司第一個成功的產品碰巧出現在銀行業?!睌祿芰κ俏磥斫鹑谄髽I的第一能力,數據能力越強的企業,邊際效應越強、業務擴展越輕松、產品服務越精細化,數據從業務應用的“結果和記錄”變為業務應用的“指揮棒”,使數據對業務進一步的支持能力和價值目標得以有效實現。1.關鍵能力和價值方向 金融行業在數據體系在建設上可參考以下價值方向:1)降低數據建設成本 云原生化的數據技術體系將降低數據存儲成本,提升數據計算的效率,通過建設公共層,提升數據的可復用性,避免重復建設,使得數據建設綜合成本降低至少 50%以上。2)全鏈
119、路數據集成與治理 面向金融企業全域的數據集成與數據治理,整合全企業的結構化、半結構化及非結構化數據,數據治理從 AP 分析系統前置至 TP 交易系統,打通數據從產生到消費、管理和運營的全鏈路,確保數據質量。四、金融數據能力建設的成功要素 58 3)一站式數據研發和服務 一站式敏捷數據研發與數據服務、設計即開發、自動化運維等能力大幅提升研發效率,從需求到產生業務可見結果的周期從月-天,自助取數達 80%以上,縮短交付效率。4)多樣化數據服務體驗 多樣化的數據服務方式滿足不同技術水平的數據分析用戶,提升找數效率,降低業務用數的門檻。在更多的業務場景中使用數據作為決策的依據,促進企業內具備數據分析能
120、力的業務人員比率逐年提升。5)強化數據產品經理培養 培養一支復合型的數據人才隊伍,為數據建設的持續發展提供保障。尤其數據產品經理的培養尤為重要,數據產品經理可以有效拉近業務、技術與數據的距離,使企業重復開發需求逐年減少。2.關鍵路徑和成功要素 “任何事情的成功,都不是拿來主義,也不是一蹴而就的”。各家金融機構在數據體系建設上需要結合自身現狀和現有成果進行審視和評估,從業務價值、技術能力、治理水平以及數據體系的運營能力上進行總體評價,規劃滿足自身發展需求的建設路徑,在架構上可采用整體重構、查漏補缺、能力升級等方式,在路徑上可分階段規劃中長期目標,采取小步快跑,滿足現階段業務敏捷創新的需求。下面我
121、們從數據能力建設的幾個關鍵方面提供建設方案參考。1)數據能力的價值評估 對于價值評估,金融機構需要借鑒行業標準、同業經驗以及第三方權威機構,形成適合自身的數據體系成熟度評估模型,這套評估模型是確保當前階段的數據體系持續進行問題識別與迭代優化、明確后續建設方向的關鍵要素。四、金融數據能力建設的成功要素 59 數據體系評估模型通??梢园芰τ?、能力項以及評估等級。評估模型覆蓋數據建設的各個方面,包括數據集成、數據計算、數據資產建設、數據資產管理、數據服務、數據應用以及數據運營幾大能力域,在每個能力域中可分解為若干個能力項,每個能力項代表了某個數據能力,并且對應不同的評估等級,不同的評估等級代表了
122、能力的高低。數據體系評估模型一方面可以對金融機構當前的數據能力現狀進行定量與定性相結合的評估,識別出當前建設的優劣勢,同時可對未來建設的方向以及建設的重點提供指引與參照,形成可落地的建設路線圖。目前行業內已經發布過如 DCMM、EDMM、DataOps 等評估模型,并且有專業的評測機構,也可邀請該領域的優秀企業共創。由于每家金融機構的數據現狀和能力差異較大,在通用的評估模型上應結合自身特點形成符合自身發展特點的評估方法,避免生搬硬套。2)數據模型的合理選擇 前文的數據“建”設中已經詳細介紹了關于數據模型的建設方法,那么企業的數據模型選擇對于數字應用至關重要,因此這里介紹一下數據中臺模型與數倉模
123、型的關鍵差異,作為企業在選擇數據模型建設過程中的指導:范式建模 VS 維度建模:傳統數倉以范式化建模為主要形式,模型穩定、腳本開發邏輯復雜、周期長;數據中臺模型以維度建模為主要形式,開發周期短,上線速度快,但是模型的穩定性不足,會隨著業務的變化和模型整體性考慮而頻繁調整。數據中臺的模型更注重高價值數據建設:在數據中臺的模型建設中,更關注高價值數據的萃取和建設,例如標簽體系、指標體系等;這些數據包含著更豐富的業務理解和價值沉淀,可以更好的為業務場景服務。數據中臺模型建設引入了新技術和新理念:數據中臺模型的過程當中引入更多的新技術和理念,例如使用數據連接技術,實現內場景和外場景中客戶信息的連接與識
124、別,可以構建更完整的客戶視圖,從而為風險、營銷等應用領域提供更精準的客戶畫像。四、金融數據能力建設的成功要素 60 3)傳統數倉的演進模式 金融機構大數據體系建設已經將近 20 年,技術積累和數據積累非常豐厚,從新的技術發展和數據應用需求來看,建設模式主要分為三種:數倉平遷、數倉升艙、數據中臺重構。a)數倉平遷模式 金融客戶基于數據倉庫構建了標準的數倉模型,支撐了各種復雜的業務查詢、分析、指標報表等業務場景。數據倉庫遷移目標主要有兩類平臺:MPP 數倉和大數據平臺,一般是基于物理機存算一體的架構管理。數據倉庫遷移通常包含作業遷移、調度遷移、數據遷移等工作,需要作業加工邏輯一致性校驗、數據遷移一
125、致性校驗等工作。數倉平遷的基本原則,在數據架構層面盡量保持原數倉的模型和結構不變,任務開發語法和數據類型都保持相對一致。在技術架構層面則更多考慮語法、接口兼容性和應用服務透明性問題。同時,提供標準的遷移模型工具,實現數據表結構和作業的平滑遷移,這樣保證遷移簡單、時間短,同時對上下游應用影響較小。b)數倉升艙模式 新一代云原生數據倉庫將具有云原生化、存算分離、彈性擴縮容、實時寫入分析、價格成本低、高性能硬件加持、軟件自主可控等優勢。云原生數倉依托資源池化采用存儲分離的架構,不僅可以靈活擴展,還能讓計算效率和資源利用效率都最大化,同時也有利于數據共享、打破業務數據壁壘。而在敏捷實時性方面,數據倉庫
126、與大數據技術正在快速融合,云數據倉庫正在走向湖倉一體,以提供離線實時一體化的數據處理和分析計算能力。因此,數倉升艙模式,通常是從限制業務發展,形如“經濟艙”的傳統數倉技術架構,一步升級到“頭等艙”,即采用云原生化架構的云原生數倉。就“一步升級”而言,是指在升艙過程中,除了技術架構上的更新換代外,數據架構上也將參考成熟的數據中臺建設方法論,優化或重新規劃企業公共數據層,進行企業數字資產沉淀。采用模型設計即開發的智能建模工具快速、規范地實現模型落地,形成高價值資產的全域管理及運營能力,將數據以產品或服務的形式發布,讓業務系統或用數人員便捷使用數據,借助數倉升艙項目完整構建企業數據能力體系。四、金融
127、數據能力建設的成功要素 61 在遷移方案上,考慮到企業已經沉淀大量的數據資產,通常都要回答模型是否需要重構的問題。這里我們可以從模型所提供服務的最終效果反推模型是否需要調整,可以從模型穩定性、服務時效性和數據準確性三個維度評估。大部分企業依然會采用“平遷+重構”的整體策略進行規劃,比如現有模型在支持重要決策指標,而且從效率、質量等方面不存在問題的情況下,可參考平遷模式進行數倉遷移;如果需要支持的大部分業務尚未建設數倉或者已經建設的數倉模型不能覆蓋應用場景,這樣就需要結合數據能力體系規劃重新設計并重構數據模型。同時,在從傳統數倉向云原生數倉升級的過程中,還應考慮數據庫之間遷移語法兼容性、遷移工具
128、的便捷性問題,比如多種類型數據源之間的數據傳輸和遷移工具等,它們與數據開發工具共同組成了從遷移可行性評估、數據集成、數據加工、數據建模以及數據服務的一站式傳統數據倉庫升艙解決方案,確保數倉遷移的成本和風險雙降,數據服務的效率和能力雙升。c)數據中臺重構模式 數據中臺項目并非一定要推翻重建,原有的大數據平臺或數據倉庫系統是否需要重構,主要取決于現有平臺的能力和能否解決企業在數據領域的核心痛點。建議先行進行評估,然后進行方案設計和決策。判斷傳統數倉是否需要推倒重建,可以從數據架構、技術架構二個層面進行評估和判斷:從數據架構上看,傳統數倉為了滿足存儲、計算、分析等各類場景的需要,通常會按 ODS、D
129、WD、DWS、ADM 進行數據模型的分層設計,判斷是否需要重建主要看當前模型是否滿足規范性、完整性、可復用性和敏捷性的要求,如果不滿足則建議借助數據體系建設升級的契機,對數據架構進行重構。從技術架構上看,數據中臺帶來了技術平臺的能力升級,引入了多種不同的技術,包括離線計算、實時計算、交互式分析、數據加速、機器學習、對象存儲、云原生等功能,使數據時延更短、分析更快、存儲更大,業務更智能,支持業務場景更豐富,成為業務轉型的加速器??傊?,考慮到數倉和數據中臺之間的兼容性及可遷移性,同時也要考慮業務對數據的強需求,同構平臺可以采用平滑遷移的方式,異構平臺建議進行重建。四、金融數據能力建設的成功要素 6
130、2 4)數據服務的統一協同 金融機構不斷探索應用場景對數據的需求,也積累了不同類型的數據,如結構化、半結構化和非結構化數據,并采用不同的技術手段,對多種數據進行存儲和加工,通常數據存儲方案主要為數據湖和數據倉庫。其中,數據湖存儲企業原始數據,包括結構化數據(以業務數據為主)和非結構化數據(包括日志文件、圖片、音視頻等),提供自助分析、用戶畫像分析、數據挖掘探查、實時數據分析、圖分析、高并發查詢、歷史數據查詢等數據服務場景;而數據倉庫主要以存儲和處理業務系統的結構化數據為主,沉淀企業級數據模型,處理指標、標簽,提供 BI 報表、經營分析等數據服務場景。同時,金融機構為了便于應用場景使用,通常建設
131、統一的數據服務平臺提供面向業務的服務能力。統一數據服務從平臺功能、業務場景、數據資產、基礎設施不同的角度具備不同能力:從平臺功能的角度,統一數據服務需要支持 BI、自助分析、報表、數據推送、AI 機器學習、API 服務等功能;從支持業務場景的角度,支持報表、實時大屏、營銷、風控、用戶畫像、客戶詳單查詢等;從數據資產管理的角度,進行數據權限、數據分類、安全審計、數據生命周期管理;從基礎設施角度,支持資源彈性伸縮、分析性能強、時效更快、數據高可用等能力。建設統一數據服務平臺,提供統一門戶支持數據的資產分類和數據管理,將散落在多種不同平臺的數據統一整合,與全域數據打通,解決數據共享、服務性能等問題,
132、并提供穩定的、高效的、安全的全域數據服務能力。5)數據責任的全員共識 在金融企業數據建設工作中,業務人員的參與和職責擔當是非常關鍵和重要的。但是現實的情況確實存在部分業務人員認為“數據質量是技術人員的事,不是我的事?!贬槍@種情況,首先可以從和業務部門最關切的利益入手,引導業務部門站在自己的職責位置上,例如:“小微貸款”口徑通常涉及到零售部、三農部和信貸部多方的業務利益,那就從這個指標入手,邀請多方業務部門共同進行競爭來做“小微貸款”的業務管理責任方。通過這一個具體而微小的“爭端”,能夠讓業務人員理解和感知到,數據是為業務服務的,數據工作對業務部門來講既是義務也是權利,要重視自身在數據工作中的
133、責任。其次,行政手段也是必要的,前提是要有比較完備的數據治理機制建設。遇到業務部門互相推諉的時候,治理委員會有權指定某業務部門承擔具體職責。四、金融數據能力建設的成功要素 63 6)數據資產的運營共享 數據資產價值評估作為全鏈路企業數據資產解決方案的關鍵一環,對于構建數據治理完整鏈條,指導企業高質量使用數據資產具有重要價值,進而在企業內部形成數據流轉與共享,在企業外部為社會提供數據資產的價值,也同時為企業謀取創新型的收益,實現數據的增值。多維度企業數據資產評估有助于充分釋放數據價值。數據資產價值評估目前還沒有統一標準和方法,但有主流方法與參考。由于數據資產不具有實物形態,估值時通常類比無形資產
134、進行分析。在行業實踐中,無形資產價值的評估方法一般包括成本法、收益法和市場法三種基本方法及其衍生方法。在傳統無形資產成本法的基礎上,可以綜合考慮數據資產的成本與預期使用溢價,加入數據資產價值影響因素對資產價值進行修正,建立一種數據資產價值評估成本法模型。從實踐來看,該模型建立一般分為四個階段,成本價格測算、階梯價格測算、資產價格評估、資產價格發布。集團企業通過數據資產化建設,需通過各級數據共享平臺向行業各單位或部門提供企業數據資源匯集、共享交互和數據服務,實現跨單位、跨部門、跨地區、跨業務、多層級的數據共享。數據安全是進行數據共享的基本保障,需涵蓋共享數據準備、共享數據交互、共享數據使用三個階段,加強對數據共享全過程的身份鑒別、授權管理等安全保障,確保數據安全。尾聲 64 尾聲 數據領域的技術能力和業務價值探索從未停歇,云計算和大數據的擁抱;大數據和AI 的結合,大模型對 AI 的驅動,讓我們對數據的價值更加期待。讓我們共同探索數據智能化的下一個十年 阿里云開發者“藏經閣”海量電子手冊免費下載