《北京金融科技產業聯盟:2023數據智能賦能金融數字化白皮書(86頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融科技產業聯盟:2023數據智能賦能金融數字化白皮書(86頁).pdf(86頁珍藏版)》請在三個皮匠報告上搜索。
1、數據智能賦能金融數字化白皮書北京金融科技產業聯盟北京金融科技產業聯盟20232023 年年 1212 月月編制委員會編委會成員:趙韻東周天虹龔偉華聶麗琴趙煥芳俞吳杰閆曉林編寫組成員:趙存超貢佳煒馬曉煦耿博代鐵梁生吉劉一陽劉妍李義萍焦峰鐘新斌許翠朱紅偉陳煒釗李蓉嫻郭佳敏石文鵬盧金環張少敏董琦張博杜銀翔李金龍賀瑤函曹伯翰李娟牽頭單位:中國農業銀行股份有限公司參編單位:中國銀行股份有限公司招商銀行股份有限公司北京銀行股份有限公司I前 言隨著移動互聯網的普及和數字技術的強勢崛起,我國正加速邁入數字經濟時代,推動數字化轉型成為金融機構面臨的必要趨勢。中國人民銀行 金融科技發展規劃(20222025年)為
2、新時期金融數字化轉型謀定方向、明晰路線,金融機構需深入貫徹規劃理念,高質量推進金融數字化轉型工作。在大模型、生成式人工智能等技術加持下,數據智能技術正爆發出蓬勃的生命力,為金融機構推進數字化轉型、依托創新釋放數字生產力提供了重要抓手。在北京金融科技產業聯盟人工智能專委會組織下,由中國農業銀行研發中心牽頭,聯合中國銀行、招商銀行、北京銀行相關部門共同開展數據智能金融應用研究,編制形成數據智能賦能金融數字化白皮書。本文立足數據智能前沿技術,聚焦數據智能賦能金融數字化,介紹數據智能基本情況,包括概念解析、國內外發展情況及頂層設計;從 AI、BI 等先進技術出發,深度解析數據智能技術演進趨勢;結合銀行
3、業務場景闡述數據智能助力銀行業智能化升級的可行路徑,并給出典型案例;總結數據智能面臨的挑戰及發展展望。希望以此展示金融數據智能整體視圖,為金融業應用數據智能提供有效借鑒和參考。II目 錄一、數據智能發展情況概述.1(一)數據智能概念.1(二)國外數據智能發展形勢.3(三)國內數據智能發展形勢.4(四)五位一體數據智能頂層設計.61.戰略規劃謀.62.組織架構體.73.制度建設規.84.標準規范尺.105.團隊建設群.12二、數據智能技術演進趨勢.12(一)強化基礎支撐,推進數據互聯共享.131.湖倉一體,夯實企業級數據底座.132.實時數倉,高效應對實時場景.153.數據編織,推動智能化數據管
4、理.164.隱私計算,賦能金融數據安全.19(二)打磨 AI 利器,推動金融智能化升級.211.知識圖譜,深化關聯數據分析.212.可信 AI,提升模型可靠與可解釋性.223.大小模型協同,推進端云全方位協同進化.244.大模型,聚焦 NLP 任務統一和多模態模型支持.255.自適應 AI,強化主動學習進化能力.276.人工智能生成內容(AIGC),推動數字化內容創造.28(三)深入 BI 應用,持續釋放數據價值.301.極速引擎,支撐海量數據秒級分析.302.SaaS BI,提供云原生 BI 能力.32(四)研發運營一體化,加速數據智能應用落地.341.DataOps,敏捷響應業務需求.34
5、2.MLOps,快速交付 AI 應用服務.36III三、數據智能助力銀行業智能化升級.38(一)數據智能企業級平臺能力建設.391.數據湖倉平臺.392.實時流計算平臺.403.AI 平臺.424.BI 平臺.455.隱私計算平臺.476.知識圖譜平臺.49(二)銀行業數據智能典型應用案例.511.智能營銷.512.智能決策.603.智能運營.654.智能風控.725.智能監管.75四、金融數據智能面臨的挑戰與展望.77(一)面臨的挑戰.771.數據安全問題.772.倫理道德問題.773.數據共享與流通.784.算法可靠性及可解釋性.78(二)展望與建議.781.大模型助推高質量建模.782.
6、多模態整合數據統籌能力.793.創造性 AI 釋放數據潛力.794.技術融合推動協同創新.795.安全管理構筑防護體系.806.政策標準引領數據治理.80五、結語.801一、數據智能發展情況概述數據智能的概念范疇超越于人工智能,是涵蓋算法、算力及應用的一整套體系。金融機構踐行數據智能需完善自上而下的頂層設計,從數據獲取、數據處理、數據使用的整個生命周期,充分運用金融機構海量數據優勢,借助金融科技,極大化釋放數據要素生產力,驅動金融機構智能化升級。(一一)數數據據智智能能概概念念數據智能的歷史可追溯到上世紀五十年代人工智能及大數據技術的興起。目前業界對數據智能涵蓋的技術及范圍的定義和理解各不相同
7、,但普遍認為數據智能與 AI 及大數據等技術密不可分。數據智能的典型特征是以海量大數據為基礎,通過 AI、大數據等技術手段,對數據進行采集、處理、分析和預測,充分捕捉數據特征及聯系,挖掘潛在數據信息和模式,充分全面釋放數據價值,服務于場景化業務應用。本文嘗試從金融業應用的角度出發,從以下幾個維度去闡述數據智能內涵和應用體系,如圖 1 所示。數據要素:數字經濟意味著高度的數據化,金融機構作為數據密集型行業,在業務經營過程中積累了海量數據,數據要素成為金融業高質量發展的重要內驅。生產力:金融科技為打磨數據要素提供了利器,成為推動金融業數字化轉型的重要生產力。通過人工智能技術發掘數據價值,通過大數據
8、技術沉淀數據底座,通過創新釋放數據活力,提2圖 1 金融業數據智能架構升資源配置效率。生產關系:作為面向商業應用的解決方案,商業智能(Business Intelligence,BI)幫助企業梳理生產關系,系統化地整合及分析數據,助力于金融業務智能決策。上層應用:數據智能技術可有效作用于金融業市場營銷、運營管理、風險控制、監管合規等各環節,推動業務智能化、自動化,拓展金融服務領域。組織保障:為充分應用數據智能,需從戰略規劃、組織架構、制度建設、標準規范、團隊建設等完善數據智能的基礎建設,落實組織保障。整體而言,從數據要素、生產力、生產關系、上層應用、組織保障方面形成一整套數據智能管理閉環,金融
9、業務經營過程中產生的各種數據,通過數據智能技術的加持服務于企業各應用場3景,不斷沉淀數據資產,盤活數據價值,賦能企業數字化轉型。(二二)國國外外數數據據智智能能發發展展形形勢勢Gartner在近兩年重要戰略技術趨勢中持續將數據智能相關技術作為重點方向,包括生成式人工智能(GenerativeArtificial Intelligence)、數據編織(Data Fabric)、人工智能工程化(AI Engineering)、自適應人工智能(Adaptive AI)、AI TRiSM(人工智能信任、風險和安全管理,AI Trust,Risk andSecurity Management)等技術。數
10、據智能在全球的快速發展及創新熱潮也促使人工智能相關監管政策排上了議程。歐盟在鼓勵數據智能發展的同時,持續關注其存在的風險,審慎推進相關監管法案。2020 年 2 月 19 日,歐洲委員會發布人工智能白皮書數據戰略報告數字未來報告,謀求塑造歐洲數字未來,為數字領域的監管計劃提供指引。2021 年 3 月 9 日,歐盟委員會發布2030 數字指南針:歐洲數字十年之路計劃,為歐盟到 2030 年實現數字主權的數字化轉型愿景指出方向,旨在構筑一個以人為本、可持續發展的數字社會。目前,歐盟正在推進一項人工智能法案,旨在確保投放到歐盟市場并在歐盟范圍內使用的人工智能系統是安全的。但面臨著如何判定哪些人工智
11、能系統將被歸為“高風險”、如何平衡保障數據隱私與阻礙創新的關系等難題。美國對于數據智能技術的政策相比更為積極。美國政府一方面將人工智能提升到國家戰略的高度,致力于維持其在該領域的4全球領先地位,另一方面也高度關注人工智能風險,推動監管法規法案的落地。早在 2021 年 1 月,美國白宮就成立國家人工智能計劃辦公室,作為政府統籌與協調的中樞機構,負責監督和實施美國國家人工智能戰略。并于 2021 年 9 月成立人工智能咨詢委員會,就美國的人工智能競爭力、勞動力公平、資金、研究和開發、國際合作和法律問題提出建議,定期向總統及國會提交研究報告,為確保美國在人工領域的領先地位提供了組織保障。NSCAI
12、(國家人工智能安全委員會)認為,美國在非國防人工智能研發領域的投資應該以 2020 財年的 10 億美元為基準,在 2026財年到達 320 億美元,使人工智能領域的研發投入與生物醫藥研究持平。2020 年,美國政府發布首份人工智能應用監管指南,針對人工智能應用提出十大監管原則,明確了人工智能重點監管方向。(三三)國國內內數數據據智智能能發發展展形形勢勢在國內,國家相繼出臺和布局數據智能相關產業政策。2017年,國務院發布新一代人工智能發展規劃(國發201735號),明確將人工智能作為未來國家重要的發展戰略,并部署三步走的戰略目標。其中“第二步,到 2025 年人工智能基礎理論實現重大突破,部
13、分技術與應用達到世界領先水平,人工智能成為帶動我國產業升級和經濟轉型的主要動力,智能社會建設取得積極進展?!薄暗谌?,到 2030 年人工智能理論、技術與應用總體達到世界領先水平,成為世界主要人工智能創新中心,智能5經濟、智能社會取得明顯成效,為躋身創新型國家前列和經濟強國奠定重要基礎?!?021 年 11 月,工信部正式發布“十四五”大數據產業發展規劃,要求到 2025 年,大數據產業測算規模突破 3 萬億元,年均復合增長率保持在 25%左右,創新力強、附加值高、自主可控的現代化大數據產業體系基本形成。2021 年 12 月,中國人民銀行印發 金融科技發展規劃(20222025 年),提出“
14、金融業數字化轉型更深化”“數據要素潛能釋放更充分”等總目標,并明確“強化數據能力建設”“推動數據有序共享”“深化數據綜合應用”“做好數據安全保護”等重點任務。2022 年 12 月,中共中央、國務院發布關于構建數據基礎制度更好發揮數據要素作用的意見,形成我國關于數據基礎制度的頂層規劃。2023 年 3 月 7 日,在第十四屆全國人民代表大會第一次會議上,國務委員兼國務院秘書長肖捷就國務院機構改革方案向大會作說明,其中在數據管理領域,“組建國家數據局”成為國務院機構改革的一項重要內容。關于國務院機構改革方案的說明 指出,在保持數據安全、行業數據監管、信息化發展、數字政府建設等現行工作格局整體穩定
15、前提下,把數據資源整合共享和開發利用方面的有關職責相對集中。數據管理已經提升至國家戰略高度。當前數據資源已成為關鍵生產要素,中國數據量呈現指數級6增長,具有海量的數據規模和豐富的應用場景。根據 IDC 統計,中國數據規模將從 2022 年的 23.88ZB(1ZB 約十萬億億字節)增長至 2027 年的 76.6ZB,年均增長速度 CAGR 達到 26.3%。對于金融業而言,在數據資產積累方面具有明顯的優勢,如何充分利用和管理數據,構建完備的數據資產基礎設施,有效挖掘和利用數據價值,提升數據服務能力,成為金融業需深入探索的重要方向。(四四)五五位位一一體體數數據據智智能能頂頂層層設設計計為與中
16、國數字化發展水平保持一致,銀行業應堅持“數據”主線,在重點領域提供人工智能支持,為全行主體業務高質量發展提供有力的數字化賦能和支撐。提供基于數據的智能決策需要自頂向下發力,可從“謀(戰略規劃)、體(組織架構)、規(制度建設)、尺(標準規范)、群(團隊建設)”五個方面著手開展頂層設計。1.戰略規劃謀在數字時代下,數據戰略已成為組織開展數據智能的基礎,是數據智能長期發展的“方向標”。一些銀行在大數據上已具備較好的基礎能力和服務能力,但在深化數智賦能所需的算力、數據、工具、保障相關能力支撐上,仍面臨著諸多困難與挑戰,主要體現為:數據基礎能力有不足、數據供給能力待提升、數據研發工藝需完善、數據保障能力
17、有缺失。7針對以上困難和挑戰,可圍繞“一個核心,兩個保障,三個能力,四個轉型”,支撐數據友好型系統建設,助力數字化轉型戰略落地?!耙粋€核心”是以數據應用五步閉環(篩選、布放、執行、回收、優化)為核心,持續推進各業務系統高水平用數,總結經驗方法,提升業務經營能力?!皟蓚€保障”指打磨數據工藝,建設一體化數據研發平臺,落地數據服務流水線和流程規范,支撐數據服務快速交付;加強數據運營與安全,實現數據服務供給能力的量化評價和持續提升,落實全流程的數據安全管控?!叭齻€能力”是要夯實數據基礎側能力,建設企業級數據模型體系,完善數據模型規范標準;強化數據供給側能力,沉淀數據資產,打造低門檻工具平臺,全面提升數
18、據要素供給能力;提升數據需求側能力,深化數據能力在流程、決策和評價等方面的應用,推動數據能力與業務系統的深度融合?!八膫€轉型”指推進產品創新、流程再造、量化評價、渠道協同,助力數字化轉型進一步深化。2.組織架構體銀行應根據數據智能發展規劃,結合本行實際,建立組織架構健全、職責邊界清晰的數智賦能組織架構,建立多層次、相互銜接的運行機制,如圖 2 所示。8圖 2 數據智能組織架構董事會對數智賦能承擔最終責任,履行制定數智賦能戰略、審批或授權審批與數智賦能相關的重大事項等職責。監事會負責對董事會和高級管理層在數智賦能方面的履職盡責情況進行監督評價。高級管理層執行董事會決議,履行數智賦能體系建立、機制
19、建立、組織評估執行情況等職責。信息管理部門作為數智賦能的歸口管理部門,在高級管理層的授權范圍內,統籌全行數據治理工作,履行牽頭實施體系建設、統籌落實機制建立、建立評估機制等職責。業務部門承擔主管業務條線的數據治理責任,充分利用全行資源,發揮數智價值,主要履行制定本條線規章制度、開展本條線管理工作、執行監管等職責??萍疾块T負責系統層面的數智賦能工作,包括:響應數智賦能相關系統建設需求并組織技術實施;與歸口管理部門共同推進數智賦能,組織技術相關工作,推動提升數智應用價值等。3.制度建設規9銀行應根據數智賦能的要求和發展規劃的部署,調整、充實和完善內部經營管理的各項規章制度,健全內控嚴密的制度體系,
20、推動流程銀行建設,促進行內精細化管理,提供有效的制度基礎。(1)基本原則適應外部合規要求,滿足內部控制與風險管理需要,有利于市場競爭和業務創新。(2)工作目標按照分層、分類、分塊管理要求,建立覆蓋完整、規制適度、動態維護、協調統一的規章制度體系,包括基本制度與政策、綜合管理制度、專項管理制度、操作規程和實施細則等。(3)保障措施一是提高管理人員認識,保障制度管理權威。各級領導要充分重視制度管理工作,主動維護制度管理秩序和權威,率先垂范,營造良好制度管理環境。二是規范制度管理,完善并落實管制度的制度。按照制度分層、分類和分塊的標準,構建層次分明、分類齊全、模塊清晰的立體金字塔形制度體系,規范制度
21、管理流程,有效進行制度質量控制。三是加強制度維護,做到動態調整,持續改善。對行內現有制度進行適應性調整,梳理完善與數據智能有關的制度、程序與機制,嚴格制度的設立、修改與廢除的過程管理,完善制度反饋機制,推進評價與維護工作。10四是重視制度評價工作,制度建設納入工作考核。將制度建設、制度流程設計及制度有效性納入內控評價體系,將制度建設納入部門和條線工作考核,引導和激勵業務發展和制度建設同步進行。五是明晰各部門制度建設職責,加強各環節配合協調。清晰界定制度建設和管理職責,加強各部門間的配合和協調。六是建立規章制度數據庫,加強和完善法律信息管理技術平臺建設。開發制度信息管理平臺,加大科技手段對制度管
22、理的支持力度,實現制度科技化管理。4.標準規范尺銀行應按照“急用先行、協調推進”的原則,以數據統一為目標,制定各項標準的全行統一規范,構建企業級架構工程。標準統一工作可逐步開展,先期制定主要標準。(1)工作思路從公共基礎能力著手,按照“立足系統現狀、堅持問題導向”的總體思路和“選取主流標準、其他標準向主流標準靠攏”的工作要求開展標準制定,確保最終交付成果真正能支持業務領域數據應用,全面提升銀行企業級數據標準化水平。(2)標準制定依據“選取主流標準、其他標準向主流標準靠攏”總要求,選定主流標準,并同步推進標準落地與管控機制的建立。形成待解決問題清單。匯總各業務場景中的難點問題清單,11與涉及的數
23、據標準進行對比分析,納入標準制定過程統籌考慮解決。統一標準制定工作模板。應從數據標準和數據建模角度,梳理管理部門要求、行內現行制度和業內最佳實踐,形成工作模板。編制數據字典。統一概念定義,明確數據項范圍,確定可信數據源,同步研究標準建立后的管理職責、流程和新舊切換等長效機制。(3)落地實施統一數據。建立“多橫一縱”的主數據架構體系?!岸鄼M”指橫向拉通多項標準在數據生產端和消費端的唯一標識,由主數據管理系統實現統一的數據編碼、映射、管理?!耙豢v”指縱向對齊標準數據,由數據中臺統一為數據消費端提供可信合標映射數據支撐。統一管控。以源頭數據集中管理及數據項標準落實為目標,建立業務、數據、技術三位一體
24、的管控體系,實現標準數據的企業級管理,為數據消費提供合標數據。統一實施。保持標準的企業級統籌模式,同步開展數據治理,逐步驗證數據標準。統籌常規項目貫標,加強需求管控和數據監測。統一宣貫。要實現數據統一的目標,標準制定是核心,全員掌握是關鍵,行內宣貫標準,統一業務與技術語言。12(4)技術評估一是模型評估。選定主流評估模型,如 2018 年發布的國家標準數據管理能力成熟度評估模型(DCMM),從標準的定義、分類等評估點對各項標準的成熟度水平進行綜合評估。二是專家評估。選定評估人,立足行內系統現狀開展標準落地可行性評估,以標準能否產生實效為主要評價原則、標準可落地實施為導向,評估標準制定產出成果的
25、完備性、標準落地實施建議的合理性。5.團隊建設群銀行應通過聚焦數智賦能、推動業技融合發展,開展形式各樣的團隊活動,提升團隊凝聚力。一方面,搭建舞臺,營造競技氛圍。行內外定期舉辦數據分析、運維技能、團隊編程等各項大賽,全方面組織大賽方案、平臺支持、數據準備、賽題討論、宣傳規劃等工作,激發科技條線人員參與積極性,為科技人才施展才華、技術交流提供成長成才的舞臺,發掘培養更多的專業人才。同時,重視培訓,發掘培育人才。定期舉辦培訓班,強化信息科技骨干人才專題培訓,打造信息科技交流專業溝通平臺,促進“數據+人工智能”深度融合,提高科技發展合力;打造系列分享培訓品牌,組建興趣小組,拓展興趣、提升技能,踐行終
26、身學習理念,幫助員工成長成才。二、數據智能技術演進趨勢數據智能作為跨多學科的研究領域,涵蓋大規模數據處理、13數據可視化、數據挖掘、機器學習等廣泛的技術方向。本章著眼于當前技術發展現狀及未來趨勢,從底層基礎支撐、上層智能應用、全生命周期工程化建設三個方面,介紹數據智能領域內的前沿熱門研究課題及其在企業數字化轉型中發揮的重要作用。(一一)強強化化基基礎礎支支撐撐,推推進進數數據據互互聯聯共共享享1.湖倉一體,夯實企業級數據底座湖倉一體是當下大數據領域的一個熱門概念,是一種新型的開放式架構,打通數據倉庫和數據湖兩套體系,將數據倉庫的高性能及數據管理能力,與數據湖的靈活易擴展特性融合起來,支持多類型
27、的數據存儲,打通湖和倉之間的數據壁壘,減少數據冗余,支持數據實時查詢和在線分析,為企業級數據存儲和管理、數據治理、數據應用帶來了極大便利性。表 1 數據湖和數據倉庫對比對對比比維維度度數數據據倉倉庫庫數數據據湖湖應用場景結構化數據分析、決策支持多種類型數據的分析探索數據容量一般為 TB 級別,遠高于傳統關系型數據庫PB 級別,可用來存儲所有原始數據數據質量數據質量高大量原始數據,數據質量較難保證,需要數據治理數據價值有數據模型頂層設計,數據經過加工,價值密度高數據多而全,原始數據價值密度較低適用對象業務分析師數據開發人員、數據科學家數據湖和數據倉庫的對比如表 1 所示。從名稱來看,湖倉一體即數
28、據湖和數據倉庫的結合。數據倉庫非常適合結構化的數據,但是金融機構必須處理非結構化數據、半結構化數據以及具有高14度多樣性、實時性和大容量特征的數據,數據倉庫不適用于許多此類場景;數據湖適合存儲海量數據,但是缺少一些關鍵功能,比如不支持事務、缺乏一致性/隔離性、不能保證數據質量等。由此可見,數據倉庫和數據湖各有優點,適用場景不同,無法簡單替代。而湖倉一體的概念,則避免了二選一的問題。當前湖倉一體架構實現思路主要有湖上建倉和數倉入湖兩類:湖上建倉是將數據湖作為基礎架構,并在湖內引入數倉建模能力;數倉入湖是以數據倉庫架構為主,將底層數據納入數據湖進行統一存儲,實現計算、存儲分離。企業選擇的湖倉一體建
29、設路徑可能不同,但最終目的都是實現數據湖和數據倉庫的有機融合,同時發揮二者的優勢,湖倉一體技術架構見圖 3。圖 3 湖倉一體技術架構業界普遍認為,湖倉一體作為新一代大數據技術架構,將逐漸取代單一數據湖和數據倉庫架構。通過將數據湖和數據倉庫的優勢進行融合,構建一體化數據處理平臺,支撐多模態數據統一存儲、統一管理、統一服務,提升金融機構企業級數據存儲及應用效能。152.實時數倉,高效應對實時場景數字化轉型驅動下,金融業務場景邁向線上線下一體化,實時化需求日益成為金融業數據應用新常態,實時數倉是在離線數倉基礎上進一步滿足時效性的要求,依托流批一體、湖倉一體、云計算等技術,兼具時效性和靈活性優勢,促進
30、金融業建設實時數倉作為實時數據的生產、存儲和使用平臺。依托實時數倉“T+0”實時數據供給模式,金融機構可以及時洞察業務全貌,做出更快、更準確的智能決策,推進經營管理、風險防控、營銷推薦等質效提升。實時數倉主要是為了解決傳統數倉數據時效性低的問題,技術路線上有多種建設路徑。一種是基于 Lambda 架構的實時數倉,作為當前主流的實時數倉架構,金融行業在其現有成熟完備的離線加工鏈路上,增加實時計算鏈路,參照數倉 ODS、DWD、DWS 等分層資產組織理念,實現與離線數倉的協同,通常采用 Kafka 消息隊列、Flink 等計算引擎的組合實現,建設成本降低,但也存在架構復雜,運維成本較高的不足;一種
31、是基于 Kappa 架構的實時數倉,與 Lambda 架構相比,移除了離線生產鏈路,優點是架構相對簡化,數據來源單一,共用一套代碼,開發效率高,但此類實時數倉不易進行數據回溯,比較消耗內存計算資源;此外,還有一類采用實時OLAP技術,將聚合分析計算由OLAP引擎承擔,減輕實時計算部分的聚合處理壓力,分析自由度高,減輕了計算引擎的處理壓力,但對查詢引擎的吞吐、存儲和實時攝入、分析16性能要求較高,此類實時數倉通?;谏虡I數據庫產品,如Hologres、GaussDB 等。近年來,大數據、云計算、數據湖等相關技術的快速發展,大大促進了實時數倉技術的發展,實時數倉技術發展呈現新的趨勢特點:(1)湖倉
32、一體化。依托數據湖基礎底座,數據入湖后可原地進行數據處理加工,依托 Hudi、Iceberg 等流批一體存儲模式,避免數據多份冗余以及流動導致的算力、網絡及成本開銷,可作為超大型的數據存儲資源池,實現對全量數據的實時處理。(2)云原生。依托云建設實時數倉,典型特征是存算分離,實現計算和存儲的彈性伸縮,降低成本和提高資源利用率。實時數倉可根據算力和存儲的需求,靈活地單獨擴展計算或存儲資源。(3)現代數據棧。利用現代數據棧提升實時數倉能力,通過降低 ETL、BI、數據質量與數據安全等周邊工具的使用門檻,推動“人人用數”目標的實現。3.數據編織,推動智能化數據管理自 2019 年起,Gartner
33、連續 3 年將數據編織列為年度數據和分析技術領域的十大趨勢之一。數據編織是一種設計概念,可作為數據和連接流程的集成層,通過對現有、可發現和可推理的元數據資產進行持續分析,數據編織能夠在所有環境中設計、部署和利用集成數據。Gartner 將數據編織定義為如下 6 大組件,如圖 4 所示。17圖 4 Gartner:Maturity of Data Fabric Components1組件 1:增強數據目錄?;跀祿驮獢祿罱〝祿夸?,能夠清晰地描述所有交易系統、數據倉庫等各有什么數據,數據的業務和技術屬性都有哪些,如何有效地組合。組件 2:語義知識圖譜?;跀祿夸?,以及數據之間的聯系,搭建知
34、識圖譜,提供語義識別,從業務角度識別數據之間的關聯關系。組件 3:元數據激活。實時地利用現有元數據,收集系統中業務用戶操作日志,將二者結合形成可用于進一步發現、挖掘、推薦的基礎數據,提供管理輔助推薦指導。組件 4:推薦引擎。利用機器學習等 AI 技術,根據業務用戶分析使用、建模操作的日志,推薦可用數據,方便用戶開展建1圖片來源:Gartner:What Is Data Fabric Design?18模分析,優化流程。組件 5:數據準備與交付。業務人員進行嘗試性的數據探查,通過數據虛擬化鏈接開展,而不必搬移數據。確定可行后交付給IT 人員通過 ETL 等方式實現持久化。組件 6:數據編排與 D
35、ataOps。數據協同與 DataOps,實現用戶與平臺工具的交互。表 2 數據編織產品能力對比公公司司數數據據編編織織產產品品主主要要能能力力功功能能IBMCloud Pak forData4.0智能化的數據編織,能為數據目錄管理、隱私保護、數據訪問等場景提供服務智能化的數據目錄自動化的數據隱私虛擬數據訪問AutoAIDenodoDenodo 虛擬化突出數據的虛擬化數據虛擬化引擎增強版數據目錄主動元數據具有擴展元數據的語義層基于 AI 的建議DataOps 和多云配置InformaticaCLAIRE建立數據連接,識別敏感數據,在發現、探查、準備、集成、發布、可視化、共享等數據中運用 AI
36、能力實現自動化;增強數據目錄元數據知識圖譜元數據激活和推薦引擎數據準備與數據交付編排和 DataOpsCambridgeSemanticsAnzo實現快速數據查詢,數據集成、轉換與分析連接全域數據語義化數據高級分析快速交付簡言之,數據編織的本質是在元數據的驅動下,通過業務語義知識圖譜、AI 機器學習和數據虛擬化等技術來管理分布的、異構的數據。數據編織價值在于能夠更方便地管理、使用數據,19能夠激活數據消費,加速數據的價值轉換。根據自身技術架構、優勢不同,各企業和金融機構在數據編織領域提出了不同的產品和解決方案,其產品能力對比如表 2 所示。4.隱私計算,賦能金融數據安全隨著互聯網和各種數字技術
37、的普及,海量數據被生成、收集,其中包含了大量個人敏感信息,保護個人隱私的需求變得更加迫切。與此同時,數據共享和合作需求也與日俱增,不同機構和個體之間需要共享數據以實現更好的合作和創新。在此背景下,國內外出臺了大量隱私保護法律法規,組織和企業將面臨更嚴格的隱私合規要求。隱私計算應運而生,既可以實現安全的數據合作和共享,同時可以保護參與方的隱私,滿足政策合規要求。隱私計算(Privacy-preserving computation)是一種將數據隱私保護和計算需求相結合的技術。在處理和分析數據時最大程度地保護個人隱私,實現數據流通與融合過程中的“可用不可見”。傳統的計算方法通常要求將原始數據集集中
38、到中央服務器或計算節點上進行處理,可能會導致個人隱私泄露。而隱私計算通過采用一系列加密、匿名化和安全計算技術,使得計算過程中不暴露明文,從而有效保護個人隱私。隱私計算包括多種技術,包括:多多方方安安全全計計算算技技術術,利用秘密分享、同態加密、零知識證明、混淆電路、不經意傳輸、差分隱私等算法,解決多方數據聯合計算的信息保護問題,安全地釋20放數據價值;聯聯邦邦學學習習技技術術,由兩個或兩個以上數據方共同參與,在保證數據方各自原始數據不出其定義的安全控制范圍的前提下,協作構建并使用機器學習模型的技術架構;可可信信執執行行環環境境,一種基礎硬件和操作系統的安全架構,通過技術手段在 CPU 中建立一
39、個硬件層面完全封閉的受信任環境,保證在安全區域內部加載的代碼和數據在機密性和完整性方面得到保護,其目標是確保計算任務按照預期執行,保證任務初始狀態和運行狀態時的機密性、完整性。隱私計算在近年來得到了廣泛的關注和研究,在各方面都有了顯著發展。技術研究與算法方面,同態加密、安全多方計算、差分隱私等技術不斷改進和應用,能夠更好地滿足實際需求。開源工具與框架方面,出現了大量開源的隱私計算工具和框架,為開發者和研究人員提供了方便的工具和平臺,使得隱私計算的實踐更加便捷。應用領域探索與實踐方面,不同領域的應用都在不斷探索和實踐中。例如,醫療保健、金融風險評估、大數據分析等領域都有相關的隱私計算應用案例。這
40、些實踐經驗有助于驗證技術的可行性并引導隱私計算未來的發展方向。盡管隱私計算已經取得了大量成果,但金融機構在應用過程中仍面臨一些挑戰。例如,計算性能和效率仍然需要改進,尤其是復雜任務的性能;安全性和隱私保護水平需要不斷提高,適應不斷發展的算法攻擊方式。21(二二)打打磨磨 A AI I 利利器器,推推動動金金融融智智能能化化升升級級1.知識圖譜,深化關聯數據分析知識圖譜(Knowledge Graph)是人類認知世界的基本框架,是一種圖結構數據表示語義網絡,其最基本元素是實體和關系(即圖的點和邊),可以形式化地描述現實世界中實體或概念之間的關系以及相應的屬性信息,可以讓機器更好地理解人類的語義信
41、息。知識圖譜的一種通用表達形式是三元組,即,SREG。其中,E是實體的集合,R是關系的集合,S是三元組的集合。每個實體都有且只有一個唯一的 ID 表示,關系用于描述實體之間的關聯,并且實體和關系都可有其屬性和對應的屬性值。知識圖譜技術實現多模數據的高效鏈接,能夠從海量數據中提取關鍵信息,挖掘數據間的隱含價值,精準洞察群體特征,有助于信息的分析和推理,解決了傳統技術局限于實體本身屬性進行價值挖掘的短板,能夠識別實體間的特征傳遞,廣泛應用在金融領域多種場景中:(1)基于知識圖譜的反欺詐、營銷、集團風險識別、產業鏈挖掘等,其本質是利用復雜關聯關系網絡,深入挖掘隱含信息,并以可解釋的圖形化展現形式,輔
42、助業務場景的分析和決策。(2)基于知識圖譜的問答與對話,基于意圖識別及知識圖譜的問答系統,知識圖譜能夠增加數據特征維度,增強語義理解,支持多輪對話。(3)基于知識圖譜的搜索與推薦,基于知識圖譜及深度學22習的推薦系統,通過知識圖譜構筑基礎的知識推理能力和輔助信息,能夠大幅提升推薦效果。(4)事件知識圖譜、基于事件間邏輯關系分析的事理圖譜,實現基于事件的風險分析預測,應用在金融風險在風控、營銷、投資決策等場景。知識圖譜是人工智能的重要基石,是大數據深入發展的時代產物,隨著人工智能從感知智能向認知智能演進,知識圖譜成為下一代人工智能的核心技術。在工信部發布的“十四五”大數據產業發展規劃中強調促進多
43、維度異構數據關聯,創新數據融合模式,提升多模態數據的綜合處理水平,加強“知識圖譜”等關鍵技術研發,推進面向金融、能源等行業企業智能服務應用;中國人民銀行印發的金融科技發展規劃(20222025 年)中指示了多項知識圖譜相關工作;Gartner 預測到 2023 年全球30%的企業都將使用圖技術來支撐起智能商業決策,到 2024 年圖存儲和圖分析將全面代替舊有的數據資產管理。2.可信 AI,提升模型可靠與可解釋性當前,新一代人工智能(AI)技術蓬勃興起,相比傳統的感知智能階段,AI 已進入到更高階的智能決策階段。對于金融行業,營銷、風控等高價值場景的 AI 應用需求不斷增加,人工智能的安全問題、
44、可解釋性問題、公平性問題等愈發重要。增強AI 使用信心、形成良性的可信生態以及構建行業可信標準體系已成為金融領域在內各行業的重要關切。23AI 算法的輸出是概率,不確定的本質讓其決策天生隱含爭議。AI 的風險隱患主要有:模型黑箱導致算法不透明、數據歧視導致模型偏見、數據濫用導致隱私泄露風險等。面對 AI 引發的全球信任焦慮,發展可信 AI 已成為全球共識。中國科學家何積豐院士于 2017 年首次提出可信人工智能的概念,即人工智能技術本身具備可信的品質,其核心內涵就是以人為本、堅持技術向善。中國信息通信研究院發表的 可信人工智能白皮書 中提出,可信 AI 的支撐技術主要包含穩定性、可解釋性、隱私
45、保護、公平性等。A AI I 穩穩定定性性技技術術:AI 系統面臨著多種威脅和攻擊,包括中毒攻擊、對抗攻擊等。穩定性技術就是如何抵御攻擊的技術,包含有異常數據檢測、對抗訓練等方法。但目前各種干擾手段層出不窮,AI 系統穩定性仍面臨諸多挑戰。A AI I 可可解解釋釋性性技技術術:以深度學習算法為核心的 AI 算法就像一個黑箱,相關可解釋性研究仍處在初期。學術界的研究包括建立適當的可視化機制嘗試解釋模型的中間狀態等。AI 落地過程中,應堅持以人為本的初心,做到對人類更透明、更易理解。增強AI 系統的可解釋性已是刻不容緩。A AI I 隱隱私私保保護護技技術術:算法數據流轉及模型本身都有可能泄露隱
46、私數據。針對該問題,目前最常見的技術為基于差分隱私和基于聯邦學習的隱私保護方法。保護個人隱私,是 AI 技術的難題,24也是 AI 良性發展的契機。A AI I 公公平平性性技技術術:AI 模型訓練過程在涉及性別等與人相關的敏感屬性時,常常會由于各種原因引入不公平的歧視性行為。導致模型不公平的原因主要是數據集不均衡及算法本身??刹扇〉拇胧┯校禾岣哂柧殧祿|量、改進算法降低對敏感屬性的依賴等。目前可信 AI 還處在發展初期,行業層面的實踐主要是可信AI 的標準體系構建,旨在推動形成一個良性的可信生態?!翱尚?AI”理念成為全球共識,也是未來 AI 產業健康發展的必由之路。共識之下,包括銀行在內
47、的各大金融機構均在加速可信 AI落地進行時,助力在營銷、風控、推薦等金融場景更安全可信。3.大小模型協同,推進端云全方位協同進化大小模型協同使用多個不同大小的模型來完成一個機器學習任務。大模型(如 OpenAI GPT)通常具有較多的參數,可以在復雜任務中生成高質量的結果,但是需要更多的計算資源。小模型(如 MobileBERT)需要較少的算力,可以在資源受限的環境(如移動設備)中運行。在大小模型協同的任務中,通常使用大模型進行預處理和特征提取,并將生成的特征作為小模型的輸入;然后由小模型對這些特征進行分析,生成最終結果。大小模型協作是一種高效的機器學習技術,可以在保證結果質量的同時降低計算成
48、本,因此被廣泛應用在各種機器學習任務中。其具有以下幾個特點:25可可靠靠準準確確:大模型通常具有更多的參數,可以生成較高質量的結果,補充的小模型還可以通過處理大模型生成的特征進一步提高結果的準確性。資資源源使使用用效效率率高高:大小模型協作的設計充分利用了大模型和小模型的優勢,使計算成本最小化。模模型型適適應應性性強強:大小模型協作可以應對各種環境,在資源受限的環境中使用小模型,在需要高質量結果的環境中使用大模型??煽蓴U擴展展性性強強:大小模型協作是一種模塊化的設計方法,可以根據需要增加或減少模型數量,以適應不斷變化的業務需求。模模型型訓訓練練效效率率高高:大小模型協同可以加速模型訓練,每個模
49、型的任務范圍有限,無需對全量數據進行訓練。隨著大小模型協同技術研究的不斷深入,其已經被廣泛應用于各種不同的場景,如語音識別、圖像識別、自然語言處理等。未來技術發展呈現以下趨勢,一一是是模模型型組組合合技技術術會會不不斷斷提提高高,模型組合技術是大小模型協作的重要組成部分,隨著技術的提高,模型組合技術也在不斷改進,以提高模型的效率和穩定性;二二是是模模型型規規模模會會大大幅幅增增加加,隨著硬件資源的不斷升級,模型的規模也會不斷增加,使模型具有更多的參數,從而可以生成更高質量的結果;三三是是模模型型訓訓練練效效率率會會極極大大提提高高,目前大量研究正在尋求更有效的訓練方式,以提高模型的訓練效率。4
50、.大模型,聚焦 NLP 任務統一和多模態模型支持自然語言處理是計算機科學和人工智能的重要分支,研究計26算機如何理解和處理自然語言。傳統的 NLP 技術需要大量的人工規則和語言知識庫,而且難以處理語義和上下文等復雜問題。近年來,隨著深度學習和神經網絡技術的發展,基于深度學習的NLP 技術開始逐漸成為主流,其中 GPT 是一種非常優秀的技術。GPT 是由 OpenAI 開發的一種基于 Transformer 架構的預訓練語言模型,使用無監督學習方法從大規模的語料庫中學習語言模型,可以自動生成高質量的文本,如文章、對話、問題答案等。GPT 已經在自然語言生成、問答系統、文本分類等領域取得了重大進展
51、,成為自然語言處理領域的一個里程碑式的技術突破。ChatGPT 是一種基于自然語言處理(NLP)和人工智能(AI)技術的對話系統,使用 OpenAI 訓練的大型語言模型 GPT(Generative Pre-trained Transformer)作為核心技術。ChatGPT 使用自然語言理解(NLU)和自然語言生成(NLG)技術,可以自動理解用戶輸入的自然語言文本,生成自然語言響應,從而實現對話交互。與傳統的對話系統相比,ChatGPT 不需要預先定義對話流程或規則,也不需要對話庫或語言知識庫,可以自主學習和適應用戶的輸入和反饋,可以處理上下文和語義等復雜問題,可以生成更加流暢和自然的語言響
52、應。ChatGPT 主要有以下三個特點:(1)強大的自然語言理解和生成能力:ChatGPT 使用 GPT技術,可以自動理解用戶輸入的自然語言文本,并生成自然語言響應,生成的響應質量高,語言流暢自然。27(2)自適應學習和適應性:ChatGPT 可以自主學習和適應用戶輸入和反饋,可以不斷優化模型的性能,提高對話質量。(3)可擴展性和靈活性:ChatGPT 可以根據需要擴展詞匯表和知識庫,可以處理不同領域和語言的對話任務,可以適應不同的對話場景和環境。5.自適應 AI,強化主動學習進化能力隨著數據量的不斷增加,機器學習在數據分析、預測分析、圖像識別、自然語言處理等領域得到了廣泛應用。然而,機器學習
53、的流程非常復雜,需要專業知識和技能才可以開展工作。在此背景下,AutoML(Automated Machine Learning)應運而生,是一種人工智能技術,主要目的是通過自動化的過程來簡化機器學習流程,使得非專業人員也能使用機器學習來解決實際問題。AutoML 包括數據準備、模型選擇、超參數調整等模塊,并通過自動化的過程,將各個模塊串聯起來,提高機器學習的效率和準確性。AutoML 涉及多種技術,包括機器學習:使用模型學習和預測數據,自動生成高效的預測模型;計算機視覺:AutoML 借鑒了計算機視覺的技術,如圖像識別和深度學習,以解決復雜的機器學習問題;大數據技術:AutoML 需要大量的
54、數據來訓練模型,并在大數據環境中進行有效的處理;分布式計算:處理大規模的數據和模型,以提高訓練速度和效率;優化理論:解決機器學習問題,提高模型的準確性和效率。28AutoML 具有以下特點:自動化:自動完成機器學習的各個步驟,如特征工程、模型選擇和超參數調整,提高模型的效率和準確性;效率高:通過自動化和大數據技術來提高模型的訓練效率,減少人工參與的時間;簡單易用:AutoML 對專業人員和非專業人員都很友好,不需要深入了解機器學習知識,可以更便捷地生成機器學習模型;準確性高:通過使用大量的數據和最先進的機器學習技術,生成高準確性的機器學習模型;應用領域廣:AutoML 適用于各種領域,如圖像識
55、別、自然語言處理、金融預測等,可以解決多種機器學習問題;可擴展性強:可以通過添加新的數據和模型來擴展功能,以適應不斷變化的業務需求。AutoML 技術目前仍在迅速發展,其未來有如下趨勢:一是更加智能化,AutoML 的智能化程度將不斷提高,更好地適應業務需求,提供更高效的解決方案;二是模型選擇技術提升,AutoML將不斷開發更先進的模型選擇技術,來提高模型的準確性和效率??山忉屝栽鰪姡篈utoML 將強化模型的可解釋性,使用戶能夠更好地理解模型的決策過程。三是全生命周期管理,AutoML 將提供全生命周期的機器學習管理功能,包括數據預處理、模型訓練、模型評估、模型部署等;四是模型集成,在未來,
56、AutoML 將支持多模型集成,通過多模型協作實現更高的準確性和效率;五是云支持,支持多種云平臺,提供更靈活的部署選擇。6.人工智能生成內容(AIGC),推動數字化內容創造隨著人工智能技術的不斷發展,人工智能生成內容(AIGC)29已經成為數字化內容生產與創造的一個重要方向。AIGC 利用計算機算法和機器學習技術生成各種形式的內容,包括文字、圖像、音頻和視頻等。AIGC 的基本原理是通過對大量已有的內容進行學習,從而能夠生成具有相似風格和語義的新內容。AIGC 的訓練需要依賴于大量的數據,這些數據可以是已有的文本、圖像、音頻和視頻等。在訓練過程中,AIGC 會分析這些數據的規律和特點,并將這些
57、規律和特點用于生成新的內容。AIGC 的生成模型通常采用深度學習算法,如循環神經網絡(RNN)、卷積神經網絡(CNN)等。這些算法可以根據輸入的數據自動學習其特征,并利用學習到的特征生成新的內容。例如,在文本生成方面,可以利用循環神經網絡生成一篇文章的開頭,然后根據生成的開頭不斷迭代生成文章的中間和結尾。在圖像生成方面,可以利用卷積神經網絡生成一張具有特定主題或風格的圖片。AIGC 已經被廣泛應用于各種領域,包括自然語言處理、計算機視覺、音頻處理和視頻處理等。(1)自然語言處理領域AIGC 在自然語言處理領域中被廣泛應用于文本生成、機器翻譯、情感分析等任務。例如,在文本生成方面,可以利用 AI
58、GC生成文章、新聞、評論、廣告等內容,幫助企業快速生產大量的文本內容。在機器翻譯方面,可以利用 AIGC 將一種語言翻譯成另一種語言,如將英語翻譯成中文。在情感分析方面,可以利用30AIGC 對一段文本的情感進行分析,如判斷一篇文章是正面評價還是負面評價。(2)計算機視覺領域AIGC 在計算機視覺領域中被廣泛應用于圖像生成、圖像識別、圖像分割等任務。例如,在圖像生成方面,可以利用 AIGC生成具有特定視覺特征的新圖像。在圖像增強方面,AIGC 可通過對模糊、噪聲、失真等問題進行修復,提高圖像質量。在目標檢測方面,AIGC 可通過學習不同物體的形狀、大小、紋理等特征,實現自動化目標檢測。此外,A
59、IGC 的應用領域還包括虛擬現實、增強現實、智能家居、智能醫療、智能交通等多個領域。通過 AIGC 技術的應用,這些領域可以實現更加智能化的服務和管理,為人們的生活帶來更大的便利和安全性。AIGC 技術在未來的發展前景非常廣闊,將為各個領域提供更加智能、高效、便捷的解決方案。(三三)深深入入 B BI I 應應用用,持持續續釋釋放放數數據據價價值值1.極速引擎,支撐海量數據秒級分析極速引擎是一種 OLAP 在線分析處理引擎,是集統一訪問、智能加速、運營管控為一體的 BI 加速框架,支撐海量數據的分析查詢。隨著數字化轉型的深入和業務量的增長,數據量也飛速增長,業務人員需要對海量數據進行快速地查詢
60、分析,以響應市場需求和管理需求。極速引擎通過預計算技術,實現海量數據(從幾千萬到億級別以上)查詢也可以秒級響應,提高分析用戶的查31詢體驗,解決企業 OLAP 分析的快速響應、高并發瓶頸問題,支撐靈活分析、指標查詢、報表查詢、多維分析等場景。極速引擎的核心技術包含預計算技術、分層加速、AI 增強建模和智能化管理等。(1)預計算技術預計算技術是事先將數據按維度組合進行聚合計算并保存成 Cube 文件,聚合后的數據規模只由維度的基數決定,而不再隨數據量的增長而線性增長。由于查詢過程不再掃描原始記錄,而是利用 Cube 結果執行查詢,所以速度相比非預計算的查詢技術一般快一到兩個數量級左右,在超大的數
61、據集(千億乃至萬億級別)上優勢更明顯。對于高并發瓶頸,只需擴充硬件資源,即可實現線性擴展。(2)分層加速極速引擎會對不同的查詢場景自動選擇合適的引擎進行響應,協同底層引擎,對外統一服務。對匯總查詢采用預計算的Cube 進行響應,對明細查詢采用 Clickhouse 進行響應,對剩余極少量的沒有建模的特殊場景采用 MPP 數據庫進行響應。(3)AI 增強建模和智能化管理創新支持通過 SQL 自動生成 Cube 模型,同時根據客戶場景,智能地提供 Cube 優化策略,大大節約人工管理及運維成本。從業內的使用經驗來看,常見的大數據 OLAP 技術主要包括預計算(以 Kylin 為代表)、內存計算(以
62、 Spark 為代表)、倒32排索引(以 Elastic Search 為代表)和向量化引擎加列式存儲MPP(以 ClickHouse 為代表)。其中內存計算(Spark)、倒排索引(Elastic Search)、列式存儲等技術,雖然其技術原理各不相同,但都是在查詢執行時(Runtime)對明細數據進行在線地匯總統計,因此其查詢耗時會隨著數據量的增長而線性增長。極速引擎則綜合利用 Kylin、ClickHouse,加速訪問海量數據,整合來自不同系統的數據,為企業提供一個完整的統一的數據訪問通道,對外提供統一的海量數據快速查詢接口。在金融業的場景應用中,極速引擎可廣泛應用于貸款、存款、基金、債
63、券、理財、三方存管、信用卡等業務領域,支持營銷、風控、考核等場景:支撐靈活分析、指標、報表等進行海量數據的快速查詢;針對基礎寬表,自動進行全字段的通用加速;針對業務模型、指標,通過 AI 推薦進行有針對性的精準加速。2.SaaS BI,提供云原生 BI 能力BI 軟件是一種數據分析工具,能夠幫助企業從多個角度和層面上分析、理解和使用其數據資產,從而更好地制定決策和管理業務。BI 軟件通常包括極速引擎、數據分析、報告和可視化等功能,讓企業實現更加高效、準確地獲取商業信息并為企業管理提供決策依據。伴隨著大數據、數據湖等領域的發展,BI 領域整體的發展趨勢也是朝著配置更加靈活、性能按需伸縮的方向發展
64、。在具體應用開發部署方面,整體行業趨勢是采用云原生容器化方式進行33部署配置與實現。SaaS(Software as a Service)中文含義為軟件即服務,通常伴隨云原生(Cloud Native)使用,是現代云計算中的重要概念。SaaS BI 是將商業智能 BI 軟件通過 SaaS 的模式對外提供服務。一般采用 SaaS 概念實現,基于云原生技術落地。SaaS 技術主要包含以下特點:(1)多租戶架構:SaaS 采用多租戶架構,多個用戶可以共享同一套軟件應用程序,每個用戶擁有自己的數據和應用程序配置。(2)高度可擴展:SaaS 可以根據用戶的需求動態調整資源,如存儲、帶寬、處理器等,具有高
65、度可擴展性,能夠滿足用戶的不同需求。(3)云端部署:SaaS 應用程序是基于云端部署的,用戶無需購買和安裝軟件,只需通過互聯網即可訪問應用程序。(4)訂閱制度:SaaS 采用訂閱制度,用戶只需按照需要購買相應的訂閱服務即可使用應用程序。(5)自動升級:SaaS 應用程序具有自動升級功能,即軟件供應商可以在云端服務器上升級和維護,用戶無需自己安裝和升級軟件。(6)安全性:SaaS 提供商通常有專業的安全團隊來保證用戶的數據安全,采用多種安全技術和措施來保障用戶的數據安全?;?SaaS 的上述特點,SaaS BI 主要解決軟件交付的問題,降低用戶的使用門檻?;?SaaS 化技術,用戶只需要通過
66、互聯34網訪問和使用軟件應用程序的方式來獲取相應的 BI 服務,按需訂閱即可使用應用程序,無需購買和安裝軟件。在實際場景應用中,SaaS BI 工具結合金融行業背景,非常擅長解決指標中心、標簽中心、靈活查詢、固定報表、多維分析、可視化大屏等領域的應用問題。(四四)研研發發運運營營一一體體化化,加加速速數數據據智智能能應應用用落落地地1.DataOps,敏捷響應業務需求數據研發運營一體化(DataOps)是一種面向數據全生命周期,以價值最大化為目標的最佳實踐,聚焦于協同從數據需求輸入到交付物輸出的全過程。DataOps 對標研發運營的根本目標,在價值運營、系統工具、組織模式、安全風險管理的支撐下
67、,實現數據研發運營的一體化、敏捷化、精益化、自動化、智能化、價值顯性化理念。DataOps 數據研發運營一體化,是數字化轉型核心的關鍵手段和重要支撐,可通過三個層面開展能力提升工作,如圖 5。圖 5 DataOps 數據研發運營一體化提提升升基基礎礎能能力力:數據基礎能力主要包括了數據集成、模型設35計、數據開發、數據安全、數據質量、自助分析等能力。通過引入數據湖產品,構建存算分離、云化的大數據基礎底座,夯實大數據基礎能力。提提升升工工程程化化水水平平:根據數據服務的不同場景,構建標準化的數據服務流水線,為每個環節提供配套的線上化工具、制度規范和量化運營監測,最終實現數據資產的工程化建設、規模
68、化積累,支撐數據規范化治理水平迭代提升:流流水水線線:全量梳理寬表、AI、BI 等領域的數據研發流程,明確各環節的角色職責和人員分工,提煉固化,在天工平臺建立專門的數據服務流水線,滿足標準化、工程化流水線實施的要求。工工具具鏈鏈:基于數據服務流水線,結合 ITA、數據開發平臺、指標中心、標簽中心等大數據開發組件,構建線上化、可視化、自助化的配套工具鏈,降低用戶建模、開發、分析等數據活動的使用門檻。制制度度規規范范:發布可落地的技術標準,包括需求模板、模型設計規范、編碼規范、測試規范等,形成“軟規范”;將標準嵌入流水線和工具中,建立質量門禁,形成硬約束,實現“硬約束”。評評價價度度量量:構建大數
69、據領域專用研發運營指標體系,如需求交付質量、數據時效偏差等運營指標,落地“運行-評價-反饋-整改”的數據治理運營閉環,精準提升數據服務效36率和質量。提提升升組組織織協協同同效效率率:基于 DevOps 軟件持續交付的理念,在數據服務領域實現數據研發的持續集成、持續部署、持續交付,提升數據在研發、測試、投產等環節的協同效率,實現數據服務的高質量快速交付。2.MLOps,快速交付 AI 應用服務人工智能研發運營一體化(Model/MLOps)聚焦于機器學習模型的全流程工程化實施,通過在模型開發部署的全流程中優化數據管控、模型開發測試、模型部署運營、人員協同、敏捷交付迭代等工作,解決機器學習模型的
70、工程化問題。從 2019 到 2022,MLOps 已連續 4 年進入 Gartner 數據科學與機器學習技術成熟度曲線。人工智能工程化,是金融場景規?;咝зx能的必經之路。將 AI 模型的全生命周期梳理為流程化、標準化的閉環,通過持續監控及驗證以不斷訓練模型,達到優化的效果。MLOps 是人工智能工程化的重要組成和方法,目前還是一個比較新的概念,但企業對其需求在與日俱增。(1)制度流程是保障人工智能體系相關的制度規范覆蓋平臺、應用、人員的管理,讓日常的工作開展有章可循、有規可依。通過規范的約束,人員角色和職責清晰,平臺開發和管理規則明確,質量有所保障,人員協作流程順暢,工作效率更高。37(2
71、)業技數融合模式是基礎基于 MLOps 構建的數據流水線、模型流水線標準化流程降低建模門檻,實現業務數據探索及模型研發,進而改變傳統需求驅動的單一模式,支持“數據分析師+數據分析項目”一體化的業技融合、業務自助分析雙輪驅動模式,敏捷響應市場需求。(3)工具平臺是根本低門檻低代碼的 AI 平臺,提供流水線的服務,具備大規模工程化的能力,讓數據分析師更方便、快捷、順滑地做好 AI 建模。建模流水線工具的引入,提高了建模過程的自動化程度,規避了一些人工操作帶來的風險,為模型實驗的追溯復現提供了支持,相比來看,模型開發周期和部署周期大幅縮短,模型選擇和更新易于實現從而保證了模型質量。(4)資產沉淀是引
72、擎特征庫、算法庫、模型庫等一系列資產的沉淀,為 AI 工程化提供加速的能力,企業級 AI 資產沉淀,是全行 AI 深度應用的加速器。為促進資產復用,提高效率和自動化水平,讓數據分析師專注建模而不是關注算子實現本身。(5)運營機制是關鍵模型的管理、資產的運營、AI 流程的工具化是關鍵,AI 模式的運營機制是 AI 發展持久的動力。將 AI 資產的多維分析統計數據,如熱度,提供給用戶作為開發參考;提升模型的運行服務和運行管理,模型是否健壯,服務是否可靠是模型監控的重點;38模型運行后的數據回流做后評價,關注模型上線后是否達到預期效果、在一段時間后有無效果退化;監控上線模型無流量后或得到用戶的模型下
73、線反饋后,及時下線模型并歸檔。通過 MLOps 的建設,人工智能服務體系實現從項目立項、分析準備、模型構建、模型測試驗證、模型部署、服務接入、后評價與監控的全流程融合、系統打通、人員協同,如圖 6 所示。圖 6 MLOps 人工智能服務體系三、數據智能助力銀行業智能化升級隨著大數據、云計算、人工智能技術的深入發展,金融業正在不斷加大在信息科技建設、信息化產品建設方面的投入,將科技賦能金融服務作為業務發展的重要著力點。在數據智能技術的升級演進中,企業搭平臺、找場景,探索面向金融業務的數字化轉型之道,謀求金融科技創新應用的新突破,推動數字化升級走上快速路。本篇以農業銀行數據智能企業級平臺建設為例,
74、結合中國銀行、招商銀行、北京銀行在數據智能典型應用實踐,介紹數據智能在金融業應用情況。39(一一)數數據據智智能能企企業業級級平平臺臺能能力力建建設設1.數據湖倉平臺在引入數據湖倉一體化建設思路前,企業大數據平臺普遍采用存算一體架構,不支持資源動態擴縮,各數據系統與管理系統獨立運營,數據應用在大數據體系外自行建設。這類大數據體系雖然具備大數據基礎能力和對外服務能力,但隨著數字化轉型進入深水區,業務發展對用數提出更要求,為建立“用好數、好用數”的數據體系價值,仍面臨諸多困難與挑戰:資資源源建建設設成成本本高高。不具備多租戶能力,數據應用需要自行建設大數據環境。流流程程斷斷點點多多。缺少從數據入湖
75、到數據服務的全流程、線上化、一站式工具支撐。數數據據加加工工鏈鏈條條長長。數據在不同系統間需要先復制再使用,增加了數據處理鏈條。缺缺少少統統一一元元數數據據。數據湖、數據倉庫、各數據集市的元數據均自行管理,缺乏統一的元數據管理視圖,更新不及時、準確性難保證。運運營營能能力力弱弱。不具備全流程運營能力,沒有采集數據加工全鏈路的相關指標,缺乏量化運營。案案例例:農農業業銀銀行行數數據據湖湖倉倉平平臺臺40圖 7 農業銀行數據湖倉平臺總體架構在此背景下,中國農業銀行探索構建符合本行戰略和業務發展要求的大數據基礎平臺數據湖倉平臺,尋求湖倉一體化運營管理解決方案。數據湖倉平臺的總體架構如圖 7 所示,該
76、平臺基于云原生的存算分離技術架構,采用資源彈性伸縮模式,建設湖倉一體的大數據基礎底座,全面納管全行大數據,提升數據治理與資源共享能力,實現數據湖與數據倉庫一體化管理與運營,支持建立多租戶,為用戶提供快速的一站式用戶體驗。數據湖倉平臺建設落地,解決了二元架構下數據管理和應用過程中面臨的諸多困難,為農行打造了全流程、一體化的企業級數字化轉型新基座,實現了在統一數據管理、統一數據治理、統一數據開發、統一數據服務、統一平臺工具等多個維度的集中管理,加速全域數據資產到數據價值的轉換,全面賦能數智融合,支撐各業務領域數據智能創新應用,打造農行數據創新新生態。2.實時流計算平臺實時流計算平臺是為適應全行實時
77、分析類需求的應用而開發設計的,集實時流數據分析、運行、管理等功能于一體的基礎41應用平臺。案案例例:農農業業銀銀行行實實時時流流計計算算平平臺臺農業銀行實時流計算平臺的建設可劃分成 3 個發展階段,如圖 8 所示。圖 8 農業銀行實時流計算平臺建設1.0 階段:基于 Storm 原生實時流計算框架,平臺封裝實時計算的常見算子,主要提供流式數據加工,支持存款偏離度、實時存款大屏、總控日志實時 ETL、資金流監測等實時應用。2.0 階段:依托 Flink 流批一體計算引擎,提供 API、SQL等實時作業開發模式,打造一體化實時流計算作業全生命周期管理,實現實時數據標準化對接、資源彈性管理、狀態容錯
78、、TTL清理等功能特性,支撐了基金理財實時標簽、機構存款實時指標等多種實時應用建設。3.0 階段:與數據湖、云計算等深度融合,不斷朝計算虛擬化、存算分離等方向演進,結合湖倉一體、流批一體等技術建設實時數倉。存儲方面,依托 Hudi、Iceberg 等數據湖組件,實現流批數據的接入集成,同時基于 Alluxio 等緩存技術實現存算分離架構下的數據訪問加速;計算框架方面,緊跟社區進展,采用42Flink 流批一體計算框架實現流批數據加工,基于 Yarn、K8s 等技術進一步實現彈性資源管理。低代碼開發方面,平臺提供 SDK、SQL 和可視化配置等方式的平臺級開發,進一步提升實時應用建設場景的落地。
79、此外,實時資產建設方面,平臺提供更加規范、標準的實時數倉分層模型,從 ODS、DWD、DWS、DMI 和 ADS 實時數據分層加工,進一步讓實時數據資產化、可復用,進一步降本增效。實時流計算平臺架構如圖 9 所示。圖 9 農業銀行實時流計算平臺架構圍繞“擴大試點、夯實基礎、共享共建”的思路,平臺響應行內在風控、營銷、決策等領域諸多亟待滿足的業務需求。同時,深度融入湖倉一體建設,借助現代數據棧,實現統一數據血緣、安全管控、服務共享等,助力農業銀行企業級數據應用生態發展。3.AI 平臺AI 平臺面向金融場景,定位是為開發人員、數據科學家提供一個綜合性的、全流程一體化的工具和環境,用以支持人工智43
80、能應用的開發、訓練和部署,簡化人工智能開發的流程、提高開發效率、降低技術門檻、加速應用落地、實現數據價值快速變現。案案例例:農農業業銀銀行行 A AI I 平平臺臺從架構上,農業銀行 AI 平臺分為:數據接入層、基礎計算環境層、AI 基礎服務層、AI 應用層、AI 產品層、統一門戶、AI產品接入層,如圖 10 所示。圖 10 農業銀行人工智能金融服務云應用架構其中,數據接入層負責對接大數據平臺按照調度周期獲取多種格式數據并根據數據目的地對數據進行脫敏處理?;A計算環境包括了算法、計算引擎、數據存儲三個方面,整合了各種 AI建模與運行需要的軟件與數據。AI 基礎服務層支撐了模型的訓練、模型資產管
81、理、模型的發布與運行管理三部分內容,涵蓋了44模型的核心生命周期。AI 應用層作為人工智能云平臺的服務端供各角色用戶登錄進行資源、項目、特征等管理功能。AI 產品中心包含了 OCR、知識圖譜、自然語言處理、時序處理、推薦 5個通用場景引擎,通過 REST API 的形式提供系統間調用接口。AI 產品與接入包含了供用戶進行交互時訪問的統一門戶客戶端與控制系統間調用限流、熔斷控制的 API 服務網關兩部分。AI 平臺主要實現四大目標:快交付:縮短模型研發周期,提高部署、運維效率,推進AI 項目快速落地實踐,敏捷響應業務需求,實現模型的快速更新升級。降門檻:用科技降低建模門檻,提供全民 AI 服務,
82、讓業務人員也能進行分析、建模和應用,讓 AI 無縫融入日常工作中。場景化:聚焦金融場景,沉淀金融場景的 AI 數字資產、模型組件,構建特色化金融 AI 產品,提供面向場景的解決方案。生態化:聚焦 AI 生態的構建,理順組織、人才、流程等要素,通過行內數據挖掘大賽平臺,實現平臺、人才、賦能、能力的全面的提升。平臺在技術上實現十一大核心能力創新:構建企業級 AI 產品 DevOps 體系;搭建一站式人工智能金融服務云(AIaaS);實現基于云架構的 AI 模型一鍵發布技術;搭建企業級 AI 數字資產中心;實現全流程自動化建模核心技術(AutoML);搭建自學習模型更新平臺;實現基于 Severle
83、ss 的 AI 在線推理服務;自主45創新金融 AI 引擎,包括高精度金融 OCR 引擎、知識圖譜引擎、NLP 引擎、智能推薦引擎、時序預測引擎;提出開放智能金融解決方案;打造智能金融新生態;打造“數據挖掘大賽”競賽品牌。業務上實現四大核心創新:以“數據分析師隊伍”建設為契機,以“數據分析示范項目”為抓手,技術人員與業務人員跨部門聯合組隊,對特定業務場景進行數據分析,實現 AI 能力向業務部門推廣;打造以賽帶練的數據分析挖掘大賽,實現數據分析競賽品牌;創新的人才培養體系,通過與頂級科技公司合作,快速落地頂尖技術應用,培養大量 AI 人才;打造 AI 聯合創新實驗室這一全行創新孵化的旗艦品牌,開
84、啟行業合作新模式。4.BI 平臺商業智能數據服務平臺(BI)定位為企業數據的在線自助查詢分析平臺。數據或業務分析師等用戶通過 BI 平臺在線式自助分析領域內數據,借助平臺提供的功能進行主題組織和數據篩選,以圖表等可視化形式形成數據報告或產品,通過經營管理門戶或各領域分析管理門戶進行數據產品的發布和訪問。案案例例:農農業業銀銀行行 B BI I 平平臺臺在平臺建設方面,農業銀行構建全行統一 BI 平臺,重點建設了 SaaS BI 五大能力,如圖 11 所示。46圖 11 農業銀行 BI 平臺總體架構打打造造 B BI I 交交付付中中心心,實實現現 B BI I 能能力力快快速速交交付付。通過租
85、戶化管理,租戶所需的 BI 能力,可線上化、套餐化申請,實現資源一鍵交付,靈活擴展。打打造造 B BI I 模模型型中中心心,支支撐撐 D Da at ta aO Op ps s 數數據據全全旅旅程程。在資產對接方面,對接資產目錄,支持租戶申請數據后,在 BI 平臺消費使用。在算力對接方面,對接 BI 引擎,實現引擎智能配置,支持租戶數據優化加速等。在工具對接方面,對接 BI 分析工具,為各工具提供統一基礎模型視圖。打打造造 B BI I 分分析析工工具具,實實現現全全面面低低代代碼碼分分析析支支持持。實現配置、分析等操作全面自助,靈活適配移動端,滿足行內個性化用數需求。打打造造 B BI I
86、 極極速速算算力力,支支撐撐海海量量數數據據全全場場景景秒秒級級分分析析。實現極47速算力,支持透明查詢,智能加速。打打造造 B BI I 運運營營中中心心,實實現現報報表表共共建建共共享享。在線上管理方面,租戶建、管、用等全流程線上化,功能平臺化強制規范:依托運營指標、運營監測,實現軟規范的硬管控。在成果共享方面,依托運營體系,落地數據共享標準,降低共享門檻。在數據服務建設方面,農業銀行以數據湖倉為基礎,依托BI 平臺,構建數據服務產品生態,面向用戶提供自助靈活的數據產品。建成了標簽中心、指標中心等數據產品。建建設設指指標標中中心心和和指指標標庫庫,通過點選拖拽式操作、直觀業務交互體驗、靈活
87、即時查詢響應,支撐在線指標試配,降低指標分析探查的門檻,提升數據中臺對經營決策的賦能水平。提供自助式指標定義、試算及發布服務,實現指標全生命周期一站式管理與資產沉淀,全面挖掘指標價值。建建設設標標簽簽中中心心和和標標簽簽庫庫,提供一站式基礎標簽定義、衍生標簽定義、標簽靈活查詢、敏捷寬表、數據下發等基礎功能以及統一的用戶管理、權限管理、操作審計等,構建總分共享的客戶標簽數據資產庫,同時建設滿足總分多層次業務需求的數據中臺標簽資產管理服務體系。5.隱私計算平臺隱私計算作為新一代人工智能基礎技術,正在滲透到 AI 商用瓶頸的根源,通過解決數據隱私與數據孤島問題,重塑金融、醫療、城市安防等領域,為構建
88、跨企業、跨數據及跨領域的大數48據和 AI 生態系統提供良好的技術支持。案案例例:農農業業銀銀行行隱隱私私計計算算平平臺臺農業銀行基于聯邦學習,打破數據隔離的限制,引入如銀保信、第三方位置數據、社交數據等多方數據聯合建模,打造面向金融行業基于數據保護、聯邦激勵的聯邦生態,落地信貸風險管理、跨銀行反洗錢、反欺詐、金融產品推薦等場景,同時解決與農行各個子公司之間的數據共享安全,推動數字化農行轉型和智能銀行的發展進程。隱私計算平臺通過分布式隱私計算能力,實現多方數據“不出域”“不泄露”情況下的協同計算,實現“數據可用不可見”。平臺支持豐富的隱私計算功能,包括聯邦學習與多方安全計算兩大類,同時平臺設計
89、符合行內需要,對接行內數據挖掘平臺、用戶身份認證、監控平臺等。實現農銀集團內多分支機構、子公司之間的數據安全流通需求,同時滿足集團與外部合作機構之間的數據聯合應用需求。隱私計算平臺系統核心為隱私計算引擎,通過多方安全計算引擎與聯邦學習引擎驅動隱私查詢、多方安全計算、聯邦學習以及可視化建模等功能。同時系統擁有完備的應用層服務,包含系統管理、用戶管理、數據管理、項目管理、任務管理、日志管理等。系統整體架構如圖 12 所示。49圖 12 農業銀行隱私計算平臺系統架構隱私計算平臺為分布式架構,各參與計算的節點獨立部署隱私計算平臺,各方的數據均不出域,計算過程通過交換加密的中間計算參數與數據碎片完成協同
90、計算,保證各方在數據不泄露的情況下協同計算相應的結果。隱私計算平臺的建設目標可總結為以下三點:搭搭建建全全行行統統一一隱隱私私計計算算平平臺臺:整合聯合統計、隱私求交、匿蹤查詢、聯合建模、聯合預測等技術場景;云化部署及靈活配置;互聯互通實現多合作方對接;統一管理,權限隔離。提提供供靈靈活活的的系系統統接接入入形形式式:提供基礎能力的 API 形式,為全行有隱私計算需求的各業務系統提供服務接入,推動行內數據隱私保護基礎能力建設。支支撐撐全全行行多多場場景景隱隱私私保保護護:支撐包括反洗錢、反欺詐、聯合風控、精準營銷、全景畫像等多金融業務場景的隱私保護需求,促進隱私數據有序流通,實現跨域價值融合創
91、新。6.知識圖譜平臺50為滿足全行場景需求,商業銀行需構建全行級知識圖譜平臺,充分挖掘數據內在關聯價值,支撐知識全生命周期管理過程,包含知識生產、知識管理、知識挖掘、知識應用,實現從數據到知識的提煉,完成以知識為核心的一站式能力輸出,賦能業務場景智能化建設。案案例例:農農業業銀銀行行知知識識圖圖譜譜平平臺臺農業銀行知識圖譜平臺具有五大核心能力:(1)知識構建能力知識圖譜構建模塊為用戶提供交互式、自動化的知識圖譜構建功能,包含知識抽取與知識融合功能。包括知識抽取組件、ETL調度等核心功能,支撐面向各類數據源的數據對接、數據清洗、知識抽取、知識融合、知識存儲等過程,實現一站式知識圖譜構建。(2)知
92、識資產管理能力基于多態混合存儲體系的知識存儲體系支撐知識資產的存儲。以圖數據庫為核心,支撐多主題、多維度、多層次的圖譜資產積累與沉淀;以知識庫為依托實現異構知識的組織和鏈接,形成具有統一組織型態的有序知識體系;建立健全知識資產多粒度的權限管理和流程,保證資產的安全高效使用。(3)知識計算能力封裝多種算法和框架,提供多技術融合的知識計算引擎,分別為圖計算引擎、圖表示學習引擎、事件分析引擎、智能搜索引51擎、實時圖引擎、圖標簽引擎。其中圖計算引擎包含支撐 OLAP的圖計算框架和支撐 OLTP 的圖數據庫兩部分。(4)知識服務能力提供一站式、全鏈路的圖譜服務能力,包括圖譜構建、可視化分析挖掘工具、圖
93、譜查詢、知識推理、知識搜索等,通過對圖譜資產、模型算法、知識庫、技術組件等進行編排,提供低代碼或零代碼開發能力,降低使用門檻,提升研發效率,實現資產服務的快速構建,靈活賦能各場景。(5)平臺管理能力形成一體化工作臺,支持多租戶資源管理、用戶管理和角色管理,支持對圖譜模型、調度任務的管理包括流式調度編排、自動化調度優化、歷史追蹤,支持知識圖譜質量監控,支持資源高可用管理,保障知識圖譜平臺、圖譜資產、圖譜服務高效穩定運行和安全使用。未來,為滿足全行場景需求,知識圖譜引擎需加快平臺和資產的建設步伐,積極引入圖表示學習、圖隱私計算、大語言模型、事件圖譜、實時圖譜等關鍵技術,構建知識圖譜服務的閉環流程,
94、為知識圖譜應用提供體系化的能力支撐,推進知識圖譜資產價值賦能應用建設。(二二)銀銀行行業業數數據據智智能能典典型型應應用用案案例例1.智能營銷(1)農業銀行:千人千面,掌上銀行智能化廣告推薦52案例背景基于目前掌銀生活頁廣告日漸豐富化、多樣化,根據客戶興趣愛好展示不同廣告的需求應運而生,通過數據分析和建模,融入相關數據,對線上廣告進行有針對的召回和排序,達到“千人千面”的效果。解決方案農行應用流水線(Pipeline)開發工具開發投產了掌銀生活頁信息流推薦模型。數據層面,由于源數據涉及行為表,模型的整體輸入數量級達億級,推薦結果數據近千萬。算法層面,使用了標準化、數據分箱、蓋帽異常值處理、基于
95、流行度負采樣Popularity-NS、Embedding、前饋神經網絡等技術。模型開發過程包含數據收集、數據加工、特征工程、模型構建、流水線生成、模型訓練、模型評估、模型發布等機器學習開發全流程。除Pipeline 外,數據工程和模型編碼階段配套使用了數據分析挖掘平臺的 Mole 工作臺和 Woody 工作臺。模型整體開發流程如圖13 所示。圖 13 農業銀行掌銀生活頁信息流推薦模型開發流程基礎數據加工:數據接入后,做數據探索,并根據數據探索內容做數據預處理和基礎數據加工。特征工程:包含但不限于特征選擇與處理、特征異常預警、可視化特征分析過程、特征共享、特征多維度統計分析。其中所53有類型特
96、征都做字典處理,年齡做分箱處理,數值特征進行非空和歸一化處理。離散字符型特征采取類別處理,采用 LabelEncoder 方式。指定超參數范圍,通過自動化超參數搜索和組合實驗尋找最優解。模型構建、生成流水線、模型訓練:基于 Pipeline 強大的迭代參數優化、實驗復現和模型訓練能力,此模型的開發效果較好,評價指標達到了預期水平。行內基于 MLOps 模式的人工智能模型開發體系具備了系統化的開發管理能力,支持數據工程和模型開發流水線部分自動化執行,實現了數據和模型資產可追溯、可共享管理能力,以及實驗過程和結果可追蹤。此套開發體系規避了一些人工操作帶來的風險,使人工智能開發項目生命周期各個環節能
97、夠實現自動化和可監控、可追溯,支持模型的快速開發迭代、AI 資產共享,大幅縮短了智能模型的研發周期,大幅提升了金融服務體系應用機器學習或深度學習算法快速模型開發和落地的能力。模型發布、模型預測:Pipeline 訓練好的模型預測部分發布到數據分析挖掘平臺資產中心,通過配置作業鏈實現模型定期調度。應用效果模型開發基于 MLOps 體系,規避了一些人工操作帶來的風險,使人工智能開發項目生命周期各個環節能夠實現自動化和可監控、可追溯。模型根據在一定時間段內的相關數據,結合相應機54器學習算法,最終形成了客戶面向的廣告群,形成了“客戶+推薦廣告池”的推薦結果,提升了客戶點擊率直至提升購買率,對于提升
98、MAU 也起到一定的輔助作用。(2)農業銀行:智鏈客戶,對公客戶鏈式營銷案例背景對公業務主要面向法人客戶。法人客戶組織機構復雜,決策流程多樣,行為穩定性強,因此相較于個人業務,對公營銷天然具有尋客難、觸客難、拓客難的痛點。以往的營銷模式往往只能通過工商、納稅等外部數據識別營銷線索,即便發現了目標客戶,因缺少觸客渠道,一線營銷人員也常面臨陌生拜訪的窘境,營銷成功率有限。解決方案2022 年,農業銀行上線對公鏈式營銷應用“智鏈客”產品,以行內高價值、高黏性的優質客戶為源頭客戶,整合資金流、交易、股權、供應鏈等信息,通過知識圖譜構建技術,形成覆蓋行內外數千萬法人和億級關系的對公客戶關系圖譜,并通過關
99、系擴散、圖算法等方式挖掘客戶關系鏈。在此基礎上,進一步構建業務模型,精準識別斷點客戶、種子客戶、提升客戶三類目標客戶,實施定制化的營銷活動。依托知識圖譜平臺,通過中心性算法等技術去掉爆炸點降低鏈路復雜度,綜合利用深鏈查詢、K 層展開等知識推理技術,生成對公客戶交易鏈條,精準定位上下游精準識別斷點客戶、種子客戶、提升客戶三類目標客戶,實施定制化55的營銷活動。與傳統營銷模式相比,鏈式營銷充分發揮數據應用優勢,以知識圖譜、圖計算、數據挖掘技術為支撐,為農業銀行“獲客、活客、留客”注入創新技術“動力”。具體講,有以下幾方面優勢:一是客戶識別更精準。充分利用存量優質客戶資源,高效挖掘源頭客戶上下游客戶
100、信息,實現“以客引客”;二是任務分發更精準。整合行內外數據資源,綜合上下游企業關系、客戶經營地址、主要業務發生區域等多重信息,形成目標客戶畫像,將營銷任務分發給最匹配的一線營銷人員,實現“人盡其才”;三是線索發掘更精準。深度分析目標客戶的股權關系、管理關系、資金流向、產業鏈位置、業務辦理情況等信息,發掘客戶的需求場景,實現“有的放矢”;四是效果評價更精準。實現了從客戶鏈生成、目標客戶識別、營銷任務分發到營銷活動執行、營銷效果反饋的全閉環數字化管理,支持客鏈生成規則和客戶識別模型的迭代優化,實現“裨補闕漏”。應用效果“智鏈客”上線以來,取得了顯著的應用效果,經橫向對比,通過“智鏈客”識別、分發的
101、營銷任務,執行成功率較傳統營銷模式提升近 10 倍,新拓客戶日均年日均存款提升 3 倍,實現了營銷成果和營銷效率的雙提升。(3)招商銀行:招行智網,金融場景聯邦式知識圖譜案例背景56隨著金融市場的不斷發展,各類金融產品層出不窮,涉及大量的交易、投資和風險等數據,因為缺少統一的知識框架,海量數據較為分散,難以整合產生更多價值。解決方案招行智網圍繞金融相關的大數據量場景,通過統一的知識框架聚合對公、零售等多源異構數據,結合 NLP 技術劃分出其中存在的公司-公司(交易、集團、私募投資等關系)、公司-個人(法人、股東、董高監等關系)以及個人-個人(子女、父母、業務等關系)之間豐富的關聯關系,從而構建
102、聯邦式知識圖譜。具體方案步驟如下:首先,聚合數據并劃分關聯關系。通過統一的知識框架結合 NLP 技術聚合業務場景中的對公、零售等多源異構數據,以及相關場景的交易鏈數據表,通過 Hadoop、Spark、SQL、NLP 和 Python 等技術手段計算并劃分不同數據之間的關聯關系。其次,構建聯邦式知識圖譜。根據生成的實體文件、邊文件使用 Neo4j 數據庫,進行聯邦知識圖譜構建。再次,對圖譜查詢語句進行封裝。通過 Java、Spring Boot、Neo4j-java-driver 等技術,將 Neo4j 的 DQL 語句、圖算法相關查詢語句封裝成接口的形式供前端進行調用,并且對其進行用戶權限的
103、管理。最后,對用戶的交互行為進行識別。通過用戶的單擊,57雙擊,右鍵等交互動作觸發后端對應接口,并且根據接口的數據集使用 D3.js,Vue.JS,Canvas 的技術框架實現數據的可視化。應用效果招行智網涵蓋11億個實體(包含對公企業、零售客戶等)、15 億條邊,這些實體間的關系分為對公關系、零售關系和事件關系三大類(18 個小類),全面刻畫公司對公司、公司對個人和個人對個人之間的關聯關系。在對公營銷場景中,打造交易鏈知識圖譜,立足招商銀行總分行戰略客戶與價值戶,基于千萬條交易關系,從優質客戶的上下游著手,盤活存量客戶并拓展新客,深入挖掘潛在對公營銷商機。在零售營銷場景中,以客戶轉賬、業務申
104、請和協議數據為基礎,旨在聚焦客戶關系,深入挖掘其背后的業務價值。招行智網共上線私鉆、小微、雙金和零售信貸黑名單四類查詢接口,通過客戶關聯關系挖掘,持續尋求營銷商機,月均調用 100 余萬次,在一線業務應用上取得切實效果。在風控場景中,招行智網主要應用于反欺詐場景,通過聚合與核心客戶相關的各類關聯關系,建立客戶風險特征信息庫,融入風控模型,持續提升整體風控效果。招行智網不僅構建了零售和對公的聯邦式知識圖譜,平臺本身也支持圖查詢和圖分析操作。用戶可在平臺上對圖譜當中的實體進行快速檢索,雙擊可自助擴展圖譜節點進行圖58譜探索,查看節點和節點間的關聯。在圖分析維度,招行智網目前支持最短路徑、節點相似度
105、、社區發現、PageRank 等8 種常見圖算法,便于用戶快速進行圖分析。招行智網作為對公和零售的聯邦式知識圖譜,是招行在圖構建和圖分析領域的一次有效嘗試,為招行后續的對公零售應用打下堅實的圖技術基礎。未來招行智網將持續擴大數據范圍,拓展應用場景,高效賦能招行的營銷和風控領域建設,持續為招行金融科技建設貢獻力量。(4)北京銀行:京客圖譜,全流程數字化營銷利器案例背景作為北京銀行數字化轉型 9 號工程,“京客圖譜”聚焦有效客戶的挖掘、營銷和拓展,以行內“統一數據底座”為依托,搭建全流程數字化營銷拓客平臺,打造北京銀行數字化時代核心競爭力。解決方案“京客圖譜”依托全行統一數據底座,在打通行內外數據
106、資源基礎上,搭載“高德地圖”地理位置信息和地圖分析工具,同時基于 AI 算法模型、NLP、OCR 技術優化商機數據、識別行內外潛在客戶。形成“可信數據+地理位置應用+智能模型算法”的數字化營銷拓客平臺,打造“數字營銷工具”“數字營銷閉環”和“數字營銷看板”三大功能模塊,助力一線客戶經理,實現客戶精準營銷。59“京客圖譜”主要實現以下功能:基于 AI 技術,打造六大營銷工具?!熬┛蛨D譜”中存客拓新、流水拓客、商機拓客、榜單拓客、園區拓客、京客地圖六大營銷工具有效覆蓋各類營銷線索,基于 AI 算法模型、NLP 技術,實現經營單位個性化商機池和營銷人員專屬商機,主動推送營銷任務,讓拓客不再無跡可尋。
107、基于搶派單操作,實現數字營銷閉環?!熬┛蛨D譜”面向分支行管理機構,定制“派單”“搶單”等個性化商機分派規則,持續跟蹤、收集商機營銷進度和落地效果,建立標準化拓客考核機制,實現閉環管理功能?;诖髷祿夹g,構建數字營銷看板?!熬┛蛨D譜”按照差異化管理需求,建立總分行數據看板,基于數據處理技術,打造監測區域商機數量、營銷任務執行情況、指標完成情況、業務落地情況等功能,支持各級管理人員準確掌握一線營銷動態,有效開展決策部署?;?OCR 識別技術,打造 APP 端特色服務。APP 端落地特色服務,進一步提升個性化拓客體驗。一鍵掃描功能基于 OCR 識別技術高效捕捉營銷線索,支持對寫字樓商戶名錄、文件
108、、網頁中企業名稱進行拍照、掃描和識別,輕松識別客戶基本信息、商機線索,業務人員可以充分利用碎片化時間,提升營銷拓客效率。目前 OCR 識別準確率已達到 92%以上?!熬┛蛨D譜”系統總體采用分布式微服務架構,實現數據處60理、提供 API 接口、AI 智能算法相融合?!熬┛蛨D譜”具有 3項技術特點:一是,海量數據的快速計算,“京客圖譜”引入大量行內外數據,包括:企業工商數據、商機線索數據、榜單數據、園區數據以及行內大量存客、流水數據,實現了對行內外數據的有效融合和快速查詢,提升數據應用能力。二是,提供穩定的數據服務,“京客圖譜”將系統各個服務以 API 的形式提供給行內其他應用平臺,實現數據共享
109、,助力數字化轉型工作。三是,引入先進 AI 技術,基于人工智能算法模型、NLP 技術、OCR 識別技術,挖掘有效商機數據,提升業務人員拓客能力。應用效果“京客圖譜”上線后為北京銀行數字化營銷拓客提供了專屬利器,目前已在中關村分行、北京分行、城市副中心分行、南京分行、杭州分行、深圳分行啟動試點應用,實現了系統“有用、好用、用得趁手”的建設目標。同時基于 AI 算法模型挖掘出了有利于一線業務人員營銷拓客的優質商機線索數據,截至 2023年 8 月,已為一線業務人員推送 34 萬優質商機,新增落地存款額 5700 萬元,新增落地貸款額 700 萬元,有效支持了一線業務人員營銷拓客工作的開展。在此基礎
110、上,通過發布“京客圖譜”視頻操作指南、發送掌上操作手冊等形式,有序開展“送拓客工具”到分行活動,推動“京客圖譜”在全行范圍內深度應用,有效提升北京銀行對公營銷拓客能力。2.智能決策61(1)中國銀行:智慧血緣分析,數據流轉過程清晰可見案例背景近年來,隨著銀行信息化程度的提高,各銀行應用的數據也大幅度累積,但由于系統之間相對孤立造成的“數據孤島”現象普遍存在,業務不集中、流程不互通、數據不共享等問題愈加凸顯?;谝陨线@些問題,實現對全局數據的系統化運作管理,為決策支持系統、商務智能、經營分析系統等深度開發應用奠定基礎,挖掘數據潛在價值就變得至關重要。中國銀行已建立完整的數據湖、數據倉庫和大數據技
111、術平臺,然而在日常業務過程中,各大數據應用常常需要修復一些問題(數據的一致性、時效性等),需要分析數據從被采集到最終被應用的整個加工鏈路,如果不能比較準確地定位問題,那么從 0 開始全鏈路盤查的工作量之大可想而知。因此,我們需要借助數據血緣鏈路,快速定位數據鏈路發生異常時的異常源頭,并且確定異常數據對下游數據加工處理的影響范圍,從而縮短定位解決問題所需的時間成本。解決方案首先對數據湖、數據倉庫的作業、表、字段數據進行清洗操作,去除多余的備份表和中間臨時表等數據節點信息,將不完整、錯誤和數據進行處理以及進行數據拆分、驗證、替換和關聯等操作,之后再分別從作業、字段、表這三個維度提取構建各自的數據依
112、賴關系信息,并將節點信息和依賴關系信息存入數據庫中。最后將數據湖與數據倉庫的加工過程形成一條完整的血緣鏈路,62為用戶提供交互式的查詢界面和查詢結果可視化功能。通過血緣依賴關系進行溯源分析可以獲得以下好處:資資產產分分析析:能夠對數據湖和數據倉庫數據的總體情況進行一個預覽查看,并且對數據的價值進行深度挖掘,以及提供可靠的數據服務。多多維維度度血血緣緣查查詢詢:提供數據湖、數據倉庫中各層級作業、表、字段的血緣查詢,滿足不同維度開發、分析人員的查詢需要。樹樹形形圖圖血血緣緣可可視視化化:樹形圖是數據樹的圖形表示形式,以父子層次結構來組織對象,能夠枚舉出所查詢目標的全部關聯對象,方便用戶清晰了解數據
113、的血緣層次。力力導導向向圖圖血血緣緣可可視視化化:力導向圖是一種用來呈現復雜關系網絡的圖,可以完成很好的聚類,直觀展示數據的血緣親疏關系,且支持用戶查看數據血緣中的環形依賴。批批量量血血緣緣下下載載:提供同時下載多張表、字段血緣鏈路的接口,也能夠支持下載表的全量字段血緣或選擇部分血緣,優化查詢需求,更加便捷地滿足分析需求。血血緣緣分分析析:快速定位異常鏈路,追溯加工異常的問題源頭以及確定影響范圍,提升問題排查和解決的效率。應用效果基于數據血緣地圖結合數據資產地圖進行數據溯源是總行各產品以及分行特色系統的數據開發工作重點,源表數據溯源也是分行集市解構的第一步。數據血緣已于 2023 年 4 月份
114、上線并63集成到大數據技術平臺下的開發框架進行展示,目前應用效果良好。數據血緣包含兩大模塊建設:數據資產地圖和數據血緣地圖,數據資產地圖能夠提供分行查詢清晰完整的表結構信息,數據血緣地圖模塊則用來進行分行源表溯源以及字段溯源等操作。(2)農業銀行:智能駕駛艙,可視化信貸數據管理案例背景近年來,以“微捷貸”“抵押 e 貸”為代表的小微法人線上貸款產品,推動農行普惠金融業務實現了跨越式發展。伴隨數字化轉型的穩步推進,結合農行 BI 平臺的建設規劃,計劃采用 BI平臺作為技術底座實現信貸領域微捷貸業務監測大屏,提升用戶體驗。解決方案在功能交付方面結合信貸場景,采用租戶模式進行部署,信貸 BI 租戶為
115、整個信貸領域提供完整支持固定報表、多維報表、數據大屏的一攬子解決方案,如圖 14 所示。在數據加工方面采用寬表建模思路,針對信貸領域數據進行批量與實時相結合的方式整合?;趯挶硭悸氛砼c加工數據可以獲得如下好處:0 代碼分析:一鍵支持多機構適配、同環比計算、年累計統計等能力,無需寫代碼邏輯,解決傳統用數依賴與批量加工問題。全場景用數:基于寬表可以做報表、指標、多維、大屏等,解決傳統報表、指標等分開加工、數據口徑對不上等問題。64圖 14 農業銀行信貸領域業務監測大屏高查詢響應:結合寬表維度多、數據量大等特點,設計多級加速策略,解決寬表查詢慢等問題。在數據展現領域由于有較多的個性化需求,同時結合
116、產品復用要求,采用可插拔分析組件解決此問題,基于插件可支持組件化定制、插拔式運行、安全隔離,提升個性化需求支撐能力。具體說明如下:組件化定制:依托嵌入式運行框架,支持用戶根據個性需求,支持 Echart、AntV、HighChart 等任意前端技術棧實現插件,可定制組件、功能級插件,無需重頭開發系統級代碼;插拔式運行:支持用戶線上提交插件并動態加載運行,熱插拔,縮短上線周期;安全隔離:用戶插件與基礎功能分開運行,不會因為插件錯誤影響系統運行,并可以支持插件與基礎功能之間混搭應用。65應用效果基于信貸 BI 租戶結合普惠金融業務相關需求完成信貸領域微捷貸業務微捷貸、抵押 E 貸兩個大屏的建設,支
117、持全國與各一級分行信貸領域數據展示,已于近期上線并集成到信貸管理系統進行展示,目前應用效果良好。目前已實現圖形化展示功能,包含全國業務概覽、分行業務輪播、業務實時播報、當日業務雷達、業務發展趨勢、貸款風險監測等功能。3.智能運營(1)農業銀行:智能識別,OCR 金融服務引擎案例背景大數據和人工智能等先進技術的發展為各行業發展都帶來了巨大的助力和想象空間。信息技術在金融業的普及突破了金融服務的時空限制,加快了金融業的服務效率,尤其近年來許多領先科技的研發已進入商業化應用的臨界點。金融科技公司通過過去幾年的實踐已向業界展示出了金融科技的巨大能力,國外領先銀行已在金融科技上投入巨大資源,產生的效果呈
118、急速增長狀態,市場前景非常廣闊。OCR 技術及其應用,恰是人工智能與銀行業務結合的切入點,OCR 技術的廣泛使用,將極大降低人力成本,提升服務的效率和質量。OCR 在金融業務場景中的應用可以分為客戶身份認證、客戶輔助輸入、運營輔助校驗、運營輔助錄入四類,其中前兩者以直接對客為主,后兩者以運營條線為主。標準卡證類需求涉及業務66場景廣,對客場景多,交易量大,需求急迫;金融憑證類別多樣,長尾現象顯著;個性化需求層出不窮,業內無成熟解決方案;數據情況復雜,部分需求技術門檻高。目前在銀行掌銀、柜面、運營等業務領域,存在著大量的圖片文字識別需求和文本處理需求,部分場景較復雜,或為行內特有。傳統方式仍主要
119、依靠人工或基于模板的傳統的技術手段實現,成本較高,響應速度較慢,準確率難以保證,不足以有效支撐業務的迅速發展。為進一步滿足全行對 OCR 的使用需求,亟需建設統一的 OCR 智能服務引擎,滿足相關領域的迫切需求。解決方案打造 OCR 智能服務引擎,綜合自主研發和外部能力引入,提供標準卡證、金融憑證等不同類別的 OCR 服務能力,支持行內高優先級 OCR 場景應用;沉淀基礎模型、模型訓練組件,為不同層次用戶提供定制化模型研發支持;建立圖像樣本庫,統一、高效地管理數據資產,通過 AI 核心資產復用,推進 AI 快速建模應用;初步建立數據回流通路,利用線上反饋,實現模型持續、實時迭代優化。農行已上線
120、通用文本、身份證、銀行卡、營業執照、表格等OCR 功能,滿足總分行 50 余個應用系統的業務需求。同業方面,工行、招行、民生、交行等大行也普遍引入了廠商的憑證識別OCR 技術,用于對客、運營等場景。同時,農行已進行了多個場景的落地,已實現了后督系統憑67證分類業務全部全國推廣、后督系統 OCR 重點補錄場景全國推廣;臨柜智能授權場景存單 OCR、存折 OCR、現金計數等模型已全國推廣,場景效果較好,滿足業務需求。同時,積累特色金融憑證 OCR 組件,定制化適配金融場景的 OCR 預訓練模型,圖像處理算子等共計 100 余個,高精度金融自主創新模型,憑證分類模型準確率達 99.99%以上,業界領
121、先。OCR 智能服務引擎建設目標為提供企業級 OCR 解決方案,沉淀公共組件,輸出定制化模型研發能力,前期已經支撐分行特色票據 OCR 訓練,總分聯動完成合同要素提取、磁碼識別、交警罰單識別等模型的研發與上線。應用效果目前農行OCR智能服務引擎能力覆蓋金融憑證OCR憑證識別、智慧網點流量監測、衛星遙感圖像分類等 30 余類 AI 能力,支撐智能掌銀、事后監督、臨柜授權、智能錄入等業務場景。支撐事后監督場景 OCR 智能識別全國推廣。對憑證分類服務進行升級,收集全國 32 家分行新增版式分類需求近 20 項,新版本模型支持四百余種金融票據分類,準確率達到 99%以上。新版本模型上線后進一步提升后
122、督系統自動化運營水平,壓降后督崗位人力成本約 1/3。智能信息錄入平臺兩錄一校業務場景,引入 OCR 作為其中一錄,有效節約外包錄入人力成本。(2)農業銀行:ChatABC,AI 大模型應用實踐案例背景68以 ChatGPT 為代表的人工智能大模型應用的快速發展,引發了金融行業對人工智能大模型及其應用場景的廣泛討論和探索。農業銀行人工智能研發團隊依托自主創新的 AI 創新能力體系,積極探索 AI 大模型應用,推出金融同業首個類 ChatGPT 的 AI 大模型應用ChatABC。ChatABC 基于 AI 平臺的算力、算法和數據能力,結合指令微調、知識增強、強化學習等大模型相關技術,實現了多個
123、場景的試點,初步取得了提質增效的成果。解決方案ChatABC應用的建設重點在于大模型在金融領域的知識理解能力、內容生成能力及安全問答能力,其核心問題在于 AI 大模型的訓練,解決方案可分為算力、算法、知識庫三個方面。算算 力力 與與 適適 配配:基 于 AI 平 臺,深 度 應用 DeepSpeed、Megatron-LM 等加速框架,解決大模型多機多卡并行訓練難題,融合 GPU 算力池化等技術,將 200 億參數模型的微調時間從 2 周縮短到 1 天半,訓練速度提升 10 倍。算算法法:實現了基于人類反饋的強化學習 RLHF 等關鍵技術,支持模型自主迭代。知知識識庫庫:依托農業銀行知識社區諦
124、聽、遠程銀行等智能問答場景探索異構向量化知識庫,融合知識圖譜與向量檢索模式搭建搜索-問答框架,一定程度上解決大模型知識快速更新、精準配置的難題。應用效果69在場景應用方面,ChatABC 當前主要服務于研發支持、智能客服、輔助編程等領域。研研發發服服務務支支持持領領域域:通過異構知識庫和知識增強充分融入諦聽知識庫,具備研發服務領域級知識理解和問答能力。面向多種渠道,以問答助手、聊天助手、工單自動化回復助手等形式面向內部員工開放試用,為用戶提供了更為豐富、個性化、可靠的全新搜索服務體驗和智能化、高效率的工單支持服務。智智能能客客服服輔輔助助領領域域:遠程銀行知識庫語料和代碼開展預訓練微調,打造遠
125、程銀行在線客戶服務輔助問答助手,助力客服獲取到更全面、更擬人化的輔助回答體驗。輔輔助助編編程程領領域域:基于行內代碼數據進行微調,初步行內編碼風格,支持代碼生成、代碼補全、代碼解釋等功能,并支持 JAVA、VUE、Python 等多種類型語言,能夠有效輔助前端、后端、單元測試等多類研發編碼場景。(3)中國銀行:BI 報表,全方位票據業務分析案例背景為滿足票據融資業務選票交易、日常管理、數據分析和內外部管理要求,通過 BI 報表來實現票據融資業務多維度復雜查詢功能、選票功能、票據融資業務客戶分析等功能,進而產生數據分析,為票據融資業務的管理提供便利,節約人力資本。由于數據分析工具繁多復雜,要完成
126、數據分析過程,需要購買使用多個不同產品;分析報告呈現靜態結果,缺乏交互性,管70理層無法切換角度、多方位查看數據結果。解決方案為能夠輕松靈活智能地處理分析數據,中行票據業務的 BI報表項目提供了連接數據源,創建數據集,制作報告,查看報表等一系列完整的數據分析功能,實現了票據融資業務數據的數據分析,分別制作了票據融資業務到期分布情況統計報表和票據融資存量業務價格區間分布情況統計報表。申請數據:申請相關數據,自動加載至 BI 對應數據庫中,通過統一的數據申請和處理,減少數據查找時間。創建數據集:創建數據集頁面可以選擇不同模式進行新建數據集,對已建的數據集可以預覽數據以及依據表新建報告。制作報告與查
127、看報告:通過 BI 制作報告快速實現數據的展現和整合,提供可視化的脫拉拽式組件,方便用戶快速實現報表制作,便于實現業務多維度復雜查詢功能、動態關聯功能、多維度展示等功能??赏ㄟ^ BI 實現自由選擇分行維度和不同顆粒度的業務維度與同業進行比較分析。制作門戶:在制作報告階段生成的報告可以在這里依據模板進行改變展示方式,豐富報表色彩。應用效果平臺提供面向數據分析師的數據查看與申請、基于 BI 工具的靈活查詢與報告制作,以及數據分析與挖掘功能,為數據分析提供內置的算法,可滿足用戶各種場景的數據分析需求,包括但71不限于過濾、鉆取、關聯、動態計算等。中行票據業務的 BI 報表項目通過對庫存持有票據的36
128、家分行20多萬筆資產到期情況進行分析,提高了工作效率,將業務人員計算時間由數小時減少至 10 分鐘以內,節省人工成本,提高準確率。(4)中國銀行:敏捷高效,DataOps 管理體系案例背景隨著銀行數據治理工作的推進,未來提高數據服務的質量和效率需要依托敏捷高效的 DataOps 體系。分析師工作臺作為數據分析師進行數據探索和挖掘的工具,需要提供滿足數據分析、開發、測試、運行的各類場景需求的功能。解決方案中國銀行 DataOps 體系管理及分析平臺在現有的功能基礎上展開沙箱態,開發態,灰度態和生產態的建設,四態中每一態滿足不同的使用場景,為數據業務人員提供完整的 DataOps 體系閉環。首先,
129、通過平臺數據產品管控建設,實現了數據產品全生命周期線上管理,提升平臺數據處理開發能力,依托平臺“四態”機制,串聯數據產品全生命周期,打造以分析師工作臺為核心的敏捷高效的 DataOps 體系,解耦了 IT 開發與數據開發兩條流程,充分發揮數據運營一體化,提升了數據運營敏捷能力。其次,通過平臺數據分析能力建設,在保證數據安全的前提下,為全轄各機構提供自主數據分析的工具集環境。分析師工作72臺憑借數據探索、靈活分析、數據建模和數據云表等核心工具模塊,為全行提供高質量的敏捷處理數據能力。再次,通過平臺數據生態建設,保證用戶可以進行內外部數據查閱、文件上傳、文件下發等功能的實現,根據用戶權限的制定,規
130、范了數據分析、分享和發布,統一了數據服務規則,完善了用戶管理機制,實現“統一數據、統一架構、統一生態”的生態建設。應用效果隨著全行分析師用戶的增多,越來越多分析師使用分析師工作臺進行數據分析,在使用過程中逐漸增強個人報表制作和建模能力。用戶活躍數量和用戶登錄分析師工作平臺的次數表明分析師工作臺深受廣大分析師歡迎,也充分體現數據賦能、業務賦能成效。4.智能風控(1)北京銀行:智能審計,多維度客戶及業務風險識別案例背景銀行內部審計在銀行經營管理、防范化解經營風險、加強銀行內部約束、提高經濟效益等方面發揮了重要作用。然而,隨著經濟形勢的不斷變化和銀行業務的迅猛發展,傳統審計方法和規則模型的準確性和覆
131、蓋面存在不足,難以應對新興風險的復雜性和多樣性。因此,為了提升審計能力和效率,需要將人工智能、機器學習、大數據技術與審計業務深度融合,構建智能審計模型73和算法。解決方案北京銀行針對對公信貸資金流向異常、票據中介和供應鏈虛假融資場景建立智能審計模型,提供全面、準確的審計能力,包括多維度的客戶風險識別和業務風險識別,從而推動全行的數字化轉型和風險管理綜合能力的提升。應應用用先先進進 A AI I 技技術術:利用大數據、機器學習、半監督圖挖掘算法、子圖識別技術等先進的科技手段,將這些技術與審計業務深度融合,以提升非現場審計能力,為審計工作帶來全新的視角和方法,提供更全面、準確的審計能力。深深度度結
132、結合合業業務務場場景景開開發發模模型型:結合具體業務場景和 AI 算法,開發針對不同審計風險的場景模型,包括資金流向類監測模型和關聯網絡團伙類監測模型。在資金流向類檢測模型中使用的資金流向異常檢測算法,以多關系網絡(包含多種關聯關系、交易關系)為基礎,在基于專家經驗得出的可疑資金流向行為空間中使用空間搜索樹算法搜索相應場景的資金流向異常模式,將匹配鏈路中的客戶標記上可疑標簽,上報進行核查。在關聯網絡團伙類監測模型中,使用基于圖的半監督算法,同時考慮標簽樣本,以及標簽樣本和無標簽樣本間的相似性、關聯性,規避有監督算法需要使用大量標簽的弊端,檢測出風險賬戶團伙。這些模型能夠更精準地識別對公信貸資金
133、流向異常、票據中介和供應鏈虛假融資等風險,為審計人員提供更全面、準確的風險分析工具,提升74審計監測能力。高高效效的的線線索索展展示示平平臺臺:采用圖分析平臺作為審計線索的展示調查平臺,利用知識圖譜的形式將模型輸出的審計線索中各個實體和關聯關系直觀準確地展示出來;節點間的每條交易邊上的可疑交易匯總成列表,點擊即可展開;針對每個線索自動分析審計可疑點進行提示,幫助審計人員確定調查方向。從而,構成了“點”(實體)、“線”(關聯關系)、“面”(可疑線索、可疑團伙)全方位的調查分析平臺。應用效果審計算法模型基于大數據、分布式計算、機器學習、圖計算等科技手段,結合數據處理、智能模型應用、前端展現工具,極
134、大提升行內開展非現場審計工作便捷程度。模型在每月初會重新跑批新一批次的線索,各室中心根據分管機構分工,開展對三個算法模型可疑線索的排查工作,并根據排查結果與相關被審計單位確認問題。智能審計算法模型的引入提供了更加全面、準確的審計能力,提升審計人員整體風險分析和發現能力,提供客戶風險識別、業務風險識別等更多維度的監測能力,推動審計工作進入數據和技術共同驅動的智慧型審計時代。(2)農業銀行:一網打盡,知識圖譜智能識別集團客戶風險案例背景75集團客戶具有貸款余額規模大、分布廣、成員多的特點,一直以來都是重要授信客戶。集團內部關聯關系龐雜隱蔽,關聯交易頻繁且風險傳導性強,由此可能引發包含經營風險、財務
135、風險、擔保風險和多頭授信風險在內的一系列風險,因此有效防范此類風險,加強集團客戶風險識別能力是信貸領域的重要挑戰。解決方案2022 年,依托知識圖譜平臺,運用知識圖譜構建、知識推理等技術,通過應用最短路徑算法、最大傳導系數(加權路徑)算法、社區發現(子網識別)算法等圖計算算法,將企業間隱性、多層關聯關系進行充分挖掘和展示,創新實際控制人識別、隱性集團發現、關聯關系傳導路徑探查等多項應用,其中集團客戶風險監測模型,能夠在 1 分鐘內完成億級邊的 10 層關系股權穿透和風險識別,將所有隱性集團企業,一“網”打盡.應用效果模型上線半年內,累計識別出上千戶疑似隱性集團客戶,準確率超過 80%,有效提升
136、隱性集團客戶識別能力,助力集團客戶風險管理。5.智能監管(1)農業銀行:可用不可見,境外統計數據監管報送案例背景境外分行監管報送案例為隱私計算多方加密數據統計領域的應用。本場景中,每家分行存儲了一些用戶的信息,每個用戶76可能在部分分行有信息(在部分分行有交集,在全部分行沒有共同交集),在保證分行數據安全的前提下,由總行統計所有用戶的信息匯總(比如存款總額,每條結果是一個用戶的存款總額,有多少不重復的用戶就有多少條結果),并將匯總結果報送金融管理部門。出于數據安全的考慮,分行數據不出己方私域,中間通信數據不暴露原始數據信息,總行無法知道結果具體來自哪家分行或哪部分分行,各分行也無法知道其他分行
137、的用戶信息。解決方案本案例使用隱私計算領域的多方安全求和技術,其本質是實現數據所有權和使用權分離,保證各方數據不出私域,同時實現多方數據的流通和整合,最終結果獲取方僅能得到最終計算結果,而無法獲取原始數據。其解決方案主要包含加密求并和秘密分享兩步。加密求并基于非對稱加密算法,通過密鑰加密傳輸,由總行實現對所有分行用戶的求并,并分發給各分行;各分行將并集與本地用戶求交得到目標數據。秘密分享的主要思想是將秘密分割,將分割后的秘密分片分發給所有分行,各分行計算己方得到的所有分片之和,并發送給結果獲取方(總行),結果獲取方根據收到的所有分片和計算最終結果。在此過程中,各分行無法得到其他分行的用戶信息,
138、總行也無法獲知各分行的用戶信息,有效數據的傳輸過程全程加密,最終實現在數據安全的前提下完成所有分行信息的統計,并向金77融管理部門報送。應用效果本案例由農業銀行總行對接境外十余家分行,通過在各分行部署隱私計算服務節點,實現對所有分行客戶數據的聯合統計和計算,有效解決跨境數據的“保密性”與“共享性”的矛盾。境外分行可以在不暴露各自隱私數據的情況下,完成金融管理部門所需數據的加工統計,保護了數據安全,實現了數據“可用不可見”。四、金融數據智能面臨的挑戰與展望(一一)面面臨臨的的挑挑戰戰1.數據安全問題數據智能的蓬勃發展離不開海量的數據。在數據要素愈發多元化、規?;慕裉?,數據隱私泄露和數據安全問題
139、成為制約數據智能發展的重要挑戰。數據采集、存儲、流轉、處理等各環節需充分遵循用戶意愿及隱私,避免非法盜用及濫用。2.倫理道德問題隨著 ChatGPT 的爆火,數據智能技術的擬人化、智能化更進一步,其流暢的思維邏輯使人耳目一新,但同時也使得人機交互逐步突破機器助手范疇,延伸到道德情感層面,由此引發新的倫理道德問題。ChatGPT 使用過程中,多次因表現出懟人、說謊、憤怒等負面情緒而遭到投訴。如何確保人工78智能符合人類的價值觀和法律道德準則,是未來需探討和解決的重要問題。3.數據共享與流通在數字化時代,數字主權成為各國競爭的技術高地,掌握了數據,即掌握了競爭主導權。由于各國在數字治理方面的立場和
140、政策各不相同,跨境數據流通成為國際合作面臨的一項難題。今年初,美國和歐盟簽署了“人工智能促進公共利益行政協議”,在不以數據共享為前提下,合作研究如何利用人工智能幫助解決氣候變化、自然災害、醫藥、能源和農業方面的問題。該協議為國際合作、生態治理提供了新的可能。4.算法可靠性及可解釋性目前人工智能領域面臨著算法黑箱及泛化能力弱等問題,離開訓練使用的場景數據,實際應用效果往往存在不同程度的降低。金融機構對于數據智能技術有著更高的安全和合規要求,中國人民銀行金融科技發展規劃(20222025 年)明確提出需“提升算法可解釋性、透明性、公平性和安全性”。金融機構在應用模型進行業務決策時需充分做到有據可依
141、、有跡可循,因此,提升算法可靠性及可解釋性成為金融機構需解決的重要問題。(二二)展展望望與與建建議議1.大模型助推高質量建模79國內外大模型的陸續發布,使得人機交互體驗迎來跨越式發展,大模型成為數據智能領域的技術制高點,通過海量數據及大規模算力的支撐,大幅提升數據洞察理解能力。隨著底層硬件技術的迭代更新,預訓練大模型也將迎來新的突破,在模型邏輯理解能力、自適應學習能力等方面躍上新的臺階。2.多模態整合數據統籌能力綜合語音、圖像、視頻、文本的多模態處理能力正成為數據智能進化趨勢,將進一步強化模型通用性和標準化,提升跨領域、跨場景處理能力,促進數據智能在金融領域的深度應用。3.創造性 AI 釋放數
142、據潛力數據智能正在創造性領域釋放新的潛能,通過模型構建完善的邏輯能力,產生圖片、文字創作、設計等創意性的輸出??梢灶A見,未來隨著數據智能技術的快速演進,其將不再局限于冰冷的機器屬性,逐步豐富和完善人性化技能,在市場營銷、客戶服務、內部管理等金融業務各環節發揮作用,布局未來銀行,提升品牌效應。4.技術融合推動協同創新數據智能技術與其他金融科技創新技術的協同不斷加強,與元宇宙、Web3 等新技術方向關系密切,例如,在數字客服領域,大模型與數字孿生、擴展現實等技術的結合,將有助于提高客戶意圖識別準確率及流暢度,進一步提升擬人化體驗。在數據日益80多元化、復雜化的趨勢下,通過技術融合將迸發新的生機與活
143、力,充分發掘數據價值,更好地推動金融業高質量發展。5.安全管理構筑防護體系面對數據采集、存儲、流轉、使用等各層面的數據質量、隱私安全等問題,金融機構需持續強化數據安全管理,遵循中國人民共和國數據安全法 中華人民共和國個人信息保護法等法律法規,加強數據存儲及共享時的安全防護,防范攻擊者惡意攻擊或竊取數據,并通過數據脫敏等手段保護敏感數據。同時,提升數據質量,從源頭追溯數據安全,確保數據可信性。6.政策標準引領數據治理在數據智能浪潮的推動下,金融管理部門正在致力于相關政策的建立和完善,逐步明確數據使用底線和保護標準。2023 年 7月,國家互聯網信息辦公室等七部門正式發布生成式人工智能服務管理暫行辦法,提出“針對生成式人工智能技術特點及其在有關行業和領域的服務應用,完善與創新發展相適應的科學監管方式,制定相應的分類分級監管規則或指引”,為后續細化政策要求指明了方向。建議開展行業標準研制,推動數據智能技術健康有序發展,控制和管理創新帶來的風險。五、結語在數字化社會,數據成為第一生產力,數字技術不斷深化金融業業務模式變革,促進實體經濟與數字經濟加速融合。如何智能化地聚數、用數,成為銀行踐行數字化轉型的必經之路。銀行81業需持續深化金融科技改革,以科技引領,以數據筑基,以智能賦力,通過數據智能技術重塑金融業務模式,提供更加優質高效的金融服務,助力數字化金融時代發展。