3.金融大數據存儲實踐-沈百軍.pdf

編號:153025 PDF 30頁 7.11MB 下載積分:VIP專享
下載報告請您先登錄!

3.金融大數據存儲實踐-沈百軍.pdf

1、金融大數據存儲實踐金融大數據存儲實踐2023.04/沈百軍 目錄大數據發展趨勢大數據發展趨勢存儲設計和選型存儲設計和選型5 5個實用案例個實用案例4 4安全與隱私更受關注分析領域快速發展 大數據趨勢特點應用服務爆發數據分析將成為主流與云計算密不可分中國占據重要市場應用服務爆發爆發大數據發展趨勢 數據的重要性大數據VS應用服務大數據與大數據與應用服務應用服務對比對比5 5大數據的特點大數據的特點海量的數據快速的數據流轉多樣的數據類型潛在價值高應用服務大數據數據量小,Request/Response數據量大,用戶行為復雜單任務,單任務,資源消耗小批流一體批流一體,資源消耗大商業價值:場景豐富,邏輯

2、復雜處理對象:結構化,半結構化,非結構化系統工具:開源組件勝多處理方式:批流一體,解決吞吐問題大數據商業價值:場景單一,邏輯簡單處理對象:結構化,半結構化系統工具:模式簡單,相對比較少處理方式:事務處理,解決并發問題應用服務磁盤、內存、CPU高并發的JAVA應用服務架構核心是存儲架構的精髓是存儲的設計讀本地緩存CDNJavaJVM緩存Redis緩存持久化緩存可省略必須MQJava寫Redis緩存持久化緩存6 6 目錄大數據發展趨勢大數據發展趨勢存儲設計和選型存儲設計和選型5 5個實用案例個實用案例存儲設計的原理CAPACIDBASECAPCAP定理(定理(CAP theoremCAP theo

3、rem)一致性(Consistency)(所有節點在同一時間具有相同的數據)可用性(Availability)(保證每個請求不管成功或者失敗都有響應)分隔容忍(Partition tolerance)(系統中任意信息的丟失或失敗不會影響系統的繼續運作)Basically Available-基本可用 Soft-state-軟狀態/柔性事務。Soft state 可以理解為無連接的,而 Hard state 是面向連接的 Eventual Consistency-最終一致性,也是 ACID 的最終目的。三個需求,最多只能同時較好的滿足兩個 CA-單點集群,滿足一致性,可用性的系統,通常在可擴展性

4、上不太強大。CP-滿足一致性,分區容忍性的系統,通常性能不是特別高。AP-滿足可用性,分區容忍性的系統,通??赡軐σ恢滦砸蟮鸵恍?。原子性(atomicity)一致性(consistency)ACIDACID模型弱化模型弱化BASEBASE模型盛起模型盛起 隔離性(isolation)持久性(durability)8 8存儲的選型RedisAerospike內存內存NoSqlNoSqlCassandraHBase大存儲大存儲KVKVMySqlGraphDB關系型存儲關系型存儲檢索和聚合型存儲檢索和聚合型存儲MongoDBElasticsearch9 9CephSwift對象存儲對象存儲Pres

5、to(HDFS)Kylin大數據大數據ClickHouseHive/Spark(批處理)存儲的選型starRocks1010JanusGraphUltipa/Galaxybase/AtlasGraph圖數據庫圖數據庫Milvus向量引擎向量引擎AI算法存儲的選型Neo4j1111單點PCPC架構架構PCPC存儲架構存儲架構什么是傲騰什么是傲騰持久性內存持久性內存?DRAM/3D Point/Flash傲騰內存,是Intel基于3DXpoint存儲介質而打造的緩存設備,其主要作用是為硬盤(HDD,SSD)加速。英特爾 傲騰 持久內存和英特爾 傲騰 固態盤之間有什么區別 英特爾 傲騰 持久內存和標

6、準 DRAM 什么是無限帶寬技術什么是無限帶寬技術?InfiniBand(“無限帶寬”)是一個用于高性能計算的計算機網絡通信標準,它具有極高的吞吐量和極低的延遲,用于計算機與計算機之間的數據互連。單點集群,滿足一致性,可用性的系統,通常在可擴展性上不太強大主要用于一些復雜的,高并發,高可用,而且數據量比較大的線上實時服務,一般一致性差搭建多層存儲類型,可用提供高并發,高可用的,高性能的計算機網絡線上服務,保證滿足銀行業務發展的需求的同時,更好的引領業務發展。分布式內存傲騰持久內存PMemSSD/HDDInfiniband存儲服務的硬件架構1212ReadRead(索引)(索引)WriteWri

7、te存儲方式存儲方式Hash索引B+樹索引倒排索引BloomFilter向量化引擎預計算 Log Write(后一致性)Sync Write(一致性)列式存儲 行式存儲 行列混合存儲存儲服務的軟件架構1313 目錄大數據發展趨勢大數據發展趨勢存儲設計和選型存儲設計和選型5 5個實用案例個實用案例服務器服務器40004000臺臺,總容量總容量160160PBPB,日新增數據,日新增數據140T140T,未來一年需翻倍,未來一年需翻倍交互式查詢引擎KDC/Kerberos KDC/Kerberos YARNYARN(12001200臺)臺)GangliaZooKeeper 可視化界面可視化界面調調

8、度度平平臺臺Z Z+NagiosGrafanaPrometheus實時計算平臺離線計算平臺NoSQLNoSQL存儲存儲Elastic SearchHBase/MongoDBSASJupyter統統 一一 脫脫 敏敏Hue指標系統偵測客戶圖譜征信AI CloudB+存儲存儲計算計算平安銀行大數據技術平臺1515平安銀行AI技術平臺架構監控管理監控管理任務管理任務管理日志管理日志管理權限管理權限管理AI與云計算的結合以云服務的形式提供以云服務的形式提供AI的能力的能力GPU資源的統一管理利用利用GPU并行運算能力為深度學習加速并行運算能力為深度學習加速使用Kubernetes+Docker基于構建

9、基于容器的云平臺資源隔離與資源限制資源隔離與資源限制;基于鏡像發布基于鏡像發布;彈性計算彈性計算(秒級動態擴容秒級動態擴容););HA;多租戶多租戶;自動化部署自動化部署支持主流深度學習與機器學習框架TF、Caffe、Pytorch、Spark、xgboot、sklearn分布式存儲塊存儲、對象存儲、分布式文件系統,支持海量訓練數據塊存儲、對象存儲、分布式文件系統,支持海量訓練數據FPGA加速支持利用利用FPGA卡對深度學習算法加速卡對深度學習算法加速(正在調研評估正在調研評估)業務應用計算框架容器集群基礎設施TensorflowCaffePytorchRSparkPythonOCR智能客服智

10、能推薦廣告系統NLPKubernetes+DockerCPUGPU網絡FPGA存儲塊存儲對象存儲文件系統1616決策決策引擎引擎規 則規 則為了滿足一定業務場景,對各種變量進行邏輯處理規 則 組規 則 組規則的集合,規則組包含多條規則,按條件判斷是否全滿足或者部分滿足決 策 樹決 策 樹根據規則或者規則組的運算結果,進行樹狀分支的邏輯邏輯判斷變量變量中心中心事件驅動,提供穩定,高效的實時計算引擎,底層使用事件驅動,提供穩定,高效的實時計算引擎,底層使用FlinkFlink、E+E+2626msms性能99%4040msms性能99.9%決策引擎硬件成本較低,自研,擴展性比較好,吞吐量比較大,決

11、策引擎硬件成本較低,自研,擴展性比較好,吞吐量比較大,未來打造基于未來打造基于eventevent的實時變量計算引擎,支持大數據風控及營銷的實時變量計算引擎,支持大數據風控及營銷案例1:決策引擎1717通過決策引擎接入實時數據源,根據業務規則定義原子事件以及事件屬性列表實時數據接入實時數據接入業務可配置業務可配置事件可訂閱事件可訂閱數據語言翻譯,將數據翻譯成業務可理解的語言,業務可根據需求自定義用戶篩選規則各個對接系統可動態訂閱事件,通過消息隊列實時接受滿足業務規則的用戶客戶號事件統計與監控事件統計與監控周期性統計各個事件的發生次數,監控異常事件埋點數據埋點數據交易數據交易數據業務系統業務系統

12、實時數據實時數據決策引擎決策引擎原子事件庫原子事件庫業務規則配置業務規則配置業務斷點業務斷點用戶篩選用戶篩選事件定義事件定義用戶列表用戶列表事件中心輸出事件中心輸出MQMQ消息隊列消息隊列接口服務接口服務統計統計監控監控案例1:客戶事件中心18181借貸數據整合,客戶視角的資金變動。靈活的查詢,搜索服務體驗。2基礎數據全面整合優化,針對500多種借記卡交易和300多種信用卡交易。環繞客戶日常生活,衣食住行,理財還款等進行分類歸納。清晰用途??蛻羰罩г露饶甓确治?,豐富的維度和圖示,客戶收支一目了然34案例2:交易明細產品介紹 功能介紹 1919借助大數據技術能力,全新打造收支分析,一方面面向客戶

13、的收支查詢做到業內第一,另一方面提供給內部各個業務條線使用,發揮金融數據的深層價值??蛻粢暯堑男畔⒖蛻粢暯堑男畔⒘骱唾Y金流閉環流和資金流閉環助力助力AI客服客服多緯度的分類模多緯度的分類模型型,進行精準引流進行精準引流環繞客戶用卡的安環繞客戶用卡的安全和偵測滲透全和偵測滲透技術突破和創新技術突破和創新AI智能搜索等查詢的時效性:實時流水分類查詢5S以內借貸數據整合。在第三方支付交易的商戶、產品信息和訂單詳情。關聯交易、退款退票交易等原始交易信息。數據完整度超招數據完整度超招行行,對標支付寶對標支付寶客戶視角分類、商戶層分類、交易層分類等多緯度組合的模型。商戶緯度分類,準確率達到80%。精準引流

14、(商城、理財、保險、貸款等)理財在途、貸款、信用卡在途(例如:已贖回未到賬,已審核未放款,待還款等)一鍵否認交易安全鎖等環繞賬戶安全的引導將梳理的數據,場景全面融入AI客服,提升AI客服能力。梳理銀行卡簽約的協議,進行整合和運營。案例2:交易明細2020交易明細收支分析API服務賬單明細D+/v+明細表規則計算基本信息商戶信息實時數據離線數據離線為主,實時補充離線為主,實時補充LambdaLambda架構解決方案架構解決方案 高性能:api服務3000QPS,平響50ms以內 百億級別數據量:80億/年*5 高可用:限流,監控,熔斷,降級 按交易時間分庫分表按客戶號哈希均勻分片在線服務 高吞吐

15、:4000TPS,日處理3000萬 低延遲:鏈路平均時延小于3秒 計算高效:規則計算平均深度250步,平均耗時 3ms 不重不丟:故障轉移,故障恢復分級緩存異步重試隊列實時計算網聯案例2:交易明細-技術架構圖2121個人信息個人信息客戶第一視圖客戶綜合視圖客戶客戶360360全景圖全景圖身份階層身份階層投資偏好投資偏好財富價值財富價值生命周期生命周期生活消費生活消費金融產品及行為金融產品及行為非金融產品及行非金融產品及行為為利用銀行利用銀行標簽和個金標簽標簽和個金標簽,構建構建客戶客戶八大分類,標簽八大分類,標簽共共20002000余個余個 組合標簽:是一組規則,判斷客戶符合此規則,返回布爾類

16、型 人群過濾:通過對一組規則過濾,確定客戶集合 標簽值查詢:高并發獲取客戶數據案例3:標簽系統2222整合行內外用戶數據,建立平安銀行生態中用戶標簽體系,為多種營銷場景提供高價值,高可用的客群精準定向服務。整合行內外用戶數據,建立平安銀行生態中用戶標簽體系,為多種營銷場景提供高價值,高可用的客群精準定向服務。系統架構系統架構標簽系統核心基于ES提供大容量數據存儲和高效的查詢服務,同時支持DB,消息數據,外部接口數據接入標簽數據標簽數據目前已經建立起客戶維度的用戶標簽體系,擁有上千標簽,并在不斷擴展。標簽每周被上百次的組合,百億次的使用此外還有產品,信用卡,貸款等多個主題平臺應用平臺應用標簽系統

17、通過接口方式為外部80個系統提供服務,覆蓋口袋A,行員A,愛客系統,UCP(微信端),BBC等主要營銷渠道口袋A廣告系統產品貨架搜索平臺數據集市加工數據集市加工分析模型分析模型白名單標簽白名單標簽渠道標簽系統數據來源業務自有標簽業務自有標簽實時消息實時消息多主題基礎標簽多主題基礎標簽實時標簽實時標簽外部標簽外部標簽客戶畫像服務客群圈選服務客群畫像分析案例3:標簽系統-平臺結構2323在線判定:30000+QPS,日服務量在15億服務高可用:監控、限流、降級ES集群索引量在20Tb,單索引最大5TbHiveToES 導數時間約2.5小時整體數據時效T+17小時客戶標簽高達20000+在線服務標簽

18、數據規則規則計算計算實時標簽實時標簽APIAPI服務服務客群判定客群判定客群畫像客群畫像離線基礎標簽寬表離線基礎標簽寬表實時消息流實時消息流客群數據批客群數據批取取離線基礎標簽寬表離線基礎標簽寬表E+E+Z+Z+案例3:標簽系統-技術架構圖2424營造數據生態數據資產治理降成本提產能 1分鐘找到數據3分鐘創建看板5分鐘挖掘價值以指標驅動分析以指標驅動分析,靈活高效靈活高效原子指標派生指標衍生指標復雜指標潘多拉數據平臺 指標管理與指標消費的統一平臺2525實現自動跑批,節省50%ETL開發節省80%重復跑批資源和80%重復存儲空間實現亞秒級指標查詢(非cache情況下指標平均查詢響應時間1.5s

19、,去重計數類指標平均為5.8s)支持數據模型的緯度笛卡爾加20億+支持指標數5000+重復指標率1%Cube數據膨脹率1.3倍,低于業界3.0倍的標準Cube構建指標應用指標平臺構建服務指標平臺統一查詢服務指標看板智能預警歸因分析相關性分析指標搜索Hive離線數據集市集市業務表業務表埋點數據埋點數據標簽數據標簽數據統一構建服務視圖管理視圖管理緯度管理緯度管理跑批管理跑批管理接入適配接入適配統一查詢服務查詢路由clickhousekylin查詢下壓prestopresto查詢引擎命中cuberedis案例4:指標平臺2626多維度數據融合,構建網絡圖譜多維度數據融合,構建網絡圖譜客戶信息金融信息

20、非金融信息非金非金信息信息金融金融信息信息客戶客戶信息信息欺詐風欺詐風險信息險信息證件信息住宅地址單位地址手機號年齡性別信用卡交易信息借記卡流水信息網銀交易信息創新支付信息貸款信息設備類型IP信息GPS信息設備指紋信息社交信息WIFI信息事件池信息涉案交易信息偽冒授權交易案件外圍卡片管制信息案例5:知識圖譜2727業務能力業務能力 系統能力系統能力從身份證、銀行卡等多種緯度對持卡人的交易信息進行關聯分析,輸出可疑人員和可疑交易交易反欺詐交易反欺詐從身份證、手機號、家庭住址、單位地址等多緯度對申請人進行關聯分析結合圖規則,識別圖中異常信息,判斷申請人信息的真實性和可靠性申請反欺詐申請反欺詐從身份

21、證、經銷商、車型等多維度對貸款人進行關聯分析,可視化識別故意騙貸者、欺詐者和團伙預謀性騙貸等汽融貸款反欺詐汽融貸款反欺詐追蹤卡卡之間的交易路徑,從源頭賬戶/卡號/商戶等關聯至最后的收款方定義套現模式來識別洗錢/套現路徑和可疑人員反洗錢反洗錢/套現套現根據某個或者多個可疑數據,通過關聯反查模塊,查詢其他數據關聯反查關聯反查在當前圖中查詢任意兩個實體的選中關系中查詢實體的最短路徑路徑跟蹤路徑跟蹤選中任意實體及相關關系,查詢與該實體有相同關系的實體血緣分析血緣分析選中多個實體以及相關關系,查詢這些實體之間存在那些關系群體分析群體分析當前網絡圖譜中查詢最重要的實體骨干分析骨干分析引入聚類算法,擴展網絡

22、圖譜聚類分析聚類分析通過定義圖數據源和查詢圖,得到滿足的子圖圖規則圖規則統計當前網絡圖譜的實體和關系統計以及實體和關系屬性的統計統計分析統計分析案例5:知識圖譜2828明細查詢因子查詢實時消息流用戶行為和屬性汽融放款D+ETL基本信息實體屬性規則計算實體和關系因子結果查詢實體和關系圖查詢和分析服務(OLAP)API服務(OLTP)OLTP準億級圖數據:準億級圖數據:65006500萬關系,萬關系,25002500萬實體萬實體服務高可用:監控、限流服務高可用:監控、限流準實時計算:三步圖因子平均計算時間準實時計算:三步圖因子平均計算時間260ms260ms異步計算:服務依賴因子結果,計算依賴異步

23、計算:服務依賴因子結果,計算依賴Neo4jNeo4j實體入圖:平均實體入圖:平均12.3ms12.3ms關系入圖:平均關系入圖:平均12.7ms12.7msOLAP千億級圖數據:千億級圖數據:48004800億關系,億關系,12001200億實體億實體風險標簽:風險標簽:20+20+每天命中風險標簽:每天命中風險標簽:5 5萬萬+多種圖算法:骨干分析、最短路徑等多種圖算法:骨干分析、最短路徑等多種布局算法:力導圖布局、矩陣布局等多種布局算法:力導圖布局、矩陣布局等案例5:知識圖譜-架構圖2929 如何做好一個優秀的高并發應用服務如何做好一個優秀的高并發應用服務 如何實現高并發、高存儲的應用服務如何實現高并發、高存儲的應用服務 如果快速檢索多維如果快速檢索多維CubeCube數據數據 如何構建圖應用如何構建圖應用

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(3.金融大數據存儲實踐-沈百軍.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站