《2017年Fintech場景下大數據處理的挑戰與實踐.pdf》由會員分享,可在線閱讀,更多相關《2017年Fintech場景下大數據處理的挑戰與實踐.pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、Fintech場景下大數據處理的挑戰與實踐2AGENDA01我看互金這6年業務/獲客方式的轉變 用戶數、交易數的激增 風控思維的轉變02風控:傳統金融 VS Fintech人 VS 機器 評分卡 VS 模型 從業人員skillset03技術團隊面臨的挑戰數據量 計算復雜度 服務可靠性04經驗&實踐由一起線上事故說起 Kafka HBase 其它05再過三五年行業 政策 團隊 技術?3業務/獲客方式的轉變?線下網點,業務人員地推插卡、陌拜、線下活動開設線下門店,配置業務人員 增加門店、提高人均產能 核心業務系統?電銷電話外呼客戶名單獲取 擴大規模、提高名單質量、提升電銷人員效率、優化外呼策略 C
2、RM?互聯網方式渠道、合作、流量交換更偏向互聯網獲客模式,導流、引流、精準客戶營銷、投放 提高轉化率、合作渠道數量與質量 中間件、系統群、云、大數據環境?4用戶數、交易數的激增?201220132014201520162017Q3?第一單!第一千單!第一萬單!?10億!50億!100億!?新增50萬用戶/月,10億/月5風控思維的轉變?“本人”、“真實意愿”、“借款用途”、“還款意愿”、還款能力”01人工審核每一個客戶電核、面審、實地,以確認用戶填寫的信息的真實性為主要依據結合聯系人交叉驗證02部分應用外部數據人工搜索開放數據一些行業內部黑名單,精準命中04自動化數據驗真面部識別、身份證比對、
3、活體檢測大量外圍數據交叉驗證將三方數據引入模型03對接專業三方數據主要用于信息驗真三方數據公司的崛起05自動化審核直拒、直批+人工審核全自動化審核06“團伙識別”關系圖譜6風控:傳統金融 VS Fintech?人 VS 機器50件/人/天 VS 5000件/小時,全年無休 培訓、初審、終定、質檢 VS 只要沒bug、機器夠?評分卡 VS 模型feature有限,調整權重,謹慎 VS 大量數據維度&調整極快且“浪”半年一次迭代 VS 一周多次迭代&AB Test 套用規律、借鑒規律 VS 發現規律、驗證規律、學習規律模型穩定、固化,模型不可識別的都為異常 VS 識別與模型的差異并進行非監督學習,
4、發現新的模型?從業人員skillset行業經驗 VS 數據分析、挖掘能力 銀行(信用卡、抵押貸)、小貸、保險相關從業經驗 VS 機器學習、神經網絡、AI 金融、統計相關專業 VS CS SAS、SQL、Excel VS Python、MR、Hive、Spark、R?7技術團隊面臨的挑戰?數據量幾百張表*幾十列;百萬行;二維,范式建模幾十張表*幾千列;千萬行起;稀疏、維度建模+5TB/月(壓縮后,40%)計算復雜度“在10000用戶間建立單向關系網絡”“在100萬用戶間建立雙向關系圖譜”“從短信中篩選特定關鍵字。樣本不多,大概2000多萬”“目前系統壓力大,通知前線,壓一下進件量”“系統需要加硬
5、盤,周末停機維護”24*365,SLA服務可靠性8系統架構演進“ABC”?“傳統”互聯網階段關系型數據庫DAS、SAN、NAS中間件系統集群,HA、LB?大數據階段Hadoop生態集群NoSQL私有云?AI階段混合云/公有云GPU,混合體系架構9“金融”互聯網 VS“互聯網”金融?Mongodb?RedishHBase?REST API?Kafka Stream?HDFSMR?Kafka?*Hive?Spark10一次線上事故Ka?a隊列積壓隨著業務量的增加,Kafka隊列的積壓問題日益頻繁且嚴峻。除了Kafka本身的運維優化外,通過監控發現網絡架構問題,最終調整解決平時活動?線上參數調優Co
6、nsumer異步處理過時消息丟棄網絡限流問題解決11Kafka100 MPS;95th消息大?。?00KB;95th消息處理時長:0.7s;95th消息延遲:1.2s?Partition/Consumer規劃Partition越多越好?Kafka借助partition提升并發能力Partition內消息有序,而partition間順序無保障 Producer發送消息時注意partition傾斜(murmur2)Consumer數量略多于partition數量?消息壓縮壓縮協議:gzip、snappy、lz4?無壓縮吞吐最高?考慮客戶端的是否支持,Java、PHP、Python?參數調優吞吐 V
7、S 延遲 Producermax.request.sizebatch.size Consumersession.timeout.msfetch.min.bytesfetch.max.wait.ms?12HBase數據量:20TB;讀?。?,000 RPS,L1:400 RPS,L2:200 RPS?集群/Region規劃預置region Region傾斜 Resign越多越好?Scan時阻塞遍歷?Rowkey設計HBase無外鍵,選擇合適的字段/屬性作為rowkey 若數據按時間正序/逆序,考慮將時間戳置入rowkey 使rowkey盡量均勻地分散于region中,考慮使用MD5或其它哈希算法
8、算法處理?Compaction優化合適的StoreFile大小 Compaction線程數?13其它?OLAP/OLTP邊界HBase、Mongodb、MR、Spark熱點數據識別、優化緩存機制,合理的超時機制、緩存性價比運維、監控ELK日志規范、script fieldsELK AlertHadoop生態部署、管理工具使用成熟的免費商業工具管理集群:Cloudera CDH、IBM Biginsights部署、擴/縮容、配置調整、監控Mongodb索引優化類似MySQL索引前綴匹配復合索引、超時索引對寫性能影響較大Nginx監控響應體大小請求響應時間GC監控GC前后內存變化情況Young、f
9、ull GC頻率爬蟲歸屬地監控Kafka隊列消費監控單條消息處理時長單條消息處理時效15再過三五年Fintech將成為串接上下游高新、前沿技術的完整產業鏈,促進并推動其它技術領域更快地進化(產業化)01行業內部更開放透明的信息共享、上報機制02持照企業可更便捷地查詢公民個人/征信信息個人征信報告公共事業繳費/欠費信息公積金、社保繳費信息法院執行、失信信息學歷、學位信息03“跨界”專業人才的涌現與儲(zheng)備(duo)懂互聯網的不(一定)懂金融,懂金融的不(一定)懂互聯網PMP、Codecademy、Coursera、Github、SOF?注會、CFA?零壹、起點、一本?04機器學習、神經網絡會更深度地與風控手段結合更“實用”的算法性價比更高的xPU計算架構/集群/云服務更“傻瓜”的庫/語言05更成熟的數字合同技術,且受司法實踐支持數字簽名簽發、驗證電子合同的法律效力,司法鑒定、法院證據采納區塊鏈技術06更可靠的身份識別技術“又快又準”人臉識別、比對,官方數據庫活體檢測?THANKS