《客戶微細分:架起結構化數據與深度學習的橋梁-張磊.pdf》由會員分享,可在線閱讀,更多相關《客戶微細分:架起結構化數據與深度學習的橋梁-張磊.pdf(51頁珍藏版)》請在三個皮匠報告上搜索。
1、客戶微細分架起結構化數據與深度學習的橋梁張磊索信達控股有限公司 首席科學家客戶微細分簡介問題背景:深度學習和銀行應用之間的鴻溝結構引力成像:結構化數據的離散化、圖像化、特征化、狀態化把握變化趨勢:從有限狀態到狀態轉移概率網絡模型優化:使用圖像特征和提升度來優化現有模型客戶微細分是什么?通過將結構化數據進行合理的圖像化,并創新地運用深度學習算法,挖掘反映客戶資產偏好的深層特征,從而有效提升銀行現有各個模型的準確性,并通過客戶在不同圖像狀態之間的轉移概率,預判出客戶資產配置的發展趨勢,為一線客戶經理提供覆蓋全客戶的營銷方向。問題產生的背景?銀行已經做了客戶細分,但分析做得不夠細致,通常只分到幾個大
2、類,缺乏對一線人員的戰術支撐。人工智能這么火,但不知道怎么用到金融行業中去,監控視頻、人臉識別、語音生成等技術的應用缺乏明顯的業務價值,簡單地將億萬特征丟給算法是不負責任的做法。有哪些特色和創新點?“數據圖像化”的創新思路,在銀行最重要的業務數據和深度學習算法之間的鴻溝上架起橋梁,融合了統計學、萬有引力定律、空間投影、插值平滑等算法;“自動編碼器”能從圖像中抽取顯著特征,將類似的圖像聚類在一起,從而實現圖像級的客戶微細分;“分箱編碼”和合理的聚類算法選擇,在保證精度的同時,大幅提升處理效率(高達400倍)能否帶來真正的業務價值?通過引入客戶微細分產生的新圖像特征,將上線模型(大額存單、結構性存
3、款)前10%名單的命中率提高20%40%;無論采用何種預測算法,模型均有明顯提升,前5%名單的命中率最高提升3/4;直接產生的營銷效益高達數百萬至上千萬;1.以數據圖像化為橋梁2.客戶的產品資產結構化數據3.數據標準化與離散化分箱4.相關分析5.太陽系與萬有引力定律6.網絡布局算法與斥力模型7.等高線投影與顏色映射8.一人一圖像百花齊放9.圖像的自動特征編碼10.密度聚類為客戶微狀態11.狀態隨時間的轉移概率12.狀態轉移全景圖客戶微細分簡介問題背景:深度學習和銀行應用之間的鴻溝結構引力成像:結構化數據的離散化、圖像化、特征化、狀態化把握變化趨勢:從有限狀態到狀態轉移概率網絡模型優化:使用圖像
4、特征和提升度來優化現有模型問題背景銀行數據分析做得還不夠細致,細節的忽略導致了信息的缺失寬表中常常匯總到客戶級別/算法處理以客戶為單位/明細計算復雜度高看到粗略的輪廓,看不到具體線條/泯泯然眾人矣深度學習這么火,不知道怎么用到金融行業中去監控錄像之類的分析價值低/結構化的交易記錄難以直接應用于深度學習算法簡單生成億萬特征丟給算法去跑是不負責任的做法深度學習銀行應用深度神經網絡本質上只是加了很多隱層的神經網絡,為何在圖像識別中效果如此出色?更多有效特征:卷積操作是關鍵,它能自動生成大量以前人工難以刻畫的輪廓特征。這些新的特征決定了模型能達到更高的分類精度擬合更復雜的關系:網絡越深,能擬合的函數就
5、可以越復雜適合圖像識別卷積操作完全是從早期計算機視覺研究中獲得的靈感邊緣檢測用到的一系列濾波器就是在做類似工作圖像的非結構化特性使得難以人工構造特征,這是其它機器算法失效的主因銀行數據以結構化數據為主非結構化數據(如監控視頻等)分析的價值太低大量的交易明細數據未利用一方面是性能壓力大更重要的是不知道如何有效利用深度學習銀行應用深度神經網絡本質上只是加了很多隱層的神經網絡,為何在圖像識別中效果如此出色?更多有效特征:卷積操作是關鍵,它能自動生成大量以前人工難以刻畫的輪廓特征。這些新的特征決定了模型能達到更高的分類精度擬合更復雜的關系:網絡越深,能擬合的函數就可以越復雜適合圖像識別卷積操作完全是從
6、早期計算機視覺研究中獲得的靈感邊緣檢測用到的一系列濾波器就是在做類似工作圖像的非結構化特性導致了很難人工構造特征,這也是其它機器算法失效的主因銀行數據以結構化數據為主非結構化數據(如監控視頻等)分析的價值太低大量的交易明細數據未利用一方面是性能壓力大更重要的是不知道如何有效利用數據圖像化把結構化數據變成圖像把圖像再扔給深度學習客戶微細分簡介問題背景:深度學習和銀行應用之間的鴻溝結構引力成像:結構化數據的離散化、圖像化、特征化、狀態化把握變化趨勢:從有限狀態到狀態轉移概率網絡模型優化:使用圖像特征和提升度來優化現有模型起點:銀行客戶的產品資產數據某銀行富??蛻舾髟碌漠a品資產余額月日均過去一年12
7、個月/富??蛻簦ˋUM月日均超過5萬)以上/每月500萬客戶包含的字段信息客戶編號、年月、AUM月日均/11個一級產品余額理財,國債,活存,代理推介,薪金煲,財產險,定存,人身險,貴金屬,基金,貸款我們希望了解客戶的產品偏好問:我們一般用上面的數據來分析什么業務問題?答:了解客戶的產品偏好。問:具體怎么分析呢?答:計算各個產品的總資產占比并排序,取最高的或前幾個產品作為客戶最偏好的產品。每個客戶對應一條記錄11種產品(產品樹一級分類)對應的資產月日均余額客戶有類似有不同1、3、4都有定存2沒有定存,但有薪金煲3有活存定存,也有薪金煲過于簡單化:占比最高是否就是客戶最喜歡的?低層次思維:用一維的
8、眼光去看多維的問題。孤立的觀點:忽視產品之間的關系,每種產品視作與其它產品無關。數據標準化:將余額轉換為占比標準化:將余額轉換為占比每個客戶計算二級產品資產總和資產占比各產品資產/資產總和p_p_理財理財0.2611270.261127p_國債0.004543p_p_活期存款活期存款0.2796870.279687p_代理推介0.003543p_p_薪金煲薪金煲0.1193090.119309p_財產險0.017398p_p_定期存款定期存款0.2198390.219839p_人身險0.040769p_貴金屬0.000234p_基金0.018029p_貸款0.034866全體客戶匯總后的產品資
9、產占比數據離散化:分位數分箱由于0占比出現的頻率極高(這很常見),取非0分位數再平均劃分為10箱全體客戶的各個產品資產占比按序排列,得到的100個分位數全體客戶平均后的資產占比一般我們會用右側的瓦片圖來展現問題1:這種圖形對業務有啥幫助?問題2:各個矩形的順序這么排列是合理的嗎?產品產品占比占比活期存款27.97%理財26.11%定期存款21.98%薪金煲11.93%人身險4.08%貸款3.49%基金1.80%財產險1.74%國債0.45%代理推介0.35%貴金屬0.02%很顯然,產品之間并非彼此無關對產品資產進行相關分析,得到相關系數矩陣,可以看出正負相關與強弱,例如:定存與活存、理財相關性
10、強,其次是薪金煲貴金屬與其它產品的相關性都很弱從一維空間到二維空間把每個產品視為一個節點(星球),資產占比代表節點的大小把產品間的相關系數視為節點間的吸引力(萬有引力)認為節點之間既有引力也有斥力相關性越高,則引力越大,反之亦然距離越近,則斥力越大,反之亦然將一維的產品資產占比數組,轉換為二維的太陽系星球分布星球與萬有引力構造二維的資產占比星系圖每個產品是一個節點,節點的大小對應于資產占比活存、定存、理財都很大薪金煲較大貴金屬最小該圖用于定位各個產品星球在二維空間的坐標每個客戶都會用相同的坐標系,只是節點大小不同但是這幅圖像還不適合做深度學習1)沒有鮮明的輪廓深度學習適合學習各種輪廓(邊界形狀
11、),但圖中只有圓形2)難以直觀看出資產偏好如果產品更細更多,一堆大大小小的球很難把握特征3)多產品偏好組合難以反映需要看到山的形狀,而不是一堆石頭輪廓的形成:從三維到二維的投影 輪廓的刻畫:從星系圖到地形圖以上圖的節點大小作為高度,同時用網格劃分整張圖片,空值的網格交點處補零然后就可以繪制出反映地形的等高線圖為了方便查看,使用合適的Colormap進行染色本圖反映了全體客戶的總體資產偏好特征:活存和理財第一梯隊,定存緊隨其后,薪金煲、人身險、貸款是一堆小山頭,貴金屬幾乎看不見每一個客戶都可以同樣進行圖像化百花齊放,各有不同,能夠明顯看出客戶差異也能看到相同與類似純定存型只有定存,其它基本沒有,
12、粘性差,定存到期前要警惕重財惜命型資產集中在保險產品(財險為主,輔以人身險),少量活存典型客戶圖像舉例惜命愛基型人身險為主,剩余資產放在基金和活存上貸款型以貸款為主,少量活存典型客戶圖像舉例高粘性基民基金和活存并重,兼顧收益和流動性;少量定存和薪金煲白領型活存和薪金煲為主,側重流動性兼顧少量收益,基金和人身險也有少量典型客戶圖像舉例有了這么多圖像,也看到很多圖像比較類似自然會想到把相似的圖像聚類起來圖像聚類分為兩步:自動編碼器+聚類算法如何對圖像進行聚類?1)自動編碼器(AutoEncoder)將圖像壓縮為特征編碼1)聚類算法(Clustering)使用K-Means等算法進行聚類自動編碼器(
13、AutoEncoder)自動編碼器是一個數據壓縮算法。它由編碼器和解碼器兩個主要部分構成。編碼器的工作是將輸入數據壓縮成較低維度的特征。比如,一個 28x28 的 MNIST 圖像總共有 784 個像素。編碼器可以將它壓縮成 10 個浮點數組成的數組。我們將這些浮點數作為圖像的特征。另一方面,解碼器將壓縮后的特征作為輸入,通過它重建出與原始圖像盡可能相近似的圖像。實際上,自動編碼器是一個無監督學習算法。在訓練過程中,它只需要圖像本身,而不需要標簽。自動編碼器的輸入和輸出是一樣的,就是用自己來預測自己。自動編碼器模型結構示意圖多層的卷積神經網絡,輸入與輸出相同,中間層為狹窄的瓶頸式編碼層本例中的
14、自動編碼器模型結構其中中間層(encoded)為壓縮后的圖像特征,訓練4963個參數自動編碼器建模訓練好的自動編碼器模型按八二比例劃分訓練集/驗證集,經過數千輪迭代(epochs),loss=0.2801編碼解碼(28x28x3)(4x4x8)圖像對應的特征編碼生成圖像特征編碼之后,選擇聚類算法K-Means很常用,但用在這里不適合需要人工指定聚類數目,在圖像細分之前難以給出K值預期的聚類數目會較大(成百上千個),K值更難以事先給出對圖像聚類算法的要求可以調整相似度閾值,但無需指定聚類數目的確能夠將類似的圖像聚類在一起,而非僅僅基于歐式距離嘗試過AP(親和力傳播)聚類算法,效果還行,但性能太差
15、(40多分鐘)最終選擇了DBSCAN密度聚類算法(6秒)可以發現任意形狀的聚類,對噪聲點不敏感,單次數據掃描。兩個核心參數:Eps-球體最小半徑、MinPts-球內至少包含點數核心概念:直接密度可達、密度可達、密度連通、核心點pqp1pqo密度可達密度連通DBSCAN(基于密度的空間聚類)算法最終聚為1616個類eps=0.3,min_samples=30,algorithm=ball_tree圖片樣本數為10536(取頻數超過10個客戶所對應的分箱編碼),這10536張圖片覆蓋了98%的客戶聚類結果直接聚出910個類,另外有706張圖片未能歸類我們將這兩部分合起來,總計總計16161616個
16、類個類,其中前910個稱為常見類別,后706個稱為少見類別各個類均計算出中心圖像作為代表聚類效果還不錯類中心定存與活存并重定存到期,全部轉為活存日常消費為主(活存借記卡)嘗試買些基金贖回基金,改為投資少量理財辦理理財卡活存向理財和定存轉移資金流動性需求變大,活期占比提高資金支出(活存減少)資金支出(活存減少)資金支出(活存減少)只剩下定存了客戶(微細分圖像)的動態演化客戶微細分簡介問題背景:深度學習和銀行應用之間的鴻溝結構引力成像:結構化數據的離散化、圖像化、特征化、狀態化把握變化趨勢:從有限狀態到狀態轉移概率網絡模型優化:使用圖像特征和提升度來優化現有模型在馬爾科夫鏈中,每一個圓圈代表相應時
17、刻的狀態,有向邊代表了可能的狀態轉移,權值表示狀態轉移概率。馬爾科夫鏈前狀態前狀態A A后狀態后狀態B BA A概率概率B B概率概率置信度置信度支持度支持度提升倍數提升倍數x00900000000 x0090000000021.55%21.32%93.45%20.14%4.38 x00900000000 x9010000000021.55%16.76%1.20%0.26%0.07 x00900000000 x0020009000021.55%13.13%0.68%0.15%0.05 x00900000000 x7060000000021.55%1.42%0.60%0.13%0.42 x901
18、00000000 x9010000000016.60%16.76%83.88%13.92%5.00 x90100000000 x7060000000016.60%1.42%4.34%0.72%3.05 x90100000000 x8020005000016.60%1.16%2.09%0.35%1.80 x90100000000 x8030500000016.60%1.13%1.38%0.23%1.22 x00200090000 x0020009000012.87%13.13%89.69%11.54%6.83 x00200090000 x0050008000012.87%2.03%3.86%0.
19、50%1.90 x00200090000 x0060007000012.87%1.07%1.64%0.21%1.53 x70600000000 x901000000001.48%16.76%56.03%0.83%3.34 x70600000000 x706000000001.48%1.42%26.72%0.40%18.80 x70600000000 x009000000001.48%21.32%5.89%0.09%0.28 x70600000000 x607000000001.48%0.36%2.94%0.04%8.08 x70600000000 x707000000001.48%0.14%1
20、.51%0.02%10.54 狀態轉移概率00900000000純活存型90100000000財九活一00200090000定九活一70600000000理財活期兩相宜80200050000理財為先定存隨后80305000000重理財兼顧薪金煲00500080000要活存更要定存00600070000定活兩便60700000000活期理財兩相宜70700000000理財活期平衡型70200060000理財定期兩相宜93.4%1.2%0.6%0.6%83%4.3%2%1.3%89%3.8%1.6%56%26.7%5.8%2.9%1.5%49%27.6%10.5%2%狀態轉移全景圖狀態轉移示例理財
21、為先定存隨后現在,每個客戶對應一幅圖像,每幅圖像對應128個特征變量那么,這些信息可以用來做什么?客戶微細分簡介問題背景:深度學習和銀行應用之間的鴻溝結構引力成像:結構化數據的離散化、圖像化、特征化、狀態化把握變化趨勢:從有限狀態到狀態轉移概率網絡模型優化:使用圖像特征和提升度來優化現有模型模型優化結構化存款響應模型將128個圖像特征變量加入結構化存款響應模型重新建模前5%名單命中率提高25%前10%名單命中率提高14%ROC提高2.2%ROC前5%提升度前10%提升度前10%命中率入選變量數深度學習變量入選數歷史評分 使用老模型直接評分0.6562.682.4726.9%-歷史模型 使用新數
22、據重新訓練老模型0.7553.653.1934.7%19-優化模型使用新數據和新變量重新訓練老模型0.7724.553.6439.6%3011模型優化大額存單響應模型將1616個圖像聚類對應的提升度加入大額存單響應模型重新建模無論是哪種算法,圖像聚類提升度的引入都能改善模型三種算法中,隨機森林算法最優最好的模型(隨機森林提升度變量)提升度最高為5.73,基線模型(邏輯回歸原始變量)提升度最高為3.28模型前5%名單的命中率提高了75%模型前10%名單的命中率提高了43%未完待續接下來希望深化的工作聚類分析的深化特征刻畫:對聚出來的類進行特征刻畫,借鑒段剖面的思想,構建出一系列決策樹,最好能減少
23、人工刻畫的工作,實現自動刻畫層次聚類:由于實際項目中龐大的客戶數,最終的聚類數量可能成百上千,還需要對聚類進行聚類,形成層次,方便業務應用聚類篩選:提供篩選功能,篩選出滿足某些條件的聚類,篩選條件可包括其它模型外變量,也需包括根據圖像特征進行篩選(例如鄰近節點子集)動態變化的分析靜態圖像只能反映某個時點的狀態,在前期結果查看中就會冒出“為啥客戶只有活存?為啥客戶只有基金”之類的問題,這個必須要結合歷史圖像的演化才能準確回答除了歷史沿革,還要看未來發展。未來客戶圖像會演變成什么樣?有幾種演化路徑?各自的可能性有多大?什么是我們希望的?是么是需要干預的?凡此種種,都需要將客戶圖像視為棋局快照,圖像的動態變化視為棋局的發展,從而將動態變化的分析看成AlphaGo所做的事情,從千萬個棋局中學會下棋??赡苌婕暗乃惴ǎ簭娀瘜W習、蒙特卡洛搜索樹、序列分析。