《慧擇奇點研究院:中國人身險行業核保風控白皮書(25頁).pdf》由會員分享,可在線閱讀,更多相關《慧擇奇點研究院:中國人身險行業核保風控白皮書(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、有關預測性建模實際應用的進一步思考上文中我們對預測性建模的理論進行了簡單的介紹,而在實際建模過程中,只簡單應用上述理論是遠遠不夠的,我們需要根據具體問題做多方面的考慮和分析。數據科學家們需要根據具體的業務問題和場景來定義所要預測的目標(即定義數據標簽)。以預測性核保為例,可以綜合考慮核保標簽和理賠標簽兩類信息為數據打標簽。對于壽險、重疾等長險,可以定義保單生效兩年內發生理賠的數據為高風險,其目的是為了重點篩選逆選擇傾向(未必一定是逆選擇)的保單;也可以根據保單年逐年打標簽,其目的是為了挖掘風險模式,為定價調整提供思路和方向。對于短期健康險、車險等一年期產品來說,標簽的定義相對直接,例如在完整保
2、單年內有無發生(重度)理賠。當然,標簽定義中也可以考慮核保結論,比如利用機器學習技術進行數據聚類,然后請核保專家進行二次打標簽。預測性模型能夠成功用來預測某一目標的前提是模型的輸入和輸出是高度相關的。如果輸入和輸出完全不相關(即相互獨立),那模型的預測就像是擲色子完全隨機,起不到預測分析的目的。在建模之前,可以對輸入和輸出變量進行相關性分析,對數據集的可預測性進行定性分析。此外還需要對各數據維度進行其他分析和預處理,例如規范整理數據字典、分析和補齊缺失值、發現和處理異常點等。很多數據科學家都被問過這個問題,想要準確回答這個問題并不容易。需要考慮數據標簽的分布是否平衡、數據集質量的好壞、前端業務
3、對模型準確率的期望高低等不同方面。相較于數據標簽分布平衡的數據集來說(例如車險產品的理賠率可能會達到30%),當數據標簽分布高度不平衡的時候(例如長險產品的理賠率很低,從而導致標簽陽性率16 也很低),一般就需要更多的訓練數據去捕捉稀有的標簽類別(針對不平衡數據集可以利用數據增強等相關技術處理)。此外,如果對模型準確率要求較高,就需要擴大數據集的規模,并嘗試使用更復雜的模型對數據進行更好的擬合。一般來說,廣義線性模型是利用多個自變量的線性疊加進行預測,根據不同的鏈接函數可以分別預測布爾值、連續值、頻率值等不同類型的因變量,進而可以應用到解決二分類、預測理賠金額、預測理賠頻率等具體問題中。而樹模
4、(決策樹、隨機森林、GBDT、LightGBM等)在工業界的應用非常廣泛,其優勢包括但不限于:不需要對數據進行復雜的預處理、支持多種數據類型、模型解釋性較強、高魯棒性、現有開源包支持大規模并行建模、調參過程相對容易可控、可以快速擬合非線性關系等。隨著數據的大規模收集,深度神經網絡在各大機器學習競賽中高居榜首,其優勢是疊加幾十、上百個神經層,利用各種定制化的網絡結構、激活函數、損失函數等能更好地擬合逼近復雜的非線性關系。為了得到更高的模型準確率,人們嘗試不斷增加網絡層數,然而副作用是對數據量的需求也顯著增多。此外,深度神經網絡的輸出結果非常難以解釋,從而影響結果可信度和可接受度。隨著機器學習模型
5、在銀行、醫學、保險等領域的廣泛應用,如何直觀、準確地理解模型決策(結果)的原因對滿足監管需求和指導前端業務有著重要意義。不同模型類型的可解釋性不同,例如廣義線性模型、決策樹這類模型本身即可解釋其決策原因;而深度神經網絡、集成模型這類黑盒模型則需要利用一些方法對訓練好的模型進行事后解釋。此外,針對單一數據進行解釋的行為稱為局部解釋,針對全量數據集的解釋稱為全局解釋。常用的模型解釋方法有特征排列重要性(feature permutation importance)、部份依賴圖(partial dependency plot)、LIME、SHAP等。伴隨模型解釋而來的另外一個話題是模型的公平性,尤其考慮到性別、種族等信息。這里就不展開討論了。