【中國科學院】大數據在金融行業價值發掘中的應用(56頁).pptx

編號:92313 PPTX 56頁 3.37MB 下載積分:VIP專享
下載報告請您先登錄!

【中國科學院】大數據在金融行業價值發掘中的應用(56頁).pptx

1、金融電子化廈門演講,2016.11.24,大數據在金融行業價值挖掘中的應用,呂本富教授,目 錄,引言一、數據與大數據二、數據分析的類型三、大數據催生新經濟四、大數據塑造新模式五、發掘信用價值的對比,商鞅說:,“強國知十三數欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削”竟內倉、口之數,壯男、壯女之數,老、弱之 數,官、士之數,以言說取食者之數,利民之數,馬、牛、芻藁之數??梢娭螄龅叫闹杏小皵怠?。,勞氏說:,1987年,是印度傳奇數學家拉曼努揚(SrinivasaRamanujan,1887-1920)的百年誕辰。當代著名統計學者,出生于印度的勞氏(C.Radhakrishna Rao,1

2、920),也應邀做了三場演講。印度統計學研究所(IndianStatistical Institute)基于勞氏的演講稿,于1989年,為他出版統計與真理(1997年發行第二版,http:/201508-70944.html),在第一版的序文中:我相信:在最終的分析中,所有知識皆為歷史。在抽象的意義下,所有科學皆為數學。在理性的世界里,所有判斷皆為統計。,一、數據和大數據,1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=1YB。數據體量從TB級別躍升到PB級別。,紐約證券交易所每天會產生1TB的數據,國外SNS網站Twitter每天產生的

3、數據總量則為8TB大型強子對撞機將產生350萬TB的數據。2013年每天全球產生25PB數據,相當于1500個國家圖書館信息量的總和。人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB。,管理學院,School of Management,UCAS,什么是數據?,數據(data)在拉丁文里是“已知”的意思,在英文中的一個解釋是“一組事實的集合,從中可以分析出結論”?;\統地說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為數據。古人“結繩記事”,“結”是數據,繩子是存儲。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數

4、字是數據,文字是數據,圖像、音頻、視頻等都是數據。,管理學院,School of Management,UCAS,研究數據、發現價值,人類科學發展史上的不少進步都和數據采集分析直接相關,例如現代醫學流行病學的開端。倫敦1854年發生了大規模的霍亂,很長時間沒有辦法控制。一位醫師用標點地圖的方法研究了當地水井分布和霍亂患者分布之間的關系,發現有一口水井周圍,霍亂患病率明顯較高,借此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之后,霍亂的發病率明顯下降。這種方法,充分展示了數據的力量。,數據比方法重要,1913年,理查森加入英國氣象服務戰,作為一名物理學家,很快掌握了流體運動方程,這就意味

5、著利用物理和數學知識,可以預測第二天的天氣情況。但是需要6個星期的數據準備。直到一戰結束,理查森的預報基本沒有準確性。到二十世紀,過去五年對未來3天的天氣預報的準確度已經達到95%。利用的方程還是理查森的方程?,F在預報利用精密的雷達和衛星地圖,不再需要理查森那樣到處收集參差不齊的大氣數據。在加上計算機對數據的快速處理,基本能實時反饋。,大數據產生的動力,社會交往UGC數據、分享數據、碎片化數據,自然記錄實時數據、機器數據、非結構化數據,各種智能設備,各種社交平臺,新摩爾定律:過去18個月產生的數據等于計算機有史 以來的總和?;蛘哒f 網絡空間的數據90%都是近2年產生的,成為跨界和顛覆的基礎。,

6、個人行為的大數據,大數據時代,每個人都會“自發地”提供數據。我們的各種行為,如點擊網頁、使用手機、刷卡消費、觀看電視、坐地鐵出行、駕駛汽車,都會生成數據并被記錄下來,我們的性別、職業、喜好、消費能力等信息,都會被從中挖掘出來,以分析個人行為的規律。,2022/8/17,大數據區別于數據,從數據到大數據,不僅是量的積累,更是質的飛躍。海量的、不同來源、不同形式、包含不同信息的數據可以容易地被整合、分析,原本孤立的數據變得互相聯通。這使得人們通過數據分析,能發現小數據時代很難發現的新知識,創造新的價值。,2022/8/17,基于大數據治理策略更有效,小數據時代,政府做決策更多依憑經驗和局部數據,難

7、免頭痛醫頭、腳痛醫腳。比如,交通堵塞就多修路。大數據時代,政府做決策能夠從粗放型轉向集約型。路堵了,利用大數據分析,可以得知哪一時間、哪一地段最容易堵,或在這一地段附近多修路,或提前預警引導居民合理安排出行,實現對交通流的最佳配置和控制,改善交通。,2022/8/17,摘自飛輪效應-數據驅動的企業,二、大數據分析的價值,首席數據官(CDO),數據科學家將負責在大型數據中集中探測,提取有用數據,加以清洗、分析、可視等處理供業務部門使用。建立數據模型,構思假設并在數據模型中進行測試,提出解決業務問題的作業模式。,1、“描述性分析”(Descriptive Analytics),根據IBM價值研究院

8、的報告,今天90以上的實時數據只是被靜態地存儲了起來,并沒有經過分析,但60以上的實時數據只有在實時的決策中有價值,之后便變得毫無意義。沒有洞察的數據,只是靜態的數據,只能實現“描述性分析”(Descriptive Analytics),即根據歷史數據進行統計歸納,可以實現現象的準確描述。這屬于大數據分析的第一階段,大多應用于消費互聯網。,如何實時掌握艾滋病流行情況,2、“預測性分析”(Predictive Analytics),如果能夠根據歷史性數據,在數據中發現規律、形成洞察,就能夠更加接近客觀真相。IBM和美國亞特蘭大州格威納特縣的公立教育機構合作,用大數據分析學生逃課的規律,發現需要幫

9、助的同學,并給他們及時提供更多的教育資源。根據分析數據呈現的規律,預測米蘭時裝周的流行趨勢,了解小德在紅土、草地、硬地上擊球的力量和速度規律,蜂群遷移的方向。,Target的懷孕分析,Charles Duhigg在2012年紐約時報報道:有一名男子怒氣沖沖地來到一家明尼蘇達附近的Target連鎖店,向店長投訴該公司最近給他十幾歲的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。店長大方地向他道了歉??刹痪煤蟮觊L又收到這名男子的電話要求再次道歉只是這一次對方告知那個少女確實懷孕了。在她的父親還沒有意識到的時候。Target店如何“猜出”哪些是孕婦?通過分析所有女性客戶購買記錄,其發現女性客戶會在懷孕四個月左

10、右,大量購買無香味乳液、無味濕紙巾和補鎂藥品。由此挖掘出25項與懷孕高度相關的商品,制作“懷孕預測”指數。,社交平臺的情緒預測,社交媒體監測平臺DataSift監測了Facebook(臉譜)IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鐘之后Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鐘之后也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時,10分鐘后Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都

11、會影響Facebook股價的波動。,3、“指導性分析”(Prescriptive Analytics),因為對于很多決策者來說,更重要的是如何在多變、不確定、動蕩的當下作出正確的決策。去年APEC會議期間北京上空驚現“APEC藍”,就是指導性分析的結果。IBM大數據分析和認知計算精確地測算出,在11月4日到5日和11月9日到11日兩個時間段內,北京會遭受嚴重的空氣污染,污染源分別來自北京西南周邊地區和北京東南周邊地區。這一情況提前三天就被預測出來,政府因此實現了小規模、分時段的管控,保障了會議期間北京的空氣質量。值得一提的是,北京市政府并沒有簡單地對周邊區域全部工廠進行大面積關停處理,而是用最

12、小的經濟代價實現最大的社會價值。,大數據的紙牌屋,紙牌屋最大的特點在于,與以往電視劇的制作流程不同,這是一部“網絡劇”。簡而言之,不僅傳播渠道是互聯網觀看,這部劇從誕生之初就是一部根據“大數據”,即互聯網觀眾欣賞口味來設計的產品。Netflix成功之處在于其強大的推薦系統Cinematch,該系統基于用戶視頻點播的基礎數據如評分、播放、快進、時間、地點、終端等,儲存在數據庫后通過數據分析,計算出用戶可能喜愛的影片,并為他提供定制化的推薦。,三、大數據催生新經濟,美國的金融重心正在從華爾街向硅谷轉移,其背后的推手是以高科技與互聯網企業為代表的新經濟的興起。新經濟帶來的不只是對傳統商業模式的顛覆,

13、也為經濟學引入了全新的思考。微觀經濟學和行為經濟學成為硅谷企業了解消費者、研判趨勢、設計未來的利器。,2022/8/17,何為新經濟?,1.從基于實物商品的經濟轉變到基于軟件和知識產權的經濟。2.共享經濟,減低信息成本,更簡便高效地匹配市場供求。像Airbnb和Etsy這樣的新經濟網站給人們創造了新的賺錢途徑在自己出外度假時把房子出租,或出售藝術創作和手工藝品。3.“組合職業”的興起,每個人都是自身職業的創業家。新時代的就業者不僅需要不斷學習新技能,而且要緊貼時代的經濟脈搏,發掘新機遇。,2022/8/17,微觀經濟學的變革,硅谷引領的新經濟讓微觀經濟學家如魚得水。他們精于某個特定領域,通常是

14、某一類型的市場或公司,試圖揭示其運轉原理。有了科技公司提供的大數據,微觀經濟學家對人們的行為做出了驚人的準確預測。微觀經濟學就是數據驅動,挖掘大數據的經濟學。硅谷的公司越來越青睞他們:將一位最前沿的經濟學家招致麾下,他們就能預測出消費者或者員工下一步可能的動向。,2022/8/17,SmarterTravel,以旅游服務公司TripAdvisor的子公司SmarterTravel為例,用戶一點開其網站,一項由經濟學家設計的算法就開始啟動。各種數據,包括兩次點擊鼠標間隔的時間,都有助于預測該用戶究竟是隨便看看、打發時間還是潛在的買家。網站會在數毫秒內做出調整瀏覽者會看到更多的廣告,而買家則會看到

15、一個更為簡單的網頁,以他們的選購為重點從而達到利潤最大化。其他公司會出售自己的預測能力。任何一家擔心員工流失的公司都可以請hiQ Labs的團隊通過深入研究公司記錄,找出最有可能離職或者被挖走的員工。人力資源總監就可以針對他們做工作。,2022/8/17,行為經濟學的機遇,與微觀經濟學類似,基于人類非理性行為的觀察,為了更好去解釋人作為個體和群體在日常經濟中的行為,經濟學的另一重要領域也在快速發展行為經濟學。與經典經濟學本質不同之處在于,行為經濟學不再把“理性人”作為經濟學分析的客觀假設,而是把人類行為的不理性納入到經濟學分析當中去。行為經濟學研究的出發點恰恰是對人類非理性行為的觀察。,202

16、2/8/17,發掘金錢“不等值效應”,我們對意外之財和自己每個月的薪水態度截然不同。自己已經擁有的東西和同等價值可以輕易買到的東西,我們更為珍愛前者。我們對問題的回應很大程度上取決于問題的呈現方式:我們覺得用信用卡支付時加收附加費用不公平,但卻認為現金支付的折扣合情合理。,2022/8/17,經濟學家角色轉換,過去十年,宏觀經濟學家對整體經濟的研判屢屢失誤,集合微觀經濟學的大數據與行為學派的觀點,應用于宏觀研究,會是很有價值的嘗試。微觀經濟學家在專注的領域屢有建樹,在微觀經濟層面(即公司和個人行為層面),行為學派也已經站穩腳跟。,2022/8/17,三、大數據塑造新模式,金融信息中,最核心的是

17、資金供需雙方信息,特別是資金需求方的信息,如借款者、發債企業、股票發行企業等,是金融資源配置和風險管理的基礎?;诖髷祿慕鹑诜掌脚_主要指擁有海量數據,關鍵是從大量數據中快速獲取有用信息的能力,或者是從大數據資產中快速變現的能力。通過對其進行實時分析,可以為互聯網金融機構提供客戶全方位信息,通過分析和挖掘客戶的交易和消費信息掌握客戶的消費習慣,并準確預測客戶行為,使金融機構和金融服務平臺在營銷和風險控制方面有的放矢。,1、團購金融,“團購金融”就是為高效聚合廣大用戶投資需求而發起的團購形態,參與產品的設計、購買、客服全流程,是一種新型的以金融理財產品和服務為交易對象的互聯網金融新模式。團購金

18、融就是降低金融產品交易雙方的成本,為廣大投資者尋找最合適的投資收益機會。高效聚合、參與全流程、降低交易成本是三個關鍵點。金融機構的套利能否順利實現的重要條件是交易成本的高低,資金歸集越容易,數目越大,套利就越容易。團購金融一般是貨幣基金。,2、網絡眾籌,眾籌(crowdfunding)大意為大眾籌資或群眾籌資,是指用團購預購的形式,向網友募集項目資金的模式。本意眾籌是利用互聯網和SNS傳播的特性,讓創業企業、藝術家或個人對公眾展示他們的創意及項目,爭取大家的關注和支持,進而獲得所需要的資金援助。眾籌平臺的運作模式大同小異需要資金的個人或團隊將項目策劃交給眾籌平臺,經過相關審核后,便可以在平臺的

19、網站上建立屬于自己的頁面,用來向公眾介紹項目情況。,3、信用資質,社交網絡生成和傳播信息,特別是對個人和機構沒有義務披露的信息,使得人們的“誠信”程度提高,大大降低了金融交易的成本,對金融交易有基礎作用。社交網絡具有的信息揭示作用可以表現為:個人和機構在社會中有大量利益相關者。這些利益相關者都掌握部分信息,比如財產狀況、經營情況、消費習慣、信譽行為等。單個利益相關者的信息可能有限,但如果這些利益相關者都在社交網絡上發布各自掌握的信息,匯在一起就能得到信用資質和盈利前景方面的完整信息?!疤詫毦W”類似商務社交網絡,商戶之間的交易形成的海量信息,特別是貨物和資金交換的信息,顯示了商戶的信用資質。,4

20、、搜索和云計算,搜索引擎對信息的組織、排序和檢索,能緩解信息超載問題,有針對性地滿足信息需求。搜索引擎與社交網絡融合是一個趨勢,本質是利用社交網絡蘊含的關系數據進行信息篩選,可以提高“誠信”程度。比如,抓取網頁的“爬蟲”算法和網頁排序的鏈接分析方法(以Google的PageRank算法為代表)都利用了網頁間的鏈接關系,屬于關系數據。云計算保障海量信息高速處理能力,資金供需雙方信息通過社交網絡揭示和傳播,被搜索引擎組織和標準化,最終形成時間連續、動態變化的信息序列??梢越o出任何資金需求者(機構)的風險定價或動態違約概率,而且成本極低。這樣,金融交易的信息基礎(充分條件)就滿足了。,5、場景匹配,

21、基于需求場景分析用戶需求,可以讓產品更接地氣。它應該擁有這樣的結構:“在某某時間(when),某某地點(where),周圍出現了某些事物時(with what),特定類型的用戶(who)萌發了某種欲望(desire),會想到通過某種手段(method)來滿足欲望。場景和用戶匹配,需要進行迭代式創新。,五、發掘信用價值的對比,互聯網金融機構基于大數據的信用風險評分模型和傳統金融機構采用的信用風險評分模型在數據來源、變量生成、模型方法、應用方式、應用目標上均存在一定差異傳統的信用風險評分模型由于結構相對簡單,數據來源相對固定,模型開發和運行所需的計算環境和性能要求相對單一。大數據信用風險評分模型,

22、無論在模型訓練還是應用環節,均需要海量計算,對存儲和計算性能要求較高。,2022/8/17,1956年,工程師BillFair和數學家EarlIsaac共同發明了著名的FICO評分方法。該方法基本以Logistic回歸方法為技術核心,是當前業界應用最成熟的信用風險評分模型。在20世紀6080年代,隨著信息技術的進步和業務的快速發展,信用評分模型在信用卡、消費信貸、住房抵押貸款和小企業貸款中得到了廣泛應用。隨著大數據和互聯網金融的興起,機器學習算法走出了學術領域,開始在部分互聯網金融機構的信用風險評分模型中得到應用。以Zestfinance公司為例,該公司將機器學習算法應用于信用風險評分模型中,

23、這是大數據信用風險評分模型領域的早期探索之一。,2022/8/17,1、數據來源及數據特征的差異,傳統信用風險評分模型的數據來源主要是三大類:客戶向金融機構提交的個人申請信息、金融機構內部積累的客戶歷史數據、人民銀行征信中心等外部機構提供的數據。數據的主要特點是數據質量和信息價值密度高、維度相對單一、可驗證性較差、數據采集渠道規范性較好。傳統金融機構基于傳統的高價值密度的數據,研發出各類信用風險評分模型,實現對客戶信用風險的評價,已經成為成熟的、規范化的運行方式。,2022/8/17,2、大數據信用數據特征,大數據時代的客戶信息來源更加多元化,各互聯網金融機構掌控的生態體系內積累的客戶信息,以

24、及通過外部各種渠道采集的客戶信息。其數據特征包括:一是數據較為稀疏。數據采集渠道的多元化和非標準化,導致客戶信息缺失率較高,同一客戶不同維度的信息經常不完整,最終體現為數據的稀疏性。二是價值密度相對較低。單項數據的信用評估價值密度較低,缺少傳統金融機構擁有的含金量較高的征信類數據、歷史違約數據。三是數據覆蓋維度廣。部分機構通過各種渠道積累了涉及用戶行為各方面的數據,如不少機構采集了覆蓋衣、食、住、行、娛樂、購物、通信等各種來源的信息。,2022/8/17,四是單變量風險區分能力弱。分析發現,盡管市場上常見的大數據機構采集了各種維度的客戶行為信息,對客戶總體形象的刻畫更詳細,但這類數據并未專注于

25、客戶信用風險,往往缺少內部征信數據、外部征信數據、個人資產評估等有強區分能力的變量。大數據機構采集的客戶衣食住行、社交類等信息,在信用風險評估領域大多屬于弱區分能力變量,需要匯集、整合大量信息以后才能實現區分效果的實質性提升。五是數據來源規范性不足,不少大數據采集機構通過灰色渠道采集個人隱私數據,數據可持續性不佳。,2022/8/17,3、模型變量生成和挑選方式的差異,不同的數據特征直接影響到模型變量的生成、挑選方式。傳統信用風險評分模型候選變量數量較少,單一模型候選變量常在數百至數千個數量級。進入模型的變量往往在數十個數量級。模型變量數量較少,客觀上使得數據可以經過多番清洗,清洗后的數據質量

26、相對較好;同樣由于變量較少,傳統金融機構往往在變量挑選過程中開展多輪定量和定性分析。在篩選模型變量的過程中,除了參考變量的區分能力等定量維度,往往還需要參考機構內部業務專家的意見。,2022/8/17,大數據時代,由于原始數據體量較大,通過變量本身衍生、變量之間衍生后產生更多候選變量。在單個模型內,相近的候選變量可多達數百乃至上萬個。由于缺乏專家團隊支持,通常采用挑選規則等方式自動化挑選候選變量,人工干預和專家審核較少。同時,由于模型變量數量龐大和數據質量較差,容易出現模型變量未經嚴格數據清洗程序就進入模型的情況,對模型表現造成影響。,2022/8/17,4、建模技術方法的差異,不同的數據特征

27、直接影響到建模技術方法的選擇。傳統的信用風險評分模型以Logistic回歸方法為核心。Logistic方法處理二分類因變量的數據有獨特的優勢,同時模型關于數據分布的假定較弱,在數據為非正態分布時,也有較好的表現。因此,該方法是當前國內外金融機構、征信機構最廣泛應用的方法。,2022/8/17,大數據信用風險評分模型更多采用了神經網絡(NeuralNetwork)、支持向量機(SupportVectorMachine)、隨機森林(RandomForest)等算法。這些機器學習方法在解決特定問題時具有優勢,如有些方法適用于處理稀疏的數據;有些能更好地解決模型過度擬合問題;有些能處理大量的輸入變量,

28、預測準確度較高,能有效提升模型表現。和傳統的Logistic方法相比,每類機器學習方法都有自己的特色,但并未完全超越傳統方法。,2022/8/17,5、模型技術架構的差異,傳統信用風險評分模型大多采用單層模型技術架構,即自變量因子通過WOE轉換以后計算產生評分和違約概率。在這種技術架構下,傳統模型運行維護相對較為簡單,但模型少數關鍵變量直接影響模型的表現。一旦少數變量導致模型表現下降,需要通過研發新模型及時替換原有的模型。,2022/8/17,大數據信用風險評分模型的模型結構具有兩大特點:一是采用母子模型結構。即先通過子模型將稀疏的大數據信息加工成密集信息,再將子模型的輸出信息作為母模型的輸入

29、變量,將信息逐層加工,形成模型嵌套模型的技術架構。子模型一般采用神經網絡、隨機森林、支持向量機等機器學習算法,母模型采用傳統的、成熟的Logistic回歸等技術方法,實現模型應用框架不發生太大變化的情況下,具有更好的區分效果。,2022/8/17,二是采用動態挑戰者模型挑選和淘汰機制。在母子模型架構下,假設進入運行的子模型有100個,備選模型有200個,一旦在運行的子模型中有效果下降至某個最低閾值的模型,則會被剔除,而從備選的200個模型中挑選效果較好的替補模型進入到子模型序列中。這種動態調整機制在實現總體模型運行效果相對穩定的同時,也給模型的運行維護帶來了較高的復雜度。,2022/8/17,

30、6、模型應用方式的差異,傳統的信用風險評分模型本質上是對信貸專家決策過程的模擬,銀行等傳統金融機構在應用信用評分模型時通常采用人機結合的方式,對信息比較充分的客戶,根據評分和規則實現自動化審批;對信息不充分的客戶,由專家進行人工審批決策?;ヂ摼W金融機構傾向于應用大數據信用風險評分模型,除了極少數情況(如信貸額度較大)外,均采用全自動化決策方式,一般不進行人工干涉。,2022/8/17,上述差異產生的原因主要包括:一是在傳統金融機構內部,信用評分模型是整個信貸決策流程的一部分,完全采用模型決策代替人工決策,需要信貸決策的利益相關方逐步接受和適應;二是傳統機構對部分客戶掌握信息不夠豐富,對部分灰色

31、區域的客戶風險判斷依據不足,需要結合審批人的專家判斷作為補充;三是傳統金融機構授信額度相對更大,在客戶信息掌握不充分的情況下,潛在損失更大,而互聯網金融機構授信額度普遍較低,完全通過模型進行信貸決策產生的潛在損失較小。,2022/8/17,7、模型上線運行方式的差異,模型技術架構的差異直接導致模型上線運行方式的差異。傳統的信用風險評分模型通常將單一模型嵌入到在業務流程系統中,直接用于信貸決策。部分成熟的歐美銀行可以同步運行23個挑戰者模型,當單一模型表現下降的時候,實現及時切換。大數據信用風險評分模型中,數百個模型同步上線并行計算成為可能。這對部署在信貸業務流程系統中的決策引擎和數據環境提出了

32、更高的要求。如決策引擎需要采用分布式架構,以實現海量變量的同步計算,要求提前在數據環境中部署海量的原始變量和建模變量,以保障模型在切換時隨時有新變量可供替換。,2022/8/17,8、模型應用目標的差異,傳統的信用風險評分模型目標和大數據信用風險評分模型目標存在差異。簡單地說,可以把傳統模型盯住的目標變量認定為狹義的信用,大數據模型盯住的目標變量認定為廣義的信用。傳統信用風險評分模型的目標變量是客戶信貸違約可能性,核心是預測客戶在某個信貸產品上的違約概率。大數據信用風險評分模型的目標變量更多反映的是廣義上客戶信用品質,并未專注于客戶信貸違約預測。因此,大數據信用評分模型也應用于客戶信貸評價以外

33、的領域。,2022/8/17,9、模型優劣的判別標準,信用風險評分模型判別標準應當包括若干維度:模型區分能力、穩定性、可解釋性、統計顯著性、復雜度等。一個良好的信用風險評分模型,應當具備如下特點。一是區分能力優秀。優秀的信用風險評價模型應當具備準確區分客戶的風險等級,并按照其風險等級進行準確排序的能力。這是判斷信用風險評價模型優劣的主要標準。二是運行穩定。包括區分能力的穩定性和可持續運作的穩定性。區分能力的穩定性指模型不僅在開發階段、開發樣本中具備區分客戶的能力,在投入運行后具備同樣的能力。模型可持續運作能力很大程度取決于數據的可獲得性,一旦數據無法持續獲得,模型可持續運行能力將受到影響。,2

34、022/8/17,三是具備可解釋性。模型的可解釋性指向監管機構、金融機構內部利益相關方進行合理解釋。這要求模型擬合結果符合基本經濟學邏輯和業務邏輯,以便向監管機構、內部利益相關方清晰解釋模型的運作機理和風險驅動因素。四是統計顯著。如果是統計類模型,則在單變量及模型總體層面均需要通過統計檢驗,以確?;趯嶋H數據建立的關系在統計上是成立的。五是復雜度盡可能低。一般來說,在同等效果或效果接近的情況下,優先采用簡單模型。,2022/8/17,10、結論:,決定信用風險評分模型的區分能力的主要因素是有效的數據樣本,而非模型本身。在以相同的建模樣本為數據基礎的情況下,機器學習算法模型和傳統的Logistic回歸模型在區分能力上的差異有限。只要對大數據進行適當加工處理,采用傳統Logistic回歸方法依然是可行的,區分能力是穩定的。,2022/8/17,適當調整當前的模型架構。傳統信用風險評分模型采用單層的模型技術架構,導致難以在單一的模型內容納足夠的信息,客觀上影響了區分能力的提升。建議可借鑒大數據信用風險模型技術架構,在不改變傳統的Logistic方法框架基礎上,嵌套23層子模型,將更多有價值信息納入到模型中,提升模型表現。,2022/8/17,

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(【中國科學院】大數據在金融行業價值發掘中的應用(56頁).pptx)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站