《MIT&度小滿:2023年金融科技趨勢展望報告(21頁).pdf》由會員分享,可在線閱讀,更多相關《MIT&度小滿:2023年金融科技趨勢展望報告(21頁).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、Jan.20232023年金融科技趨勢展望3近期智能計算和智能網絡的重大技術突破,依然是深度學習為我們帶來了驚喜。從算法角度來講,首先最有代表性的是深度神經網絡,以及預訓練模型方向得到長足的發展。預訓練模型有一個巨大的神經網絡,最新的版本在千億級參數量,知識深度和廣度都讓人嘆為觀止。不論從研究角度,還是應用角度,預訓練模型都產生了重大影響從圖靈測試的角度遠超過之前的測試,并且具有行業普適性,它可以適用到各種各樣的下游 AI 的任務中去,這是它最具里程碑意義的地方。其次是生成式模型,它所代表的機器創造性也是智能的重要體現。從網絡角度來講,算力是最大的瓶頸,不論是邊緣的算力,還是中心化的算力,從目
2、前統計來看,它們的使用率是比較低的。怎么樣能夠提升它的使用率,還需要一些新的技術,能夠打通中心的算力以及整合邊緣的算力,使得這些算力能夠滿足普適的 AI 的算力要求。除了算法和算力外,數據也是支撐智能計算和智能網絡發展的重要因素,尤其對于金融行業來說,數據的使用和安全更加重要。隱私、安全和公平性是最需要關注的三個話題,隱私保護計算、聯邦學習、數據的選擇和算法改進,分別能夠一定程度上解決上述三個問題。此外,從治理角度來看,區塊鏈作為一種基礎設施,也是數據治理的重要技術手段,目的是對數據和其他資源進行分布式的自治化治理。郭嵩 香港理工大學計算機系教授、IEEE Fellow大模型是數字經濟時代智能
3、信息處理的基礎設施,它的基底是語言生成模型和語義理解模型。它的語義生成空間非常大,可駕馭空間也非常大、創作自由度高,但是它的自由度太大了,當試圖去完成某種真實任務的時候,會由于可控性不夠而導致困擾,它的優點反而變成了它的弱點,所以未來要在“可控生成”上面下功夫。大模型的最主要特點是以機器易駕馭(machine tractable)的方式,即自監督學習的方式博覽一切,因廣博而產生能力。如果將它的能力放在金融行業中去處理原有的任務,性能和效果將會有顯著的提升。如果把各類金融大數據注進大模型去做經濟形勢的預測,與現有的主流經典分析方法論將會有質的區別,國際上如果因此出了一個諾貝爾經濟學獎(將人工智能
4、用于金融研究或預測),我一點都不感到驚奇,甚至是可期待的。孫茂松 清華大學人工智能研究院常務副院長、ACL Fellow4短期內人工智能總體還是會保持大模型、大數據、多數據源、多任務的發展趨勢,通過大規模算力堆砌實現接近甚至超越人類的精度。但我們也注意到,數據驅動的人工智能可能無法突破弱人工智能的極限,我們還是應該積極探索數據之外的內容,比如客觀規律等“知識”,將其結合到算法中,實現更好的人工智能。陳紅陽之江實驗室圖計算研究中心副主任/高級研究專家數據分析或者機器學習,對于理解、發現以及使用因果是不可或缺的。這個時代我們有足夠多的數據,而且計算資源非常豐富。顯然,機器學習一定可以幫助我們更好地
5、理解、發現和使用因果關系。這也是因果表征學習最近幾年才提出來的原因。其次,我們希望用因果的思維方式去看待機器學習,這樣可以幫助我們從傳統的只是基于預測的機器學習,走到更高維的層面,走到理解、可信任、可干預的人工智能發展層面來。因此,理想狀態下,這兩者相互促進之后,可以讓我們有一個基于數據進行學習、有一個很好的表述機制,同時能讓人理解并且信任,可以進行合理干預的系統。張坤卡內基梅隆大學哲學系和機器學習系副教授當前,金融行業數字化、智能化轉型正在加速,數據和人工智能技術是關鍵驅動要素,人工智能技術在金融行業的應用必將革新金融行業的現有服務模式?;趫D計算、多模態等技術對于大數據的深入理解和洞察,降
6、低了金融機構風險管理的成本,擴大了服務人群的邊界;因果推斷、AutoML(自動化機器學習)等技術讓業務決策更智能,RPA、情感計算、數字人等技術讓金融服務更有溫度,提升了用戶的服務體驗。人工智能在金融行業的應用潛力目前可能只發揮了不到1%,隨著技術商業應用成熟度的不斷提升,人工智能技術將改變金融行業價值鏈的每一環節。許冬亮 度小滿CTO創造性任務,別開蹊徑:生成式人工智能,新一代生產力工具5Thtre Dopra Spatial奪冠;“AI gets creative”入選Science2022年的年度十大突破;DALL-E 2、ChatGPT和AlphaCode橫空出世,因其具有創建和生成超
7、逼真內容的AI能力而迅速走紅2022年,上述事件背后所代表的“生成式人工智能”(Generative AI)技術,吸引了大多數人的眼球,以及科技企業和資本的大量資金投入。人工智能此前被更多的用于處理機械的數據任務(判別任務),而生成式人工智能陸續證明能夠輸出富有創意性的內容,不僅極大地降低了內容(文字、語音、圖片、數據、視頻等)產出的邊際成本,還提高了創作效率。識別和控制。近年來,借助深度學習,研究人員在自然語言理解、數據挖掘、個性化推薦等領域取得了顯著成果,而基于深度學習的大模型也成為實現高維人 工 智 能 的 主 流 選 擇。但 對 于 諸 如GPT-3、BERT 這 類 備 受 關 注
8、的Transformer模型來說,Meta席智能科學家楊昆(Yann LeCun)認為:“它們是必要的,但并是充分的,這可能是未來智能系統的個組成部分?!痹诮鹑陬I域中,通過指令,生成不同風格的文字、語音、視頻,以及生成一種類似于金融資產標的內容,是它最基本的應用。生成文字、傳播文案、語音、圖像、視頻等,可以用在智能營銷、廣告等業務場景中,還能夠用在客戶服務、用戶交互、售后服務中。生成式人工智能在金融業務落地層面有一定的直接價值,從生成過程和結果角度來講,帶有創造性質。創造性人工智能/生成式人工智能目前依然處于實驗階段,尚未出現商業化雛形。生成式人工智能遠沒有達到替代人的境界,其所輸出的內容,暫
9、時沒有形成人的邏輯和情感。此外,此類生成式工具背后所依托的大模型的計算成本非常高,以及關于版權、信任、法律規范等也存在很多問題需要解決。2001,自然語言處理2013,深度學習2017,強化學習2018,對抗性神經網絡2021,生成式預訓練模型 GPT-32022,AI數據生成*上述技術入選麻省理工科技評論十大突破性技術,為當前大模型出現和生成式人工智能的發展奠定基礎深度學習作為機器學習的重要分支,通過學習給定數據存在的內部規律,實現對文字、語音、圖像等內容的感知、目前,機器學習算法和模型很擅長于尋找模式、相關性和關聯。但它們不能告訴我們:是這個因素導致了那個結果嗎?或者如果我做這些事,那么將
10、會發生什么?所以在計算機科學中還有一整個關于因果推理和推斷的領域。幾十年來,統計學界一直在研究因果關系。因果關系是人工智能和機器學習的下一個前沿領域。周以真(Jeannette M.Wing)因果關系一般指的是兩個事件之間的一種作用關系,其中一個事件會導致另一個事件的發生,前一個稱為原因,后一個稱為結果。統計學、經濟學、社會學、教育學、流行病學等領域均對因果關系做出了研究。在醫學中,通過操控實驗尋找病因是醫學界最常用的因果檢測方法。因果推斷則是一個更為廣泛的定義,指跟因果關系有聯系的、跟數據有關的、基于技術的因果研究。傳統的因果研究主要做因果推斷,指從一個因果圖和數據里面找出一個變量怎么影響另
11、外一個變量(Identificationof casual effects),關注這個問題的研究學者聚焦用因果圖以及結構方程這個因果推斷:人工智能和機器學習的下一個前沿領域,更高維、值得信任的、有自主性能的人工智能的基礎6角度去看因果推斷。統計學對因果關系的研究,分為兩類:一類為因果推斷,另一類為概率因果論。人們對因果關系的理解普遍建立在概率因果論之上,所以會容易把相關性當作因果性,因為機器不能很好地分辨內生性問題。隨著深度學習和大數據的發展,人們對于事物背后的關系探討也早不止步于相關關系。近兩年,關于因果發現,或稱作因果表征學習(Causal RepresentationLearning)的
12、研究和應用逐漸變得更加活躍,它們與機器學習的關系更為密切,因為傳統的因果推斷是只知道了因果圖、看到數據之后去分析一個事物怎么影響另一個事物。但是一個很重要的問題是,如何從數據中找出因果圖以及隱變量,這也是因果發現和因果表征學習的主要目的。我們目前用在機器學習、人工智能、機器視覺里面的數據,很多時候不是結構性數據,更多可能是視頻數據或者圖像數據。這種情況下,我們看到的變量本身之間未必有直接的因果關系,但是它們背后是由一些因果的因素產生出來的。那么,如何從這種非結構化的數據里面把背后真正存在的因果隱變量,以及它們的關系找出來,是因果推斷領域亟待解決的問題。7長期以來,Judea Pearl是因果論
13、、因果推斷的推崇者。當前開展因果推斷的兩種代表性方法是以Donald B.Rubin為代表的結構因果模型和以Judea Pearl為代表的因果圖方法。而現實應用中,如何去把數據背后的過程信息恢復出來,是讓機器和人進行高維智能互動的重要技術支持。在解決實際問題、將因果推斷應用到行業中去時,理解實際問題的基本性質是研究因果學習的第一步。因果研究跟傳統的機器學習有很大的區別。傳統的機器學習,例如預測,在意的是最優性,不管數據之間噪聲有多大,只在意預測的結果是不是最好的。但是因果研究有另外一個性質很重要要保證得出來的結果跟背后的真相是吻合的。因此需要在不同的領域、針對不同的問題,將因果過程或因果的約束
14、條件變成技術上可用,同時去證明表達出來的事件和事實是吻合的,這就需要因果推斷比機器學習付出更多的理論研究和技術上的努力。具體的場景應用中,因果研究需要關注具體問題的一些性質。要想恢復出來因果性,需要知道有哪些數據、里面哪些性質是可以用來恢復因果性的。不同情況下的數據需能夠恢復什么樣的因果性,是完全不一樣的。所以我們就需要從實際問題出發,去理解這個問題里面的性質之后,再針對這類問題思考如何能找出背后的事實真相。因果推斷的本質就是從產生的數據里面回推背后的真相,既然它的在不同數據里面表現出來的性質不同,顯然,我們就需要針對這種性質,尋找如何有一種方法很適合的方法,去回推背后的因果過程。在金融行業中
15、,因果模型是智能營銷的關鍵手段,能促成最大化全局營銷效率。但金融數據是非常復雜的,如果想要因果的研究方式能真正發現很多我們不知道的可靠信息,一定需要對金融數據的性質有一個很深入的認識。再將目前的分析方法做一定的調試修改,才可以把系統背后的因果性找出來。因果推斷領域當前最需要進行深入研究和拓展的兩個方向,一個是因果表征學習,需要讓機器能從各種數據里面找出背后有意義的表征。機器必須走到這一步,人類才能信任他,才能做到所謂的可解釋AI。這是從人工智能的角度來思考,如何能得出一個特征提取的方法,或者是如何表述數據的方法,使得人可以信任機器的處理方式。第二個則是針對一個具體的實際重要問題,如何能把這個問
16、題解得更好,需要開發專門的因果表征學習或者因果發現的方法,能把這個問題真正地解決好,這將對科學和人類社會進步有幫助。多模態情感計算:為人工智能決策提供了優化路徑8情感計算(Affective Computing)是一個快速興起的交叉前沿學科,涉及計算機科學、腦與心理科學、社會科學等學科。由于深度學習等人工智能領域的技術突破,作為人工智能和認知科學的結合,情感計算在商業、管理等領域有許多前景廣闊的運用,近年來更是成為理論研究的一個熱點。在情感計算領域,運用最多的理論模型是情感分類理論模型,主要包括離散情感模型和維度情感模型。在理解式和生成式大模型的支撐下,情感計算的準確度上有望提升,這對金融領域
17、的應用無疑是有益的。人在表達和傳遞情感信號的時候,通常通過多種方式輸出,如文本、語音、表情、肢體信號、生理信號等,研究人員針對上述相應的數據開發了分析算法和工具,賦予機器感知、識別、理解情感能力。為了更精準的識別人類所表達的情緒,多模態融合算法利用來自不同模態的信息和數據來合成多模態表征。在金融場景中,情感計算有助于了解客戶的真實情感表達,可以收集客戶情感信息、識別客戶情感變化,并作出相應的決策指導,對于提升金融企業的服務質量和效率,起到了重要的輔助作用,長期應用在客戶服務、催收等場景中。銀行催收必須符合監管要求,識別用戶情緒非常重要,例如當用戶情緒非常激動的時候,(機器)應停止催收動作,否則
18、會出現高投訴率。情感計算承擔了輔助測謊功能,綜合用戶語音的分析,提煉出語速、語氣的變化,分析說話者的情緒、是否猶豫等,判斷有無明顯說謊特征,通過多因子綜合判斷說話者說謊的概率。例如有一些用戶還款逾期,情感計算可以作為一種說謊判斷輔助手段,如果可以判斷沒有太明顯說謊特征,逾期還款的理由是比較真實的,金融機構可以給用戶延長時限,提供一個更有溫度、更溫情的服務。計算機科學心理及意識領域認知神經科學提供各類信息技術手段和工程化能力,對情感的感知、識別、理解、反饋等實施數字化重構和計算實現,從而使機器能夠擁有類人情感心智功能提供關于人類情感的基礎定義、相關要素結構存在的意義等方面的理論,這為情感理論建模
19、構筑了基石研究人類大腦對情感加工的機理以及建立與情感相關的心理要素功能網絡,為開發情感計算模型提供了關鍵的啟發和策略指導社會科學為情感計算的應用提供了充分的“用武之地”,是該類技術應用場景設計的策源地圖計算:高維數據治理方式、深度釋放關聯數據價值,技術+場景兩手抓,助益實現從有人用到大規模用9當前對于“圖”(Graph)的理解和應用,可追溯到數學分支“圖論”。圖計算則是以“圖論”為基礎,對現實世界進行“圖”結構的抽象表達,以及一切基于圖數據的分析和計算。圖計算行業涉及提供底層能力的圖數據庫、圖計算引擎廠商,以及應用開發商和軟件集成商。圖計算的優勢,一是表達方式,圖符合人的思維方式、更符合世界萬
20、物本來的樣子;二是圖在當前數據分析中發揮的作用,即無監督學習,本身圖可以自動化發現一些難以通過規則和經驗所能發現的東西。本質上,圖數據比單純的數據存儲更貼近應用層,圖未來在數據治理層面上要高于關系型數據庫。業務中能夠應用圖計算能力的前提:具備深度關系網絡,以及是否需要對復雜關系做可解釋的分析,金融業務及其所產生的海量數據,天然具有這樣的屬性。過去十年間,中國開始出現提供圖計算能力及下游開發、軟件集成的企業,直接2021年開始出現了商業化機會。在金融行業的實戰應用:圖計算技術最清晰的應用效果是智能信審、資金流向查詢和金融數據可視化。金融行業每天都有海量、關聯的、動態時序數據產生,利用圖技術,業務
21、人員可以毫秒級得到查詢結果。利用圖計算技術,可以在金融場景中實現實時地找到最完整的路徑。在數字支付、數字服務、數字金融等核心金融業務中,可以顯著提升風險行為的實時識別和調查分析效率。圖丨圖計算技術用于智能信審,提升了查詢和評估效率(來源:度小滿)10目前圖數據庫主要適用的金融場景有兩類:一是對時效有極高要求,希望快速分析并得到結果的場景;二是對分析深度有要求,如一些區塊鏈金融客戶希望對數字貨幣交易可追蹤不只深入到幾十步,而是上百步甚至上千步。實際應用也會遇到一些技術上的挑戰。例如大多數圖計算系統的使用方是銀行中的研發人員,其在第三方提供的圖數據庫或圖計算引擎上做二次開發。但銀行系統有一定的特殊
22、性,從技術語言、架構、再到網絡,開發人員要做更多技術層面上的兼容工作,包括國產芯片的兼容。圖計算領域近期關注的研究和應用重點:(1)如何對于一個十億級或者是百億級的大規模圖數據,快速高效地學習出圖中每一個節點的象量表示,即所謂的圖深度表示學習。在既有圖數據庫或者是有了圖數據庫支撐的數據后,如何更高效地對圖數據進行挖掘,做一些機器學習或深度學習任務。(2)圖數據上的預訓練技術,尤其是自建構的預訓練。預訓練最近在AI學界和產業界,比如視覺、自然語言處理方面都有很大進展。如果在圖數據上,可以有一個預訓練出來的通用模型,這個模型所生成屬性、特征,就可以自動應用到下游各個機器學習應用當中,那將可能節省下
23、游諸多開發團隊的嘗試和努力。(3)高性能計算。當前5萬億點邊、10萬億點邊規模的圖數據越來越普遍,這讓通信量猛增,對算力資源的需求變大。將高性能計算研究與圖相結合,更好地提升計算效率,是當前非常棘手的問題。(4)考驗深入走進業務的能力。懂技術但不懂業務,是典型的思考方式與技術先行、再找應用型產品所面臨的困境。技術演進方向:(1)提升分布式圖算法效率。對應解決的是硬件計算成本的問題,已有論文研究闡述其解決思路是,先確保單機的計算是最高效的,再做分布式,只有當單機做不了的時候再做分布式,而不是先試圖把它分到機器上再試圖減少通信。(2)跨數據源的數據融合或打通,仍需在機器學習領域探索圖聯邦計算。業務
24、落地中很常見的局限在于,業務側數據本身不可被打通,如在一家銀行中,不同部門之間的數據受規范所限不可打通。(3)設計新型圖計算模型和高能效圖計算體系結構及系統。研究界和產業界需長期關注復雜的圖計算需求和圖計算能力之間的不匹配問題。(4)圖數據查詢語言及圖數據庫測試基準的標準化制定??萍紓惱碇卫恚簲祿卫砗虯I倫理規范將被提到新高度,金融機構要做科技倫理建設的第一責任人11“Science is a powerful instrument.How it is used,whether it is a blessing or a curse to mankind,depends on mankind
25、 and not on the instrument.A knife is useful,but it can also kill.”Albert EinsteinBlessing or curse?科技是發展的利器,也可能成為風險的源頭。過去十年,以人工智能技術為代表的信息技術進步,將人類社會快速帶入數字化發展階段。然而,人工智能發展也帶來了算法歧視、隱私保護等社會問題。AI和算法應用一直遭受公眾懷疑,存在缺乏廣泛合法性的問題。近兩年,中國對于AI倫理、安全、法律法規方面高度重視,將科技倫理治理提到新高度。2019年6月,國家新一代人工智能治理專業委員會發布新一代人工智能治理原則發展負責任的
26、人工智能,提出了人工智能治理的框架和行動指南;2021年9月,發布了新一代人工智能倫理規范(以下簡稱倫理規范),正式將倫理道德融入人工智能全生命周期。當前中國倫理規范與立法等方面仍處于起步階段。2022年1月施行的新修訂的中華人民共和國科學技術進步法中,進一步細化增加了科技倫理治理的相關要求,強化了科技倫理治理的法律支撐。2022年3月,中共中央辦公廳、國務院辦公廳印發實施關于加強科技倫理治理的意見,這是中國首個國家層面的科技倫理治理指導性文件,也是科技倫理治理體系建設的又一標志性事件,對科技倫理治理作出頂層設計和系統部署,構建了中國科技倫理治理的基本模式、監管框架、制度體系。2022年10月
27、9日,中國人民銀行正式發布金融領域科技倫理指引,明確了科技倫理即開展科學研究、技術開發等科技活動需要遵循的價值理念和行為規范;提供了在金融領域開展科技活動需要遵循的守正創新、數據安全、包容普惠等七個方面的價值理念和行為規范。對于金融行業從業機構開展科技倫理治理工作,具有一定的指導意義。訪問數據是AI發展的基礎,也是金融行業運轉的基石;數據治理同樣是AI治理和科技倫理治理的重要保障。數據和算法本身沒有偏見,只是將人類社會的偏見學習了出來,國家必須帶頭尋找方法、領導數據治理的可能選擇及其用途的開發。12在數據治理方面,度小滿圍繞三大法網絡安全法、數據安全法和個人信息保護法,把整個數據安全與管理、隱
28、私保護貫穿于數據的采集、存儲、流通、應用以及銷毀全環節,制定數據的全生命周期的管理,并且設置了嚴格的數據紅線。技術治理方面,從三個維度開展工作打破算法模型黑箱,深度學習算法可解釋性是比較差的,通過技術革新,比如因果推斷的方式能夠使得模型的因果關系可解釋性變得更強,以及制定算法規范,防范算法歧視,避免用戶遭受不應該有的傷害;通過構建模型全生命周期管理機制,將模型立項到下線全流程納入規范管理,確保模型安全可靠、持續、透明可解釋、尊重隱私、可審計可監督,有效控制模型風險;通過專家經驗防范系統性的風險,例如用成熟的框架限定新技術應用邊界。許冬亮 度小滿CTO充分獲取用戶授權專事專用使用數據最小必要采集
29、數據嚴格采取防護措施依法合規共享數據主動清理留存數據金融領域科技倫理指引同樣也強調了數據安全的重要性,明確了六項數據使用原則,引導金融市場的數據使用規范,具有很強的實際執行參考意義。同時,在金融科技行業,金融企業將是建設科技倫理的排頭兵,也是科技倫理違規行為單位內部調查處理的第一責任主體。健全金融科技治理體系:運用知識抽取、知識融合、知識推理等技術對數字化規則進行分類、消歧和整合,系統梳理規則邏輯。健全智能算法管理規則制度,建立模型安全評估和合規審計體系,及時披露算法決策機理、運行邏輯和潛在風險,通過臨界測試、仿真模擬、參數調優等方式著力防范算法黑盒、羊群效應、算法歧視等問題,提升算法可解釋性
30、、透明性、公平性和安全性。金融科技發展規劃(20222025年)信任制度鼎新:完全基于去中心以及可編程技術構建的鏈上分布式金融應用,重建一種數字化的通用型信用機制13區塊鏈技術是一個綜合性、組合型的技術,門檻高,想要有巨大的技術進展就需要讓共識算法、智能合約等都有很大的技術進步,而這是非常難實現的。國外在分布式金融上的探索比較積極,尤其是數字貨幣領域。分布式金融的重大突破和變化,在于它全部都通過可編程的方式或者軟件形式嘗試來實現。傳統金融業務,需要人工參與、需要線上線下的場景和互動,而分布式金融技術,以及基于區塊鏈上的應用,核心價值在于這套應用的可編程性。無論是資產、標的、價值傳遞、操作流程、
31、后續服務,全部都嘗試通過數字世界可編程的方式或者軟件形式來實現,成本極低、通用性強,這對傳統金融業務的基礎設施和業務流程來說,是一個翻天覆地的全新面貌。李豐度小滿首席架構師過去一年,NFT已經代表了大眾對純數字虛擬化標的進行價值傳遞的一種嘗試。它的走紅走熱,某種程度證明了人們對基于純數字空間產生的虛擬產品,有一定的價值認可;也代表人們愿意基于此進行標的擁有和價值傳遞,這可謂是一次非常有意義的價值探索。然而,正是由于其帶來的巨大變化,也隨之帶來了接受度低、成熟性欠佳等問題。除了技術難題外,金融業務復雜,同時牽扯到多方貨幣和利益問題,所以對應的,金融機構的技術應用風險也隨之提高。金融行業大規模應用
32、新技術,首先要求具備技術穩定性,因此,僅就區塊鏈與分布式金融在中國的普及性而言,暫時并未見到質的飛躍。完全基于鏈上編程的金融業務或許存在漏洞、或許遇到數字貨幣、金融危機等相關的挑戰,但這并不影響中國金融機構,甚至非金融機構,在技術方向與業務應用價值上的探索:完全基于去中心以及可編程技術構建的鏈上分布式金融應用,將步履蹣跚、但也會越來越進步與成熟。行業清楚的認識到,分布式金融技術以及基于區塊鏈上的應用當前仍處于蟄伏期,正在等待成熟拐點,成熟的狀態不僅要具備基礎技術的完善,更需要這套業務模式被更廣泛的用戶所認可。試想,當一個完全基于可編程實現的完善金融業務模式走向成熟,并且被大家所接受、去使用,這
33、意味著重新建立了金融底層信任制度,這或將是金融行業具有劃時代意義的突破。攻堅計算安全:兼顧安全性和效率,科研與工程界合力,打造通用性更強的隱私保護計算框架142011年、2018年、2020年,同態加密、零知識證明、差分隱私分別入選麻省理工科技評論當年十大突破性技術。與傳統密碼技術不同,這些以保護信息在傳輸、存儲等動態過程中的安全為目標的密碼技術,近幾年備受關注。隱 私 保 護 計 算(Privacy-preserving Computation),從問題定義出發,是一系列信息技術的統稱,多指在確保數據安全和用戶隱私不泄露的前提下,對數據進行分析計算,保障數據在流通與融合過程中的“可用不可見”
34、,促進數據的流通開放和價值共享。其中不僅包括以密碼學技術為工具的安全多方計算技術、零知識證明技術和同態加密,也包括以聯邦學習為代表的軟件技術,以及像可信執行環境這樣的硬件技術。盡管“隱私保護計算”是近幾年新提出的技術概念,在商業端也呈現了新興技術產業化落地的特征,但隱私計算所涵括的多數技術子項在科研研究與方案設想方面已經發展成熟(譬如安全多方計算可追溯至上世紀70、80年代)。目前隱私計算技術方案基本是將成熟的技術研究做產品化落地在不同場景進行調試并在終端探索更好的產品。行業總體呈現出研究先行、商業落地在工程化、產品化上發力的特點。金融、醫療是應用最積極的兩個行業。在金融行業的實戰應用:隨著合
35、規壓力提升,外部的數據開口減少,數據范疇縮窄,因此金融機構有動力在規避風險的前提下開拓合規數據源頭。隱私計算在技術層面提供了一定程度規避風險的工具與能力,在不揭示原始數據的情況下,利用數據的價值。最終在開拓數據源頭后,交叉驗證、合理評估客戶風險,促成業務決策。在小額信貸場景中,利用銀行及其合作方的數據,隱私技術供應商可提供采用多方安全計算的風險模型,開發一整套風險評估解決方案,這能夠識別出十余萬名高風險客戶,阻止數十億元高風險貸款發放;同時,還可以識別出幾十萬名低風險客戶,潛在授信規模約百億元。實際金融業務中,隱私計算技術有能力幫助銀行顯著提高信貸的質量。沒有基于隱私計算的多元數據共享、傳統的
36、模型很難批準這些客戶貸款,采用隱私計算框架的模型使得信貸能夠更精準地觸達更多潛在客戶。技術演進方向:綜合考慮安全性和效率,打造通用統一性密碼技術學者開發設計更加高效、實用和更“通用”的算法,工程師加速實現方案和協議在實現層面的優化和硬件加速。理論層面上,密碼技術為隱私保護計算提供了強大的工具、提供了看似通用的方法論。但是,在實際運行中,隱私保護計算需要犧牲速度、計算資源等要素,并且對精度、性能和成本進行取舍。換言之,安全性、計算性能和規模不可同時、極致地兼得。多方安全計算的安全性高,但計算性能有短板;零知識證明中的非交互式方法可大規模應用,但效率和安全性有待提升;同態加密具有更小的通信量和通信
37、輪次,但受限于算力;聯邦學習在安全性上做退讓,但提升了計算規模.以全同態算法為例,在通用芯片上密文運算的速度比明文運算慢了近萬倍。數據體量的增加給計算存儲和網絡通信帶來新的挑戰和訴求。這意味著,算力問題,即計算和網絡通信將成為推進隱私計算規?;涞氐暮诵南拗埔蛩刂?。另外,當前使用隱私保護計算技術的企業,多根據實際業務場景下的不同需求進行評估,選擇不同的技術組合方案。由此,當前實際業務中能夠落地的解決方案,通常是實現特定計算、針對特定業務/應用場景的隱私保護方案和協議。為了讓隱私保護計算提供更高效、廣泛地規?;茝V,在保障安全性的基礎上,開發設計通用性更強、易用性更強的隱私保護方案和協議,并同
38、時提升現有協議的計算效率則成為科研界和產業界的共同新命題。此外,密碼學基礎理論、操作系統和系統安全等底層技術的自主安全可控,也是非常重要的一環。不解決算力和通信問題,隱私計算的大規模應用無從談起。采用大量密文計算,加密后的數據計算將產生大量的算力開銷,單次模型訓練與迭代的耗時將會呈現指數級增長。陳凱 香港科技大學計算機科學與工程系教授15隱私計算技術最重要的在于它的安全性,最終需要經得起理論和時間的檢驗。它屬于伴生技術,與AI等技術不同,其保護性不能直接展示或用直觀的方法度量,判斷隱私計算的先進性非單純地只看效率。不可區分混淆技術被譽為“密碼學皇冠上的明珠”,是繼全同態加密(2022年哥德爾獎
39、成果)后下一個密碼學領域亟待攻克的密碼技術。它可以用來構造任何包含隱私計算技術在內的其它所有密碼技術,因此也被稱為“密碼完備技術”。另外,非交互式的零知識證明在區塊鏈中有著廣泛的應用,但也存在例如其占用內存大、證明時間長等缺點,因此在有些應用場景中效率較低、用戶體驗時間也長。未來,更多科研工作將在交互式零知識證明方面開展。郁昱 上海交通大學計算機科學與工程系教授人工智能技術必須與各行各業緊密結合,才能產生實際價值。然而,數字虛擬化技術自帶場景和應用價值、自含生態,在軟件里即可模擬或者映射了軟件人、數字人,這是對現實世界的模擬,突破時間、空間等物理層面實現能力的限制,它理論上能夠做到以前因為物理
40、限制無法做到的事情。但是受限于技術能力,當前大眾需要理解和接受“數字虛擬中間態”階段,暫不成熟的虛擬化技術幫助人類從現實世界過渡到虛擬數字世界。虛擬數字人,無疑是當前虛擬數字技術最清晰的一個產品形態和實現路徑。在金融場景中,為迎合新時代年輕人的數字世界態度、創造更有活力的品牌形象,諸多金融機構近一年紛紛推出數字品牌代言人,引領場景營銷新方式。此外,數字主持人、數字人客服、數字人帶貨、數字人測評、真人和數字人同臺等場景層出不窮。IP是虛擬數字人成功最重要的基礎,不僅成本最高,也最需要貼合金融機構身份的優秀創意設計。虛擬數字人不僅成為營銷新玩意,也是彰顯金融機構科技和人文品牌力量的符號。虛擬數字技
41、術:交互方式別開生面,開辟更有活力、無邊界、多元融通的金融服務渠道16以線下為基礎,依托5G高帶寬、低延時特性將增強現實(AR)、混合現實(MR)等視覺技術與銀行場景深度融合,推動實體網點向多模態、沉浸式、交互型智慧網點升級。以線上為核心,探索構建5G消息手機銀行等新一代線上金融服務入口,持續推進移動金融客戶端應用軟件(APP)、應用程序接口(API)等數字渠道迭代升級,建立“一點多能、一網多用”的綜合金融服務平臺,實現服務渠道多媒體化、輕量化和交互化,推動金融服務向云上辦、掌上辦轉型,以融合為方向,利用物聯網、移動通信技術突破物理網點限制,建立人與人、人與物、物與物之間智慧互聯的服務渠道,將
42、服務融合于智能實物、延伸至客戶身邊、擴展到場景生態,消除渠道壁壘、整合渠道資源,實現不同渠道無縫切換與高效協同,打造“無邊界”的全渠道金融服務能力。金融科技發展規劃(2022-2025年)2025年前,“數字驅動”是金融行業發展的重要目標,虛擬數字技術則是激活金融數字活力、加快金融智慧化服務的重要技術手段。當虛擬化基礎技術(硬件、渲染等)出現較大進步時,交互場景與體驗將更加真實友好。自動機器學習(AutoML):覆蓋關鍵模型場景,助力深挖數據潛力,提升建模效率17自動機器學習(AutoML),是指將機器學習技術應用于現實問題的端到端流程自動化的過程。簡而言之,就是將機器學習建模流程自動化實現。
43、在以往,模型設計需要編寫復雜的網絡模型、耗費很多時間和精力在超參數調優和模型選擇上。因此,AI算法落地也面臨諸多難題,(1)AI算法成本高,不僅算法開發門檻高、人力成本高,且算力資源消耗大,硬件成本高;(2)AI算法效果不穩定,高度依賴人工經驗;(3)AI算法開發周期動輒達到數月以上、豐富業務場景需要定制化開發、模型產出與算法落地間存在鴻溝。對于AI算法生產流程來說,技術棧覆蓋范圍廣,不同生產階段要求差異巨大,需要人工參與的部分都可能成為生產的瓶頸或難點。機器學習技術能力能夠貫穿AI生產全流程,全面解決AI算法落地難題,主要的技術增益價值在于替代人工、高效產出、提能增效。依托自動機器學習(Au
44、toML)技術和開發平臺,用戶只需要提供原始數據和標簽,機器便可自動完成特征工程、模型訓練、模型選擇、超參調優、打分評估和部署上線全生命周期的支持。就超參調優一個環節而言,算法專家在調參的過程中往往需要不斷的重復、嘗試以搜索到最優參數組合,而自動調參功能便可替代這部分重復性的勞動、節省算法設計的時間。在 金 融 領 域,自 動 機 器 學 習(AutoML)技術,極大簡化了從數據到模型的過程,提高了模型產出的效率和質量,同時也降低了機器學習的門檻,讓沒有該領域專業知識的人員也可以使用機器學習來完成相關工作。在2020年全年,AutoML技術參與度小滿大部分模型生產流程,提高的模型效果最高可超過
45、5%。圖丨AI算法生產流程(來源:度小滿)圖丨自動機器學習(AutoML)技術優勢(來源:度小滿)云上能力升級:“穩定可靠性、兼容性(適配能力)、經濟性“三個選云方針不動搖,同時加快布局先進高效的算力體系18盡管云計算在過去五年中一直被提及,但其在金融領域還是有很大的進步和應用空間。近兩年在監管文件里,企業架構(Enterprise Architecture)被高度關注,經常用的TOGAF方法論,也被越來越多的銀行金融機構所采用。企業架構可以讓處于數字化轉型中的銀行有更全面、更高階的視角,自上而下的從業務視角到技術視角統籌全局。其中,IT架構則是企業架構中非常重要的一部分。金融機構在過去幾年已
46、經充分體會到了云計算帶來的業務增益效果,云計算切實解決了算力需求、真正幫金融機構將算力成本降下來,但是也面臨另一個困境,如果計算規模沒夠足夠大到成本拐點,那計算成本也很難大幅下降。中國六大行每家每年在IT建設上的投入,至少百億元,其中以大數據技術(包括數據庫建設、數據治理等)、人工智能和云計算為首。長期以來金融機構(尤以銀行為主)都在使用私有云,本質只解決了算力虛擬化的問題,但沒有把公有云的云上能力用起來,某種程度上講,當前金融機構使用私有云的成本,并不比使用大型機成本低。云服務廠商除了能夠提供基本的虛擬化能力之外,還有云上的安全能力、大數據能力、人工智能能力、數據庫能力,但是中大型銀行卻鮮有
47、采用這些云上能力,僅引進云管平臺。銀行的科技隊伍越來越壯大,千人、甚至過萬人的科技團隊在主流大型銀行并不少見,他們做底層技術、做應用、在云上搭建自己的能力。某種程度上,“不計成本”地建設數字化技術底座、做數字化轉型,是金融機構最近幾年的“常態”。但是在未來1-3年,銀行需要重新審視云計算設施建設的投入產出比問題,當銀行進入精細化管理階段,經濟性問題就會浮出水面。穩定可靠性、兼容性(適配能力)、經濟性,是接下來金融機構選擇云管平臺最重視的三個能力,也是評價云計算能力是否足夠堅實的重要維度。未來幾年,云計算能力在金融機構內部的底層基礎設施地位不動搖,也是其數字化轉型的基礎保障能力之一。除了加速上云
48、之外,企業內部云計算能力未來仍需圍繞以下三個方面投入建設:計算能力、網絡能力、云上提供的基礎服務能力,為金融業務提供跨地域數據中心資源高效管理、彈性供給、云網聯動、多地多活部署能力,實現敏態與穩態雙模并存、分布式與集中式互相融合。致謝*感謝上述學者及行業專家接受本次訪談調研;按照姓名首字母排序。19陳紅陽之江實驗室 圖計算研究中心副主任/高級研究專家郭嵩香港理工大學計算機系教授,長江學者、IEEE Fellow孫茂松清華大學人工智能研究院常務副院長、ACL Fellow謝建文百度美國研究院 資深研究員郁昱上海交通大學計算機科學與工程系教授張坤卡內基梅隆大學哲學系和機器學習系副教授朱峰郵儲銀行
49、金融科技創新部部門負責人許冬亮度小滿 CTO楊青度小滿 數據智能應用部總經理李豐度小滿 首席架構師版權聲明本報告由麻省理工科技評論中國發布,其版權歸屬北京演繹科技有限公司(DeepTech),麻省理工科技評論中國對此報告擁有唯一著作權和解釋權。沒有經過DeepTech及麻省理工科技評論中國的書面許可,任何組織和個人不得以任何形式復制、傳播等。任何未經授權使用本報告的相關商業行為,DeepTech及麻省理工科技評論中國將依據中華人民共和國相關法律、法規追究其法律責任。免責申明本報告所載數據和觀點僅反映麻省理工科技評論中國于發出此報告日期當日的判斷。麻省理工科技評論中國對報告所載信息的準確性、完整
50、性或可靠性做盡最大努力的追求,但不作任何保證。在任何情況下,本報告中的信息或表述均不構成任何投資等建議,本公司對該報告的數據和觀點不承擔法律責任。不同時期,麻省理工科技評論中國可能會發布其它與本報告所載資料、結論不一致的報告。同時 麻省理工科技評論中國對本報告所載信息,可在不發出通知的情形下做出修改,讀者應自行關注。關于麻省理工科技評論中國麻省理工科技評論(MIT Technology Review)于1899年在美國麻省理工學院創刊,是世界上歷史最悠久、影響力最大的技術商業類雜志。內容覆蓋廣泛,涉及互聯網、通訊、計算機技術、能源、新材料和生物醫學領域。2016年,麻省理工科技評論(MIT T
51、echnology Review)與DeepTech合作落地在中國,并以麻省理工科技評論中國為主體發掘改變世界的新興科技,以全球新興科技創新服務平臺,影響那些關注科技及其影響的人。關于 DEEPTECHDeepTech成立于2016年,是一家專注新興科技的資源賦能與服務機構,以科學、技術、人才為核心,聚焦全球新興科技要素的自由鏈接,為產業、政府、高校、科研院所、資本等科技生態的關鍵角色提供服務,通過科技數據與咨詢、出版與影響力、科創資本實驗室三大業務板塊,推動科學與技術的創新進程。20麻省理工科技評論中國版權所有Find Out Morehttps:/ UOffice北京市朝陽區建國路甲92號上海市徐匯區淮海中路1325號浙江省杭州市余杭區文一西路998號