《北京國家金融科技認證中心:人工智能金融應用評價體系研究報告(34頁).pdf》由會員分享,可在線閱讀,更多相關《北京國家金融科技認證中心:人工智能金融應用評價體系研究報告(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、人工智能金融應用評價體系研究報告 北京國家金融科技認證中心有限公司 二零二一年十月 目 錄 編寫單位(排名不分先后): . 2 編寫組成員(排名不分先后): . 3 研究背景 . 7 一、人工智能金融應用現狀 . 8 (一)人工智能金融應用政策環境 . 8 (二)人工智能金融應用要素映射 . 9 (三)人工智能金融應用調研 . 11 (四)人工智能金融應用評價 . 14 1、數據安全評價. 15 2、算法應用評價. 16 3、服務能力評價. 21 二、問題挑戰與解決思路 . 23 (一)人工智能金融應用的問題挑戰. 23 (二)人工智能應用評價的問題挑戰. 25 (三)解決思路與方法 . 26
2、 三、建立多元化評價體系 . 27 (一)評價體系階段建設 . 27 (二)評價標準體系建設 . 30 (三)檢測能力全面提升 . 31 四、發揮認證價值 助力人工智能治理 . 33 (一)建立“產品+服務”雙認證體系 . 34 (二)開展人工智能金融應用認證試點 . 35 (三)推動認證結果多方采信 . 36 參考文獻 . 37 u 研究背景 金融業在場景、數據、技術、人才等方面沉淀了大量資源, 在國家行業政策的大力支持下,人工智能金融應用發展迅猛,與 此同時人工智能應用所帶來的安全和倫理等問題也引起國家社會 的廣泛關注,向善、公正、安全、可信成為人工智能金融應用行 業發展的底線。如何評價金
3、融業人工智能技術應用符合“科技向 善,安全可控”的社會需求,是否滿足國家行業對人工智能金融 應用的監管治理要求,是當前金融業人工智能技術發展的共性問 題。 為此北京國家金融科技認證中心有限公司聯合行業內認證 機構、檢測機構、商業銀行、第三方支付機構、金融科技企業等 相關單位, 在金融業內開展人工智能技術的政策法規、 應用場景、 評測技術等方面的調查和研究工作,致力于構建符合金融行業特 點的評價信任體系,形成多方共治的人工智能金融應用生態。 一、 人工智能金融應用現狀 人工智能作為第四次工業革命的引擎,產業發展已成為國家 和區域經濟轉型升級的關鍵驅動力。國家鼓勵并大力支持人工智 能技術的創新與應
4、用,出臺一系列政策引導人工智能產業規范化 發展,以促進人工智能應用適應現代化發展需求。2017 至 2019 年,連續三年的政府工作報告中均提出加快人工智能產業發展的 要求;2020 年,人工智能更是與 5G 基站、大數據中心、工業互 聯網等一起被列入新基建范圍。近期,政策的出臺更具針對性, 更強調技術的落地效應, 更為關注人工智能與產業的融合。 同時, 相關立法和行業倫理規范正在日趨完善,行業標準體系也在逐步 建立,為人工智能產業的健康發展提供了良好環境。當前,擁有 豐富場景資源、高質量數據資產、并具備業務創新迫切需求的金 融行業急需人工智能技術的落地與良好實踐。 (一)人工智能金融應用政策
5、環境 從政策環境看,2017 年國務院印發新一代人工智能發展規 劃提出了面向 2030 年我國新一代人工智能發展的指導思想及 戰略目標。在國家綱領的指引下,金融行業持續推進人工智能金 融應用相關政策措施的制定。2019 年 9 月,中國人民銀行發布 金融科技發展規劃 , 提出探索相對成熟的人工智能技術在資產 管理、授信融資、客戶服務、精準營銷、身份識別、風險防控等 領域的應用路徑和方法,強化智能化金融工具安全認證。2021 年 9 月,網信辦等 9 部委聯合印發關于加強互聯網信息服務算法 綜合治理的指導意見 ,提出算法安全治理機制、完善監管體系、 規范算法生態的建設目標,積極開展算法安全評估,
6、有序推進算 法備案。2021 年 3 月,中國人民銀行發布金融行業標準人工智 能算法金融應用評價規范規范了人工智能算法在金融領域應用 的基本要求、 評價算法、 判定準則。 2021 年 9 月, 科技部發布 新 一代人工智能倫理規范旨在將倫理道德融入人工智能全生命周 期,為從事人工智能相關活動的自然人、法人和其他相關機構等 提供倫理指引。通過以上政策,我們可以看到國家高度重視人工 智能在金融領域的應用與發展,力圖構建安全可信、公正向善的 人工智能技術應用。 (二)人工智能金融應用要素映射 人工智能技術發展的三大要素是算力、算法、數據,而人工 智能金融應用的發展還需要場景要素的支撐。目前,金融行
7、業主 要在智能風控、智能投顧、智能支付、智能客服、智能營銷、智 能監管、智能運營七大場景中應用人工智能技術,涉及用戶、行 為、業務等多種數據,如下表所示。 表 1 人工智能金融應用場景 序號 應用場景 數 據 算 法 1 智能風控 客戶數據、外部數 據、交互數據、規 則庫 LR、XGBoost、GBDT、 DeepFM、RNN 、LSTM、Dijkstra、 PageRank、LPA 等 2 智能投顧 股票基本面、技術 面數據、輿情數據 多因子模型、集成學習模型、LSTM 模 型、強化學習模型 3 智能支付 客戶生物特征數據 GMM-HMM、DeepSpeech Insightface 、 f
8、acenet 、 MTCNN 、 DenseBox 等 4 智能客服 金融行業語料、歷 史對話數據、規則 庫 GMM-HMM、DeepSpeech WaveNet 信息檢索、語義理解、圖算法、語義特 征計算等 5 智能營銷 客戶畫像、產品畫 像、觸達交互數據 因子分解機算法、集成學習類算法等 6 智能運營 業務流程數據、用 戶行為數據 GBDT、LR、XGBoost 等 7 智能監管 監管規則、財務數 據、流水數據 LR、XGBoost、GBDT、DeepFM、RNN、 LSTM、Dijkstra、PageRank、LPA、圖 神經網絡 (三)人工智能金融應用調研 為深入了解人工智能算法在金融
9、領域應用情況以及發展水平, 我們在北京金融科技產業聯盟人工智能專委會內開展了人工智能 算法金融應用調研工作。調研范圍包含 56 家金融機構、72 家科 技企業,3 家檢測認證機構,共計 131 家單位參與其中。調研內 容分別從算法以及場景兩個維度梳理行業現狀及難點痛點,調研 反饋結果匯總如下。 從算法應用維度看,人工智能技術金融應用的背后有一系列 多種類算法組合的支撐,當前各調研反饋機構使用的人工智能算 法已多達 40 余種, 傳統機器學習類應用最為廣泛, 深度學習類也 在部分場景有所應用,其中 94%的機構使用決策樹類算法,87% 的機構應用了邏輯回歸類算法,42%的機構應用了語言處理類算
10、法, 35%的機構應用了圖神經網絡算法, 29%的機構應用了聚類算 法。通過調查可以看到金融機構對算法的選擇還是以安全發展、 風險可控為前提,本著成熟算法先行試點的基本原則,穩步推進 人工智能算法的應用。 圖 1 高頻算法技術應用統計 從場景應用維度看,當前智能風控、智能客服、智能營銷三 大應用場景熱度最高, 其中 100%機構構建智能風控、 90%機構部 署智能客服及智能營銷、 76%機構升級智能運營, 52%機構探索智 能支付及智能顧投,還有 5%將人工智能技術應用到智能監管。 圖 2 主要金融應用場景統計 從算法構建難點看,當前遇到的困難主要集中在算法可解釋 性提高、算法風險安全評估以及
11、數據樣本不足三個層面。在算法 可解釋性提高方面,目前缺少成熟和體系化的標準指導算法開發 者和使用者判斷可解釋性高低,同時部分算法因可解釋性差無法 有效指導使用者做出行為決策。在算法安全風險評估方面,評估 依據以及評估指標還有待完善,評價基準還未形成。在數據樣本 不足方面,缺少符合金融特性的開源數據集以及安全可靠的數據 共享機制,導致數據集籌建成本偏高。 圖 3 算法構建難點統計 從場景應用難點看, 當前遇到的困難主要集中在場景碎片化、 隱私保護、風險責任界定模糊三個方面。場景碎片化暴露出模型 泛化能力不足,影響模型推廣。人工智能應用涉及海量客戶隱私 數據的獲取與加工,隱私信息界定以及數據權益歸
12、屬仍需進一步 明確。同時,人工智能算法通過結果輸出輔助涉及多個行為主體 的金融決策,各主體間的行為不易認定和劃分,責任難于追溯。 圖 4 算法應用難點統計 通過本次調研,我們可以看到當前人工智能金融應用發展與 金融科技發展規劃中提出的思路保持高度一致,金融行業正 在穩步推進成熟人工智能技術在重點金融場景的應用,打造安全 可信、透明可解釋、可控可靠的智能金融新生態。 (四)人工智能金融應用評價 隨著人工智能技術的縱深發展,人們對于人工智能自動化便 利的依賴越來越強,同時也引發社會對于“一切自動化”的多種 擔憂。特別在金融、醫療等高風險領域,智能應用的結果可能對 財產、生命帶來不可逆的重大影響,對
13、社會治理帶來極大挑戰。 因此,積極做好人工智能應用評價工作,對實現人工智能健 康持續發展顯得尤為重要。人工智能金融應用的評價是一項較為 復雜的系統性工程,不同應用場景間需要評價標準及評價指標的 精準適配,更需要技術創新型評價工具的有力支撐。 從目前人工智能金融應用評價內容看,可總體分為“數據安 全” 、 “算法應用評價”和“服務能力評價”三個層次。其中,數據 安全評價是指對數據安全生命周期內的安全保護機制的作用,保 護措施的效果進行評價,嚴防數據誤用、濫用,切實保障金融數 據和個人隱私安全;算法應用評價是指金融應用場景下算法表現 的評價,更專注于算法本身;服務能力評價是指人工智能金融應 用作為
14、產品服務的能力,是算法應用評價的延伸與拓展,包括環 境、系統、管理能力等。 1、數據安全評價 (1)數據來源的合法合規性 AI 金融應用開發者或使用者應按照個人信息保護法 、 個 人金融信息保護技術規范等法律規范的要求,確保 AI 金融應用 所使用和處理數據來源的合法性;應以正當、成比例的方式進行 數據采集,需以理性人的視角判斷數據處理可被接受的程度,確 保其“可被預期、可被接受” 。 (2)數據質量管控 為確保人工智能金融應用輸出結果的可預期性以及可用性, 應當要求開發者或使用者對人工智能金融應用所使用和處理數據 進行質量管控,確保數據的可靠性、關聯性、準確性、完整性。 (3)數據使用過程中
15、的數據保護 人工智能金融應用中對數據的使用、加工、存儲等多環節的 處理行為也可能導致應用結果的負面效應, 應當確保數據在研發、 測試以及投入市場過程中其用途均嚴格限制于個人信息主體或數 據提供方的授權范圍之內。 (4)數據治理人員的管控 應根據人員崗位、職責、級別等確定其數據治理權限,包括 對數據的訪問、讀寫、復制等,并明確相應的獎懲機制;其次, 應當在權限設置的基礎之上建立嚴格的權限審批流程和制度;再 次,當數據治理人員需超范圍訪問或修改數據時,建議建立風險 評估制度,針對訪問場景、目的、數據范圍、人員等多方面進行 風險評估; 從次, 為后續審計或自證合規目的, 應當對數據訪問、 修改等處理
16、操作進行記錄并妥善留存;最后,需對相關的數據治 理人員開展教育培訓以確保其可以理解并落實相關的管控制度。 2、算法應用評價 (1)算法安全性 開源框架及依賴庫的安全:人工智能應用過程中,為避免開 源框架或者依賴庫出現底層缺陷,進而產生誤判問題,應當對算法 中的各種依賴庫和開源框架進行評估。 算法訓練安全:為避免算法訓練過程中出現安全問題,應對 人工智能算法訓練步驟進行安全評估。 (2)算法可解釋性 可解釋性按照模型本身具有可解釋性和模型本身不具有可解 釋性方法處理。涉及下面幾方面內容。 模型評估指標可解釋:訓練模型和測試模型的過程中,評估 指標需要可解釋。常用的模型評估指標為 AUC 值、精確
17、率、召回 率、F1-Score、MicroF1、Macro F1 等,通過測試進行指標統計驗 證評估指標的準確性。 模型特征重要性可解釋:模型特征重要性可解釋通過評估設 計文檔中是否有特征重要性的生成方式,是否有決策依據;檢測 算法實現方式與設計文檔是否一致;通過測試,查看特征排序是 否符合業務邏輯。 模型預測結果分布可解釋:模型預測結果可解釋性的評估需 要利用全量測試集,查看模型預測結果是否符合正態分布或者業 務常見的分布形式;抽樣進行測試,查看模型預測結果是否會出 現極端分布的情況。 (3)算法性能 算法性能評估的指標包括四個方面:模型平均響應時間、模 型并發能力、模型吞吐量、模型穩定性,
18、算法性能指標評估需要 查看設計文檔, 是否包含有模型服務平均響應時間、 模型吞吐量、 模型穩定性等的指標說明;抽取一定樣本,進行服務壓測,測試 結果與設計文檔的說明進行對比,判斷模型性能是否達標。 (4)算法健壯性 極端和對抗樣本防范能力: 評價模型在極端樣本測試情況下, 是否擁有容錯性;評價模型在對抗樣本攻擊下,是否具有防范能 力。算法健壯性的評估需要查看設計文檔,是否包含有正常樣本 和異常樣本的定義,否有根據業務應用場景需求制定的對抗樣本 攻擊的防范措施;抽取一定異常樣本,檢查服務返回是否正常; 采用基于 FGSM、DeepFool、C&W、JSMA 等算法生成對抗樣本進 行攻擊測試,檢查
19、算法服務是否有針對對抗樣本的防范能力。 對噪聲的過濾能力:訓練數據或者測試數據中加入噪聲后, 可能導致模型效果出現下降。評估算法對噪聲的過濾能力需要檢 查規劃方案或實施方案中對過濾檢測數據集中的噪音和異常值是 否明確規定了采用的方法;核查系統中采用的方法與規劃方案或 實施方案的一致性;執行測試,核查系統中采用的方法能有效檢 測并過濾數據集中的噪聲和異常值。 (5)算法精準性 算法準召率:對于不同的業務場景,應該選擇不同的評估方 式。通常的指標評估需要根據業務場景選擇模型的評估方式,比 如在風險欺詐領域,召回率應該是一個更加重要的指標;準備合 理的測試數據進行模型的推理測試獲得模型效果的評估。模
20、型在 不同的場景下的通過標準也不同,例如在反欺詐場景下,模型識 別欺詐者的準確性需要定得非常高,以防止現實中的欺詐行為發 生。 算法效果穩定性:模型預測能力的穩定性體現在模型的預測 能力在時間維度上是一致的,即模型在測試集、時間外樣本集、 線上測試和正式使用的時候有同樣的區分度。評估設計文檔中對 于模型效果穩定性是否有相應的保障措施;檢測模型效果穩定性 保障實現是否與說明文檔一致;準備合理的測試數據進行模型的 推理測試獲得模型效果的評估隨時間的變化, 是否能夠保持穩定。 算法泛化能力:算法對新樣本的適應能力評價,具有對于未 知樣本也可以做到很好預測的能力。評估需要檢查設計文檔中對 于模型是否有
21、相應的保障措施;檢測模型穩定性保障實現是否與 設計文檔一致;準備新的測試數據測試,獲得模型效果的評估, 是否存在欠擬合或者過擬合的情況。 (6)算法可追溯性 訓練數據可追溯:人工智能算法的發展離不開數據,但是訓 練數據來源需要合理合法,需要具有可追溯性。評估需要檢查算 法訓練系統是否對訓練數據獲取時間進行了記錄,設計文檔中是 否有記錄訓練數據來源的相關內容,是否有記錄訓練數據量的相 關內容,是否有數據采樣方法的記錄;檢查算法訓練系統是否有 訓練數據采樣方法記錄。 建模過程可追溯性:外部刺激和內部技術因素等都會引發人 工智能失控。為了盡可能大降低誤判和失控風險,那么需確保算 法過程可追溯、可分析
22、。評估需要檢查設計文檔中是否有詳細的 建模過程描述,是否記錄了建模過程中使用的軟硬件環境和建模 過程操作者,是否按要求記錄建模的起止時間戳和迭代次數的相 關內容;檢查算法訓練系統是否記錄了建模的起止時間戳和迭代 次數。 算法部署可追溯性: 算法部署可追溯是指算法部署的操作者、 操作時間、部署腳本等都有記錄。評估需要檢查部署文檔中是否 有要求記錄人工智能算法部署操作者的相關內容,是否記錄了部 署的軟硬件環境配置信息;檢查系統是否標識了部署時間及相關 結果,是否有對保存人工智能算法模型部署相關腳本的說明。 (7)算法公平性 算法效果公平性:人工智能算法都是基于數據驅動的,數據 采集過程中可能存在不
23、同群體數據占比權重不均衡?;诓痪?的數據進行訓練,算法可能在無意間編碼人類的偏見而對個人或 群體產生偏見或歧視,造成了算法決策的不公平。算法公平性需 要評估不同群體之間算法的識別效果是否存在顯著差異,以此來 保障算法決策的公平性。 3、服務能力評價 (1)基礎設施 運行時隔離評價: 人工智能服務運行時需要隔離,即兩個或 兩個以上的服務或網絡在斷開連接的基礎上,實現信息交換和資 源共享,也就是說,應通過運行隔離技術既可以使兩個網絡實現 物理上的隔離,又能在安全的網絡環境下進行數據交換。 運行時保護評價:運行時的保護需要制定健全的管理制度和 嚴格管理相結合。評價制度的制定和落實情況是否能保障計
24、算、 存儲、網絡的安全運行,使其成為一個具有良好的安全性、可擴 充性和易管理性的信息網絡。 (2)系統安全性 人工智能系統安全性問題與傳統計算機安全領域中的安全問 題相似,威脅著人工智能技術的保密性、完整性和可用性,評價 的方式方法相同。人工智能系統安全問題主要分為硬件設備安全 問題以及系統與軟件安全問題兩類。硬件設備安全問題, 主要指 數據采集存儲、信息處理、應用運行相關的計算機硬件設備被攻 擊者攻擊破解,例如芯片、 存儲媒介等。系統與軟件安全問題,主要 指承載人工智能技術的各類計算機軟件中存在的漏洞和缺陷,如 承載技術的操作系統、軟件框架和第三方庫等。 (3)系統應用性能 訓練性能測試方法
25、及指標:系統的性能取決于系統硬件計算 能力、軟件框架和模型及其實現技術。單獨的算法或模型,一般 利用復雜度(complexity)從理論上表征算法運行可能消耗的時 間或/和空間。 給定復雜度的算法/模型, 運行于不同的計算系統, 性能則可能不同。人工智能訓練過程的性能,一般是指以特定人 工智能計算系統訓練某特定模型時,所使用的時間、能量以及獲 得數據吞吐率等。 這里的時間, 可描摹整個訓練過程 (如端到端) 及其細部時間(某個 epoch 耗時,數據預處理時間,分布式訓練 參數同步時間等) , 能量可使用訓練過程的系統整體平均功率來表 征,也可分離系統空載功率,來衡量系統真正用于訓練的那部分
26、功率。數據吞吐率一般是指單位時間內消耗的訓練數據樣本數, 如 images/s,元組數/s 等。它表征計算系統的有效計算能力。 推理性能測試方法及指標:系統推理的性能取決于硬件、軟 件框架和模型。在某些情況下,可在無框架下直接運行模型,即 將模型“壓”入硬件內存,并在此過程中,實施模型優化(如剪 枝、合并算子、內存使用優化等) 。推理指標與訓練指標相似,也 以所使用的時間、能量以及獲得數據吞吐率等表征。其中推理用 時,可指推理整個測試集的用時,也可指某些特定樣本的用時。 在不同的作業達到模式和壓力下, 系統的推理用時可能有所變化, 推理的準確率與模型本身的特性有關。推理的能量消耗可使用推 理過
27、程中的平均功率來衡量。數據吞吐率一般是指特定系統在單 位時間內處理的樣本數量,表征計算系統的有效計算能力。 (4)運維管理能力 需要對模型系統所依賴的基礎設施、基礎服務、線上業務進 行穩定性加強,發現人工智能服務可能存在的隱患,對整體架構 進行優化以屏蔽常見的運行故障,多數據中心接入提高業務的容 災能力。評價通過監控、日志分析等技術手段,是否能及時發現 和響應服務故障,減少服務中斷的時間。同時需要關注業務運行 所涉及的各個層面,確保用戶能夠安全、完整地訪問在線業務。 對業務進行各方面優化,確保公司業務數據和用戶隱私數據的安 全,并保證服務具備抵御各種惡意攻擊的能力。 二、問題挑戰與解決思路 (
28、一)人工智能金融應用的問題挑戰 人工智能金融應用面臨的挑戰可概括為人工智能數據安全、 人工智能算法安全、人工智能倫理治理、以及人工智能應用評價 四類挑戰。 在人工智能數據安全方面,數據是人工智能算法的源泉,應 從源頭防范化解人工智能算法安全風險。隨著技術應用的深入, 數據非法盜用、數據惡意攻擊、數據泄露以及數據濫用等風險事 件頻發,暴露出人工智能應用在數據隱私保護、全生命周期數據 渠道管理等方面的不足。 在人工智能算法安全方面,出于技術的復雜性以及商業競爭 力的敏感性,部分算法缺少對決策過程的合理解釋以及關鍵信息 的公開披露, 引發算法黑箱化, 極大程度降低算法應用的可信度, 直接影響最終使用
29、者做出正確決策, 甚至造成不可逆的經濟損失。 在人工智能應用評價方面,人工智能金融應用算法評價規范 為金融行業提供了首個通用性評價依據, 解決了行業 “從無到有” 的問題,但在金融場景的細分需求上,仍需建立細化評價標準及 評價指標以滿足差異化需求。同時,算法技術的更新迭代對評價 工具、評價方法的有效性提出更高要求,需要緊跟技術前沿不斷 深化評價手段的創新。 在人工智能倫理治理方面,近年來人工智能技術的濫用引發 大數據殺熟、智能推薦信息誤導以及人工智能偏見歧視等問題, 影響正常的市場秩序和社會秩序,給維護意識形態安全、社會公 平公正和用戶合法權益帶來挑戰。急需在倫理治理實踐指南、倫 理風險識別工
30、具以及道德倫理評價等方面進一步完善。 (二)人工智能應用評價的問題挑戰 目前金融行業不同機構間人工智能測試方面較為封閉,單一 的檢測技術無法實際應用到多類不同的應用場景上,檢測技術的 復雜度較高,檢測技術方法需要根據場景應用相關的特性進行細 化,檢測工具和檢測環境還不健全。因此,目前部分可解釋性、 安全性的技術評價以自聲明結合評價為主。 考慮現階段標準和技術手段不足,從評價對象來看,對人工 智能金融應用評價主要以算法評價為主,場景應用相關的特性評 價指標有部分覆蓋但仍需細化完善; 從評價方法來看, 可解釋性、 安全性的技術評價以企業自聲明結合評價為主,后續隨著技術進 步、 系統化的評價體系建立
31、, 測評工作中的技術水平將得到提高, 并進一步完善自聲明審核的標準及相關依據。 通過技術手段對人工智能金融應用開展評價,是一套復雜的 系統性工程活動,需基于安全性、可解釋性、精準性、性能乃至 道德倫理等多個維度, 包括數據、 算法、 算力、 場景等多種要素, 涉及產業方、應用方、獨立第三方、監管方及自律組織等多方力 量。此外,人工智能金融應用評價工作需要相關工具以及方法不 斷地更新迭代, 而對于精準性和性能雖有部分技術檢測手段支撐, 但還需在數據、評價基準等基礎建設方面予以儲備。 (三)解決思路與方法 為有效應對上述問題和挑戰,秉持“公正向善、安全可控” 為目標的解決思路,通過建立多元化評價體
32、系、提升檢測認證專 業化能力、探索算法備案及信息披露自律機制,全面貫徹落實人 工智能金融應用發展規劃和治理要求。 建立多元化評價體系:根據國家建立算法安全治理機制、完 善監管體系、規范算法生態的治理目標,金融業有必要建立一個 符合人工智能技術發展需要、滿足金融服務特點的多元化評價體 系,來配套國家行業人工智能安全治理機制的建立,按照行業管 理的要求引導人工智能金融應用朝著公正向善、安全可信方向健 康發展。 提升檢測認證專業化能力:金融業需要深入研究人工智能的 測評技術,建立科學的方法論,強調公正向善,持續優化和豐富 貼合金融應用場景的評價規則、評價方法、評價技術、評價工具 等,依照技術和應用水
33、平分階段有效地支撐人工智能金融應用評 價體系的構建。 探索算法備案及信息披露自律機制:一是依托人工智能金融 應用規則、 標準規范及行業公約, 適時建立監管部門、 行業協會、 從業機構、檢測機構、認證機構多方行業主體協同聯動的人工智 能金融應用相關算法備案機制。二是研究建立適當的人工智能信 息披露制度,考慮算法設計、研發、運行中可能存在的偏見和漏 洞、數據來源合法合規性問題以及可能對個人和社會造成的潛在 危害,針對不同業務場景及可能的風險程度明確相應的算法披露 要求。三是探索建立人工智能倫理審查機制,將人工智能倫理原 則要求細化為針對產品和服務的技術標準及相關自評估清單、風 險評估表,引導機構發
34、揮主動性,把以人為本、公平公正、權責 清晰等倫理要求貫徹到業務規劃、技術應用、產品研發等金融科 技活動全過程,堅決杜絕倫理失范現象。 三、建立多元化評價體系 為支撐金融行業人工智能應用安全治理機制,建議通過標準 化評價指標體系、統一測試評價方法、規范測試測評技術,打造 形成政府監管、企業履責、行業自律、質量監督的多元化評價體 系,即政府通過頂層設計制定人工智能金融應用的國家行業政策 并引導行業發展,企業開展自查自糾履行社會責任,行業協會發 揮自律約束的作用,檢測認證機構充分發揮權威第三方作用開展 質量認證審查活動。 (一)評價體系階段建設 現階段金融行業依據人工智能算法金融應用評價規范從 安全
35、性、可解釋性、精準性和性能方面開展人工智能算法評價工 作,人工智能金融應用評價體系已初具雛形。然而,評價體系的 建設不是一蹴而就的,隨著技術的發展、應用場景的創新以及標 準體系的完善,評價體系的建設也應是一個循序漸進的過程。因 此,具體建議按探索、擴展和成熟三個階段分布實施,具體內容 如下表所示。 表 2 評價體系階段建設 發展階段 評價規則 評價方法 評價技術 評價工具 探索階段 國家和行 業政策要 求,行業 通用標準 規范 自聲明與 驗證相結 合; 技術測試 與技術評 估相結合 基于目前技術應用水 平,充分采用已有安全攻 防、性能和精準性測試技 術手段; 基于模型優化等實踐經 驗應用于可解
36、釋性的評價 技術 工具場景 耦合度 高; 工具類型 單一; 專用工具 缺乏 擴展階段 部分成熟 應用或高 風險應用 場景的評 價標準; 實用性評 價工作實 施指南等 以標準符 合性驗證 為主; 技術測試 為主,測 評結合 基于長期積累的最佳實 踐形成的安全攻防、性能 和精準性測試技術手段; 逐步豐富的漏洞掃描技 術; 規范統一的多緯度可解 釋性評價技術 專用工具 豐富; 場景無關 的通用工 具; 可比較性 的測試基 準 成熟階段 覆蓋各種 金融應用 場景的評 價指標體 系; 完善的評 價實施指 南等 基于統一 規范的技 術測試要 求,自動 化的測試 技術支撐 系統化的 評價方法 基于風險控制的
37、安全攻 防技術評價體系; 具有可比性且基準一致 的性能和精準性測試技術 手段; 系統性支撐的漏洞掃描 技術; 基于理論支持的多緯度 可解釋性評價技術等 體系化成 套工具; 體系化的 數據、工 具集、測 試基準等 基礎設 施。 探索階段主要是起步推廣,即在方法、技術手段相對不足, 貼近場景的評價規則還不完善等情況下,基于業界技術應用現實 情況,通過調研訪談、技術檢測與企業自聲明相結合的方式開展 綜合評價工作。 擴展階段主要是持續優化,這是在技術進步、系統化的評價 體系逐步建立,檢測工作技術手段日趨成熟的情況下,通過優化 自聲明審核的標準及相關依據,依托最佳技術實踐的測試工作, 測試與評估相結合的
38、評價方式。 成熟階段主要是系統化普及,這是在金融應用場景全覆蓋的 評價指標體系基礎上,結合風險控制的思路,采用具有成熟理論 支撐的體系化技術手段,以自動化和系統化的檢測方法開展評價 工作。 (二)評價標準體系建設 圖 5 金融行業人工智能評價標準體系 由于人工智能技術的賦能屬性使其與場景結合更加緊密,建 議在國標委人工智能標準體系框架的基礎上規劃金融行業人工智 能評價標準體系框架,貼近金融應用場景,引導科技向善控制創 新風險,建立從科技倫理風險控制、技術風險控制到行業應用風 險控制不同層次,覆蓋數據、模型、系統且能體現金融服務特色 的應用評價標準體系。建議依據金融行業人工智能技術應用風險 開展
39、分類分級管理,優先或重點圍繞“科技向善,安全可控”等 配套人工智能安全治理需要的標準建設,重視高風險的金融應用 場景,支持行業人工智能技術應用痛點難點的解決。 (三)檢測能力全面提升 完善人工智能算法測評方案 當前人工智能算法測評工作展開的范圍和深度還比較有限, 行業經驗積累也比較有限;另一方面人工智能算法的發展也極為 迅猛,更新迭代速度快。因此,基于人工智能算法金融應用評 價規范JR/T 0221-2021 衍生的當前測評方案,還有較大的完善 空間,在落地層面仍有很多地方值得探索。 在未來的工作中,金融業內認證機構與檢測機構應聯合技術 廠商、金融機構、行業內外部人工算法應用單位一同,根據試點
40、 和前期定制測試積累的實際經驗,進一步完善人工智能算法測評 方案。 方案完善的方向主要有測評項的完備性、 測評項的必要性、 測評項的分類分級、測評通過標準的公平性與正確性、測評方法 的可實施性和準確性等等,這些方向的完善需與人工智能算法演 進的方向一致。 重點檢測技術攻關 測評的準確性極大的依賴重點檢測技術,技術的完備性和有 效性決定了測評的公平程度和推廣程度。目前看來,人工智能測 評在一些檢測技術方面還有待提升。 在安全方面,對算法的系列攻防對抗技術和漏洞掃描技術需 要進一步攻關。 例如竊取攻擊、 藥餌攻擊、 閃避攻擊、 模仿攻擊、 逆向攻擊、供應鏈攻擊、后門攻擊的攻擊技術方法,有的需要解
41、決從無到有的問題,有的需要解決由淺入深的問題。對于廣泛的 漏洞掃描能力,其不同于傳統的軟件漏掃能力,需要結合算法特 性定制研發能力足夠的漏洞技術。目前安全角度的檢測技術能力 提升是具有挑戰性的,有很長的道路要走。 在可解釋性方面,在完善測評方案的基礎上,需要有更好的 測評維度來評價算法的可解釋性問題,這一方面需要有理論層面 的突破,另一方面實現從理論到實踐的技術方法跨越。 在精準性與性能方面,雖然相關測評理論相對成熟,但需要 用完善的技術能力對人工智能不同算法類型、不同場景的公平測 評技術方法,一方面需要自動化的檢測工具,一方面需要標準化 成熟數據集。 統一提升檢測工具能力水平 檢測工具是實施
42、測評工作的重要輔助手段,一方面能夠提高 檢測效率, 一方面可以減少人為誤差導致的測試主觀不公開問題。 雖然一些機構具備了某些點上的測試工具,但由于人工智能 算法測評還處于探索階段, 該領域尚無成熟公認的統一檢測工具。 未來,需根據成熟的檢測方案,研發統一的檢測工具,尤其 針對安全性攻擊工具、精準性與性能測試工具上需下大力度推進 研發工作,這些領域工具的成熟也將標志人工智能算法測評工作 進入一個相對成熟穩定的階段。 建設完善標準化測試數據集 數據樣本是測試人工智能算法必不可少的環節,數據樣本的 質量直接關系到測評的有效性和準確性。 目前金融領域人工智能算法的測試還未能建立起統一的標準 化測試數據
43、集,影響著測評工作的大范圍開展。未來可通過檢測 認證機構與技術廠商聯合的方式,在合理合法合規的情況下建設 標準化測試數據集,覆蓋不同算法類型、不同應用場景、不同測 評目標的高質量、大體量數據集,促進人工智能算法測評工作邁 上新的臺階。 四、發揮認證價值 助力人工智能治理 目前,我國已經開展了信息安全產品認證、服務認證、管理 體系認證和信息安全從業人員認證,而關于人工智能金融應用相 關認證,存在迫切而明確的社會需要。因此,服務于金融業的主 要檢測認證機構在人民銀行科技司的指導下,結合人工智能金融 應用各方需求,已啟動人工智能金融應用認證認可制度的建立和 試點工作。 (一)建立“產品+服務”雙認證
44、體系 前期,北京國金認證牽頭組織成立了人工智能算法金融應用 認證工作組,來自認證機構、檢測機構、商業銀行、第三方支付 機構、金融科技企業等相關單位的二十多位專家參與。結合問卷 調研和實地走訪情況,工作組經過多次討論,初步設計出“產品+ 服務”的雙認證模式。其中,產品認證重點關注算法本身的算法 建模準備、算法建模過程、算法建模應用等全生命周期,服務認 證聚焦通過智能信息系統向金融客戶提供的服務質量,側重于客 戶的感知和體驗,保障金融服務的有效供給且無偏見、無歧視。 檢測認證實施采用查閱材料、查看系統、訪談人員、系統測試、 攻擊測試、 算法測試和查看算法等方式進行, 共計 166 個審查項, 從安
45、全性、可解釋性、精準性和性能等方面開展人工智能算法評 價, 確保認證范圍和認證對象的全覆蓋。 檢測認證使用專業工具, 通過對目標系統的掃描、探測等操作確認響應結果,并利用專業 攻擊方法對 AI 算法模型進行攻擊,同時基于業務樣本數據對目 標變量進行預測,通過結合自聲明驗證的方式確認算法是否滿足 評價指標。體系建設方面,工作組已初步形成人工智能算法金融 應用認證實施細則、檢測方案、審查列表和評估準則等支撐文件 體系。 圖 6 審查評價方法統計 (二)開展人工智能金融應用認證試點 在人民銀行上??偛?、北京營管部、杭州及寧波中支的大力 支持下,我們調研了金融機構正在應用的十余個人工智能算法項 目。在
46、經過對各項目的機構代表性、算法典型性、場景覆蓋廣泛 性、金融產品創新性等多重指標的全面考量后,最終在國有大型 商業銀行、城市商業銀行、第三方支付機構中各選取一個具有代 表性的機構開展人工智能算法金融應用項目試點,其中兩個試點 同時也屬于金融科技創新監管試點。 北京國金認證、 CCRC 作為認 證機構,BCTC、CFCA、中國軟件測評中心作為檢測機構,華為、 百度、騰訊、銀聯商務作為技術支撐機構參與工作。 通過前期的調研和試點的開展,我們發現金融領域人工智能 算法應用最多的是智能風控和貸前反欺詐兩大金融業場景,具體 0 20 40 60 80 查看系統查閱材料算法測試系統測試攻擊測試訪談人員查看
47、算法 審查評價方法 算法包括 LGBM、 XGBoost 等。 每個金融場景往往應用多個算法, 每個算法又同時支撐多個場景實現,檢測認證需要抽絲剝繭,層 層深入逐個審查點,應用專業能力和測試工具驗證算法的內在邏 輯、實現路徑、決策過程、預期目標等。在此過程中同時發現, 各金融機構目前對JR/T 02212021 人工智能算法金融應用評 價規范的對標達標尚不到位,多數機構設計文檔中缺乏避免偏 見歧視的可解釋性說明。此外,人工智能算法的發展速度快、迭 代周期短,對檢測認證手段的先進性和證后監督的及時性都帶來 了一定挑戰。 當前,各試點已進入中期實施及逐步收尾階段。試點的開展 首先促進了相關機構對標
48、達標的有效性,推動金融機構增加訓練 數據集的分布驗證,加強對目標函數和選擇特征避免偏見歧視的 研究;其次對金融場景應用廣泛的算法(如 XGBoost、LightGBM 等)進行了重點檢測和審查,對標準落地的驗證形成了經驗和實 踐積累;再次,提升了檢測認證工具水平和方法,儲備和提高了 檢測認證能力以匹配人工智能算法等前沿技術的迅猛發展; 最后, 聚焦了算法科技倫理問題,對機構入模參數特征分布等進行了重 點分析,以應對算法歧視等問題。 (三)推動認證結果多方采信 作為一種權威第三方評價活動,認證具有傳遞信任的重要使 命,對于認證結果的采信彰顯了認證的社會價值,有助于行業的 深化治理。因此,建議充分運用認證行為與認證結果采信兩種手 段,共同建立基于信任的人工智能金融應用生態。一方面,建立 金融行業人工智能產品及服務準入機制。另一方面,采用認證認 可手段進行準入資質管理。再者,形成政府引領、產業參與、多 方采信的共建共治共享格局。 綜上所述,依托雙認證體系和多方采信機制發揮認證價值, 能夠有效提高金融行業人工智能治理效能。對于監管部門,通過 認證采信機制推動政策落地及標準應用;對于行業自律組織,探 索基于算法備案和信息披露的倫理審查自律機制; 對于金融機構, 提供服務質量安全保障;對于產業機構,借助認證采信提高市場 競爭力;對于金融消費者,借助認證采信增強安全感、獲得感和 幸福感。