《中國信通院&清華大學:可信AI技術和應用進展白皮書(2023)(73頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院&清華大學:可信AI技術和應用進展白皮書(2023)(73頁).pdf(73頁珍藏版)》請在三個皮匠報告上搜索。
1、摘要人工智能的飛速進步和應用帶來了前所未有的機遇和挑戰,也將可信人工智能推向產業發展的前臺。2021 年,中國信通院可信人工智能白皮書 首次系統提煉出業內較為統一的可信 AI 特征要素,在安全魯棒、隱私保護、公平性、可解釋的大框架下,可信 AI 正在金融、保險、制造、醫療等領域加速落地。伴隨人工智能技術底座不斷夯實和大模型、AIGC 等的爆發式增長,人工智能邁出了走向通用人工智能的關鍵一步,2023 年 4 月中共中央政治局會議強調“重視通用人工智能發展,營造創新生態,重視防范風險”,可信 AI成為新階段平衡創新與風險的重要技術手段。本報告基于統一的可信 AI 認知維度,梳理總結可信 AI 技
2、術和應用發展現狀,提煉面向新階段大模型和 AIGC 引發的新需求,形成以技術為保障的可信 AI 評估體系和工具。全文主要觀點如下:一是歸納了可信 AI 發展變遷的產業技術背景,即近期算法、算力、數據基礎不斷夯實,人工智能固有技術風險持續放大,可信 AI技術成為 AI 領域關鍵底層能力,各國也正在圍繞生成式人工智能監管、人工智能倫理等推動治理。二是梳理了現階段可信 AI 四大技術方向發展情況??尚?AI 已在行業領域落實成具體產品和實踐案例,總體上正從創新整合解決方案階段邁向形成可信系統機制的階段,完整的實踐鏈路、健全的標準和系統機制將逐步落地。三是概括了面向大模型和 AIGC 的可信 AI 探
3、索,即大模型時代下可能面臨的安全可信挑戰,主要包括大模型的生成式攻擊和防御、可信 AI 技術和應用進展白皮書 2023四大模型自身的安全風險和隱患、大模型的可解釋性和公平性問題等三大類。是構建了以技術為保障的可信 AI 評估體系,面向產業發展需求,構建了包括隱私保護檢測、可解釋性檢測、公平性檢測和魯棒性檢測的可信 AI 檢測指標體系,并提出了具體的評估內容、指標和方式,并可進一步賦能大模型與 AIGC 發展。最后,本白皮書從技術、產業、生態和監管維度對可信人工智能發展提出了建議,對趨勢進行了展望,將迎來研究應用更加均衡、內在動力更加多維、外在監管更加全面的發展局面。第一章 人工智能邁向發展新階
4、段 1.1 人工智能發展迎來全新時代 1.2 人工智能可信面臨全新挑戰 1.3 全球人工智能治理機制進展 1.3.1 基于政策法規的治理機制 1.3.2 基于生態共識的治理機制第二章 可信 AI 產業實踐深入發展 2.1 應用 AI 魯棒性技術對抗惡意攻擊 2.1.1 提升文本識別對抗能力 2.1.2 提升圖像偽造識別能力 2.1.3 提升生物核身檢測能力 2.2 應用 AI 可解釋性技術提升決策透明度 2.2.1 用于模型歸因的可解釋 2.2.2 復雜關系網絡的可解釋 2.2.3 融合專家知識的可解釋 2.3 互聯網平臺公平性探索 2.3.1 糾偏營銷定價歧視 2.3.2 改善信息繭房現象
5、2.3.3 強化弱勢群體保護 2.4 AI 應用實踐中的數據模型安全和隱私保護 2.4.1 終端社交內容中的隱私保護 2.4.2 IoT(物聯網)人臉特征隱私保護算法 2.4.3 多方安全計算助力行業跨機構協作第三章 面向大模型和 AIGC 的可信 AI 探索 3.1 大模型和 AIGC 的發展與生態 3.1.1 大規模深度學習模型發展歷程 3.1.2 大模型時代下 AIGC 的產業生態與可信挑戰-1-1-2-5-5-9-11-12-13-14-16-17-18-20-21-22-24-25-26-26-28-28-30-31-31-31-33-目 錄.可信 AI 技術和應用進展白皮書 202
6、3四大模型自身的安全風險和隱患、大模型的可解釋性和公平性問題等三大類。是構建了以技術為保障的可信 AI 評估體系,面向產業發展需求,構建了包括隱私保護檢測、可解釋性檢測、公平性檢測和魯棒性檢測的可信 AI 檢測指標體系,并提出了具體的評估內容、指標和方式,并可進一步賦能大模型與 AIGC 發展。最后,本白皮書從技術、產業、生態和監管維度對可信人工智能發展提出了建議,對趨勢進行了展望,將迎來研究應用更加均衡、內在動力更加多維、外在監管更加全面的發展局面。第一章 人工智能邁向發展新階段 1.1 人工智能發展迎來全新時代 1.2 人工智能可信面臨全新挑戰 1.3 全球人工智能治理機制進展 1.3.1
7、 基于政策法規的治理機制 1.3.2 基于生態共識的治理機制第二章 可信 AI 產業實踐深入發展 2.1 應用 AI 魯棒性技術對抗惡意攻擊 2.1.1 提升文本識別對抗能力 2.1.2 提升圖像偽造識別能力 2.1.3 提升生物核身檢測能力 2.2 應用 AI 可解釋性技術提升決策透明度 2.2.1 用于模型歸因的可解釋 2.2.2 復雜關系網絡的可解釋 2.2.3 融合專家知識的可解釋 2.3 互聯網平臺公平性探索 2.3.1 糾偏營銷定價歧視 2.3.2 改善信息繭房現象 2.3.3 強化弱勢群體保護 2.4 AI 應用實踐中的數據模型安全和隱私保護 2.4.1 終端社交內容中的隱私保護
8、 2.4.2 IoT(物聯網)人臉特征隱私保護算法 2.4.3 多方安全計算助力行業跨機構協作第三章 面向大模型和 AIGC 的可信 AI 探索 3.1 大模型和 AIGC 的發展與生態 3.1.1 大規模深度學習模型發展歷程 3.1.2 大模型時代下 AIGC 的產業生態與可信挑戰-1-1-2-5-5-9-11-12-13-14-16-17-18-20-21-22-24-25-26-26-28-28-30-31-31-31-33-目 錄.可信 AI 技術和應用進展白皮書 2023圖 1-1 可信人工智能技術發展圖 1-2 大模型引發的不同維度風險圖 1-3 典型場景風險分析圖 1-4 可信人
9、工智能技術與監管治理進程圖 2-1 可信 AI 發展階段判斷圖 2-2 AI 魯棒性的一般技術架構圖 2-3 梯度攻擊以微小擾動產生錯誤識別圖 2-4 常見可解釋性技術分類圖 2-5 圖模型可解釋案例圖 2-6 互聯網法庭智能審理案例圖 2-7 公平性 AI 的常見問題和方法圖 2-8 跨主體隱私計算的常見方法圖 2-9 TEE-DP 算法方案圖 3-1 各大企業的大模型發展與生態圖 3-2 大模型時代下面臨的安全可信挑戰圖 3-3 大模型和 AIGC 的生成式攻擊圖 3-4 生成式模型的 AI 生成內容甄別圖 3-5 基于模型水印的身份標識方法的邏輯架構圖 3-6 大模型的提示語泄漏風險圖
10、3-7 大模型學習敏感數據導致的隱私泄漏圖 3-8 承載大模型的軟件漏洞導致的數據泄漏圖 3-9 大模型的提示語安全風險圖 3-10 大模型的數據安全風險圖 3-11 大模型的模型安全風險圖 3-12 大模型意識形態偏見所引發的公平性問題圖 4-1 當前面向可信 AI 各子領域的常見工具圖 4-2 蟻鑒平臺測評流程和報告示例-3-4-5-6-11-13-15-18-21-22-23-27-29-33-34-36-38-39-40-41-42-45-46-47-50-51-56-插 圖 目 錄.3.2 大模型的生成式攻擊和防御.-35-3.2.1 大模型的生成式攻擊.-35-3.2.2 面對生成
11、式攻擊的防御挑戰.-37-3.3 大模型自身的安全風險與隱患.-39-3.3.1 大模型的數據泄漏問題.-39-3.3.2 大模型的倫理道德問題.-42-3.3.3 大模型的攻擊對抗問題.-44-3.4 大模型的可解釋性及公平性.-47-3.4.1 大模型的可解釋性.-48-3.4.2 大模型的公平性.-49-第四章 以技術為保障的可信 AI 評估.-50-4.1 可信 AI 檢測工具.-50-4.2 可信 AI 檢測框架.-53-4.3 檢測實例分析.-55-第五章 發展建議和趨勢展望.-57-5.1 發展建議.-57-5.1.1 技術維度.-57-5.1.2 產業維度.-59-5.1.3
12、生態維度.-60-5.1.4 監管維度.-61-5.2 未來展望.-62-英文縮略語對照表.-64-可信 AI 技術和應用進展白皮書 2023圖 1-1 可信人工智能技術發展圖 1-2 大模型引發的不同維度風險圖 1-3 典型場景風險分析圖 1-4 可信人工智能技術與監管治理進程圖 2-1 可信 AI 發展階段判斷圖 2-2 AI 魯棒性的一般技術架構圖 2-3 梯度攻擊以微小擾動產生錯誤識別圖 2-4 常見可解釋性技術分類圖 2-5 圖模型可解釋案例圖 2-6 互聯網法庭智能審理案例圖 2-7 公平性 AI 的常見問題和方法圖 2-8 跨主體隱私計算的常見方法圖 2-9 TEE-DP 算法方
13、案圖 3-1 各大企業的大模型發展與生態圖 3-2 大模型時代下面臨的安全可信挑戰圖 3-3 大模型和 AIGC 的生成式攻擊圖 3-4 生成式模型的 AI 生成內容甄別圖 3-5 基于模型水印的身份標識方法的邏輯架構圖 3-6 大模型的提示語泄漏風險圖 3-7 大模型學習敏感數據導致的隱私泄漏圖 3-8 承載大模型的軟件漏洞導致的數據泄漏圖 3-9 大模型的提示語安全風險圖 3-10 大模型的數據安全風險圖 3-11 大模型的模型安全風險圖 3-12 大模型意識形態偏見所引發的公平性問題圖 4-1 當前面向可信 AI 各子領域的常見工具圖 4-2 蟻鑒平臺測評流程和報告示例-3-4-5-6-
14、11-13-15-18-21-22-23-27-29-33-34-36-38-39-40-41-42-45-46-47-50-51-56-插 圖 目 錄.3.2 大模型的生成式攻擊和防御.-35-3.2.1 大模型的生成式攻擊.-35-3.2.2 面對生成式攻擊的防御挑戰.-37-3.3 大模型自身的安全風險與隱患.-39-3.3.1 大模型的數據泄漏問題.-39-3.3.2 大模型的倫理道德問題.-42-3.3.3 大模型的攻擊對抗問題.-44-3.4 大模型的可解釋性及公平性.-47-3.4.1 大模型的可解釋性.-48-3.4.2 大模型的公平性.-49-第四章 以技術為保障的可信 AI
15、 評估.-50-4.1 可信 AI 檢測工具.-50-4.2 可信 AI 檢測框架.-53-4.3 檢測實例分析.-55-第五章 發展建議和趨勢展望.-57-5.1 發展建議.-57-5.1.1 技術維度.-57-5.1.2 產業維度.-59-5.1.3 生態維度.-60-5.1.4 監管維度.-61-5.2 未來展望.-62-英文縮略語對照表.-64-可信 AI 技術和應用進展白皮書 202301第可信 AI 技術和應用進展白皮書 2023一章 人工智能邁向發展新階段1.1 人工智能發展迎來全新時代優化算法、通用數據、硬件算力推動人工智能技術底座不斷夯實。算法層面,已開啟千億級甚至萬億級參數
16、量預訓練模型的研發熱潮,助推深度學習技術突破,加速人工智能外溢性和普惠性發展。數據層面,人工智能快速發展推動數據規模不斷上升,并呈現多模態發展態勢,數據服務進入深度定制化階段,各方正在積極建設高質量數據集以支撐知識驅動的人工智能發展。算力層面,單點算力持續突破,面向訓練和推理用的芯片快速演進,新架構不斷研究,類腦芯片、存內計算、量子計算等加快探索。近期,大模型為代表的生成式人工智能正在發揮紐帶效應,以通用智能體、具身智能和類腦智能等為代表的通用人工智能可能帶來新一輪生產力范式變革。政策關注引導人工智能賦能產業應用,數實融合推動經濟發展。各國將人工智能作為構建核心競爭力的重要領域之一,加快部署人
17、工智能工程化落地,產業規模持續擴大。IDC 數據顯示,2022 年全球人工智能市場收入達 4497 億美元,同比增長 17.3%;預計 2023年收入達 5373 億美元,同比增長 19.5%。中國依托龐大的制造業規模、豐富的應用場景和海量數據資源,加強數實融合布局,人工智能在制造、金融、醫療、交通、教育、商業等諸多垂直領域助推數字化轉型,并不斷催生出具有產業通用性的新產品新業態,中國信通院數據研究中心統計,截至 2023 年一季度,全球人工智能企業超表 格 目 錄表 1-1 近期代表性政策法規表 1-2 近期代表性監管框架表 1-3 近期可信相關代表性標準表 1-4 近期代表性企業可信探索表
18、 4-1 可信 AI 檢測指標體系-7-8-9-10-53-.01第可信 AI 技術和應用進展白皮書 2023一章 人工智能邁向發展新階段1.1 人工智能發展迎來全新時代優化算法、通用數據、硬件算力推動人工智能技術底座不斷夯實。算法層面,已開啟千億級甚至萬億級參數量預訓練模型的研發熱潮,助推深度學習技術突破,加速人工智能外溢性和普惠性發展。數據層面,人工智能快速發展推動數據規模不斷上升,并呈現多模態發展態勢,數據服務進入深度定制化階段,各方正在積極建設高質量數據集以支撐知識驅動的人工智能發展。算力層面,單點算力持續突破,面向訓練和推理用的芯片快速演進,新架構不斷研究,類腦芯片、存內計算、量子計
19、算等加快探索。近期,大模型為代表的生成式人工智能正在發揮紐帶效應,以通用智能體、具身智能和類腦智能等為代表的通用人工智能可能帶來新一輪生產力范式變革。政策關注引導人工智能賦能產業應用,數實融合推動經濟發展。各國將人工智能作為構建核心競爭力的重要領域之一,加快部署人工智能工程化落地,產業規模持續擴大。IDC 數據顯示,2022 年全球人工智能市場收入達 4497 億美元,同比增長 17.3%;預計 2023年收入達 5373 億美元,同比增長 19.5%。中國依托龐大的制造業規模、豐富的應用場景和海量數據資源,加強數實融合布局,人工智能在制造、金融、醫療、交通、教育、商業等諸多垂直領域助推數字化
20、轉型,并不斷催生出具有產業通用性的新產品新業態,中國信通院數據研究中心統計,截至 2023 年一季度,全球人工智能企業超表 格 目 錄表 1-1 近期代表性政策法規表 1-2 近期代表性監管框架表 1-3 近期可信相關代表性標準表 1-4 近期代表性企業可信探索表 4-1 可信 AI 檢測指標體系-7-8-9-10-53-.020328000 家,中國約占 15%。大模型降低人工智能應用門檻,推動產業應用創新,應用生態初步顯現。大模型是傳統人工智能能力的集大成者和新業態的創造者,一方面降低人工智能應用門檻,通過零樣本、小樣本學習即可獲得領先的效果,同時依托“預訓練+精調”等開發范式加速 AI
21、工程化應用落地進程。另一方面驅動產業應用創新,使傳統任務系統架構大幅簡化,降低生產成本,提升應用效果和效率,加速數據和模型應用閉環建設,推動形成智能能力的生產和消費模式,在廣告、營銷、文娛、教育等場景快速適應并實現智能化升級,塑造形成新興商業模式,引領數字經濟新浪潮。1.2 人工智能可信面臨全新挑戰人工智能固有技術風險持續放大,可信 AI 技術成為 AI 領域關鍵底層能力。以深度學習為核心的人工智能技術在應用中暴露出由其自身特性引發的風險隱患:一是深度學習算法存在的設計漏洞、惡意攻擊等問題引發安全風險,人工智能系統可靠性難以得到足夠信任;二是算法的高度復雜性和不確定性、模型運行的強自主性導致“
22、黑箱”問題和不可解釋;三是數據中已經存在的偏見歧視可能被算法進一步固化,導致生成的智能決策形成偏見;四是訓練數據的收集、使用、共享可能導致對個人隱私的侵犯和濫用,用戶常常需要在 AI 帶來便利與隱私保護之間尋求平衡。以 AI 安全和魯棒性、隱私保護、公平性和可解釋性為核心的可信 AI 技術在數據安全、算法安全和系統安全等方面持續發力,成為關鍵的人工智能底層能力,并正由單點的可信 AI 技術解決方案發展向包含事前評估、事中攻防和事后治理的人工智能模型全生命周期管理發展。來源:螞蟻集團圖 1-1 可信人工智能技術發展大模型在技術、產業和社會等多方面引發新問題,可信需求更加凸顯。從技術維度來看,大模
23、型使用深度神經網絡結構,其繼承于深度學習的自有技術局限進一步放大,模型不可解釋、數據模型竊取等問題凸顯。從產業維度來看,大模型潛在的壟斷風險,在賦能產業的同時可能發生產業鏈風險傳遞;大模型本身參數規模大、性能相對較強,而配套的標準、評估體系的不健全、不規范將威脅產業安全。從社會維度來看,大模型高效生成信息的能力可能帶來對弱勢群體權利的侵害、對勞動力的替代,并可能降低有害信息傳播的門檻,增大社會安全風險。隨著 AI 技術向巨量參數大模型和通用人工智能深入發展,在模型尤其是生成式大模型提供公眾服務之前,相應的可信 AI 技術問題更加復雜,既需要安全意識的長期到位,也需要技術上的投入和突破??尚?A
24、I 技術和應用進展白皮書 2023020328000 家,中國約占 15%。大模型降低人工智能應用門檻,推動產業應用創新,應用生態初步顯現。大模型是傳統人工智能能力的集大成者和新業態的創造者,一方面降低人工智能應用門檻,通過零樣本、小樣本學習即可獲得領先的效果,同時依托“預訓練+精調”等開發范式加速 AI 工程化應用落地進程。另一方面驅動產業應用創新,使傳統任務系統架構大幅簡化,降低生產成本,提升應用效果和效率,加速數據和模型應用閉環建設,推動形成智能能力的生產和消費模式,在廣告、營銷、文娛、教育等場景快速適應并實現智能化升級,塑造形成新興商業模式,引領數字經濟新浪潮。1.2 人工智能可信面臨
25、全新挑戰人工智能固有技術風險持續放大,可信 AI 技術成為 AI 領域關鍵底層能力。以深度學習為核心的人工智能技術在應用中暴露出由其自身特性引發的風險隱患:一是深度學習算法存在的設計漏洞、惡意攻擊等問題引發安全風險,人工智能系統可靠性難以得到足夠信任;二是算法的高度復雜性和不確定性、模型運行的強自主性導致“黑箱”問題和不可解釋;三是數據中已經存在的偏見歧視可能被算法進一步固化,導致生成的智能決策形成偏見;四是訓練數據的收集、使用、共享可能導致對個人隱私的侵犯和濫用,用戶常常需要在 AI 帶來便利與隱私保護之間尋求平衡。以 AI 安全和魯棒性、隱私保護、公平性和可解釋性為核心的可信 AI 技術在
26、數據安全、算法安全和系統安全等方面持續發力,成為關鍵的人工智能底層能力,并正由單點的可信 AI 技術解決方案發展向包含事前評估、事中攻防和事后治理的人工智能模型全生命周期管理發展。來源:螞蟻集團圖 1-1 可信人工智能技術發展大模型在技術、產業和社會等多方面引發新問題,可信需求更加凸顯。從技術維度來看,大模型使用深度神經網絡結構,其繼承于深度學習的自有技術局限進一步放大,模型不可解釋、數據模型竊取等問題凸顯。從產業維度來看,大模型潛在的壟斷風險,在賦能產業的同時可能發生產業鏈風險傳遞;大模型本身參數規模大、性能相對較強,而配套的標準、評估體系的不健全、不規范將威脅產業安全。從社會維度來看,大模
27、型高效生成信息的能力可能帶來對弱勢群體權利的侵害、對勞動力的替代,并可能降低有害信息傳播的門檻,增大社會安全風險。隨著 AI 技術向巨量參數大模型和通用人工智能深入發展,在模型尤其是生成式大模型提供公眾服務之前,相應的可信 AI 技術問題更加復雜,既需要安全意識的長期到位,也需要技術上的投入和突破??尚?AI 技術和應用進展白皮書 20230405可信 AI 技術和應用進展白皮書 2023來源:中國信息通信研究院圖 1-2 大模型引發的不同維度風險受益于大模型技術快速迭代及“模型即服務”趨勢顯現,傳統企業可享受低成本構建應用模型的便利,經濟社會進入與人工智能全面融合發展新階段,也可能形成新的風
28、險。參考中國新一代人工智能科技產業發展(2023)對人工智能應用領域的判斷,我們分析了大模型時代智慧城市、制造、金融、教育、醫療等領域應用風險:智慧城市可能因數據過度收集而增加數據監管難度,威脅公民、企業甚至國家安全;制造場景數據合規性、可信度未知,質量和安全層面均存有疑問,可能因錯誤指令導致機器人運行故障;醫療場景一旦生成錯誤診療方案,嚴重情況下將有致命風險,且事故責任主體難以確認;金融場景涉及客戶隱私保護和公平性問題,如對特定人群的信用偏見產生貸款等服務歧視;教育場景涉及誤導及幫助學生利用生成類工具投機取巧的學術倫理問題;新媒體和數字內容場景下可能存在虛假內容生成、知識產權歸屬和侵犯等問題
29、。來源:根據公開資料整理圖 1-3 典型場景風險分析1.3 全球人工智能治理機制進展1.3.1 基于政策法規的治理機制各地區人工智能治理各有亮點,整體向以“硬法”為保障的風險防控體系邁進,正在圍繞生成式人工智能監管、人工智能倫理治理以及人工智能數據版權等議題發布政策法規,并開始出現人工智能治理評估框架和工具包,促進負責任、合乎道德的人工智能發展。0405可信 AI 技術和應用進展白皮書 2023來源:中國信息通信研究院圖 1-2 大模型引發的不同維度風險受益于大模型技術快速迭代及“模型即服務”趨勢顯現,傳統企業可享受低成本構建應用模型的便利,經濟社會進入與人工智能全面融合發展新階段,也可能形成
30、新的風險。參考中國新一代人工智能科技產業發展(2023)對人工智能應用領域的判斷,我們分析了大模型時代智慧城市、制造、金融、教育、醫療等領域應用風險:智慧城市可能因數據過度收集而增加數據監管難度,威脅公民、企業甚至國家安全;制造場景數據合規性、可信度未知,質量和安全層面均存有疑問,可能因錯誤指令導致機器人運行故障;醫療場景一旦生成錯誤診療方案,嚴重情況下將有致命風險,且事故責任主體難以確認;金融場景涉及客戶隱私保護和公平性問題,如對特定人群的信用偏見產生貸款等服務歧視;教育場景涉及誤導及幫助學生利用生成類工具投機取巧的學術倫理問題;新媒體和數字內容場景下可能存在虛假內容生成、知識產權歸屬和侵犯
31、等問題。來源:根據公開資料整理圖 1-3 典型場景風險分析1.3 全球人工智能治理機制進展1.3.1 基于政策法規的治理機制各地區人工智能治理各有亮點,整體向以“硬法”為保障的風險防控體系邁進,正在圍繞生成式人工智能監管、人工智能倫理治理以及人工智能數據版權等議題發布政策法規,并開始出現人工智能治理評估框架和工具包,促進負責任、合乎道德的人工智能發展。0607來源:中國信息通信研究院圖 1-4 可信人工智能技術與監管治理進程近期,大模型和 AIGC 的興起帶來可信 AI 治理新機遇和挑戰。美國人工智能權利法案藍圖提出五項基本原則以避免人工智能系統濫用帶來的危害,其中將公平和隱私保護放在首要位置
32、;歐盟人工智能法案談判授權草案重點確保人工智能系統由人監督,實現安全、透明、可追溯、非歧視和環保;意大利、西班牙、法國等政府于近期對 ChatGPT 所涉投訴展開調查,我國發布互聯網信息服務深度合成管理規定生成式人工智能服務管理辦法(征求意見稿),引導新技術健康發展;2023 年 4 月中共中央政治局會議也強調“要重視通用人工智能發展,營造創新生態,重視防范風險”。在地方層面,2021 年,上海率先成立國內首個可信 AI 評測中心,此外,上海發布的首部人工智能省級法規上海市促進人工智能產業發展條例提出探索分級治理和沙盒監管,設立人工智能倫理專家委員會;北京將推動實行包容審慎監管試點、建設通用人
33、工智能領域科技倫理治理公共服務平臺。表 1-1 近期代表性政策法規國家/組織發布時間政策法規內容英國2023 年 3 月發布人工智能新監管框架的提案支持創新的人工智能監管方法,涉及安全性、透明性、公平性、問責制、競爭和賠償等五個方面。2023 年 5 月英國競爭監管機構對人工智能展開調查,專注于大型語言模型和生成人工智能等“基礎模型”。美國2022 年 10 月白宮發布人工智能權利法案藍圖,提出五項原則:(1)安全有效的系統;(2)算法歧視保護;(3)數據隱私;(4)通知和解釋清晰、及時和可訪問;(5)設計自動系統失敗時使用的替代方案、考慮因素和退出機制。2023 年 3 月美國科技政策辦公室
34、發布“促進隱私保護數據共享和分析的國家戰略”,推進建設保護隱私數據共享和分析(PPDSA)技術,在公平的同時促進創新、建立問責機制、盡量減少弱勢群體的風險。2023 年 4 月美國商務部國家電信和信息管理局發布人工智能問責政策征求意見。G72023 年 4 月七國集團數字與科技部長發布聯合聲明,同意對人工智能采取基于風險的監管,計劃開展關于生成式人工智能的討論。中國2022 年 11 月互聯網信息辦公室、工業和信息化部、公安部發布互聯網信息服務深度合成管理規定,強調不得利用深度合成服務從事法律、行政法規禁止的活動,要求深度合成服務提供者落實信息安全主體責任。2023 年 4 月中國國家網信辦就
35、 AIGC 研發和應用發布了生成式人工智能服務管理辦法征求意見稿。韓國2023 年 5 月將在2023年9月之前制定有關機器學習數據生成內容的新標準和指導方針,以最大限度地減少圍繞人工智能生成內容的知識產權爭議,確保數字合法性和可持續性。歐盟2023 年 5 月歐洲議會通過人工智能法案提案的談判授權草案,新版本補充了針對通用目的人工智能和 GPT 等基礎模型的管理制度,擴充了高風險人工智能覆蓋范圍,要求生成式人工智能模型的開發商必須在生成的內容中披露“來自于人工智能”,并公布訓練數據中受版權保護的數據摘要等??尚?AI 技術和應用進展白皮書 20230607來源:中國信息通信研究院圖 1-4
36、可信人工智能技術與監管治理進程近期,大模型和 AIGC 的興起帶來可信 AI 治理新機遇和挑戰。美國人工智能權利法案藍圖提出五項基本原則以避免人工智能系統濫用帶來的危害,其中將公平和隱私保護放在首要位置;歐盟人工智能法案談判授權草案重點確保人工智能系統由人監督,實現安全、透明、可追溯、非歧視和環保;意大利、西班牙、法國等政府于近期對 ChatGPT 所涉投訴展開調查,我國發布互聯網信息服務深度合成管理規定生成式人工智能服務管理辦法(征求意見稿),引導新技術健康發展;2023 年 4 月中共中央政治局會議也強調“要重視通用人工智能發展,營造創新生態,重視防范風險”。在地方層面,2021 年,上海
37、率先成立國內首個可信 AI 評測中心,此外,上海發布的首部人工智能省級法規上海市促進人工智能產業發展條例提出探索分級治理和沙盒監管,設立人工智能倫理專家委員會;北京將推動實行包容審慎監管試點、建設通用人工智能領域科技倫理治理公共服務平臺。表 1-1 近期代表性政策法規國家/組織發布時間政策法規內容英國2023 年 3 月發布人工智能新監管框架的提案支持創新的人工智能監管方法,涉及安全性、透明性、公平性、問責制、競爭和賠償等五個方面。2023 年 5 月英國競爭監管機構對人工智能展開調查,專注于大型語言模型和生成人工智能等“基礎模型”。美國2022 年 10 月白宮發布人工智能權利法案藍圖,提出
38、五項原則:(1)安全有效的系統;(2)算法歧視保護;(3)數據隱私;(4)通知和解釋清晰、及時和可訪問;(5)設計自動系統失敗時使用的替代方案、考慮因素和退出機制。2023 年 3 月美國科技政策辦公室發布“促進隱私保護數據共享和分析的國家戰略”,推進建設保護隱私數據共享和分析(PPDSA)技術,在公平的同時促進創新、建立問責機制、盡量減少弱勢群體的風險。2023 年 4 月美國商務部國家電信和信息管理局發布人工智能問責政策征求意見。G72023 年 4 月七國集團數字與科技部長發布聯合聲明,同意對人工智能采取基于風險的監管,計劃開展關于生成式人工智能的討論。中國2022 年 11 月互聯網信
39、息辦公室、工業和信息化部、公安部發布互聯網信息服務深度合成管理規定,強調不得利用深度合成服務從事法律、行政法規禁止的活動,要求深度合成服務提供者落實信息安全主體責任。2023 年 4 月中國國家網信辦就 AIGC 研發和應用發布了生成式人工智能服務管理辦法征求意見稿。韓國2023 年 5 月將在2023年9月之前制定有關機器學習數據生成內容的新標準和指導方針,以最大限度地減少圍繞人工智能生成內容的知識產權爭議,確保數字合法性和可持續性。歐盟2023 年 5 月歐洲議會通過人工智能法案提案的談判授權草案,新版本補充了針對通用目的人工智能和 GPT 等基礎模型的管理制度,擴充了高風險人工智能覆蓋范
40、圍,要求生成式人工智能模型的開發商必須在生成的內容中披露“來自于人工智能”,并公布訓練數據中受版權保護的數據摘要等??尚?AI 技術和應用進展白皮書 20230809澳大利亞2023 年 6 月考慮進行全面人工智能立法。工業部長 Ed Husic 發布兩份討論檔案就如何使用人工智能征求各界意見,表示可能考慮在被視為高領域的領域實施禁令。來源:根據公開資料整理相關國家和組織也正在發布人工智能監管測試框架、可信人工智能風險管理評估指南、人工智能倫理建議等開放式規則,堅持共治性、靈活性原則,強化協同治理,重點關注技術創新與安全監管的兼顧方法,促使 AI 向善,打造可信人工智能良性生態。表 1-2 近
41、期代表性監管框架國家/組織發布時間內容新加坡2022 年 5 月發布全球首個人工智能監管測試框架和工具集A.I.Verify,旨在融合測試和過程檢查,促進企業和相關利益者之間透明性。美國-歐盟貿易和技術委員會2022 年 12 月發布可信人工智能和風險管理評估與衡量工具聯合路線圖,為人工智能風險管理和可信人工智能方法提供信息,推進與人工智能相關的國際標準機構的協作方法。美國國家標準與技術研究院2023 年 1 月發布 NISTAI 100-1AI 風險管理框架 1.0,為設計、開發、部署、應用 AI 系統的組織提供參考,以使之能夠在控制多樣性風險的同時,促進可信賴、負責任 AI 系統的開發與應
42、用。美國國家科學基金會與澳大利亞國家科學機構 CSIRO2023 年 2 月合作資助解決負責任和合乎道德的人工智能問題,加速在負責任和道德的人工智能解決方案方面開創性研究。聯合國教科文組織2023 年 3 月在 ChatGPT 應用取得巨大成功的背景下,呼吁各國立即全面實施其人工智能倫理建議。該建議書首次于 2021 年 11 月發布,是現有人工智能倫理框架之下的第一份全球公認的準則性文書,形成了全面包容、可執行性強的人工智能倫理治理框架。美國商會技術合作中心2023 年 3 月發布人工智能委員會報告,旨在抓住該技術廣泛應用下的窗口期,鼓勵人工智能創新和發展的同時規避因技術進步導致的國家安全風
43、險。聯合國2023 年 6 月計劃于年底設立一個高級 AI 咨詢機構,定期審查AI 治理安排,并就這些安排如何與人權、法治和共同利益保持一致提出建議。來源:根據公開資料整理1.3.2 基于生態共識的治理機制近期人工智能國內外標準研究主要涉及安全性、可靠性、公平性、風險管理等領域,并開始注重人工智能穩定性、透明性,以及人工智能應用后為組織和社會帶來的倫理道德影響。但總體來看,現階段針對通用大模型的標準仍較為欠缺,沒有與人工智能的總體治理框架緊密結合。2021 年,中國信通院成立人工智能工程化推進委員會大模型工作組,聯合各方共同梳理明晰大模型發展痛點難點問題,形成技術和應用評測標準體系;中國國家人
44、工智能總體組已于 2023 年 5 月設立大模型專題組,并啟動大模型標準化選題建議。表 1-3 近期可信相關代表性標準組織時間標準名稱ISO/IEC2022 年 4 月信息技術 IT 治理 組織使用人工智能的治理影響2023 年 2 月信息技術 人工智能 風險管理指南在研人工智能 功能安全與人工智能系統在研信息技術 人工智能 機器學習模型與人工智能系統可解釋性的目標和方法在研信息技術 人工智能 自動化人工智能系統的可控性在研信息技術 人工智能 人工智能系統的透明分類IEEE2023 年 5 月基于人工智能醫療設備的性能和安全評估2023 年 6 月基于人工智能圖像識別服務的魯棒性測試和評估在研
45、人工智能組織治理的推薦實踐在研可解釋人工智能的架構框架指南在研自主和智能系統中仿真同理心的倫理考慮標準中國電子技術標準化研究院2023 年 3 月人工智能倫理治理標準化指南全國信息技術標準化技術委員會在研人工智能 深度學習框架多硬件平臺適配技術規范在研人工智能 管理體系可信 AI 技術和應用進展白皮書 20230809澳大利亞2023 年 6 月考慮進行全面人工智能立法。工業部長 Ed Husic 發布兩份討論檔案就如何使用人工智能征求各界意見,表示可能考慮在被視為高領域的領域實施禁令。來源:根據公開資料整理相關國家和組織也正在發布人工智能監管測試框架、可信人工智能風險管理評估指南、人工智能倫
46、理建議等開放式規則,堅持共治性、靈活性原則,強化協同治理,重點關注技術創新與安全監管的兼顧方法,促使 AI 向善,打造可信人工智能良性生態。表 1-2 近期代表性監管框架國家/組織發布時間內容新加坡2022 年 5 月發布全球首個人工智能監管測試框架和工具集A.I.Verify,旨在融合測試和過程檢查,促進企業和相關利益者之間透明性。美國-歐盟貿易和技術委員會2022 年 12 月發布可信人工智能和風險管理評估與衡量工具聯合路線圖,為人工智能風險管理和可信人工智能方法提供信息,推進與人工智能相關的國際標準機構的協作方法。美國國家標準與技術研究院2023 年 1 月發布 NISTAI 100-1
47、AI 風險管理框架 1.0,為設計、開發、部署、應用 AI 系統的組織提供參考,以使之能夠在控制多樣性風險的同時,促進可信賴、負責任 AI 系統的開發與應用。美國國家科學基金會與澳大利亞國家科學機構 CSIRO2023 年 2 月合作資助解決負責任和合乎道德的人工智能問題,加速在負責任和道德的人工智能解決方案方面開創性研究。聯合國教科文組織2023 年 3 月在 ChatGPT 應用取得巨大成功的背景下,呼吁各國立即全面實施其人工智能倫理建議。該建議書首次于 2021 年 11 月發布,是現有人工智能倫理框架之下的第一份全球公認的準則性文書,形成了全面包容、可執行性強的人工智能倫理治理框架。美
48、國商會技術合作中心2023 年 3 月發布人工智能委員會報告,旨在抓住該技術廣泛應用下的窗口期,鼓勵人工智能創新和發展的同時規避因技術進步導致的國家安全風險。聯合國2023 年 6 月計劃于年底設立一個高級 AI 咨詢機構,定期審查AI 治理安排,并就這些安排如何與人權、法治和共同利益保持一致提出建議。來源:根據公開資料整理1.3.2 基于生態共識的治理機制近期人工智能國內外標準研究主要涉及安全性、可靠性、公平性、風險管理等領域,并開始注重人工智能穩定性、透明性,以及人工智能應用后為組織和社會帶來的倫理道德影響。但總體來看,現階段針對通用大模型的標準仍較為欠缺,沒有與人工智能的總體治理框架緊密
49、結合。2021 年,中國信通院成立人工智能工程化推進委員會大模型工作組,聯合各方共同梳理明晰大模型發展痛點難點問題,形成技術和應用評測標準體系;中國國家人工智能總體組已于 2023 年 5 月設立大模型專題組,并啟動大模型標準化選題建議。表 1-3 近期可信相關代表性標準組織時間標準名稱ISO/IEC2022 年 4 月信息技術 IT 治理 組織使用人工智能的治理影響2023 年 2 月信息技術 人工智能 風險管理指南在研人工智能 功能安全與人工智能系統在研信息技術 人工智能 機器學習模型與人工智能系統可解釋性的目標和方法在研信息技術 人工智能 自動化人工智能系統的可控性在研信息技術 人工智能
50、 人工智能系統的透明分類IEEE2023 年 5 月基于人工智能醫療設備的性能和安全評估2023 年 6 月基于人工智能圖像識別服務的魯棒性測試和評估在研人工智能組織治理的推薦實踐在研可解釋人工智能的架構框架指南在研自主和智能系統中仿真同理心的倫理考慮標準中國電子技術標準化研究院2023 年 3 月人工智能倫理治理標準化指南全國信息技術標準化技術委員會在研人工智能 深度學習框架多硬件平臺適配技術規范在研人工智能 管理體系可信 AI 技術和應用進展白皮書 20231011全國信息安全標準化技術委員會在研信息安全技術 機器學習算法安全評估規范在研信息安全技術 人工智能計算平臺安全框架中國人工智能產
51、業發展聯盟在研可信人工智能 組織治理能力成熟度模型在研大規模預訓練模型技術和應用評估方法 第 5 部分:安全可信來源:根據公開資料整理企業是可信人工智能的實踐主體,是人工智能技術研發和創新應用的領先者,要以高度負責的態度對待其所開發和使用的人工智能技術。隨著生成式 AI 和通用大模型浪潮的襲來,以微軟、英偉達、OpenAI 為代表的企業充分發揮了企業的能動性,正在積極開展自律自治工作,積極落實人工智能技術、產品和服務的可信要求。表 1-近期代表性企業可信探索企業發布時間相關產品/計劃微軟2023 年 3 月推出第一個生成式人工智能安全產品 Security Copilot,將GPT4 技術應用
52、在了網絡安全領域。英偉達2023 年 4 月發布新軟件 NeMo Guardrails,可以幫助軟件開發者給 AI模型設置“護欄”,防止它們產生不良的輸出。谷歌2023 年 4 月 推出生成式人工智能網絡安全套件。OpenAI2023 年 4 月發布了 ChatGPT 安全方法(Our approach toAI safety),以確保安全、可靠地為全球用戶提供 ChatGPT 服務。英特爾BCG2023 年 5 月提供企業級、安全的生成式 AI,為企業提供定制和專有的解決方案,同時將私人數據與他們的可信任環境隔離。OpenAI2023 年 5 月首席執行官 SamAltman 呼吁美國國會成
53、立一個監管人工智能的專屬機構。國會聽證會結束后,OpenAI 宣布將撥出 100 萬美元開展人工智能治理的研究計劃。百度2023 年 1 月發布模型可解釋算法庫 InterpreteDL、可信 AI 工具集TrustAI、安全與隱私工具 PaddleSleeve。華為2023 年 2 月參與發起“人工智能安全可信護航計劃”,探索人工智能安全可信管理解決方案,開展 AI 安全可信度自評估。商湯2023 年 4 月推出“AI 安全治理開放平臺”,可提供模型體檢和開源的防御解決方案,推動建設開放、可信的人工智能創新生態。來源:根據公開資料整理第二章 可信 AI 產業實踐深入發展人工智能技術在各個行業
54、的深入應用,帶來了前所未有的機遇和挑戰,可信 AI 成為了產業界關注的焦點。2021 年,中國信通院在國內首本可信人工智能白皮書中首次系統提出可信人工智能全景框架,提煉出行業內較為統一的可信人工智能特征要素。在安全魯棒、可解釋、公平性、隱私保護的大框架下,可信 AI 技術正在逐步成熟,并在金融、保險、制造、醫療等行業領域逐漸落實形成具體的產品和實踐案例,為行業領域發展注入新的動力。來源:螞蟻集團圖 2-1 可信 AI 發展階段判斷預計可信 AI 的發展會經歷模塊開發、方案整合、系統集成、生態共建四個階段??尚?AI 技術和應用進展白皮書 20231011全國信息安全標準化技術委員會在研信息安全
55、技術 機器學習算法安全評估規范在研信息安全技術 人工智能計算平臺安全框架中國人工智能產業發展聯盟在研可信人工智能 組織治理能力成熟度模型在研大規模預訓練模型技術和應用評估方法 第 5 部分:安全可信來源:根據公開資料整理企業是可信人工智能的實踐主體,是人工智能技術研發和創新應用的領先者,要以高度負責的態度對待其所開發和使用的人工智能技術。隨著生成式 AI 和通用大模型浪潮的襲來,以微軟、英偉達、OpenAI 為代表的企業充分發揮了企業的能動性,正在積極開展自律自治工作,積極落實人工智能技術、產品和服務的可信要求。表 1-近期代表性企業可信探索企業發布時間相關產品/計劃微軟2023 年 3 月推
56、出第一個生成式人工智能安全產品 Security Copilot,將GPT4 技術應用在了網絡安全領域。英偉達2023 年 4 月發布新軟件 NeMo Guardrails,可以幫助軟件開發者給 AI模型設置“護欄”,防止它們產生不良的輸出。谷歌2023 年 4 月 推出生成式人工智能網絡安全套件。OpenAI2023 年 4 月發布了 ChatGPT 安全方法(Our approach toAI safety),以確保安全、可靠地為全球用戶提供 ChatGPT 服務。英特爾BCG2023 年 5 月提供企業級、安全的生成式 AI,為企業提供定制和專有的解決方案,同時將私人數據與他們的可信任環
57、境隔離。OpenAI2023 年 5 月首席執行官 SamAltman 呼吁美國國會成立一個監管人工智能的專屬機構。國會聽證會結束后,OpenAI 宣布將撥出 100 萬美元開展人工智能治理的研究計劃。百度2023 年 1 月發布模型可解釋算法庫 InterpreteDL、可信 AI 工具集TrustAI、安全與隱私工具 PaddleSleeve。華為2023 年 2 月參與發起“人工智能安全可信護航計劃”,探索人工智能安全可信管理解決方案,開展 AI 安全可信度自評估。商湯2023 年 4 月推出“AI 安全治理開放平臺”,可提供模型體檢和開源的防御解決方案,推動建設開放、可信的人工智能創新
58、生態。來源:根據公開資料整理第二章 可信 AI 產業實踐深入發展人工智能技術在各個行業的深入應用,帶來了前所未有的機遇和挑戰,可信 AI 成為了產業界關注的焦點。2021 年,中國信通院在國內首本可信人工智能白皮書中首次系統提出可信人工智能全景框架,提煉出行業內較為統一的可信人工智能特征要素。在安全魯棒、可解釋、公平性、隱私保護的大框架下,可信 AI 技術正在逐步成熟,并在金融、保險、制造、醫療等行業領域逐漸落實形成具體的產品和實踐案例,為行業領域發展注入新的動力。來源:螞蟻集團圖 2-1 可信 AI 發展階段判斷預計可信 AI 的發展會經歷模塊開發、方案整合、系統集成、生態共建四個階段??尚?/p>
59、 AI 技術和應用進展白皮書 20231213總體上看,我們可以將可信 AI 的發展大致劃分為模塊開發、方案整合、系統集成、生態共建四個階段。當可信 AI 技術和應用進展白皮書 2023前,可信 AI 的實踐正從創新統合解決方案的第二階段邁向形成可信系統機制的第三階段,在未來幾年里,市場上會出現更加有影響力的可信 AI 解決方案供應商,落地行之有效的完整實踐鏈路,行業標準和系統機制逐步健全,為產業鏈注入新的發展動力。2.1 應用 AI 魯棒性技術對抗惡意攻擊提升魯棒性技術的關鍵在于結合不同的數據類型和攻擊方式,采用相應的防御手法,以實現模型的安全性和可靠性。此外,對魯AI魯棒性技術研究是一一項
60、重要且復雜的課題,涵蓋不同成因、涵蓋不同成因、不同數據類型的魯棒性問題及其防御機制不同數據類型的魯棒性問題及其防御機制。魯棒性問題的成因主要分為以下四種:隨機攻擊(在自然條件下隨機發生的,例如隨機噪聲、缺失、分布漂移)、盲盒攻擊(僅僅基于先驗條件下的攻擊,例如文字同音詞替換、圖像風格遷移)、黑盒攻擊(不能夠獲取模型的參數信息,但能獲取模型推理結果)和白盒攻擊(被攻擊模型的模型參數可以被獲取,通常用于評估最壞情況下的模型安全和魯棒性)。其中,高回報的場景如人臉識別更多面臨黑盒攻擊,而實際業務場景則更常見隨機攻擊和盲盒攻擊,白盒攻擊在實際業務中較為少見。不同數據類型的攻擊形式具有明顯差異,有效的防
61、御手法應依數據類型而定,包括基于檢測的防御、預處理防御、模型結構加固、魯棒性 loss、對抗樣本訓練及對抗參數訓練等。棒性問題進行全面深入的研究,并將所獲得的知識和技術應用到具體的業務場景中,對于建立更強大、更魯棒的 AI 系統至關重要,相信隨著研究的深入和技術的進步,人工智能模型的魯棒性也將持續增強。來源:螞蟻集團圖 2-2 AI 魯棒性的一般技術架構面向不同數據類型和攻擊方式,提供針對性的防御優化能力。2.1.1 提升文本識別對抗能力在文本場景中,攻擊者的攻擊手法多、成本低且會不斷更新。以賭博推廣文本的識別場景為例,攻擊者會采用各種策略,如文字形變、音變、語種混雜等,嘗試在不改變原有文本語
62、義的前提下,規避識別(例如,將一句常見的賭博推廣語“快加入我隊伍,一起躺贏賺紅包”,轉變為“赽咖叺我隊伍,一起躺贏賺葒笣”,仍然能傳達出賭博推廣的信息)。類似的變形變種技巧難以窮舉,對于1213總體上看,我們可以將可信 AI 的發展大致劃分為模塊開發、方案整合、系統集成、生態共建四個階段。當可信 AI 技術和應用進展白皮書 2023前,可信 AI 的實踐正從創新統合解決方案的第二階段邁向形成可信系統機制的第三階段,在未來幾年里,市場上會出現更加有影響力的可信 AI 解決方案供應商,落地行之有效的完整實踐鏈路,行業標準和系統機制逐步健全,為產業鏈注入新的發展動力。2.1 應用 AI 魯棒性技術對
63、抗惡意攻擊提升魯棒性技術的關鍵在于結合不同的數據類型和攻擊方式,采用相應的防御手法,以實現模型的安全性和可靠性。此外,對魯AI魯棒性技術研究是一一項重要且復雜的課題,涵蓋不同成因、涵蓋不同成因、不同數據類型的魯棒性問題及其防御機制不同數據類型的魯棒性問題及其防御機制。魯棒性問題的成因主要分為以下四種:隨機攻擊(在自然條件下隨機發生的,例如隨機噪聲、缺失、分布漂移)、盲盒攻擊(僅僅基于先驗條件下的攻擊,例如文字同音詞替換、圖像風格遷移)、黑盒攻擊(不能夠獲取模型的參數信息,但能獲取模型推理結果)和白盒攻擊(被攻擊模型的模型參數可以被獲取,通常用于評估最壞情況下的模型安全和魯棒性)。其中,高回報的
64、場景如人臉識別更多面臨黑盒攻擊,而實際業務場景則更常見隨機攻擊和盲盒攻擊,白盒攻擊在實際業務中較為少見。不同數據類型的攻擊形式具有明顯差異,有效的防御手法應依數據類型而定,包括基于檢測的防御、預處理防御、模型結構加固、魯棒性 loss、對抗樣本訓練及對抗參數訓練等。棒性問題進行全面深入的研究,并將所獲得的知識和技術應用到具體的業務場景中,對于建立更強大、更魯棒的 AI 系統至關重要,相信隨著研究的深入和技術的進步,人工智能模型的魯棒性也將持續增強。來源:螞蟻集團圖 2-2 AI 魯棒性的一般技術架構面向不同數據類型和攻擊方式,提供針對性的防御優化能力。2.1.1 提升文本識別對抗能力在文本場景
65、中,攻擊者的攻擊手法多、成本低且會不斷更新。以賭博推廣文本的識別場景為例,攻擊者會采用各種策略,如文字形變、音變、語種混雜等,嘗試在不改變原有文本語義的前提下,規避識別(例如,將一句常見的賭博推廣語“快加入我隊伍,一起躺贏賺紅包”,轉變為“赽咖叺我隊伍,一起躺贏賺葒笣”,仍然能傳達出賭博推廣的信息)。類似的變形變種技巧難以窮舉,對于1415識別模型來說,是極大的挑戰。業界目前常用穩定化特征、對抗訓練等魯棒性技術予以應對。首先,模型開發者可以提取更為穩定的特征,例如字音、字形和深度表征,這些特征更能反映文本的本質含義,而不易受表面形式的干擾。其次,模型開發者可以采用基于參數的對抗訓練方法,如快速
66、梯度方法(FGM,Fast Gradient Method),通過引入微小的擾動,對模型參數進行調整,使模型在面對未知的攻擊時,能夠具有更強的穩定性和魯棒性。同時,為了提升模型的泛化能力,可以利用變種數據進行數據增強和采用無監督的數據輔助訓練魯棒表征,讓模型在學習過程中接觸到更多樣化的數據,從而增強其對未見攻擊手法的預防能力。除此之外,也有研究者在深度學習模型的結構上進行改進,比如引入注意力機制,模型可以更聚焦于關鍵詞匯,從而提升模型的識別能力。2.1.2 提升圖像偽造識別能力在圖像場景中,模型的魯棒性問題在學術界和工業界都有大量的研究和應用。2014 年,GoodFellow 等研究者介紹了
67、對模型采用基于梯度攻擊的方式,僅以微小的擾動就使得模型以高置信度將熊貓錯誤識別為長臂猿。后續學術屆有大量關于梯度攻擊和防御的相關研究(PGD、C&W、DeepFool 等),然而在實際業務場景下,攻擊者很難獲取模型參數而進行類似的白盒攻擊。來源:螞蟻集團圖 2-3 梯度攻擊以微小擾動產生錯誤識別2014 年,GoodFellow 等介紹了對模型采用基于梯度攻擊的方式,僅以微小的擾動就使得模型以高置信度錯誤識別圖片內容。與之相對的,通過在樣本側的修改進行攻擊嘗試,是生產實踐中更為常見的形態。以商戶門頭照檢測場景為例,攻擊者通過 PS(泛指圖像編輯篡改類技術)手段生成虛假的商戶門頭照,以此來繞過監
68、管從事不法經營。這一場景下,標注數據存在較大困難(PS 圖片即使人眼都很難做出正確判斷)、訓練數據集中黑樣本很少、覆蓋的 PS 手法不全面、攻防對抗不斷變化(一旦某種 PS 手法被模型檢測到后,攻擊者便會升級手法),模型魯棒性面臨很大挑戰。行業內對圖像識別的魯棒性也有較為成功的案例,包括樣本增強和參數對抗等方式,比如通過分析 PS 對圖像的處理過程,采用自合成方式可信 AI 技術和應用進展白皮書 20231415識別模型來說,是極大的挑戰。業界目前常用穩定化特征、對抗訓練等魯棒性技術予以應對。首先,模型開發者可以提取更為穩定的特征,例如字音、字形和深度表征,這些特征更能反映文本的本質含義,而不
69、易受表面形式的干擾。其次,模型開發者可以采用基于參數的對抗訓練方法,如快速梯度方法(FGM,Fast Gradient Method),通過引入微小的擾動,對模型參數進行調整,使模型在面對未知的攻擊時,能夠具有更強的穩定性和魯棒性。同時,為了提升模型的泛化能力,可以利用變種數據進行數據增強和采用無監督的數據輔助訓練魯棒表征,讓模型在學習過程中接觸到更多樣化的數據,從而增強其對未見攻擊手法的預防能力。除此之外,也有研究者在深度學習模型的結構上進行改進,比如引入注意力機制,模型可以更聚焦于關鍵詞匯,從而提升模型的識別能力。2.1.2 提升圖像偽造識別能力在圖像場景中,模型的魯棒性問題在學術界和工業
70、界都有大量的研究和應用。2014 年,GoodFellow 等研究者介紹了對模型采用基于梯度攻擊的方式,僅以微小的擾動就使得模型以高置信度將熊貓錯誤識別為長臂猿。后續學術屆有大量關于梯度攻擊和防御的相關研究(PGD、C&W、DeepFool 等),然而在實際業務場景下,攻擊者很難獲取模型參數而進行類似的白盒攻擊。來源:螞蟻集團圖 2-3 梯度攻擊以微小擾動產生錯誤識別2014 年,GoodFellow 等介紹了對模型采用基于梯度攻擊的方式,僅以微小的擾動就使得模型以高置信度錯誤識別圖片內容。與之相對的,通過在樣本側的修改進行攻擊嘗試,是生產實踐中更為常見的形態。以商戶門頭照檢測場景為例,攻擊者
71、通過 PS(泛指圖像編輯篡改類技術)手段生成虛假的商戶門頭照,以此來繞過監管從事不法經營。這一場景下,標注數據存在較大困難(PS 圖片即使人眼都很難做出正確判斷)、訓練數據集中黑樣本很少、覆蓋的 PS 手法不全面、攻防對抗不斷變化(一旦某種 PS 手法被模型檢測到后,攻擊者便會升級手法),模型魯棒性面臨很大挑戰。行業內對圖像識別的魯棒性也有較為成功的案例,包括樣本增強和參數對抗等方式,比如通過分析 PS 對圖像的處理過程,采用自合成方式可信 AI 技術和應用進展白皮書 20231617模擬生成 PS 圖像,在模型訓練過程中引入這種對抗數據生成方式,同時也有利用基于模型參數對抗的算法 AWP(A
72、dversarial WeightPerturbation)和對抗算法 TRADES(TRadeoff-inspired AdversarialDEfense via Surrogate-loss minimization)等,提升了模型魯棒性。目前 AIGC 技術發展十分迅速,生成的偽造圖像質量也越來越高,相比 PS 偽造,AIGC 生成技術具有易使用、成本低的特點,未來風險會從 PS 偽造向 AIGC 偽造遷移。如何防御 AIGC 偽造內容的濫用,會是 AIGC 時代重要課題之一,而如何利用魯棒性技術提升對不同的 AIGC 算法生成偽造內容的檢測能力,也會變得愈加重要。2.1.3 提升生物
73、核身檢測能力近年來,人臉識別、聲紋識別及指紋識別等生物識別技術在各領域廣泛應用,其影響力跨越支付安全、智能門禁、公共安全等多個領域。然而,隨之而來的挑戰就是如何有效抵御攻擊者使用深度偽造技術制作的假圖像、音頻和視頻等進行欺詐。聲紋識別場景中,語音合成與語音轉換技術的發展,使得攻擊者能夠制造出極具欺騙性的偽造語音,這對聲紋識別系統構成了嚴重威脅。對抗訓練可以作為一種強化模型對攻擊樣本抵抗力的方法,從而提升模型的魯棒性。在聲紋偽造識別的環境中,我們可以運用對抗性訓練以增強模型對偽造語音的檢測能力。人臉識別場景中,靜默活體檢測技術可以有效區分真人和偽造人臉,從而確保系統的安全性。在這些場景中,特別是
74、對抗樣本稀缺和新方法引發的樣本分布漂移問題,魯棒性技術的應用顯得尤其重要,相關技術主要包括輔助信息和增強算子兩大領域,輔助信息技術通過為模型提供額外的有用信息,從而提高模型的判斷力,常見的輔助信息包括活體深度圖、攻擊反射圖、傅里葉頻譜以及心率脈沖信號等。例如,活體深度圖可以提供 3D 人臉信息,從而幫助模型識別 3D 面具攻擊;反射圖則可以通過探測反射光線,判斷是否為照片攻擊;而心率脈沖信號則可以通過檢測面部皮膚的微小色彩變化,確認目標是否為真人。增強算子則通過對原始圖像進行特殊處理,揭示圖像中的深層信息,從而提高模型的識別能力。常見的增強算子如 Sobel、高斯雙邊濾波、Laplacian
75、等,當這些算子與深度學習的卷積操作結合使用時,可以進一步提升模型的魯棒性和區分能力。需要關注的是,生物識別應用中魯棒性技術的發展并不是孤立的,而應與其他技術,如傳感器技術、圖像生成、大模型技術等,共同發展,實現相互推動。只有這樣,我們才能在面對日益復雜和多變的安全挑戰時,提供出更為準確、可靠和魯棒的解決方案。2.2 應用 AI 可解釋性技術提升決策透明度對很多產業場景而言,可解釋性是一種剛需?;ヂ摼W金融場景中,需要對用戶賬戶被限權引發投訴等服務訴求進行可解釋回應;監管場景中,盡職調查、可疑交易報送等義務履行都有強可解釋的要求;風險運營和風險審理等場景中,對證據提示、風險歸因、手法挖掘等也有不同
76、的要求??尚?AI 技術和應用進展白皮書 20231617模擬生成 PS 圖像,在模型訓練過程中引入這種對抗數據生成方式,同時也有利用基于模型參數對抗的算法 AWP(Adversarial WeightPerturbation)和對抗算法 TRADES(TRadeoff-inspired AdversarialDEfense via Surrogate-loss minimization)等,提升了模型魯棒性。目前 AIGC 技術發展十分迅速,生成的偽造圖像質量也越來越高,相比 PS 偽造,AIGC 生成技術具有易使用、成本低的特點,未來風險會從 PS 偽造向 AIGC 偽造遷移。如何防御 A
77、IGC 偽造內容的濫用,會是 AIGC 時代重要課題之一,而如何利用魯棒性技術提升對不同的 AIGC 算法生成偽造內容的檢測能力,也會變得愈加重要。2.1.3 提升生物核身檢測能力近年來,人臉識別、聲紋識別及指紋識別等生物識別技術在各領域廣泛應用,其影響力跨越支付安全、智能門禁、公共安全等多個領域。然而,隨之而來的挑戰就是如何有效抵御攻擊者使用深度偽造技術制作的假圖像、音頻和視頻等進行欺詐。聲紋識別場景中,語音合成與語音轉換技術的發展,使得攻擊者能夠制造出極具欺騙性的偽造語音,這對聲紋識別系統構成了嚴重威脅。對抗訓練可以作為一種強化模型對攻擊樣本抵抗力的方法,從而提升模型的魯棒性。在聲紋偽造識
78、別的環境中,我們可以運用對抗性訓練以增強模型對偽造語音的檢測能力。人臉識別場景中,靜默活體檢測技術可以有效區分真人和偽造人臉,從而確保系統的安全性。在這些場景中,特別是對抗樣本稀缺和新方法引發的樣本分布漂移問題,魯棒性技術的應用顯得尤其重要,相關技術主要包括輔助信息和增強算子兩大領域,輔助信息技術通過為模型提供額外的有用信息,從而提高模型的判斷力,常見的輔助信息包括活體深度圖、攻擊反射圖、傅里葉頻譜以及心率脈沖信號等。例如,活體深度圖可以提供 3D 人臉信息,從而幫助模型識別 3D 面具攻擊;反射圖則可以通過探測反射光線,判斷是否為照片攻擊;而心率脈沖信號則可以通過檢測面部皮膚的微小色彩變化,
79、確認目標是否為真人。增強算子則通過對原始圖像進行特殊處理,揭示圖像中的深層信息,從而提高模型的識別能力。常見的增強算子如 Sobel、高斯雙邊濾波、Laplacian 等,當這些算子與深度學習的卷積操作結合使用時,可以進一步提升模型的魯棒性和區分能力。需要關注的是,生物識別應用中魯棒性技術的發展并不是孤立的,而應與其他技術,如傳感器技術、圖像生成、大模型技術等,共同發展,實現相互推動。只有這樣,我們才能在面對日益復雜和多變的安全挑戰時,提供出更為準確、可靠和魯棒的解決方案。2.2 應用 AI 可解釋性技術提升決策透明度對很多產業場景而言,可解釋性是一種剛需?;ヂ摼W金融場景中,需要對用戶賬戶被限
80、權引發投訴等服務訴求進行可解釋回應;監管場景中,盡職調查、可疑交易報送等義務履行都有強可解釋的要求;風險運營和風險審理等場景中,對證據提示、風險歸因、手法挖掘等也有不同的要求??尚?AI 技術和應用進展白皮書 20231819來源:螞蟻集團圖 2-4 常見可解釋性技術分類從“讓人理解模型”和“讓模型理解人”出發,實現專家經驗和機器學習的有機融合。從可解釋 AI 研究的切入點角度來說,目前主要可以分為兩類,一類關注提升模型白盒化和透明性,例如基于梯度、基于模型結構、基于擾動、注意力機制等算法,提供模型結果的解釋性,能夠更好地完成自動化的取證、審理,輔助人工更快地定性,使監管部門、模型使用者以及社
81、會公眾能夠更加容易理解 AI 模型。另一類則研究如何吸收已有的專家經驗,例如可解釋檢索、邏輯圖譜等算法,使得模型結果符合人工的邏輯推理過程,出現了諸如人機結合、邏輯融合等更前瞻的領域能力,在源頭上提升模型與人工經驗的吻合度。前沿的思路是將上述兩種方式進行整合,即專家知識引入模型的訓練過程,模型的可解釋結果可以用來指導專家經驗的構建,得到可交互、可視化的人工經驗 AI 管理系統,從而保障模型的透明性。2.2.1 用于模型歸因的可解釋模型歸因所使用的特征通常經過人工構造,具有業務視角的可解釋性,輸出結果相對標準化,更容易被業務部門和監管機構讀取和接受,在金融征信、客戶運營、智慧醫療等行業中應用廣泛
82、??山忉尩姆椒ê凸ぞ呖梢詭椭脩羯钊肓私饽P偷臎Q策過程,從而提高模型的可理解性和可靠性。比如,AI 模型幫助銀行和金融機構更好地理解客戶的信用風險和財務狀況,而特征級別可解釋可以避免模型黑盒帶來的潛在風險如人群歧視、數據偏差等?;诰€性模型和樹模型的特征可解釋算法在業界應用較為成熟,常見的有基于擾動的方法(如 Shapley 可加性解釋 SHAP)和基于模型內部結構的方法(如 ELI5 決策樹解釋器 ELI5 tree)。工業界為了支持多業務場景的并發調用量和實時性要求,可以對 SHAP 和 ELI5 進行分布式改造和預計算優化,避免了每個樣本的重復計算,可以大大提升可解釋模塊的時效性。此外,
83、許多業務場景需要對時空數據進行建模。序列模型是一種常見工具,并在近年來引入了深度學習算法,極大提升了效能,擴展了應用場景。與計算機視覺和自然語言處理等領域不同,序列模型的輸入數據通常是呈現為序列形式的事件數據,一個典型的用戶行為序列包括注冊、登錄、信息修改、支付等事件,每個事件都帶有豐富的屬性(如時間戳、金額、設備信息),通過屬性、子序列和模型級別的可解釋算法可以對模型的輸入數據、序列信息、序列組合進行分析和解釋,基于 Attention(注意力機制)的方法或者基于梯度和分解歸因的算法,如逐層相關性傳遞算法 LRP(Layer-wise Relevance Propagation)、積分梯度算
84、法 IG(IntegratedGradients)等方法得到類似熱力圖高亮,seqSHAP(序列型 SHAP可信 AI 技術和應用進展白皮書 20231819來源:螞蟻集團圖 2-4 常見可解釋性技術分類從“讓人理解模型”和“讓模型理解人”出發,實現專家經驗和機器學習的有機融合。從可解釋 AI 研究的切入點角度來說,目前主要可以分為兩類,一類關注提升模型白盒化和透明性,例如基于梯度、基于模型結構、基于擾動、注意力機制等算法,提供模型結果的解釋性,能夠更好地完成自動化的取證、審理,輔助人工更快地定性,使監管部門、模型使用者以及社會公眾能夠更加容易理解 AI 模型。另一類則研究如何吸收已有的專家經
85、驗,例如可解釋檢索、邏輯圖譜等算法,使得模型結果符合人工的邏輯推理過程,出現了諸如人機結合、邏輯融合等更前瞻的領域能力,在源頭上提升模型與人工經驗的吻合度。前沿的思路是將上述兩種方式進行整合,即專家知識引入模型的訓練過程,模型的可解釋結果可以用來指導專家經驗的構建,得到可交互、可視化的人工經驗 AI 管理系統,從而保障模型的透明性。2.2.1 用于模型歸因的可解釋模型歸因所使用的特征通常經過人工構造,具有業務視角的可解釋性,輸出結果相對標準化,更容易被業務部門和監管機構讀取和接受,在金融征信、客戶運營、智慧醫療等行業中應用廣泛??山忉尩姆椒ê凸ぞ呖梢詭椭脩羯钊肓私饽P偷臎Q策過程,從而提高模型
86、的可理解性和可靠性。比如,AI 模型幫助銀行和金融機構更好地理解客戶的信用風險和財務狀況,而特征級別可解釋可以避免模型黑盒帶來的潛在風險如人群歧視、數據偏差等?;诰€性模型和樹模型的特征可解釋算法在業界應用較為成熟,常見的有基于擾動的方法(如 Shapley 可加性解釋 SHAP)和基于模型內部結構的方法(如 ELI5 決策樹解釋器 ELI5 tree)。工業界為了支持多業務場景的并發調用量和實時性要求,可以對 SHAP 和 ELI5 進行分布式改造和預計算優化,避免了每個樣本的重復計算,可以大大提升可解釋模塊的時效性。此外,許多業務場景需要對時空數據進行建模。序列模型是一種常見工具,并在近年
87、來引入了深度學習算法,極大提升了效能,擴展了應用場景。與計算機視覺和自然語言處理等領域不同,序列模型的輸入數據通常是呈現為序列形式的事件數據,一個典型的用戶行為序列包括注冊、登錄、信息修改、支付等事件,每個事件都帶有豐富的屬性(如時間戳、金額、設備信息),通過屬性、子序列和模型級別的可解釋算法可以對模型的輸入數據、序列信息、序列組合進行分析和解釋,基于 Attention(注意力機制)的方法或者基于梯度和分解歸因的算法,如逐層相關性傳遞算法 LRP(Layer-wise Relevance Propagation)、積分梯度算法 IG(IntegratedGradients)等方法得到類似熱力
88、圖高亮,seqSHAP(序列型 SHAP可信 AI 技術和應用進展白皮書 20232021算法,Sequential SHAP)、timeSHAP(時間序列 SHAP 算法,TimeSeries SHAP)和 KernalSHAP(核心 SHAP 算法,Kernal SHAP)將時序因素納入考慮的方法,如在模型表征層加入擾動的 seqMask(序列型掩碼,Sequential Mask)方法等。序列模型尤其是深度學習模型,因其復雜性和黑箱特性,模型的解釋性往往需要結合專家知識進行輔助性判定。例如序列級的可解釋給出“到賬-到賬-到賬-轉賬到卡”的關鍵序列,呈現資金快速流轉的特點,可能疑似賭博洗錢
89、;通過創建標準化的專家知識庫,并對序列可解釋算法的給出的關鍵序列、序列組合進行查詢和匹配,可以發現不同行為之間的關聯和規律,從而更好地理解模型的決策過程和預測結果。提高用戶行為挖掘的透明性還需要根據具體行業的需求和監管要求,選擇合適的可解釋方法和工具。2.2.2 復雜關系網絡的可解釋金融、搜索、推薦、營銷等領域往往存在著復雜的關系網絡,例如金融領域中的資金流動網絡、搜索引擎中的網頁鏈接網絡、推薦系統中的用戶行為網絡、營銷領域中的客戶關系網絡。這些網絡中節點關系錯綜復雜,傳統的統計分析方法往往難以捕捉,而圖模型可解釋正是一種能夠可視化抽取復雜關系網絡信息的方法。圖模型是一種復雜關系網絡的建模工具
90、,能夠很好抽取網絡中節點、路徑、子圖的信息,可視化呈現復雜的關系,圖模型可解釋方法可以幫助用戶深入了解模型的決策過程,提高模型的可理解性和可靠性。常見的圖模型可解釋方法包括節點可解釋、路徑可解釋和子圖可解釋等,能夠更加直觀地描述復雜關系網絡中的節點、路徑和子圖,從而提高圖模型的透明度。例如節點可解釋能夠給出節點的關鍵信息及重要鄰居,幫助銀行等貸款機構更好地理解客戶的信用風險和財務狀況,從而更準確地評估貸款額度;路徑的可解釋可用于涉黑客戶的資金鏈路視角分析風險,能夠幫助金融機構更好地識別潛在的風險和機會,提高業務的效率和準確性;子圖級別的可解釋方法能夠基于圖上社區挖掘的結果,自動提取常見的子圖模
91、式,據此可以定義手法相似的團伙,進而洞察新的作案模式。來源:螞蟻集團圖 2-5 圖模型可解釋案例左(圖模型路徑可解釋):算法利用進出平衡、時間臨近等原則,構建優化模型,對涉黑的資金鏈路進行追蹤,通過精準的路徑分析,業務方可以更加有效地識別和打擊黑灰產,降低洗錢風險水位。右(圖模型子圖拓撲可解釋):通過刻畫子圖的相似程度對子圖進行聚類或者相似性檢索,在風險運營中可以通過這些解釋信息定義手法相似的團伙,進而洞察新的作案模式。2.2.3 融合專家知識的可解釋復雜場景的可解釋性往往需要依賴 AI 模型和領域專家知識的有效互補。一些行業基于領域專家先驗知識和知識圖譜的邏輯可解釋方法,在知識融合上做了有價
92、值的創新。比如在互聯網法庭等智可信 AI 技術和應用進展白皮書 20232021算法,Sequential SHAP)、timeSHAP(時間序列 SHAP 算法,TimeSeries SHAP)和 KernalSHAP(核心 SHAP 算法,Kernal SHAP)將時序因素納入考慮的方法,如在模型表征層加入擾動的 seqMask(序列型掩碼,Sequential Mask)方法等。序列模型尤其是深度學習模型,因其復雜性和黑箱特性,模型的解釋性往往需要結合專家知識進行輔助性判定。例如序列級的可解釋給出“到賬-到賬-到賬-轉賬到卡”的關鍵序列,呈現資金快速流轉的特點,可能疑似賭博洗錢;通過創建
93、標準化的專家知識庫,并對序列可解釋算法的給出的關鍵序列、序列組合進行查詢和匹配,可以發現不同行為之間的關聯和規律,從而更好地理解模型的決策過程和預測結果。提高用戶行為挖掘的透明性還需要根據具體行業的需求和監管要求,選擇合適的可解釋方法和工具。2.2.2 復雜關系網絡的可解釋金融、搜索、推薦、營銷等領域往往存在著復雜的關系網絡,例如金融領域中的資金流動網絡、搜索引擎中的網頁鏈接網絡、推薦系統中的用戶行為網絡、營銷領域中的客戶關系網絡。這些網絡中節點關系錯綜復雜,傳統的統計分析方法往往難以捕捉,而圖模型可解釋正是一種能夠可視化抽取復雜關系網絡信息的方法。圖模型是一種復雜關系網絡的建模工具,能夠很好
94、抽取網絡中節點、路徑、子圖的信息,可視化呈現復雜的關系,圖模型可解釋方法可以幫助用戶深入了解模型的決策過程,提高模型的可理解性和可靠性。常見的圖模型可解釋方法包括節點可解釋、路徑可解釋和子圖可解釋等,能夠更加直觀地描述復雜關系網絡中的節點、路徑和子圖,從而提高圖模型的透明度。例如節點可解釋能夠給出節點的關鍵信息及重要鄰居,幫助銀行等貸款機構更好地理解客戶的信用風險和財務狀況,從而更準確地評估貸款額度;路徑的可解釋可用于涉黑客戶的資金鏈路視角分析風險,能夠幫助金融機構更好地識別潛在的風險和機會,提高業務的效率和準確性;子圖級別的可解釋方法能夠基于圖上社區挖掘的結果,自動提取常見的子圖模式,據此可
95、以定義手法相似的團伙,進而洞察新的作案模式。來源:螞蟻集團圖 2-5 圖模型可解釋案例左(圖模型路徑可解釋):算法利用進出平衡、時間臨近等原則,構建優化模型,對涉黑的資金鏈路進行追蹤,通過精準的路徑分析,業務方可以更加有效地識別和打擊黑灰產,降低洗錢風險水位。右(圖模型子圖拓撲可解釋):通過刻畫子圖的相似程度對子圖進行聚類或者相似性檢索,在風險運營中可以通過這些解釋信息定義手法相似的團伙,進而洞察新的作案模式。2.2.3 融合專家知識的可解釋復雜場景的可解釋性往往需要依賴 AI 模型和領域專家知識的有效互補。一些行業基于領域專家先驗知識和知識圖譜的邏輯可解釋方法,在知識融合上做了有價值的創新。
96、比如在互聯網法庭等智可信 AI 技術和應用進展白皮書 20232223能審理場景中,欺詐審理系統會根據用戶投訴內容包括圖片、文本,以及用戶交易歷史行為、歷史風險等結構化信息,對當前投訴案件進行審理定性。傳統的審理定性以分類任務實現,缺乏合理可信的案件定性理由反饋,要素式智能審理引入了法理知識,設計服務于業務的知識點并將其推理邏輯融入到模型中,類似司法標準進行審理定性,大幅提升了審理的準確性?;谥悄軐徖硐到y建立的底層知識庫與深度學習算法技術的結合,系統能夠自動識別文本、結構化數據中的關鍵信息,進行知識點的推導和組合,在對案件定性的同時還能給出主要的依據。該方案充分利用了 AI 模型和領域專家知
97、識的互補性,通過融合專家經驗或法理知識的方案,一方面提升了模型的性能,另一方面利用知識點邏輯組合解決案件解釋性的問題。來源:螞蟻集團圖 2-6 互聯網法庭智能審理案例用戶投訴“他賣我賬號,一千多,我付款了,他注銷賬號”,系統通過特征提取語義理解進行各個知識點的計算推導,結合交互行為和交易數據最后輸出“拉黑失聯+禁限售品類”的可解釋說明和相關證據。2.3 互聯網平臺公平性探索AI 技術在各行各業得到日益廣泛應用的大背景下,引起了監管機構、公眾、企業組織、學術界等對其公平性風險的高度重視。公平性研究是踐行技術向善初心、普惠共享數字化成果、有效彌合數公平性是一個前沿且寬泛的領域,學術界以及監管機構仍
98、處在對公平性的探索中,主要強調需要建設可衡量公平的指標,通過追蹤指標的表現更全面的審視公平性的變化以及技術能力的影響。針對公平性問題,需要分步驟解決三個問題:量化看清搜推營不公平現象、尋找造成不公平的主要原因、針對性優化不公平模型字鴻溝的的必要舉措,同時也讓平臺型業務更加開放包容,為小微商家提供有序良性的生態環境。為了推動 AI 算法的合法合規、公平公正應用,依據中華人民共和國網絡安全法中華人民共和國個人信息保護法互聯網信息服務算法推薦管理規定等法規的規定以及新一代人工智能倫理規范等相關文件的指導,互聯網算法從業者集中力量治理定價模型中“殺熟”“歧視”引起的倫理不公風險,優化排序模型中“信息繭
99、房”“熱島效應”對部分用戶商品服務的多樣性缺失,同時以長期價值為目標初步探索對政策中保護性群體(青少年、老年、殘疾人)的流量保護。來源:螞蟻集團圖 2-7 公平性 AI 的常見問題和方法可信 AI 技術和應用進展白皮書 20232223能審理場景中,欺詐審理系統會根據用戶投訴內容包括圖片、文本,以及用戶交易歷史行為、歷史風險等結構化信息,對當前投訴案件進行審理定性。傳統的審理定性以分類任務實現,缺乏合理可信的案件定性理由反饋,要素式智能審理引入了法理知識,設計服務于業務的知識點并將其推理邏輯融入到模型中,類似司法標準進行審理定性,大幅提升了審理的準確性?;谥悄軐徖硐到y建立的底層知識庫與深度學
100、習算法技術的結合,系統能夠自動識別文本、結構化數據中的關鍵信息,進行知識點的推導和組合,在對案件定性的同時還能給出主要的依據。該方案充分利用了 AI 模型和領域專家知識的互補性,通過融合專家經驗或法理知識的方案,一方面提升了模型的性能,另一方面利用知識點邏輯組合解決案件解釋性的問題。來源:螞蟻集團圖 2-6 互聯網法庭智能審理案例用戶投訴“他賣我賬號,一千多,我付款了,他注銷賬號”,系統通過特征提取語義理解進行各個知識點的計算推導,結合交互行為和交易數據最后輸出“拉黑失聯+禁限售品類”的可解釋說明和相關證據。2.3 互聯網平臺公平性探索AI 技術在各行各業得到日益廣泛應用的大背景下,引起了監管
101、機構、公眾、企業組織、學術界等對其公平性風險的高度重視。公平性研究是踐行技術向善初心、普惠共享數字化成果、有效彌合數公平性是一個前沿且寬泛的領域,學術界以及監管機構仍處在對公平性的探索中,主要強調需要建設可衡量公平的指標,通過追蹤指標的表現更全面的審視公平性的變化以及技術能力的影響。針對公平性問題,需要分步驟解決三個問題:量化看清搜推營不公平現象、尋找造成不公平的主要原因、針對性優化不公平模型字鴻溝的的必要舉措,同時也讓平臺型業務更加開放包容,為小微商家提供有序良性的生態環境。為了推動 AI 算法的合法合規、公平公正應用,依據中華人民共和國網絡安全法中華人民共和國個人信息保護法互聯網信息服務算
102、法推薦管理規定等法規的規定以及新一代人工智能倫理規范等相關文件的指導,互聯網算法從業者集中力量治理定價模型中“殺熟”“歧視”引起的倫理不公風險,優化排序模型中“信息繭房”“熱島效應”對部分用戶商品服務的多樣性缺失,同時以長期價值為目標初步探索對政策中保護性群體(青少年、老年、殘疾人)的流量保護。來源:螞蟻集團圖 2-7 公平性 AI 的常見問題和方法可信 AI 技術和應用進展白皮書 202324252.3.1 糾偏營銷定價歧視營銷定價算法在市場經濟中已經廣泛應用。這種算法是通過大數據、人工智能等技術手段,對消費者進行個性化定價,以達到最優化的銷售效果,例如,酒店在同一時間段內,對于訪問其網站的
103、不同用戶給出不同的房價。但是,以人工智能為驅動的結果導向式的方法增強了價格歧視的程度和普遍性,是中國用戶最有體感的公平性問題之一。在營銷定價中,殺熟歧視問題是由算法中的變量選擇和權重設定引起的,算法可能會將消費者的歷史購買行為、所在地區、年齡等因素作為變量分析,根據 AI 算法決策制定個性化定價。這種做法雖然能夠在有效促進用戶的支付核銷率及留存率的同時降低資金獲客成本,但如果變量權重設定不合理,就可能導致殺熟歧視的問題,從長遠看不利于企業和行業發展。國家網信辦等四部門聯合發布的互聯網信息服務算法推薦管理規定明確不得利用算法在交易價格等交易條件上實施不合理的差別待遇等違法行為,但是法案規定的公平
104、性問題很難定量定性,同時在營銷活動中兼顧社會公平性和業務發展目標也是難題。營銷定價中的算法應用需要降低數據偏差帶來的歧視、殺熟風險。為了解決這一問題,需要在算法設計中引入公平性原則。一是對算法中的變量和權重進行透明、公開和平等的處理,以確保定價公正合理。二是建設特征消除的智能算法(比如對抗技術、多目標技術)將用戶的關鍵信息隱匿掉后再給模型決策應用,這樣定價過程中會更公平地對待每個用戶。此外,通過引入更全面的定價機制也可以一定程度上消除價格歧視,如亞馬遜使用動態定價算法,基于用戶的購物模式、競爭對手的價格、利潤率、庫存以及其它各種數據,商品會根據需求每天變動價格 250 萬次,一定程度上消除了顧
105、客被“殺熟”的風險。2.3.2 改善信息繭房現象搜索推薦業務中的不公平問題體現在商品多樣性方面,具體來說,在搜索推薦結果中,某些品牌或商家的商品排名較高,會引起更多的點擊和購買行為,導致這些品牌或商家在搜索推薦結果中更占優勢。這種情況下,當消費者使用搜索引擎時,搜索引擎會根據消費者的歷史搜索記錄和行為習慣進行推薦,這可能會導致消費者只看到符合自己偏好的信息,被推薦的商品所限制而忽略了其他更多的信息,從而形成信息繭房。搜索推薦業務應該確保算法的公平性和中立性,避免數據-算法的強化帶來持續的有偏信息和誘導性。以線下支付為例,當用戶到店消費使用手機完成一筆付款后會進入“支付成功頁”。商家與支付平臺簽
106、約收單產品后,可以在該頁面投放優惠券、會員卡等,將用戶沉淀到自己的私域流量池并長期觸達。公平高效地推薦用戶所需的優惠券,可以在用戶側達到拉新促活的效果,在商家側做到精準的交叉營銷;反之會導致用戶的服務多樣性不足,商家的曝光權益受到不公平侵害,同時平臺的發展也會是不可持續的。此外,搜索推薦業務應避免對任何品牌或商家進行不公正的偏待,保障消費者的選擇權利。比如在內容推薦的應用上,短視頻平臺通過深度學習技術框架建立模型預估了用戶對某個內容產生互動可信 AI 技術和應用進展白皮書 202324252.3.1 糾偏營銷定價歧視營銷定價算法在市場經濟中已經廣泛應用。這種算法是通過大數據、人工智能等技術手段
107、,對消費者進行個性化定價,以達到最優化的銷售效果,例如,酒店在同一時間段內,對于訪問其網站的不同用戶給出不同的房價。但是,以人工智能為驅動的結果導向式的方法增強了價格歧視的程度和普遍性,是中國用戶最有體感的公平性問題之一。在營銷定價中,殺熟歧視問題是由算法中的變量選擇和權重設定引起的,算法可能會將消費者的歷史購買行為、所在地區、年齡等因素作為變量分析,根據 AI 算法決策制定個性化定價。這種做法雖然能夠在有效促進用戶的支付核銷率及留存率的同時降低資金獲客成本,但如果變量權重設定不合理,就可能導致殺熟歧視的問題,從長遠看不利于企業和行業發展。國家網信辦等四部門聯合發布的互聯網信息服務算法推薦管理
108、規定明確不得利用算法在交易價格等交易條件上實施不合理的差別待遇等違法行為,但是法案規定的公平性問題很難定量定性,同時在營銷活動中兼顧社會公平性和業務發展目標也是難題。營銷定價中的算法應用需要降低數據偏差帶來的歧視、殺熟風險。為了解決這一問題,需要在算法設計中引入公平性原則。一是對算法中的變量和權重進行透明、公開和平等的處理,以確保定價公正合理。二是建設特征消除的智能算法(比如對抗技術、多目標技術)將用戶的關鍵信息隱匿掉后再給模型決策應用,這樣定價過程中會更公平地對待每個用戶。此外,通過引入更全面的定價機制也可以一定程度上消除價格歧視,如亞馬遜使用動態定價算法,基于用戶的購物模式、競爭對手的價格
109、、利潤率、庫存以及其它各種數據,商品會根據需求每天變動價格 250 萬次,一定程度上消除了顧客被“殺熟”的風險。2.3.2 改善信息繭房現象搜索推薦業務中的不公平問題體現在商品多樣性方面,具體來說,在搜索推薦結果中,某些品牌或商家的商品排名較高,會引起更多的點擊和購買行為,導致這些品牌或商家在搜索推薦結果中更占優勢。這種情況下,當消費者使用搜索引擎時,搜索引擎會根據消費者的歷史搜索記錄和行為習慣進行推薦,這可能會導致消費者只看到符合自己偏好的信息,被推薦的商品所限制而忽略了其他更多的信息,從而形成信息繭房。搜索推薦業務應該確保算法的公平性和中立性,避免數據-算法的強化帶來持續的有偏信息和誘導性
110、。以線下支付為例,當用戶到店消費使用手機完成一筆付款后會進入“支付成功頁”。商家與支付平臺簽約收單產品后,可以在該頁面投放優惠券、會員卡等,將用戶沉淀到自己的私域流量池并長期觸達。公平高效地推薦用戶所需的優惠券,可以在用戶側達到拉新促活的效果,在商家側做到精準的交叉營銷;反之會導致用戶的服務多樣性不足,商家的曝光權益受到不公平侵害,同時平臺的發展也會是不可持續的。此外,搜索推薦業務應避免對任何品牌或商家進行不公正的偏待,保障消費者的選擇權利。比如在內容推薦的應用上,短視頻平臺通過深度學習技術框架建立模型預估了用戶對某個內容產生互動可信 AI 技術和應用進展白皮書 20232627的概率,并在推
111、薦機制中設置了一定比例的興趣探索內容與不常觀看內容,實現了推薦內容的多樣性。同時,也需要鼓勵消費者增強自主選擇能力,多方面了解商品信息,減少對搜索推薦結果的依賴,擺脫信息繭房的限制。2.3.3 強化弱勢群體保護公平性還有一方面的重點是需要加強對青少年、老年人、殘障用戶等弱勢群體在互聯網平臺服務上的保護。近幾年發展迅猛的短視頻行業中,弱勢群體因為特征數據少、群體量占比較低,在獲取短視頻內容時往往會受到熱門視頻、年輕用戶偏好、針對性誘騙的影響面臨著不公平的情況,暴力、偏激、虛假信息等內容可能會對他們的身心健康產生不良影響。為了保障弱勢群體的權益,短視頻平臺通常需要采取一些措施,保護他們獲取公正、真
112、實、豐富的信息的權利,確保公平性和平等性。首先,短視頻平臺會建立網絡內容審核機制,加強內容審核的力度,避免不良信息的傳播和傳遞。同時,短視頻平臺需要單獨建立弱勢群體的針對性推薦視頻種類以及推薦策略,加大健康、生活相關的符合弱勢群體社會保護性質的短視頻推薦??傊?,青少年、老年人及弱勢群體不應該作為平臺牟利的目標人群,而是需要增加投入強化對他們權益的保護,共同推動互聯網平臺的良性發展。2.4 AI 應用實踐中的數據模型安全和隱私保護人工智能帶來的數據隱私和安全問題在個人、企業乃至國家層面受到密切關注。從國家層面來看,國內外監管為了防止數據濫用、隱私泄露等個問題,陸續出臺相關政策。從企業層面來看,數
113、據是企業的核心資產,出于商業競爭和數據保護等考慮,企業不愿意也不放心將其核心數據直接提供給合作方使用。從個人層面來看,個人也擔心在互聯網大環境中的隱私泄露,不愿意將上網行為數據暴露給他人。來源:螞蟻集團圖 2-8 跨主體隱私計算的常見方法多方建模旨在符合各項法律、法規及政策的前提下進行順暢高效的數據合作,解決“信息隱私”和“數據孤島”問題,達成合作共贏。目前業界有三大主流的技術方案:基于硬件的可信執行環境(TEE,Trusted Execution Environment)方案、基于密碼學的多方安全計算(MPC,Multi-Party Computation)方案和基于多方協同訓練的聯邦學習(
114、FL,Federated Learning)方案。在實際應用中,需要結合具體場景、數據量來選擇對應的技術方案,同時也要結合成本可信 AI 技術和應用進展白皮書 20232627的概率,并在推薦機制中設置了一定比例的興趣探索內容與不常觀看內容,實現了推薦內容的多樣性。同時,也需要鼓勵消費者增強自主選擇能力,多方面了解商品信息,減少對搜索推薦結果的依賴,擺脫信息繭房的限制。2.3.3 強化弱勢群體保護公平性還有一方面的重點是需要加強對青少年、老年人、殘障用戶等弱勢群體在互聯網平臺服務上的保護。近幾年發展迅猛的短視頻行業中,弱勢群體因為特征數據少、群體量占比較低,在獲取短視頻內容時往往會受到熱門視頻
115、、年輕用戶偏好、針對性誘騙的影響面臨著不公平的情況,暴力、偏激、虛假信息等內容可能會對他們的身心健康產生不良影響。為了保障弱勢群體的權益,短視頻平臺通常需要采取一些措施,保護他們獲取公正、真實、豐富的信息的權利,確保公平性和平等性。首先,短視頻平臺會建立網絡內容審核機制,加強內容審核的力度,避免不良信息的傳播和傳遞。同時,短視頻平臺需要單獨建立弱勢群體的針對性推薦視頻種類以及推薦策略,加大健康、生活相關的符合弱勢群體社會保護性質的短視頻推薦??傊?,青少年、老年人及弱勢群體不應該作為平臺牟利的目標人群,而是需要增加投入強化對他們權益的保護,共同推動互聯網平臺的良性發展。2.4 AI 應用實踐中的
116、數據模型安全和隱私保護人工智能帶來的數據隱私和安全問題在個人、企業乃至國家層面受到密切關注。從國家層面來看,國內外監管為了防止數據濫用、隱私泄露等個問題,陸續出臺相關政策。從企業層面來看,數據是企業的核心資產,出于商業競爭和數據保護等考慮,企業不愿意也不放心將其核心數據直接提供給合作方使用。從個人層面來看,個人也擔心在互聯網大環境中的隱私泄露,不愿意將上網行為數據暴露給他人。來源:螞蟻集團圖 2-8 跨主體隱私計算的常見方法多方建模旨在符合各項法律、法規及政策的前提下進行順暢高效的數據合作,解決“信息隱私”和“數據孤島”問題,達成合作共贏。目前業界有三大主流的技術方案:基于硬件的可信執行環境(
117、TEE,Trusted Execution Environment)方案、基于密碼學的多方安全計算(MPC,Multi-Party Computation)方案和基于多方協同訓練的聯邦學習(FL,Federated Learning)方案。在實際應用中,需要結合具體場景、數據量來選擇對應的技術方案,同時也要結合成本可信 AI 技術和應用進展白皮書 20232829預算、隱私保護等級和收益來綜合考量。2.4.1 終端社交內容中的隱私保護在眾多內容風險場景中,聊天文本中存在很多賭博類、色情類、涉政類以及欺詐類話術,對于風險主體識別非常重要。由于隱私合規的限制,大部分聊天類數據無法在服務端進行存儲,
118、只能通過實時策略或實時模型進行風險識別。通過將模型部署在終端設備上,同時結合 GAN-InstaHide2.4.2 IoT(Generative Adversarial Networks-Instance Hiding scheme,生生成對抗網絡-實例隱藏策略)等算法,可以有效保護用戶隱私。成對抗網絡-實例隱藏策略)等算法,可以有效保護用戶隱私。相比于服務端模型,終端模型有如下優勢:1)聊天內容直接在終端消費,產出樣本表征和內容風險分,聊天內容無需明文在服務端通過模型進行風險識別,減少明文數據流通。2)通過加入 Instance Encoding隱私增強算法,降低樣本表征中蘊含的原始數據信息
119、,使樣本表征難以反推復原出原始數據,保護用戶隱私,同時使得密文表征可以進行存儲,為后續案例分析和模型迭代建立的基礎。3)用戶的聊天數據在端側存儲(端側有用戶可見歷史聊天記錄),在用戶發送和接受消息時,可利用存儲于終端設備的上下文信息進行風險識別,提高風險識別率。4)端模型天然具備分布式推理的能力,每個用戶的樣本在其終端設備商進行模型推理,沒有 QPS(Queries Per Second,每秒請求數)壓力,同時減少服務端資源消耗。物聯網)人臉特征隱私保護算法人臉識別技術被廣泛應用在核身、支付等各類場景,在業務蓬勃發展的同時也引來了新的問題,比如部分廠商強制使用/濫用人臉技術、黑灰產通過偽造人臉
120、進行攻擊。作為用戶感知強的應用場景,生物信息的隱私保護極其關鍵和重要,近年來中華人民共和國最高人民法院、工信部等頒布信息安全技術個人信息安全規范等相關規定,明確指出一系列關于人臉隱私和安全相關的要求,比如“生物特征應具備不可逆、可撤銷、不可鏈接的特性”。來源:螞蟻集團圖 2-9 TEE-DP 算法方案該方案保證 REE 內存中只存在明文的加噪特征,原始特征均在 TEE 中,有效保證了本地鏈路中人臉特征的安全性。TEE-DP 方案可以有效保護人臉特征庫,并具有系統安全、特征不可逆、識別精度無損、資源開銷小、計算效率高等優點。如何嚴格遵循監管的要求,有效保護刷臉用戶的隱私安全,是當前人臉識別業務的
121、研究重點,也是各大廠商面臨的挑戰。螞蟻TEE-DP 算法方案,結合了 TEE 和 DP(Differential Privacy,差分隱私)加噪算法的優點,以 DP 特征加噪和 TEE 為基礎,先在云側建立密態特征庫和密態加噪特征庫,然后一起下發到 REE(RichExecution Environment,富執行環境)中進行管理,在刷臉驗證時,可信 AI 技術和應用進展白皮書 20232829預算、隱私保護等級和收益來綜合考量。2.4.1 終端社交內容中的隱私保護在眾多內容風險場景中,聊天文本中存在很多賭博類、色情類、涉政類以及欺詐類話術,對于風險主體識別非常重要。由于隱私合規的限制,大部分
122、聊天類數據無法在服務端進行存儲,只能通過實時策略或實時模型進行風險識別。通過將模型部署在終端設備上,同時結合 GAN-InstaHide2.4.2 IoT(Generative Adversarial Networks-Instance Hiding scheme,生生成對抗網絡-實例隱藏策略)等算法,可以有效保護用戶隱私。成對抗網絡-實例隱藏策略)等算法,可以有效保護用戶隱私。相比于服務端模型,終端模型有如下優勢:1)聊天內容直接在終端消費,產出樣本表征和內容風險分,聊天內容無需明文在服務端通過模型進行風險識別,減少明文數據流通。2)通過加入 Instance Encoding隱私增強算法,
123、降低樣本表征中蘊含的原始數據信息,使樣本表征難以反推復原出原始數據,保護用戶隱私,同時使得密文表征可以進行存儲,為后續案例分析和模型迭代建立的基礎。3)用戶的聊天數據在端側存儲(端側有用戶可見歷史聊天記錄),在用戶發送和接受消息時,可利用存儲于終端設備的上下文信息進行風險識別,提高風險識別率。4)端模型天然具備分布式推理的能力,每個用戶的樣本在其終端設備商進行模型推理,沒有 QPS(Queries Per Second,每秒請求數)壓力,同時減少服務端資源消耗。物聯網)人臉特征隱私保護算法人臉識別技術被廣泛應用在核身、支付等各類場景,在業務蓬勃發展的同時也引來了新的問題,比如部分廠商強制使用/
124、濫用人臉技術、黑灰產通過偽造人臉進行攻擊。作為用戶感知強的應用場景,生物信息的隱私保護極其關鍵和重要,近年來中華人民共和國最高人民法院、工信部等頒布信息安全技術個人信息安全規范等相關規定,明確指出一系列關于人臉隱私和安全相關的要求,比如“生物特征應具備不可逆、可撤銷、不可鏈接的特性”。來源:螞蟻集團圖 2-9 TEE-DP 算法方案該方案保證 REE 內存中只存在明文的加噪特征,原始特征均在 TEE 中,有效保證了本地鏈路中人臉特征的安全性。TEE-DP 方案可以有效保護人臉特征庫,并具有系統安全、特征不可逆、識別精度無損、資源開銷小、計算效率高等優點。如何嚴格遵循監管的要求,有效保護刷臉用戶
125、的隱私安全,是當前人臉識別業務的研究重點,也是各大廠商面臨的挑戰。螞蟻TEE-DP 算法方案,結合了 TEE 和 DP(Differential Privacy,差分隱私)加噪算法的優點,以 DP 特征加噪和 TEE 為基礎,先在云側建立密態特征庫和密態加噪特征庫,然后一起下發到 REE(RichExecution Environment,富執行環境)中進行管理,在刷臉驗證時,可信 AI 技術和應用進展白皮書 20233031首先在 REE 中通過加噪進行粗排,然后進入 TEE 進行精排。這樣的二階段的方式能夠有效緩解 TEE 中的性能限制,并且在 REE 中添加了 DP,也能保護用戶的隱私信
126、息。2.4.3 多方安全計算助力行業跨機構協作在法律與相關政策的推動下,各類機構都在積極開展數據安全與合規能力建設,多方安全計算是一種被廣泛采納的數據可信流通技術方案,在普惠金融、智慧醫療、保險科技、智慧城市等方向均取得了良好效果。在信貸領域中,小微企業信貸占比小、融資成本高的問題突出。螞蟻積累了大量長尾小微客戶及小微企業的數據,采用可證多方安全計算技術,不泄露明文及可反推原始數據的中間數據,阻止了數十億高風險貸款發放,增加識別 30+萬名低風險客戶,幫助銀行高效完成風險管控,擴大普惠信貸服務范圍。在聯合營銷領域中,第四范式的云知聯邦學習平臺構建了多方安全計算全棧解決方案,某個區域銀行本行通過
127、其他卡機構補充優質跨行消費行為、資金流動性數據,利用聯邦學習 LR(邏輯回歸)、XGB(極端梯度提升)等算法聯合建模得到優質高凈值客戶,AUC(曲線下面積)和 KS(Kolmogorov-Smirnov 檢驗)均取得 10%左右的增長。在智慧醫療領域,锘崴科技的锘崴信隱私保護計算平臺通過聯合分析、聯邦學習技術實現了跨數據源數據虛擬融合,針對全基因組關聯分析(GWAS,Genome-WideAssociation Study)、罕見病專病靶向性基因研究等這類依賴大樣本量的研究,解決因單一機構樣本量不足而導致研究結果可信度下降的問題。目前多方安全計算平臺建設參與商眾多,涉及各行業,但各方的數據、平
128、臺無法直接打通,因此跨平臺互聯互通是亟待解決的方向,互聯互通生態有助于多樣化數據的可信鏈接,有利于業務模型改善,是可信數據生態建設中不可或缺的部分。第三章 面向大模型和 AIGC 的可信 AI 探索3.1 大模型和 AIGC 的發展與生態隨著人工智能行業的發展和研究工作的不斷累積,為了在各個機器學習任務下見證更加智能與精準的結果,人工智能算法模型的規模正在逐年提升。大模型的涌現和人工智能產業的不斷完善豐富了現如今各行各業的生產和生活內容,使大模型時代下 AIGC 的發展達到了新的高度。3.1.1 大規模深度學習模型發展歷程近年來,人工智能模型的參數規模正在持續的增長與升級。2012年人工智能剛
129、剛興起時,以 AlexNet 為代表的早期經典模型參數量還不到萬級,而如今業界參數量突破千億級的大模型已然琳瑯滿目。自 2018 年 2 月 OpenAI GPT 問世,其后的大模型相繼有 Google 的BERT、OpenAI 的 GPT-2、Meta 的 RoBERTa、Nvidia 的Megatron-LM/BERT、Microsoft 的 DialoGPT、Google 的 Meena、Meta的 Blender 等等。在大模型時代下,大模型的“軍備”競賽一直沒有停止,業界的各大公司在互相競爭與互相啟發中不斷提出新的 AI可信 AI 技術和應用進展白皮書 20233031首先在 REE
130、 中通過加噪進行粗排,然后進入 TEE 進行精排。這樣的二階段的方式能夠有效緩解 TEE 中的性能限制,并且在 REE 中添加了 DP,也能保護用戶的隱私信息。2.4.3 多方安全計算助力行業跨機構協作在法律與相關政策的推動下,各類機構都在積極開展數據安全與合規能力建設,多方安全計算是一種被廣泛采納的數據可信流通技術方案,在普惠金融、智慧醫療、保險科技、智慧城市等方向均取得了良好效果。在信貸領域中,小微企業信貸占比小、融資成本高的問題突出。螞蟻積累了大量長尾小微客戶及小微企業的數據,采用可證多方安全計算技術,不泄露明文及可反推原始數據的中間數據,阻止了數十億高風險貸款發放,增加識別 30+萬名
131、低風險客戶,幫助銀行高效完成風險管控,擴大普惠信貸服務范圍。在聯合營銷領域中,第四范式的云知聯邦學習平臺構建了多方安全計算全棧解決方案,某個區域銀行本行通過其他卡機構補充優質跨行消費行為、資金流動性數據,利用聯邦學習 LR(邏輯回歸)、XGB(極端梯度提升)等算法聯合建模得到優質高凈值客戶,AUC(曲線下面積)和 KS(Kolmogorov-Smirnov 檢驗)均取得 10%左右的增長。在智慧醫療領域,锘崴科技的锘崴信隱私保護計算平臺通過聯合分析、聯邦學習技術實現了跨數據源數據虛擬融合,針對全基因組關聯分析(GWAS,Genome-WideAssociation Study)、罕見病專病靶向
132、性基因研究等這類依賴大樣本量的研究,解決因單一機構樣本量不足而導致研究結果可信度下降的問題。目前多方安全計算平臺建設參與商眾多,涉及各行業,但各方的數據、平臺無法直接打通,因此跨平臺互聯互通是亟待解決的方向,互聯互通生態有助于多樣化數據的可信鏈接,有利于業務模型改善,是可信數據生態建設中不可或缺的部分。第三章 面向大模型和 AIGC 的可信 AI 探索3.1 大模型和 AIGC 的發展與生態隨著人工智能行業的發展和研究工作的不斷累積,為了在各個機器學習任務下見證更加智能與精準的結果,人工智能算法模型的規模正在逐年提升。大模型的涌現和人工智能產業的不斷完善豐富了現如今各行各業的生產和生活內容,使
133、大模型時代下 AIGC 的發展達到了新的高度。3.1.1 大規模深度學習模型發展歷程近年來,人工智能模型的參數規模正在持續的增長與升級。2012年人工智能剛剛興起時,以 AlexNet 為代表的早期經典模型參數量還不到萬級,而如今業界參數量突破千億級的大模型已然琳瑯滿目。自 2018 年 2 月 OpenAI GPT 問世,其后的大模型相繼有 Google 的BERT、OpenAI 的 GPT-2、Meta 的 RoBERTa、Nvidia 的Megatron-LM/BERT、Microsoft 的 DialoGPT、Google 的 Meena、Meta的 Blender 等等。在大模型時代
134、下,大模型的“軍備”競賽一直沒有停止,業界的各大公司在互相競爭與互相啟發中不斷提出新的 AI可信 AI 技術和應用進展白皮書 20233233大模型,從而在自然語言處理、計算機視覺、對話系統等多任務和多模態場景上獲得性能的突破。參與競賽的大型企業包括國外的Google Brain、DeepMind、OpenAI 以及 Meta 和 Microsoft,國內如百度、阿里巴巴、華為等公司也都參與在大模型的時代浪潮中。如今,“參數量級”已不再成為限制 AI 模型發展的枷鎖,在龐大的參數規模下,大模型的使用場景與創作表現也早已與傳統的 AI 模型表現天差地別。構建大模型的核心技術通常包括預訓練(Pre
135、-training)、指令微調(Instruction Tuning)、有監督精調(Supervised Fine-tuning,SFT)、基于人類反饋的強化學習(Reinforcement Learning with HumanFeedback,RLHF)等,訓練大模型的數據也從傳統的網頁、書籍、程序代碼擴展到了更多領域的多模態數據中。大規模的參數量使大模型獲得了“知識涌現”能力,在參數規模達到一定水平時,知識涌現的模型相比于傳統模型表現出更強的上下文學習能力(In-context Learning,ICL)、理解任務指令來執行新任務的泛化能力(Instruction Following,I
136、F)以及對于中間步驟的思維鏈推理能力(Chain of Thought,COT),最終使得像 ChatGPT 等大模型應用能夠形成更加智能的場景理解能力和答案生成能力。然而,如今的大模型仍然面對著訓練成本高昂、靜態訓練數據的時效性、訓練結果的真實性等問題和局限,走向通用人工智能(Artificial GeneralIntelligence,AGI)的發展道路仍然面臨諸多挑戰。3.1.2 大模型時代下 AIGC 的產業生態與可信挑戰大模型時代下,AIGC 的相關產業生態的發展已經達到了空前的熱度,根據大模型綜述文章ASurvey of Large Language Models,大模型的能力已經
137、能夠覆蓋到現有的較為完全的生態產業。在語言大模型方面,從以 GPT、BERT 等代表的大模型帶來的驚人效果開始,語言模型的能力就已能夠基本覆蓋并在效果上突破所有目前的NLP 任務。在視覺大模型方面,基于擴散模型(Diffusion Model)的 DALL-E-2 和 Imagen 在圖像上取得了高質量的圖像生成結果。在推薦大模型方面,阿里的 XDL、百度的 AIBox、Facebook 的 ZionEX、以及快手Persia也將模型的參數量從百億逐步發展到了百萬億量級。來源:根據A Survey of Large Language Models統計圖 3-1 各大企業的大模型發展與生態可信
138、AI 技術和應用進展白皮書 20233233大模型,從而在自然語言處理、計算機視覺、對話系統等多任務和多模態場景上獲得性能的突破。參與競賽的大型企業包括國外的Google Brain、DeepMind、OpenAI 以及 Meta 和 Microsoft,國內如百度、阿里巴巴、華為等公司也都參與在大模型的時代浪潮中。如今,“參數量級”已不再成為限制 AI 模型發展的枷鎖,在龐大的參數規模下,大模型的使用場景與創作表現也早已與傳統的 AI 模型表現天差地別。構建大模型的核心技術通常包括預訓練(Pre-training)、指令微調(Instruction Tuning)、有監督精調(Supervi
139、sed Fine-tuning,SFT)、基于人類反饋的強化學習(Reinforcement Learning with HumanFeedback,RLHF)等,訓練大模型的數據也從傳統的網頁、書籍、程序代碼擴展到了更多領域的多模態數據中。大規模的參數量使大模型獲得了“知識涌現”能力,在參數規模達到一定水平時,知識涌現的模型相比于傳統模型表現出更強的上下文學習能力(In-context Learning,ICL)、理解任務指令來執行新任務的泛化能力(Instruction Following,IF)以及對于中間步驟的思維鏈推理能力(Chain of Thought,COT),最終使得像 Ch
140、atGPT 等大模型應用能夠形成更加智能的場景理解能力和答案生成能力。然而,如今的大模型仍然面對著訓練成本高昂、靜態訓練數據的時效性、訓練結果的真實性等問題和局限,走向通用人工智能(Artificial GeneralIntelligence,AGI)的發展道路仍然面臨諸多挑戰。3.1.2 大模型時代下 AIGC 的產業生態與可信挑戰大模型時代下,AIGC 的相關產業生態的發展已經達到了空前的熱度,根據大模型綜述文章ASurvey of Large Language Models,大模型的能力已經能夠覆蓋到現有的較為完全的生態產業。在語言大模型方面,從以 GPT、BERT 等代表的大模型帶來的
141、驚人效果開始,語言模型的能力就已能夠基本覆蓋并在效果上突破所有目前的NLP 任務。在視覺大模型方面,基于擴散模型(Diffusion Model)的 DALL-E-2 和 Imagen 在圖像上取得了高質量的圖像生成結果。在推薦大模型方面,阿里的 XDL、百度的 AIBox、Facebook 的 ZionEX、以及快手Persia也將模型的參數量從百億逐步發展到了百萬億量級。來源:根據A Survey of Large Language Models統計圖 3-1 各大企業的大模型發展與生態可信 AI 技術和應用進展白皮書 20233435大模型在多模態上出色的性能表現使基于大模型的中心化應用
142、開始不斷涌現,國內諸如百度“文心一言”、華為“盤古”、阿里“通義千問”、騰訊“混元”大模型等,國外如谷歌公布的 LaMDA和 PaLM 等大模型、Meta 發布的開源大模型 LLaMA,以大模型為底座,通過 API(應用程序編程接口,Application ProgrammingInterface)調用集成搜索引擎、數字計算、郵件系統、威脅情報等系統應用,將大模型的使用場景從單純的信息生成擴展成能夠完成復雜任務的自主控制平臺。大模型的產業應用展現出了類操作系統的控制能力和統一人機交互接口的巨大潛力。來源:中國信息通信研究院、清華大學圖 3-2 大模型時代下面臨的安全可信挑戰然而,在大模型的產業
143、應用中,與大模型有關的安全事件正不斷發生。例如,三星企業員工使用大模型造成其內部資料外泄,數萬人簽名呼吁暫停研發比 GPT-4 更強大的 AI 系統至少 6 個月等。自此,越來越多的安全從業者和產業用戶開始關注大模型的安全問題。目前,大模型的安全風險主要包括大模型生成內容風險、大模型自身安全風險以及一些其他風險問題,其中,大模型生成內容風險涉及生成虛假有害信息、網絡攻擊賦能等模型的生成式內容引發的安全問題;大模型自身安全風險涉及隱私泄漏問題、倫理道德問題、模型攻擊對抗問題等。此外,大模型的可解釋性和公平性問題也是目前討論頗深的前瞻性話題。3.2 大模型的生成式攻擊和防御在大語言模型風靡之際所引
144、領的 AIGC 時代,人工智能的內容創作相比以往時期更加智能化與精準化,高質量的多模態生成內容與人工創作內容已幾乎無法區分。雖然 AIGC 所帶來的內容創作賦能使文章和新聞創作、音樂創作、視頻和影像創作、藝術創作等領域發揮出了更大的潛能與價值,但也便利了別有用心的攻擊者實施快速有效的虛假信息傳播與網絡攻擊行為。因此,在真假難辯的互聯網時代,探討 AI 大模型所帶來的全新的生成式攻擊與防御挑戰是探索可信 AI 道路上所面臨的必經之路。3.2.1 大模型的生成式攻擊大模型的生成式攻擊通過使用 AI 大模型可以在極低的成本下生成虛假信息甚至精心構造的攻擊代碼。在缺乏先驗知識的場景下,大模型的生成式攻
145、擊將帶來難以估計的損失與破壞。廣義上看,生成式攻擊所生產的攻擊內容主要包括虛假有害信息與網絡攻擊工具。AIGC 的虛假信息傳播。大模型的使用可以加快虛假內容的制作速度,使信息內容治理面臨著全新的挑戰。在文本內容方面,惡意可信 AI 技術和應用進展白皮書 20233435大模型在多模態上出色的性能表現使基于大模型的中心化應用開始不斷涌現,國內諸如百度“文心一言”、華為“盤古”、阿里“通義千問”、騰訊“混元”大模型等,國外如谷歌公布的 LaMDA和 PaLM 等大模型、Meta 發布的開源大模型 LLaMA,以大模型為底座,通過 API(應用程序編程接口,Application Programmi
146、ngInterface)調用集成搜索引擎、數字計算、郵件系統、威脅情報等系統應用,將大模型的使用場景從單純的信息生成擴展成能夠完成復雜任務的自主控制平臺。大模型的產業應用展現出了類操作系統的控制能力和統一人機交互接口的巨大潛力。來源:中國信息通信研究院、清華大學圖 3-2 大模型時代下面臨的安全可信挑戰然而,在大模型的產業應用中,與大模型有關的安全事件正不斷發生。例如,三星企業員工使用大模型造成其內部資料外泄,數萬人簽名呼吁暫停研發比 GPT-4 更強大的 AI 系統至少 6 個月等。自此,越來越多的安全從業者和產業用戶開始關注大模型的安全問題。目前,大模型的安全風險主要包括大模型生成內容風險
147、、大模型自身安全風險以及一些其他風險問題,其中,大模型生成內容風險涉及生成虛假有害信息、網絡攻擊賦能等模型的生成式內容引發的安全問題;大模型自身安全風險涉及隱私泄漏問題、倫理道德問題、模型攻擊對抗問題等。此外,大模型的可解釋性和公平性問題也是目前討論頗深的前瞻性話題。3.2 大模型的生成式攻擊和防御在大語言模型風靡之際所引領的 AIGC 時代,人工智能的內容創作相比以往時期更加智能化與精準化,高質量的多模態生成內容與人工創作內容已幾乎無法區分。雖然 AIGC 所帶來的內容創作賦能使文章和新聞創作、音樂創作、視頻和影像創作、藝術創作等領域發揮出了更大的潛能與價值,但也便利了別有用心的攻擊者實施快
148、速有效的虛假信息傳播與網絡攻擊行為。因此,在真假難辯的互聯網時代,探討 AI 大模型所帶來的全新的生成式攻擊與防御挑戰是探索可信 AI 道路上所面臨的必經之路。3.2.1 大模型的生成式攻擊大模型的生成式攻擊通過使用 AI 大模型可以在極低的成本下生成虛假信息甚至精心構造的攻擊代碼。在缺乏先驗知識的場景下,大模型的生成式攻擊將帶來難以估計的損失與破壞。廣義上看,生成式攻擊所生產的攻擊內容主要包括虛假有害信息與網絡攻擊工具。AIGC 的虛假信息傳播。大模型的使用可以加快虛假內容的制作速度,使信息內容治理面臨著全新的挑戰。在文本內容方面,惡意可信 AI 技術和應用進展白皮書 20233637用戶可
149、以利用 AI 生成的文本來傳播虛假信息、謠言、仇恨言論、歧視性內容或其他有害內容。這些信息會誤導讀者、影響決策過程,甚至對金融市場或政治局勢產生重大影響。在圖像和視頻方面,惡意用戶可以通過人臉生成、人臉替換、表情操控、視頻生成等手段,使用深度合成技術生成生物識別的人臉或現實不存在的視頻片段,從而構造具有合成照片的社交網絡間諜賬號,偽造公眾人物或政企領導的有害視頻。從造成的影響和結果上看,大模型的惡意使用嚴重影響了多個行業的監管體系。在社會層面,AIGC 成為了電信詐騙等違法犯罪活動的新工具;在政治層面,AIGC 技術成為攻擊政治領袖、引導輿論的新武器;在金融層面,深度偽造技術攻破了支付身份認證
150、,使風控體系失效。來源:清華大學圖 3-3 大模型和 AIGC 的生成式攻擊AIGC 的網絡攻擊賦能。當語言大模型被別有用心的攻擊者利用時,可以迅速淪為網絡犯罪的工具。GBHackers 的報道表明,ChatGPT可以在幾秒內生成一條完整的詐騙套路,從各種攻擊鏈與社會工程的攻擊工具入手,突破具備系統級防御手段的入侵檢測系統,實現多種網絡攻擊行為。由于大模型所涉及的學習知識包含了網絡攻擊的代碼構建原理并輔助增強的語言表示邏輯,AIGC 的技術可以快速讓不成熟的攻擊者實現頗具破壞力的網絡攻擊。研究表明,以ChatGPT 為代表的 AI 大模型可以快速生成設計精巧的釣魚郵件,騙取目標人物的隱私信息與
151、財產資源,也可以生成不易察覺的反彈式木馬,繞過目標主機的防火墻實施網絡攻擊。AI 大模型甚至可以被引導推薦出最合適的黑客工具,根據惡意攻擊者所描述的特定場景供給精準適用的網絡攻擊能力。3.2.2 面對生成式攻擊的防御挑戰面對 AI 大模型的違規應用,現有的監管體系必須明確如何實現對生成式攻擊的檢測與防御,面對生成式模型所帶來的新安全挑戰,AIGC 的檢測與防御能力的突破是大型機器學習平臺需要解決的迫在眉睫的目標。生成式大模型的 AI 生成內容甄別。面對 AI 所創作的精巧的生成內容,現有防御體系將思考“如何對生成模型的 AI 生成內容進行辨別”擺在了首要位置。目前進行 AIGC 鑒別的技術路線
152、主要使用人工標注的數據集,并構建二分類模型對內容是由人類生成還是由AI 生成進行分類。然而,基于靜態數據集的分類在面對持續更新的可信 AI 技術和應用進展白皮書 20233637用戶可以利用 AI 生成的文本來傳播虛假信息、謠言、仇恨言論、歧視性內容或其他有害內容。這些信息會誤導讀者、影響決策過程,甚至對金融市場或政治局勢產生重大影響。在圖像和視頻方面,惡意用戶可以通過人臉生成、人臉替換、表情操控、視頻生成等手段,使用深度合成技術生成生物識別的人臉或現實不存在的視頻片段,從而構造具有合成照片的社交網絡間諜賬號,偽造公眾人物或政企領導的有害視頻。從造成的影響和結果上看,大模型的惡意使用嚴重影響了
153、多個行業的監管體系。在社會層面,AIGC 成為了電信詐騙等違法犯罪活動的新工具;在政治層面,AIGC 技術成為攻擊政治領袖、引導輿論的新武器;在金融層面,深度偽造技術攻破了支付身份認證,使風控體系失效。來源:清華大學圖 3-3 大模型和 AIGC 的生成式攻擊AIGC 的網絡攻擊賦能。當語言大模型被別有用心的攻擊者利用時,可以迅速淪為網絡犯罪的工具。GBHackers 的報道表明,ChatGPT可以在幾秒內生成一條完整的詐騙套路,從各種攻擊鏈與社會工程的攻擊工具入手,突破具備系統級防御手段的入侵檢測系統,實現多種網絡攻擊行為。由于大模型所涉及的學習知識包含了網絡攻擊的代碼構建原理并輔助增強的語
154、言表示邏輯,AIGC 的技術可以快速讓不成熟的攻擊者實現頗具破壞力的網絡攻擊。研究表明,以ChatGPT 為代表的 AI 大模型可以快速生成設計精巧的釣魚郵件,騙取目標人物的隱私信息與財產資源,也可以生成不易察覺的反彈式木馬,繞過目標主機的防火墻實施網絡攻擊。AI 大模型甚至可以被引導推薦出最合適的黑客工具,根據惡意攻擊者所描述的特定場景供給精準適用的網絡攻擊能力。3.2.2 面對生成式攻擊的防御挑戰面對 AI 大模型的違規應用,現有的監管體系必須明確如何實現對生成式攻擊的檢測與防御,面對生成式模型所帶來的新安全挑戰,AIGC 的檢測與防御能力的突破是大型機器學習平臺需要解決的迫在眉睫的目標。
155、生成式大模型的 AI 生成內容甄別。面對 AI 所創作的精巧的生成內容,現有防御體系將思考“如何對生成模型的 AI 生成內容進行辨別”擺在了首要位置。目前進行 AIGC 鑒別的技術路線主要使用人工標注的數據集,并構建二分類模型對內容是由人類生成還是由AI 生成進行分類。然而,基于靜態數據集的分類在面對持續更新的可信 AI 技術和應用進展白皮書 20233839AI 大模型時有著巨大的局限性,同時 AIGC 技術本身的優化目標即是使內容創作更近似于人類生成,在未來面對更加智能的大模型所生成的內容時,常規的鑒別手段存在完全失效的可能。來源:清華大學圖 3-4 生成式模型的 AI 生成內容甄別基于模
156、型水印的 AI 身份標識方法?;谀P臀⒄{的模型水印方法需要利用特殊數據對模型進行微調。類似數字簽名的認證過程,經過特殊數據微調后的生成模型所生成的內容可以通過密鑰提取器提取出認證信息。經過認證信息的“身份標識”可以為所有 AI 模型所創作的內容設置身份信息,幫助使用者明確當前內容是否為 AI創作的內容。然而,面對大模型時代下的生成模型,水印微調需要在海量的計算資源才能完成,如何經濟有效地驗證如大語言模型的AI 身份問題是未來需要克服的嚴峻挑戰。來源:清華大學圖 3-5 基于模型水印的身份標識方法的邏輯架構3.3 大模型自身的安全風險與隱患隨著大模型部署的熱潮如期而至,ChatGPT 等大語言
157、模型的訪問量在短時間內獲得了遠超預期的增長,超乎尋常的使用量也使 AI大模型逐漸暴露了其平臺內所隱藏的安全隱患,使人們意識到現階段的 AI 大模型與理想中安全可信的人工智能服務仍然相距甚遠。這些風險與隱患給用戶、企業、甚至大模型平臺本身都帶來了前所未有的安全威脅。3.3.1 大模型的數據泄漏問題大模型的數據泄漏風險是目前影響范圍最廣、危害程度最大的可信 AI 技術和應用進展白皮書 20233839AI 大模型時有著巨大的局限性,同時 AIGC 技術本身的優化目標即是使內容創作更近似于人類生成,在未來面對更加智能的大模型所生成的內容時,常規的鑒別手段存在完全失效的可能。來源:清華大學圖 3-4
158、生成式模型的 AI 生成內容甄別基于模型水印的 AI 身份標識方法?;谀P臀⒄{的模型水印方法需要利用特殊數據對模型進行微調。類似數字簽名的認證過程,經過特殊數據微調后的生成模型所生成的內容可以通過密鑰提取器提取出認證信息。經過認證信息的“身份標識”可以為所有 AI 模型所創作的內容設置身份信息,幫助使用者明確當前內容是否為 AI創作的內容。然而,面對大模型時代下的生成模型,水印微調需要在海量的計算資源才能完成,如何經濟有效地驗證如大語言模型的AI 身份問題是未來需要克服的嚴峻挑戰。來源:清華大學圖 3-5 基于模型水印的身份標識方法的邏輯架構3.3 大模型自身的安全風險與隱患隨著大模型部署的
159、熱潮如期而至,ChatGPT 等大語言模型的訪問量在短時間內獲得了遠超預期的增長,超乎尋常的使用量也使 AI大模型逐漸暴露了其平臺內所隱藏的安全隱患,使人們意識到現階段的 AI 大模型與理想中安全可信的人工智能服務仍然相距甚遠。這些風險與隱患給用戶、企業、甚至大模型平臺本身都帶來了前所未有的安全威脅。3.3.1 大模型的數據泄漏問題大模型的數據泄漏風險是目前影響范圍最廣、危害程度最大的可信 AI 技術和應用進展白皮書 20234041(Prompt大模型安全風險,其暴露的用戶隱私與企業機密信息在整個社會范圍內都引起了巨大的反響,以至于三星、軟銀、松下、摩根大通等企業甚至已完全禁止其內部員工使用
160、如 ChatGPT 等的大語言模型。大模型的提示語泄漏。在 AIGC 技術的發展下,基于提示語)+大語言模型的 AI 大模型架構已經取代了傳統的預訓練+微調的大模型架構。在這其中,Prompt 已經成為基于大語言模型的運營方的新型重要知識產權。然而,2023 年 2 月,微軟 Bing Chat的 Prompt 信息被斯坦福的學生以提問的方式輕松竊取。事實表明,大模型對于自身知識體系的保護仍有待完善。來源:清華大學圖 3-6 大模型的提示語泄漏風險大模型學習敏感數據導致的隱私泄漏。為了構建更加智能的 AI大模型,如 ChatGPT 等大語言模型會在其服務器上存儲所有用戶的輸入與答案,從而幫助模
161、型的更新與迭代。因此,用戶輸入的敏感數據會被大語言模型“記住”,從而導致數據泄漏。嚴重的隱私泄漏問題使企業與國家層面都做出了相關的大模型禁令等舉措,例如,三星公司引入 ChatGPT 不到 20 天發生了三起半導體機密資料外泄事件,隨后要求員工不得在工作場所使用生成式人工智能;由于數據隱私問題,意大利對 ChatGPT 涉嫌違反數據收集規則展開調查,并暫時限制 OpenAI 處理意大利用戶數據。在踐行可信 AI 的道路上,如何既保證輸入輸出的數據隱私又能夠使用大模型成為了新的問題與挑戰。來源:清華大學圖 3-7 大模型學習敏感數據導致的隱私泄漏承載大模型的軟件漏洞導致的數據泄漏。大模型的運營需
162、要基于云計算系統的包括海量 CPU(中央處理器,Central Processing Unit)和 GPU(圖形處理器,Graphics Processing Unit)的異構計算資源支持,受攻擊面顯著增加。首先,大模型依賴的軟件庫的漏洞、Bug、安全隱患會導致安全與隱私問題。大模型對多個開源或閉源軟件庫有復雜的依賴關系,而這些軟件庫的 Bug 會導致大模型的敏感數據泄漏。2023 年 3 月,ChatGPT 依賴的開源庫 Redis 的 Bug 導致了 1.2%用戶數據遭到泄漏。其次,支持大模型的操作系統層面漏洞同樣會可信 AI 技術和應用進展白皮書 20234041(Prompt大模型安全
163、風險,其暴露的用戶隱私與企業機密信息在整個社會范圍內都引起了巨大的反響,以至于三星、軟銀、松下、摩根大通等企業甚至已完全禁止其內部員工使用如 ChatGPT 等的大語言模型。大模型的提示語泄漏。在 AIGC 技術的發展下,基于提示語)+大語言模型的 AI 大模型架構已經取代了傳統的預訓練+微調的大模型架構。在這其中,Prompt 已經成為基于大語言模型的運營方的新型重要知識產權。然而,2023 年 2 月,微軟 Bing Chat的 Prompt 信息被斯坦福的學生以提問的方式輕松竊取。事實表明,大模型對于自身知識體系的保護仍有待完善。來源:清華大學圖 3-6 大模型的提示語泄漏風險大模型學習
164、敏感數據導致的隱私泄漏。為了構建更加智能的 AI大模型,如 ChatGPT 等大語言模型會在其服務器上存儲所有用戶的輸入與答案,從而幫助模型的更新與迭代。因此,用戶輸入的敏感數據會被大語言模型“記住”,從而導致數據泄漏。嚴重的隱私泄漏問題使企業與國家層面都做出了相關的大模型禁令等舉措,例如,三星公司引入 ChatGPT 不到 20 天發生了三起半導體機密資料外泄事件,隨后要求員工不得在工作場所使用生成式人工智能;由于數據隱私問題,意大利對 ChatGPT 涉嫌違反數據收集規則展開調查,并暫時限制 OpenAI 處理意大利用戶數據。在踐行可信 AI 的道路上,如何既保證輸入輸出的數據隱私又能夠使
165、用大模型成為了新的問題與挑戰。來源:清華大學圖 3-7 大模型學習敏感數據導致的隱私泄漏承載大模型的軟件漏洞導致的數據泄漏。大模型的運營需要基于云計算系統的包括海量 CPU(中央處理器,Central Processing Unit)和 GPU(圖形處理器,Graphics Processing Unit)的異構計算資源支持,受攻擊面顯著增加。首先,大模型依賴的軟件庫的漏洞、Bug、安全隱患會導致安全與隱私問題。大模型對多個開源或閉源軟件庫有復雜的依賴關系,而這些軟件庫的 Bug 會導致大模型的敏感數據泄漏。2023 年 3 月,ChatGPT 依賴的開源庫 Redis 的 Bug 導致了 1
166、.2%用戶數據遭到泄漏。其次,支持大模型的操作系統層面漏洞同樣會可信 AI 技術和應用進展白皮書 20234243導致數據泄漏,攻擊者可以在操作系統層面利用內存讀取、緩存管理模式等側信道信息重構關鍵模型信息,從而引發數據泄露威脅。來源:清華大學圖 3-8 承載大模型的軟件漏洞導致的數據泄漏3.3.2 大模型的倫理道德問題大模型的倫理問題同樣給 AI 大模型的使用帶來了嚴重的安全風險。例如,大模型學習的數據中存在仇恨言論、違法犯罪等有害身心健康的內容,對于敏感話題內容的監管仍然面臨巨大挑戰。同時,過度依賴大模型的內容生成服務導致了更多抄襲行為的發生,全球多所高校和學術機構已宣布禁止學生使用 Ch
167、atGPT 完成學業工作。另外,PaLM-E 等集成機器人視覺與語言操控指令的大模型的具身化應用正在不斷出現,如何確定未來機器人的責任和安全性,確保機器人的倫理、法律問題也是未來待解決的難點之一。因此,未來對于大模型的倫理道德問題的監管的探索還有很長的路要走。違規內容輸出的倫理問題。面對輸入的敏感問題,現有大模型通常在內容生成后的下游接入內容檢測模型,對大模型生成的內容進行有害內容的檢測與分類。然而,訓練內容檢測模型需要人工標注的有害內容數據集,靜態且有限規模的人工標注數據集無法完全覆蓋日新月異的用戶輸入,使得總有模型生成的有害內容繞過檢測模型的風險,最終使大模型錯誤地輸出了不良內容。究其根本
168、,是有害樣本的人工標注難以全面覆蓋用戶動態更新的敏感話題,致使內容檢測模型的無效并使有害內容最終被大模型輸出。教育公平性的倫理問題。在教育方面,對于生成式大模型的過度依賴已經引起了人們的擔憂。據報道,巴黎政治學院、香港浸會大學等全球多所高校已禁止學生使用 ChatGPT 進行學術論文寫作,對可能違反學術道德的相關行為予以限制。顯然,生成式大模型在教育機構行業的濫用已經形成了作弊等不良風氣,AI 創作的文本內容的管理無疑給教育系統帶來了巨大的沖擊。如何正確地使用 AIGC服務的輔助功能來幫助教育科研事業的發展仍然需要更多深入的探討和研究。大模型社會責任的倫理問題。大模型驚人的智能表現引發了社會各
169、界對于未來機器人倫理問題的更多討論??萍及l展使 AI 走向通用人工智能(AGI)的發展道路上,人工智能是否會超越人的智能、以及未來人類將如何控制人工智能的話題被推上風口。目前,大模型引發的崗位替代等社會就業問題已經引起了廣泛關注,AI 天然的數據拷貝能力、數據接入能力、學習速度都遠超人類,未來面對更加智能的大模型應用時,如何賦予大模型社會責任,人類又將如何可信 AI 技術和應用進展白皮書 20234243導致數據泄漏,攻擊者可以在操作系統層面利用內存讀取、緩存管理模式等側信道信息重構關鍵模型信息,從而引發數據泄露威脅。來源:清華大學圖 3-8 承載大模型的軟件漏洞導致的數據泄漏3.3.2 大模
170、型的倫理道德問題大模型的倫理問題同樣給 AI 大模型的使用帶來了嚴重的安全風險。例如,大模型學習的數據中存在仇恨言論、違法犯罪等有害身心健康的內容,對于敏感話題內容的監管仍然面臨巨大挑戰。同時,過度依賴大模型的內容生成服務導致了更多抄襲行為的發生,全球多所高校和學術機構已宣布禁止學生使用 ChatGPT 完成學業工作。另外,PaLM-E 等集成機器人視覺與語言操控指令的大模型的具身化應用正在不斷出現,如何確定未來機器人的責任和安全性,確保機器人的倫理、法律問題也是未來待解決的難點之一。因此,未來對于大模型的倫理道德問題的監管的探索還有很長的路要走。違規內容輸出的倫理問題。面對輸入的敏感問題,現
171、有大模型通常在內容生成后的下游接入內容檢測模型,對大模型生成的內容進行有害內容的檢測與分類。然而,訓練內容檢測模型需要人工標注的有害內容數據集,靜態且有限規模的人工標注數據集無法完全覆蓋日新月異的用戶輸入,使得總有模型生成的有害內容繞過檢測模型的風險,最終使大模型錯誤地輸出了不良內容。究其根本,是有害樣本的人工標注難以全面覆蓋用戶動態更新的敏感話題,致使內容檢測模型的無效并使有害內容最終被大模型輸出。教育公平性的倫理問題。在教育方面,對于生成式大模型的過度依賴已經引起了人們的擔憂。據報道,巴黎政治學院、香港浸會大學等全球多所高校已禁止學生使用 ChatGPT 進行學術論文寫作,對可能違反學術道
172、德的相關行為予以限制。顯然,生成式大模型在教育機構行業的濫用已經形成了作弊等不良風氣,AI 創作的文本內容的管理無疑給教育系統帶來了巨大的沖擊。如何正確地使用 AIGC服務的輔助功能來幫助教育科研事業的發展仍然需要更多深入的探討和研究。大模型社會責任的倫理問題。大模型驚人的智能表現引發了社會各界對于未來機器人倫理問題的更多討論??萍及l展使 AI 走向通用人工智能(AGI)的發展道路上,人工智能是否會超越人的智能、以及未來人類將如何控制人工智能的話題被推上風口。目前,大模型引發的崗位替代等社會就業問題已經引起了廣泛關注,AI 天然的數據拷貝能力、數據接入能力、學習速度都遠超人類,未來面對更加智能
173、的大模型應用時,如何賦予大模型社會責任,人類又將如何可信 AI 技術和應用進展白皮書 20234445實現 AI 的可控將一直是 AGI 發展路上需要思考的問題。3.3.3 大模型的攻擊對抗問題大模型的本質是基于 AI 的生成式模型,模型基于大規模參數量的訓練步驟和 Prompt 工程可以進行可靠的樣本數據學習,并最終輸出符合用戶期望的多模態結果。由于學習框架的確定性,攻擊者可以精心設計針對大模型本身的攻擊場景。隨著大模型安全逐漸成為業界不可忽視的重要話題,模型攻防問題已升級為衡量大模型安全可靠與否的首要前提。與傳統安全問題有所不同,AI 大模型所面臨的是全新的安全挑戰。由于傳統防御手段難以有
174、效遷移到 AI 模型的安全防護中,模型攻擊對于大型的機器學習平臺往往具有難以估量的攻擊力與破壞性。目前,大模型在提示語安全、數據安全和模型安全層面面臨嚴重的安全隱患。面向大模型的提示語攻擊通過給出 AI 模型能夠接受的假設,引導模型違反自身編程限制。ChatGPT 的官方聲明表示,目前 ChatGPT存在的缺陷之一是對輸入措辭的調整或多次嘗試同一提示很敏感。也就是說,輸入一個敏感問題,模型可以聲稱不知道答案,但重新組織一種更委婉的措辭,模型則可能會做出回答。在刻意的誘導下,大模型會不可避免地輸出涉及隱私甚至違規的內容。例如提示語注入攻擊(Prompt Injection)可以劫持原本的指令任務
175、輸出惡意用戶期望的任務內容,越獄(Jailbreaking)方法可以賦予 AI 身份角色,在預設場景下誘導模型輸出。來源:清華大學圖 3-9 大模型的提示語安全風險面向大模型的數據投毒攻擊通過在訓練數據中注入惡意樣本或后門,操控模型在推理階段的表現。在面向 AI 大模型場景時,生成式模型的任務邏輯與傳統的分類任務不同,因此傳統的觸發誤分類模式的后門攻擊在生成式模型中看似不易發生。然而,生成式模型也會遭受新型后門攻擊,即操縱訓練數據,可以憑借特定觸發樣本來激發模型生成與正常輸出完成不同的特殊后門輸出。面向大模型的數據重構攻擊可以利用黑盒查詢等手段恢復大模型的訓練數據。有經驗的攻擊者可以通過查詢大
176、語言模型來推斷和提取訓練數據中的隱私信息。例如,GPT-2 上的數據重構攻擊能夠恢復 67%的訓練文本語料,這些被恢復的百字規模的文本序列中包含了個人的身份信息、電子郵箱、電話號碼、家庭住址等敏感信息。面向大模型的成員推斷攻擊則可以判斷某些特定數據是否在目標模型的訓練集里,從而推斷數據是否具備某些屬性。由于如ChatGPT 的大語言模型在模型見過的訓練數據和模型沒見過的其他可信 AI 技術和應用進展白皮書 20234445實現 AI 的可控將一直是 AGI 發展路上需要思考的問題。3.3.3 大模型的攻擊對抗問題大模型的本質是基于 AI 的生成式模型,模型基于大規模參數量的訓練步驟和 Prom
177、pt 工程可以進行可靠的樣本數據學習,并最終輸出符合用戶期望的多模態結果。由于學習框架的確定性,攻擊者可以精心設計針對大模型本身的攻擊場景。隨著大模型安全逐漸成為業界不可忽視的重要話題,模型攻防問題已升級為衡量大模型安全可靠與否的首要前提。與傳統安全問題有所不同,AI 大模型所面臨的是全新的安全挑戰。由于傳統防御手段難以有效遷移到 AI 模型的安全防護中,模型攻擊對于大型的機器學習平臺往往具有難以估量的攻擊力與破壞性。目前,大模型在提示語安全、數據安全和模型安全層面面臨嚴重的安全隱患。面向大模型的提示語攻擊通過給出 AI 模型能夠接受的假設,引導模型違反自身編程限制。ChatGPT 的官方聲明
178、表示,目前 ChatGPT存在的缺陷之一是對輸入措辭的調整或多次嘗試同一提示很敏感。也就是說,輸入一個敏感問題,模型可以聲稱不知道答案,但重新組織一種更委婉的措辭,模型則可能會做出回答。在刻意的誘導下,大模型會不可避免地輸出涉及隱私甚至違規的內容。例如提示語注入攻擊(Prompt Injection)可以劫持原本的指令任務輸出惡意用戶期望的任務內容,越獄(Jailbreaking)方法可以賦予 AI 身份角色,在預設場景下誘導模型輸出。來源:清華大學圖 3-9 大模型的提示語安全風險面向大模型的數據投毒攻擊通過在訓練數據中注入惡意樣本或后門,操控模型在推理階段的表現。在面向 AI 大模型場景時
179、,生成式模型的任務邏輯與傳統的分類任務不同,因此傳統的觸發誤分類模式的后門攻擊在生成式模型中看似不易發生。然而,生成式模型也會遭受新型后門攻擊,即操縱訓練數據,可以憑借特定觸發樣本來激發模型生成與正常輸出完成不同的特殊后門輸出。面向大模型的數據重構攻擊可以利用黑盒查詢等手段恢復大模型的訓練數據。有經驗的攻擊者可以通過查詢大語言模型來推斷和提取訓練數據中的隱私信息。例如,GPT-2 上的數據重構攻擊能夠恢復 67%的訓練文本語料,這些被恢復的百字規模的文本序列中包含了個人的身份信息、電子郵箱、電話號碼、家庭住址等敏感信息。面向大模型的成員推斷攻擊則可以判斷某些特定數據是否在目標模型的訓練集里,從
180、而推斷數據是否具備某些屬性。由于如ChatGPT 的大語言模型在模型見過的訓練數據和模型沒見過的其他可信 AI 技術和應用進展白皮書 20234647數據上表現是不同的,因此同樣存在著面臨成員推斷攻擊的威脅。來源:清華大學圖 3-10 大模型的數據安全風險面向大模型的模型竊取攻擊的攻擊者可以設計問題來問詢目標黑盒的大模型,再根據目標模型的回答來優化訓練自己的模型,使自己的模型與目標大模型的表現接近。盡管對于上千億參數的大模型實現完全功能的竊取并不現實,但對于目標領域任務攻擊者完全可以實現模型知識竊取,來訓練本地體積更小的模型。面向大模型的模型劫持攻擊通過提供攻擊者設定的訓練數據,使模型在其擁有
181、者沒有發覺的情況下,讓目標模型成功執行攻擊者設定的任務。當大模型對外提供訓練接口時,大規模的樣本投毒很容易使 AI 大模型遭到模型劫持攻擊的影響,使模型表現與先前完全不同。來源:清華大學圖 3-11 大模型的模型安全風險面向大模型的海綿樣本攻擊能夠增大模型延遲和能源消耗,推動模型推理的底層硬件系統在性能上達到最壞狀態,從而破壞機器學習模型的可用性。海綿樣本與網絡攻擊中的拒絕服務攻擊(DoS,Denial of Service)的本質類似,攻擊會致使大模型在用戶會話中反應過慢、過度消耗資源。3.4 大模型的可解釋性及公平性大模型的可解釋性和公平性問題是可信 AI 角度下一個重要的前瞻性話題。由上
182、千億級參數量累計的大語言模型看似獲得了前所未有的知識涌現,然而其內在的黑盒本質使“大模型的可解釋性是否變得更強或更弱”仍然是未解之謎。同時,大模型在面對公平性問題的決策時可能會表現得更為偏激。如何有效實踐大模型的可解釋性和公平性是未來模型安全發展的一大挑戰??尚?AI 技術和應用進展白皮書 20234647數據上表現是不同的,因此同樣存在著面臨成員推斷攻擊的威脅。來源:清華大學圖 3-10 大模型的數據安全風險面向大模型的模型竊取攻擊的攻擊者可以設計問題來問詢目標黑盒的大模型,再根據目標模型的回答來優化訓練自己的模型,使自己的模型與目標大模型的表現接近。盡管對于上千億參數的大模型實現完全功能的
183、竊取并不現實,但對于目標領域任務攻擊者完全可以實現模型知識竊取,來訓練本地體積更小的模型。面向大模型的模型劫持攻擊通過提供攻擊者設定的訓練數據,使模型在其擁有者沒有發覺的情況下,讓目標模型成功執行攻擊者設定的任務。當大模型對外提供訓練接口時,大規模的樣本投毒很容易使 AI 大模型遭到模型劫持攻擊的影響,使模型表現與先前完全不同。來源:清華大學圖 3-11 大模型的模型安全風險面向大模型的海綿樣本攻擊能夠增大模型延遲和能源消耗,推動模型推理的底層硬件系統在性能上達到最壞狀態,從而破壞機器學習模型的可用性。海綿樣本與網絡攻擊中的拒絕服務攻擊(DoS,Denial of Service)的本質類似,
184、攻擊會致使大模型在用戶會話中反應過慢、過度消耗資源。3.4 大模型的可解釋性及公平性大模型的可解釋性和公平性問題是可信 AI 角度下一個重要的前瞻性話題。由上千億級參數量累計的大語言模型看似獲得了前所未有的知識涌現,然而其內在的黑盒本質使“大模型的可解釋性是否變得更強或更弱”仍然是未解之謎。同時,大模型在面對公平性問題的決策時可能會表現得更為偏激。如何有效實踐大模型的可解釋性和公平性是未來模型安全發展的一大挑戰??尚?AI 技術和應用進展白皮書 202348493.4.1 大模型的可解釋性可解釋性是一種以人類可理解的方式去解釋或展示 AI 模型的能力。隨著基于深度學習的人工智能系統不斷發展,現
185、有的 AI 模型一般都具有較強的黑盒屬性。理想的可解釋 AI 應當能在給出決策的同時提供預測依據。國際相關組織機構已將“可解釋 AI”作為重要技術發展戰略,如 2017 年,美國國防先進研究計劃局(DARPA)開展“可解釋人工智能”計劃;2019 年,谷歌發布可解釋人工智能白皮書等。目前,針對 AI 模型的可解釋性工作主要包括事前解釋(Ante-hoc)和事后解釋(Post-hoc)兩個方面?;谑虑敖忉尩目山忉屝苑椒?。事前解釋方法又稱為透明模型(Transparent Model),可以利用具有特征重要性區分的自解釋模型來提供對得到結果的解釋,通過研究不同特征對最終預測結果的影響程度來得出解
186、釋。在問答領域中,這一方法也可以利用溯源的方式展示部分或全部的預測推導過程,將最終的預測擴張為一系列推理步驟的結果,形成更加直觀有效的可解釋性技術?;谑潞蠼忉尩目山忉屝苑椒?。事后解釋方法則通常利用規則或具有可解釋能力的簡單替代模型來衡量原始大模型的可解釋性。其次,也有方法使用樣例驅動的方式,通過識別和呈現其他與輸入實例語義相似的已標注實例來解釋輸入實例的預測。此外,還有基于探針的模型可解釋性方法,將大模型的編碼表征輸入其他可解釋模型上來分析原模型所學習到的知識與語義。然而,在現階段,以 ChatGPT 為首的大語言模型在可解釋性方面仍然是未解之謎。除了使用超大規模的參數量來構建具有黑盒屬性的
187、模型外,大語言模型所使用的語料、架構多數是完全未知的,面對如此龐大的黑盒模型,完全解釋其內在的機理與決策依據還需要更加漫長的時間來檢驗。此外,目前現有大模型的推理邏輯的正確性還有待驗證。以 ChatGPT 為例,模型在面對“不知道”的輸入問題時常使用虛構或偽造的結論來充當問題的答案。同時,針對用戶否定的提示信息,模型會趨于否定先前的推理結果以迎合用戶的提示,這種被稱為大模型的“幻覺性”問題(Hallucination)也給大模型的可解釋性帶來了災難性的挑戰。如何實現大模型輸出結論的證據溯源和思維鏈解釋是使大模型走向可信道路的重點難題。同時,未來的大模型應當從開發者角度解決模型本身的可解釋性,才
188、能幫助用戶以及監管方獲取推理結果的可解釋依據,判別模型輸出的真實性和有效性。3.4.2 大模型的公平性如果要使大模型參與到現實問題的決策中,特別是面向社會性的決策問題,就一定要兼顧預測的公平性。由于構建和學習語言大模型時一般需要使用超大規模的語料數據集,數據集中難免存在人類社會對性別、膚色、年齡等的偏見知識,在有偏數據中訓練的大模型會對特定人群輸出帶有偏見的預測結果,目前,ChatGPT 答案輸出的意識形態明顯傾向于西方社會,在基于種族和性別的描述回答中,ChatGPT 生成的答案也有明顯的白人男性傾向。除了訓練數據的偏差外,影響 AI 模型公平性的另外一個原因是大模型本身,AI 模型總是試圖
189、最大限度地提高在數據集中的性能表現,當具有某可信 AI 技術和應用進展白皮書 202348493.4.1 大模型的可解釋性可解釋性是一種以人類可理解的方式去解釋或展示 AI 模型的能力。隨著基于深度學習的人工智能系統不斷發展,現有的 AI 模型一般都具有較強的黑盒屬性。理想的可解釋 AI 應當能在給出決策的同時提供預測依據。國際相關組織機構已將“可解釋 AI”作為重要技術發展戰略,如 2017 年,美國國防先進研究計劃局(DARPA)開展“可解釋人工智能”計劃;2019 年,谷歌發布可解釋人工智能白皮書等。目前,針對 AI 模型的可解釋性工作主要包括事前解釋(Ante-hoc)和事后解釋(Po
190、st-hoc)兩個方面?;谑虑敖忉尩目山忉屝苑椒?。事前解釋方法又稱為透明模型(Transparent Model),可以利用具有特征重要性區分的自解釋模型來提供對得到結果的解釋,通過研究不同特征對最終預測結果的影響程度來得出解釋。在問答領域中,這一方法也可以利用溯源的方式展示部分或全部的預測推導過程,將最終的預測擴張為一系列推理步驟的結果,形成更加直觀有效的可解釋性技術?;谑潞蠼忉尩目山忉屝苑椒?。事后解釋方法則通常利用規則或具有可解釋能力的簡單替代模型來衡量原始大模型的可解釋性。其次,也有方法使用樣例驅動的方式,通過識別和呈現其他與輸入實例語義相似的已標注實例來解釋輸入實例的預測。此外,還
191、有基于探針的模型可解釋性方法,將大模型的編碼表征輸入其他可解釋模型上來分析原模型所學習到的知識與語義。然而,在現階段,以 ChatGPT 為首的大語言模型在可解釋性方面仍然是未解之謎。除了使用超大規模的參數量來構建具有黑盒屬性的模型外,大語言模型所使用的語料、架構多數是完全未知的,面對如此龐大的黑盒模型,完全解釋其內在的機理與決策依據還需要更加漫長的時間來檢驗。此外,目前現有大模型的推理邏輯的正確性還有待驗證。以 ChatGPT 為例,模型在面對“不知道”的輸入問題時常使用虛構或偽造的結論來充當問題的答案。同時,針對用戶否定的提示信息,模型會趨于否定先前的推理結果以迎合用戶的提示,這種被稱為大
192、模型的“幻覺性”問題(Hallucination)也給大模型的可解釋性帶來了災難性的挑戰。如何實現大模型輸出結論的證據溯源和思維鏈解釋是使大模型走向可信道路的重點難題。同時,未來的大模型應當從開發者角度解決模型本身的可解釋性,才能幫助用戶以及監管方獲取推理結果的可解釋依據,判別模型輸出的真實性和有效性。3.4.2 大模型的公平性如果要使大模型參與到現實問題的決策中,特別是面向社會性的決策問題,就一定要兼顧預測的公平性。由于構建和學習語言大模型時一般需要使用超大規模的語料數據集,數據集中難免存在人類社會對性別、膚色、年齡等的偏見知識,在有偏數據中訓練的大模型會對特定人群輸出帶有偏見的預測結果,目
193、前,ChatGPT 答案輸出的意識形態明顯傾向于西方社會,在基于種族和性別的描述回答中,ChatGPT 生成的答案也有明顯的白人男性傾向。除了訓練數據的偏差外,影響 AI 模型公平性的另外一個原因是大模型本身,AI 模型總是試圖最大限度地提高在數據集中的性能表現,當具有某可信 AI 技術和應用進展白皮書 20235051種屬性的實例樣本顯著優于其他屬性的樣本時,模型不可避免地以更高的頻率針對這一特殊屬性進行參數優化,從而變相放大了偏見知識,最終給社會帶來嚴重的內容安全隱患。來源:Political Compass圖 3-12 大模型意識形態偏見所引發的公平性問題為了解決大模型學習中存在的公平性
194、問題,目前的研究方法主要考慮從兩個方面出發落實平臺的公平性:一是標準化 AI 大模型的訓練數據質量。通過更加公平公正地獲取不同來源的數據,在符合道德約束的前提下進行數據標注工作。二是優化 AI 大模型的數據敏感性。減少模型對敏感數據的依賴性,從本質上除去算法對偏見知識的學習引導,使大模型在不同個體間實現公平的性能。第四章 以技術為保障的可信 AI 評估4.1 可信 AI 檢測工具隨著 AI 技術的不斷發展和應用,如何檢測 AI 可信程度受到公眾和社會的廣泛關注??尚?AI 檢測工具和平臺的發展歷程,大致可以劃分為三個主要階段:初期階段(2018 年以前):雖然深度學習技術取得突破性進展,但是
195、AI 應用仍處于初級階段,更多地關注 AI 技術本身的發展,AI從業者主要致力于提升 AI 性能。相對的,對 AI 的可信問題的關注度相對較低,可信 AI 的研究和相關工具主要限定于學術領域。覺醒階段(2018-2020 年):AI 服務在各行業和領域廣泛應用,影響日益顯著,公眾開始認識并探討 AI 的可信問題,例如 AI 服務存在的歧視和不公平性、AI 決策的不可解釋性。相關的研究機構和企業開始開發并推出針對特定可信 AI 問題的工具,如微軟的公平性評估工具 Fairlearn,以及 IBM 的用于評估和提升模型魯棒性的工具ART(Adversarial Robustness Toolbox
196、)。發展階段(2021 年以后):可信 AI 的問題和挑戰初步形成社會共識,可信 AI 工具和平臺開始關注其綜合性和易用性,而不僅僅是針對特定的可信 AI 問題。例如,新加坡政府發布了全球首個人工智能監管測試框架和工具集 A.I.Verify;螞蟻集團也推出了專注于AI 安全性的綜合評測平臺蟻鑒。來源:螞蟻集團圖 4-1 當前面向可信 AI 各子領域的常見工具近期,隨著大模型和 AIGC 的出現和推廣,相關評估也陸續開展,目前關于 AIGC 的評估主要包括通用能力評測(helpful)與安全性(harmless)評測兩大方向。通用能力指的是 AIGC 在各類任可信 AI 技術和應用進展白皮書
197、20235051種屬性的實例樣本顯著優于其他屬性的樣本時,模型不可避免地以更高的頻率針對這一特殊屬性進行參數優化,從而變相放大了偏見知識,最終給社會帶來嚴重的內容安全隱患。來源:Political Compass圖 3-12 大模型意識形態偏見所引發的公平性問題為了解決大模型學習中存在的公平性問題,目前的研究方法主要考慮從兩個方面出發落實平臺的公平性:一是標準化 AI 大模型的訓練數據質量。通過更加公平公正地獲取不同來源的數據,在符合道德約束的前提下進行數據標注工作。二是優化 AI 大模型的數據敏感性。減少模型對敏感數據的依賴性,從本質上除去算法對偏見知識的學習引導,使大模型在不同個體間實現公
198、平的性能。第四章 以技術為保障的可信 AI 評估4.1 可信 AI 檢測工具隨著 AI 技術的不斷發展和應用,如何檢測 AI 可信程度受到公眾和社會的廣泛關注??尚?AI 檢測工具和平臺的發展歷程,大致可以劃分為三個主要階段:初期階段(2018 年以前):雖然深度學習技術取得突破性進展,但是 AI 應用仍處于初級階段,更多地關注 AI 技術本身的發展,AI從業者主要致力于提升 AI 性能。相對的,對 AI 的可信問題的關注度相對較低,可信 AI 的研究和相關工具主要限定于學術領域。覺醒階段(2018-2020 年):AI 服務在各行業和領域廣泛應用,影響日益顯著,公眾開始認識并探討 AI 的可
199、信問題,例如 AI 服務存在的歧視和不公平性、AI 決策的不可解釋性。相關的研究機構和企業開始開發并推出針對特定可信 AI 問題的工具,如微軟的公平性評估工具 Fairlearn,以及 IBM 的用于評估和提升模型魯棒性的工具ART(Adversarial Robustness Toolbox)。發展階段(2021 年以后):可信 AI 的問題和挑戰初步形成社會共識,可信 AI 工具和平臺開始關注其綜合性和易用性,而不僅僅是針對特定的可信 AI 問題。例如,新加坡政府發布了全球首個人工智能監管測試框架和工具集 A.I.Verify;螞蟻集團也推出了專注于AI 安全性的綜合評測平臺蟻鑒。來源:螞
200、蟻集團圖 4-1 當前面向可信 AI 各子領域的常見工具近期,隨著大模型和 AIGC 的出現和推廣,相關評估也陸續開展,目前關于 AIGC 的評估主要包括通用能力評測(helpful)與安全性(harmless)評測兩大方向。通用能力指的是 AIGC 在各類任可信 AI 技術和應用進展白皮書 20235253務中的表現和適應能力,如邏輯推理、文本理解、問題解答等,安全性評測則涵蓋內容安全、數據安全和倫理安全,著重評估 AIGC在處理數據、信息和道德問題時的穩健性和責任性?,F有的評估方式主要分為標準數據集評測和大眾評測兩種,標準數據集評測是在固定的測試集中對 AIGC 進行定量分析,從而獲取其精
201、確的性能指標,評測效率高,在無數據泄露情況下更加全面合理;大眾評測則更加靈活開放,不設定固定測試集,讓用戶以匿名的方式對 AIGC產品進行實際使用后的反饋評價,能夠很好解決測試集泄露造成的過擬合問題。這兩種評測方式結合使用使我們可以全面、深入地理解 AIGC 的實際表現和潛力。目前,OpenAI 已開源 Evals 評測框架,伯克利大學推出 elo 排行榜;在國內,清華大學發布了大模型安全測評平臺,科大訊飛推出人工智能評測體系,中國移動提出 AI 大模型可信安全實施框架,中國信通院成立可信人工智能推進計劃以及人工智能工程化委員會大模型工作組,共同研制系列標準,全面評估開發大模型的能力??偟膩碚f
202、,隨著可信 AI 問題逐步被全社會認同,為可信 AI 檢測而開發的優秀工具和平臺持續出現和進化。然而,可信 AI 在企業中實際的應用很多時候因為難以帶來直接的經濟效益而落地困難,相應的可信 AI 檢測工具和平臺的發展也將是一個長期的過程,需要政府、學術界、產業界保持持續投入。4.2 可信 AI 檢測框架可信 AI 檢測是運用技術手段對 AI 模型服務的可信度和可靠性進行定量或定性評估和驗證??尚?AI 檢測內容主要包括隱私保護檢測、可解釋性檢測、公平性檢測和魯棒性檢測,具體評估內容、指標和方式如下表所示。表 4-1 可信 AI 檢測指標體系檢測維度檢測指標評估方式魯棒性泛化性使用模型建模時未見
203、過的數據,評估模型性能指標與建模時的差異。數據魯棒性模型對自然噪聲和數據缺失時表現的魯棒性。評測時可以模擬噪聲和缺失,觀察模型性能指標降低的情況。對抗性魯棒性模型在人為惡意攻擊如梯度攻擊時的魯棒性。評測時可以進行模擬攻擊,觀察攻擊前后模型性能指標變化情況。公平性分組公平性模型對于不同群體之間的公平性,如性別、種族、年齡等。評測時將數據按照特定群體屬性進行分組,比較模型在不同群體上的性能差異。差異公平性模型對于不同群體之間差異的敏感性,如收入差異、地理差異等。評測時將數據按照特定差異進行分組,比較模型在不同差異水平上的性能差異。機會公平性模型提供給不同群體或特征的機會是否公平均等,如就業機會、貸
204、款機會等。評測時統計分析不同群體之間的機會差異。隱私數據隱私模型對于訓練數據中個人身份、敏感信息的保護程度。評測時使用不同的隱私攻擊方法,如成員推斷攻擊、屬性推斷攻擊等,評估模型對于數據隱私的防護能力。參數隱私模型在訓練過程中參數的隱私保護程度。評測時使用參數反演攻擊、模型倒推攻擊等方法,評估模型對于參數隱私的保護程度。輸出隱私模型對于預測輸出中個人隱私信息的泄露程度。評測時使用敏感信息推斷攻擊、后處理方法等,評估模型對于輸出隱私的保護程度。差分隱私模型在差分隱私保護下的隱私保護程度。評測時應用差分隱私機制,評估模型在不同隱私預算下的隱私保護能力??尚?AI 技術和應用進展白皮書 202352
205、53務中的表現和適應能力,如邏輯推理、文本理解、問題解答等,安全性評測則涵蓋內容安全、數據安全和倫理安全,著重評估 AIGC在處理數據、信息和道德問題時的穩健性和責任性?,F有的評估方式主要分為標準數據集評測和大眾評測兩種,標準數據集評測是在固定的測試集中對 AIGC 進行定量分析,從而獲取其精確的性能指標,評測效率高,在無數據泄露情況下更加全面合理;大眾評測則更加靈活開放,不設定固定測試集,讓用戶以匿名的方式對 AIGC產品進行實際使用后的反饋評價,能夠很好解決測試集泄露造成的過擬合問題。這兩種評測方式結合使用使我們可以全面、深入地理解 AIGC 的實際表現和潛力。目前,OpenAI 已開源
206、Evals 評測框架,伯克利大學推出 elo 排行榜;在國內,清華大學發布了大模型安全測評平臺,科大訊飛推出人工智能評測體系,中國移動提出 AI 大模型可信安全實施框架,中國信通院成立可信人工智能推進計劃以及人工智能工程化委員會大模型工作組,共同研制系列標準,全面評估開發大模型的能力??偟膩碚f,隨著可信 AI 問題逐步被全社會認同,為可信 AI 檢測而開發的優秀工具和平臺持續出現和進化。然而,可信 AI 在企業中實際的應用很多時候因為難以帶來直接的經濟效益而落地困難,相應的可信 AI 檢測工具和平臺的發展也將是一個長期的過程,需要政府、學術界、產業界保持持續投入。4.2 可信 AI 檢測框架可
207、信 AI 檢測是運用技術手段對 AI 模型服務的可信度和可靠性進行定量或定性評估和驗證??尚?AI 檢測內容主要包括隱私保護檢測、可解釋性檢測、公平性檢測和魯棒性檢測,具體評估內容、指標和方式如下表所示。表 4-1 可信 AI 檢測指標體系檢測維度檢測指標評估方式魯棒性泛化性使用模型建模時未見過的數據,評估模型性能指標與建模時的差異。數據魯棒性模型對自然噪聲和數據缺失時表現的魯棒性。評測時可以模擬噪聲和缺失,觀察模型性能指標降低的情況。對抗性魯棒性模型在人為惡意攻擊如梯度攻擊時的魯棒性。評測時可以進行模擬攻擊,觀察攻擊前后模型性能指標變化情況。公平性分組公平性模型對于不同群體之間的公平性,如性
208、別、種族、年齡等。評測時將數據按照特定群體屬性進行分組,比較模型在不同群體上的性能差異。差異公平性模型對于不同群體之間差異的敏感性,如收入差異、地理差異等。評測時將數據按照特定差異進行分組,比較模型在不同差異水平上的性能差異。機會公平性模型提供給不同群體或特征的機會是否公平均等,如就業機會、貸款機會等。評測時統計分析不同群體之間的機會差異。隱私數據隱私模型對于訓練數據中個人身份、敏感信息的保護程度。評測時使用不同的隱私攻擊方法,如成員推斷攻擊、屬性推斷攻擊等,評估模型對于數據隱私的防護能力。參數隱私模型在訓練過程中參數的隱私保護程度。評測時使用參數反演攻擊、模型倒推攻擊等方法,評估模型對于參數
209、隱私的保護程度。輸出隱私模型對于預測輸出中個人隱私信息的泄露程度。評測時使用敏感信息推斷攻擊、后處理方法等,評估模型對于輸出隱私的保護程度。差分隱私模型在差分隱私保護下的隱私保護程度。評測時應用差分隱私機制,評估模型在不同隱私預算下的隱私保護能力??尚?AI 技術和應用進展白皮書 20235455泛化隱私模型對于未見過數據的隱私保護程度。評測時使用未見過的數據集進行測試,評估模型在新數據上的隱私保護性能??山忉尳忉屨_性模型解釋是否忠實地反映了模型判斷的理由。評測時使用增刪重要特征的方法,檢測其對模型判斷的影響程度,若特征重要性與影響程度匹配則正確性越高。解釋完整性模型解釋對于模型覆蓋的完整度
210、。評測時使用解釋對模型進行重構,若重構誤差較小,則解釋對于模型行為覆蓋得越全面、詳細,完備性越高。解釋一致性模型解釋在相同輸入下的解釋一致性程度。評測時對不同部署下的模型及其解釋,檢測其模型輸出級模型解釋的一致程度。解釋連續性模型解釋在相似輸入下的解釋連續性程度。評測時對樣本進行輕微擾動或選擇相似樣本,比較其解釋與原樣本解釋的連續程度。解釋差異性模型解釋在針對不同目標變量解釋時的差異程度。評測時選擇不同的目標變量要求模型進行解釋,比較其在不同目標變量下的解釋的差異度。解釋簡潔性模型解釋信息是否簡潔。評測時對模型解釋的信息熵及頭部信息含量進行評估。來源:螞蟻集團近年來,可信 AI 檢測技術得到了
211、快速發展??尚?AI 檢測技術的發展涵蓋了魯棒性、可解釋性、隱私和公平性的各方面,學術界和產業界結合理論研究和實際應用開發了大量技術、工具和平臺,幫助 AI 系統能夠更加可信,符合道德倫理要求,并幫助模型服務在不斷變化的社會和法律環境中得到公眾和監管的認可。如在魯棒性方向,研究人員開發了一系列方法來檢測和防御對 AI 系統的惡意攻擊,包括對抗性樣本生成、模型修飾和防御、對抗性訓練等技術,這些技術旨在提高 AI 系統的穩定性和安全性,防止其被誤導或濫用;在隱私保護問題上,開發了差分隱私、多方計算、同態加密等方法,用于保護敏感數據并確保 AI 系統符合隱私法規和規定。企業可信 AI 檢測標準對于建
212、立與客戶的信任關系至關重要。企業在向客戶提供 AI 服務的同時,應制定和遵循自身的可信 AI 檢測標準和流程,并向客戶清晰地展示這些信息,提高透明度,從而獲得和保持客戶的信任。行業可信 AI 檢測標準是為了在行業內實現可信 AI 檢測標準的統一,促進可信 AI 在行業的應用。各行業在可信AI 領域有各自的具體問題,因此對于可信 AI 的需求和關注點也各有不同,這使得制定一個適用于所有行業的統一標準變得非常困難。因此,各行業都可以根據自身的特點和需求,制定并實施各自的可信 AI 檢測標準和流程,更好地推動行業可信 AI 的發展和應用。4.3 檢測實例分析在實施可信 AI 評估過程中,不僅需要關注
213、技術的深度和廣度,還需要以實際案例為基礎進行分析,以更好地了解評估方法的有效性和適用性。本節將以“RobustBench”魯棒性評測和螞蟻集團“蟻鑒”AI 安全檢測平臺魯棒性測評為例,介紹兩個魯棒性檢測實例。RobustBench是一個廣泛使用的基準測試平臺,cifar和ImageNet測試數據集旨在評估機器學習模型在對抗攻擊下的魯棒性。該平臺提供了一系列具有挑戰性的對抗攻擊,用于測試各種 AI 模型的魯棒性。通過使用同一個數據集進行評估,RobustBench 能夠提供可比較的結果,使研究人員和從業者能夠更好地理解和比較不同模型性能??尚?AI 技術和應用進展白皮書 20235455泛化隱私
214、模型對于未見過數據的隱私保護程度。評測時使用未見過的數據集進行測試,評估模型在新數據上的隱私保護性能??山忉尳忉屨_性模型解釋是否忠實地反映了模型判斷的理由。評測時使用增刪重要特征的方法,檢測其對模型判斷的影響程度,若特征重要性與影響程度匹配則正確性越高。解釋完整性模型解釋對于模型覆蓋的完整度。評測時使用解釋對模型進行重構,若重構誤差較小,則解釋對于模型行為覆蓋得越全面、詳細,完備性越高。解釋一致性模型解釋在相同輸入下的解釋一致性程度。評測時對不同部署下的模型及其解釋,檢測其模型輸出級模型解釋的一致程度。解釋連續性模型解釋在相似輸入下的解釋連續性程度。評測時對樣本進行輕微擾動或選擇相似樣本,比
215、較其解釋與原樣本解釋的連續程度。解釋差異性模型解釋在針對不同目標變量解釋時的差異程度。評測時選擇不同的目標變量要求模型進行解釋,比較其在不同目標變量下的解釋的差異度。解釋簡潔性模型解釋信息是否簡潔。評測時對模型解釋的信息熵及頭部信息含量進行評估。來源:螞蟻集團近年來,可信 AI 檢測技術得到了快速發展??尚?AI 檢測技術的發展涵蓋了魯棒性、可解釋性、隱私和公平性的各方面,學術界和產業界結合理論研究和實際應用開發了大量技術、工具和平臺,幫助 AI 系統能夠更加可信,符合道德倫理要求,并幫助模型服務在不斷變化的社會和法律環境中得到公眾和監管的認可。如在魯棒性方向,研究人員開發了一系列方法來檢測和
216、防御對 AI 系統的惡意攻擊,包括對抗性樣本生成、模型修飾和防御、對抗性訓練等技術,這些技術旨在提高 AI 系統的穩定性和安全性,防止其被誤導或濫用;在隱私保護問題上,開發了差分隱私、多方計算、同態加密等方法,用于保護敏感數據并確保 AI 系統符合隱私法規和規定。企業可信 AI 檢測標準對于建立與客戶的信任關系至關重要。企業在向客戶提供 AI 服務的同時,應制定和遵循自身的可信 AI 檢測標準和流程,并向客戶清晰地展示這些信息,提高透明度,從而獲得和保持客戶的信任。行業可信 AI 檢測標準是為了在行業內實現可信 AI 檢測標準的統一,促進可信 AI 在行業的應用。各行業在可信AI 領域有各自的
217、具體問題,因此對于可信 AI 的需求和關注點也各有不同,這使得制定一個適用于所有行業的統一標準變得非常困難。因此,各行業都可以根據自身的特點和需求,制定并實施各自的可信 AI 檢測標準和流程,更好地推動行業可信 AI 的發展和應用。4.3 檢測實例分析在實施可信 AI 評估過程中,不僅需要關注技術的深度和廣度,還需要以實際案例為基礎進行分析,以更好地了解評估方法的有效性和適用性。本節將以“RobustBench”魯棒性評測和螞蟻集團“蟻鑒”AI 安全檢測平臺魯棒性測評為例,介紹兩個魯棒性檢測實例。RobustBench是一個廣泛使用的基準測試平臺,cifar和ImageNet測試數據集旨在評估
218、機器學習模型在對抗攻擊下的魯棒性。該平臺提供了一系列具有挑戰性的對抗攻擊,用于測試各種 AI 模型的魯棒性。通過使用同一個數據集進行評估,RobustBench 能夠提供可比較的結果,使研究人員和從業者能夠更好地理解和比較不同模型性能??尚?AI 技術和應用進展白皮書 20235657來源:螞蟻集團圖 4-2 蟻鑒平臺測評流程和報告示例螞蟻集團的蟻鑒 AI 安全檢測平臺是專注于 AI 安全性的綜合評估工具,通過模擬不同業務場景和攻擊方式,對 AI 模型的安全性進行全面評估。例如人臉攻擊評測模塊模擬了各種人臉攻擊,包括攻擊者使用面具、照片或合成圖像等來欺騙人臉識別系統的情況,檢驗人臉識別系統在面
219、對這些攻擊時的準確性和魯棒性,進而提供改進系統安全性的建議和措施。文本變種攻擊評測通過使用變種技術生成語義上接近但具有誤導性的輸入,如替換單詞、插入或刪除詞語等方式,來評估自然語言處理系統的魯棒性??傮w來看,行業對于 AI 安全性測評的研究已經取得了很多進展,這些工具和平臺為 AI 安全性評估提供了更加全面和標準化的方法。然而也要認識到,盡管研究進展迅速,但可信評估的研究常常滯后于應用技術的發展,這可能導致潛在的安全風險在實際應用中被忽略或未能及時解決,可能會給社會帶來巨大的危害。隨著技術的發展潛在問題也會越來越多,我們應該意識到其重要性,并采取行動來推動相關研究和實踐。這既需要更多的實踐和經
220、驗積累,考慮社會、法律和倫理等多個方面的因素,不斷改進和完善評估方法,也需要加強學術界、產業界和監管機構的溝通與合作,共同制定標準和指南,推動可信 AI 測評落地,建立起可信賴的 AI 系統,避免潛在的安全風險,確保 AI 技術為社會帶來積極的影響。第五章 發展建議和趨勢展望5.1 發展建議5.1.1 技術維度加強大模型的事實可信和邏輯可控。針對大型 AI 的事實不可信和邏輯不可控性問題,需要在模型開發和運行過程中加入更多的可控和可解釋的機制,以實現模型結果的可靠性和透明性;建立更完善的評估和審計機制,對模型的正確性進行驗證和監督;加強數據隱私和安全保護,防止數據泄露和濫用,保證 AI 的穩定
221、和安全性。另外,利用大模型本身的強大性能實現 AI 可靠性的提升也是未來值得挖掘的技術方向,譬如用大模型生成能力“左右互博”提升模型魯棒性,用 GPT4.0 解釋 GPT2.0 的神經元激活過程來了解大模型內可信 AI 技術和應用進展白皮書 20235657來源:螞蟻集團圖 4-2 蟻鑒平臺測評流程和報告示例螞蟻集團的蟻鑒 AI 安全檢測平臺是專注于 AI 安全性的綜合評估工具,通過模擬不同業務場景和攻擊方式,對 AI 模型的安全性進行全面評估。例如人臉攻擊評測模塊模擬了各種人臉攻擊,包括攻擊者使用面具、照片或合成圖像等來欺騙人臉識別系統的情況,檢驗人臉識別系統在面對這些攻擊時的準確性和魯棒性
222、,進而提供改進系統安全性的建議和措施。文本變種攻擊評測通過使用變種技術生成語義上接近但具有誤導性的輸入,如替換單詞、插入或刪除詞語等方式,來評估自然語言處理系統的魯棒性??傮w來看,行業對于 AI 安全性測評的研究已經取得了很多進展,這些工具和平臺為 AI 安全性評估提供了更加全面和標準化的方法。然而也要認識到,盡管研究進展迅速,但可信評估的研究常常滯后于應用技術的發展,這可能導致潛在的安全風險在實際應用中被忽略或未能及時解決,可能會給社會帶來巨大的危害。隨著技術的發展潛在問題也會越來越多,我們應該意識到其重要性,并采取行動來推動相關研究和實踐。這既需要更多的實踐和經驗積累,考慮社會、法律和倫理
223、等多個方面的因素,不斷改進和完善評估方法,也需要加強學術界、產業界和監管機構的溝通與合作,共同制定標準和指南,推動可信 AI 測評落地,建立起可信賴的 AI 系統,避免潛在的安全風險,確保 AI 技術為社會帶來積極的影響。第五章 發展建議和趨勢展望5.1 發展建議5.1.1 技術維度加強大模型的事實可信和邏輯可控。針對大型 AI 的事實不可信和邏輯不可控性問題,需要在模型開發和運行過程中加入更多的可控和可解釋的機制,以實現模型結果的可靠性和透明性;建立更完善的評估和審計機制,對模型的正確性進行驗證和監督;加強數據隱私和安全保護,防止數據泄露和濫用,保證 AI 的穩定和安全性。另外,利用大模型本
224、身的強大性能實現 AI 可靠性的提升也是未來值得挖掘的技術方向,譬如用大模型生成能力“左右互博”提升模型魯棒性,用 GPT4.0 解釋 GPT2.0 的神經元激活過程來了解大模型內可信 AI 技術和應用進展白皮書 20235859部的工作機理,用大模型監督大模型生成內容的倫理問題等一系列有價值的探索也在飛速進展中。引入可信可控的人機交互范式,推動可信 AI 深度進化。大模型訓練中強化學習應用廣泛,此類應用強調模型訓練中的人機交互,帶來了模型能力的突破性涌現。但復雜的專家邏輯常常導致 AI 系統難以理解和預測,需要進一步引入可信可控的人機交互機制來推進人工智能技術的深度進化。在數據處理方面,需要
225、標注人員對訓練數據進行必要區分和管理,避免輸入側的誤導性信息;在模型訓練過程中,通過有效人機交互加強專家對模型的穩定性和可靠性評估。同時,通過引入專家邏輯范式,能夠幫助加強合規性,提升 AI 系統的可控性。加強多方協同的技術運轉模式,保障可信 AI 發展。隨著 AI 技術在實際應用中的不斷擴展,需要消除信息孤島,為 AI 系統的進一步應用提供支持。鼓勵不同主體之間信息的安全有效的共享,加強多方協同,可以提高人們對 AI 系統的信任度,促進可信 AI 的推廣應用。同時,確保 AI 模型協作生產時全鏈路的協調一致,打通數據層、算法層、測試層、系統開發層技術人員的語義鴻溝。協作梳理數據處理、特征工程
226、、模型預訓練、指令微調、反饋式強化學習等階段的可信依據和安全保障措施,實現不可信事實責任發生時的快速溯源與出錯環節的精準定位。此外,加強 AI 技術開發者與監管方的溝通協作,建立更可靠的可信模型和監管體系,進而使多方協同的技術運作從根本上提高人們對 AI 系統的信任度,促進可信 AI 的推廣應用。5.1.2 產業維度發展與時俱進的可信人工智能,盡快形成新技術趨勢下的可信共識。人工智能是快速發展中的新一代信息技術,大模型、AIGC 等的產生和發展更是以難以想象的速度飛奔向前,在帶來爆發式增長和全新生產方式的同時,也提升了算法黑盒化程度,降低了系統遭受攻擊的門檻,公眾對大模型隱私保護的關注度大幅提
227、升,對大模型廠商提出更高技術和倫理要求。建議做好產業前沿跟蹤,形成覆蓋“技術-產品-應用”鏈條的可信人工智能監測研究體系,準確識別和分析大模型等對可信人工智能各類產業主體的潛在影響,更新具有行業影響力、持續演進的可信人工智能方法論,及時調整可信人工智能落地舉措,形成面向大模型等新技術的可信人工智能共識。發展面向場景的可信人工智能,加速推動新產業升級中的可信落地。當前人工智能已進入工程化落地時代,人工智能深耕行業應用、推進傳統行業智能化轉型是大勢所趨。大模型的發展重心也正在逐步由學術打榜向工程實踐轉移,強調以通用的人工智能能力支撐應用創新與傳統產業轉型升級,“大模型+”將會成為未來經濟社會發展的
228、重要環節。一方面,要促進可信人工智能與傳統行業嵌合應用,在轉型升級的過程中將可信理念同步納入考量,進一步提升智能制造、智能交通、智慧金融服務等領域可信人工智能發展水平,形成一批落地標桿并加快復制推廣;另一方面,反復打磨存量可信應用場景,建立有效的升級和試錯機制,進一步探索大模型+智能終端等新場景下的可信實踐,掌握產業話語權和市場主動權??尚?AI 技術和應用進展白皮書 20235859部的工作機理,用大模型監督大模型生成內容的倫理問題等一系列有價值的探索也在飛速進展中。引入可信可控的人機交互范式,推動可信 AI 深度進化。大模型訓練中強化學習應用廣泛,此類應用強調模型訓練中的人機交互,帶來了模
229、型能力的突破性涌現。但復雜的專家邏輯常常導致 AI 系統難以理解和預測,需要進一步引入可信可控的人機交互機制來推進人工智能技術的深度進化。在數據處理方面,需要標注人員對訓練數據進行必要區分和管理,避免輸入側的誤導性信息;在模型訓練過程中,通過有效人機交互加強專家對模型的穩定性和可靠性評估。同時,通過引入專家邏輯范式,能夠幫助加強合規性,提升 AI 系統的可控性。加強多方協同的技術運轉模式,保障可信 AI 發展。隨著 AI 技術在實際應用中的不斷擴展,需要消除信息孤島,為 AI 系統的進一步應用提供支持。鼓勵不同主體之間信息的安全有效的共享,加強多方協同,可以提高人們對 AI 系統的信任度,促進
230、可信 AI 的推廣應用。同時,確保 AI 模型協作生產時全鏈路的協調一致,打通數據層、算法層、測試層、系統開發層技術人員的語義鴻溝。協作梳理數據處理、特征工程、模型預訓練、指令微調、反饋式強化學習等階段的可信依據和安全保障措施,實現不可信事實責任發生時的快速溯源與出錯環節的精準定位。此外,加強 AI 技術開發者與監管方的溝通協作,建立更可靠的可信模型和監管體系,進而使多方協同的技術運作從根本上提高人們對 AI 系統的信任度,促進可信 AI 的推廣應用。5.1.2 產業維度發展與時俱進的可信人工智能,盡快形成新技術趨勢下的可信共識。人工智能是快速發展中的新一代信息技術,大模型、AIGC 等的產生
231、和發展更是以難以想象的速度飛奔向前,在帶來爆發式增長和全新生產方式的同時,也提升了算法黑盒化程度,降低了系統遭受攻擊的門檻,公眾對大模型隱私保護的關注度大幅提升,對大模型廠商提出更高技術和倫理要求。建議做好產業前沿跟蹤,形成覆蓋“技術-產品-應用”鏈條的可信人工智能監測研究體系,準確識別和分析大模型等對可信人工智能各類產業主體的潛在影響,更新具有行業影響力、持續演進的可信人工智能方法論,及時調整可信人工智能落地舉措,形成面向大模型等新技術的可信人工智能共識。發展面向場景的可信人工智能,加速推動新產業升級中的可信落地。當前人工智能已進入工程化落地時代,人工智能深耕行業應用、推進傳統行業智能化轉型
232、是大勢所趨。大模型的發展重心也正在逐步由學術打榜向工程實踐轉移,強調以通用的人工智能能力支撐應用創新與傳統產業轉型升級,“大模型+”將會成為未來經濟社會發展的重要環節。一方面,要促進可信人工智能與傳統行業嵌合應用,在轉型升級的過程中將可信理念同步納入考量,進一步提升智能制造、智能交通、智慧金融服務等領域可信人工智能發展水平,形成一批落地標桿并加快復制推廣;另一方面,反復打磨存量可信應用場景,建立有效的升級和試錯機制,進一步探索大模型+智能終端等新場景下的可信實踐,掌握產業話語權和市場主動權??尚?AI 技術和應用進展白皮書 202360615.1.3 生態維度加強標準制定,推動標準體系邁向評測
233、評估。企業、研究機構以及高校等正在不斷加快自身可信技術能力建設,增強核心能力自主性,共同努力推進可信人工智能標準研制,加速研究成果的標準化轉變。近期大模型成果接連發布,然而針對大模型的性能測評研究目前仍十分匱乏,既缺乏性能評測框架,又沒有科學評測方法,很難公正、準確地評估各模型。因此,建議加快打造國內權威、公平科學的自動化、自適應評測平臺,加強對開源許可證的探索,圍繞數據版權、算法能力、開源機制等建立全生命周期開源評估體系,形成行業分級分類的商用準入許可或評估備案機制。打造信創的開源基模型和可采信的訓練與微調數據集,滿足行業研究與商業需求。5.1.4 監加強用戶教育,正確認知通用人工智能技術。
234、社會公眾是人工智能技術的最終使用者和受益者,引導社會公眾產生正確認識可幫助人工智能更快捷、更順暢地與千行百業融合,形成與產業生態的雙向互動。建議從引導預期和營造氛圍兩方面著手,加強對社會公眾的宣傳培養。一是引導產生合理預期,客觀展現技術的兩面性,避免非黑即白和夸大單一維度效果的宣傳推廣,幫助公眾更全面、更客觀地認識和使用新一代技術。二是著力營造可信氛圍,通過可信論壇、可信案例講解、專家宣講等形式向公眾說明可信人工智能對通用人工智能潛在風險的規避和控制作用,支撐通用人工智能技術突破與發展。管維度以審慎監管劃定風險底線。一是分級分類,做好與現有體系的銜接,面向場景適用需求審慎監管,采取差異化的監管
235、方式方法。例如,互聯網信息服務深度合成活動被一些不法分子利用,國家網信辦出臺了相關管理規定予以規范;大模型在醫療場景的應用風險暫不明確,短期內可以沿用原有路徑。二是加快開展安全倫理等方面的風險研究,豐富面向大模型和 AIGC 的可信人工智能監管技術方案儲備,支持專業機構評估出具人工智能應用場景風險評估報告,建設可以區分真實和合成內容、跟蹤模型泄漏溯源和水印系統,健全審計和認證生態系統。三是公眾利益優先,建立結果導向的審慎監管,加強對仇恨言論、人種歧視、悲觀厭世等內容生成的審核監管,探索關鍵行業訓練數據審核,建立完善大模型訓練師、提示工程師專業培訓和繼續教育體系。以包容監管引領創新發展??尚湃斯?/p>
236、智能治理又要防范潛在風險,又要把握技術利好,推動和幫助新技術的培育和應用,均衡長期探索與短期應用的關系,英國就有意對人工智能采取寬泛的監管原則以搶占更多話語權。建議一是探索監管與技術創新融合,如垂直行業大模型沙盒監管機制、負面管理清單以及通過局域網、專區等形式率先提供“大模型+”服務,以點狀突破帶動全面拓展。二是面向大模型工程落地健全治理,以 MLOps(機器學習運營,MachineLearning Operations)為代表的自動運維技術有望助力大模型落地生花,也將推動可信人工智能治理形成系統工程,而不僅僅是針對單一因素的治理。三是監管與行業自治有機結合,充分發揮各類行業可信 AI 技術和
237、應用進展白皮書 202360615.1.3 生態維度加強標準制定,推動標準體系邁向評測評估。企業、研究機構以及高校等正在不斷加快自身可信技術能力建設,增強核心能力自主性,共同努力推進可信人工智能標準研制,加速研究成果的標準化轉變。近期大模型成果接連發布,然而針對大模型的性能測評研究目前仍十分匱乏,既缺乏性能評測框架,又沒有科學評測方法,很難公正、準確地評估各模型。因此,建議加快打造國內權威、公平科學的自動化、自適應評測平臺,加強對開源許可證的探索,圍繞數據版權、算法能力、開源機制等建立全生命周期開源評估體系,形成行業分級分類的商用準入許可或評估備案機制。打造信創的開源基模型和可采信的訓練與微調
238、數據集,滿足行業研究與商業需求。5.1.4 監加強用戶教育,正確認知通用人工智能技術。社會公眾是人工智能技術的最終使用者和受益者,引導社會公眾產生正確認識可幫助人工智能更快捷、更順暢地與千行百業融合,形成與產業生態的雙向互動。建議從引導預期和營造氛圍兩方面著手,加強對社會公眾的宣傳培養。一是引導產生合理預期,客觀展現技術的兩面性,避免非黑即白和夸大單一維度效果的宣傳推廣,幫助公眾更全面、更客觀地認識和使用新一代技術。二是著力營造可信氛圍,通過可信論壇、可信案例講解、專家宣講等形式向公眾說明可信人工智能對通用人工智能潛在風險的規避和控制作用,支撐通用人工智能技術突破與發展。管維度以審慎監管劃定風
239、險底線。一是分級分類,做好與現有體系的銜接,面向場景適用需求審慎監管,采取差異化的監管方式方法。例如,互聯網信息服務深度合成活動被一些不法分子利用,國家網信辦出臺了相關管理規定予以規范;大模型在醫療場景的應用風險暫不明確,短期內可以沿用原有路徑。二是加快開展安全倫理等方面的風險研究,豐富面向大模型和 AIGC 的可信人工智能監管技術方案儲備,支持專業機構評估出具人工智能應用場景風險評估報告,建設可以區分真實和合成內容、跟蹤模型泄漏溯源和水印系統,健全審計和認證生態系統。三是公眾利益優先,建立結果導向的審慎監管,加強對仇恨言論、人種歧視、悲觀厭世等內容生成的審核監管,探索關鍵行業訓練數據審核,建
240、立完善大模型訓練師、提示工程師專業培訓和繼續教育體系。以包容監管引領創新發展??尚湃斯ぶ悄苤卫碛忠婪稘撛陲L險,又要把握技術利好,推動和幫助新技術的培育和應用,均衡長期探索與短期應用的關系,英國就有意對人工智能采取寬泛的監管原則以搶占更多話語權。建議一是探索監管與技術創新融合,如垂直行業大模型沙盒監管機制、負面管理清單以及通過局域網、專區等形式率先提供“大模型+”服務,以點狀突破帶動全面拓展。二是面向大模型工程落地健全治理,以 MLOps(機器學習運營,MachineLearning Operations)為代表的自動運維技術有望助力大模型落地生花,也將推動可信人工智能治理形成系統工程,而不僅
241、僅是針對單一因素的治理。三是監管與行業自治有機結合,充分發揮各類行業可信 AI 技術和應用進展白皮書 20236263組織和龍頭企業作用,推動建立能夠體現行業特點、符合行業需求、具備行業影響力的信任機制,鼓勵行業探索建立針對大模型和 AIGC技術應用的爭議解決、危機應對聯動等自治機制。5.2 未來展望可信人工智能研究應用更加均衡。目前可信人工智能研究領域主要以隱私保護和穩定性(魯棒性)相關研究為主,可信人工智能產業生態發展報告(2022 年)數據顯示,截止 2022 年 4 月,可可信人工智能專利中,隱私保護領域專利占比 63%,系統穩定性占比21%。大模型和 AIGC 帶來的問題中有不少和之
242、前的問題類似,但同時也有新的特征,需要推動可信人工智能均衡化發展和體系化完善。以公平性為例,性別、種族、宗教等偏見問題長期存在,而 AIGC 的崛起可能讓這一問題變得更為復雜,比如語言類大模型生成的答復存在性別歧視和種族歧視,可能會誤導使用者將具有歧視性的回答視為正確答案而作出錯誤的決斷。這些問題已經獲得產業界更多關注,未來將會持續研究形成覆蓋多個維度的可信人工智能。信人工智能內在動力更加多維。一方面,大模型大幅提升了人工智能系統的人機交互能力,推動人工智能從簡單單一交互向融合傳感交互甚至向人-終端-環境三元交互轉變,涉及可信人工智能主體不僅僅局限于系統本身,而是人、系統、環境構成的融合體。另
243、一方面,大模型數據來源合規性、數據使用公平性、生成內容安全性等方面存在風險,大模型時代的可信人工智能落地更要從開發者本身出發,對可解釋性、隱私保護等做好說明和闡述,幫助用戶更可信地使用大模型。此外,可信人工智能將重塑治理模式,在向通用人工智能發展的過程中,為確保人工智能造福于人類,需要最強大的系統性治理和公眾監督,要合理決定人工智能系統界限,并允許用戶在這些廣泛的界限內對他們使用人工智能的行為方式享有控制權??尚湃斯ぶ悄芡庠诒O管更加全面。面對未來大模型大規模應用時面臨的安全挑戰,將會形成更加可靠的大模型安全評估體系和全方位風險定位能力。一方面,將打通大模型生產全鏈路的安全合規,針對大模型在訓練
244、和使用的全周期內的模型預訓練、指令微調、強化學習、領域定制化微調、用戶使用等階段,定制嚴格的風險防護措施和數據與模型的監管機制,保障全流程的合法合規。另一方面,更全面的大模型安全評估能力與風險檢測能力將會建立,健全多維度的可信 AI 考核與度量標準,量化不同模型間的安全能力差異并能精準定位風險原因,確定安全可信模型的安全水位與可信閾值。通過可靠的監管機制回饋予模型開發者和使用者及時的風險提示與改進措施,引導形成可信 AI 的安全合規道路,共同構建健康、可靠的大模型安全生態??尚?AI 技術和應用進展白皮書 20236263組織和龍頭企業作用,推動建立能夠體現行業特點、符合行業需求、具備行業影響
245、力的信任機制,鼓勵行業探索建立針對大模型和 AIGC技術應用的爭議解決、危機應對聯動等自治機制。5.2 未來展望可信人工智能研究應用更加均衡。目前可信人工智能研究領域主要以隱私保護和穩定性(魯棒性)相關研究為主,可信人工智能產業生態發展報告(2022 年)數據顯示,截止 2022 年 4 月,可可信人工智能專利中,隱私保護領域專利占比 63%,系統穩定性占比21%。大模型和 AIGC 帶來的問題中有不少和之前的問題類似,但同時也有新的特征,需要推動可信人工智能均衡化發展和體系化完善。以公平性為例,性別、種族、宗教等偏見問題長期存在,而 AIGC 的崛起可能讓這一問題變得更為復雜,比如語言類大模
246、型生成的答復存在性別歧視和種族歧視,可能會誤導使用者將具有歧視性的回答視為正確答案而作出錯誤的決斷。這些問題已經獲得產業界更多關注,未來將會持續研究形成覆蓋多個維度的可信人工智能。信人工智能內在動力更加多維。一方面,大模型大幅提升了人工智能系統的人機交互能力,推動人工智能從簡單單一交互向融合傳感交互甚至向人-終端-環境三元交互轉變,涉及可信人工智能主體不僅僅局限于系統本身,而是人、系統、環境構成的融合體。另一方面,大模型數據來源合規性、數據使用公平性、生成內容安全性等方面存在風險,大模型時代的可信人工智能落地更要從開發者本身出發,對可解釋性、隱私保護等做好說明和闡述,幫助用戶更可信地使用大模型
247、。此外,可信人工智能將重塑治理模式,在向通用人工智能發展的過程中,為確保人工智能造福于人類,需要最強大的系統性治理和公眾監督,要合理決定人工智能系統界限,并允許用戶在這些廣泛的界限內對他們使用人工智能的行為方式享有控制權??尚湃斯ぶ悄芡庠诒O管更加全面。面對未來大模型大規模應用時面臨的安全挑戰,將會形成更加可靠的大模型安全評估體系和全方位風險定位能力。一方面,將打通大模型生產全鏈路的安全合規,針對大模型在訓練和使用的全周期內的模型預訓練、指令微調、強化學習、領域定制化微調、用戶使用等階段,定制嚴格的風險防護措施和數據與模型的監管機制,保障全流程的合法合規。另一方面,更全面的大模型安全評估能力與風
248、險檢測能力將會建立,健全多維度的可信 AI 考核與度量標準,量化不同模型間的安全能力差異并能精準定位風險原因,確定安全可信模型的安全水位與可信閾值。通過可靠的監管機制回饋予模型開發者和使用者及時的風險提示與改進措施,引導形成可信 AI 的安全合規道路,共同構建健康、可靠的大模型安全生態??尚?AI 技術和應用進展白皮書 20236465英文縮略語對照表縮寫全稱釋義首次出現頁碼IDCInternational DataCorporation1AIArtificial Intelligence2AIGCAI-Generated ContentChatGPTChat GenerativePre-tr
249、ained TransformerPPDSAPrivacy-Preserving DataSharing andAnalytics7G7Group of Seven7GPTGenerative Pre-trainedTransformer7CSIROCommonwealth Scientificand Industrial Research8ITInformation Technology9ISO9IECInternationalElectrotechnicalCommission9IEEEInstitute of Electrical andElectronics Engineers9BCG
250、Boston Consulting Group10InterpretDLInterpretations of DeepLearning Models10TrustAITrustArtificial Intelligence可信 AI10FGMFast Gradient Method1PGDCarlini and WagnerAttackCarliniWagnerPSPhotoshop15AWPAdversarial WeightPerturbationTRADESTRadeoff-inspiredAdversarial DEfense viaSurrogate-loss縮寫全稱釋義首次出現頁碼
251、3DThree Dimension三維17SHAPSHapelyAdditiveexPlanationsShapley 可加性解釋19ELI5 TreeExplain Like Im Five TreeInterpreterELI5 決策樹解釋器19LRPLayer-wise RelevancePropagation逐層相關性傳遞算法19IGIntegrated Gradients積分梯度算法19seqSHAPSequential SHAP序列型 SHAP 算法19timeSHAPTime Series SHAP時間序列 SHAP 算法20KernalSHAPKernal SHAP核心 SHA
252、P 算法20seqMaskSequential Mask序列型掩碼20MPCSecure Multi-PartyComputation多方安全計算27TEETrusted ExecutionEnvironment可信執行環境27FLFederated Learning聯邦學習27GAN-InstaHideGenerativeAdversarialNetworks-Instance Hidingscheme生成對抗網絡-實例隱藏策略28QPSQueries Per Second每秒查詢率28IoTInternet of Things物聯網28DPDifferential Privacy差分隱私2
253、9REERich ExecutionEnvironment富執行環境29LRLogistic Regression邏輯回歸30XGBeXtreme Gradient Boosting極端梯度提升30AUCArea Under the Curve曲線下面積30KSKolmogorov-SmirnovKolmogorov-Smirnov 檢驗30GWASGenome-WideAssociationStudy全基因組關聯分析30SFTSupervised Fine-tuning有監督精調32RLHFReinforcement Learningwith Human Feedback基于人類反饋的強化學
254、習32ICLIn-Context Learning上下文學習能力32IFInstruction Following執行任務32COTChain Of Thought思維鏈推理能力32可信 AI 技術和應用進展白皮書 20236465英文縮略語對照表縮寫全稱釋義首次出現頁碼IDCInternational DataCorporation1AIArtificial Intelligence2AIGCAI-Generated ContentChatGPTChat GenerativePre-trained TransformerPPDSAPrivacy-Preserving DataSharing
255、andAnalytics7G7Group of Seven7GPTGenerative Pre-trainedTransformer7CSIROCommonwealth Scientificand Industrial Research8ITInformation Technology9ISO9IECInternationalElectrotechnicalCommission9IEEEInstitute of Electrical andElectronics Engineers9BCGBoston Consulting Group10InterpretDLInterpretations o
256、f DeepLearning Models10TrustAITrustArtificial Intelligence可信 AI10FGMFast Gradient Method1PGDCarlini and WagnerAttackCarliniWagnerPSPhotoshop15AWPAdversarial WeightPerturbationTRADESTRadeoff-inspiredAdversarial DEfense viaSurrogate-loss縮寫全稱釋義首次出現頁碼3DThree Dimension三維17SHAPSHapelyAdditiveexPlanationsS
257、hapley 可加性解釋19ELI5 TreeExplain Like Im Five TreeInterpreterELI5 決策樹解釋器19LRPLayer-wise RelevancePropagation逐層相關性傳遞算法19IGIntegrated Gradients積分梯度算法19seqSHAPSequential SHAP序列型 SHAP 算法19timeSHAPTime Series SHAP時間序列 SHAP 算法20KernalSHAPKernal SHAP核心 SHAP 算法20seqMaskSequential Mask序列型掩碼20MPCSecure Multi-Pa
258、rtyComputation多方安全計算27TEETrusted ExecutionEnvironment可信執行環境27FLFederated Learning聯邦學習27GAN-InstaHideGenerativeAdversarialNetworks-Instance Hidingscheme生成對抗網絡-實例隱藏策略28QPSQueries Per Second每秒查詢率28IoTInternet of Things物聯網28DPDifferential Privacy差分隱私29REERich ExecutionEnvironment富執行環境29LRLogistic Regres
259、sion邏輯回歸30XGBeXtreme Gradient Boosting極端梯度提升30AUCArea Under the Curve曲線下面積30KSKolmogorov-SmirnovKolmogorov-Smirnov 檢驗30GWASGenome-WideAssociationStudy全基因組關聯分析30SFTSupervised Fine-tuning有監督精調32RLHFReinforcement Learningwith Human Feedback基于人類反饋的強化學習32ICLIn-Context Learning上下文學習能力32IFInstruction Follo
260、wing執行任務32COTChain Of Thought思維鏈推理能力32可信 AI 技術和應用進展白皮書 20236667縮寫全稱釋義首次出現頁碼AGIArtificial GeneralIntelligence通用人工智能32APIApplication ProgrammingInterface應用程序編程接口34CPUCentral Processing Unit中央處理器41GPUGraphics Processing Unit圖形處理器41DoSDenial of Service拒絕服務47DARPADefenseAdvancedResearch Projects Agency美國國防先進研究計劃局48ARTAdversarial RobustnessToolbox對抗魯棒性工具箱51MLOpsMachine LearningOperations機器學習運營61