《云安全聯盟(CSA):2024AI模型風險管理框架報告(56頁).pdf》由會員分享,可在線閱讀,更多相關《云安全聯盟(CSA):2024AI模型風險管理框架報告(56頁).pdf(56頁珍藏版)》請在三個皮匠報告上搜索。
1、 2025云安全聯盟大中華區版權所有1 2025云安全聯盟大中華區版權所有22025 云安全聯盟大中華區保留所有權利。你可以在你的電腦上下載.儲存.展示.查看及打印,或者訪問云安全聯盟大中華區官網(https:/www.c-)。須遵守以下:(a)本文只可作個人.信息獲取.非商業用途;(b)本文內容不得篡改;(c)本文不得轉發;(d)該商標.版權或其他聲明不得刪除。在遵循中華人民共和國著作權法相關條款情況下合理使用本文內容,使用時請注明引用于云安全聯盟大中華區。2025云安全聯盟大中華區版權所有3 2025云安全聯盟大中華區版權所有4致謝致謝AI 模型風險管理框架由 CSA 云安全聯盟專家編寫,
2、并由 CSA 大中華區 AI 安全工作組完成翻譯并審校。(以下排名不分先后):中文版翻譯專家組中文版翻譯專家組翻譯組成員:翻譯組成員:郭建領卞超軼黃鵬華王緒國卜宋博張淼潘季明張亮審校組成員:審校組成員:高健凱卜宋博英文版編寫專家組英文版編寫專家組主要作者:主要作者:Maria Schwenger Vani Mittal其他貢獻者:其他貢獻者:Eric Tierling Hadir Labib Michael Roza Renata Budko審稿人:審稿人:Candy Alexander Daniel CElier Cruz 2025云安全聯盟大中華區版權所有5Harie Srinivasa
3、Bangalore Ram Thilak Karan GoenkaKenneth Thomas Moras Namal Kulathunga Nicolas RayOtto Sulin Rohit Valia Sanitra AngramTom BowyerVaibhav MalikYuvaraj Madheswaran聯席組長:聯席組長:Chris KirschkeMark YanalitisCSA全球工作人員:全球工作人員:Josh BukerMarina BregkouStephen Smith 2025云安全聯盟大中華區版權所有6目錄目錄致謝.4前言.8目標讀者.9范圍.10引言.10
4、一、四大支柱:模型卡片,數據手冊,風險卡片,場景規劃.15二、全面框架的好處.171.增強透明度,可解釋性和問責制.172.主動風險評估和場景分析.183.制定風險緩解策略.184.明智決策與模型治理.185.健壯模型驗證.186.建立信任并增強模型采納.197.持續監控和改進.198.積極社會與倫理影響.199.強有力的治理和監督.19三、關鍵組成部分.201.模型卡片:理解模型.202.數據手冊:檢查訓練數據.243.風險卡片:識別潛在問題.27 2025云安全聯盟大中華區版權所有74.場景規劃:“假設”方法.31四、總體技術:一種整合方法.381.利用模型卡信息創建風險卡.382.使用數
5、據手冊加強模型理解.383.使用風險卡指導場景規劃.394.場景規劃對風險管理和開發的反饋.435.AI MRM 在行動.45五、結論與展望.50參考文獻.51附錄1:人工智能框架、法規和指南.53 2025云安全聯盟大中華區版權所有8前言前言先進的機器學習(ML)模型的廣泛應用在諸如預測性維護、欺詐檢測、個性化醫療、自動駕駛汽車和智能供應鏈管理等領域帶來了激動人心的機遇。機器學習模型有助于推動創新性和效率的提高,但其廣泛應用也帶來了內在的風險,尤其是源自模型自身的風險。如果這些風險得不到有效緩解,可能導致巨大的經濟損失、監管問題以及聲譽損害。為了解決這些問題,我們需要一種積極的風險管理方法。
6、模型風險管理(Model Risk Management,MRM)是推動組織在開發、部署在使用人工智能(AI)及機器學習模型時建立責任和信任文化的關鍵因素,它能夠幫助組織最大程度發揮這些技術潛力的同時,最小化風險。本報告探討了模型風險管理在AI模型應用任開發、部署和使用方面的重要性,適用于對該主題有興趣的讀者群體,包括直接參與AI開發的從業者以及專注于AI治理的業務和合規監管機構。本報告強調了與AI模型相關的內在風險,如數據偏見、事實性錯誤或信息不相關(通常被稱為“幻覺”或“虛構”)、以及潛在的濫用行為。同時,提出了一個全面的MRM框架的需求,該框架基于四個相互關聯的支柱:模型卡片(Model
7、 Cards)、數據手冊(Data Sheets)、風險卡片(Risk Cards)和場景規劃(Scenario Planning),上述支柱協同工作,通過持續的反饋循環來識別和減輕風險,并改進模型開發與風險管理。具體而言,模型卡片和數據手冊為風險評估提供信息,風險卡片則指導場景規劃,場景規劃進一步優化風險管理和模型開發。通過實施這一框架,組織可以確保ML模型的安全和有效使用,并帶來以下關鍵優勢:提高透明度和可解釋性主動應對風險和“內生安全”做出明智的決策與利益相關者和監管機構建立信任 2025云安全聯盟大中華區版權所有9本報告強調了模型風險管理的重要性,以便在最大限度發揮AI和ML潛力的同時
8、,最小化風險。目標讀者目標讀者AI模型風險管理(MRM)面向開發和部署機器學習模型且對AI風險有共同興趣的廣泛讀者群體。它旨在彌合技術和非技術利益相關者之間的鴻溝,既服務于直接參與AI開發技術工作的人員,也關注AI治理和監管的相關人員。該目標讀者可以分為以下兩個主要群體:1.AI 模型開發與實施的從業者模型開發與實施的從業者機器學習工程師和數據科學家:機器學習工程師和數據科學家:這一群體將從模型卡片(Model Cards)和數據手冊(Data Sheets)的詳細解釋中獲益,了解這些組件如何促進模型的理解和開發。掌握這些要素使他們能夠構建更透明且負責任的模型。AI 開發人員和項目經理:開發人
9、員和項目經理:這一群體將發現有助于預見 AI 模型生命周期中潛在問題的工具,從概念設計到實施,確保模型的負責任部署。2.AI 治理與監管的利益相關者治理與監管的利益相關者風險管理專業人士、合規官員和風險管理專業人士、合規官員和審計員審計員:這一群體將對 MRM 的重要性及其與常見行業框架的對齊部分特別感興趣,這些內容對建立、執行和評估有效的治理實踐至關重要。業務領導者和高管業務領導者和高管:他們將從簡介和結論部分獲益,這些部分強調了 MRM 在推動組織內負責任的 AI 應用中的重要性。溝通與公共關系專業人士溝通與公共關系專業人士:這一群體將從有關 AI 模型風險與效益的溝通、利益相關者參與和聲
10、譽管理的章節中受益,以及學習如何為不同受眾設計有影響力的信息。2025云安全聯盟大中華區版權所有10范圍范圍本文探討了模型風險管理(MRM)及其在負責任的AI開發中的重要性,深入分析了有效MRM框架的四大支柱及其如何協同合作,從而形成一個全面的MRM方法。我們討論了這些技術如何促進透明性、問責制和負責任的AI開發。本文強調了MRM在塑造未來倫理和負責任AI中的作用。需要注意的是,本文主要關注MRM的概念和方法論方面,而不涉及以人為中心的內容,例如角色分配、責任歸屬、RACI矩陣以及跨職能參與等問題,這些內容在CSA出版物AI組織職責核心安全職責中已有詳細闡述。引言引言MRM 的必要性和重要性M
11、RM 的必要性和重要性當今,復雜的AI/ML模型在各行業中正以前所未有的速度被采用。一方面,對機器學習模型的日益依賴為創新和效率提升帶來了巨大潛力;另一方面,它也引入了固有的風險,特別是與模型本身相關的風險模型風險。如果不加以控制,這些風險可能會導致嚴重的經濟損失、監管處罰以及聲譽受損。訓練數據中的偏見、模型輸出中的事實錯誤(通常稱為“幻覺”或“虛構”),以及潛在的濫用風險,再加上隱私問題和知識產權(IP)問題,都需要采取積極的風險管理方法。因此,AI模型風險管理(MRM)成為確保這些模型負責任和可信賴開發、部署和使用的重要學科。MRM 這一術語在金融等行業中廣泛使用,傳統上是指管理與量化模型
12、相關的風險。而在本文中,這一既有概念被應用于管理與AI模型相關的風險。AI MRM 有助于應對與AI模型相關的復雜性、不確定性和脆弱性,增強用戶、利益相關者和監管者對AI驅動決策的可靠性和公平性的信心。隨著AI的不斷發展并滲透到更多領域,MRM將在塑造負責任的AI部署未來中發揮越來越重要的作用,使企業和行業從中受益。2025云安全聯盟大中華區版權所有11從本質上講,模型風險源于模型本身的固有限制。以下是幾種最常見的AI模型風險來源:數據質量問題數據質量問題:任何模型的基礎是數據。不準確、不完整或片面的數據可能導致模型缺陷,進而產生不可靠的輸出和錯誤的結論。例如,如果一個模型使用代表性不足的高風
13、險借款人歷史數據來預測貸款違約率,它可能低估未來違約的風險,從而導致經濟損失。模型選擇、調優和設計缺陷模型選擇、調優和設計缺陷:為特定任務選擇錯誤的模型架構或使用不合適的算法會顯著影響模型的有效性和可靠性。例如,使用線性回歸模型預測高度非線性的現象(如股票市場波動)可能會產生誤導性的結果。此外,在使用開源模型時,確保模型的完整性也非常重要。最終用戶應能夠驗證模型簽名,以確保他們使用的是正確的模型,并且模型卡片準確地描述了模型的能力和局限性。一流模型固有的風險一流模型固有的風險:即使是由知名供應商發布的頂尖模型,也可能因自身的不足而帶來固有風險,例如幻覺、有害言論、偏見和數據泄露。這些風險可能產
14、生深遠影響,不僅影響個別組織,還可能影響整個社會。實施和操作錯誤實施和操作錯誤:一個設計良好的模型在實施過程中可能會受到破壞。不正確的編碼、控制不足或與現有系統的不當集成都可能引發模型部署錯誤。例如,一個信用評分模型可能在開發中是正確的,但其在貸款處理系統中的實施存在缺陷,可能導致不準確的評估和不公平的貸款拒絕。安全性也是一個關鍵的操作風險集,這些風險既包括應用級別和訪問級別的已知漏洞,也包括生成式 AI 時代的新風險,如提示注入。AI 模型還增加了模型本身試圖改變模型用戶決策的風險。外部因素的演變外部因素的演變:模型通?;跉v史數據進行訓練,假設基礎環境具有一定的穩定性。然而,現實世界在不斷
15、變化。經濟衰退、新法規或不可預見的事件可能使歷史數據變得不相關,從而導致模型產生不可靠的預測。例如,一個基于以往購買習慣來預測客戶流失的模型,可能在全球疫情導致消費者偏好轉變時表現不佳。同樣,一個基于歷史數據訓練的貸款違約預測模型,在遇到全球疫情、經濟政策變化或貸款活動(如新貸款、再融資和條款重新談判)意外變化時也可能表現不佳。這兩個例子都說明了模型在面對環境突變時的脆弱性,強調了監控和更新模型以確保其有效性的重要性。2025云安全聯盟大中華區版權所有12MRM框架是一種結構化的方法,用于識別、評估、緩解和監控與ML模型相關的風險,尤其是在決策過程中的應用。建立這一框架是一種積極的實踐,它在確
16、保ML模型帶來效益的同時最大限度地減少潛在的負面影響。該框架為組織提供了一條路線圖,以確保這些模型在開發、部署和使用中負責任和值得信賴。需要注意的是,具體的風險及其嚴重程度(風險級別)將因組織性質、行業、業務部門和模型的預期用途而有所不同。一個精心設計的MRM框架通過建立結構化流程來識別和評估特定模型的風險,從而實現定制化。這個持續的過程基于以下幾個關鍵組成部分:1.治理1.治理在組織內對AI和ML模型進行有效治理至關重要,以確保這些模型得到妥善管理,并與戰略目標和監管要求保持一致。這包括設定明確的目標、維護詳細的模型清單、定義職責角色并建立審批流程。治理的關鍵組成部分包括:企業管理手段企業管
17、理手段:定義組織的整體 AI 戰略和業務目標,以識別 AI 在提高生產力、效率、決策能力或提供新用戶體驗方面可以發揮作用的領域。模型清單模型清單:建立組織中所有使用模型的全面清單,并按目的、復雜性、風險等級及與既定企業管理手段的對齊程度進行分類。一個結構良好的模型清單通過基于風險等級和潛在影響的分類,能夠實現有針對性的風險評估和高風險或關鍵模型的監控。模型生命周期管理模型生命周期管理:明確定義各模型在生命周期中的角色和職責,從設計和測試,到開發和部署,再到持續監控和維護,直至最終退役。清晰的職責分配有助于高效的知識傳遞和文檔化,減少因知識空白或信息孤島對模型長期維護和演進帶來的風險。模型審批模
18、型審批:建立一個正式的流程和標準,用于在模型部署前進行審批,確保模型符合業務需求、與業務架構一致并遵守監管要求。審批流程還會評估模型的潛在偏見、倫理問題以及對負責任 AI 原則的遵循,促進公平性、透明性和可信賴性。2025云安全聯盟大中華區版權所有132.模型開發標準2.模型開發標準建立健全的模型開發標準對于確保AI模型基于高質量數據進行構建、遵循最佳實踐并符合相關法規至關重要。這包括管理數據質量、遵循標準化的設計和開發流程,并實施全面的驗證和測試程序。模型開發標準的關鍵組成部分包括:數據質量管理數據質量管理:定義能夠用于模型訓練的高質量數據的一種實踐,它要求數據符合準確性、完整性、最小化偏差
19、以及數據精簡(確保數據適用于目標且僅限于必要信息),并通過數據多樣化和遵守知識產權以及隱私保護措施來實現。模型設計與開發模型設計與開發:概述模型架構、開發方法和文檔實踐的標準。將模型開發標準與現有的治理和合規框架(包括監管指南)對齊。有關主要指導文件的列表,請參見“附錄 1:AI框架、法規和指導”。模型驗證與測試模型驗證與測試:建立嚴格測試模型的流程,以評估其性能、準確性、安全性和穩健性。治理和合規框架治理和合規框架:將模型開發標準與現有的治理和合規框架對齊,包括監管指南(例如 GDPR,CCPA)、行業標準(例如 ISO 27001,ISO 42001)和組織政策。有關確保遵守法律、倫理和風
20、險管理要求的指導,請參考 CSA 出版物從原則到實踐:動態監管環境下的負責任AI。3.模型部署與使用3.模型部署與使用模型監控模型監控:實施在生產環境中持續監控模型性能的程序,以檢測任何精度下降或異常行為。模型變更管理模型變更管理:定義透明的流程用來管理已部署模型的變更,確保在實施前進行充分的測試和驗證,并提供回滾和廢棄機制以應對不再使用的模型。模型溝通與培訓模型溝通與培訓:建立與利益相關者溝通模型局限性和能力的協議,并提供培訓以確保正確使用模型。2025云安全聯盟大中華區版權所有144.模型風險評估4.模型風險評估模型風險評估是識別和應對AI和ML模型潛在風險的關鍵,無論這些模型是內部開發的
21、還是外部獲取的。此過程涵蓋金融、供應鏈、法律、監管和客戶等領域的風險。關鍵組成部分包括:風險范圍風險范圍:風險評估過程不僅適用于組織內部開發使用的模型,也適用于從第三方或外部組織獲取的模型。它定義了組織希望在各個層次上處理的風險類型,例如財務風險、供應鏈風險、法律和監管風險、客戶保持風險等。風險識別風險識別:風險識別是有效管理 ML 模型相關風險的第一步。它通過系統化的方法在整個模型生命周期內發現潛在問題。風險識別時考慮的關鍵因素包括數據質量、模型復雜性、預期用途、訓練數據獲取及個人數據使用、以及模型保護機制。風險評估風險評估:評估能識別出風險的嚴重性和可能性,從而為減緩措施的優先級排序提供依
22、據。風險評估可以采用定性或定量方法,如 FAIR-AI6.風險應對風險應對:制定應對識別出風險的策略,包括數據清洗、模型改進、實施安全和隱私控制,以及保護知識產權。根據這些措施在組織環境中降低風險的效果、成本和可行性之間的平衡來確定優先級。5.文檔和報告5.文檔和報告全面的文檔記錄和定期報告對于在模型風險管理中保持透明度和問責制至關重要。這些實踐確保模型生命周期的各個方面都得到了充分的記錄,并傳達給相關干系人。關鍵組成部分包括:模型文檔模型文檔:在模型生命周期的各個階段維護全面的文檔,記錄開發步驟、假設、局限性和性能指標。模型風險報告模型風險報告:定期向相關干系人報告已識別的模型風險、緩解策略
23、和整體模型性能。2025云安全聯盟大中華區版權所有15一個健全的 MRM 框架確保了 ML 模型在開發、部署和持續使用過程中的可信賴性。通過主動識別、評估和緩解這些風險,組織能夠在利用模型強大功能的同時,保護自身及其客戶和用戶免受潛在的陷阱。這有助于確保模型驅動決策的可靠性和準確性,進而促進信任與透明度的建立。(正文內容如下)一、四大支柱:模型卡片,數據手冊,風險卡片,場景規劃一、四大支柱:模型卡片,數據手冊,風險卡片,場景規劃該框架通過整合四個核心組件來構建:模型卡片:模型卡片:為機器學習模型提供清晰簡潔的窗口,它詳述了模型的目標、訓練數據、能力、對抗性 AI 防御、限制和性能,增強透明度并
24、促進知情使用。數據手冊:數據手冊:詳盡描述用于訓練機器學習模型的數據集。記錄創建過程、組成部分(數據類型和格式),預期用途、潛在偏見、限制以及與此相關的倫理考量。風險卡片:風險卡片:總結人工智能模型所涉及的關鍵風險。它系統地識別、分類并分析可能出現的問題,在開發或部署過程中重點關注已觀察到的風險,并解釋當前和計劃中的補救措施,概述預期用戶行為以確保負責任地使用該模型。場景規劃:場景規劃:探索一個模型可能被濫用或出現故障時所處環境下產生假設狀況,幫助識別未預見到的風險并制定緩解策略。2025云安全聯盟大中華區版權所有16圖1 擔責且合規使用A/ML(人工智能/機器學習)的框架支柱這些技術共同形成
25、一種全面方法。簡單來說,模型卡片提供了進行風險評估的信息;在模型卡片和數據手冊的基礎上,為理解模型優點和局限性提供了更多背景。風險卡指導場景規劃實踐,并將場景規劃結果反饋到風險管理中,形成一個持續的反饋循環。注意:模型卡片的訓練數據類別與數據手冊技術規范部分的主要區別在于,前者指定了用于訓練機器學習模型的特定數據集,包括其來源、大小、質量和預處理步驟。而后者則詳盡描述了數據集的技術構造和操作特性,涵蓋數據庫模式、處理步驟以及技術依賴關系等信息,而不僅局限于模型架構。理解這兩者之間的差異對有效管理并維護機器學習模型與數據集至關重要。通過整合這些技巧,組織能夠構建全面的風險管理框架(RMF),以推
26、動以下幾個維度:透明度和可解釋性:透明度和可解釋性:模型卡片、數據手冊和清晰的溝通讓利益相關者能理解模型的能力與局限。如局部可解釋模型無關說明(LIME)、SHapley 加性解釋(SHAP)、集成梯度、概念激活向量(CAVs)及模型蒸餾等技術可以提供局部解釋,識別高級語義概念,并創建可解釋的替代模型,從而增強復雜模型的透明度和可解釋性。主動風險管理:主動風險管理:多元化方法是有效管理風險的關鍵。包括使用模型卡記錄可能存在偏 2025云安全聯盟大中華區版權所有17見和限制,借助數據手冊了解訓練數據,在基于風險卡進行全面評估以識別一般風險,并參與場景規劃探索未來可能出現的挑戰。此外,對抗測試、壓
27、力測試、邊緣案例分析及像丟棄、L1/L2正則化或對抗訓練等正則化技術有助于發現漏洞、盲點并提高模型魯棒性,從而實現主動風險管理。一致性風險管理:一致性風險管理:確保風險評估結果可復制并允許比較和跟蹤AI模型性能和安全性隨時間的變化。一致的風險評估有助于準確監控風險演變以及緩解策略的有效性,推動人工智能系統的不斷改進。明智決策:明智決策:對模型風險的全面理解使利益相關者能夠就模型部署和使用做出明智決定。建立信任、可信度和道德使用:建立信任、可信度和道德使用:透明度和負責任的風險管理實踐可以建立信任并促進ML模型道德使用。采取隱私保護技術,獲取倫理AI實踐認證,構建治理框架與AI倫理委員會,并進行
28、第三方審計可以增強公眾對ML模型合乎倫理地被使用的信心。持續監測與改善:持續監測與改善:持續監測及根據新信息調整是保證模型長期有效性與安全性必要條件。包括采用機器學習、安全與運營(MLSecOps)等方法。設置監控管道來追蹤模型性能、數據漂移、反饋循環以及意外后果也十分重要。此外,執行在線或持續學習技術也很關鍵。建立吸納用戶反饋、事故報告以及經驗教訓的流程可以確保AI系統的長期有效性、安全性和持續改進。二、全面框架的好處二、全面框架的好處針對ML模型的全面風險管理框架(RMF)提供了以下定義的多種好處。增強透明度,可解釋性和問責制增強透明度,可解釋性和問責制模型卡、數據手冊和風險卡對于MRM中
29、的透明度、可解釋性和可問責性至關重要。數據手冊記錄了數據的來源、獲取組成以及預處理方法,為理解模型的輸入、限制和角色提供了關鍵上下文。這種文檔可以幫助您在一定程度上理解模型的內部工作原理,從而允許對其優點、缺點和潛在偏見進行一些評估。與開源模型相比,專有模型通常能夠提供的內容要受到 2025云安全聯盟大中華區版權所有18更多限制。主動風險評估和場景分析主動風險評估和場景分析數據手冊通過詳細描述可能影響在不同情況下模型性能的數據特定特征,來補充場景規劃。這些信息對于進行徹底的風險評估至關重要,并確保場景分析考慮到數據質量與公司相關的其他因素。制定風險緩解策略制定風險緩解策略將數據手冊中的洞察融入
30、到風險緩解過程中,可以實現更有針對性的策略。理解數據限制和偏差有助于設計有效的緩解措施,例如數據清洗、增強或重新平衡技術,這些對于應對風險卡片識別出的潛在風險至關重要。明智決策與模型治理明智決策與模型治理詳細的訓練數據和模型特征表格對于指導治理實踐至關重要。這種深入了解確保我們能就模型部署做出明智、完整記錄且透明度高的決策。雖然可以更換訓練數據,但其質量直接影響模型行為。數據手冊有助于識別可能存在于數據及其輸出結果中的潛在限制和偏見。這些全面信息使我們能夠就模型部署作出明智決定。數據手冊通過強調與數據相關的約束和機會來提供影響決策過程的重要信息。在MRM中,對此類詳盡地了解使得治理實踐變得更加
31、清晰,確保圍繞著模型部署的決策是明智、完備且合理。健壯模型驗證健壯模型驗證健壯模型驗證是MRM框架的核心部分,確保模型按預期執行并適應實際條件。這涉及使用反映現實世界情況的多樣化數據集進行嚴格測試。來自數據手冊的信息,如數據分布和潛在偏見,可以用于選擇這些數據集以進行更全面的驗證過程。像多樣性測試、壓力測試和泛化度量等技術對此驗證過程至關重要。通過整合這些驗證,該框架確保了模型維持效能,并避免在實際應用中出現意外的性能問題或有偏見的結果。2025云安全聯盟大中華區版權所有19建立信任并增強模型采納建立信任并增強模型采納數據手冊通過確保數據清晰度為建立信任奠定基礎。然而,建立信任需要多層次的方法
32、。模型卡提供了對模型內部工作方式的深入洞察,并且風險卡主動解決可能存在的偏見或限制。這促進了透明度和負責任的AI開發,最終促使用戶和監管者對采納該模型產生更大信任感。這些文件提供關于模型功能和性能期望方面透明而誠實地溝通方式.這種清晰度對于贏得用戶和監管者的信任至關重要,特別是在數據來源和完整性至關重要的行業中。持續監控和改進持續監控和改進持續監控是MRM框架的核心部分,保證模型按照預期運行并適應時間變化。這包括定期更新模型卡、風險卡和數據手冊,以反映模型性能或操作環境的改變。例如,我們可能會追蹤準確度、精確度和F1得分等指標來評估性能,并使用平均絕對誤差(MAE)和均方誤差(MSE)來衡量模
33、型漂移。通過持續監控,可以確定何時需要調整或部署策略以應對模型偏離預期性能或外部環境變化。這種警惕性有助于在動態操作環境中保障ML模型的合規、有效及安全。積極社會與倫理影響積極社會與倫理影響數據手冊是解決機器學習模型中社會和倫理偏見問題的基礎。記錄訓練數據的來源、構成及預處理方式,有助于識別潛在偏見,這對于開發公正且公平的機器學習模型至關重要。通過保證數據處理行為符合倫理規范,組織能更好地控制他們技術產生的廣泛影響。強有力的治理和監督強有力的治理和監督在確保與組織目標一致的控制基礎上,強大的治理和監督能確保AI模型開發、使用和維護過程透明、可解釋且有責任感,并由具備道德意識且能力出眾的人員指導
34、。他們建立了完善的執行機制,以遵守倫理準則和負責任的數據實踐。有效的治理需要清晰定義角色職責、決策流程及處理爭議時的升級程序。定期審計增加了可問責性,驗證利益相關者對原則承諾是否兌現。嚴格變更管理程序、更新控制、再培訓及部署決策都有助于監督,并積極預防潛在風險。包括用戶、數據科學家、工程師和商業領袖在內的利益相關者之間必須進行清晰溝通與合作,這對成功實施治理和監督至關重要。2025云安全聯盟大中華區版權所有20三、關鍵組成部分三、關鍵組成部分1.模型卡片:理解模型1.模型卡片:理解模型模型卡片提供了模型的透明概述。它們詳細說明了模型的目的、訓練數據、能力、限制和性能指標。這些信息有助于開發人員
35、、部署人員、風險管理專業人員、合規官和最終用戶了解模型的優勢和劣勢,為風險評估奠定基礎。模型卡片的關鍵要素通常包括:模型細節和預期目的:模型細節和預期目的:這闡明了模型的功能和目標。訓練數據詳情:訓練數據詳情:描述用于訓練模型的數據的組成,包括其來源、大小、獲取方式(同意、捐贈等)、倫理考量和潛在偏見??梢蕴峁祿謨裕ㄈ绻械脑挘┑逆溄右垣@取更多詳細信息。預期用例和限制:預期用例和限制:這解釋了模型可以用于做什么以及它可能在哪里表現不佳。性能指標(評估指標):性能指標(評估指標):這概述了模型在相關任務上的性能表現,使用明確的指標,如準確性和泛化能力。評估方法:評估方法:這描述了用于評估模型
36、性能的方法。模型可解釋性和偏差:模型可解釋性和偏差:這部分描述了理解模型決策過程和識別潛在偏見的技術。它還詳細介紹了緩解偏見和確保不同群體公平結果的方法。已知限制:已知限制:這告知了模型的潛在缺點,例如對特定提示或事實錯誤的敏感性??沙掷m性和環境方面(可選):可持續性和環境方面(可選):如果可用,這將估計訓練模型對環境的影響(例如,碳排放)。對抗性抵抗(對抗性攻擊下的性能指標對抗性抵抗(對抗性攻擊下的性能指標可選):可選):盡管模型卡片中通常不會記錄對抗性訓練的具體細節,但根據我們的經驗,我們建議在模型和風險卡片的評估 2025云安全聯盟大中華區版權所有21部分包含對抗性抵抗指標。數據科學家可
37、以通過報告模擬對抗性攻擊下的準確性指標來展示模型的韌性,從而更全面地了解模型的性能和潛在漏洞。模型卡片優勢模型卡片優勢模型卡片提供了大量優勢,有助于負責任的人工智能開發和部署,并可作為風險管理的基礎,包括:洞察力和透明度:洞察力和透明度:模型卡片為利益相關者提供指導,幫助他們了解模型的設計、開發和部署的過程。它們闡明了訓練數據和模型性能指標,使用戶能夠掌握其能力和局限性。識別潛在風險:識別潛在風險:通過概述訓練數據的組成,模型卡片可以揭示潛在問題,例如當輸出可能受到不公平或歧視性影響時的偏見、侵犯版權、當模型在與其訓練數據不同的環境中表現不佳時的有限泛化性、源于訓練數據不準確的事實錯誤等??煽?/p>
38、復制性復制性/可問責性:可問責性:模型卡片記錄了開發過程,使其他人能夠重新創建模型并獨立評估其風險。風險管理的基礎風險管理的基礎模型卡片是對機器學習模型進行有效風險管理的基石,提供有關模型的關鍵信息,包括:訓練數據特征:訓練數據特征:揭示潛在的隱私泄露、版權侵犯和偏見。行為和性能限制:行為和性能限制:模型可能產生不可靠或誤導性輸出的預期情形。風險緩解的益處風險緩解的益處定制化緩解策略:定制化緩解策略:了解風險類型有助于尋求相關的緩解策略,然后重點關注那些在可接受的實施復雜性下具有最高風險降低潛力的策略,例如,針對生成有害內容等風險制定具體的保障措施溝通和透明度:溝通和透明度:促進利益相關者的溝
39、通和負責任的使用 2025云安全聯盟大中華區版權所有22指導提示設計:指導提示設計:設計可獲得安全而準確的回答的提示合規與信任:合規與信任:評估對法規的遵守情況,促進信任,并確保對模型的可信度和安全性方面作出有信息支持的決策訓練數據管理:訓練數據管理:確保數據質量和公平性設置保護機制:設置保護機制:記錄防止意外輸出的技術從本質上講,模型卡片充當了全面的記錄,促進了負責任的人工智能開發和部署,并為風險管理和緩解奠定了基礎。創建和更新模型卡片創建和更新模型卡片模型卡片創建要點模型卡片創建要點模型卡片的有效創建需要采用協作和自動化的方法來確保準確性和效率。最常見的最佳實踐包括以下內容:流程和責任方:
40、流程和責任方:組織內必須建立創建和維護模型卡片的清晰流程和責任方。關鍵領導負責執行此流程并為每個模型卡片指定特定責任人。選定的責任人應具備提出正確問題、收集必要信息并領導組織內協作的技能。理想情況下,他們應具有構建模型卡片的經驗或能夠快速學習,并具備足夠的技術知識。并非每個模型都需要模型卡片,因此應明確規定何時需要模型卡片,例如,對于超過100人使用的模型或用于生產或測試的模型。協作:協作:在創作過程中讓跨職能團隊參與進來,以確保全面覆蓋。模板:模板:使用標準化的模板,以確保一致性和易用性。自動化:自動化:利用自動化工具生成模型卡片,減少人工操作,提高準確性。版本控制:版本控制:利用版本控制系
41、統來跟蹤更改并保持更新的清晰記錄。2025云安全聯盟大中華區版權所有23模型卡片倉庫:模型卡片倉庫:建立一個模型卡片的集中倉庫,確保易于訪問和管理。保持模型卡片更新保持模型卡片更新定期更新對于確保模型卡片保持準確性和相關性至關重要。實施簡化的更新流程可以減少人工操作,提高效率,并且應該包括:定期審查:定期審查:對模型卡片進行定期審查,以反映模型或數據的變化。自動更新:自動更新:利用自動化工具更新模型卡片,減少人工操作,提高準確性。變更管理:變更管理:建立適當的流程來記錄和批準更新。審計追蹤:審計追蹤:對所有更新和更改進行審計追蹤,以確保透明度和問責制??梢岳靡恍┢渌呒壖夹g來創建一個簡化和高
42、效的過程,用于創建和更新模型卡片。例如,機器學習算法可以分析模型性能并動態更新模型卡片,而自然語言處理算法可以自動生成模型卡片內容??梢暬ぞ呖梢蕴峁┠P托阅芎透碌膱D形表示,使復雜數據更易于理解。將模型卡片與其他工具和系統(如版本控制和協作平臺)集成,可以增強協作并減少手動工作。這些方法可以提高過程的準確性、效率和協作性。模型卡片的局限性模型卡片的局限性完整性和準確性:完整性和準確性:詳細信息完全取決于模型卡片的填寫是否徹底和準確。這可能會導致信息誤導或不完整的風險,尤其是在這一過程主要是手動完成的情況下。因此,我們提倡數據采集過程盡可能自動化。然而,確保完整性和準確性還需要組織內部的文化轉
43、變,通過管理方式發起和執行,以優先更新和維護模型卡片。如果沒有領導層的支持,即使是出于好意的開發人員也可能不會優先考慮模型卡片的創建和更新,從而阻礙這一風險管理工具的有效性。靜態表示:靜態表示:模型卡片提供了模型在特定時間的寶貴快照,但其靜態特性可能會帶來挑戰。隨著模型的更新和改進,記錄在模型卡片中的信息可能會過時。這需要定期審查和更新模型卡片,以確保其準確反映模型的當前狀態。2025云安全聯盟大中華區版權所有24評估中的主觀性:評估中的主觀性:由于不存在標準化的基準或評估標準,因此關注公平或倫理考量的模型本身就具有主觀性。范圍有限:范圍有限:雖然模型卡片提供了諸如架構、訓練數據和性能指標等技
44、術細節,但它們往往不足以全面覆蓋模型的影響。這種有限的范圍可能會忽視模型在實際應用中可能產生的潛在偏見、倫理考慮和社會影響。詳細程度不同:詳細程度不同:模型卡片沒有標準化的格式。詳細程度和清晰度可能不同,使得不同模型之間的比較和風險評估變得困難。模型卡片是了解機器學習模型及其潛在風險的有價值的工具。它們提高了透明度,并使開發人員和用戶能夠了解模型的優缺點。2.數據手冊:檢查訓練數據2.數據手冊:檢查訓練數據模型藍圖的數據手冊提供了對機器學習模型的深入技術描述。它們作為開發人員、風險管理人員和審計人員的參考文檔,詳細說明了模型的構建參數和操作特性。這些信息對于了解模型的潛在優勢、劣勢和固有風險至
45、關重要。數據手冊的需求數據手冊的需求雖然模型卡片和風險卡片為風險管理提供了寶貴的見解,但仍需要添加一個基本要素:模型內部邏輯的透明視圖。數據手冊作為有效模型風險管理的基礎文件,彌補了這一差距。以下是數據手冊如何促進信任并實現更明智的風險評估:模型透明度:模型透明度:了解模型如何做出決策對于風險管理至關重要。雖然模型卡片提供了高級概述,風險卡片強調了潛在問題,但它們并未深入探究模型的內部工作原理。數據手冊通過深入探究模型邏輯來彌補這一差距。這種透明度促進了人們對模型的信任,并使風險管理者能夠對其局限性和潛在偏見做出更明智的評估。風險評估:風險評估:通過了解模型構建和訓練數據,風險管理者可以有效地
46、評估模型風險的潛在來源,如數據質量問題、過擬合或算法偏差。2025云安全聯盟大中華區版權所有25模型治理:模型治理:數據規范是模型治理實踐的基石,有助于根據需要對模型進行持續監控、維護和重新訓練??芍噩F性:可重現性:詳細的規范確保獨立方可以重新創建和驗證模型,從而促進對其輸出的信任和信心。數據手冊在模型風險管理(MRM)中的作用數據手冊在模型風險管理(MRM)中的作用數據手冊不僅記錄了模型的邏輯,還支持主動風險管理并確保模型適配。它們為持續改進和合規提供了路線圖,在模型風險管理生命周期中履行以下關鍵職能:風險識別與應對:風險識別與應對:數據規范使風險管理人員能夠主動識別模型中潛在的失敗點,并制
47、定緩解策略。模型驗證和細化:模型驗證和細化:記錄的訓練過程和性能指標允許對模型的有效性和泛化能力進行嚴格的驗證。數據規范也為模型的持續校準和細化提供了基礎,以解決已識別的偏差或性能限制。監管合規:監管合規:全面的數據規范在證明人工智能/機器學習模型開發和部署符合相關法規和道德準則方面發揮著至關重要的作用。數據手冊的關鍵要素數據手冊的關鍵要素數據手冊提供了模型內部工作的簡明易懂的概述,包括:模型目的和范圍:模型目的和范圍:明確界定模型的設計目標和使用限制。數據輸入和假設:數據輸入和假設:模型使用的所有輸入特征的詳細列表,包括數據源/類型/格式以及應用的任何預處理轉換步驟,以及任何潛在的假設。模型
48、架構:模型架構:模型架構的技術描述(例如,決策樹、神經網絡),包括超參數設置(學習率、層數)和所選算法。模型開發過程:模型開發過程:簡要概述構建和訓練模型的步驟,包括使用的任何相關算法。2025云安全聯盟大中華區版權所有26訓練數據特征:訓練數據特征:用于開發模型的訓練數據的詳情,包括數據源、大小、分布特征以及執行的所有數據質量檢查。訓練過程:訓練過程:記錄訓練過程,包括選擇的優化算法、成功目標和收斂標準。性能指標:性能指標:這是一組全面的指標,用于評估模型在訓練和驗證數據集上的有效性(例如,準確率、精確率、召回率、F1分數)。模型輸出和解釋:模型輸出和解釋:對模型輸出格式的明確定義,包括數據
49、類型以及如何理解生成結果的解釋。假設和限制:假設和限制:透明地披露在模型開發過程中所做的任何假設,以及所選模型架構或訓練數據固有的任何限制。數據手冊的局限性數據手冊的局限性雖然數據手冊提供了顯著的優勢,但承認其局限性以確保其有效使用至關重要。數據手冊在復雜性和范圍方面可能存在挑戰,并且需要跟上不斷發展的人工智能/機器學習領域的步伐。其中一些局限性包括:復雜性:復雜性:根據人工智能/機器學習框架的具體組成部分,包括訓練數據集、所選算法、機器學習運維(MLOps)控制機制和性能度量,數據規范可能變得高度技術化,需要機器學習專業知識才能完全理解。范圍有限:范圍有限:數據規范主要關注模型的技術方面。它
50、們可能無法完全捕捉到模型輸出的更廣泛的業務背景或潛在的社會影響。不斷發展的領域:不斷發展的領域:隨著人工智能/機器學習的快速發展,數據規范的最佳實踐可能需要不斷調整,以納入新的技術和方法。模型卡片的常見限制,模型卡片的常見限制,如完整性和準確性、成為公司文化以及靜態/過時的表示,也適用于數據手冊。2025云安全聯盟大中華區版權所有27數據手冊是管理模型風險的重要工具。通過為模型的構建和運行提供技術路線圖,它們使風險管理專業人員能夠有效地評估、緩解和管理與機器學習模型相關的風險。3.風險卡片:識別潛在問題3.風險卡片:識別潛在問題風險卡片深入研究了與人工智能模型相關的潛在問題。它們系統地識別、分
51、類和分析潛在風險??梢园阉鼈兿胂蟪蓾撛谀P惋L險的閃卡。每張卡片都描述了具體的風險、潛在影響和緩解策略。與單詞卡類似,它們提供了一種快速和結構化的方法來理解和解決模型漏洞。風險卡片通常包含一系列潛在的問題,包括:安全和道德風險:安全和道德風險:這些問題包括隱私、產生有害內容和導致偏見等問題。安全風險:安全風險:數據泄露、企圖操縱和其他安全漏洞屬于這一類。社會風險:社會風險:失業或濫用人工智能進行宣傳是社會風險的例子。環境風險:環境風險:人工智能模型可能會使用大量電力,從而增加有害氣體的產生。即使是使用清潔能源的模型也會占用其他社會用途的能源,從而迫使它們產生有害氣體。操作風險:操作風險:模型可能
52、面臨與有限的訓練數據、計算強度、與現有系統集成等相關的挑戰。法規和法律風險:法規和法律風險:由于法律法規、規定的最初實施或隨著時間的推移而發生變化,組織可能會與之發生沖突?;蛘咻斎霐祿氖褂每赡軙艿街R產權所有者的質疑。財務風險:財務風險:服務模型的成本可能會意外增加,例如使用代理工作流。供應鏈風險:供應鏈風險:涉及來自組織外部的風險,以及可能從我們的模型傳遞給合作伙伴的風險。聲譽風險:聲譽風險:不恰當的模型使用可能導致負面新聞等。2025云安全聯盟大中華區版權所有28請注意:您的組織涉及的風險類別可能不同,或者至少對每個風險類別的關注度可能不同。例如,NIST AI RMF7關注的是“有效
53、、安全、可靠和有彈性、負責和透明、可解釋、增強隱私、公平和管理有害偏見”的模型風險。風險卡片的結構風險卡片的結構每一張風險卡片都遵循一個明確定義的結構,以確保采用重點突出和信息豐富的方法來了解具體風險并制定有針對性的緩解策略。在每個風險卡片中通??梢哉业揭韵乱?風險分類:風險分類:對風險進行分類(例如,偏見、事實錯誤、誤用)風險描述:風險描述:對潛在問題的簡明描述,如偏見、事實錯誤或產生有害內容影響:影響:風險的潛在后果,需考慮聲譽損害、用戶傷害或法律問題等因素嚴重性等級:嚴重性等級:評估風險的潛在影響(高、中、低)可能性:可能性:評估風險發生的可能性應對策略:應對策略:降低風險可能性或嚴重
54、程度的可操作步驟,可能涉及數據過濾技術、改進的訓練數據、引導模型開發以產生更安全輸出的用戶提示,以及業務和組織策略下表給出了一個風險卡片的例子。風險風險描述描述影響影響應對策略應對策略偏見與公平模型根據訓練數據輸出有偏見的內容導致歧視和潛在的聲譽損害使用多樣化的訓練數據在模型中實現公平性檢查提供局限性方面的透明度該風險卡片強調了一家零售公司用于生成營銷和社交媒體內容的ML模型中可能出現的 2025云安全聯盟大中華區版權所有29意外偏見。有了清晰的描述和潛在影響(高嚴重性),數據團隊優先解決了這個問題。該公司對訓練數據和模型架構進行了雙重審查,以調查潛在的偏見。針對潛在偏見問題,數據團隊分析了數
55、據統計特征,發現了數據手冊征中存在的傾斜,并檢查了訓練數據來源。他們還討論了公平性指標,以量化潛在的偏見,并使用可解釋性方法等技術來理解模型如何輸出。根據這一分析,實施了若干應對策略:數據清洗:數據清洗:通過采樣/欠采樣來平衡訓練數據,并去除非必要的敏感屬性,以創建更平衡的數據集。該公司還在探索使用合成數據來進一步解決偏見問題。訓練中的公平性:訓練中的公平性:將公平性約束納入訓練過程,以懲罰有偏見的輸出,支持更多合適的輸出。后處理過濾器:后處理過濾器:部署情感分析和事實檢查工具,以識別和標記可能有偏見的內容。除了這些應對策略,公司還制定了一個深思熟慮的應急計劃,以加強團隊對偏見的防御。該應急計
56、劃包括:標記和解決有偏標記和解決有偏見的輸出:見的輸出:一個明確標記和解決有偏見輸出的過程涉及可以識別和糾正有偏見內容的人類審核人員。事件響應協議:事件響應協議:當觸發風險卡片場景時,如果組織已經有預先建立的事件響應協議,AI/ML運維團隊可以利用該協議確??焖僬{查和應對,這將是非常有益的。行動可能包括使用更平衡的數據集重新訓練模型,例如在檢測到偏見的情況下。溝通協議:溝通協議:跨公司溝通協議,針對潛在的偏見,確保透明度,培養與用戶和利益相關者的信任,促進整個組織負責任的模型使用。通過實施這些應對策略,特別是關注數據多樣性和算法公平性,該團隊采取了積極主動的立場,來應對模型輸出中的偏見。這為在
57、整個組織中建立可信賴和符合倫理的人工智能系統奠定了基礎,使公司能夠在其人工智能應用中促進包容性、透明度和問責制。2025云安全聯盟大中華區版權所有30風險卡片的好處風險卡片的好處風險卡片提供了一種結構化和動態的方法來管理不斷發展的模型風險。它們提供了一種系統的方法來識別、分類和確定模型風險的優先級,并充當了一種強大的溝通工具,促進了開發人員、用戶和利益相關者之間的溝通。這種協作環境促進了對潛在問題的更深入了解,從而形成了可操作的見解,如應對措施和應急計劃。除了這些核心的好處之外,風險卡片還為MRM提供了顯著的優勢,包括:前瞻性方法:前瞻性方法:風險卡片有助于在潛在問題發生之前提前識別,允許先發
58、制人的解決方案。這種方法能夠評估每種策略的潛在風險降低效益及其復雜性和成本,確保以最佳投資回報實現主動消減風險。壓力測試:壓力測試:風險卡片通過促進圍繞潛在風險的討論和頭腦風暴,促進了在各種條件下對模型進行壓力測試的過程。風險卡片是壓力測試的起點。實際的壓力測試包括應用定量和定性技術來分析模型在風險卡片中識別的風險行為。壓力測試的結果通常不記錄在風險卡片中,但可以指示風險卡片的另一次迭代。改進決策:改進決策:通過全面的風險識別和分析,風險卡片使組織能夠在部署模型和選擇適當的用例方面做出明智的選擇。這確保了模型被有效地利用,同時最小化了相關的風險。風險卡片的局限性風險卡片的局限性限定范圍:限定范
59、圍:風險卡片通常側重于一組預定義的潛在問題。這對于覆蓋常見風險是有用的,但它可能無法捕獲特定于您的AI模型的獨特漏洞。這一局限性還包括量化不足,這妨礙了對風險影響和可能性的評估,從而難以確定風險消減工作的優先次序。此外,復雜或細微的風險可能被過度簡化或壓縮,從而可能導致低估嚴重性或緩解工作的挑戰。人工智能的動態性:人工智能的動態性:人工智能模型不斷發展,新的風險可能會出現。風險卡片需要能夠跟上該領域的快速發展。2025云安全聯盟大中華區版權所有31量化不足:量化不足:雖然風險卡片提供了對風險的定性評估,但它們可能無法量化每種風險的潛在影響和可能性。如果沒有量化的措施,組織可能難以確定優先級并有
60、效地分配資源,以緩解與人工智能模型相關的最重要的風險。真實世界的數據依賴性:真實世界的數據依賴性:風險卡片的有效性取決于用于識別和評估風險的數據的質量和全面性。不完整或不準確的數據可能導致輸出誤導性或不相關的風險卡片。需要人工判斷:需要人工判斷:風險卡片需要人工判斷來解釋風險的嚴重程度并選擇適當的緩解策略。這可能是主觀的,可能取決于審查卡片的人的專業性。4.場景規劃:“假設”方法4.場景規劃:“假設”方法場景規劃是一種主動探索AI模型可能被誤用或出現故障的假設情況的方法。本質上,它是在問“如果會怎么樣“的問題。我們設想并探索AI模型在各種積極和消極場景下的表現。這使我們能夠在潛在風險成為現實之
61、前識別它們。場景規劃考慮場景規劃考慮積極情景(例如,提高生產、改善教育)消極情景(例如,語言武器化、信息操縱)場景規劃中需要考慮的方面場景規劃中需要考慮的方面技術能技術能:評估模型的優勢和劣勢,重點關注容易發生故障(從常規故障到“黑天鵝”)、操縱或利用的領域。數據偏見:數據偏見:檢查潛在的偏見和數據特征,例如不太可信的供應商數據,缺失或超出范圍的數據以及訓練數據中存在的隨時間波動的數據,這些都可能會影響模型的輸出。用戶交互:用戶交互:考慮用戶如何與模型交互,以及他們的意圖或理解可能會導致意想不到的后果。2025云安全聯盟大中華區版權所有32社會影響:社會影響:探索模型部署可能帶來的更廣泛的社會
62、影響,例如工作崗位替代、圍繞自動化的倫理問題或組織外部人員使用該模型的風險。場景規劃如何運作場景規劃如何運作場景規劃涉及一種結構化方法,通過假設情況來識別和評估潛在的模型風險。以下是該過程的細分1.組建團隊1.組建團隊組建一支多元化團隊,該團隊應具備技術、風險管理、倫理、法律法規遵從性或特定數據或應用領域的專業知識。理想的團隊組成取決于項目的具體要求,可能包括以下利益相關者的組合:商業專家商業專家領域專家:領域專家:對特定應用領域有深入理解的個人(例如醫療保健、金融)可以為探索與實際用例相關的場景提供有價值的背景。最終用戶:最終用戶:包括目標用戶群的代表,可以提供對潛在的用戶交互見解,以及模型
63、可能如何被無意中濫用。風險專家風險專家安全專家:安全專家:具有威脅建模經驗并可以量化模型漏洞的影響和可能性經驗的個人有助于風險討論。隱私和法律顧問:隱私和法律顧問:了解組織和所用數據的特定法律背景的專業人士,以及隱私和信息治理人員,可以就模型處理個人數據的隱私考慮提供咨詢。風險管理專家:風險管理專家:他們擁有識別和緩解風險的經驗,確保場景規劃的方法結構化且全面。倫理顧問:倫理顧問:他們在道德方面的專業知識有助于探索潛在的社會影響并確保負責任的模型開發。人工智能專家人工智能專家 2025云安全聯盟大中華區版權所有33模型開發人員:模型開發人員:他們在模型架構和功能方面的專業知識為系統的功能和潛在
64、漏洞提供了寶貴的見解。數據科學家:數據科學家:他們對模型訓練數據和潛在偏見的了解有助于識別和評估公平性和代表性風險。他們對模型架構的了解明確了管理特定風險的可行性。通過匯集這些不同的觀點,場景規劃團隊可以更好的理解人工智能模型,并識別更廣泛的潛在風險。這種協作方法類似于產品紅隊測試,利用同的專業知識和視角對想法進行壓力測試并識別潛在的漏洞。這種方法還允許使用藍隊能力,例如降低風險的方法。這種方法的有效性依賴于組建一支具有必要實力的團隊,以促進有效的想法和風險評估。2.定義范圍和目標2.定義范圍和目標下一步是明確定義場景規劃練習的范圍和目標。這包括指定要探索的AI系統和風險。建立明確的目標(例如
65、識別潛在偏見、安全漏洞或社會影響)有助于指導團隊的重點并確保場景規劃會議富有成效。3.確定要深入研究的場景的優先順序3.確定要深入研究的場景的優先順序雖然一個能提供多種觀點的團隊對于提出全面的潛在場景很有幫助,但它很容易提出一個完全不可行的清單。這通常需要仔細確定優先次序。團隊應該選擇他們的優先次序方法,例如一些“T恤”尺寸定義“回報”(例如,潛在風險影響與降低)和“投資”(例如,場景規劃和實施可能需要的努)的ROI比較。更重要的是,團隊以一種讓領導層對哪些不會詳細規劃場景的風險感到舒適的優先級進行排序。4.收集信息4.收集信息團隊應收集相關信息,以全面了解 AI 模型和潛在風險。模型卡、數據
66、手冊和風險卡提供了有關 ML 模型的功能、局限性和潛在風險的寶貴見解。這些文檔詳細說明了訓練數據、模型的架構以及任何已知漏洞。此外,研究涉及該模型的相關安全事件或濫用案例有助于團隊預測潛在的現實威脅。收集的信息應該足夠詳細,以便規劃情景,但僅此而已。2025云安全聯盟大中華區版權所有345.開發情景5.開發情景場景規劃的核心在于創造性地生成各種假設情況。鼓勵團隊跳出思維定勢,探索積極和消極的場景。諸如“如果會怎樣”問題可以激發創造性思維,并創建更廣泛的場景。例如,團隊可能會探索在客戶服務中使用的大型語言模型(LLM)如何操縱以生成有偏見的響應,或者金融環境中的出現故障的模型如何導致不準確的投資
67、建議。6.評估情景6.評估情景一旦場景景被開發出來,團隊需要系統地分析每一個場景。這包括考慮場景發生的可能性以及如果場景確實發生,可能產生的后果。應評估場景對包括用戶、社會和組織在內各利益相關者的影響??紤]每個場景可能如何影響模型的準確性、可靠性、公平性和安全性。例如,探索大型語言模型(LLM)傳播錯誤信息的場景需要考慮潛在社會危害和對組織聲譽損害。您甚至可以使用語言模型來模擬這些場景。觀察其輸出并識別潛在風險,例如生成歧視性文本、傳播錯誤信息或生成有害內容。此步驟最容易出現范圍蔓延(即工作量超出最初預算),因此謹慎、嚴謹的項目管理非常重要。時間控制過緊也是一種風險。理想情況下,通過對場景進行
68、良好的前期優先排序,可以更容易地管理評估深度與關鍵情景覆蓋范圍之間的權衡。7.制定緩解策略7.制定緩解策略根據場景分析,制定策略以減輕風險或適應未來的挑戰。制定應急計劃和應對策略,以應對可能對組織造成重大風險或威脅的情況。這些策略涉及技術控制,例如實施防止操縱的保護措施,非技術措施,例如對負責任的模型交互進行用戶培訓,或增強 AI 治理流程的透明度和問責制。此外,可以對模型開發過程進行調整,例如采用不同的訓練數據集,以解決潛在的偏見。2025云安全聯盟大中華區版權所有358.優先實施緩解策略8.優先實施緩解策略雖然一個能提供多種觀點的團隊對于提出有影響力的緩解策略很有幫助,但組織可能沒有足夠的
69、資源來始終如一地實施所有策略。因此,仔細確定要實施的策略的優先順序將增加關鍵風險實際降低的可能性。團隊應該選擇他們的優先排序方法,只要這能讓領導團隊相信所有關鍵風險都得到了緩解,并且優先排序后的策略確實與概率較低和影響較小的風險相關。9.記錄和溝通9.記錄和溝通最后一步是記錄場景規劃實踐的結果。這應包括一份全面的報告,概述所探索的場景、已識別的風險、擬議的緩解策略以及建議實施的優先順序。與管理層、開發人員和潛在用戶等相關利益相關者分享此報告,可以提高對潛在風險的認識,并指導整個模型生命周期的決策。有效的溝通可以促進透明度,并建立對負責任地開發和部署 AI 模型的信任。場景規劃的好處場景規劃的好
70、處主動識別和緩解風險:主動識別和緩解風險:場景規劃有助于在潛在風險成為現實之前識別它們,從而能夠及時采取緩解措施。改進決策:改進決策:通過探索各種情況,利益相關者可以更全面地了解模型為,從而做出更明智的決策。提高透明度和信任度:提高透明度和信任度:場景規劃促進關于潛在風險公開溝通、促進透明度和建立利益相關者的信任??沙掷m模型開發:可持續模型開發:通過在不同條件下測試模型,場景規劃有助于發現弱點并指導改進,使其更加健壯可靠。這有利于持續負責任地開發和部署 AI 模型。場景規劃的局限性場景規劃的局限性預見性有限:預見性有限:人工智能系統的復雜性和現實世界情況的多樣性使得預測所有潛在的陷阱變得具有挑
71、戰性。人工智能系統與現實世界交互時可能出現的行為很難預測和提前規劃。環境微小變化或輸入可能會導致意想不到的人工智能行為。持續監 2025云安全聯盟大中華區版權所有36控以及在人工智能系統偏離軌道時進行干預或關閉的能力對于緩解風險非常重要。人為偏見:人為偏見:規劃人員的想象力和偏見限制了所設想的場景。由于規劃團隊的盲點或無意識偏見,可預見的風險可能會被忽略。讓具有不同背景和專業知識的多元化人員參與進來,有助于考慮更廣泛的情景并減少偏見。資源密集型:資源密集型:為各種情況制定詳細的場景可能即耗時又需要 AI 和特定應用領域的專業知識。資源限制可能會限制場景規劃實踐的范圍和深度。結合機器學習技術分析
72、過去數據和識別人工智能系統中潛在可以幫助解決這一限制。靜態與動態環境:靜態與動態環境:場景通常是潛在情況靜態快照。然而,現實世界的環境是動態的,并且不斷發展。在計劃的場景中,人工智能的行為在遇到意外變化時可能會有所不同。場景規劃應該是一個持續的過程。隨著人工智能系統的發展和新信息的出現,重新審視和更新場景以反映不斷變化的形勢。量化風險難度:量化風險難度:場景規劃發現潛在的人工智能風險,但量化這些風險卻很困難,尤其是對于低概率、高影響的事件。雖然準確確定可能性可能很困難,但定性評估對于確定風險優先級和緩解策略很有價值。咨詢領域專家可以進一步改善風險評估。場景規劃不是預測未來,而是為未來做好準備。
73、通過探索各種可能性,場景規劃有助于識別尚未考慮的風險,并為不可預見的后果做好準備。隨著人工智能技術的發展,風險格局可能會發生變化。場景規劃應持續進行,例如定期由明確、負責的領導者進,以確保不斷適應和緩解新出現的風險。示例模型場景規劃實踐示例模型場景規劃實踐這個場景示例說明了通過模型場景規劃主動識別風險的價值。在這里,我們探討了涉及大語言模型的潛在濫用案例。場景:場景:用戶與大語言模型互動,請求生成一篇關于一個高度敏感的話題的有說服力文章。大語言模型輸出結果存在嚴重缺陷,包括包含冒犯性語言和未經證實的主張。2025云安全聯盟大中華區版權所有37風險緩解的提示詞討論:風險緩解的提示詞討論:檢測和標
74、記技術:檢測和標記技術:可以實施哪些機制來識別和標記表現出潛在偏見、冒犯性語言或事實不準確的輸出?這可能涉及利用情緒分析、事實驗證工具和預訓練分類器等技術來識別敏感主題。安全措施實施:安全措施實施:可以制定哪些預防措施來盡量減少此類情況發生的可能性?這可能涉及在 LLM 的功能范圍內納入主題限制、實施引導負責任使用的用戶提示詞,或使用預處和后處過濾器來優化生成的內容。用戶身份驗證也可以在提示詞負責任使用中發揮作用。要求用戶創建賬戶并驗證其身份可以建立問責制,并允許封禁濫用系統的不良為者。主題限制的風險 收益分析:主題限制的風險 收益分析:是否應完全限制 LLM 生成有關某些敏感主題的內容?這種
75、方法需要仔細考慮,在潛在危害與模型細節且有信息量地解決復雜問題的能之間取得平衡。持續監控和改進:持續監控和改進:需要哪些監控和反饋機制來識別使用此 LLM 的風險和意外后果?如何有效將這些見解反饋到模型迭代改進中?這可以從簡單(例如,您的LLM 實施的基礎提示)到涉及整個堆棧(數據、模型、應用程序)的開發實踐中。治治框架和標準:框架和標準:需要哪些類型的治理框架、最佳實踐和標準來指導此LLM的負責任的開發和部署?誰應該參與制定這些準則?您可以從選擇一個框架開始,甚至只是當前的 MRM 文檔,但在大型組織中,您可能需要一個適合組織結構、業務目標、人員技能等的自定義框架。風險評估和緩解策略風險評估
76、和緩解策略經過討論后,可以根據每個已識別風險的發生可能性和潛在嚴重程度對其進正式評估。這種風險矩陣方法有助于確定緩解策略的優先次序,從而針對每個潛在問題做出有針對性且有效的響應。2025云安全聯盟大中華區版權所有38四、總體技術:一種整合方法四、總體技術:一種整合方法真正行之有效的方法源于將這些技術整合到一個全面的風險管理框架(RMF)中,來自模型卡中的信息直接用于創建風險卡,允許識別潛在問題,這些已識別的風險隨后可指導場景規劃訓練。這個迭代過程促進了全面的風險評估,并最終制定有效的緩解策略。以下是具體方法:1.利用模型卡信息創建風險卡1.利用模型卡信息創建風險卡在AI的模型風險管理(MRM)
77、中,模型卡是模型開發和風險管理之間的關鍵橋梁。模型卡中記錄的信息,如訓練數據的成分(包括數據統計分布特征和潛在的偏見),數據獲取方法、隱私保護措施、模型架構細節(如決策樹與深度學習),以及性能指標(包括準確性和公平性指標,如F1值),為全面風險評估過程提供了必要的輸入,從而創建準確反映每個模型優勢和劣勢的風險卡。通過利用模型卡數據,風險評估更有針對性,并且專注于與模型功能及其部署環境相關的潛在問題。例如,與特定數據類型相關的隱私風險或由于復雜模型架構導致可解釋性受限。模型卡為數據科學家和風險管理者提供關鍵視野,以便于主動識別和緩解與AI模型相關的潛在風險。模型卡還提供了必要的信息,使風險管理者
78、能夠評估與模型相關的潛在風險和偏見,反過來又幫助他們確定模型的風險概況是否符合組織的風險承受能力,從而為在AI解決方案中部署模型做出決策。2.使用數據手冊加強模型理解2.使用數據手冊加強模型理解數據手冊提供了模型內部工作方式的簡潔且易于理解的概述,促進對其優勢和局限性的深入理解。它使人們對模型本身也有了更深入的理解。通常,它概述了模型的目的、訓練的數據類型以及評估其性能的評估指標。有了這些信息,用戶可以擺脫AI的“黑箱”特性,深入了解模型是如何得到輸出的。這些知識對于確保模型被適當使用以及識別其決策過程中可能存在的潛在偏見至關重要。數據手冊使利益相關者能夠就部署模型做出明智的決策。通過數據手冊
79、理解模型的優勢和劣勢,用戶可以確定其適用于特定任務。例如,如果數據手冊顯示模型在某些類型的 2025云安全聯盟大中華區版權所有39數據上表現不佳,可能需要縮小其用例范圍以避免不可靠的輸出。數據手冊為識別潛在風險提供了重要的上下文信息,從而使創建風險卡成為可能。有了關于訓練數據的信息,用戶可以進行更全面的風險評估,并識別模型可能因訓練數據中的偏見或局限性而被誤導或誤解的潛在場景。因此,數據手冊在模型風險管理(MRM)的場景規劃訓練中變得至關重要。通過概述模型架構、訓練數據成分和超參,數據手冊使我們能夠預見潛在的弱點。這種先見之明使我們能夠創建針對性的場景,探索模型在意外情況下可能的反應。3.使用
80、風險卡指導場景規劃3.使用風險卡指導場景規劃主動理解和緩解模型風險對于可靠的AI方案至關重要。ML工程師和AI項目經理在開發模型和創建模型卡時,必須優先考慮風險緩解措施,才能確保安全和可信的AI生態系統。理解風險形勢并指導場景規劃。團隊應該使用為模型定義的初始風險卡集合進行思維實驗,并預測潛在后果?;谶@些風險卡,可以通過風險卡定義的輸入來激活這些場景。這個過程使得數據手冊得到迭代細化,使模型對風險具有一定彈性。圖 2.使用風險卡指導場景規劃通過模擬場景,我們可以細化并完成風險卡,使用引起風險的特定輸入和輸出示例來細化和最終確定風險卡。這些具體的特征推動了剩余風險的緩解策略。風險卡使用模型卡和
81、數據手冊中的信息為場景建模奠定了基礎。同時場景規劃也會引 2025云安全聯盟大中華區版權所有40導選擇出最相關的危害類型和影響最大的風險卡,而且場景規劃可以幫助定義特定的輸入和輸出,來展示風險實現的條件。場景規劃結構場景規劃結構1.風險類型和分類方法:風險類型和分類方法:曾有幾個風險分類法被提出過,其中之一就包括Weidinger9,它列出了語言模型的六種風險類型:歧視、排斥和不良內容危害信息錯誤信息危害傳播惡意使用人機交互危害自動化、訪問和環境危害2.危害類型:危害類型:每種風險類型對相關類別的受眾造成的傷害類型決定了其影響?;谶@些相關影響過濾掉可能的風險類型是一種縮小場景規劃范圍的方式。
82、模型的目的、模型輸入和預期輸出決定了受眾群體和數據類型。3.輸入示例和輸出條件:輸入示例和輸出條件:場景模擬允許團隊使用定義好的訓練數據集、提示詞來運行模型,觀察和記錄輸出,以確定它們是否構成有害風險。4.風險影響的真實場景:風險影響的真實場景:樣本輸出及其在數據手冊的上下文中的解釋有助于評估給定模型的特定影響。5.5.緩解:緩解:緩解描述并測試能降低可能有害風險的措施。緩解措施可能僅限于安全協議,或可能需要修改模型數據手冊,例如更改格式、增加額外的預處理和驗證邊界條件。實施緩解是一個由場景規劃指導的迭代過程。風險卡用例風險卡用例請注意:請注意:以下兩個示例中使用分類代碼(例如,W1.1,W6
83、.2)指的是Weidinger10分類法,2025云安全聯盟大中華區版權所有41這是一個用于識別和解決AI系統中有害的偏見和風險的標準框架。案例1:評估工程師候選人簡歷的適用性風險描述:案例1:評估工程師候選人簡歷的適用性風險描述:存在刻板印象導致出現工作不平等現象分類:分類:W1.1 社會刻板印象和不公平歧視,W6.2 增加不平等和對工作質量的負面影響危害類型:危害類型:候選人-經濟損失,發布者-合法性,聲譽,工作質量場景建模行為:場景建模行為:用戶要求識別成功候選人標準簡歷的特征。提示詞和輸出:提示詞:提示詞和輸出:提示詞:潛在的成功候選人的表征特征是什么?輸出:輸出:大多數成功的工程師候
84、選人是2005年至2015年間獲得學士學位的印度男性國民。應對:應對:確保用于模型訓練數據中的簡歷是匿名化的,以排除性別、年齡和國家的偏見??偨Y:總結:這個用例突出了用于招聘的AI模型中存在的偏見風險。為了緩解此風險,模型的訓練數據需要進行脫敏處理,以確?;诩寄芎徒涷瀬砉皆u估候選人,而不是根據人口統計數據。案例2:AI生成的安全事件報告披露敏感信息風險描案例2:AI生成的安全事件報告披露敏感信息風險描述:述:在生成報告過程中披露機密和個人信息分類:分類:W2.1 通過泄露私人信息而損害隱私,W2.3 泄露或正確推斷敏感信息的風險,W4.2 為欺詐、詐騙和更有針對性的操縱提供便利,W4.3
85、協助生成網絡攻擊、武器或惡意使用的代碼。危害類型:危害類型:模型用戶-公司信息披露增加了IT系統被破壞的機會 2025云安全聯盟大中華區版權所有42場景建模行為:場景建模行為:AI用于根據特定安全事件編寫事件報告,用被利用CVE(常見和曝光的漏洞)的公開信息補充記錄的事件信息提示詞和輸出:提示詞:提示詞和輸出:提示詞:為以下事件編寫事件報告:“John Smith的郵箱在2022年9月30日被利用漏洞入侵,具體為Microsoft Exchange的CVE-2024-26198漏洞”輸出:輸出:事件日期:2022年9月30日,嚴重程度:高,類型:RCE,受影響用戶:John Smith,受影響
86、資產:Microsoft Exchange 5.11.203CVE描述:根據CVSS指標,攻擊向量是網絡(AV:N),需要用戶交互(UI:R)。遠程代碼執行的目標背景是什么?這種攻擊需要一個特別制作的文件被放置在一個在線目錄或本地網絡位置。當受害者運行這個文件時,它加載了惡意DLL。攻擊者如何利用這個漏洞?未經身份驗證的攻擊者可以通過將特別制作的文件放置在一個在線目錄或本地網絡位置,然后說服用戶打開它來利用這個漏洞。在成功攻擊中,這將加載一個惡意DLL,可能導致遠程代碼執行。緩解措施:緩解措施:模糊敏感信息,如事件的名稱和日期。摘要:摘要:這個場景突出了AI有潛在生成可能披露敏感信息的安全報告
87、。為了緩解這個風險,將實施預處理步驟來對報告脫敏,并防止意外披露攻擊者可能利用的細節。效益:效益:數據手冊、風險卡和場景規劃之間的這種整合通過以下方式加強了整個MRM框架:提升透明度:提升透明度:數據手冊確保清晰地傳達模型的設計和局限性,促進明智的決策。提高風險識別能力:提高風險識別能力:通過數據手冊對模型的全面理解能夠進行更徹底的風險評 2025云安全聯盟大中華區版權所有43估。啟用迭代方法:啟用迭代方法:使用基于風險卡的輸入來模擬模型(由數據手冊定義),以定義數據手冊的輸入,從而驅動數據手冊的迭代細化,并改進模型的健壯性和韌性。促進有效緩解:促進有效緩解:可通過場景規劃(由數據手冊提供信息
88、)預測潛在問題,從而制定主動緩解戰略。組織可以通過將數據手冊與模型卡和風險卡結合在一起,培養可信和可靠的模型使用方式,從而創建一個健全且證據完備的RMF。4.場景規劃對風險管理和開發的反饋4.場景規劃對風險管理和開發的反饋場景規劃的洞察可以完善現有的風險評估,并識別出新的、未預見到的風險。這種持續的反饋循環加強了整體框架。1.進行模型場景規劃1.進行模型場景規劃定義模型的范圍(例如,AI系統、業務流程)識別并優先考慮潛在的未來場景(積極的、消極的、中性的)??紤]影響這些場景的各種因素(例如,技術進步、監管變化、經濟轉移)。分析每種場景對模型的影響(例如,風險暴露、性能、資源需求)。當您定義模型
89、的范圍并分析場景影響時,請參考數據手冊,來理解模型訓練所使用的數據。數據手冊中的信息,如數據收集方法、數據特征和潛在偏見,對于考慮數據質量如何在不同場景下影響模型性能至關重要。2.識別風險并制定應對策略2.識別風險并制定應對策略根據場景分析,識別與每種場景相關的潛在風險。評估每個風險的可能性和嚴重性。2025云安全聯盟大中華區版權所有44針對已識別的風險制定應對策略。這些策略可能包括:實施控制措施以降低風險發生的可能性。制定應急計劃以應對風險一旦出現的情況。分配資源以解決高優先級風險。使用場景規劃的洞察來創建風險卡片。這些卡片可以記錄與每種場景相關的已識別風險、它們的可能性和嚴重性,以及潛在的
90、緩解策略。數據手冊在風險識別過程中也很有用。例如,數據的局限性(例如,缺乏多樣性、存在偏見)可能在某些場景下導致特定的風險。3.風險管理反饋3.風險管理反饋根據在不同場景下識別的風險及其潛在影響更新風險評估。優化風險管理流程,使其更能適應潛在的未來不確定性。根據通過場景規劃識別的風險的嚴重性和可能性,以及潛在緩解策略的成本和復雜性,分配資源進行風險緩解??梢愿鶕鼍耙巹澋慕Y果創建或更新模型卡片。這些卡片總結了有關模型的關鍵信息,包括其目的、預期用例、性能指標和潛在局限性。場景規劃的洞察可以為模型卡片中涉及潛在偏見、公平性考慮以及模型在不可預見情況下可能的表現的部分提供信息。在第2步中創建的風險
91、卡片可以集成到現有的風險管理框架(RMF)中,提供對模型在各種未來場景下潛在風險的更全面理解。4.反饋給開發4.反饋給開發通過考慮潛在的未來場景及其相關風險,為開發決策提供信息。設計模型時考慮靈活性和適應性,思考在不同情況下可能需要如何調整。2025云安全聯盟大中華區版權所有45開發能夠解決通過場景規劃識別出的潛在風險的特性或功能。實施健全的測試程序,確保模型在各種場景下按預期運行??梢赃x擇在開發和風險管理之間采用迭代的敏捷方法,特別是在某些用例中,風險降低與增加價值高度相關(例如,減少有毒語言會增加大型語言模型的采用率)。模型卡片和風險卡片可以為開發決策提供信息。開發人員在考慮設計元素,如靈
92、活性和構建緩解風險的特性時,可以參考這些卡片中捕獲的信息。5.持續監督5.持續監督隨著新信息或新發展出現,定期回顧并更新場景規劃。將場景規劃練習整合到開發生命周期中。持續監控和評估風險緩解策略的有效性。根據經驗,優化場景規劃、風險管理和開發之間的反饋循環。模型卡片、風險卡片和數據手冊,這三種文檔都是活文檔。隨著場景規劃或其他來源出現的新信息或新發展,應重新審視并修訂這些文檔,以保持它們的準確性和有效性。5.AI MRM 在行動5.AI MRM 在行動這一部分通過探索一個現實世界的應用,彌補了理論與實踐之間的差距。我們將看到場景規劃如何轉化為具體行動,使我們能夠主動識別在現實世界應用中使用AI模
93、型的潛在風險。這個實際例子展示了AI MRM的真正價值它將抽象概念轉化為確保模型負責任和安全部署的具體步驟的能力。在我們深入案例研究之前,先回顧下面的圖表,它描述了場景規劃的整體流程。2025云安全聯盟大中華區版權所有46圖3.使用模型卡片、風險卡片和數據手冊進行場景規劃社交媒體內容審核的大型語言模型社交媒體內容審核的大型語言模型這個案例研究探討了使用大型語言模型(LLM)進行社交媒體內容審核的潛在風險和機會,并利用模型卡片、風險卡片和數據手冊進行場景規劃。注意:注意:這里展示的模型卡片、數據手冊和風險卡片是為了說明目的而進行的簡潔總結。在實際應用中,這些文檔會更加全面,包含詳細的信息。模型卡
94、模型卡模型卡片揭示了模型的能力、局限性和潛在偏見。它充當用戶指南,概述了模型在社交互動方面的優勢,并強調了由于訓練數據中的潛在偏見或局限性而可能需要謹慎的領域。讓我們為內容審核大型語言模型創建模型卡片。模型名稱模型名稱:社交達人-內容審核大型語言模型日期日期:此文檔中的信息截至2024年4月1日是最新的,除非下面另有說明。模型目的模型目的:社交達人旨在分析社交媒體內容并識別可能違反平臺政策的行為,包括仇恨言論、虛假信息和騷擾。它通過標記需要審核的內容來協助人類審核員。模型輸入模型輸入:社交達人接收來自社交媒體帖子、評論和消息的文本數據。2025云安全聯盟大中華區版權所有47模型輸出模型輸出:預
95、訓練的大型語言模型為每條內容分配一個風險評分,表明其違反平臺政策的可能性。模型訓練數據模型訓練數據:社交達人在大量標記過的社交媒體內容數據集上進行訓練,包括違反政策的示例和可接受的內容。這些數據不斷更新,以反映不斷演變的語言模式和文化細微差別。性能指標性能指標:社交達人的性能通過準確性(正確識別違規行為)、精確度(避免誤報)和召回率(捕獲大多數違規行為)等指標進行評估。數據手冊數據手冊數據手冊提供了對訓練模型所用數據集的透明視角。它們揭示了數據的來源、特征和規模,使人能夠理解塑造“社交達人”響應的基礎。下面列出了內容審核大型語言模型的兩張數據手冊。數據手冊1:數據手冊1:社交媒體政策指南日期:
96、日期:此文檔中的信息截至2024年4月1日是最新的,除非下面另有說明。描述:描述:這張數據手冊概述了特定社交媒體平臺的社區指南和內容審核政策,LLM 被訓練用來識別違反這些政策的行為。用例:用例:使LLM能夠識別并標記違反平臺規則的內容,促進安全和包容的在線環境。來源:來源:來自主要社交媒體平臺(例如,Facebook、Twitter、YouTube)的公開可用的社區指南和內容審核政策。特征:特征:概述禁止內容類別(例如,仇恨言論、欺凌、騷擾)的結構化數據,以及具體示例和定義。數據規模取決于平臺,通常從數萬字到數十萬字不等。數據手冊2:文化細微差別和上下文日期:數據手冊2:文化細微差別和上下文
97、日期:此文檔中的信息截至2024年4月1日是最新的,除非下面另有說明。描述:描述:這張數據手冊包括特定于不同文化和地區的語言示例,以幫助LLM區分真正的仇恨言 2025云安全聯盟大中華區版權所有48論、諷刺和文化表達。用例:用例:這些數據提高了LLM理解上下文并避免基于文化背景的誤解的能力。來源:來源:策劃的文本和多媒體內容集合,代表不同的文化和地區。這包括來自當代美國英語語料庫(COCA)的文本,可能包括新聞文章、社交媒體對話、文學作品和文化參考。特征:特征:文本數據帶有文化背景標記,識別幽默、諷刺、成語和特定于不同地區的表達。規模:10億詞的文本數據,附有文化注釋(截至2024年2月1日)
98、。風險卡風險卡根據“社交達人”模型卡片和概述其訓練數據的數據手冊,已經開發了一套風險卡片,以主動識別潛在問題。這些風險卡片深入探討了“社交達人”的輸出可能被誤解或濫用的場景。風險#風險#名稱名稱描述描述影響影響可能性可能性潛在影響潛在影響緩解措施緩解措施1訓練數據中的偏見訓練數據中的偏見可能導致LLM過度標記來自某些群體或觀點的內容。高中不公平的審查、用戶信任的侵蝕以及潛在的法律問題。使用多樣化的數據源進行訓練,實施偏見檢測算法,并在審核過程中引入人工監督。2錯誤信息和細微差別LLM可能難以區分諷刺、挖苦和真正的錯誤信息,導致標記不準確。高高對合法內容的審查和阻礙健康的在線討論。訓練LLM以識
99、別上下文和風格線索,開發機制以便人工復審具有細微差別的標記內容,并公開LLM的局限性。3不斷演變LLM可能無法跟高高遺漏違規行為通過新示例不 2025云安全聯盟大中華區版權所有49的語言和仇恨言論上在線語言不斷演變的特性,包括新形式的仇恨言論或編碼語言。和平臺上仇恨內容的增加。斷更新訓練數據,開發算法以檢測新出現的語言模式,并利用人類專業知識來識別新形式的仇恨言論。場景規劃場景規劃設想“社交達人”在現實世界情境中的互動。這一部分探索了一些場景,以觀察模型可能的反應。場景1:有效審核(廣泛采用+降低風險)描述:場景1:有效審核(廣泛采用+降低風險)描述:“社交達人”有效地協助人類審核員識別和移除
100、有害內容,從而營造一個更安全、更具包容性的在線環境。實施的保障措施最小化了偏見,并確保了LLM的負責任使用。好處:好處:提高內容審核效率,減少用戶接觸有害內容的機會,以及更積極地在線體驗。挑戰:挑戰:不斷適應LLM以應對不斷演變的語言模式和在線趨勢。確保能夠獲取足夠的高質量訓練數據,以保持模型的有效性??偨Y:總結:“社交達人”,作為一個大型語言模型(LLM),可以協助人類審核員進行內容審核。然而,訓練數據中存在偏見的風險,可能導致不公平的內容標記。為了減輕這一風險,將使用多樣化的數據源和偏見檢測算法來訓練LLM。此外,將在審核過程中保持人工監督。雖然“社交達人”有潛力提高在線安全,但解決偏見并
101、確保負責任地使用對于其成功至關重要。場場景2:放大偏見(訓練數據中的偏見+有限的監督)描述:景2:放大偏見(訓練數據中的偏見+有限的監督)描述:訓練數據中的偏見導致不公平的內容審核,不成比例地針對特定群體。有限的人工監 2025云安全聯盟大中華區版權所有50督使得帶有偏見的標記得以放任。潛在后果:潛在后果:侵蝕用戶信任,引發審查制度的指責,聲譽損害,以及潛在的法律后果。緩解策略:緩解策略:徹底審計訓練數據以查找偏見,增加關于LLM局限性的透明度,以及對所有標記內容進行強制性人工復審??偨Y:總結:“社交達人”在內容審核方面雖然有價值,但面臨放大偏見的風險。有限的人工監督可能導致訓練數據中的偏見未
102、被檢查,從而導致對某些群體的不公平內容標記。需要對訓練數據進行徹底的偏見審查,透明公開LLM的局限性,并對所有標記內容進行強制性人工復審,以解決這一問題。五、結論與展望五、結論與展望通過結合模型卡片、數據手冊、風險卡片和場景規劃,我們可以建立一個全面的模型風險管理(MRM)框架。該框架確保負責任的開發,減輕了偏見和數據質量問題等風險,并實現模型的安全和有益使用。優先考慮自動化和標準化工作將提高框架的效率,實現無縫集成,并提供匯總性能報告。這種積極主動的方法有效地管理了模型風險,并與人工智能/機器學習創新保持同步。展望未來:模型風險管理(MRM)的演變趨勢展望未來:模型風險管理(MRM)的演變趨
103、勢人工智能和機器學習領域不斷演進,要求我們對模型風險管理(MRM)最佳實踐進行適應和完善。為此,我們將擴展本文的內容,提供實踐經驗、見解,并幫助有效實施這些實踐。我們還將探討以下新的關鍵領域,旨在擴大我們對全面模型風險管理(MRM)的理解:標準化文檔:標準化文檔:為模型卡片、數據手冊和風險卡片開發一致的格式將簡化不同模型之間的比較,便于進行風險評估,并使我們能夠更全面地了解模型的功能和局限性。機器學習運維(機器學習運維(MLOps)和自動化的興起:)和自動化的興起:機器學習運維(MLOps)領域正日 2025云安全聯盟大中華區版權所有51益受到關注,該領域專注于機器學習(ML)的開發和運維(D
104、evOps)實踐。自動化工具被納入模型開發生命周期中,實現了持續監控和風險評估。這一轉變有助于在模型部署到生產環境之前識別和應對風險。集成可解釋性人工智能集成可解釋性人工智能(XAI)技術:技術:可解釋性人工智能(XAI)技術能夠更深入地洞察模型的決策過程,從而進一步加強風險識別和緩解工作。監管環境的發展:監管環境的發展:圍繞人工智能(AI)/機器學習(ML)模型的監管框架仍在制定中。行業、監管機構和決策者之間的持續合作對于建立既促進創新又降低風險的明確有效監管至關重要。解決社會和倫理問題:解決社會和倫理問題:隨著人工智能(AI)/機器學習(ML)模型的日益普及,持續解決圍繞偏見、公平和問責制
105、的潛在社會和倫理問題非常關鍵。將這些考慮因素集成到MRM框架中尤為重要。注重人機協作:注重人機協作:隨著人工智能(AI)模型越來越多地融入決策過程中,重點將轉向人機協作。風險管理策略必須不斷發展,以考慮可能影響模型輸出的人為錯誤或偏見。通過積極采用框架的方法來管理模型風險,我們可以充分發揮人工智能(AI)/機器學習(ML)模型的潛力,并確保它們安全、負責地融入未來的創新中。參考文獻參考文獻McKinsey&Company.(2023).The state of AI in 2023:Generative AIs breakout year.McKinsey&Company.https:/ er
106、ative-AIs-breakout-yearIBM.(n.d.).Watsonx AI.IBM.https:/ Exchange Server Remote Code Execution Vulnerability(CVE-2024-26198).CVE details.https:/ language model deployment with risk cards.arXiv.2025云安全聯盟大中華區版權所有52https:/doi.org/10.48550/arXiv.2303.18190Derczynski,L.(n.d.).Language model riskcards:Sta
107、rter set.GitHub.https:/ Model Cards101:An Introduction to the Key Concepts and Terminology:https:/www.nocode.ai/ai-model-cards-101-an-introduction-to-the-key-concepts-and-terminology/Template for Model Cards:https:/ Cards for Model Reporting:https:/arxiv.org/abs/1810.03993Google Cloud Model Cards:GP
108、T-4 System Card by OpenAI:gpt-4-system-card.pdf()Gemma Model Card:Gemma Model Card|Google AI for DevelopersModel Card for Claude 3 family of models:Model_Card_Claude_3.pdf()Model Card for VAE(dVAE)that was used to train DALLE:https:/ Model Cards:https:/ Cards&Prompt formatshttps:/ 2024:Secure Your F
109、uture:A CISOs Guide to AI,World Wide Technology,2024,https:/ 2024:The biggest risk corporations see in gen AI usage isnt hallucinations,CNBC,2024-05-16,https:/ lucinations.htmlGRC-based Model Risk Management Technology Solutions:A tech-enabled service,https:/ model risk management for AI and machine
110、 learning,https:/ FAIR Artificial Intelligence(AI)Cyber Risk Playbook,https:/www.fairinstitute.org/blog/fair-artificial-intelligence-ai-cyber-risk-playbook 2025云安全聯盟大中華區版權所有53附錄 1:人工智能框架、法規和指南附錄 1:人工智能框架、法規和指南本節列出了各種框架、法規和指導文件,這些文件有助于推動負責任的人工智能開發與實施。這些資源建立了最佳實踐,概述了風險管理方法,并在人工智能的整個生命周期中促進道德考量。1.美國國家標
111、準與技術研究院(NIST)網絡安全框架(CSF)v2.01.美國國家標準與技術研究院(NIST)網絡安全框架(CSF)v2.0定義:NIST網絡安全框架(CSF)是一個自愿的、基于風險的框架,旨在指導組織改善其網絡安全態勢。它概述了五個核心功能:識別、保護、檢測、響應和恢復。與人工智能的相關性:盡管NIST CSF并非專為人工智能設計,但其原則可以適應于管理人工智能系統相關的網絡安全風險。這些風險可能包括數據泄露、人工智能模型篡改以及人工智能賦能應用程序中的漏洞。與模型風險管理(MRM)的關系:NIST CSF通過為人工智能模型中使用的底層基礎架構和數據提供安全保障的基礎,來補充模型風險管理(
112、MRM)。人工智能中的有效風險管理需要強大的網絡安全實踐,而NIST CSF有助于建立這些實踐。2.美國國家標準與技術研究院(NIST)的人工智能風險管理框架(AI RMF)(提案)2.美國國家標準與技術研究院(NIST)的人工智能風險管理框架(AI RMF)(提案)定義:人工智能風險管理框架(AI RMF)是NIST提出一個框架,專門設計用于管理人工智能系統相關的風險。該框架仍在開發中,但旨在提供一種全面的方法來識別、評估、減輕和監控人工智能風險。與人工智能的相關性:人工智能風險管理框架(AI RMF)解決了在人工智能開發、部署和使用中風險管理的挑戰。它為組織提供了一個結構化的方法,以確保其
113、人工智能系統是安全、可靠和可信賴的。與模型風險管理(MRM)的關系:一旦人工智能風險管理框架(AI RMF)最終確定,它可能會成為人工智能模型風險管理(AI MRM)實踐的基石。該框架建立在現有風險管理框架(如NIST CSF)的基礎上,并針對AI系統的特定需求進行了定制。3.ISO 27001:2022信息安全、網絡安全和隱私保護信息安全管理體系要求3.ISO 27001:2022信息安全、網絡安全和隱私保護信息安全管理體系要求定義:ISO 27001是國際信息安全管理體系(ISMS)標準。它概述了建立、實施、維護和持續改進ISMS以管理信息安全風險的要求。與人工智能的相關性:與NIST C
114、SF類似,ISO 27001為保護信息資產提供了基礎,這對于依賴大型數據集的人工智能系統至關重要。通過實施ISO 27001控制措施,組織可以 2025云安全聯盟大中華區版權所有54保護用于訓練和運行人工智能模型的敏感數據。與模型風險管理(MRM)的關系:通過ISO 27001建立的強大國際信息安全管理體系(ISMS)有助于減輕模型風險管理(MRM)中的數據相關風險。安全的數據處理實踐對于防止數據泄露、未經授權的訪問和人工智能模型中數據的篡改至關重要。4.ISO 42001:2023人工智能管理體系4.ISO 42001:2023人工智能管理體系定義:ISO 42001是一個相對較新的國際標準
115、,旨在增強組織的韌性。它指導組織對破壞性事件進行識別、評估、理解、準備、響應以及從破壞性事件中恢復。與人工智能的相關性:人工智能系統可能容易受到硬件或軟件故障、網絡攻擊或運營環境意外變化等引起的中斷影響。ISO 42001幫助組織建立彈性,以抵御中斷并確保人工智能系統的安全和可靠運行。與模型風險管理(MRM)的關系:通過彈性考慮納入其中,ISO 42001通過確??蚣苣軌蜻m應可能影響人工智能系統的不可預見情況,進而加強模型風險管理(MRM)。5.美國注冊會計師協會(AICPA)的系統和組織控制SOC 2定義:SOC 2是針對存儲和處理客戶數據的服務組織的一套審計程序。它專注于與安全性、可用性、
116、完整性、保密性和隱私性相關的控制措施。與人工智能的相關性:許多組織依賴基于云的人工智能服務。SOC 2報告確保這些服務提供商已實施適當的控制措施以保護客戶數據。與模型風險管理(MRM)的關系:SOC 2報告通過為第三方人工智能服務提供商采取的數據安全控制措施提供獨立驗證,有助于模型風險管理(MRM)。這種獨立驗證有助于組織評估這些服務的可信度,并減輕與數據共享相關的風險。6.歐盟人工智能法案(2024年6月生效)6.歐盟人工智能法案(2024年6月生效)定義:歐盟人工智能法案(AIA)是歐盟制定的一項法規,旨在解決與人工智能系統相關的風險,并為其開發、部署和使用建立法律框架。該法案根據風險級別
117、對人工智能系統進行分類,并對高風險人工智能應用提出具體要求。與人工智能的相關性:歐盟人工智能法案(AIA)特別關注確保人工智能系統的安全性、透明度和可追責性,這對于在各個行業建立對人工智能技術的信任和信心至關重要。與模型風險管理(MRM)的關系:歐盟人工智能法案(AIA)為管理人工智能風險提供了監管基礎,通過引入強制執行的風險評估、減輕和合規性的法律義務,來補充現有的模型風險管理(MRM)框架。2025云安全聯盟大中華區版權所有557.經濟合作與發展組織(OECD)的人工智能原則7.經濟合作與發展組織(OECD)的人工智能原則定義:經濟合作與發展組織(OECD)的人工智能原則是由40多個國家認
118、可的國際標準。該原則旨在促進在社會和經濟中負責任地管理可信賴的人工智能。它們關注創新和可信賴的人工智能,同時尊重人權和民主價值觀。與人工智能的相關性:該原則倡導設計尊重法治、人權、民主價值觀和多樣性的人工智能系統,并鼓勵在人工智能系統中實現透明度和負責任的披露。與模型風險管理(MRM)的關系:經濟合作與發展組織(OECD)人工智能原則,支持將倫理、社會和法律考量納入人工智能系統的生命周期中。它通過指導組織應對更廣泛的社會風險,并確保人工智能開發符合全球標準和價值觀,進而增強模型風險管理(MRM)實踐。8.公平的人工智能(AI)網絡風險操作手冊(FAIR-AIR方法手冊)8.公平的人工智能(AI
119、)網絡風險操作手冊(FAIR-AIR方法手冊)定義:信息風險因素分析(FAIR)一個國際標準的定量風險分析模型,用于信息安全和運營風險分析。FAIR-AIR可幫助您識別與人工智能相關的損失暴露,并在網絡風險管理中,針對這一新類別做出基于風險的決策。與人工智能的相關性:對人工智能模型或基于人工智能的系統進行定量風險評估是具有挑戰性的。FAIR-AIR可以幫助應對這一新類別中具有挑戰性的網絡風險量化任務。與模型風險管理(MRM)的關系:模型風險評估除了定性風險評估外,還可以采用定量方法。定量分析可以提供一個模型,以理解財務方面的風險,并與業務部門進行更好的溝通。2025云安全聯盟大中華區版權所有56