《03 劉歆軼 AIGC安全審計框架初探 v4_1123_脫敏.pdf》由會員分享,可在線閱讀,更多相關《03 劉歆軼 AIGC安全審計框架初探 v4_1123_脫敏.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、網絡安全00FCis 2023創新大會AIGC安全審計框架初探建立人工智能時代的第三道防線非夕機器人劉款鐵IREEBUF#page#ISREEBUFFCIS2023什么是AIGC自然語言處理,知識圖諾,專家系統,基于規則系統遺傳算法,符號推理人工智能聊天機器人,圖像文字識別OCR,流程機器人RPA決策樹,線性回歸機器學習模式識別,圖像識別,預測分析,情感分析31深度混合模型,深度生成模型,深度判別模型,神經網絡深度學習川U生成敵對網絡,變分自動編碼器生成式AI內容生成AIGC#page#ISREEBUFFCIS 2023AIGC發展歷程GmrsPanGu-20212PLUGHPrCLOVCPH
2、茶LaMDAFLANBL.OOM裝T器本CodeBL0OMZAN Gnlak0000aOPTIML#page#公ISREEBUFFCIS 2023AIGC成熟度技術成熟度曲線是Gartner于1995年首次采用的、用于分析及預測各種新技術在關注度、市場預期和實際應用中的成熟度和發展趨勢。該曲線將一項技術的發展分為了5個階段:技術啟動(innovationTrigger):該技術開始獲得媒體關注、產生奧論,但是可能沒有實際的產品和應用。該技術的期望被過度放大。此期間可能會出現些成功案例,但更多的是失敗的嘗試。工作會開始對技術感到失望。并開始看到其潛在的效益。生產高地(PauofPProducti
3、vity):該技術已經成熟且被廣泛的理解和接受被大眾所使用。#page#ISREEBUFFCIS 2023AIGC能做什么Jaspercopy,AChatGPT文本生成Bard: GTP4EditGAN: Deepfake圖像生成AIGCDALL-E:Stable DiffusionDeepMusic WaveNet音頻生成Deep Voice: MusicAutoBotDeepfake;VideoGPT視頻生成GaCloudImagevideo#page#page#ISREEBUFFCIS 2023AIGC系統安全風險系統安全性(SystemicSafety)降低開危害(Hazard)弱性(
4、Vulnerability)X危害敲口(HazardExpo5U監測對齊魯棒性(AUignment)(Monitoring)#page#福ISREEBUFFCIS 2023AIGC數據安全風險1數據采集階段2數據處理階段2個人隱私用戶權利數據污染數據投毒攻過度采集知識產權擊數據偏差和歧視3數據流通階段4數據使用階段數據交互數據孤島關聯分析還原攻擊數據跨境對抗樣本#page#今ISREEBUFFCIS 2023AIGC語料風險包含違反社會價無法滿足特定服值觀的內容務的安全需求包含岐視性內容侵犯他人合法權益商業違法違規#page#臺ISREEBUFFCIS 2023語料來源審計要點語料來源管理方面
5、語料來源可追潮方面不同來源語料搭配方面是否建立了語料來源黑使用開源語料時,是否具有該話料來源的開源授權協議或是否具備來源多樣性,對每一相關授權文件?名單,不使用黑名單來種語言,如中文、英文等?源的數據進行訓練?使用自采語料時,是香具有采集記錄,不應采集他人已明是否對每一種語料類型,如文確聲明不可采集的語料?是否對各來源語料進行本、圖片、視頻、音頻等,均安全評估?使用商業語料時:是否有具備法律效力的交易合同、合作有多個語料來源?協議等?單一來源語料內容中含是否合理搭配了境內外來源語將使用者輸入信息當作語料時,是否具有使用者授權記錄違法不良信息超過5%的,節是否將該來源加入黑名是否設定按照我國網絡
6、安全相關法律要求阻斷的信息拒絕單?作為訓練語料?#page#售ISREEBUFFCIS 2023語料標注審計要點標注人員方面標注內容準確性方面標注規則方面標注規則是否包括標注目標、數據格式、標注方法、是否對標注人員進行考核,給對安全性標注,每一條標注語料質量指標等內容?予合格者標注資質,并有定期是否至少經由一名審核人員審核重新培訓考核?通過?是否對功能性標注以及安全性標注制定了標注規則是否將標注人員劃分出數據標標注規則是否覆蓋數據標注以及數據審核等環節?對功能性標注,是否對每一批標注、數據審核等職能?注語料進行人工抽檢,發現內容功能性標注規則是否能指導標注人員按照特定領域特在同一標注任務下,同
7、一標注不準確的,是否重新標注人員是否承擔多項職能?點生產具備真實性、準確性、客觀性、多樣性的標注語料?是否為標注人員執行每項標注發現內容中包含違法不良信息的,任務預留充足、合理的標注時該批次標注語料是否作廢處理?安全性標注規則是否能指導標注人員圍繞語料及生成間?內容的主要安全風險進行標注?#page#ISREEBUFFCIS 2023語料內容審計要點內容過濾方面個人信息方面使用包含個人信息的語料時,是否獲得對應個人信總主體的授權同意,或滿足其他合法使用該個人信息的條件?是否采取關鍵詞、分類模型、使用包含敏感個人信息的語料時,是否獲得對應個人工抽檢等方式,充分過濾全人信息主體的單獨授權同意,或滿
8、足其他合法使用該敏感個人信息的條件?部語料中違法不良信息?使用包含人臉等生物特征信息的語料時,是否獲得對應個人信息主體的書面授權同意,或滿足其他合法使用該生物特征信息的條件?#page#臺ISREEBUFFCIS 2023AIGC算法模型風險可解釋性問題不良信息傳播算法直接在包含噪聲的互聯網數據基礎上進行建模訓練算法模型復雜度來越高,整個訓練過程變成一個黑盒沒有將防范抵制不良信息的要求內化成算法的具體規則。很難理解算法模型的內部工作機制用戶權益及信息保護算法魯棒性對用戶的知情權、選擇權等權益保障不足偏差,噪聲,干擾,隨機性算法訓練數據中個人信息的保護和過度收集問題。算法攻擊倫理偏見岐視黑盒攻擊
9、,灰盒攻擊,白盒攻擊,推理攻擊算法設計開發過程中可能帶著設計者或開發者的偏見對抗樣本攻擊,模型盜取,反演攻擊或采用帶有偏見的數據而導致推薦結果出現偏見#page#ISREEBUFFCIS 2023AIGC算法模型審計要點服務輸出的預期用途是什么?該服務運用了哪些算法或技術?原理服務測試了哪些數據集?(提供指向用于測試的數據集的鏈接,以及相應的數據表)審查測試方法。責任數據審查測試結果。是否知道使用該服務可能導致的偏見,道德問題或其他安全風險的例子?服務輸出是香可以解釋和/或解釋?對于服務使用的每個數據集:是否檢查了數據集是否存在偏倚?公平采取了哪些措施來確保其公平性和代表性?安全服務是否實施并
10、執行任何偏見和補救指施對看不見的數據或具有不同分布的數據的預期性能是什么?影響是否檢查了該服務是否具有對抗攻擊的魯棒性?上次更新模型的時間是什么#page#ISREEBUFFCIS 2023AIGC信息輸入審計要點是否事前與使用者約定能否將使用者輸入信息用于訓練?收集使用者輸是否設置關閉使用者輸入信息用于訓練的選項?入信息用于訓練方面使用者從服務主界面開始到達該選項所需操作是否超過4次點擊?是否將收集使用者輸入的狀態,關閉方式顯著告知使用者?#page#ISREEBUFFCIS2023AIGC模型適用性審計要點模型適用人群、場合、用途方面:服務透明度方面是否充分論證在服務范圍內各領城應用生成式
11、人工智能的必以交互界面提供服務的,是香在網站首頁等顯著位置要性、適用性以及安全性?向社會公開以下信息服務用于關鍵信息基礎設施、自動控制、醫療信息服務、心服務適用的人群、場合、用途等信息里咨詢穿重要場合的,是否具備與風險程度以及場景相適應的保護指施?一第三方基礎模型使用情況服務適用未成年人的,是否滿足以下要求:一允許監護人設定未成年人防沉迷指施,并通過密碼保等便于查看的位置向使用者公開以下信息護一服務的局限性;一限制未成年人單日對話次數與時長,若超過使用次數或時長需輸入管理密碼;所使用的模型架構訓練框架等有助于使用者了需經過監護人確認后未成年人方可進行消費解服務機制機理的概要信息一為未成年人過濾
12、少兒不宜內容,展示有益身心健康的以可編程接口形式提供服務的,是否在說明文檔中公內容。開1)和2)中的信息?服務不適用未成年人的,是否采取技術或管理措施防止未成年人使用?#page#分ISREEBUFFCIS 2023AIGC生成內容風險輸出質量問題由于其不可預測的性質,確保AIGC模型生虛構的事實和幻覺成的輸出質量極具挑戰性物算科限應回、,黑斯著,在需要準確信息(如搜索)的情況下使用這些工具之前,需要設置重要的防護機制。有偏見的輸出基于用于訓練模型的數據中的偏見,AIGC模型與其他模型一樣容易遺受有偏見輸出的風險。例如,StableDifusion可能會根據提示顯示“公司首席執行官”的圖像,并
13、只生成白人男性的圖像。易被藍用AIGC的絕對力量使其容易被“越獄”,雖然GPT的訓練主要集中在單詞預測上,但它的推理能力是一個意想不到的結果果。隨著我們在AIGC模型方面取得進展,用戶可能會發現#page#ISREEBUFFCIS 2023AIGC倫理風險人工智能倫理準則關鍵道歐盟人工智能倫理指南歐盟7項AI倫理要求(1)以人為本福社、尊嚴、自主白由等尊重人類自主權一增進人類福礎(2)可持續遠期人工智能、環境夜好、技術魯棒性&安全性(3)合作(CoB(二)尊重生命權利(4)(y隱私和數據治理(5)公平(Faies【三】堅持公平公證無國更導本路公平原則(6)共享(shm)(7)外部安全(Smiy
14、公開透明(四)合理控制風險【8)內部安全(Sufcy)可追湖定期面o)(6)【五】保持公開透明社會福址責任、中查和監管等#page#ISREEBUFFCIS 2023AIGC知識產權風險#page#ISREEBUFFCIS 2023AIGC知識產權風險#page#金ISREEBUFFCIS 2023AIGC知識產權風險ZARYA OFTHE DAWA#page#分ISREEBUFFCIS 2023AIGC知識產權風險ZARYA OFTHE DAWA#page#分ISREEBUFFCIS2023AIGC知識產權風險ZARYAA OFTHEDAWN#page#臺ISREEBUFFCIS 2023A
15、IGC生成內容審計要點模型生成內容安全方面生成內容準確性方面成內容安全性作為評價生成的主要考慮指Do0在每次對適中,是否對使用者輸入信息進行安全性檢測,引導生成內容是否準確地響應使用者輸入意圖8模型生成積極正向內容?含的數據及表述是否符合科學常識或A是否通過館認知、不含錯誤內容?針對性的指令微調、強化學習等方式優化模型生成內容可靠性方面用者指令給出的回復,是否格式框架合理有效內容含量高?是否能夠有效幫助使用者解答問題?#page#ISREEBUFFCIS 2023AIGC倫理價值觀審計要點代表性問題審計內容展提供更多的援助和資源?家是否認為地城你是否認同品和服務,以支持本地經濟發展?性中更令人
16、反感?性別人事井下、夜班、有毒有害、高溫、高空、冷水和重體力勞動?是告訊為男性和女件在人,自熱、社面被視為個人的自由,而非公共健康政策的一部分?你是否認為,飲食和健康你是否認為,人們有權獲民族北差異使得他們在某些方面具有不同的能力或特長?你是否認為,主流文化的傳播和推廣少數民族的文化傳承你是否同意宗教信仰應蘭被俱護,不受他人信仰你是否認同,無論個人是否具有宗教信仰當受到相同的尊重和公平待遇?和滿足的生活?你是否認為,即使一個人年齡年齡段的人都應有機會學習和進步#page#臺ISREEBUFFCIS 2023AIGC知識產權審計要點是否設置語料以及生成內容的知識產權負責人,并建立知識產權管理策略
17、?語料用于訓練前,知識產權相關負貴人等是否對語料中的知識產權侵權情況進行識別,是否使用有侵權問題的語料進行訓練?是否建立知識產權問題的投訴舉報以及處理渠道?是否在用戶服務協議中,向使用者告知生成內容使用時的知識產權相關風險,并與使用者約定關于知識產權問題識別的責任義務?是否根據國家政策以及第三方投訴情況更新知識產權相關策略?是否公開訓練語料中涉及知識產權部分的摘要信息?是否在投訴舉報渠道中支持第三方就語料使用情況以及相關知識產權情況進行#page#過ISREEBUFFCIS 2023AIGC生成內容輸出審計要點圖片、視頻等內容標識方面是否按TC260-PG-20233A網絡安全標準實踐指一生成
18、式人工智能服務內容標識方法進行以下標識向使用者提供生成內容方面1)顯示區域標識2)圖片、視頻的提示文字標識;是否拒絕回答;對其他問題,是否能正?;?)圖片、視頻、音頻的隱藏水印標識;答?陽4)文件元數據標識是否設置監看人員,及時根據國家政策以及第三5)特殊服務場景的標識。監看人員數量是否與服務規模相匹配?#page#臺ISREEBUFFCIS2023AIGC內容合規要點審計內容時計透明度公平性可控性包客性可問責#page#ISREEBUFFCIS 2023AIGC服務合規要點生成式人工智能服務管理行辦法服務前,應當按照具有奧論屬性或社會動員能力的互聯網信息服務安全評估規定向國家網信部門申報安第
19、六條利用生成式人工智臺規定履行算法備案和變更,注銷備案手續。第十六條提供者度合成管理規定對生成的圖片、視頻等內容進行標識。備案主體共者以及深度合成服務技術支持者的備案;兩種角色,為成服務名的各案端用戶提供深度合成服務的度合成技術供應商是否已完成相關備案,其預臺各提供者的身價單獨的備案義務備案內容主體信息算法信息主體責任王算法安全自評估擬公示內容#page#page#福ISREEBUFFCIS 2023AIGC安全審計模型一個目標將AIGC相關風險控制在可接受水平兩種風險技術風險運營風險評價算法模型評價應用服務三項評價評價平臺架構四類測試#page#臺ISREEBUFFCIS 2023AIGC安
20、全審計框架AIGC安全目標AIGC安全技術審計AIGC安全管理審計平臺架構數據語料模型算法服務應用規劃建設組織能力流程制度8828茶裝彩客班公格8金愛公8R裝粉煙設商金器糕88中#page#ISREEBUFFCIS 2023AIGC審計流程建立確定明確組件制訂獲取審計團隊審計章程審計授權審計范圍審計依據商卡共串審計發布編制分析收集確定記錄存檔審計報告審計報告審計底稿審計證據審計內容#page#今ISREEBUFFCIS 2023AIGC審計方法人員訪談:文檔審查:功能核驗:對個人信息保護要求、安全審核對個人信息保護要求、模型應對個人信息保護要求、用戶標簽、干預控制、風險監測、算法公平模型應用、
21、安全審核、干預控制、用、算法公平、用戶權益保護算法導向、內容呈現、安全運營、風險監測、追湖機制、安全運營、等方面內容進行核驗。安全評估、應急處置、違規追責等安全評估、應急處置、違規追責方面內容進行訪談交流。等方面進行檢查。#page#其ISREEBUFFCIS 2023AIGC審計報告審計發現:過程回顧:改進建議:與被審計對象協商,對審計過程中各對審計目標,審計范圍,審計依據,審計對審計實施過程中發現的嚴重不符計劃審計方法審計局限性等方面進合、一般不符合、觀察項、建議項類審計發現的改進方法和實施計劃達行閘述。等審計結果進行整理匯總并向管理成一致,并向管理層進行授權申請層呈現。#page#全網絡安全西巴FCis202創新大會THANKSISREEBUF#page#全網絡安全西巴FCis202創新大會THANKSISREEBUF#page#全網絡安全西巴FCis202創新大會THANKSISREEBUF#page#