《賽迪研究院:2024人工智能安全趨勢研究報告(34頁).pdf》由會員分享,可在線閱讀,更多相關《賽迪研究院:2024人工智能安全趨勢研究報告(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、網 絡 安 全 研 究賽迪研究院 主辦2024 年 12 月 15 日總第 81 期4第期本期主題 人工智能安全趨勢研究所長導讀近年來,隨著人工智能技術的快速迭代與深度應用,其對社會經濟和日常生活的變革性影響日益顯現。然而,與技術進步相伴的是日趨復雜的安全挑戰。如何在推動技術創新的同時,確保人工智能系統的安全、可靠和可控,成為當前全球科技發展的核心議題。本期人工智能安全趨勢研究從供應鏈、數據、算法、應用和倫理五個層面梳理了人工智能的安全風險,分析了高端芯片斷供、數據泄露、對抗性攻擊、深度偽造以及倫理困境等問題對人工智能技術發展的潛在威脅。同時,介紹了機密人工智能、聯邦學習、對抗性機器學習、AI
2、GC 檢測、可解釋人工智能等技術解決方案,并展望了人工智能安全測評的發展方向。此外,針對我國實際情況,報告提出了完善人工智能治理體系、加快關鍵技術研發、推動人工智能安全標準建設以及加強公眾教育等具體建議,助力我國人工智能實現安全、可持續的高質量發展。在當前人工智能技術加速融入社會經濟各領域的背景下,推動人工智能安全發展不僅關乎技術本身,更是構建和諧社會、維護公平秩序的重要前提。希望本期內容能為政府部門、企業機構和社會組織提供參考和借鑒,并歡迎各界讀者不吝賜教。賽迪研究院網絡安全研究所所長 溫曉君2024 年 12 月 15 日本期主題:人工智能安全趨勢研究一、人工智能安全1(一)人工智能內生安
3、全1(二)人工智能衍生安全2二、人工智能安全風險分析2(一)供應鏈安全2(二)數據安全4(三)算法安全5(四)應用安全6(五)倫理安全8三、人工智能安全解決方案和技術趨勢10(一)數據安全與隱私保護10(二)算法安全與模型防護13(三)人工智能生成內容檢測和溯源15(四)人工智能透明度和信任構建17四、人工智能安全測評趨勢21(一)人工智能安全測評標準21(二)人工智能安全測評平臺和工具22(三)人工智能安全測評未來展望23目 錄 目 錄 CONTENTS五、促進我國人工智能安全發展的對策建議24(一)構建多層次的人工智能安全治理體系24(二)加快技術研發與自主生態建設25(三)完善人工智能安
4、全標準與測評體系26(四)加強倫理引導與公眾教育27本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期1一、人工智能安全人工智能作為引領科技革命和產業變革的核心技術,已經深刻改變了社會各領域的運作模式。從 20世紀 50 年代人工智能概念的提出,到 21 世紀初機器學習的興起,再到近幾年深度學習和大模型的迅猛發展,人工智能在語音識別、圖像處理、智能駕駛等多個領域取得了顯著成果。尤其是 ChatGPT、Sora 等大模型的廣泛應用,使得人工智能逐步滲透到人們的日常生活與工作中。然而,隨著人工智能技術的普及化與復雜化,其安全問題日益凸顯。一旦人工智能系統被濫用、誤用或發生故障,不僅可
5、能帶來經濟損失,還可能對社會秩序、倫理道德乃至國家安全構成威脅。因此,全球各國逐漸將人工智能安全作為重要議題,開展相關研究與政策制定。人工智能安全可分為人工智能內生安全(AI Security)和人工智能衍生安全(AI Safety)。內生安全指的人工智能系統自身存在的脆弱性,可能導致系統運行出現問題,無法達到預設的功能目標。這往往源于新技術的不成熟,或是技術自身的天然缺陷。衍生安全則是指人工智能技術的脆弱性被利用,雖然其自身能夠正常運行,但是危及其他領域的安全。這兩方面共同構成了人工智能安全的核心內容,決定了人工智能技術能否在安全、可靠、可控的前提下持續健康發展。(一)人工智能內生安全人工智
6、能內生安全包括供應鏈安全、數據安全、算法安全三個層面。供應鏈安全:人工智能供應鏈安全是指在人工智能供應鏈的整個生命周期中,確保所涉及的訓練框架、第三方庫、操作系統、數據庫、芯片、云服務等軟硬件和服務的安本期主題:人工智能安全趨勢研究專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期2全性、完整性和可靠性。數據安全:人工智能數據安全是指通過采取必要措施,確保人工智能系統使用的數據得到有效保護,并且合法、安全地被利用,同時具備持續保障數據安全狀態的能力。算法安全:人工智能算法安全是指在整個人工智能系統的設計、開發、部署和使用過程中,確保算法的公正性、透明性、魯棒性和抗攻擊能力,同時采取必
7、要措施保護算法免受未經授權的訪問和篡改,以及確保算法的決策過程和結果合法、合規。(二)人工智能衍生安全人工智能衍生安全包括應用安全和倫理安全兩個層面。應用安全:人工智能應用安全是指確保人工智能應用在實際操作中的安全性和可靠性,防止其被濫用或誤用,保障應用的輸出和行為符合預期。倫理安全:人工智能倫理安全是指在人工智能系統的整個生命周期中,確保其設計和行為遵循以人為本的原則,尊重并保護個人權利,促進社會價值和公共利益,同時避免產生不公平、歧視或責任不清等問題。二、人工智能安全風險分析為全面認識人工智能安全的現狀,以下將從內生安全和衍生安全的這五個層面入手,具體分析當前人工智能安全的主要風險和應對手
8、段。(一)供應鏈安全人工智能的運行依賴硬件與軟件兩大基礎。高端芯片、GPU、FPGA等硬件為人工智能訓練與推理提供算力支持,訓練框架、操作系統、數據庫、云服務和第三方庫為模型開發、數據處理與應用落地提供必要環境。一旦供應鏈中任一環節出現斷供或自身安全問題,可能造成研發進度受阻、性能下降、數據泄露或惡意代碼植入等后果,從而動搖整個人工智能系統的基礎。因此,保障軟硬件全鏈條的安全性,對于人工智能的持續健康發展至關重要。1.硬件供應鏈安全風險一是高端芯片以及關鍵器件的斷供風險。近年來,圍繞高端芯片供應的限制措施不斷升級。2022 年10 月,美國商務部產業與安全局本期主題:人工智能安全趨勢研究網絡安
9、全研究2024 年第 4 期3(BIS)對先進芯片的出口實施管控,包括限制英偉達的 A100 和 H100 兩款 GPU 對華輸出。隨后英偉達為規避管制,在 A100 和 H100 的基礎上推出針對中國市場的“降級版”產品 A800 和 H800,但 2023 年 10 月BIS 再次強化限制,將 A800 和 H800納入出口管制范疇。到 2024 年 12月,BIS 對華半導體出口管制措施進一步擴大,涵蓋 24 種半導體制造設備、3 種相關軟件工具以及高帶寬內存(HBM)芯片等。上述規則的持續收緊表明,高端芯片和存儲器等關鍵硬件的供應鏈已面臨長期不確定性,可能對人工智能系統的算力供給與迭代
10、升級造成制約。二是以智能芯片為代表的硬件本身存在潛在的安全隱患。2024年1月,蘋果、AMD、高通等多家主流廠商的 GPU 產品被曝出重大漏洞,攻擊者可通過底層缺陷從 GPU 內存竊取數據,對運行在該硬件之上的人工智能模型產生影響。2024 年 10 月,高通公司發布安全警告稱,其多達 64 款芯片組中的數字信號處理器(DSP)服務中存在“零日漏洞”,且該漏洞已出現有限且有針對性地利用跡象。2.軟件供應鏈安全風險一是人工智能底層框架等基礎軟件被少數西方公司壟斷帶來的供應鏈脆弱性。谷歌的 TensorFlow 和Meta 的 PyTorch 在中國開發者使用的人工智能框架中超過 60%,英偉達的
11、 CUDA 并行計算架構占據壟斷地位。這種格局使得下游研發和應用流程長期綁定于既定工具鏈,一旦供應方實施限制或技術支持中斷,人工智能產業鏈在模型訓練和推理、性能優化等方面將受到明顯影響。二是底層框架、第三方庫以及開源模型等軟件潛在的漏洞與后門問題。隨著人工智能應用不斷擴張,操作系統、數據庫、云服務以及訓練框架的安全隱患正逐漸顯現。例如,“tensrflwo”惡意代碼包通過仿冒 TensorFlow 框架名稱進行傳播,在下架前累計被下載 870 余次,并通過國內鏡像源持續傳播。2024 年 10 月,字節跳動出現了一起重大模型投毒事件,攻擊者利用HuggingFace 提供的 transform
12、ers代碼庫中 load_repo_checkpoint 函數的安全缺陷,在模型加載環節實施惡意代碼注入,導致模型訓練異專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期4常。隨著人工智能應用的不斷推廣,系統連接愈發密集,非法入侵的潛在觸點也隨之顯著增加。(二)數據安全人工智能的能力高度依賴高質量且安全可靠的數據資源。然而,在模型訓練和推理兩個關鍵環節中,數據面臨著多重安全風險,不僅威脅模型的性能和可靠性,還可能引發嚴重的社會和經濟后果。如何有效應對數據安全挑戰,已成為保障人工智能系統穩定運行的核心議題之一。1.訓練階段的數據安全風險一是數據投毒風險,攻擊者通過植入偏見樣本或不當內容
13、,導致模型輸出偏差性甚至歧視性結果。2016 年,微軟發布了一個名為 Tay的聊天機器人,該機器人能夠從與Twitter 用戶的對話中在線學習。然而,在短短 24 小時內,Tay 在部分用戶的引導下開始發布不當言論,包括臟話和種族歧視等內容。主要是因為在對話數據集中被惡意增加了不當的數據,導致 Tay 學習并模仿這些不當行為。二是數據標注不規范風險。標注質量直接影響模型的有效性與可靠性,但即使是廣泛用于人工智能訓練的權威數據集,也并非完美無缺。麻省理工學院與亞馬遜的研究人員對 10 個主流機器學習數據集進行評估后發現,平均有 3.3%的數據標注存在錯誤,知名數據集 ImageNet 和 CIF
14、AR-100的錯誤率甚至接近 6%。這意味著大量模型在無形中繼承了錯誤標注所帶來的偏差,進而影響對現實場景的判斷與處理。當此類問題在自動駕駛、醫療診斷或公共安全等關鍵領域出現時,其影響已不再局限于模型性能的微小波動,而可能導致重大決策失誤和安全隱患。2.推理階段的數據安全風險一是用戶無意向人工智能服務泄露機密信息。當用戶與大模型等人工智能服務交互時,若缺乏安全意識與明確指引,可能將內部文件、商業機密及個人隱私信息直接輸入系統,從而被模型記錄并潛在擴散。2023 年 4 月,三星被曝光多起數據泄露事件,原因是三星允許半導體部門的工程師使用 ChatGPT修復源代碼問題,至少有三名員工直接將新程序
15、的源代碼本體、與硬本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期5件相關的內部會議記錄等敏感數據以提問的方式輸入給 ChatGPT。數據安全公司 Cyberhaven 調查顯示,2.3%的員工會將公司機密數據粘貼到 ChatGPT 中,企業平均每周向ChatGPT 泄露機密材料達數百次。二是攻擊者可以從模型中反向恢復訓練數據,造成敏感信息泄露。研究發現,黑客可利用新的數據提取攻擊方法從當今主流的大語言模型中大規模提取訓練數據?,F有的對齊與防護技術尚不足以徹底阻斷數據提取攻擊的途徑,在缺乏安全措施的情況下,貿然訓練和部署涉及敏感數據的人工智能應用可能引發嚴重后果。(三)算法安全
16、人工智能系統的底層算法是驅動智能決策和認知能力的核心,然而這一“智能中樞”在復雜現實環境中可能暴露出多重安全隱患,包括內在缺陷、決策過程不透明、對抗樣本攻擊和知識產權竊取等問題。這些隱患不僅威脅人工智能系統的性能和可靠性,還可能影響其決策的公正性,甚至對相關產業的價值和安全造成嚴重沖擊。1.算法缺陷導致系統偏離預期人工智能系統在面對復雜場景時,可能因算法缺陷而偏離預期目標,造成重大損失。例如,2018 年3 月,Uber 自動駕駛汽車因機器視覺系統未能及時識別行人而發生致命事故。谷歌、斯坦福大學、加州大學伯克利分校和 OpenAI 的研究人員將算法模型設計和實施中的安全問題歸納為三類:一是目標
17、函數定義錯誤,設計者在設計目標函數時未能充分考慮運行環境的約束條件,導致算法執行過程中對周圍環境產生負面影響;二是目標函數計算成本過高,算法被迫采用簡化的替代方案,無法達到預期效果;三是模型表達能力不足,在面對訓練數據集之外的新場景時容易產生錯誤結果。這些問題在大模型系統中表現得尤為突出,如 ChatGPT 等大模型在回答專業問題時可能生成貌似專業但實際錯誤的內容,即“幻覺”問題。目前,即便采用更大規?;蚋鼜碗s的模型架構,也無法根本解決大模型的幻覺問題,這使得大模型的可靠性和能力備受質疑。專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期62.算法黑箱阻礙監管審查隨著深度學習等復雜模
18、型的普及,算法決策的不透明性問題愈發突出。即便是開發團隊也難以完全解釋 GPT 等大語言模型的推理過程。這種不透明性主要由三個因素造成:一是企業出于商業利益考慮而主動封閉算法細節;二是技術復雜度超出了普通用戶的理解范圍;三是深度神經網絡本身的決策機制難以用簡單邏輯解釋。算法黑箱現象不僅影響了社會對人工智能的信任,也為監管工作帶來了巨大挑戰。3.對抗性攻擊誘導系統錯誤判斷對抗性攻擊(Adversarial Attack)是指攻擊者通過對輸入數據進行精心設計的微小擾動,使得機器學習模型在感知上幾乎無法察覺這些變化,但卻會導致模型輸出錯誤結果的一種攻擊方式。這些擾動可能包括圖像的像素級調整、語音信號
19、的微小變化,甚至文本中的無意義字符插入等。清華大學研究團隊對主流商用模型的測試表明,通過精心設計的對抗樣本,可以達到較高的攻擊成功率:針對 GPT-4V 的攻擊成功率為 45%,針對 Bard 的攻擊成功率為 22%,針對 Bing Chat 的攻擊成功率為 26%。除了傳統的對抗樣本外,提示注入等新型攻擊手段也層出不窮。在 Chat with Code 插件事件中,攻擊者通過注入特定提示詞,成功控制人工智能系統執行未經授權的 GitHub 操作,包括創建倉庫、更改代碼庫可見性等敏感行為。4.算法模型容易被竊取攻擊人工智能算法模型作為使用大量數據和算力訓練生成的關鍵數字資產,面臨顯著的竊取風險
20、。尤其是在云服務環境中,模型的存儲、傳輸和運行均可能暴露于潛在威脅之下,攻擊者可能通過物理攻擊、網絡抓包、內存轉儲等方式竊取模型核心參數。這不僅威脅模型的機密性,還可能造成知識產權泄露,進一步削弱企業在技術和市場中的競爭力。(四)應用安全人工智能的廣泛應用為各行各業注入了前所未有的創新活力,但也伴隨著日益突出的安全風險。人工智能的強大能力一旦被不法分子利用,會使傳統防御手段逐漸失效,進而威脅用戶隱私、社會秩序乃至本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期7國家安全。隨著人工智能技術的復雜化和普及化,其潛在風險正以更廣的范圍、更深的程度影響社會運行。1.人工智能賦能網絡攻擊
21、人工智能為黑客帶來了全新的攻擊手段,使網絡攻擊更加高效且難以防范。網絡安全公司 Home Security Heroes 的研究人員使用人工智能密碼破解器 PassGAN 對超過 1568 萬個密碼進行了測試,發現 PassGAN 能在不到 1 分鐘的時間內破解 51%的密碼。隨著生成式人工智能技術的興起,基于大模型的網絡攻擊也在顯著增長。網絡安全公司 Enea 的數據顯示,自 2022 年11 月 ChatGPT 發布以來,網絡釣魚攻擊整體增加了 1265%。同時,暗網上出現了 WormGPT、PoisonGPT、EvilGPT 等多種惡意大模型,這些模型基于有害語料庫訓練,專門用于網絡釣魚
22、、惡意代碼生成等非法活動。此外,多個有國家背景的APT 組織已開始將生成式人工智能技術用于網絡攻擊,顯著提高了攻擊的隱蔽性和精準性,特別是針對關鍵信息基礎設施的網絡攻擊正變得更加自動化和智能化。近年來,針對政府、軍工、能源、電力、金融、交通、通信等關鍵領域基礎設施的攻擊層出不窮。這些情況表明,人工智能技術正在顯著改變傳統的網絡攻擊模式,傳統的防御體系面臨嚴峻挑戰。2.人工智能合成虛假內容人工智能技術的迅猛發展,尤其是生成對抗網絡(GAN)等深度學習的應用,大幅提升了虛假內容的生成能力,深度偽造(Deepfake)技術正是其中的典型代表。通過深度學習算法,攻擊者能夠生成高度逼真的虛假視頻、音頻或
23、圖像,用于多種非法活動,嚴重威脅社會信任與安全。例如,2024 年香港發生了一起利用深度偽造換臉技術實施的詐騙案,犯罪分子冒充公司高層,通過視頻通話騙取了 2 億港元。此外,生成式人工智能還被用于偽造虛假新聞、虛假身份和虛假廣告等,致使大量公眾被騙,造成嚴重經濟損失。根據奇安信的數據,2023 年基于人工智能的深度偽造欺詐案件激增了 3000%,顯示出不法分子對這類技術的濫用正在迅速擴展。這專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期8類虛假內容的生成不僅成本低、效率高,還具有極高的迷惑性,顯著增加了公眾識別虛假信息的難度,進一步擴大了其傳播范圍和社會危害。同時,深度偽造技術的
24、廣泛應用也對國家安全帶來了重大威脅。通過偽造政府領導人發布的虛假視頻或言論,可能制造社會恐慌,削弱公眾對政府的信任,從而動搖國家治理的基礎。3.人工智能帶來軍事威脅人工智能技術的迅猛發展顯著增強了軍事領域的攻擊能力,正在重塑現代戰爭形式。以無人武器為代表的智能化軍事裝備,通過人工智能技術實現了目標的自動識別、跟蹤和攻擊,大幅提升了作戰效率和精準性。例如,攻擊型無人機利用圖像識別和自主決策技術,能夠在復雜戰場環境中快速鎖定目標并獨立完成打擊任務,這類無人武器的廣泛應用降低了傳統軍事行動對人力的依賴。此外,人工智能的軍事化應用正在引發新一輪的軍備競賽。各國紛紛加速研發和部署人工智能驅動的武器系統,
25、以爭奪技術優勢。美國的“聯合全域指揮與控制”(JADC2)系統將人工智能技術融入指揮和控制系統,提升跨域作戰能力;俄羅斯也在積極推進智能無人武器和自動化指揮系統的開發。這種技術競爭不僅加速了武器系統的智能化,也使沖突的門檻顯著降低,增加了軍事對抗的復雜性。(五)倫理安全人工智能技術的迅猛發展在推動社會生產力提升的同時,也帶來了諸多深刻的倫理挑戰。這些挑戰涵蓋了道德觀念的沖擊、就業結構的改變、算法偏見的顯現、自主決策帶來的爭議以及知識產權糾紛的增加,深刻影響著社會的公平與穩定。1.人工智能沖擊傳統道德觀念人工智能技術的廣泛應用在帶來便利的同時,也對傳統道德觀念形成了深刻沖擊。利用人工智能技術“復
26、活”逝者的形象或聲音,雖然可以緩解親屬的思念之情,但也可能侵犯個人隱私和人格權,甚至引發倫理困境。例如,未經許可復刻逝者的聲音或影像,可能被用作商業牟利或誤導公眾的工具。此外,人工智能伴侶的興起通過模擬情感本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期9與人類互動,改變了人際關系的傳統模式。這不僅可能導致人與人之間的真實關系淡化,還可能引發社會孤獨感加劇、情感依賴失衡等問題。2.人工智能造成群體失業人工智能的廣泛應用在提高效率的同時,也對傳統就業崗位產生沖擊。例如,自動駕駛技術的迅速發展正在改變交通運輸行業的就業結構。以中國的自動駕駛出租車服務商“蘿卜快跑”為例,該公司通過人
27、工智能技術實現了無人駕駛出租車的規?;\營,在 2024 年已覆蓋北京、上海、武漢等多個城市,并獲得了顯著的市場認可。然而,這種創新模式雖然大幅降低了人力成本和運營費用,卻對傳統司機崗位構成了潛在威脅。類似的情況還出現在制造業、零售業等其他行業中,人工智能驅動的自動化生產線、智能客服和無人超市等技術正在逐步替代人工勞動力。這一趨勢不僅引發了廣泛的社會擔憂,也對就業結構調整和社會保障體系提出了新的要求。3.人工智能算法含有歧視偏見人工智能算法在處理數據時,常因訓練數據的偏差、標注錯誤或樣本不足而產生歧視性結果,這種偏見在招聘、貸款審批、醫療診斷等關鍵領域表現得尤為明顯。例如,一些基于歷史數據訓練
28、的招聘算法因數據集中男性求職者的比例較高,傾向于優先篩選男性候選人,從而強化了性別歧視的現象。在貸款審批領域,人工智能系統也可能會因為訓練數據中的種族或地區偏見,導致某些群體的貸款通過率顯著低于其他群體,進一步限制了這些群體的經濟機會和社會流動性。4.人工智能帶來自主決策風險人工智能在一些關鍵場景中的自主決策能力正引發倫理與安全領域的深刻關注,尤其是在涉及生死抉擇的情況下。例如,在自動駕駛領域,車輛在面對緊急情況時可能需要做出類似“電車難題”的選擇是優先保護車內乘客,還是避免對行人造成傷害。這類復雜的決策涉及多方利益和價值觀的權衡,無論最終選擇如何,都可能引發社會爭議,并對人工智能技術的專業就
29、是實力 精準就是品牌網絡安全研究2024 年第 4 期10公眾信任度造成沖擊。在軍事領域,自主武器系統的應用進一步放大了這一問題的影響。無人武器通過預設算法獨立選擇目標并執行致命打擊任務,意味著發動致命打擊的權力被賦予人工智能,而非人類指揮官,可能加劇軍事沖突的不可控性,為人類帶來無法預料的后果。5.人工智能引發知識產權爭議人工智能技術的應用可能涉及對原創作品的模仿或再創作,進而引發了知識產權領域的復雜問題。一方面,部分人工智能通過大量受版權保護的圖片、文字或音樂數據來進行訓練,而這些數據的使用常常未經過權利人的許可,成為版權糾紛的核心爭議點。另一方面,人工智能生成的作品是否具備獨創性以及如何
30、界定創作權,一直是法律和學術界討論的熱點。2024 年 1 月,中國首例人工智能生成圖片著作權侵權案判決中,法院認定人工智能生成的圖片具有獨創性,符合作品的定義,受著作權法保護。三、人工智能安全解決方案和技術趨勢當前,業界在數據安全、算法防御、生成內容檢測與溯源、模型透明性提升等領域展開了深入探索,通過多樣化的技術手段為人工智能系統提供全方位的安全保障。本節將圍繞這些技術熱點,系統梳理人工智能安全的最新解決方案及其未來發展趨勢,探討如何以技術手段實現更加安全、可靠的人工智能應用。(一)數據安全與隱私保護1.機密人工智能機密人工智能(Confidential AI)是 一 種 使 用 機 密 計
31、 算(Confidential Computing)技術來保障人工智能系統安全的新型解決方案,其核心依賴于可信執 行 環 境(Trusted Execution Environment,TEE)。TEE 是 一 種硬件級的隔離技術,它能夠在處理器內部劃分出一個獨立、安全的區域,用于存儲和處理敏感數據。該區域對外完全封閉,即使是操作系統、虛擬機管理程序甚至設備管理員,也無法訪問其中的數據和計算過程。通過這種方式,TEE 確保數據在使用過程中始終受到保護,不會被泄露或篡改。機密人工智能通本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期11過將人工智能模型的訓練、推理等任務置于 TE
32、E 中,從而為人工智能的全生命周期提供“使用中”的安全保障,尤其適用于對數據隱私和安全性要求極高的場景。在人工智能模型的訓練和推理過程中,數據在進入 TEE 后會被解密以進行計算,而外部環境無權訪問 TEE 內部的任何內容,這有效避免了數據在運行中被竊取或篡改的風險。此外,TEE 提供的遠程證明(Remote Attestation)功能可以驗證運行環境的完整性和可信度,確保模型及其執行環境未被篡改。這一功能在醫療、金融等對數據安全要求極高的場景中至關重要。未來,機密人工智能的發展將沿著以下幾個方向逐步推進。一是硬件技術的持續創新。最初 TEE 主要部署在 CPU 上,隨著人工智能模型對計算性
33、能和效率要求的不斷提升,TEE 的應用已逐步擴展至 GPU。例 如,NVIDIA 的 Hopper 架 構 GPU引入了 GPU TEE 功能,通過硬件隔離創建可信執行區域,使得大規模人工智能模型的訓練和推理不僅能保持高效的計算性能,還能實現“使用中”數據的全程加密和保護。這種技術的進一步推廣將顯著提升人工智能系統在高復雜性和高安全需求場景中的應用潛力。二是標準化建設的不斷完善。隨著機密人工智能技術應用范圍的擴大,對全球技術標準、接口規范和安全評估體系的需求日益迫切。通過建立統一的技術標準,不僅能夠提升不同技術和平臺之間的互操作性,還能在跨行業和跨機構的數據協作中提供更穩固的信任基礎。三是技術
34、協同和場景融合的加深。機密人工智能將與聯邦學習、差分隱私等技術緊密結合,通過多種手段共同提升人工智能系統的整體安全性。此外,機密人工智能將在金融、醫療、工業制造等高安全需求領域得到深入應用。2.聯邦學習聯邦學習(Federated Learning)是一種分布式機器學習框架,旨在在保護數據隱私的前提下,實現多方聯合建模。其核心特點是數據不出本地,擁有數據的各方僅通過交換中間計算結果(如模型參數或梯度)完成模型訓練,從而實現專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期12“數據可用不可見”。這一技術廣泛應用于數據隱私保護需求較高的場景,如金融、醫療和政務領域。根據參與各方數據源分
35、布的情況不同,聯邦學習可以分為橫向聯邦學習、縱向聯邦學習、聯邦遷移學習三類。橫向聯邦學習適用于參與方數據特征一致但樣本不同的場景,如不同地區的銀行共享客戶行為數據;縱向聯邦學習適用于樣本重疊但特征不同的場景,如銀行與電商企業合作分析客戶行為特征;遷移聯邦學習則適用于樣本和特征均無重疊的場景,依賴遷移學習(Transfer Learning)技 術 提 升模型效果。此外,聯邦學習還可按架構分為中心化和去中心化兩種模式,前者通過中央服務器協調訓練過程,后者則通過分布式協作避免對中央節點的依賴。不同類別的聯邦學習為不同行業和場景的聯合建模需求提供了多樣化解決方案。目前業界有多款主流的聯邦學習框架,由
36、不同團隊開發,為數據隱私保護和分布式協作建模提供了有力支持。谷歌推出的 TensorFlow Federated(TFF)專注于聯邦學習的模擬和研究,提供了靈活的接口來實現分布式環境下的模型訓練。PySyft 由 OpenMined 開 發,基 于PyTorch,為聯邦學習場景中的多方安全計算和差分隱私應用提供支持。FedML 是初創公司 FEDML 開發的框架,強調聯邦學習的統一實現,適合跨設備和大規模分布式聯邦學習任務。微眾銀行主導開發了FATE(Federated AI Technology Enabler),作為一款開源框架,支持橫向聯邦、縱向聯邦以及基于安全多方計算的學習任務,廣泛應
37、用于金融和醫療等行業。百度推出的PaddleFL 基于飛槳平臺,提供了易用的聯邦學習工具,支持多種分布式計算模式。這些框架專注于聯邦學習技術的落地應用,推動了數據協作和隱私保護在各行業的實踐與發展。隨著人工智能和大數據技術的迅速發展,聯邦學習正呈現出以下幾大趨勢。一是算法優化和通信效率的持續提升,為了緩解通信帶寬壓力,新型壓縮算法不斷涌現,使模型參數傳輸更加高效,同時確保訓練效果。二是隱私保護機制的不本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期13斷完善,同態加密和差分隱私等技術被逐步引入聯邦學習框架,大幅增強數據安全性,為敏感數據的協同計算提供可靠保障。三是多設備、多模態
38、數據融合的發展方向正逐漸成為研究熱點。應對異構數據源及設備能力差異的挑戰,設計更高效的協作機制,是提升聯邦學習實際應用價值的關鍵。四是與區塊鏈技術結合,提供了全新的信任解決方案,為多方參與的聯邦學習創造了更安全可信的環境。隨著企業和組織對數據隱私保護與分布式智能需求的日益增長,聯邦學習將進一步擴展應用場景,推動技術進步并解決實際問題,為人工智能技術在各行業的落地帶來更多可能性。(二)算法安全與模型防護1.對抗性機器學習對抗性機器學習(Adversarial Machine Learning,AML)是 一 個研究機器學習算法攻擊與防御的領域,其核心在于揭示對抗性攻擊如何威脅模型的性能和可靠性,
39、以及開發有效的防御策略以抵御此類攻擊。這一領域隨著人工智能技術在自動駕駛、醫療診斷和語音識別等高風險場景中的應用而迅速興起。對抗性攻擊不僅可能導致模型輸出錯誤的預測,還可能泄露敏感數據或對關鍵系統造成破壞,因此,研究對抗性機器學習對于確保人工智能系統的安全性至關重要。為應對對抗性攻擊,研究者提出了多層次的防御策略。在模型訓練階段,對抗性訓練被廣泛采用,通過在訓練數據中引入對抗樣本,模型能夠更好地應對惡意輸入的擾動,提升其魯棒性。除此之外,模型的魯棒性優化也是關鍵策略之一,通過優化損失函數和加入正則化約束,能夠有效降低模型對小幅輸入變化的敏感性。在模型的運行階段,輸入數據的實時監控和檢測同樣至關
40、重要,利用檢測算法識別輸入的異常特征,可以阻止對抗性樣本對模型的攻擊。未來,對抗性機器學習的發展將著重于以下這些方向。一是應對更加復雜和多樣化的威脅場景。隨著多模態人工智能技術的快速崛起,單一模態的防御措施已無法有效應對新的攻擊挑戰。未來的研究將著力于跨模態防御技術的發展,專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期14例如,整合圖像、文本和音頻等多模態數據的聯合防御機制,以提高模型在多場景、多形式威脅中的魯棒性和適應能力。二是推動自動化防御工具的研發和應用。自動化防御將成為提升模型安全性的重要手段,例如,利用生成對抗網絡設計動態防御系統,可以實時生成針對不同攻擊類型的防御策略
41、,從而對抗復雜的對抗樣本生成手段。這些自動化工具能夠顯著降低人工干預的需求,提高模型應對新型攻擊的效率和效果。2.模型水印技術模型水印技術是一種保護人工智能模型知識產權的重要方法,通過在模型中嵌入不可見的標識信息(即數字水?。﹣韺崿F。這些標識信息可以用來驗證模型的歸屬和合法性,以防止模型被非法復制或濫用。模型水印技術通常包括兩個核心步驟:植入水印和提取水印。在模型開發和訓練階段,研究者通過特定策略將數字水印嵌入到模型的參數、結構或行為中;在舉證階段,從目標模型中提取水印信息,并將其與最初嵌入的水印進行比對,以確認是否存在侵權行為?,F有的模型水印技術在水印的植入和提取策略上有所不同。從提取方式來
42、看,大多數技術通過觀察模型的輸出來提取水印,這意味著水印的舉證主要依賴于目標模型的輸出結果。這類方法具有較強的適用性,特別是在黑盒環境中進行模型保護時效果顯著。此外,另一部分技術將水印直接嵌入到模型的文件結構中,而不顯現于輸出結果。這類方法需要在白盒環境中訪問目標模型的內部結構和參數以驗證水印的存在,適合更高價值模型的知識產權保護場景。模型水印技術的發展趨勢可以歸納為三個主要方向。一是增強水印抵御攻擊的能力。面對模型壓縮、剪枝、量化和微調等多種攻擊手段,研究者們正在探索更魯棒的水印嵌入和檢測方法,以確保水印在惡意修改后仍能被可靠識別和驗證。二是減小水印對模型可用性的影響。在嵌入水印的同時盡量保
43、持模型性能和輸出質量,確保水印不會對模型的準確性和功能性造成顯著損害,從而滿足實際應用需求。三是本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期15提升水印驗證過程的隱蔽性。通過引入零知識證明等技術,開發能夠在驗證過程中保護模型內部信息的水印方案,從而防止模型在驗證過程中被第三方濫用。這種隱蔽性驗證方案的成熟將顯著提升水印技術的安全性和實用性。(三)人工智能生成內容檢測和溯源1.AIGC 檢測技術AIGC(人工智能生成內容)檢測技術是一種通過算法和工具識別由人工智能生成內容的技術,旨在保障數字信息的真實性、可信度和原創性。隨著生成式人工智能(如ChatGPT、Midjourne
44、y 等)的廣泛應用,人工智能在文本、圖像、音頻和視頻等領域的生成能力日益增強,但也帶來了虛假信息傳播、版權爭議和倫理風險等挑戰。AIGC 檢測技術通過分析不同模態內容的特征,判斷其是否由人工智能生成,從而應對這些挑戰。在文本檢測中,可通過分析語言模式、句法結構、詞匯使用習慣以及語義一致性等特征,識別人工智能生成文本的痕跡。例如,人工智能生成的文本可能表現出過度使用某些連接詞、模式化的表達方式或缺乏人類寫作的隨機性和多樣性。在圖像檢測中,通過分析紋理、光影、細節一致性以及像素間的相關性,發現生成圖像的異常。例如,生成對抗網絡(GAN)生成的圖像可能在頻域上留下特定的偽影,或在高頻紋理區域表現出與
45、真實圖像的顯著差異。在音頻和視頻檢測中,通過關注音調、頻譜的機械特征以及幀間過渡的平滑性和跨模態一致性,以識別人工智能生成內容的特征等等。目前,國內外已經出現了多款用于檢測 AIGC 的工具,通過不同的技術手段來識別文本、圖像、音頻等內容是否由人工智能生成,幫助用戶確保信息的真實性和可靠性。例如,GPTZero 是一款專注于文本檢測的工具,尤其擅長識別由 GPT系列模型生成的內容,通過分析文本的“困惑度”和“突發性”等特征來判斷其來源,廣泛應用于教育領域,幫助教師檢測學生作業是否由人工智能代寫。Deepware 則專注于檢測深度偽造(Deepfake)內容,尤其是視頻和圖像,利用計算機專業就是
46、實力 精準就是品牌網絡安全研究2024 年第 4 期16視覺技術分析視頻中的面部表情、光線和運動軌跡,識別出人工智能生成的虛假內容,在新聞媒體和公共安全領域具有重要應用價值。AIGC-X 是由人民日報社主管、依托人民網建設的傳播內容認知全國重點實驗室推出的 AIGC 檢測工具,對中文文本的檢測準確率超過 90%,能夠快速區分機器生成文本與人工生成文本,適用于假新聞、內容抄襲、垃圾郵件等場景的檢測。這些工具在應對人工智能帶來的安全挑戰中發揮了重要作用,為用戶提供了可靠的內容檢測解決方案。隨著生成式人工智能技術的快速發展,AIGC 檢測技術也在不斷演進。一是檢測技術的持續迭代與改進。包括開發更先進
47、的算法,增強模型的魯棒性,以應對新出現的生成式人工智能算法和對抗性干擾手段。二是實時檢測與低延遲需求的增加。隨著 AIGC 在社交媒體、新聞等領域的廣泛應用,實時檢測變得至關重要。未來的檢測工具需要能夠在用戶交互過程中即時識別AIGC,例如通過 API 集成到內容管理系統中,提供實時反饋。這種實時性不僅提高了內容發布的效率,還能有效遏制虛假信息的傳播。三是跨語言與多模態檢測的挑戰與應對。AIGC 可能涉及多種語言和多種模態的組合,這對檢測技術提出了更高的要求。例如,研發能夠處理多種語言的檢測模型,并建立有效的融合機制來整合不同模態的特征,從而提高檢測的準確性和可靠性。2.AIGC 水印技術AI
48、GC 水印技術是一種通過在生成內容中嵌入隱蔽標識,實現內容溯源、真實性驗證和使用管理的技術。與模型水印技術的區別在于,AIGC 水印技術是針對人工智能生成內容進行標識,如文本、圖像、音頻等,目的是對內容的來源和用途進行追蹤和驗證;而模型水印技術則聚焦人工智能模型本身,通過嵌入標識保護模型的知識產權和歸屬權。水印可以融入到 AIGC 的不可見區域,例如文本的語序結構、圖像的像素細節或音頻的頻譜特征,從而不影響內容的質量和感知效果。根據嵌入方式的不同,AIGC 水印分為內置水印和外置水印兩種形式。內置水印是在生成內容時直接嵌本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期17入,與
49、內容生成過程緊密結合,具有較強的魯棒性和實時性,適用于動態生成的文本、圖像、音頻等內容。外置水印則是在生成內容完成后通過后處理方式添加,將標識嵌入到數據的非顯性區域,這種方式適用于需要后續處理的場景,但在魯棒性上可能略遜于內置水印。AIGC 水印技術的主要功能是溯源和鑒別。通過水印,生成內容可以被追蹤到具體的模型或平臺來源,便于確定內容的責任主體和生成背景。這對于打擊內容濫用、追責和版權保護尤為重要。此外,水印還能幫助區分 AIGC 與自然生成內容,為用戶和平臺提供鑒別依據,提升內容可信度。對于需要合規管理的領域,水印技術還可用于內容的分級管理和用途限制,防止不當使用和傳播。AIGC 水印技術
50、的發展趨勢包括以下幾個方面。一是平衡不可感知性與魯棒性。在水印技術的發展中,不可感知性和魯棒性常常存在權衡。不可感知性要求水印對用戶不可察覺,確保內容質量不受影響;而魯棒性則要求水印能夠在面對壓縮、剪切、添加噪聲等破壞性操作時依然穩定可靠。未來的研究重點在于通過優化嵌入算法和深度學習模型,設計既能保證高不可感知性又具有強魯棒性的水印方案。二是探索水印技術在更多模態中的應用。隨著 AIGC 的多樣化,水印技術的應用場景也在不斷拓展。除傳統的圖像、文本、音頻和視頻外,未來水印技術將在 3D 模型、VR 內容以及多模態交互內容中發揮更大作用。這需要研究針對這些復雜數據結構的水印嵌入和提取技術,同時確
51、保水印在多模態內容轉換或合成過程中仍具備不可感知性和魯棒性。三是 AIGC 水印技術的標準化。隨著生成內容的廣泛應用,制定統一的技術標準和規范將變得愈發重要。這不僅能確保不同平臺和技術之間的互操作性,還能通過與法律法規的結合,為 AIGC 內容生態的健康發展奠定基礎。(四)人工智能透明度和信任構建1.可解釋人工智能可解釋人工智能(Explainable AI,XAI)是一種旨在提升人工智專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期18能模型透明性的方法,通過提供對模型決策過程和預測結果的清晰解釋,幫助用戶理解模型的工作機制及輸出的合理性。在人工智能的發展中,模型復雜性與預測能力
52、之間存在一個基本的權衡:模型越復雜,其預測能力往往越強,但可解釋性往往越弱。簡單模型(如線性回歸、邏輯回歸)由于結構直觀,易于理解,但在處理復雜任務時預測能力有限;而復雜模型(如深度學習、隨機森林)能夠在大規模數據中實現高性能預測,卻由于其內部邏輯的高度復雜性,被視為“黑箱”,難以解釋其決策的依據??山忉屓斯ぶ悄芗夹g主要分為兩大類:可解釋模型(Interpretable Models)和后解釋技術(Post-hoc Interpretations)??山忉屇P褪侵冈谀P驮O計之初就以透明性為目標的模型,例如線性回歸、邏輯回歸和決策樹等等。這些模型的優勢在于它們的簡單性和可解釋性,用戶可以直接理解
53、模型的預測依據和決策過程。然而,這類模型在復雜數據集中的表現往往不如深度學習等復雜模型。后解釋技術是在復雜的“黑箱”模型(如深度神經網絡)基礎上,通過額外的工具和方法對模型輸出進行解釋,分為三種類型。一是模型無關技術(Model-agnostic Techniques),這 種 方法可以應用于任何機器學習模型,重點在于分析輸入與輸出之間的關系。例如,基于 Shapley 值的游戲理論方法可以量化每個特征對預測結果的貢獻,而 LIME(局部可解釋模型無關方法)通過擾動輸入數據,構建線性近似模型來解釋復雜模型的局部行為。二是模型專屬技術(Model-specific Techniques),這種方
54、法專門為某些特定模型設計,例如卷積神經網絡或支持向量機。這些技術利用模型內部的特定結構(如卷積層的激活)生成可視化的解釋,幫助用戶理解模型如何從數據中提取模式。三是半模型無 關 技 術(Model-semi-agnostic Techniques),這種方法適用于某些特定類別的模型,例如深度神經網絡,通過整合梯度或反向傳播的方法來生成解釋。通過這些技術,可解釋人工智能可以幫助用戶理解模型的預測依據,不僅增強了人工本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期19智能系統在醫療、金融和網絡安全等關鍵領域的適用性,也為其進一步推廣奠定了信任基礎??山忉屓斯ぶ悄艿奈磥戆l展趨勢包括以
55、下這些方面。一是在安全關鍵場景(如醫療、金融)中,直接構建具備解釋能力的人工智能模型將成為研究重點。這類模型不僅能夠提升對人工智能決策的信任,同時也為高風險領域的合規性和安全性提供保障。未來,研究將致力于在模型訓練階段融入解釋機制,使模型能夠在預測結果的同時生成清晰可理解的解釋內容。二是解決性能與可解釋性之間的權衡問題。在提升模型可解釋性的同時,往往需要簡化模型的結構,這可能導致性能下降。而在許多場景中,例如時間敏感的任務,高性能是不可或缺的。未來的發展方向是通過模型優化與混合方法,平衡性能與可解釋性,為多樣化應用提供支持。三是加強可解釋人工智能系統的標準化。由于不同應用對模型的設計目標各不相
56、同,如透明性、公平性和魯棒性,統一的標準和評估框架將是未來的重要研究方向。通過建立明確的評價指標,能夠更好地衡量可解釋人工智能系統的效果和可靠性。四是增強實時解釋能力。在自動駕駛、醫療監測等需要即時反饋的場景中,實時生成解釋至關重要。未來的研究將聚焦于優化計算效率、開發并行處理技術,以及引入高效的混合算法,確保系統能夠在高數據量和低延遲的條件下實現快速響應。2.人工智能對齊人工智能對齊(AI Alignment)是確保人工智能系統的行為與人類的意圖、價值觀和道德標準保持一致的關鍵研究領域。隨著人工智能尤其是大模型的快速發展,人工智能對齊的重要性日益凸顯。其核心目標是防止人工智能系統在追求目標時
57、偏離人類的期望,甚至可能帶來災難性后果。人工智能對齊的宏觀目標可以總結為 RICE 原則:魯 棒 性(Robustness)、可 解 釋性(Interpretability)、可 控性(Controllability)和 道 德 性(Ethicality)。魯棒性確保人工智能系統在各種環境下都能穩定運行,抵御意外干擾和對抗性攻擊;專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期20可解釋性使人類能夠理解人工智能的決策過程,增強透明度和信任;可控性確保人工智能系統的行為始終處于人類的監督和干預之下;道德性則要求人工智能在決策和行動中遵循社會公認的道德規范,尊重人類價值觀。這些原則共同
58、構成了人工智能對齊的基礎,旨在實現人工智能的安全、可靠和可控發展。目前常見的人工智能對齊技術主要包括以下幾種。一是人類反 饋 強 化 學 習(Reinforcement Learning from Human Feedback,RLHF),通過人類反饋數據訓練獎勵模型,再利用強化學習算法對模型策略進行優化,旨在使模型的輸出更符合人類的期望和價值觀。二是人工智能反饋強化學習(Reinforcement Learning from AI Feedback,RLAIF),利 用 強大的語言模型提供反饋代替人類標注,從而降低數據收集成本,其實現包括人工智能批判性地審查和修訂響應以及基于人工智能偏好數據
59、優化模型策略。三是近端 策 略 優 化(Proximal Policy Optimization,PPO),作 為 一 種常用于強化學習的算法,PPO 通過約束模型策略與參考模型的 KL 散度,平衡獎勵優化與模型生成的多樣性,常與人類反饋強化學習結合使用。四是直接偏好優化(Direct Preference Optimization,DPO),通過直接優化人類偏好數據,避免了顯式獎勵模型的訓練過程,同時利用預訓練模型作為參考策略直接調整模型策略以符合偏好,從而簡化對齊流程,但對數據質量要求較高。這些技術在不同場景中各有優勢,為人工智能模型的對齊提供了有效的解決方案。當前,人工智能對齊的發展呈現
60、出幾個重要趨勢。一是多模態對齊。未來人工智能系統將更注重對文本、圖像、語音等多種模態數據的整合能力,以提升對復雜任務和多樣化場景的適應性,實現更全面的智能交互。二是個性化對齊。在確保模型遵循普遍價值觀的同時,進一步使人工智能的行為和輸出符合個體用戶的偏好和需求,通過定制化服務為用戶提供更精準的體驗。三是合成數據的廣泛應用。合成數據的最大優勢在于可以大幅提本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期21升對齊數據的獲取效率,降低對人工標注的依賴,同時解決數據獲取瓶頸,為人工智能模型提供高質量、低成本的訓練數據支持。這些趨勢標志著人工智能對齊技術正朝著智能化、多樣化和高效化方向
61、快速發展。四、人工智能安全測評趨勢隨著人工智能技術在關鍵領域的廣泛應用,系統的安全性和可靠性成為保障其長遠發展的核心需求。安全測評作為人工智能技術落地和信任構建的重要環節,不僅能夠發現潛在風險,還能為系統改進提供指導依據。本節將重點分析人工智能安全測評的最新進展,探討技術創新方向與行業應用場景,為構建完善的安全評估體系提供借鑒。(一)人工智能安全測評標準近年來,人工智能安全測評標準在國內外均取得了一些重要進 展。國 內 方 面,2020 年 7 月,國家標準委、中央網信辦、國家發展改革委、科技部、工業和信息化部聯合印發了國家新一代人工智能標準體系建設指南,形成了標準支撐人工智能高質量發展的新格
62、局。2023 年 8 月,國家市場監督管理總局、國家標準化管理委員會發布了信息安全技術 機器學習算法安全評估規范,規定了機器學習算法技術和服務的安全要求與評估方法,以及機器學習算法安全評估流程,指導相關方保障機器學習算法生存周期安全及開展機器學習算法安全評估。2023 年 5 月,全國信息安全標準化技術委員會發布了國家標準信息安全技術 人工智能計算平臺安全框架征求意見稿,該標準規范了人工智能計算平臺安全功能、安全機制、安全模塊以及服務接口。2024 年 3 月,全國網絡安全標準化技術委員會發布行業標準 TC260-003網絡安全技術 生成式人工智能服務安全基本要求,規定了生成式人工智能服務在安
63、全方面的基本要求,包括語料安全、模型安全、安全措施等,并給出了安全評估要求,包含超過 2000 個高質量測試問題,分為 5大類、31 子類、1000 多個風險主題,支持全面的風險安全評測。此外,還 有 GB/T 418192022 信息安全技術 人臉識別數據安全要專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期22求、GB/T 417732022信息安全技術 步態識別數據安全要求、GB/T 418072022信息安全技術 聲紋識別數據安全要求、GB/T 418062022信息安全技術 基因識別數據安全要求4 項數據安全標準,規定了對人臉識別、步態識別、聲紋識別、基因識別的數據收集、
64、存儲、傳輸、使用、加工、提供、公開、刪除等數據處理活動的安全要求。國際方面,國際標準化組織(ISO)在人工智能領域已開展大量標準化工作,并專門成立了 ISO/IEC JTC1 SC42 人工智能分技術委員會。2023 年,發布信息技術-人工智能-風險管理指南,為開發、生產、部署或使用利用人工智能的產品、系統和服務的組織提供了如何管理與人工智能相關的風險的指導。2022 年,發布信息技術-人工智能-機器學習分類性能的評估,指定了用于測量機器學習模型、系統和算法分類性能的方法,提供了衡量分類器性能的一套基本度量指標,如準確率、召回率、F1分數等。2024 年 4 月,世界數字技術學院(WDTA)發
65、布了生成式人工智能應用安全測試和驗證標準和大語言模型安全測試方法兩項國際標準。生成式人工智能應用安全測試和驗證標準涵蓋了人工智能應用程序生命周期中的關鍵領域,包括基本模型選擇,檢索增強生成設計模式中的嵌入和向量數據庫,提示執行/推理,代理行為,微調,響應處理和人工智能應用程序運行時安全性。大語言模型安全測試方法提出了針對大語言模型的全面安全風險分類、攻擊分級及測試評估方法,旨在提升人工智能系統安全性與可靠性。2024 年 9月,世界數字技術學院(WDTA)發布了國際標準大模型供應鏈安全要求,提供了覆蓋大模型全生命周期的多層次安全管理框架,旨在確保供應鏈各環節的安全性、促進國際合作與行業健康發展
66、。(二)人工智能安全測評平臺和工具隨著人工智能的發展,人工智能安全測評領域涌現出多種測評工具和平臺,用于評估人工智能系統的安全性、發現潛在風險并提供改本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期23進建議。一是綜合性人工智能安全測評平臺。這些平臺提供全面的人工智能系統安全評估服務,涵蓋從數據到模型、算法、框架以及系統的多層面全方位評測。例如,浙江大學區塊鏈與數據安全全國重點實驗室開發了人工智能安全評測平臺AIcert,該平臺集成了多層面全棧威脅感知、多維度安全評估和模型自動化安全評測等先進技術,可以對人工智能系統的數據、模型、算法、框架、系統等層面進行全棧安全評測,并從魯棒
67、性、可用性、可解釋性等六大維度對系統安全進行評估。瑞萊智慧開發了人工智能安全評測平臺 RealSafe 3.0,該平臺集成了一系列主流及獨有的安全評測技術和方法,提供了從數據準備、模型訓練到部署運維整個生命周期的全面安全解決方案。二是對抗性攻擊工具??稍u估模型在面對不同強度和類型的對抗性攻擊時的表現,測評指標可包括攻擊成功率、擾動大小、標準模型準確率下降程度等。例如,IBM Research 開發了Python 庫 Adversarial Robustness Toolbox(ART),旨在幫助研究者和開發者評估和增強機器學習模型(尤其是深度學習模型)對于對抗性攻擊的魯棒性。ART 提供了一套
68、全面的工具和方法,可以用于對抗性攻擊生成、魯棒性評估、防御機制測試、模型解釋性與公平性分析等。微軟開發了人工智能安全風險評估工具 Counterfit,用于滲透測試,能夠評估人工智能系統的漏洞,特別是針對對抗性攻擊。三是模型內部檢查與透明度工具。這類工具主要用于深入分析模型內部結構,評估其決策過程,并確保模型行為的透明性和可解釋性。例如,英國人工智能安全研究所推出 Inspect平臺,內含三個基本模塊:數據集、求解器(Solvers)和評分器(Scorers)。三者相互結合,可以實現對于人工智能核心知識、推理和自主能力的深入測試,并最終生成詳細的安全評分。(三)人工智能安全測評未來展望一是標準
69、體系規范與國際化發展。為了確保人工智能系統的安全性、可靠性和公平性,國際組織和地區政府正在積極制定和推廣一系專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期24列人工智能安全測評標準。國際合作也日益緊密,各國和國際組織共同努力,制定通用的基礎測評準則,以確保不同地區、不同領域的人工智能產品在安全評估上實現統一的“度量衡”。同時,各行業根據自身特殊需求,基于通用測評準則細化行業專屬測評指標,使測評標準更貼合行業特性,保障專業應用的安全性。二是技術創新與多元化發展。智能化測評工具的不斷涌現為人工智能安全測評帶來了新突破。這些工具具備自適應學習和自動化測試等功能,能夠根據被測系統的特性和
70、運行環境動態調整測評策略,從而顯著提升測評的全面性與精準度。此外,新興技術的應用也在不斷提升測評的效率和精度。例如,區塊鏈技術可以用于追溯人工智能模型訓練數據的來源,確保數據的真實性與完整性;量子計算技術則有望突破現有算力瓶頸,加速復雜模型的安全分析,實現更快速、精準的漏洞檢測。三是測評方案定期更新與監測動態化發展。在人工智能技術快速迭代的背景下,測評方案需要與時俱進,定期優化和更新,緊密跟隨技術發展步伐,以有效應對日益復雜的安全風險。同時,針對系統運行狀態的動態監測需求日益迫切。通過傳感器與智能算法,可以精準、即時地捕捉系統性能波動、異常數據訪問等安全隱患,從而實現對安全問題的實時預警和有效
71、防控。五、促進我國人工智能安全發展的對策建議(一)構建多層次的人工智能安全治理體系一是建立多元的人工智能分類分級管理機制。借鑒數據分類分級管理經驗,結合我國實際情況和各行業的特定需求與安全挑戰,制定多維度的人工智能分類分級標準。分類維度可以涵蓋應用場景、模型自主性、算力規模、用戶數量等方面,并在此基礎上進行風險分級。同時,采取差異化的監管措施:對于低風險的人工智能應用,可采用備案管理模式,確?;镜谋O管要求;對于高風險的應用,需實施強制性風險評估,并確保其在部署前經過嚴格的安全審查。這種分類分本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期25級管理機制將有助于精準監管,提升人
72、工智能治理的有效性。二是建立人工智能全生命周期的透明度管理制度。在人工智能研發、訓練、發布及生成內容的全生命周期內,明確各階段的信息公開義務,確保系統的可理解性和可追溯性。通過制定透明度相關標準,規范數據來源披露、算法策略說明及生成內容標識等要求,為監管機構、開發者和用戶提供準確評估安全性、可靠性和公正性的依據。三是明確人工智能各主體責任,強化協同管理。在人工智能的研發、部署和應用過程中,需清晰界定每個環節的責任主體。例如,大模型提供者需承擔技術研發和模型輸出質量的責任;應用方需根據自身業務場景對模型進行適配并確保合規使用;最終用戶需在使用過程中遵守相關法規和倫理要求。同時,應建立問責機制,通
73、過技術手段和法律手段明確責任歸屬,確保人工智能應用發生問題時能夠快速定位責任主體。此外,應推動上下游的合作共治,建立跨企業、跨部門的協作機制,加強信息共享與風險溝通,形成共建共治的良性治理生態。四是建立動態監管機制。對于高風險、關鍵場景的人工智能應用的更新迭代,應將其納入常態化測評范圍,以實時掌握其發展趨勢和潛在的安全風險。例如,可要求企業定期向主管部門上報日活量、用戶量、關鍵技術迭代等信息,通過動態監測及時發現潛在問題并采取有效措施。這樣的動態監管機制不僅能夠提前應對大模型的遠期風險,還可確保企業在技術創新的同時,承擔相應的安全責任。(二)加快技術研發與自主生態建設一是推動人工智能安全技術的
74、發展。聚焦人工智能安全領域的關鍵技術研發與應用推廣,優先布局在金融、醫療、政務等關鍵領域,通過專項資金支持和政策激勵推動安全技術的落地。例如,在金融領域推廣聯邦計算以實現數據的安全共享,在醫療領域通過機密人工智能保護患者隱私和數據安全。加強人工智能在網絡防護中的應用,利用人工智能實現入侵檢測、威脅情報分析、惡意軟件檢測、行為分析專業就是實力 精準就是品牌網絡安全研究2024 年第 4 期26等能力,提升網絡攻擊溯源與防御能力。通過建設行業級人工智能安全技術平臺,為中小企業提供技術接入和服務支持,降低人工智能安全技術的應用門檻,實現人工智能安全技術的高效推廣與全面應用。二是構建自主可控的人工智能
75、供應鏈生態。為確保我國人工智能發展不受外部技術限制,應加速推進以國產芯片、框架和算力平臺為核心的自主供應鏈生態建設。引導企業優先使用國產算力和開發框架,從源頭減少對海外技術的依賴。抓緊關鍵窗口期,推動現有基于國外人工智能生態構建的大模型向國產算力和框架的遷移。(三)完善人工智能安全標準與測評體系一是健全人工智能安全標準體系。針對人工智能技術特別是大模型的獨特安全需求,加快構建覆蓋全生命周期的標準體系。推動制定從數據使用、算法設計到部署運行的全流程安全標準,特別是圍繞隱私保護、對抗性攻擊防御、算法透明性和人工智能倫理的專項技術規范,明確具體的安全評估指標和操作指引。在行業應用方面,細化金融、醫療
76、、政務、軍事等關鍵領域的安全標準,確保標準能精準適配實際場景需求。同時,強化標準的動態更新機制,定期審查并優化現有標準,提升其對技術演進和新興風險的適應能力。二是構建多層次、多場景的人工智能安全測評體系。重點研發針對大模型的安全測評工具,覆蓋隱私保護能力測試、對抗樣本防御評估、模型透明性分析等功能,并推動形成統一的測評流程和技術規范。例如,通過構建智能化測評平臺,為大模型的開發者和用戶提供標準化、模塊化的測評接口,簡化測評流程,提升效率。同時,針對高風險應用場景,開發具備動態監測和實時響應功能的測評工具,確保模型安全性和穩定性。建立權威的第三方測評機構和認證體系,增強測評結果的公信力,推動行業
77、廣泛應用。三是推動與國際標準的對接。在人工智能安全全球化治理的背景下,積極參與國際安全標準制定,加強與 ISO、IEC 等國際組織的合作,推動我國標準與國際規則的對接,提升我國在全球人本期主題:人工智能安全趨勢研究網絡安全研究2024 年第 4 期27工智能治理中的話語權。(四)加強倫理引導與公眾教育一是完善人工智能倫理治理機制,推動行業自律與協同合作。在現有新一代人工智能倫理規范的基礎上,動態調整治理機制,確保能夠應對技術發展和新興應用場景的快速變化。針對大模型、生成式人工智能等前沿技術,強化動態風險識別與實時倫理評估,重點聚焦隱私保護、算法透明性和責任歸屬,建立可持續的倫理優化機制。鼓勵人
78、工智能開發企業和應用單位主動建立內部倫理審查與合規體系,在技術設計、數據使用和模型部署中嵌入倫理風險評估流程。推動行業協會制定更具針對性的倫理規范,引導企業履行倫理責任,形成行業內多方協同合作的治理生態,促進技術研發與社會價值深度融合。二是提升公眾對人工智能技術的認知與能力。通過開展多樣化的公眾教育活動,提升全社會對人工智能技術及其倫理影響的認知水平。針對生成式人工智能的風險設計通俗易懂的科普內容,利用新媒體平臺廣泛傳播,提高公眾識別和應對相關風險的能力。同時,將人工智能教育納入學校課程,幫助青少年掌握人工智能基礎知識,培養其責任意識和倫理觀念,從源頭提升社會對人工智能技術的適應能力。(本文作者:楊一珉 周鳴愛 鄧攀科 韓冰)聯系電話:13910810192賽迪研究院網絡安全研究編輯部編 輯 部:賽迪研究院通訊地址:北京市海淀區萬壽路27號院8號樓12層郵政編碼:100846聯 系 人:王 樂聯系電話:010-68200552 13701083941傳 真:0086-10-68209616網 址:電子郵件: