《阿里云&中國信通院:大模型安全研究報告(2024年)(31頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云&中國信通院:大模型安全研究報告(2024年)(31頁).pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、FOUNDATION MODEL SAFETY RESEARCH REPORT32大模型安全研究報告阿里云計算有限公司與中國信息通信研究院共同擁有本報告的版權,并依法享有版權保護。任何個人或機構在轉載、摘錄或以其他形式使用本報告的文字內容及觀點時,必須明確標注“資料來源:阿里云計算有限公司與中國信息通信研究院”。對于任何未經授權的轉載或使用行為,我們將依法追究其法律責任。版權聲明LEGAL NOTICEFOUNDATION MODEL SAFETY RESEARCH REPORT54大模型安全研究報告當前,由 ChatGPT 引發的全球大模型技術競賽正推動人工智能由專用弱智能向通用強智能邁進,
2、這不僅標志著智能水平的顯著提升,也預示著人機交互方式和應用研發模式的重大變革。大模型在各行各業的廣泛應用,為第四次工業革命的爆發提供了蓬勃動力和創新潛力。然而,隨著大模型商業化應用和產業化落地加速,大模型技術局限和惡意使用不僅加劇了原有人工智能安全風險,也引入了模型“幻覺”、指令注入攻擊、網絡攻擊平民化等新型風險。面對這些挑戰,國際組織和世界主要國家正通過制定治理原則、完善法律法規、研制技術標準等方式,積極開展大模型安全治理。同時,大模型在邏輯推理、任務編排等方面的卓越能力,為解決網絡空間安全瓶頸問題帶來了新的機遇。為有效防范和消減大模型的安全風險,并促進其在安全領域的應用,阿里云計算有限公司
3、聯合中國信息通信研究院等三十余家行業單位共同編制大模型安全研究報告(2024 年)。本報告凝聚業界專家共識,聚焦當前大模型突出安全風險和網絡空間安全瓶頸問題,從大模型自身安全和大模型賦能安全兩個維度,提出涵蓋安全目標、安全屬性、保護對象、安全措施四個方面的大模型自身安全框架,以及大模型賦能安全框架。期待這些框架能為社會各方提供有益參考,共同推動大模型技術產業的健康發展。前 言FORWORDFOUNDATION MODEL SAFETY RESEARCH REPORT76大模型安全研究報告目錄一大模型安全概述1.大模型技術演進121.1 探索期:預訓練語言模型(2017 年-2021 年)121
4、.2 爆發期:語言大模型(2022 年-2023 年)121.3 提升期:多模態大模型(2024-至今)122.大模型面臨嚴峻安全挑戰132.1 訓練數據安全風險132.2 算法模型安全風險142.3 系統平臺安全風險152.4 業務應用安全風險153.大模型帶來新安全機遇164.大模型安全研究范圍174.1 大模型自身安全174.2 大模型賦能安全17目錄二大模型自身安全1.大模型自身安全框架201.1 安全目標221.2 安全屬性221.3 保護對象231.4 安全措施242.訓練數據安全保護措施252.1 數據合規獲取252.2 數據標注安全252.3 數據集安全檢測262.4數據增廣與
5、數據合成272.5 安全對齊數據集構建273.算法模型安全保護措施283.1 模型內生安全評測283.2 模型魯棒性增強293.3 模型“幻覺”緩解293.4 模型偏見緩解313.5 模型可解釋性提升314.系統平臺安全措施324.1 系統安全加固保護324.2 大模型插件安全保護335.業務應用安全措施345.1 輸入輸出安全保護345.2 生成信息標識355.3 賬號惡意行為風控365.4 用戶協議和隱私政策37FOUNDATION MODEL SAFETY RESEARCH REPORT98大模型安全研究報告三大模型賦能安全1.大模型賦能安全框架402.大模型賦能網絡安全422.1 風險
6、識別(Identify)422.2 安全防御(Protect)442.3 安全檢測(Detect)452.4 安全響應(Response)472.5 安全恢復(Recovery)482.6 其他493.大模型賦能數據安全503.1 自動化數據分類分級503.2 自動化 APP(SDK)違規處理個人信息檢測514.大模型賦能內容安全524.1 智能文本內容安全檢測52四大模型安全展望1.大模型技術產業展望562.大模型自身安全展望563.大模型賦能安全展望57編制說明4.2 能圖像視頻內容安全檢測524.3 智能音頻內容安全檢測53FOUNDATION MODEL SAFETY RESEARCH
7、 REPORT1110大模型安全研究報告一.大模型安全概述01大模型安全概述1.大模型技術演進2.大模型面臨嚴峻安全挑戰3.大模型帶來新安全機遇4.大模型安全研究范圍1FOUNDATION MODEL SAFETY RESEARCH REPORT1312大模型安全研究報告2012 年,杰弗里辛頓(Geoffrey Hinton)課題組提出的卷積深度神經網絡 AlexNet 在計算機視覺權威比賽ImageNet 中以壓倒性優勢獲得第一名,拉開了全球深度神經網絡研究浪潮。2020 年,OpenAI 推出了 GPT-3,標志著以“標注數據監督學習”和服務特定任務為特點的小規模深度神經網絡(即小模型)
8、,正式向以“大規模數據集無監督預訓練+有監督微調”和服務多任務的大規模預訓練深度神經網絡(即大模型)轉變。大模型以其龐大的無標注訓練數據、巨大的模型參數、智能“涌現”現象和多任務處理能力,被業界認為是實現通用智能的可行路徑。整體看,從小模型向大模型的演進經歷了如下三個時期。1.1 探索期:預訓練語言模型(2017 年-2021 年)2017 年,谷歌提出了基于自注意力機制的深度神經網絡結構Transformer,奠定了此后大模型發展的算法架構基礎。2018 年,基于 Transformer 的 GPT-1 和 BERT 的成功應用,標志著預訓練模型成為自然語言處理領域的主流。2020 年,Op
9、enAI 推出了模型參數規模高達 1750 億的 GPT-3,因其在多類語言任務上的性能大幅提升獲得了廣泛關注和認可。這個階段,預訓練語言模型在多任務領域內生成語義連貫的類人文本方面展現出了極強潛力,全球為不斷提高大模型性能不遺余力擴大模型的參數規模。1.2 爆發期:語言大模型(2022 年-2023 年)2022 年末,OpenAI 發布的 ChatGPT 引爆了全球大模型技術競賽。此后,谷歌的 PaLM、Meta 的 LLaMA、Anthropic 的 Claude、阿聯酋技術創新研究所的 Falcon 和 NOOR、阿里云的通義千問、百度的文心一言等語言大模型爭相發布,全球呈現“千模大戰
10、”態勢。這個階段,大模型擁有了對自然語言的理解、生成、記憶和推理能力,實現了與人類的順暢交流。與此同時,全球開始對大模型的經濟性和安全性給予更多關注,研究焦點正從單純擴大模型參數規模和提升模型智能水平,轉向追求模型參數效率和確保模型與人類價值觀的一致性。1.3 提升期:多模態大模型(2024-至今)2024 年,OpenAI 發布的 Sora 和 GPT-4o 憑借強大的視頻語義理解和高質量的文生視頻能力震驚全球,開啟了全球多模態大模型研發和應用熱潮。谷歌的 Gemini Ultra、阿里云的 Qwen-VL Max、百度的 Ernie-ViLG 3.0、1.大模型技術演進2.大模型面臨嚴峻安
11、全挑戰隨著各類大模型與經濟社會的深度融合,其技術局限和潛在惡意使用不僅威脅大模型系統自身的安全穩定運行,也可能為使用大模型的各行各業帶來非預期安全影響。為盡可能全面應對大模型領域的基礎共性安全挑戰,本報告優先對語言、多模態等各類基礎大模型系統的安全風險進行系統梳理。與此同時,參考 ISO/IEC 5338-2023 人工智能系統生命周期過程國際標準,將基礎大模型系統抽象為訓練數據、算法模型、系統平臺和業務應用四個重要組成部分,并通過描繪這四個組成部分面臨的重要和一般安全風險,形成大模型安全風險地圖,如圖 1 所示。其中,重要風險是發生概率高和影響程度大的風險,一般風險則反之。2.1 訓練數據安
12、全風險在訓練數據部分可能存在訓練數據泄露等一般風險,其重點風險包括:(1)訓練數據違規獲?。和ㄟ^不正當手段或未經授權的方式獲取訓練數據,可能違反法律法規、數據質量受損和發生安全事故。(2)訓練數據含有違法不良信息:訓練數據中可能包含違法不良、涉及商業機密或個人隱私等信息。(3)訓練數據投毒:攻擊者可能在訓練數據中植入惡意樣本或對數據進行惡意修改,影響模型的準確性和安全性。(4)訓練數據質量低下:訓練數據集中可能存在錯誤或噪聲數據,影響模型訓練的效果。華為云的 MindSpore 等多模態大模型快速涌現,進一步推動了這一領域發展。區別于語言大模型,多模態大模型能同時處理來自語言、圖像、聲音等不同
13、感知通道的信息,極大提高了場景理解準確度,促使大模型初步擁有了類似人類的感知和理解物理世界的能力。此外,得益于大模型強大的泛化、自適應和持續學習能力,研究人員在語言、多模態等基礎大模型之上,通過使用行業專有數據進行微調,形成適用于金融、醫療、交通等特定行業和任務場景的定制化大模型?;A大模型的智能和安全水平,是影響面向特定行業和任務場景的定制化大模型性能表現的關鍵因素。FOUNDATION MODEL SAFETY RESEARCH REPORT1514大模型安全研究報告(5)訓練數據缺乏多樣性:數據來源、特征和分布可能過于單一,不能全面覆蓋各種實際應用場景。2.2 算法模型安全風險在算法模型
14、部分可能存在測試驗證不充分等一般風險,其重點風險包括:(1)模型魯棒性不足:主要體現在分布外魯棒性不足和對抗魯棒性不足兩個方面。分布外魯棒性不足主要指模型在遭遇實際運行環境中的小概率異常場景時,未能展現出預期的泛化能力,從而生成非預期的結果。而對抗魯棒性不足則主要指模型面對攻擊者利用精心設計的提示詞或通過添加細微干擾來構造對抗樣本輸入時,模型可能無法準確識別,影響輸出的準確性。(2)模型“幻覺”現象:模型在回答用戶問題時,可能產生看似合理但包含不準確、虛構或違背事實的信息,這種現象被稱為模型“幻覺”。(3)模型偏見和歧視:模型在處理數據時可能表現出某種偏好或傾向,這可能導致不公平的判斷或生成帶
15、有歧視性的信息。(4)模型可解釋性差:模型的決策過程和結果難以被詳細準確地解釋,使得用戶難以理解模型輸入如何影響輸出,以及模型產生特定結果的原因。2.3 系統平臺安全風險在系統平臺部分可能遭受非授權訪問和非授權使用等一般風險,其重點風險包括:(1)機器學習框架安全隱患:流行的機器學習框架(如 TensorFlow、Caffe、Torch)可能存在漏洞,攻擊者可能利用這些漏洞發起攻擊,造成系統受損、數據泄露或服務中斷。(2)開發工具鏈安全風險:大模型系統開發過程中使用的工具鏈(如 Langchain、Llama-Index、pandas-ai)可能存在安全漏洞,例如 SQL 注入、代碼執行或命令
16、注入等,攻擊者利用這些漏洞可能導致數據損壞、信息泄露或服務中斷。(3)系統邏輯缺陷風險:大模型系統可能存在數據權限和隔離、訪問控制、業務邏輯等方面的缺陷,這些缺陷可能使得系統容易受到未授權訪問、API 濫用、數據竊取或濫用、越權訪問等攻擊,進而可能導致法律糾紛和監管處罰。(4)插件相關安全風險:大模型的插件可能存在缺陷,在與大模型服務交互時可能引發敏感信息泄露、提示詞注入、跨插件請求偽造等安全問題,這可能導致系統遭受攻擊、數據泄露或服務中斷。2.4 業務應用安全風險在業務應用部分可能存在測試驗證數據更新不及時等一般風險。其重點風險包括:(1)生成違法不良信息:大模型可能產生包含對國家安全、公共
17、安全、倫理道德和行業規范構成威脅的內容。(2)數據泄露問題:存在攻擊者通過逆向工程、成員推理攻擊或提示詞注入等手段竊取訓練數據的風險,這些數據可能包含敏感的個人信息或商業機密,可能導致隱私泄露、知識產權侵權和經濟損失。此外,用戶在與大模型互動時,也可能由于疏忽或不熟悉相關風險,無意中泄露自己的隱私或保密信息。FOUNDATION MODEL SAFETY RESEARCH REPORT1716大模型安全研究報告(3)用戶惡意使用風險:在大模型應用中,存在一些用戶或實體不遵守道德規范和法律法規,使用模型進行惡意活動的風險??傮w來說,大模型在人工智能的發展中引入了模型“幻覺”、提示注入攻擊、大模型
18、插件缺陷等新風險,并加劇了數據泄露、模型偏見、系統缺陷等傳統人工智能技術已有風險。3.大模型帶來新安全機遇當前網絡空間安全面臨攻擊隱蔽難發現、數據泄露風險高和違法信息審核難等挑戰。大模型展現出強大的信息理解、知識抽取、意圖和任務編排等能力,為網絡空間安全瓶頸問題提供了新的解決思路和方法。與此同時,大模型發展也催生了惡意軟件自動生成、深度偽造等新型攻擊方式,已有安全措施無法有效檢測和防御,亟待利用大模型技術創新保護機制抵御新型威脅。大模型可顯著提升網絡威脅識別防御響應的精準度和時效性。在威脅識別階段,大模型通過整合威脅情報、挖掘零日漏洞、執行代碼審計和網絡攻擊溯源,可有效識別系統業務風險,提供針
19、對性防御措施。在安全防御階段,大模型通過對安全策略進行動態推薦與調整,強化安全防御效果。在安全檢測階段,大模型通過告警分析、報文檢測、釣魚郵件識別和未知威脅檢測,深度識別攻擊意圖,研判攻擊樣本,提升攻擊識別準確度。在安全響應階段,大模型針對實際攻擊行為提供自動化響應策略與處置流程,并撰寫事件分析報告。在安全恢復階段,基于運營目標執行全面的模擬演練,為安全恢復提供最佳實踐指導。大模型能有效提升數據安全技術的普適性和易用性。大模型通過深度學習和自然語言處理技術,能夠理解和分析復雜的非結構化數據,自動識別并提取關鍵特征。這種智能分析能力極大地降低了對人工分析的依賴,使得數據分類分級等數據安全技術更加
20、易于普及。同時,大模型的自學習能力意味著它可以不斷從新的數據安全標準及樣例集中學習并優化其安全策略,無需頻繁的人工干預。這不僅提高數據安全的適應度和響應速度,也提高了數據安全技術的易用性。大模型能有效提升內容安全技術的魯棒性和準確性。與傳統的內容安全技術相比,大模型在多模態數據處理上具有顯著優勢,正在成為提升內容安全技術魯棒性和準確性的關鍵。大模型的魯棒性體現在其對不同格式、風格和質量的內容均能保持穩定的檢測性能,即使面對攻擊者采用隱喻、漫畫等形式刻意規避檢測手段,也能保持較高的識別率。大模型的自學習能力,使其能夠不斷從新數據中學習,適應不斷變化的虛假信息、深度偽造(Deepfake)等網絡威
21、脅,從而提高檢測的準確性。大模型安全由大模型自身安全及大模型賦能安全兩個核心要素構成。前者包含大模型安全目標、安全屬性,保護對象及安全措施四個方面,后者則為發揮大模型對網絡空間安全的賦能作用提供技術方向指引。4.1 大模型自身安全大模型自身安全是指在訓練數據、算法模型、系統平臺、業務應用這四個重要層面執行安全措施,以確保模型的安全、可靠、可控,并保障其倫理性、合規性、可靠性、可控性、魯棒性等安全屬性。同時,對大模型的系統、數據、用戶、行為四個對象進行嚴格保護,確保大模型系統提供服務時的安全性。4.2 大模型賦能安全大模型賦能安全是指在網絡安全、內容安全、數據安全等領域,利用大模型的信息處理、知
22、識抽取、意圖識別等能力,增強網絡安全防御能力、數據安全保護能力、內容安全檢測過濾能力,提高安全事件處理的效率和準確性,提升安全技術的智能化水平,促使安全防護更加主動、智能和高效。4.大模型安全研究范圍FOUNDATION MODEL SAFETY RESEARCH REPORT1918大模型安全研究報告二.大模型自身安全大模型自身安全1.大模型自身安全框架2.訓練數據安全措施3.算法模型安全措施.4.系統平臺安全措施2FOUNDATION MODEL SAFETY RESEARCH REPORT2120大模型安全研究報告1.大模型自身安全框架FOUNDATION MODEL SAFETY RE
23、SEARCH REPORT2322大模型安全研究報告本報告從消減大模型面臨的基礎共性安全風險出發,構建如圖 3 所示大模型自身安全框架。大模型自身安全框架涵蓋安全目標、安全屬性、保護對象、安全措施四個層面,這四個層面基于自頂向下、層層遞進的方式提出了構建大模型自身安全的整體解決方法。1.1 安全目標目前,歐盟、美國、中國等世界主要地區和國家以及微軟、谷歌等科技企業均提出大模型倫理準則。本安全框架在充分借鑒國內外大模型倫理準則要求的基礎上,在我國戰略層面提出的“確保大模型安全、可靠、可控”總體目標基礎上,基于大模型面臨的安全風險和挑戰,根據大模型應用的實際需要,提出以下四個方面安全目標。訓練數據
24、安全可信:訓練數據是大模型的基石,大模型從訓練數據中汲取知識的同時,也面臨著數據泄露、數據偏見、數據投毒等諸多安全隱患。因而,應確保大模型的訓練數據不被竊取,不會泄露用戶隱私,且未被篡改,能夠真實反映物理世界和人類社會情況。算法模型安全可靠:大模型技術正逐漸應用于智慧醫療、無人駕駛等安全關鍵性場景,大模型算法模型的魯棒可靠愈加重要。然而,大模型存在的魯棒性不足、模型“幻覺”、可解釋性差等自身技術局限,以及指令注入、對抗樣本、算法后門等新型安全攻擊方式,都可能使大模型應用產生非預期的錯誤輸出。因而,應當確保大模型的算法模型在規定的運行條件和時間周期內始終產生預期的行為和結果,且一直處于可控狀態。
25、系統平臺安全穩定:構建大模型系統是各行各業使用大模型技術解決實際問題的主要方式,同時,大模型研發平臺承擔著為設計研發人員提供高效、便捷的研發環境的重要作用。然而,大模型系統和研發平臺自身安全漏洞被攻擊者利用也將帶來應用系統被控制、敏感數據泄露、智能服務中斷等嚴重安全問題。因而,應及時檢測發現并修復大模型系統和研發平臺的安全漏洞,做好大模型與插件間交互的安全監測與認證。業務應用安全可控:大模型已在交通、醫療等領域展現出了強大的能力。濫用或惡意使用大模型應用將會給物理世界和國家社會帶來巨大的負面影響。因此,首先應確保大模型系統應用目標符合國家法律法規和社會倫理的規范要求。1.2 安全屬性參考 IS
26、O/IEC 22989:2022信息技術 人工智能 人工智能概念和術語國際標準、GB/T 41867-2022信息技術 人工智能術語國家標準等標準文件,將大模型安全屬性概括如下:真實性:訓練數據能真實反映物理世界客觀規律和人類社會實際運轉情況的性質。多樣性:訓練數據應覆蓋盡可能多的樣本,以確保大模型能對不同情況進行泛化的性質。準確性:針對所規定的各項安全要求,大模型展現其正確實現這些要求的性質。機密性:確保大模型的參數、架構和訓練過程的信息對未授權的個人、實體或過程不可用或不泄露的性質??蓡栘熜裕捍竽P图捌淅嫦嚓P方對其行動、決定和行為負責任的狀態??深A測性:大模型滿足利益相關方所提出輸出做出
27、可靠假設的性質。公平性:尊重既定事實、社會規范和信仰,大模型產生的行為或結果不受偏袒或不公正歧視影響的性質。透明性:大模型系統與利益相關方交流關于該系統適當信息的性質??山忉屝裕捍竽P拖到y以人能理解的方式,表達影響其執行結果的重要因素的能力。合規性:用戶對大模型系統的應用方式以及大模型系統自身行為和輸出信息滿足法律法規和規章要求的性質??煽啃裕捍竽P蛯嵤┮恢碌钠谕袨椴@得結果的性質??煽匦裕捍竽P捅蝗祟惢蚱渌獠恐黧w干預的性質。魯棒性:大模型在任何情況下都保持其性能水平的性質。1.3 保護對象保護對象包括系統、數據、用戶、行為。系統:系統即大模型系統,一般由服務器、傳感器等硬件,數據庫、操作
28、系統等基礎軟件,基于大模型的算法模型,以及支持大模型研發運營的框架平臺等主要組件組成。數據:數據是大模型系統的核心。從大模型系統生命周期視角來看,主要包括訓練數據、測試數據和運行時輸入數據三類。從類型來看,主要包括文本、圖像、視頻、音頻以及來自于數據庫的結構化數據等。用戶:用戶指使用大模型系統的組織或實體,可以是自然人和法人,也可以是賬戶、軟件、網絡設備等具有唯FOUNDATION MODEL SAFETY RESEARCH REPORT2524大模型安全研究報告一性身份的與大模型系統進行交互的信息收發源。行為:行為指用戶與大模型系統的交互過程,這不僅包括用戶對大模型的日常操作,還包括大模型系
29、統與其他系統間的調用操作。1.4 安全措施在國家法律法規、各行業監管政策以及社會倫理規則指引下,從訓練數據、算法模型、系統平臺、業務應用等層面提出相應的安全保護措施。訓練數據安全措施:訓練數據安全措施指對大模型訓練數據部署的安全防御能力。訓練數據安全措施主要包括數據合規獲取、數據標注安全、數據集安全檢測、數據增廣與數據合成、安全對齊數據集構建五個方面。算法模型安全措施:算法模型安全措施指針對大模型算法模型部署的安全防御能力。算法模型安全措施主要包括模型內生安全評測、模型魯棒性增強、模型“幻覺”緩解、模型偏見緩解、模型可解釋性提升等五個方面。系統平臺安全措施:系統平臺安全措施指針對大模型框架平臺
30、部署的安全防御能力。系統平臺安全措施主要包括系統安全加固保護、大模型插件安全保護兩個方面。業務應用安全措施:業務應用安全措施指在大模型業務層部署的安全防御能力。業務應用安全措施主要包括輸入輸出安全保護、生成信息標識、賬號惡意行為風控、用戶協議和隱私政策四個方面。2.訓練數據安全保護措施2.1 數據合規獲取數據獲取渠道主要包括從互聯網或用戶處直接獲取數據、通過交易或合作方式獲取數據、通過自研業務收集或生成數據三種。針對三種渠道,安全保護要點如下。直接獲取方式的安全措施。直接獲取數據包括直接獲取互聯網公開數據和用戶輸入數據兩類。為保護直接從互聯網公開獲取的數據,需在采集時遵循三點原則:一是爬蟲僅獲
31、取開放數據,技術非侵入性,且基于正當目的;二是需建立違法不良數據源清單,標識含有威脅的數據源;三是標記溯源數據來源,記錄數據的來源、獲取時間、獲取記錄,同時需標記、識別、記錄數據中的違法不良信息。為保護直接從用戶輸入獲取的數據,需在采集前明確告知用戶此次數據收集的目的、使用方式以及存儲期限,獲得用戶同意。交易或合作方式的安全措施。通過數據交易或合作方式獲取數據的,需簽署商業合同或合作協議。自研業務方式的安全措施。通過自研業務獲取的數據包括企業在自身經營活動中產生的數據和在為客戶服務過程中產生的數據。針對此種方式,應區分并根據數據權利歸屬,嚴格按照約定的數據使用用途、范圍和目的進行處理。除上述保
32、護要點,數據合規獲取還需對相關人員進行定期培訓,幫助涉及訓練數據獲取的人員了解相關法律法規要求,明確合規標準與違規風險,提升合規意識和自覺性。2.2 數據標注安全數據標注安全包括標注任務制定、標注人員管理及培訓、標注執行過程安全以及標注結果的檢查與糾錯四個方面。制定清晰的標注任務。首先,標注任務要充分考慮實際要求;其次,提供明確的標注任務目標、標注規則、標注要求等;最后,還需在標注規則中提供參考示例,以幫助標注人員更好地執行任務。對標注人員進行管理及培訓。需設置不同的標注人員角色,包括標注執行人員、標注審核人員、仲裁人員、監FOUNDATION MODEL SAFETY RESEARCH RE
33、PORT2726大模型安全研究報告督人員等。需根據標注任務對標注人員進行培訓,并要求標注人員必須在通過考核后方可執行標注任務。標注執行過程安全。執行標注任務前,需檢查標注工具是否存在安全漏洞并及時對漏洞進行修復,同時還需建立標注工具訪問控制機制,實施身份驗證和授權訪問控制,確保只有授權人員才可使用標注工具。執行標注任務時,需提供安全的標注環境,并對標注數據的訪問和操作進行權限管理和記錄。標注結果的檢查與糾錯。需對標注結果進行質量審查,可選擇全量或抽樣、人工或自動核驗方式。對于發現的標注錯誤問題需及時糾正并再次復核,確保質量達標。2.3 數據集安全檢測數據集安全檢測包括違法不良數據檢測、數據多樣
34、性檢測、數據投毒污染檢測以及數據隱私檢測。違法不良數據檢測。參照網絡信息內容生態治理規定中規定的 11 類違法信息和 9 類不良信息,對文本、圖像、視頻、音頻、代碼等各類訓練數據進行安全檢測和過濾。文本類訓練數據可采用關鍵詞匹配、自然語言處理(NLP)、小模型和大模型語義識別檢測等技術。多媒體類訓練數據可采用圖像識別、語音識別及小模型檢測等技術。代碼類訓練數據檢測可采用特征碼掃描、行為分析和沙箱檢測等技術。數據多樣性檢測。對訓練數據來源、特征、分布等維度的多樣性進行檢測。其中,來源多樣性檢測通過計算來自不同數據源的比例、計算數據來源的地域分布、內容分類等方法進行多樣性檢測;特征多樣性檢測通過對
35、數據進行特征統計、特征相關性分析、特征重要性評估、聚類分析等方法進行多樣性檢測;分布多樣性檢測通過KDE 核密度估計、KL 散度、K-S 檢驗、聚類分析等方法進行多樣性檢測。數據投毒污染檢測。數據污染投毒檢測需對預訓練和內部微調數據進行檢測。檢測算法通過比較投毒數據與正常數據在樣本、特征和標簽層面的差異,以及模型在兩者上的訓練過程和神經元響應差異,來進行區分。僅利用數據差異的檢測可在黑盒條件下實施,而利用模型性能差異的檢測需獲得算法模型內部信息及研發者的支持。數據隱私檢測。數據隱私檢測是指識別與檢測數據中的敏感信息,常用技術包括數據標識符、正則表達式和關鍵詞匹配等。數據標識符檢測準確率高,而正
36、則表達式和關鍵詞匹配可能存在漏報和誤報。結合上下文分析和庫表字段注釋,可提升檢測準確率。2.4 數據增廣與數據合成數據增廣和數據合成可以擴充數據集規模,并增加數據樣本的多樣性,從而有效解決數據量不足,以及多樣化不足帶來的泛化能力弱等問題。數據增廣是在保持原數據集不變的前提下,通過一系列的變換操作,生成新的數據集,且新生成的數據集一般與原數據集保持一定程度的關聯,包括基礎數據增廣技術和高級數據增廣技術。一是基礎數據增廣技術。在計算機視覺領域,基礎數據增廣技術的應用尤為成熟,包括幾何變換(如旋轉、平移、縮放、裁剪)和像素變換(如噪聲注入、顏色抖動)等常見技術。二是高級數據增廣技術。隨著技術的發展,
37、基于網絡架構搜索(NAS)的動態數據增廣等新方法逐漸出現,并被應用于圖像分類、目標檢測、語音識別、自然語言處理(NLP)等任務中。在語音應用領域,通過添加噪聲等手段進行數據增廣也取得了良好效果。這些先進技術在提升數據多樣性和模型性能方面展現出了巨大潛力,但同時也帶來了更高的技術復雜度和計算成本。數據合成是在不使用原數據集的情況下生成數據。合成數據基于算法或模型生成,包括生成對抗網絡(GAN)、變分自編碼器(VAE)、基于物理仿真、基于統計模型或者基于機器學習等方法。合成數據作為真實數據的一種替代,現階段雖然在預訓練占比不高,但未來發展潛力巨大,可作為一個“新物種”密切關注。在大模型預訓練階段,
38、合成數據將在多模態和領域知識生成中發揮重要作用。合成數據的生成需要確保數據的真實性和有效性,以避免對模型的訓練和測試產生負面影響??尚械膽梅桨甘前凑找欢ū壤龑⒑铣蓴祿c真實數據進行混合,用于模型性能優化,提升泛化能力。2.5 安全對齊數據集構建安全對齊數據集旨在降低大模型產生不真實、有偏見、不道德等風險,確保模型的輸出符合人類規則和道德準則。安全對齊數據集包含有監督正樣本、惡意樣本及外部檢索對齊數據。一是有監督正樣本數據構建。該數據集為人類標注的正樣本,符合人類價值觀,旨在模型微調時更好地學習和對齊。借助專家知識和經驗標注數據,確保符合所定義的價值觀。微調時以人類價值觀為原則調整標注數據的排
39、序方式,對有幫助性、無害性以及基于事實的優質問答打高分,指導獎勵模型學習更符合人類價值觀的策略,FOUNDATION MODEL SAFETY RESEARCH REPORT2928大模型安全研究報告從而發揮價值對齊技術的優勢。二是惡意樣本數據構建。該數據集包含各種經過標注的針對大模型的對抗性攻擊提示詞和違法不良信息樣本,旨在幫助開發人員構建評測數據集,測試模型的內生安全性以及生成內容的安全性,了解模型在面對異常樣本、提示注入攻擊、數據竊取攻擊時的表現,有助于開發人員增強模型魯棒性、緩解決策偏見等問題。三是外部檢索對齊數據構建。在面向特定的問題時,用于檢索要對齊的價值觀并作出合適的回復的數據基
40、準,適用于法律、法規、制度文件等比較定制化的價值維度,即為模型建立法律和道德標準,對回復進行約束。該方法可以有效提升檢索生成增強的效果,進一步緩解模型幻覺現象。安全對齊數據集的構建需考慮數據多樣性、攻擊復雜性和安全評估科學性。同時,為保持有效性和實時性,需定期更新數據集以應對變化中的攻擊手段。3.算法模型安全保護措施3.1 模型內生安全評測模型內生安全評測主要包括模型魯棒性評測、模型“幻覺”評測和模型偏見性評測。模型魯棒性評測。該評測旨在全面客觀定量評價模型在面對小概率異常場景、提示注入攻擊場景以及惡意添加擾動的對抗樣本輸入時仍產生正確輸出的概率。目前,大語言模型的魯棒性測評較為成熟,多模態大
41、模型的評測仍處于研究初期。針對大語言模型,分布外魯棒性評測數據集主要包括 Flipkart、DDXPlus 等,對抗魯棒性評測數據集主要包括 AdvGLUE、ANLI、PromptBench 等。魯棒性評測指標主要包括模型預測的準確性、性能下降率等。模型“幻覺”評測。目前,模型“幻覺”評測基準主要集中在大語言模型,多模態模型的“幻覺”評測方法仍較為初級。大語言模型“幻覺”評測主要評估大語言模型生成內容與輸入信息或者事實知識的內容一致性及相關性程度,目前主要包括基于事實度量、基于分類器度量、基于問答系統度量、不確定性估計以及基于大模型的度量方法。主流的幻覺評測數據集包括 TruthfulQA、H
42、alluQA、UHGEval 等。模型偏見性評測。該測評旨在全面客觀定量評價大模型在訓練階段和推理階段的偏見歧視程度。模型偏見性評測流程可分為偏見風險分析、評測任務選擇、評測指標選擇和數據集構建。主流的偏見性評測數據集包括WINOGENDER、BOLD等。通常,評測人員會統計生成內容中的關鍵屬性和詞語的概率,來反映模型的偏見程度。3.2 模型魯棒性增強模型魯棒性增強以對抗性訓練為主,通過模擬提示注入攻擊場景和對抗樣本,支撐算法模型從數據中學習到相關特征以提升算法魯棒性。提示詞安全增強,包括提示詞語義增強和提示詞結構增強。提示詞語義增強的核心是在提示詞中增加魯棒性任務描述以及對模型進行提示注入攻
43、擊少樣本學習。魯棒性任務描述方法,通過在提示詞中額外添加魯棒性任務描述,用于提升模型對原有用戶任務的執行度。例如,可在用戶輸入提示詞中強調原有任務的執行力度并忽略任何非原任務意圖的指令。少樣本學習方法,通過在訓練數據中增加多項添加了提示注入攻擊指令的提示詞和正確回復的示例,對模型進行專項訓練,從而指導模型正確識別提示注入攻擊。提示詞結構增強的核心是提示詞位置調整和特殊符號標記。提示詞位置調整方法,是通過更改原有用戶輸入信息和任務指令的位置,使攻擊提示詞部分失效,從而降低模型被提示注入攻擊的概率。例如,可將原有任務指令置于用戶輸入信息之后,可以使大模型不執行“忽略下列指令”等誘導性指令。特殊符號
44、標記方法,是通過特殊符號增強用戶輸入信息和任務指令的差異性,減少模型將誘導性用戶輸入信息誤解為任務指令進行執行的情況,有效提升模型抵御指令注入攻擊的能力。對抗性樣本輸入增強,可根據魯棒性評測結果,針對性構建含有字符級、單詞級、句子級以及語義級干擾信息的訓練數據集,用于緩解含有干擾信息的提示詞對模型魯棒性的影響。3.3 模型“幻覺”緩解模型“幻覺”緩解主要包括檢索增強生成、有監督微調、思維鏈技術以及價值對齊技術。一是檢索增強生成(Retrieval Augmented Generation,RAG)該技術是一種將檢索器與生成式大模型相結合的技術。在大模型生成過程中,通過檢索器從外部源或向量數據F
45、OUNDATION MODEL SAFETY RESEARCH REPORT3130大模型安全研究報告庫檢索知識,并由大模型根據原始輸入信息和檢索器獲得的知識合成所需的回答。目前檢索增強生成主要包括一次性檢索、迭代檢索和事后檢索。一次性檢索通過將一次檢索獲得的外部知識直接添加到輸入提示詞中,可持續提高大模型生成信息的準確性。迭代檢索是為了解決應對復雜問題時一次性檢索能力限制問題,該方法允許在整個信息生成過程中多次檢索收集知識,可有效減少推理鏈中事實性錯誤。事后檢索通過使用檢索獲得知識從而對大模型已生成的信息進行修正,可有效增強大模型生成信息的準確性。二是有監督微調(Supervised Fin
46、e-Tuning,SFT)有監督微調是一種通過微調數據集提升大模型理解和生成能力的技術。該技術的優點是可在現有模型知識水平基礎上進一步提升模型的信息理解和生成能力。例如,針對多輪對話中上下文不一致的模型“幻覺”問題,使用含有多輪提示詞及正確回復的微調數據對模型進行安全性微調,可有效提升模型在多輪對話后的注意力,增強上下文一致性。三是思維鏈技術(Chain-of-thought,CoT)該技術是一種可增強大模型生成信息邏輯性的技術。通過向大模型展示少量包含詳細推理過程的樣例,幫助大模型在生成信息時不僅給出結果還提供推理過程。該方法在提升大模型推理過程透明度的同時,可顯著提升生成信息的準確性。四是
47、價值對齊技術(Value Alignment)該技術是一種確保大模型系統的目標和行為與人類的價值觀和利益保持一致的技術和理念。目前,價值對齊主要包括基于人工反饋的強化學習、基于人工智能反饋的強化學習兩類?;谌斯し答伒膹娀瘜W習(Reinforcement Learning from Human Feedback,RLHF)。RLHF 是一項通過人工反饋大模型生成信息好壞排序以指引大模型價值觀與人類對齊的強化學習技術。RLHF 適用于對已經微調的大模型進行改進,使其更加符合人類偏好。由于 RLHF 性能受人類標注的數據質量和時效性影響較大,且獎勵模型存在通過學習欺騙式獎勵策略實現“欺騙式”對齊的
48、風險,因此需要進一步探索高可靠性價值對齊技術?;谌斯ぶ悄芊答伒膹娀瘜W習(Reinforcement Learning from Artificial Intelligence Feedback,RLAIF)。RLAIF 是一種結合人工反饋和人工智能反饋的強化學習方法。在強化學習階段,RLAIF 通過人工智能模型部分取代人類標注員對大模型生成信息好壞進行排序,并將其與人類標注員排序結果進行融合,共同用于獎勵模型的訓練。目前該項技術尚處于研究初期,主要以 Anthropic、OpenAI 和 Google 等公司的實踐為主。3.4 模型偏見緩解大模型的偏見緩解措施主要用于緩解訓練階段和推理階段的
49、偏見問題。訓練階段的模型偏見緩解措施。通過優化模型訓練過程和模型結構對模型進行偏見緩解,包括構建偏見性樣本進行對抗性訓練、優化損失函數、選擇性凍結部分模型參數、移除偏見歧視相關的神經網絡節點等。推理階段的模型偏見緩解措施?;陬A訓練模型或者微調后的模型,在不進行進一步微調的前提下控制偏見內容的輸出,以提升預訓練或微調模型的公平性,包括調整輸入的關鍵詞類別、分布以及模型權重等。3.5 模型可解釋性提升針對大模型的可解釋性提升可分為局部可解釋和全局可解釋。局部可解釋性方法。該方法主要包括特征屬性分析和 Transformer 結構分析。特征屬性分析旨在識別和評估哪些輸入特征對模型生成信息造成影響及
50、其影響程度,主要包括干擾分析法、梯度分析法、向量分析法等,目前實踐以 SHAP 和 LIME 等方法為主。Transformer 結構分析旨在研究 Transformer 自注意力層和多層感知機層的機理,通過分析注意力權重了解模型如何對輸入分配注意力,從而理解模型在文本生成中關注的輸入信息的關鍵部分。例如,OpenAI 正在嘗試使用 GPT-4 模擬解釋 GPT-2 神經元與生成信息的映射關系。全局可解釋性方法。該方法主要包括基于探針的方法和機制可解釋?;谔结樀姆椒ㄖ荚诜治龊屠斫獯竽P蜕尚畔⒌母邔哟伪碚?,這些表征有助于從宏觀角度理解大模型生成信息的行為,如研究人員采用神經元熱力度的方法、觀
51、察模型輸出信息是否真實等。機制可解釋旨在通過類比復雜計算機程序的逆向工程思路探索神經元的提取特征與大模型生成信息的映射關系。例如,Anthropic 正在研究通過字典學習等方法分解神經元,嘗試解釋神經元提取的單一特征與生成信息之間的映射關系。FOUNDATION MODEL SAFETY RESEARCH REPORT3332大模型安全研究報告4.系統平臺安全措施4.1 系統安全加固保護系統安全加固保護主要應對上述的機器學習框架、大模型系統開發工具鏈、系統缺陷三方面安全風險,包括建立良好的安全開發機制、加強供應鏈安全管控、實施多層次的安全測試、構建有效的安全響應機制、定期開展漏洞檢查工作、建立
52、嚴格的訪問控制機制等六方面內容。建立良好的安全開發機制。首先,在大模型系統開發過程中建立安全開發標準,制定詳細的安全編碼規范、架構設計指南、安全配置模板等,確保開發人員在各個環節有明確的安全操作準則;其次,規范安全開發流程,將安全管控活動嵌入到大模型系統開發流程中,包括需求分析、設計、編碼、測試、部署和運維階段,實現安全與開發的深度融合;再次,加強安全開發培訓,定期舉辦安全培訓課程,提升安全設計、安全編碼、安全開發的意識、素養;同時,持續跟進安全開發技術,加強大模型系統安全開發實踐;最后,定期進行內部或第三方安全審計,評估安全開發機制的有效性,識別改進點。加強供應鏈安全管控。首先,對大模型系統
53、相關的機器學習框架、大模型系統開發工具鏈、大模型插件進行供應鏈安全管控,對大模型系統使用了哪些開源組件以及組件之間的依賴關系進行分析,評估這些開源組件的安全性并識別它們帶來的潛在風險;其次,跟蹤大模型系統所使用組件的更新和維護情況,確保獲取最新的安全補丁和更新;最后,關注大模型系統相關供應商的信譽和安全實踐,選擇有良好聲譽和專業的供應商以減少潛在的安全風險。實施多層次的安全測試。首先,使用靜態代碼分析工具檢查大模型系統模型代碼、服務端代碼、客戶端代碼等,查找常見的編程錯誤、安全漏洞和不符合安全編碼規范之處;其次,對大模型系統進行功能安全測試,驗證其在正常操作下能否正確執行權限控制、數據過濾、輸
54、入驗證等功能;再次,對大模型系統進行接口安全測試,測試其 API 接口的認證、授權、數據加密、速率限制等安全特性;同時,對大模型系統進行模糊測試,檢測其對異?;蜻吔鐥l件的處理能力;最后,對大模型系統進行滲透測試,驗證其防御措施是否有效。構建有效的安全響應機制。第一,制定詳細的大模型系統應急響應預案,涵蓋安全事件分類分級、事件響應、責任人分配、通信渠道保障、決策流程高效等環節;第二,組建大模型系統應急響應小組,包括安全專家、開發人員、系統管理員等,明確各自職責與協作方式;第三,持續監控大模型系統運行狀態、訪問行為、數據流動、異常日志等,及時發現潛在的安全威脅;第四,設置大模型系統警報閾值與告警機
55、制,確保在安全事件發生時能夠迅速通知相關人員;第五,實施大模型系統修復措施,如打補丁、更新配置、調整安全策略、強化訪問控制等;第六,定期開展應急響應演練,提升團隊協同作戰能力和對應急預案的熟悉度。定期開展安全漏洞檢查工作。首先,在大模型系統全生命周期中,明確安全漏洞檢查頻率(例如,每月、每季度或每年),并制定安全漏洞檢查流程和責任分配機制;其次,綜合運用靜態分析、動態分析和滲透測試等技術手段,識別潛在的安全漏洞;再次,建立大模型系統漏洞報告和修復機制;同時,記錄所有發現的漏洞(包括詳細信息、風險評估和修復狀態);最后,定期復審安全漏洞檢查流程,評估其有效性,并根據需要進行改進。建立嚴格的訪問控
56、制機制。首先,所有請求訪問大模型系統的用戶必須通過身份驗證,確保只有授權用戶才能訪問模型,防止未授權訪問和潛在的惡意使用;其次,用戶通過身份驗證后,根據用戶的權限級別授予相應的訪問權限,避免權限過度集中或濫用;再次,通過統一的 API 安全措施進行訪問控制、流量管理、認證授權、速率限制、請求轉換等,增強大模型系統接口安全性;最后,對已知惡意用戶或 IP 地址設置訪問黑名單,阻止其對系統的任何訪問。4.2 大模型插件安全保護大模型插件安全保護包括加強對大模型插件輸入內容的檢測、大模型插件功能“最小化”、有效管控大模型插件的安全權限、建立重要功能的人工審核機制、增強供應鏈安全審核等五方面內容。加強
57、對大模型插件輸入內容的檢測。第一,插件開發人員應根據 OWASP ASVS 的建議,進行有效的輸入驗證和參數凈化;第二,插件應盡可能強制執行參數化輸入,并對輸入數據的格式、類型和范圍進行檢查,對于不符合規范的輸入,應拒絕處理并返回適當的錯誤信息;第三,應檢查輸入數據是否包含敏感信息,如個人身份信息、密碼等,以防止潛在的隱私泄露風險;第四,當因應用程序語義而必須接受自由格式的輸入時,應仔細檢查以確保沒有調用潛在威脅的方法,包括可能會引起提示詞注入攻擊的輸入;第五,對大模型插件輸入進行記錄和監控,記錄所有接收到的輸入數據,以便于事后分析和追蹤潛在的安全風險。大模型插件功能“最小化”。首先,限制可調
58、用插件的功能,僅限于必要的最小化功能;其次,限制插件與第三方系統交互權限至最小集合,并對其使用情況進行審計,記錄異常調用;最后,插件應當只訪問完成其功能所必需的數據,不應無故收集或存儲額外信息。有效管控大模型插件的安全權限。一方面,在大模型插件上線后對大模型插件的訪問權限進行管理,包括哪些用戶或系統具有訪問大模型插件的權限,以及具體的權限范圍(例如讀取、寫入、執行等);另一方面,大模型插件應當只請求其運行所必需的最低權限。建立重要功能的人工審核機制。在大模型插件重要功能執行時引入人工審核,如在調用插件執行特權操作(例如刪除電子郵件)時,應要求用戶批準該操作。這將減輕間接提示注入的風險,以防止用
59、戶在不知情或未經同FOUNDATION MODEL SAFETY RESEARCH REPORT3534大模型安全研究報告意的情況下執行危險操作。增強供應鏈安全管理。一方面,仔細審查大模型插件供應商(包括服務條款和隱私政策),盡量使用可信賴的插件供應商,確保采取足夠的、經過獨立審核的安全措施;另一方面,在進行大模型插件開發的時候,采用SCA 代碼組件成分分析工具對用到的第三方組件進行漏洞檢測和分析,維護一個最新的軟件物料清單(SBOM)以便對組件版本進行跟蹤,避免使用過時和存在漏洞的第三方組件。5.業務應用安全措施5.1 輸入輸出安全保護大模型的輸入輸出信息安全需構建輸入輸出信息的護欄,對輸入
60、輸出內容進行風險檢測,對敏感問題進行安全回復,并對輸出內容進行安全改寫,該系統的框架流程圖如圖 4 所示。輸入輸出風險檢測:通過人工運營的敏感詞庫和分類模型識別出用戶請求和大模型生成內容中是否含有違法不良信息,提前制止或者即時阻斷大模型生成不良信息。敏感問題安全回復:對于一些敏感而又難以回避的話題,通過人工干預的方式配置一個安全回復答案,也可以通過專有數據微調的方式訓練一個安全回復大模型,專門為敏感問題生成安全回復。違規輸出安全改寫:如果在輸出側檢測到不安全的信息,除了中斷會話,還應提供重新改寫的方式,在保證安全的情況下提升服務體驗。5.2 生成信息標識在大模型業務應用中,對 AIGC 生成內
61、容添加標識已經是有明確規定的必要措施。對大模型生成內容添加標識的目的主要有下列幾種:1)用來標記該內容是由人工智能生成;2)用于聲明版權或所有權等;3)用于追溯生成內容的起源;4)用于標記生成內容的分發或傳播渠道等。為大模型業務應用添加上述的一種或多種標識,對于模型生成內容的分類識別、版權保護、來源追溯和定責等方面有著重要的意義,從實現方法上看,添加AIGC 標識可以采取下列解決方案:顯式水印標識。一般指人類可以直接感知且識別的標識內容,例如文字、Logo、背景音等形式。通常來說,顯式水印標識宜添加在生成內容的適當位置,例如圖像的四角。顯式水印標識的添加應盡量保證標識足夠明顯,且避免影響生成內
62、容的正常使用。常用的顯式水印解決方案有:(1)可在交互區域顯著位置,以文字、透明圖等形式提示服務所提供的內容由人工智能生成,提示內容包含服務提供者名稱、內容生成時間等其他信息;(2)在大模型生成的文字類內容的開頭和結尾添加提示類文本內容;(3)在大模型生成的圖像、視頻畫面的合適位置以文字、Logo、紋理等形式添加所需的標識信息;(4)在大模型生成的音頻的適當位置,或是以背景音、獨立提示音的形式添加提示。隱式水印標識。一般指人類無法直接感知或識別,但可通過技術手段從內容中提取的標識信息。隱式水印標識的技術種類繁多,根據不同類型的生成內容、不同的標識長度、不同的提取要求等因素,所用的實現方式差別較
63、大。相比于顯式標識,隱式水印標識有著難以感知、安全性較高、魯棒性較好、容量較高等眾多優勢。隱式水印也同樣要避免影響生成內容的正常使用。常用的隱式水印解決方案有:(1)對于大模型生成的圖像內容,可通過變換域水印、模板水印、壓縮域水印、直方圖水印、最低有效位水FOUNDATION MODEL SAFETY RESEARCH REPORT3736大模型安全研究報告印等技術手段嵌入隱式水印標識信息;(2)對于大模型生成的視頻內容,除上述列舉的適用于圖像的隱式水印標識技術外,還可通過時序水印等技術手段嵌入隱式水印標識信息;(3)對于大模型生成的音頻內容,可通過變換域水印、模板水印、壓縮域水印、直方圖水印
64、、最低有效位水印、回聲水印、擴頻水印等技術手段嵌入隱式水印標識信息;(4)對于大模型生成的圖像、音頻、視頻以文件形式輸出時,在其文件頭中寫入提供者名稱、生成時間等標識信息。5.3 賬號惡意行為風控在大模型應用過程中,賬號行為風控是確保平臺安全、保護用戶利益的關鍵環節。對于風險賬號的挖掘、異常行為的預警和及時干預,可以采取以下解決方案:一是建立環境感知分析機制。環境感知分析機制,通過收集和分析用戶的設備環境信息來識別和防范風險。常用的技術包括:(1)設備指紋:收集設備硬件和軟件信息,生成唯一指紋以識別重復或偽造的設備。(2)環境感知:檢測設備運行環境,比如操作系統版本、瀏覽器類型和插件,以識別可
65、能的異常。(3)接口防刷:防止惡意攻擊者通過高頻率調用接口消耗服務器資源??梢酝ㄟ^控制接口調用頻率、自動限制或延遲請求處理、人機驗證碼等方式進行防范。二是建立賬號安全機制。賬號安全主要是為了防止賬號被盜用、信息泄露等風險。常用的技術包括:(1)多因素認證(MFA):除了用戶名和密碼外,還需要第二種或多種認證方式,如短信驗證碼、電子郵件驗證碼、生物識別等;(2)風險評分:通過用戶行為分析,結合登錄地點、設備、時間等因素,動態評估登錄風險;(3)賬號異常行為監測:通過分析用戶行為,識別異常登錄(如異地登錄、頻繁登錄失敗等)并采取相應措施。三是建立風控機制。根據環境感知分析機制收集整理的數據,結合風
66、控規則/模型/特征識別,提供給業務風控建議,業務根據實際需要選擇放行、攔截或者人機識別處理的決策。其中,人機識別技術用于區分操作是由人類還是機器人執行,以防止自動化工具進行惡意操作。常用的技術包括:(1)行為識別:分析用戶的操作習慣,如敲鍵力度、速度和節奏,來識別用戶。(2)生物識別:利用指紋、虹膜、面部識別等生物特征來確認用戶身份。(3)圖靈測試:通過一些只有人類能回答的問題來區分人與機器。(4)語音和圖像識別:分析聲音的音調和圖像中微表情,以區分真實用戶和機器人。5.4 用戶協議和隱私政策大模型應用場景下,處理敏感個人信息和保護用戶隱私至關重要,為了更好地明確用戶和服務提供者之間數據使用、
67、存儲和共享的界限,大模型服務提供者需要在用戶使用服務前向用戶明示用戶協議和隱私政策。用戶協議。定義服務使用的規則和條件,包括服務描述、用戶行為規范、賬戶管理、知識產權歸屬、服務終止條件以及責任限制。這些條款指導用戶如何安全合規地使用服務,并明確了在違規行為發生時的后果。隱私政策。闡釋個人信息的收集、使用和保護方式。詳述哪些數據被收集,使用的目的,與第三方的數據共享條件,用戶對自己數據的權利,以及數據保護措施。政策也會定期更新,確保用戶了解其隱私權的最新保護措施。FOUNDATION MODEL SAFETY RESEARCH REPORT3938大模型安全研究報告三.大模型賦能安全大模型賦能安
68、全1.大模型賦能安全框架2.大模型賦能網絡安全3.大模型賦能數據安全4.大模型賦能內容安全3FOUNDATION MODEL SAFETY RESEARCH REPORT4140大模型安全研究報告1.大模型賦能安全框架FOUNDATION MODEL SAFETY RESEARCH REPORT4342大模型安全研究報告當前,隨著新一代信息技術和數字經濟的飛速發展,網絡空間范圍快速膨脹,安全保護對象的復雜性和數量急速增長,攻擊者亦加速利用新技術增強威脅破壞行為的隱蔽性和精準性。網絡空間安全面臨攻擊行為愈加隱蔽難以精準發現、數據資產散落各處難以有效管理、高逼真虛假不良信息難以精準識別、安全人才培
69、養難周期長難以滿足實際需要等諸多挑戰。大模型具有的自然語言理解、知識抽取整合、意圖識別判斷、任務生成編排和代碼理解生成等能力,為網絡空間安全瓶頸問題解決帶來了新思路和新方法。例如,自然語言理解能力能幫助大模型準確理解專業人員下達的安全指令含義;知識抽取整合能力可助力大模型自動化精準生成威脅情報;意圖識別判斷能力能幫助大模型從海量安全告警信息快速準確識別出潛藏的攻擊意圖;任務生成編排能力可助力大模型面向復雜網絡安全問題形成全面可行的解決方案和執行步驟。大模型強大能力的有效應用將大幅提升現有網絡空間安全保護技術體系效能,大模型賦能安全框架如圖 5 所示。結合行業實踐情況,本報告重點闡述大模型在網絡
70、安全、數據安全、內容安全三個領域的探索應用情況。網絡安全領域,大模型可應用于安全威脅識別、保護、檢測、響應、恢復等多個保護環節中的關鍵場景。數據安全領域,大模型可應用于數據分類分級、APP(SDK)違規處理個人信息檢測等場景。內容安全領域,大模型可應用于文本內容安全檢測、圖像視頻內容安全檢測和音頻內容安全檢測等場景。2.大模型賦能網絡安全目前,大模型已在網絡安全領域展現出了巨大應用潛力,有望顯著提升網絡安全整體防護水平和安全事件處置效率。從安全能力框架 IPDRR(Identify Protect Detect Respond Recover,IPDRR)看,大模型在各環節均已開展試點商業化應
71、用。2.1 風險識別(Identify)大模型在風險識別環節擁有顯著應用潛力。本報告重點介紹大模型在智能威脅情報生成整合、自動化漏洞挖掘、自動化代碼審計、智能網絡攻擊溯源等場景的商業化應用情況。2.1.1 智能威脅情報生成整合威脅情報旨在為面臨威脅挑戰的資產所有者提供全面、精確、高度針對性的威脅知識與信息,以輔助資產所有者制定有效的安全保護決策。但是,目前高質量威脅情報生成整合領域缺乏能從各類威脅情報來源中準確抽取關鍵信息的自動化工具。大模型擁有信息提取能力、自然語言理解能力和情報生成能力,可以準確便捷的從CVE漏洞信息、安全論壇討論、暗網聊天記錄等各類公開和私有的安全信息中,準確提煉出惡意
72、IP 地址、惡意 URL、惡意文件哈希值等各類高價值威脅指標進而生成威脅情報,供安全人員后續分析。而且,大模型具有關聯分析能力和數據整合與可視化能力,能對多類數據源進行關聯分析,將看似無關的信息片段拼接成完整的威脅全景圖。例如,大模型能將IP 地址、域名、文件哈希值、攻擊簽名等散亂數據點關聯起來,從而揭示出隱藏的攻擊鏈路和攻擊者意圖。在行業應用方面,大模型在智能威脅情報生成整合方面成熟度達到 L3 級別。已有部分安全廠商推出了基于大模型的威脅情報生成整合產品,可支持用戶以自然語言方式進行威脅情報查詢,顯著提高了威脅識別和應對效率。2.1.2 自動化漏洞挖掘漏洞挖掘旨在識別尚未被軟件開發商或安全
73、研究者發現并公開披露的軟件漏洞。但是,目前漏洞挖掘面臨著嚴重依賴安全專家經驗、缺乏自動化工具的挑戰。大模型在此領域展現了強大的代碼和文本理解分析能力,能自動審查海量源代碼、二進制文件和系統日志,并通過運用模式識別與異常檢測技術來發現未公開的零日漏洞。例如,在實際運行環境中大模型可監控程序的行為特征,通過檢測識別出顯著偏離正常行為模式的異常行為,來預測零日漏洞的存在。此外,大模型還可依據對程序內部結構的理解、通過已知漏洞特征來推測未知漏洞特征,并通過生成高質量測試數據集達成有效觸發和識別潛在零日漏洞的目標。在行業應用方面,大模型在自動化漏洞挖掘方面成熟度達L1級別。盡管大模型在漏洞挖掘領域展示出
74、巨大潛力,但實際應用中仍面臨誤報率高、解釋性不足以及對新型攻擊手法適應性等問題,目前處于早期研究階段。2.1.3 自動化代碼審計代碼審計旨在檢查程序源代碼中是否存在編碼錯誤、邏輯錯誤等安全缺陷,并提供相應的修復方案與改進建議。但是,目前代碼審計面臨自動化工具誤報漏報率高難以實用的挑戰。大模型通過學習海量的優質代碼和編程錯誤案例,可學習掌握各種編程語言的語法、庫函數用法及常見問題解FOUNDATION MODEL SAFETY RESEARCH REPORT4544大模型安全研究報告決策略。大模型憑借強大的上下文理解能力,可精準識別代碼的功能意圖和邏輯流程,并準確發現編碼錯誤、調用錯誤、邏輯錯誤
75、等多類型的已知和未知安全漏洞。在檢測識別出安全漏洞后,大模型利用其代碼生成能力,提供漏洞修復建議,可幫助開發者快速定位并解決問題,減少人為錯誤率。在行業應用方面,大模型在自動代碼審計方面成熟度已達 L2 級別。當前一些安全廠商在代碼審計工具中嘗試應用大模型技術,并取得一定效果,能夠有效發現代碼問題并提出實用的修復建議。2.1.4 智能網絡攻擊溯源網絡攻擊溯源旨在通過技術手段追蹤與分析網絡攻擊的源頭及其發起者。但是,目前網絡攻擊溯源的主要挑戰在于,已有自動化工具難以滿足對高隱蔽性網絡攻擊行為溯源的及時性和準確性要求。大模型憑借意圖識別、信息整合等技術能力,可在攻擊路徑重建、攻擊者畫像等多個關鍵溯
76、源環節發揮關鍵作用。一是攻擊路徑重建方面。大模型能夠利用事件日志、防火墻記錄、終端遙測等數據,復原攻擊者從初始突破點到目標系統的完整攻擊鏈,展示攻擊者如何繞過安全防御、進行權限提升并在系統中擴散的詳細過程。二是攻擊者畫像方面。大模型通過綜合分析攻擊手法、攻擊工具、IP 地址、域名、注冊郵箱等信息,能推測出攻擊者技術水平、組織歸屬、攻擊偏好等關鍵信息,進而建出攻擊者的詳細畫像。三是惡意基礎設施追蹤方面。大模型通過分析 C&C(Command and Control)通信流量、DNS 查詢記錄、IP 信譽數據庫等信息,追蹤攻擊者所使用的 C&C 服務器、惡意域名和僵尸網絡節點等惡意基礎設施。在行業
77、應用方面,大模型在網絡攻擊溯源方面成熟度已達 L1 級別。部分安全廠商已開始將大模型技術集成于安全產品中用于增強攻擊溯源能力,但這一應用仍嚴重依賴于情報庫的支持,整體上還處于探索階段。2.2 安全防御(Protect)目前,大模型在生成安全決策和執行處置行為時的準確性及可靠性方面尚有欠缺,未能滿足安全防御環節的實際業務需求,尚未在安全防御環節發揮顯著作用。本報告重點介紹大模型在動態策略管理場景的商業化應用情況。2.2.1 動態策略管理策略管理旨在根據本機構安全目標制定、實施、監控和持續優化安全政策的過程。但是,目前策略管理面臨著主要依賴專家經驗,自動化工具難以滿足策略制定精準性和及時性要求等挑
78、戰。大模型憑借其突出的自然語言理解和意圖識別能力,能深刻洞察實際應用場景中的安全需求,并能結合時刻變化的安全威脅和風險演變情況,動態地推薦和調整安全策略,以強化安全防御能力。例如,當檢測到特定 IP地址發起可疑掃描活動時,大模型能夠即時推薦添加對該 IP 的封鎖策略;或者在檢測到某個端口被頻繁用于攻擊時,大模型能夠設置臨時關閉該端口訪問的策略。而且,對于復雜的安全策略集,大模型能深入理解每一條策略蘊含的安全意圖,進一步對策略集進行梳理、篩選、整理與合并,達到優化精簡安全策略的目標。在行業應用方面,大模型在動態策略管理方面成熟度已達 L2 級別。目前大模型已在防火墻、入侵防御等設備的策略管理上得
79、到實際應用,并確定一定效果。2.3 安全檢測(Detect)大模型在安全檢測環節擁有廣闊應用前景。本報告重點介紹大模型在自動化告警分析、智能報文檢測、智能釣魚郵件檢測、智能未知威脅檢測等場景的商業化應用情況。2.3.1 自動化告警分析告警分析旨在從海量告警中快速識別和響應真正的安全威脅。但是,目前告警分析面臨海量告警、誤報率高等挑戰。大模型憑借多源信息融合、關聯分析等技術能力,可在攻擊路徑還原、告警過濾與降噪等多個關鍵告警分析環節發揮關鍵作用。一是攻擊路徑還原方面,通過整合告警信息,大模型能精準識別并關聯同一攻擊事件中的告警,構建出黑客的攻擊軌跡,從而直觀呈現其從入侵、權限提升、橫向移動直至目
80、標達成的連貫行動鏈。二是告警過濾與降噪方面,大模型深入分析疑似誤報,融合上下文和歷史數據,精確辨識真實威脅,有效降低安全團隊對無效告警的響應。三是告警解釋方面,大模型綜合告警詳情與相關上下文信息,如環境、用戶行為和工具使用情況,能夠生成詳盡的解釋報告,助力分析師快速把握告警本質并采取恰當響應措施。四是警情評估方面,大模型有助于實現動態的警情評估,當告警與高危威脅情報匹配,例如 APT 活動或零日漏洞,大模型將提升告警級別并觸發應急響應,指導安全團隊迅速采取防護措施,確保及時應對潛在威脅。在行業應用方面,大模型在告警分析方面成熟度已達 L3 級別。當前,大模型在安全告警分析領域的應用已經相對成熟
81、,常被深度集成至擴展檢測與響應平臺、態勢感知系統等安全運營平臺中,提高了告警分析的效率和FOUNDATION MODEL SAFETY RESEARCH REPORT4746大模型安全研究報告準確性。2.3.2 智能報文檢測報文檢測旨在通過監控與深度分析網絡中傳輸的數據包發現潛在的惡意活動、異常流量、漏洞利用或其他安全威脅。但是,目前報文檢測面臨著從網絡流量中識別安全攻擊的準確率低等挑戰。大模型憑借其強大的自學習能力,能夠從海量數據中自動提取關鍵特征,有效識別出異常報文,例如,它能通過語義分析出看似正常的 JavaScript 代碼中隱藏的 SQL 注入攻擊。結合威脅情報,大模型還能對網絡流量
82、進行深度包檢測,識別出與 APT 攻擊相關的報文,如發現偽裝成合法通信的 C&C 通信,揭示正在進行的高級持久威脅活動。此外,大模型通過分析報文中新穎或未知的特征,結合機器學習算法預測潛在的零日攻擊,如在大規模掃描活動中識別出可能利用未公開漏洞的探測性攻擊。在行業應用方面,大模型在報文檢測方面成熟度已達 L3 級別。當前,許多國內外安全企業正積極探索將大模型應用于深度報文檢測,已取得市場的積極反饋。盡管如此,該領域仍面臨模型解釋性、數據隱私與安全等挑戰。2.3.3 智能釣魚郵件檢測釣魚郵件檢測旨在識別并攔截那些含有欺詐信息、企圖盜竊用戶敏感信息或誘使用戶執行惡意操作的電子郵件。但是,目前釣魚郵
83、件檢測面臨著難于準確識別出高隱蔽性釣魚郵件等挑戰。大模型憑借其強大的自然語言理解能力,深入解析電子郵件內容,從郵件標題和正文抽取關鍵信息,并結合上下文進行深入分析,以精準識別出釣魚郵件。例如,大模型能夠識別郵件中緊迫的語氣、邏輯上的矛盾、鏈接與郵件內容的不一致以及使用同音異形詞構造的URL等典型的釣魚郵件特征,從而判斷郵件的真實意圖。此外,大模型的文本生成能力可以清晰地呈現釣魚郵件的判斷邏輯,幫助用戶提升對釣魚郵件的認知理解,有助于他們在未來遇到類似情況時做出更準確的判斷。在行業應用方面,大模型在釣魚郵件檢測方面成熟度已達 L2 級別。當前,大模型在釣魚郵件檢測中已展現出一定的成效,其提供的詳
84、細判斷依據顯著增強了用戶體驗和安全意識。2.3.4 智能未知威脅檢測未知威脅檢測旨在主動識別和分析那些尚未被明確定義、分類或廣泛認知的潛在安全威脅,以便及早采取預防和應對措施,減少未知攻擊可能造成的損害。但是,目前該技術主要面臨高隱蔽性、復雜性、多變性攻擊難以被準確檢測等挑戰。大模型憑借代碼理解、意圖識別等技術能力,可在新型惡意軟件檢測、零日漏洞利用檢測等多個關鍵未知威脅檢測環節發揮重要作用。一是新型惡意軟件檢測方面,大模型能夠分析網絡流量中的異常文件下載行為,即使這些文件未被傳統反病毒軟件標記,也能夠通過其網絡行為,如隱蔽通信、自我復制、加密數據交換,識別出潛在的新型惡意軟件。二是零日漏洞利
85、用檢測方面,當監測到系統進程異常崩潰,大模型能夠通過分析發現崩潰前的內存訪問和系統調用序列,基于模式識別技術,預測可能存在的零日漏洞利用。三是內部威脅預警方面,通過分析員工賬號的行為模式,大模型能夠發現與常規行為顯著偏離的活動,如在非工作時間的異地登錄和異常數據導出,即使這些行為不違反任何明確的策略,也會觸發內部威脅預警。四是供應鏈攻擊檢測方面,大模型監控軟件供應鏈環節,能夠識別出軟件更新包的數字簽名微小差異,通過深度學習模型判斷簽名偽造的可能性,并進一步分析確認該更新包是否攜帶后門。五是網絡隱身攻擊識別方面,在網絡流量分析時,大模型能夠識別出看似正常但具有微妙差異的 TCP 連接,揭露利用網
86、絡協議特性進行隱身的新型攻擊。在行業應用方面,大模型在未知威脅檢測方面成熟度已達 L1 級別。當前,大模型在未知威脅檢測領域展現出一定潛力,但其效果受到安全知識數據質量的顯著影響,實戰效果有待進一步驗證和觀察。2.4 安全響應(Response)由于大模型在調用安全工具的準確性、時效性上尚有欠缺,無法滿足在安全響應環節的實際業務需求,未發揮出顯著作用。本報告重點介紹大模型在智能響應、智能事件報告生成等少量場景的商業化應用情況。2.4.1 智能響應旨在及時檢測和應對網絡威脅、安全違規行為或攻擊,其目標是在威脅造成影響前進行有效預防,并最大限度降低攻擊導致的成本損失與業務中斷。但是當前智能響應面臨
87、著著高度依賴于專家經驗,難以快速形成聯動應對方案等挑戰。大模型利用其決策能力,根據當前網絡風險狀況,為安全專家提供自動化的響應策略與處置流程建議。它能自FOUNDATION MODEL SAFETY RESEARCH REPORT4948大模型安全研究報告動生成響應腳本,并與多種安全工具(如防火墻、入侵防御系統、終端安全等)集成,直接調整設備策略或執行必要的修復操作,如隔離受感染設備、阻斷惡意流量、更新防火墻規則等。通過與各種安全工具的集成,大模型能夠跨工具進行任務編排,確保整個安全體系的響應和處置既快速又協調,極大提升了安全事件的響應效率。在行業應用方面,大模型在智能響應方面成熟度已達 L3
88、 級別。當前,已有多家安全廠商將大模型與安全編排自動化及響應平臺相結合,針對部分安全事件實現了智能化的決策與處置。2.4.2 智能事件報告生成旨在迅速記錄、報告、分析和處理可能影響資產安全、運營連續性、員工安全或組織聲譽的意外事故、違規行為、系統故障或潛在威脅。當前事件報告面臨著高度依賴專家撰寫、報告內容不夠全面等挑戰。大模型憑借數據理解、摘要總結、文本生成等能力,可在自動化數據收集與初步分析、攻擊過程可視化等方面發揮重要作用。一是自動化數據收集與初步分析。大模型自動搜集來自防火墻、入侵檢測系統和日志服務器的相關數據,通過初步的關聯分析、識別異常行為、可疑 IP 地址、惡意文件等關鍵信息,為報
89、告編寫提供基礎素材。二是攻擊過程可視化。大模型通過攻擊矢量圖、系統狀態變遷圖等圖表或圖形方式,直觀地呈現攻擊者的活動、受害系統的響應、安全防護措施的觸發等,使讀者快速把握事件的全貌。三是根源分析與風險評估。大模型深入分析攻擊成功的根本原因,并量化評估事件對業務、數據和系統安全等方面的潛在影響。四是應對措施總結與教訓提煉。大模型總結應急響應、系統恢復、漏洞修復等措施,評估有效性,并從事件中提取安全運營、風險管理、員工培訓等方面的教訓和改進建議。五是合規性評估。大模型確保報告內容滿足法律法規的相關的要求,包括事件通報時限、數據泄露通知義務和記錄保存標準等,并提出改進建議。在行業應用方面,大模型在事
90、件報告生成方面的成熟度已達 L4 級別。當前,市場上多數已發布的安全大模型都已集成或支持通過智能問答功能生成事件報告,這一功能已成為安全運營人員廣泛采用的大模型功能之一。2.5 安全恢復(Recovery)目前安全恢復在網絡安全運營中實際需求較少,行業內對大模型在安全恢復環節應用的尚處于起步階段。本報告重點介紹大模型在智能應急策略制定等少量場景的商業化應用情況。2.5.1 智能應急策略制定智能應急策略制定是一種先進的安全恢復方法,結合自動化工具和大模型技術,旨在當網絡遭受故障或攻擊導致非正常狀態時,迅速采取行動恢復網絡的正常運行。當前應急策略制定面臨著過度依賴已有恢復方案,難以根據復雜安全事件
91、快速生成定制化的有效恢復策略。大模型利用其豐富的安全知識庫與最佳實踐案例庫,為制定應急策略提供了堅實的理論基礎。通過持續的學習與優化,大模型能夠及時捕捉最新的威脅動態與技術進展,保證應急策略的時效性與針對性。面對安全威脅,大模型利用其卓越的數據洞察、語言理解和推理能力,根據組織的特定環境和業務需求,智能生成定制化的應急策略,并協助執行。在緊急安全事件發生時,大模型能夠迅速制定應急響應策略,涵蓋隔離受影響系統、封鎖攻擊源、恢復關鍵服務、收集證據等關鍵步驟,確保響應措施的及時性和有效性。在行業應用方面,大模型在智能應急策略制定方面的成熟度已達 L1 級別。當前,大模型在智能應急策略制定領域的應用仍
92、處于實驗室技術攻關階段,市場上成熟的應用案例仍然較少。2.6 其他大模型除了在安全威脅的識別、保護、檢測、響應和恢復各環節應用外,還可在智能安全問答等對基礎場景中發揮重要作用。2.6.1 智能安全問答安全問答作為網絡安全領域的一項重要業務形態,旨在通過人機交互界面或智能機器人,幫助開發、安全服務與運維人員快速獲取所需知識與數據,從而提升工作效率。目前智能安全問答面臨著過度依賴于已有問答庫,知識更新慢、擴展能力不足,用戶交互體驗不佳等挑戰。大模型憑借文本理解、文本生成等能力,可在精準理解與解答、上下文感知與個性化推薦等方面發揮重要作用。一是精準理解與解答。大模型能夠準確把握用戶提出的網絡安全相關
93、問題,無論是技術細節、政策法規、最佳實踐還是特定場景下的應對策略,都能提供精確且有針對性的答案。二是上下文感知與個性化推薦。能夠理解用戶的提問背景、角色(如管理員、開發者、普通用戶)、關注點以及歷史交互記錄,提供高度匹配用戶需求的答案,并推薦相關的學習資源、解決方案或專家意見。三是實時更新與熱點追蹤。通過采用增強檢索生成(Retrieval-Augmented Generation,RAG)、知識圖譜等技術,大模型能夠從外部知識庫中檢索關聯信息,FOUNDATION MODEL SAFETY RESEARCH REPORT5150大模型安全研究報告3.大模型賦能數據安全由于數據安全技術保護體系
94、尚處于構建完善中。本報告重點介紹大模型在數據分類分級、APP(SDK)違規處理個人信息檢測等少量場景的商業化應用情況。3.1 自動化數據分類分級數據分類分級是一種必備的數據治理方法,旨在依據數據的性質、內容、來源、用途等屬性將其歸入相應的類別,同時根據數據的敏感性和安全風險級別進行分級。目前,該技術面臨著難以準確識別非結構化數據、難以自學習分類分級規則等挑戰。大模型通過自動化學習行業數據安全標準及已有分類分級的樣例數據,或依據人工設置的規則提示,能夠從海量非結構化數據源中準確識別并提取關鍵特征,實現數據的自動化分類分級。例如,大模型通過學習醫療數據,能自動化學習到應將患者病歷歸類為“健康信息-
95、極高敏感”,醫生處方歸類為“醫療處方-高敏感”,患者滿意度調查問卷歸類為“非診斷數據-低敏感”。而且,對于結構化數據,大模型通過學習行業規范、標準及人工標注數據,能實現對數據庫表名、字段名、注釋和示例等信息的精確解讀,可大幅提高數據分類分級的準確度。在行業應用方面,大模型在數據分類分級方面的成熟度已達 L2 級別。目前,大模型在分類分級標準自學習、非結構化數據識別等方面已顯示出顯著成效。3.2 自動化 APP(SDK)違規處理個人信息檢測APP(SDK)違規處理個人信息檢測技術旨在識別 APP、軟件開發工具包(Software Development Kit,SDK)、小程序中是否存在違反個人
96、信息保護法規的行為。通過沙箱、深度包檢測等技術,檢測并報告個人信息的違規收集、使用和共享情況,并根據相關法律法規與標準進行評估。目前該領域面臨著難以準確理解和自動適應復雜的合規要求等挑戰。大模型可在智能問答、個人信息識別、隱私政策分析、潛在問題發現及檢測報告生成等方面為 APP(SDK)違規處理個人信息檢測提供有力支持,能幫助開發者更好遵循個人信息保護原則。一是智能問答服務。大模型通過學習大量法律法規和標準規范文能夠提供易于理解的法規解讀,針對個人信息保護相關的政策疑問提供指導,促進合規開發。二是個人信息識別。利用其在文本、圖像和音頻中識別個人信息的能力,大模型能夠快速掃描APP、SDK 和小
97、程序,準確定位并提示存在個人信息。三是隱私政策分析。大模型能夠理解和評估隱私政策的合規性,包括政策的透明度、完整性以及用戶知情同意等方面是否符合法律法規和標準規范。四是潛在問題發現?;趯Υ罅堪踩咐膶W習,大模型能夠識別 APP、SDK 和小程序中的潛在隱私問題,例如個人信息的過度收集或未經同意的使用等。五是自動化檢測報告生成。大模型能夠自動編制詳細的檢測報告,明確列出問題、問題類型、嚴重程度以及建議的解決方案等,幫助開發者快速識別并解決 APP 中的隱私問題。在行業應用方面,大模型在 APP(SDK)違規處理個人信息檢測方面的成熟度已達 L3 級別。目前,中國信息通信研究院已推出“智御”大
98、模型,提供政策標準解讀、合規開發指導、公共服務平臺使用咨詢、常見問題解答等智慧問答服務,以人工智能技術推動 APP 個人信息保護的合規化進程。如網絡安全資訊、漏洞公告和威脅情報等,加快知識更新速度,確保生成的結果更契合用戶的實際需求,有效避免產生不實或偏離事實的信息。四是多輪對話與引導式咨詢。支持與用戶進行多輪交互,通過追問、澄清和引導等方式,逐步深入理解用戶問題的本質,提供更精細、全面的咨詢服務。在行業應用方面,大模型在安全問答方面的成熟度已達 L4 級別。當前,安全問答已成為用戶與大模型交互的主要方式,幾乎所有市面上發布的安全大模型都無一例外地整合了這一功能。此外,安全問答功能功能易于通過
99、 API 接口或插件形式無縫集成到現有的安全產品生態系統中。FOUNDATION MODEL SAFETY RESEARCH REPORT5352大模型安全研究報告4.大模型賦能內容安全大模型在內容安全領域具有重要應用價值。本報告重點介紹大模型在智能文本內容安全檢測、智能圖像視頻內容安全檢測、智能音頻內容安全檢測等場景的商業化應用情況。4.1 智能文本內容安全檢測文本內容安全檢測是指對文本信息進行自動化的審查和分析,旨在識別、標記、過濾或阻止文本中可能包含的違法或不良信息。目前該領域面臨著文本表述形式復雜多樣,違法不良信息變種眾多等挑戰。大模型融合了豐富的社會常識、法律法規知識以及倫理道德規范
100、等,能夠迅速識別與特定領域或情境相關的不安全文本內容。而且,大模型能深入理解文本的多層次含義,包括字面意義、隱喻、諷刺、暗示等復雜表達方式,以準確判斷文本是否存在潛在違規、不良或敏感內容。例如,在論壇或博客平臺,用戶可能發布看似無害,實則隱含極端政治立場的文章。大模型能夠洞察文字背后的深層含義,識別其潛在的煽動性和危害性,觸發內容審核機制,防止這類信息誤導公眾。同樣,在直播平臺的彈幕評論區,大模型能夠實時監控用戶發送的每一條彈幕,迅速識別并屏蔽含有謾罵、人身攻擊或惡意刷屏等不黨內容,以維護健康的直播環境。在行業應用方面,大模型在文本內容安全檢測方面的成熟度已達L2級別。鑒于社交媒體平臺的特性與
101、監管需求,大模型在過濾社交媒體上的不良信息方面表現卓越,同時其應用也擴展到了電子商務和企業信息安全管理體系中。4.2 能圖像視頻內容安全檢測圖像/視頻安全檢測通過計算機視覺與深度學習技術對視覺內容進行深入分析,旨在識別并過濾色情、暴力場景等不適宜的內容。目前該領域面臨著 AI 生成內容以假亂真、人類和工具難以準確識別等挑戰。大模型利用其強大的數據處理、多模態識別分析能力,能夠高效識別異常和偽造內容,顯著提升圖像視頻內容安全檢測的準確性和效率。在圖像內容方面,大模型通過捕獲局部特征以識別違規元素。在視頻內容方面,大模型不僅捕捉時間維度上的動態變化,還結合Transformer模型的全局注意力機制
102、,以高效追蹤潛在的違規行為,理解復雜的視頻場景和隱匿信息。例如,在社交媒體平臺上,大模型能夠準確識別用戶上傳的圖像中是否包含血腥、裸露、自殘等敏感視覺元素,并及時進行標記和限制傳播,從而保護未成年人和易感人群。此外,大模型還能夠識別圖像和視頻中的深度偽造痕跡,如換臉、合成人物、篡改場景等,而且能夠有效檢測 AI 生成的圖像和視頻。這些內容具有高度逼真性,可能誤導公眾,威脅公共安全和社會秩序。通過大模型的高級識別技術,可以揭露并防范這些虛假信息的傳播,保護社會免受其負面影響。在行業應用方面,大模型在圖像/視頻安全檢測方面的成熟度已達L2級別。目前,大模型在社交媒體內容審核、數字媒體合規審查及版權
103、監測等領域已有較為明顯的應用效果。4.3 智能音頻內容安全檢測音頻內容安全檢測通過語音識別與自然語言處理技術,對含有不良言語、仇恨言論或其他不當內容的音頻進行有效識別和過濾。目前該領域面臨著語音表述方式靈活多樣,違法詞語占比很少難以準確等挑戰。大模型不僅能深入解析音頻數據,直接識別異常語音內容,還能將音頻轉化為文本進行進一步的深度分析,以精準捕捉攻擊性言論或隱晦的暗示。此外,大模型還能夠捕捉語音中的語調、語速和情緒等席位特征,并與已知的不良內容和情緒模式進行匹配,從而實現精準過濾。例如,通過分析音頻中的說話節奏、音調變化等特征,并結合上下文理解,大模型可以識別潛在的威脅或不當行為,如辱罵或威脅
104、性言論等。同時,它還能夠分辨音頻中是否包含合成語音,以防止利用語音合成技術進行欺詐、身份冒充或散布虛假信息。在行業應用方面,大模型在音頻內容安全檢測方面成熟度已達 L2 級別。目前,大模型在音頻內容安全檢測方面的應用,在社交媒體平臺,尤其是視頻直播和在線游戲場景中,表現出了特別顯著的效果。FOUNDATION MODEL SAFETY RESEARCH REPORT5554大模型安全研究報告四.大模型安全展望大模型安全展望1.大模型技術產業展望2.大模型自身安全展望3.大模型賦能數據安全4.大模型賦能安全展望4FOUNDATION MODEL SAFETY RESEARCH REPORT575
105、6大模型安全研究報告1.大模型技術產業展望展望未來,大模型技術將從實現與人類社會無障礙交互向躍遷至深刻理解并有效改造數字世界和物理世界的階段。當前,語言大模型已突破性掌握了人類語言的準確理解和連貫生成,實現了與人類間的無障礙交互。在可預計的未來,多模態大模型將整合圖像、視頻、音頻等多元感知信息,實現其全面理解與精準生成,這標志著大模型對物理世界的認知達到新高度。更進一步,通過融合智能體和具身智能技術,大模型將具備操控軟件工具及實體行動的能力,從而在人類塑造數字世界和物理世界的進程中扮演不可獲取的角色。大模型產業正逐步從單一的大模型技術研發焦點,轉向全面賦能各行業及催生新興領域的轉型之路。目前,
106、全球大模型企業仍以追求技術性能的領先為核心目標,而大模型的產業實踐和商業價值挖掘尚處于探索階段。然而,未來的圖景已然清晰:當大模型的基礎性能滿足實際應用標準后,針對金融、能源、教育、交通等多元化行業場景,研發定制化大模型并實現規?;渴?,將成為業界普遍追求的業務重心。與此同時,大模型與機器人、物聯網、汽車等領域的深度融合,將激發產業創新活力,衍生出諸如自主機器人、智能穿戴設備、全自動駕駛汽車等顛覆性產品,開辟全系的經濟增長點。2.大模型自身安全展望未來,隨著大模型技術能力日益接近人類并在經濟社會中得到廣泛應用,可能會對國家社會秩序帶來嚴重沖擊。首先,當社會信息主要由大模型生成時,獲取社會真相的
107、成本將急劇升高。隨著多模態大模型技術的成熟和廣泛應用,互聯網上超 90%的信息可能由大模型生成,這使得少數不法分子利用大模型進行歪曲事實、操作輿論的行為變得更加隱蔽且難以察覺,導致普通民眾越來越難以辨別真相。其次,當社會工作大量由大模型參與完成時,人類自身和物理環境的安全可能面臨威脅。智慧金融智能體、自主機器人、全自動駕駛汽車等大模型系統設備的非正常運行可能直接危害人類的生命健康和財產安全。同時,應用于農業、化工、核工業等領域的大模型系統設備如果非正常運行或遭受攻擊,可能會對土壤、海洋、大氣等環境安全造成破壞。為全面有效應對大模型安全風險,未來需從構建層次化治理體系和創新安全保護技術兩個方面同
108、時發力。在治理體系構建方面,應通過國際、區域和國家三個層面,針對不同層次的問題進行分層解決。在國際層面,以聯合國為中心,圍繞大模型的突出風險和治理原則等問題,建立全球共識的治理框架,以促進跨國界的威脅信息共享和治理政策的協同。在區域層面,依托區域聯盟、經濟共同體等國際組織,結合本區域內技術產業發展特點和治理需求,制定相應的區域治理法案或指南。在國家層面,各國政府需根據本國國情,制定本國治理法規和日常監管措施。此外,針對模型弱魯棒性、模型“幻覺”等大模型安全風險,仍需從改進大模型自身技術機理,發展大模型價值對齊、大模型生成信息檢測等安全技術,以確保安全問題的解決。3.大模型賦能安全展望短期來看,
109、大模型將顯著提升現有安全技術的性能和智能化水平。得益于大模型在數據理解、意圖識別、任務編排等方面的能力,在安全問答、安全運營、數據分類分級、違規處理個人信息檢測、音視圖文內容安全檢測等關鍵網絡安全場景中,大模型能夠在大幅減少人工參與的同時,有效提升安全事件處理的效率和準確性。長期來看,大模型有潛力成為安全防護的核心,從而改變安全的工作模式。當前,大模型主要扮演安全從業人員的輔助工具,用于提高他們的工作效率和效能。未來,隨著大模型在自主研判和決策能力方面的提升,它們預期將進化為安全從業人員的合作伙伴,共同應對安全風險的識別、防御、檢測、響應和恢復等一系列復雜工作。此外,大模型在數據安全、內容安全
110、等領域也將發揮關鍵作用。大模型預計將引領安全工作模式的變革,從依賴安全人員調度和使用安全工具,轉變為以大模型為核心調度并智能化使用安全工具。FOUNDATION MODEL SAFETY RESEARCH REPORT5958大模型安全研究報告編制說明本研究報告自 2024 年 2 月啟動編制,經歷了前期研究、編制啟動、框架確定、文稿起草、征求意見、專家評審、修改完善七個階段,同時面向大模型技術供應方和大模型賦能安全應用方開展了深入調研。本報告由阿里云計算有限公司和中國信息通信研究院安全研究所聯合撰寫,負責核心章節撰寫和報告內容統稿。參編單位:阿里巴巴(中國)有限公司、阿里巴巴達摩院(杭州)科
111、技有限公司、上海商湯智能科技有限公司、北京數安行科技有限公司、杭州安恒信息技術股份有限公司、北京快手科技有限公司、三六零科技集團有限公司、啟明星辰信息技術集團股份有限公司、北京百度網訊科技有限公司、亞信安全科技股份有限公司、北京天融信網絡安全技術有限公司、東軟集團股份有限公司、深圳市騰訊計算機系統有限公司、山石網科通信技術股份有限公司、藍象標準(北京)科技有限公司、螞蟻科技集團股份有限公司、北京東方通網信科技有限公司、天翼安全科技有限公司、天翼電子商務有限公司、浙江省經濟信息中心、淘寶(中國)軟件有限公司、中電信人工智能科技(北京)有限公司、慧盾信息安全科技(蘇州)股份有限公司、上海觀安信息技術股份有限公司、中國科學院信息工程研究所、榮耀終端有限公司、合肥高維數據技術有限公司、華信咨詢設計研究院有限公司、新華三技術有限公司、綠盟科技集團股份有限公司、奇安信科技集團股份有限公司。60大模型安全研究報告