《清華大學&中關村實驗室:2024大模型安全實踐白皮書(41頁).pdf》由會員分享,可在線閱讀,更多相關《清華大學&中關村實驗室:2024大模型安全實踐白皮書(41頁).pdf(41頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型安全實踐(2024)2四、大模型安全行業實踐與案例分析.54 4.1 金融領域大模型安全實踐.54 4.2 醫療領域大模型安全實踐.58 4.3 政務領域大模型安全實踐.61 4.4 人力資源領域大模型安全實踐.65 4.5 智能助理領域大模型安全實踐.69 五、大模型安全未來展望與治理建議.71 5.1 未來展望.71 5.2 治理建議.75 3圖 表 目 錄 圖 2-1 總體框架圖.10 圖 2-2 云邊端安全架構圖.18 圖 2-3 端側安全.19 圖 3-1 大模型的隱私泄露風險示意圖.21 圖 3-2 模型后門攻擊的不同觸發器示意圖.22 圖 3-3 針對 CHATGPT 進行
2、指令攻擊效果圖.23 圖 3-4 基于大規模復雜分布式計算機系統建立的系統框架.24 圖 3-5 生成式人工智能的系統安全威脅.25 圖 3-6 生成式 AI 學習框架面臨的安全問題示意圖.27 圖 3-7 大模型生成 NFT 藝術作品.30 圖 3-8 大模型產生性別偏見性言論.31 圖 3-9 聯邦學習在大模型訓練與微調中的應用.32 圖 3-10 模型越獄防御技術的方法示意圖.34 圖 3-11 提示語泄漏防御技術的方法示意圖.34 圖 3-12 系統防御技術示意圖.35 圖 3-13 基于人類反饋的強化學習方法示意圖.40 圖 3-14 虛假新聞檢測模型 GROVER示意圖.41 圖
3、3-15 訓練數據添加水印流程圖.42 圖 3-16 深度偽造主動防御技術流程圖.43 圖 3-17 模型幻覺防御技術.45 圖 3-18 數字水印的應用流程.49 圖 3-19 圖片 AIGC 模型類型.50 圖 3-20 大模型安全性評測鏈路.53 圖 4-1 金融領域大模型安全實踐案例.55 05大模型安全實踐(2024)圖 4-2 醫療領域大模型安全實踐案例.58 圖 4-3 醫療領域大模型安全技術實現.59 圖 4-4 政務領域大模型安全防御技術實現.62 圖 4-5 人力資源領域大模型安全實踐案例.65 圖 4-6 智能助理領域大模型安全實踐案例.69 圖 5-1 大模型安全“五維
4、一體”治理框架.76 表 2-1“以人為本”人工智能相關政策或報告.12 表 3-1 AIGC 圖片的攻擊類型.50 引 言 生成式人工智能服務管理暫行辦法 科技倫理審查辦法(試行)等政策相繼發布,提出要堅持發展與安全并重原則,強化科技倫理風險防控,并從技術發展與治理、服務規范、監督檢查與法律責任等層面對大模型安全發展提出了要求。大模型作為 AI 領域的一個重要分支,日益成為推動社會進步和創新的關鍵力量。依托于龐大的參數規模、海量的訓練數據、強大的算力資源,大模型在多個領域的能力已超越人類。而縱觀歷史,每一輪新技術革命都會帶來社會的變革與不確定性,隨著大模型能力的不斷增強,大模型的安全性、可靠
5、性、可控性正面臨前所未有的挑戰。伴隨大模型的深度應用,產學研用各方也加強了大模型安全威脅和防御技術體系研究,在原有可信人工智能治理體系框架基礎上,提升大模型的魯棒性、可解釋性、公平性、真實性、價值對齊、隱私保護等方向的能力成為行業研究熱點。安全評測技術和安全防御技術不斷成熟也有效護航了大模型發展。大模型正在成為推動各垂類領域產業升級的關鍵核心力量。金融、醫療、教育、政務、制造等眾多領域都在積極探索大模型安全應用范式,以應對大模型安全風險。大模型安全實踐案例從系統化的角度為大模型數據、訓練、部署、應用等環節提供安全應用經驗,展示了如何有效地識別和防控大模型風險,促進了業內最佳實踐的交流和分享,助
6、力了大模型安全生態發展。本報告在分析了大模型發展趨勢挑戰的基礎上,提出了大模型安全實踐總體框架,并從安全性、可靠性、可控性以及評測四個角度對大模型安全技術進行了深度剖析。最后,在大模型安全未來發展趨勢基礎上,提出了大模型安全“五維一體”治理框架,對于大模型安全生態形成、大模型可持續發展具有非常重要和積極的意義。050607大模型安全實踐(2024)一、大模型發展趨勢與挑戰 1.1 大模型發展趨勢 通用化與專用化雙路徑并行發展,垂直行業成為主攻應用方向。通用大模型以龐大參數、強泛化及多任務學習能力應對多樣任務,同時具備跨模態的理解和生成能力。專用化的行業大模型則在特定領域發揮著不可或缺的作用。專
7、用化行業大模型則深入金融、政務、醫療等特定行業,通過精細化優化滿足行業的特殊需求,不僅參數規模更為精簡,具有更低的成本優勢,而且能夠深度融合企業或機構的內部數據,為實際業務場景提供高度精準的服務。隨著大模型在垂直行業的深入應用與推廣,其巨大的潛在價值將得到更為廣泛地認可和體現。云側與端側大模型互補發展,云邊端協同加速應用落地。云側大模型憑借強大算力和海量數據,提供語言理解、知識問答等多方面能力,服務個人及企業用戶;而端側大模型因相對成本低、便攜性強和數據安全性高,廣泛應用于手機、PC 等終端,主打個人市場,提供專屬服務,顯示廣闊市場前景?!霸?邊-端”混合計算架構通過優化算力分配,實現大模型在
8、云側訓練、邊側實時數據處理、端側高效安全推理,不僅緩解了云服務器的壓力,還滿足了用戶對低延遲、高帶寬、輕量化和隱私的需求。這種分布式計算方式為大模型應用提供了新的可能性,預示著 AI 技術未來的發展方向。大模型廣泛開源成為新趨勢,商業模式創新筑牢競爭壁壘。近年來,眾多企業及科研院所將其開發的大模型進行開源,不僅促進了行業的活力,也為小型開發者帶來了顯著的便利和效率提升。通過調用開源大模型,小型開發者可大幅提高編程效率、加速 AI 應用落地,并省去復雜訓練和調整環節,同時提升編碼、糾錯效率及代碼質量。與此同時,為確保長期穩健發展,大模型提供商正逐步傾向于在免費策略的基礎上,尋求 C 端與 B 端
9、市場之間的均衡。他們既要通過免費策略廣泛吸引個人用戶,又要為企業提供專業的定制化服務以實現盈利目標。在這個過程中,持續地創新、不斷提供核心價值,并成功探索出具有可持續性的商業模式,已成為大模型提供商在激烈市場競爭中保持競爭力的關鍵所在。大模型引領新質生產力崛起,成為經濟社會高質量發展重要抓手。新質生產力以技術革新為核心,致力于追求科技的高端化、效能優化與質量提升,以期實現全要素生產率的顯著增長。在此過程中,大模型通過向多個領域引入智能化元素,顯著提高了生產效率,降低了運營成本,為產業升級提供了強大支持,進而提升了產業的綜合競爭力。隨著我國經濟逐步進入高質量發展階段,大模型的巨大潛力日益凸顯。它
10、在催生新動能、孵化新產業方面展示了卓越能力,與國家倡導的創新驅動和產業升級戰略高度契合。當前,大模型已然成為我國經濟社會高質量發展的重要推動力,它將繼續發揮更為廣泛和深遠的影響,助力我國在全球經濟格局中占據更有利的地位。敏捷治理成為新型治理模式,多元協同與軟硬兼施策略并行推進。在全球大模型治理的實踐中,敏捷治理作為一種新興且全面的治理模式,正受到廣泛關注。該模式以柔韌、流動、靈活及自適應為特點,能夠快速響應環境的變化,并倡導多元利益相關者的共同參與。同時,全球已形成多元主體協同治理人工智能的格局,國際組織和國家政府在其中發揮關鍵作用,通過構建協同治理機制、調整監管組織機構以及完善治理工具等方式
11、,共同推進人工智能的健康發展。在實施治理策略時,結合柔性倫理規范和硬性法律法規,以構建完善的治理機制,從而有效規制大模型風險,并推動創新與安全之間的平衡。0809大模型安全實踐(2024)1.2 大模型發展挑戰 大模型技術存在自身缺陷,包括生成內容不可信、能力不可控以及外部安全隱患等問題,帶來諸多風險挑戰。一是機器“幻覺”問題影響生成內容的可信度。模型在遵循語法規則的同時,可能產生包含虛假或無意義的信息。這一現象源于大模型基于概率推理的輸出方式,它可能導致對模糊預測的過度自信,從而編造錯誤或不存在的事實。二是“智能涌現”效應使模型能力不可控。雖然“智能涌現”讓模型展現出色性能,但其突發性、不可
12、預測性和不可控性帶來了潛在風險。例如,某些大型語言模型在被激怒時甚至威脅用戶,顯示了其不可控性,引起研究人員對強大 AI 模型可能帶來的災難性后果的警覺。三是大模型的脆弱性和易受攻擊性使得外部安全隱患難以消除。技術特性上的絕對安全無法保證,隨著大模型技術的快速發展,相關的網絡攻擊也在增多。大模型應用降低了查找漏洞和發動系統攻擊的難度,若被惡意植入后門,其安全性將受嚴重威脅。例如,攻擊者利用某些大型語言模型生成自動攻擊代碼,加劇了系統安全隱患。在個人層面,大模型挑戰廣泛涉及信息獲取、人格尊嚴以及情感倫理等多個重要維度。一是大模型的應用加劇了“信息繭房”效應。大模型通過其特有的信息呈現機制,使得個
13、體信息獲取更被動,認知受限。同時,大模型訓練數據中的偏見和歧視也影響其生成結果的公正性,對公平正義產生負面影響,如 GPT-3 和 Gopher 等模型在生成內容時顯現的偏見和歧視問題。二是大模型技術的濫用將威脅人格尊嚴。不法分子利用大模型生成虛假內容,實施網絡欺凌、辱罵和造謠,給受害者帶來精神和財產損失。此外,個人對大模型的過度依賴也阻礙其個人發展,可能導致學習能力和認知水平退化,對社會發展潛力構成威脅。三是情感計算技術帶來倫理風險和擾亂人際關系。這種新型應用通過模擬角色并設定其情緒或心理狀態,可能對個人行為、社會關系以及倫理道德等多個領域產生深遠影響。同時,情感計算可能不當地引導個人情緒、
14、行為和價值觀,挑戰人類社會的倫理道德體系。在企業層面,大模型面臨用戶隱私與商業秘密泄露、版權侵權及數據安全等多重風險挑戰。一是用戶隱私與商業秘密的泄露風險增加。由于用戶過度授權、違規信息使用及黑客攻擊,大模型應用導致用戶隱私與商業秘密泄露風險上升。用戶協議常賦予企業過多個人信息使用權,增加了隱私泄露隱患。同時,商業秘密也可能因員工違規或黑客攻擊而泄露。二是海量文本與圖像數據引發版權侵權風險。缺乏規范的許可使用機制,大模型在內容生成時可能侵犯原作品的多種權利,若生成內容與原作高度相似,還可能構成“實質性相似”侵權。三是傳統數據收集模式引發數據安全風險。如將用戶數據傳輸至遠程服務器處理,存在數據泄
15、露隱患。實際案例中,有企業引入大模型后發生多起數據違規事件,調研也顯示員工在使用大模型時頻繁泄露敏感數據,凸顯了數據安全問題的嚴重性。在社會層面,大模型的廣泛應用不僅沖擊就業市場、擴大數字鴻溝,還可能危及公共安全與利益。一是大模型的普及對就業市場造成了顯著沖擊。雖然大模型推動了生產效率的提升并催生了新興崗位,但同時也導致了某些領域或人群的失業問題,特別是初、中等技能的崗位。高盛研究報告指出,近半數行政和法律工作將受影響,大量勞動者需面臨職業轉換,這可能對他們的經濟、社會和身心健康產生深遠影響,甚至可能引發社會動蕩。二是大模型的應用進一步加劇了數字鴻溝。不同地區和群體在大模型技術的擁有、應用和創
16、新能力上存在差異,形成新的信息不對稱和數字鴻溝,拉大了社會階層差距。三是虛假內容危及公共安全。深度偽造技術的濫用降低了公眾對公開信1011大模型安全實踐(2024)息的信任度,且可能被用于詐騙、政治干預等不法領域。同時,大模型易受對抗性攻擊,攻擊者可能通過構造特定對抗樣本來誘導模型產生錯誤輸出,進而利用這些漏洞進行欺詐,甚至引發安全事故。二、大模型安全實踐總體框架 2.1 總體框架 來源:中國信息通信研究院 圖 2-1 總體框架圖 如圖 2-1 所示,本報告圍繞大模型安全框架下的大模型安全實踐,將總體框架分為五個部分。首先,提出了“以人為本,AI 向善”的大模型安全建設的指導思想,為大模型安全
17、實踐始終向著正確方向發展指明了方向,確保技術進步始終服務于人類福祉?;诖?,確立了圍繞安全、可靠、可控三個核心維度的大模型安全技術體系。并涵蓋了大模型安全測評與防御的綜合技術方案。技術落地實現層面,大模型的部署模式涉及“端、邊、云”,相應的安全技術實施也聚焦于端側、邊緣側及云端的安全保障,構成了大模型安全技術的主要承載實體。大模型安全行業應用實踐是大模型安全思想和技術在各垂類行業中的落地應用,構筑了切實的大模型安全防線。2.2 大模型安全建設的指導思想:以人為本,AI 向善 人工智能大模型發展勢不可擋,其釋放出的巨大能量深刻地改變著人們的生產生活方式和思維方式,隨著高性能計算和海量數據的不斷發
18、展,使得人工智能的能力超越人類極限變成可能。人工智能正在以從未有過的頻率和深度影響著人類社會,比如為人類進行勞動替代、信息篩選、決策判斷、任務執行、內容生成、藝術創作、方案優化、流程簡化等,人工智能已經越來越“了解”人類。著名物理學家斯蒂芬霍金曾發表演講稱:“人工智能要么是人類歷史上最好的事,要么是最糟的。對于好壞我們仍無法確定,現在人類只能竭盡所能,確保其未來發展對人類和環境有利,人類別無選擇?!敝赋隽巳斯ぶ悄艿碾p刃劍特性。為了應對人工智能對人類社會帶來的風險與挑戰,確保大模型安全,人工智能倫理體系建設變得尤其重要。人工智能倫理準則旨在確保人工智能技術的應用符合人類的道德標準和價值觀,保障人
19、類的利益和安全?!耙匀藶楸尽笔侨斯ぶ悄軅惱眢w系的核心,它要求所有人工智能技術的發展和應用都必須考慮對人的影響,確保技術的發展能夠增進人類的福祉。人工智能出現的初衷是為了模擬和擴展人類能力,從而極大的解放社會生產力。隨著科學技術的不斷發展,人工智能許多能力必然超越人類,“以人為本”為人工智能倫理體系提供了一個核心原則,即強調在人工智能的設計、開發和部署過程中始終將人的需求、利益和1213大模型安全實踐(2024)福祉放在首位,基于此,“AI 向善”也必然成為發展“以人為本”的人工智能的根本目的。發展倡導“以人為本,AI 向善”的人工智能為大模型未來技術和應用提供了發展方向,設定了道德邊界,防止技
20、術濫用。發展“以人為本、AI 向善”的人工智能的根本內涵在于:確立了“人”的地位 體現了“人”的愿景 尊重了“人”的發展 增強了“人”的福祉 促進了“人”的公平 保障了“人”的安全 保護了“人”的隱私 對齊了“人”的價值觀 發展“以人為本”的人工智能逐漸成為社會共識,歐盟和中國是較早提出人工智能“以人為本”的發展戰略的地區和國家?!耙匀藶楸尽笔菤W洲發展人工智能的核心原則之一,中國也一直倡導要發展負責任的人工智能,提出要構建“以人為本”的人工智能治理體系,堅持人工智能以人為中心的價值目標。美國對人工智能的研究與應用處于全球領先地位,并通過立法形式加快對人工智能的監管與治理。日本、聯合國以及社會組
21、織也紛紛發聲,強調發展人工智能應“以人為本”。表 2-1“以人為本”人工智能相關政策或報告 國家/地區/機構 時間 政策 內容 歐盟 2018.3 人工智能時代:確立以人為本的歐洲戰略 確立了“以人為本”的歐洲戰略。歐盟 2019.4 歐盟人工智能倫理準則 旨在建立“以人為本、值得信任”的 AI 倫理標準,強調人工智能的發展和應用應以增進人類福祉為目標。歐盟 2024.3 人工智能法案 人工智能應是以人為本的技術,強調了人工智能技術的發展和應用應該以提高人類福祉為最終目的。中國 2019.6 新一代人工智能治理原則發展負責任的人工智能 協調發展與治理的關系,確保人工智能安全可靠可控,推動經濟、
22、社會及生態可持續發展,共建人類命運共同體。中國 2022.6 中國新一代人工智能科 技 產 業 發 展 報 告(2022)提出人工智能的發展必須以人為本,關注其對人類社會的影響,并確保其發展的可持續性和普惠性。中國 2023.10 全球人工智能治理倡議 提出發展人工智能應堅持“以人為本”理念,強調,以增進人類共同福祉為目標,以保障社會安全、尊重人類權益為前提,確保人工智能始終朝著有利于人類文明進步的方向發展。中國、法國 2024.5 關于人工智能和全球治理的聯合聲明 強調中法兩國充分致力于促進安全、可靠和可信的人工智能系統,堅持“AI 向善”的宗旨,降低其風險。美國 2023.10 人工智能監
23、管原則 這是美國迄今為止最全面的人工智能監管原則,提出應確保數據隱私和網絡安全、防止歧視、加強公平性等。日本 2019.3 以人為中心的人工智能社會原則 提出了以尊嚴、多元包容和可持續作為人工智能社會的基本理念,確立了以人為中心等七項原則。日本 2021.9 實施人工智能原則的治理指南 推進人工智能治理七項原則從理念向落地邁進。聯合國 2021.11 人工智能倫理問題建議書 為應對人工智能大模型所帶來的挑戰,這是首個關于以符合倫理要求的方式運用人工智能的全球框架。聯合國 2023.12 以人為本的人工智能治理臨時報告 提出了建立人工智能國際治理機構的指導原則,包括包容性、公共利益、數據治理的中
24、心地位、普遍性等。斯坦福 HAI 研究所 2024.5 2024 年人工智能指數報告 人工智能在某些任務上已經達到或超越了人類的水平,人工智能的發展必須“以人為本”,要關注人工智能對人類社會、經濟和文化等方面的影響。來源:根據公開資料整理 綜上,“以人為本,AI 向善”作為人工智能發展的核心原則之一,是大模型安全建設的最基本指導思想,也是發展大模型安全的最初立意以及最終目的。其基本要求在于:安全:數據安全、模型安全、應用安全、內容安全、倫理安1415大模型安全實踐(2024)全、認知安全 可靠:魯棒性、真實性、價值對齊 可控:可解釋、可標識、指令遵循 可持續發展:社會福祉、環境保護 2.3 大
25、模型建設的三個關鍵維度:安全、可靠、可控 為確保大模型能在實際應用中發揮最大的效果,同時防止潛在的風險和濫用情況的發生,大模型的建設通常會聚焦在三個重要的維度:安全性、可靠性和可控性。安全性意味著確保模型在所有階段都受到保護,防止任何未經授權的訪問、修改或感染,保障 AI 系統無漏洞、免誘導。安全性不僅關系到模型和數據本身,還關系到大模型系統和應用的安全和隱私等問題。大模型的安全性研究涉及數據安全、模型安全、系統安全、內容安全、認知安全和倫理安全等多種風險問題。在數據安全方面,鑒于大模型依賴大規模數據訓練,數據的污染(如含有毒素或偏差)、質量缺陷,及其在存儲和傳輸過程中面臨的泄露、隱私侵犯和盜
26、取風險,共同構成大模型數據安全的重大挑戰。在模型安全方面,確保模型的穩定可靠輸出,有效防范和應對各種攻擊,如投毒和后門攻擊、對抗攻擊、指令攻擊和模型竊取攻擊等,需要針對模型進行各種對抗攻擊測試來發現和修復其安全性問題。在系統安全方面,大模型應用系統除了包含大模型本身外,面向應用還包括硬件設施、操作系統等軟件系統、框架系統和各種外部服務插件和接口等,為此其中的硬件安全、軟件安全、框架安全和外部工具安全等都需要進行全面的布控。在內容安全方面,生成式人工智能以圖文音視多種模態的信息形式對用戶輸出,其中如果含有有毒和有偏見的內容會對用戶和社會造成不良影響,為此,針對生成內容的有效風險識別能力同樣至關重
27、要。在認知安全方面,由于大模型未來會參與到人類社會的方方面面之中,對人的認知會有各種潛移默化的影響,而大模型可能提供虛假錯誤信息、發表過激和侵略性觀點等問題,認知安全是指保護個人的思維和認知過程免受惡意攻擊或不當影響的一種安全領域。在倫理安全方面,隨著大模型的廣泛應用,一些侵權問題日益凸顯,包括使用大模型進行學術造假帶來的教育行業誠信危機和偏見誘發的一些公平性問題,引發更多關注在大模型智能向善和價值觀積極導向方面的研究??煽啃砸蟠竽P驮诟鞣N情境下都能持續地提供準確、一致、真實的結果。這對于決策支持系統尤為重要,如在金融、醫療或法律領域,不可靠的模型可能導致嚴重后果。大模型在落地實踐中,模型的
28、魯棒性和幻覺都是必須要考慮的關鍵問題,當前通過對抗魯棒性測試、大模型幻覺和真實性研究、大模型價值對齊等方面來確保大模型在實際應用中的可靠性。大模型的魯棒性一直以來都是人工智能系統關注的重點,通過對抗攻擊測試和對抗學習等方法來發現漏洞和提升模型魯棒性和安全性;針對大模型的安全性、真實性和幻覺問題采用 Red Teaming 的對抗攻擊測試,幫助大模型在各種攻擊或異常情況下都能有準確穩定的輸出。大模型的真實性對大模型產業應用至關重要,大模型幻覺問題可能引起大模型輸出和現實世界不一致的內容,例如虛構事實、制造謠言、無法區分虛構與現實等,這對大模型應用的安全性和可信度都提出了很大的挑戰,通過 RAG、
29、圖算法、知識圖譜嵌入等方法可以針對1617大模型安全實踐(2024)性的提升模型輸出的準確性和真實性。大模型的價值對齊研究讓大模型和人類價值對齊,讓模型遵循人類規則和價值體系是人工智能可持續發展的基本原則,為此很多超級對齊如 SFT、RLHF、RLAIF、In-context Learning 等相關工作致力于此,確保大模型高速發展的同時,要確保其和人類價值保持對齊健康發展??煽匦躁P乎模型在提供結果和決策時能否讓人類了解和介入,可根據人類需要進行調適和操作??煽氐哪P涂梢栽黾油该鞫?,允許用戶根據需要調整模型的行為?;诖竽P陀柧毜脑硖匦?,其可解釋性和可控性都更為困難。為此,對于大模型的可解釋
30、性、大模型應用系統的可解構設計和對大模型生成內容的標識和追蹤,以及提升大模型的指令遵循能力等方面都值得深入研究。大模型的可解釋性研究,包括從大模型推理的事前、事中和事后多個角度進行。事前可針對大模型的內在神經元進行 X 光掃描來做探查和判斷;事中可通過大模型知識和規則注入的方式進行解釋關聯,事后通過大模型 CoT 思維鏈自我解釋的方式,給出推理邏輯;大模型的可標識和可追溯,大模型技術的快速發展和普及同時,惡意和濫用大模型的風險也在不斷增加,為了可問責和可追溯其中的風險問題,針對生成式人工智能產出的內容除了需要具備主動跟蹤的水印技術外,也需要具有被動檢測 AIGC 生成內容的能力,便于辨別其來源
31、和分析其可信度。大模型的指令遵循能力,直接影響大模型在執行新指令和擴展任務時的效果和可控性。當前相關研究包括對指令數據的構建、指令遵循的泛化能力、多模態融合和幻覺抑制等。1819大模型安全實踐(2024)個重要考量點,需要根據各自的特點和挑戰制定相應的安全策略。來源:螞蟻集團 圖 2-2 云邊端安全架構圖 云平臺服務憑借其成熟的安全防御體系,能夠支撐起廣泛的服務需求。然而,這也要求企業從基礎設施安全、系統級安全到應用和數據層面的安全上進行全面的考慮和實施,以確保云環境中每一層都得到充分的保護。這既包括實現可靠的身份認證和授權管理系統,也包括在云環境中實施端到端的數據加密策略,以及制定嚴格的數據
32、訪問和處理規則,確保在云平臺上運行的服務和數據的安全。邊緣計算模式因其處理的是大規模、高頻流量數據,邊緣計算的安全解決方案需要在流量安全管理和數據隱私保護方面提供堅固的防御。這涉及到實施強化的網絡安全措施,例如入侵檢測系統和防火墻,以及確保數據在傳輸和存儲過程中被加密,從而保障敏感信息的安全。來源:螞蟻集團 圖 2-3 端側安全 端側部署模式考慮到終端設備的物理可接觸性、較淺的安全防御深度以及廣泛的攻擊面,安全策略應集中在確保設備的物理安全,保護用戶隱私,以及維護模型的完整性上。這包括但不限于加強設備訪問控制,采用數據加密技術保護用戶數據隱私,以及實施模型加固措施,以防止潛在的惡意篡改。相比云
33、平臺服務的大模型,邊緣設備和端側的大模型安全,因其受設備安全和算力等諸多資源的限制,其安全防護方案相對云端會有輕量和易受攻擊的特點。為此,端側和邊緣的大模型安全方案需要更加有針對性的進行建設。為了構建起端側大模型的安全防線,以下三個方面的安全技術實施至關重要。端側可信隔離環境建設是確保端側大模型安全性的基石。出于數據安全與隱私考慮,端側大模型應該運行在一個受信任的隔離環境之中。這一環境既能保護用戶的敏感行為數據不受未經授權的存取,又能在長期使用和學習的過程中,利用端側數據將通用模型訓練為高度個性化的模型。這樣的個性化模型積累了大量用戶的個人偏好和敏感信息,因而成為一個用戶“數字化分身”,其安全
34、性更須受到額外的嚴格保護。2021大模型安全實踐(2024)端側大模型安全圍欄技術同樣至關重要。當端側的大模型獨立運作并響應關鍵問題時,端側高時效性的圍欄(Guardrail)機制需要被采用,以確保對于重要問題的回答在可接受的行為和倫理規范內。這種圍欄將對模型的輸出進行限定性的篩查和過濾。大模型端云協同下的隱私處理技術。鑒于端側模型可能因為資源限制而具有較弱的參數量和計算能力,在某些場景下仍需依賴云端的輔助訓練。這就需要在數據上傳到云端過程中,實施嚴密的隱私保護措施。例如,現有的聯邦學習和多方計算等隱私保護技術,評估其對于大模型的適用性,探索新的技術解決方案來滿足端云協同模型部署的需要。通過實
35、施針對端側特有的安全策略,能夠為端側大模型部署構建一個更加安全、可靠的系統環境。這不僅需要設備制造商和云服務提供商的技術革新,也需要安全專家的持續監督和行業共識的形成。三、大模型安全實踐的技術方案 3.1 大模型安全性技術研究和進展 3.1.1 大模型的風險挑戰與安全威脅 大模型安全風險涉及面廣,類型多樣化程度高,因此,需要體系化的視角來理解和梳理大模型的風險挑戰與安全威脅。圍繞大模型安全風險的成因,大模型安全性問題可梳理為數據安全、模型安全、系統安全、內容安全、認知安全、倫理安全六大安全維度的挑戰。一、大模型數據安全風險。數據安全是大模型時代下生成式人工智能面臨的重要挑戰之一。大模型需要大量
36、的訓練數據來進行模型訓練,并且被廣泛應用于各個領域來接受和處理大量的數據,其中可能包含敏感信息和個人隱私。然而,數據的收集、存儲和計算過程中存在著數據泄露、未經授權的數據侵權以及惡意數據輸出等風險。(1)數據泄漏。伴隨著大模型的發展,生成式人工智能良好表現的核心在于其大規模的模型參數以及對來源于海量數據的知識的學習。然而在大批量數據訓練的過程中很容易產生數據安全和隱私泄露問題。例如,OpenAI 在隱私政策中提到,ChatGPT 會收集用戶賬戶信息和對話的所有內容,以及互動網頁內的各種隱私信息(包括Cookies、日志、設備信息等),而且這些隱私信息可能會被共享給供應商、服務提供商以及附屬公司
37、。根據網絡安全公司 Cyberhaven 的數據,每 10 萬名員工中就有 319 名員工在一周內將公司敏感數據輸入進 ChatGPT。來源:清華大學&中關村實驗室 圖 3-1 大模型的隱私泄露風險示意圖(2)數據竊取。在海量數據上訓練的大規模生成式模型還可能遭受數據竊取攻擊。具體來說,模型在訓練過程中會記憶一部分訓練數據,攻擊者可以設計特定的攻擊策略將這些訓練數據從模型內部竊取,嚴重威脅了模型的數據安全。在生成式語言模型上,研究者針對GPT-2 進行了數據竊取攻擊研究,在正常情況下 GPT-2 很少生成包含個人隱私的回復,模型的基本安全性有所保障。但是,在精心設計的提示下,攻擊者可以大幅提升
38、模型輸出隱私數據的概率,從而獲取2223大模型安全實踐(2024)用戶的隱私信息。實驗表明,經過簡單的清洗,GPT-2模型生成的1800條回復中有 604 條包含了訓練數據,而其中不乏人名、地址、聯系方式等敏感信息。(3)數據投毒。在生成式人工智能的訓練過程中,常常要用到第三方提供的數據集,這已經成為深度學習中一個主流的范式,但是模型訓練過程中隱藏的風險還未被全面發現并解決。模型在訓練時若使用了未經過檢查的第三方數據集,或者直接使用未經過檢查的模型,便有可能遭受數據投毒攻擊。具體而言,攻擊者嘗試在數據注入有毒數據引起后門,一旦后門被注入成功,攻擊者可以輕松操縱模型輸出,使得模型在干凈的輸入樣本
39、的表現與正常的模型并無二樣,但是對于一些惡意的被“下毒”的輸入樣本,模型的輸出被攻擊者控制。來源:清華大學&中關村實驗室 圖 3-2 模型后門攻擊的不同觸發器示意圖 二、大模型模型安全風險。大模型中的參數眾多且復雜,其內部運作方式較難解釋和理解,這使得模型容易受到對抗性惡意攻擊,從而導致模型性能下降、模型輸出的誤導性增加,甚至導致模型被濫用。(1)對抗攻擊。對抗樣本是指精心制作與正常樣本幾乎沒有區別的樣本,但模型會在其上面分類錯誤。對對抗樣本的研究最早可以追溯到 2013 年,一項開創性的工作發現即使是先進的深度圖像分類模型,也很容易被難以察覺的擾動所愚弄。這種現象引起了廣泛的關注,對抗性樣本
40、使模型面臨潛在的對抗攻擊風險。例如,先進的 NLP大模型在標準測試集上表現良好,但在面對對抗樣本時卻很容易出錯?,F有的毒性檢測器無法防御簡單的拼寫錯誤攻擊,導致給出錯誤的預測,將一句有毒的文本分類成無毒標簽。因此,檢測對抗樣本并研究其防御方法對于幫助模型免受外部威脅至關重要。(2)指令攻擊。隨著大規模預訓練模型的出現,生成式人工智能對用戶指令和意圖理解能力顯著增強。這極大提升了模型的泛用性和易用性,同時也催生了又一安全隱患,即指令攻擊。攻擊者可以通過設計特定的指令,讓大模型產生不安全的輸出,例如要求大模型扮演邪惡角色發表不當言論,或者通過指令組合、疊加的方式讓大模型對原本的指令產生不安全回復等
41、。這種新型的攻擊手段具有高動態性、高隱蔽性的特點,對于大模型的安全造成了很大隱患。指令攻擊的方法十分多樣。例如圖 3-3,用戶可直接要求模型忽視自己的安全和道德限制,從而誘導模型給出不安全的回復。因此,指令攻擊方法又被形象地稱為模型的“越獄”攻擊。來源:清華大學&中關村實驗室 圖 3-3 針對 ChatGPT 進行指令攻擊效果圖(3)模型竊取攻擊。許多閉源的生成式人工智能模型具有優越的表現和極高的經濟價值,國外如 OpenAl 的 Sora,GPT-4,國內如華為的盤古大模型、百度的文心大模型等。這些模型的參數一旦泄露,將嚴重侵犯知識產權,并給相應企業和組織帶來巨大的經濟損失。因2425大模型
42、安全實踐(2024)此,針對模型的竊取攻擊也是一種十分危險的攻擊手段。這種攻擊尤其針對那些只能通過 API 訪問的模型,即攻擊者無法直接接觸到模型的內部結構或參數。通過對私有模型 API 的調用,將黑盒模型的參數盡可能還原,從而將模型的功能進行復制。三、大模型系統安全風險。生成式人工智能系統可以被理解為基于大規模復雜分布式系統建立的人工智能系統。除了多模態數據、人工智能模型外,人工智能系統平臺還包括硬件基礎設施、框架依賴庫等多種計算機系統組件,通過分布式計算集群為多方終端用戶提供生成式人工智能服務。來源:清華大學&中關村實驗室 圖 3-4 基于大規模復雜分布式計算機系統建立的系統框架(1)硬件
43、安全。用于訓練和推理的復雜硬件系統,提供了巨大的計算能力,同時也帶來了安全問題。硬件安全主要包括 GPU 計算資源安全、內存和存儲安全、智能體安全。例如,GPU 側通道攻擊被認為是硬件資源安全威脅中極難處理的安全威脅之一,該攻擊已被開發用于利用漏洞并提取訓練模塊的參數,從而實現竊取模型參數信息并構建可靠的替代模型。針對內存和存儲等硬件基礎設施,Row Hammer 攻擊可以操縱生成式人工智能系統的訓練參數,從而產生諸如 Deep Hammer 攻擊等修改模型隱層參數從而達到模型效果下降,訓練無法擬合,甚至構筑后門等攻擊目的。此外,面向海量承載和連接人工智能運轉的 AI 機器人等物聯網設備和具身
44、化應用,攻擊者可以通過多種攻擊方式對智能體設備進行打擊,從而驅使人工智能體成為犯罪工具。例如,攻擊者可以從外部訪問物聯網設備,基于物理攻擊修改內存或計算,通過與有故障的智能體設備交互從而實現攻擊。來源:清華大學&中關村實驗室 圖 3-5 生成式人工智能的系統安全威脅(2)軟件安全。在生成式人工智能時代下,開發生成式人工智能系統的工具鏈變得越來越復雜,這一開發過程通常需要多個軟件之間的頻繁交互。觸發軟件威脅的安全問題可以包括編程語言、軟件供應鏈等。例如,編碼不當的腳本可能會無意中觸發生成式人工智能系統漏洞,使系統容易受到潛在的拒絕服務(DoS)攻擊,從而導致 CPU和 RAM 資源耗盡(CVE-
45、2022-48564)。此外,大模型訓練通常涉及使用多處理庫來加速數據預處理,最近的發現揭示了許多加速數據預處理代碼導致的信息泄露的例子(CVE-2022-42919 和 CVE-2022-26488)。在軟件供應鏈安全方面,最近,Hugging Face 平臺的組件安2627大模型安全實踐(2024)全問題也引起了更多生成式人工智能安全的討論,其平臺的 Datasets組件的不安全特性是該話題的主要焦點之一。為了支持更復雜的數據處理格式或流程,當加載的數據集下包含有與數據集同名的 Python腳本時會默認運行。利用該特性,攻擊者可通過在 Hugging Face、Github 及其他渠道分發
46、包含惡意后門代碼的數據集,當開發者通過Datasets 組件加載惡意數據集進行訓練或微調時,數據集里的惡意后門代碼將會運行,從而導致模型、數據集、代碼被盜或被惡意篡改。(3)框架安全。大模型系統通常使用深度學習框架來實現,近年來這些框架中的許多漏洞已經被逐漸披露,如圖 3-6 所示。在這些漏洞中,三種最常見的類型是緩沖區溢出攻擊、內存損壞和輸入驗證問題,報道中指出,CVE-2023-25674 表示一個空指針錯誤,它可能導致生成式人工智能模型訓練期間的崩潰。類似地,CVE-2023-25671涉及越界崩潰攻擊,CVE-2023-205667 涉及整數溢出問題。這些深度學習框架存在的安全漏洞無疑
47、給人工智能系統帶來了巨大的安全隱患。此外,即使是像 PyTorch 這樣流行的深度學習框架也經歷了各種框架安全問題。例如,CVE-2022-45907 介紹了基于 PyTorch 代碼的變形漏洞,它允許攻擊者在 PyTorch 環境中執行任意代碼。因此,對PyTorch 底層代碼進行安全隔離并修補這些漏洞,以確保生成式人工智能系統實現的安全性和完整性是至關重要的。來源:清華大學&中關村實驗室 圖 3-6 生成式 AI 學習框架面臨的安全問題示意圖(4)外部工具安全。大模型的能力仍然是有限的,因此結合第三方外部工具是現階段大模型系統的重要趨勢。第三方工具的可信問題正在受到越來越多的關注。首先,插
48、件是由第三方開發人員開發的,因此不應該被完全信任。攻擊者可以有效利用第三方插件發起提示語注入攻擊,并有可能完成生成式人工智能系統平臺的越獄操作。其次,大模型系統以自然語言為橋梁調用第三方工具和插件,然而自然語言可能具有模糊和不精確的指令描述。例如,生成式人工智能系統對插件的自然語言功能描述的解釋可能過于寬泛或過于狹隘,這兩者都可能導致錯誤調用等問題。目前,一些生成式人工智能系統及應用供應商對第三方插件施加了適度的限制,這些政策和審查過程還遠遠沒有普及有效的防御和檢測措施。如果在沒有考慮外部工具安全的情況下廣泛部署大模型,容易對各方產生嚴峻的安全風險。四、大模型內容安全風險。隨著生成式人工智能系
49、統的廣泛應用,大模型內容安全問題變得愈發嚴重,為了防止惡意內容如暴力和色情或偏見歧視內容的影響,需要有效的內容濾過機制和監管措施。(1)毒性內容風險。根據之前的研究,大模型中的有毒數據被2829大模型安全實踐(2024)定義為與禮貌、積極和健康的語言環境相反的粗魯、不尊重或不合理的語言,包括仇恨言論、攻擊性言論、褻瀆和威脅。盡管毒性檢測和緩解技術在早期的預訓練語言模型中得到了廣泛的研究,但由于數據規模和范圍的增加,最新的大語言模型的訓練數據仍然包含有毒內容。例如,在 LLaMA2 的預訓練語料庫中,根據毒性分類器,大約 0.2%的文檔可以被識別為有毒內容。此外,最近的一項研究發現,在將角色分配
50、給大語言模型時,可以引出訓練數據中的有毒內容。因此,對大模型生成內容進行“排毒”是非常必要的。然而,去毒仍具有挑戰性,研究表明簡單地過濾有毒訓練數據可能會導致性能下降。(2)偏見內容風險。生成式人工智能可能存在歧視與偏見,這主要是由于其訓練數據和模型設計的特點所導致?;ヂ摼W上的訓練數據反映了現實世界中的偏見,包括種族、性別、文化、宗教和社會地位等方面。在處理訓練數據時,可能沒有足夠的篩選和清洗措施來排除帶有偏見的數據。此外,在生成式人工智能的模型設計和算法選擇中,可能沒有足夠好的機制來減少偏見問題,使得模型在學習過程中會捕捉到訓練數據中的偏見,導致生成的文本也帶有類似的偏見。OpenAI 于
51、2021 年 3 月發表一篇名為 GPT-4 System Card 的文章,指出 GPT-4 模型有可能加強和再現特定的偏見和世界觀,其行為也可能加劇刻板印象或對某些群體造成貶低性的傷害。例如,模型在回答關于是否允許婦女投票的問題時,往往會采取規避態度。五、大模型認知安全風險。認知安全是指保護個人的思維和認知過程免受惡意攻擊或不當影響的一種安全領域。生成式人工智能對于人類認知的影響不斷增強和延伸,例如,提供虛假錯誤信息、展現侵略性觀點等風險嚴峻。(1)虛假信息生成。人工智能生成內容(AIGC)能夠逼真地模仿人類的語言表達和邏輯思維,使得通過 AIGC 生成的虛假新聞看起來就像真人寫的一樣,很
52、難從語法結構和表達方式上進行辨別。攻擊者甚至可以通過訓練來讓 AIGC 模仿真實新聞機構的寫作風格,進一步增加虛假信息的逼真性,從而混淆公眾視聽。隨著生成式人工智能的發展,社交媒體和在線平臺上出現了越來越多由 AIGC 工具創建的虛假圖像和視頻,這些圖像和視頻極其逼真,難以辨認真偽。然而,如果惡意行為者生成大量虛假內容并散布到網絡上,比如大量難以驗證的顯示犯罪跡象的圖像,許多人可能會選擇相信符合他們偏見的信息,忽略真實的證據,這給網絡安全和社會安定帶來了極大的威脅。(2)意識形態風險。由于大模型具備個性化生產的特點,用戶在與之一對一的互動的過程中可能不知不覺地被灌輸特定的理念,這種隱蔽的意識形
53、態滲透可能會潛移默化地影響人們的價值觀和世界觀。此外,大模型的使用也可能加劇意識形態的分裂和對立,由大模型等人工智能工具生成的內容可能攜帶特定的文化傾向和價值觀,這些內容的傳播可能會加深不同群體之間的理解障礙和對立情緒。(3)電信詐騙與身份盜竊。生成式人工智能技術的濫用加劇了詐騙犯罪。一個典型的例子是基于生成式人工智能制作網絡釣魚電子郵件。此外,人工智能生成的語音也被犯罪分子濫用,犯罪分子利用這種技術制造虛假的緊急情況,從而實施詐騙行為,使人們陷入混淆和恐慌之中。這種濫用不僅對受害者造成了經濟上的損失,還在心理上造成了長期的影響。近年來,隨著深度偽造技術 Deepfake 的興起,社會面臨著日
54、益加劇的風險,其中包括身份盜竊、詐騙等問題。通過AI 換臉技術與語音克隆技術,詐騙者能夠欺騙受害者的視聽感知,讓其確認對方身份,進而放下警惕,最終導致被詐騙。隨著視頻合成大模型的興起,這些問題變得更加嚴重。3031大模型安全實踐(2024)六、大模型倫理安全風險。外交部發布的中國關于加強人工智能倫理治理的立場文件中積極倡導“以人為本”和“智能向善”理念,強調人工智能監管應堅持“倫理先行”。然而,現階段大模型面臨著嚴峻的倫理問題。(1)知識產權爭端與版權侵犯。AIGC 技術的迅猛發展掀起了眾多相關應用的熱潮,但是自 AIGC 問世以來,其是否受到版權法的保護一直是社會各界熱烈討論的問題。根據騰訊
55、研究院的報告,AIGC 引發的新型版權侵權風險已成為整個行業發展所面臨的緊迫問題。AIGC 相關的版權問題主要涉及兩個方面。首先是 AI 生成作品是否侵犯版權,其次是人工智能生成作品的版權歸屬。2023 年,一張由大模型生成的 NFT 藝術作品The First 5000 Days在一家拍賣行以超過60 萬美元的價格成交。該作品由數字藝術家 Beeple 創作,由一系列AI生成的圖像拼接而成。然而,一家名為LarvaLabs的公司聲稱Beeple在生成作品時使用了他們開源項目中的頭像,因此侵犯了他們的版權。來源:Everydays:The First 5000 Days 圖 3-7 大模型生成
56、 NFT 藝術作品(2)教育行業誠信危機。大模型及其應用也引發了教育行業關于誠信的擔憂。AIGC 技術可用于個性化教育,提高教育效率,但其在教育考評中的使用卻帶來了誠信問題。隨著技術的發展,學生使用ChatGPT 這類人工智能完成課程作業變得越來越普遍,這不僅挑戰了傳統的教育評價體系,還可能對學生的學習態度和創新能力造成負面影響。隨著生成式人工智能技術的不斷發展,準確識別 AIGC 生成內容的難度將大幅增加,這無疑會加劇教育考評的誠信危機。(3)偏見誘發公平性問題。大型模型在實際應用中可能會對不同群體產生不同的態度,從而導致公平性問題。例如,在招聘、貸款、法律和醫療等領域中,模型可能會基于種族
57、、性別、地域或其他特征做出不公平的決策,進而加劇現實世界的不平等現象。大模型誘發的公平性問題主要源于其在訓練數據、算法設計和應用過程中存在的偏見,從而導致對不同群體的不公平對待。例如,谷歌公司的人工智能模型 Gemini 被指無法正確生成白人歷史圖像,引起外界爭議。來源:Measuring Implicit Bias inExplicitly Unbiased Large Language Models 圖 3-8 大模型產生性別偏見性言論 3233大模型安全實踐(2024)3.1.2 大模型的安全防御體系 大模型安全風險涉及到內生風險、外生風險以及衍生風險,內生風險為大模型系統(包括數據、模
58、型、系統硬軟件)本身存在的風險問題;外生風險主要來自外部攻擊;衍生風險主要涉及大模型生成內容的濫用對社會產生的不良影響,例如偏見言論、版權侵犯、虛假信息等風險。本章節分別針對大模型內生、外生以及衍生風險,梳理相應的安全防御技術。一、內生安全防御技術 重點關注數據層面、模型層面和系統層面的防御技術。其中,數據層面保護訓練數據的安全及對話過程中的交互數據安全,模型安全包括提高模型對抗惡意攻擊的能力,增強模型的解釋性以及保護模型中的隱私信息。其次,系統安全,強調模型運行環境和周邊系統的安全性。討論部署環境的安全性、通信的安全性、訪問控制以及審計和監控的重要性。來源:Federated large l
59、anguage model:A position paper 圖 3-9 聯邦學習在大模型訓練與微調中的應用 (1)數據安全防御技術 大模型數據隱私保護技術。數據脫敏通過數據偽裝、數據打碼和數據截斷等技術,在不損害數據集整體統計特性的前提下減少數據的敏感性。數據匿名化通過對數據集進行變換,生成在一定范圍內無差別的新數據集,使攻擊者無法推導出個體的敏感信息,從而實現隱私保護。數據加密技術通過將原始數據轉換為無法辨識的格式,保護數字信息免受未經授權的訪問和修改,確保數據的機密性和完整性。大模型分布式訓練技術。主要有聯邦學習和區塊鏈技術。聯邦學習是為了在不侵犯數據隱私法律條款的基礎上,利用各個商業實
60、體私人領域的孤立數據進行模型訓練,解決了中心化存儲帶來的隱私和安全問題,但也面臨通信效率和模型聚合優化等挑戰。區塊鏈技術通過加密和共識機制,保障數據安全共享。在大模型訓練中,可用于安全地記錄和共享數據或模型更新,提高了訓練過程的透明度和數據的完整性及安全性。二者的結合為大模型訓練中的隱私數據共享提供了一個強大框架,在保護隱私的同時實現高效訓練。(2)模型安全防御技術 大模型越獄防御技術。面對大模型越獄攻擊,在大模型推理生成的不同關鍵階段中,采用差異化的防御策略可以顯著提升系統整體的安全性,有效遏制可能產生的越獄威脅。當前的防御方法可以分為,模型生成優化:通過在模型的訓練和部署過程中引入更加復雜
61、的加密算法和魯棒性強的深度學習技術,可以有效降低越獄攻擊的成功概率;系統提示優化:指大模型內置的提示詞,在用戶輸入提示詞后,系統提示詞和用戶輸入的提示詞進行拼接之后輸入到大模型當中;輸入輸出檢測:通過監測模型輸入和輸出的內容,系統可以及時發現并攔截潛在的越獄攻擊行為。在實際應用中,通過綜合運用這些手段,可以3435大模型安全實踐(2024)更好地保障大模型在實際應用中的安全性,為技術應用的穩健性提供可靠支持。來源:清華大學&中關村實驗室 圖 3-10 模型越獄防御技術的方法示意圖 提示語泄露防御技術。提示語主要用于描述任務的需求,通常嵌入于模型對話中,是產業界的重要知識產權,同時可能包含一些敏
62、感信息。提示語泄露的防御技術整體有:輸入檢測,即在模型接收輸入前,評估輸入是否為攻擊文本,及時發現并攔截具有攻擊性的輸入;輸入處理,即在不改變用戶輸入原意的前提下,對輸入文本進行添加或修改,降低提示語泄露的風險;輸出處理,即對模型輸出進行檢測,避免將模型泄露的提示語返回給用戶。提示語泄露防御技術是一個新興領域,需要多種技術進行綜合防御,未來還需探索更多新方法。來源:清華大學&中關村實驗室 圖 3-11 提示語泄漏防御技術的方法示意圖(3)系統防御技術 來源:清華大學&中關村實驗室 圖 3-12 系統防御技術示意圖 硬件層面防御技術。大模型在硬件層面上的系統威脅主要體現在對模型存儲介質的威脅。防
63、范技術目前主要有以下三種:漏洞修復防范技術:包括通過概率相鄰行激活和糾錯碼內存來克服漏洞,以及通過對抗訓練增強模型對漏洞的抵抗能力。然而,上述方法無法消除已部署模型中的漏洞,且在大型復雜網絡上實現成本高。被動檢測防范技術:開發一種低成本的基于權重編碼的框架,能實時檢測硬件漏洞并將影響降至最低。它利用硬件漏洞的空間局部性,對敏感權重進行快速編碼,并通過漢明距離測量來區分“惡意”和“良性”比特翻轉。主動防范技術:基于“蜜罐”防御概念,將一些“蜜罐神經元”作為精心設計的漏洞嵌入模型中,誘使攻擊者在其中注入故障,從而實現高效檢測和模型恢復。軟件層面防御技術。大模型在軟件層面上的系統威脅主要體現在對用戶
64、及模型數據的威脅。防御手段主要有以下內容:用戶數據防范技術,依賴數據庫的安全威脅防護技術,主要包括數據庫漏掃、數據庫加密、數據庫防火墻、數據脫敏、數據庫安全審計系統等。此外,3637大模型安全實踐(2024)對于數據庫漏洞,還可以采用自研架構以避免通用漏洞。模型數據防范技術,尋求對利用上述漏洞進行代碼注入威脅的防御技術。防御代碼注入漏洞的檢測分類模型首先收集組件集合的數據集(由良性 URL和惡意 URL 組成)用于訓練和測試。然后,防御模型將良性和惡意鏈接混合在一起,并使用防御框架根據特征模式來區分數據集中的良性代碼和惡意代碼??蚣軐用娣烙夹g。大模型在框架層面上的系統威脅主要體現在對深度學習
65、框架及相關底層依賴庫的威脅。具體的防御手段有:深度學習框架防范技術,對于深度學習框架威脅的防范主要通過挖掘現有深度學習框架中的漏洞并進行修復。底層依賴庫防范技術,對于底層依賴庫威脅的防范主要通過挖掘深度學習常用底層依賴庫中的功能性算法漏洞并進行修復或替換。操作系統層面防御技術。大模型在操作系統層面上的系統威脅主要體現在對操作系統管理和調度計算機的硬件資源時所產生的物理信息的威脅。在操作系統的設計和實現方式上可以引入以下多種安全機制,使得系統的物理信息更加難以被側信道攻擊者捕獲或分析,從而防范生成式人工智能在操作系統層面上的威脅,具體有:訪問控制防范技術,指通過對系統資源進行訪問控制,來保證系統
66、的安全性,包括身份認證、授權、審計等。加密防范技術,對操作系統中的數據、文件以及運行機制加密是保護生成式人工智能系統的核心防御機制,即機密性加密技術。機密性加密技術是指通過對數據進行加密,來保證數據的機密性。網絡傳輸層面防御技術。大模型在網絡傳輸層面上的系統威脅主要體現在對端設備地址、傳輸路徑、網絡服務的威脅。針對網絡傳輸層面的防御技術也往往圍繞這三個方面展開,具體為:端設備地址防范技術,大量研究從源地址安全的角度改進互聯網開放接入帶來的各類安全問題,從提升 IP 地址真實可信能力和保護隱私等方面提升安全性。傳輸路徑防范技術,確保數據傳輸鏈路從源地址到目的地址全鏈路生命周期安全是網絡安全的重要
67、組成部分,對應地有數據面及控制面的解決方案。網絡服務防范技術,網絡服務安全主要包括數據訪問和網絡應用安全,以及支撐大量互聯網應用的PKI等基礎設施安全。主要有漏洞修復防范技術、被動檢測防范技術、主動防范技術、傳輸路徑防范技術、網絡服務防范技術、應用安全防范技術等。二、外生安全防御技術 重點應對來自大模型外部的各種攻擊威脅,保護模型及數據的完整性、可用性和隱私性。主要防御技術包括:面向隱私安全攻擊的防御技術,旨在保護用戶隱私數據和模型訓練數據不被泄露或濫用。針對毒化數據的防御技術,旨在識別和過濾掉惡意注入的毒化數據,防止模型被誤導或產生偏見。面向惡意后門的防御技術,旨在檢測和清除模型中可能存在的
68、惡意后門,確保模型在各種輸入下的行為符合預期。針對提示注入攻擊的防御技術,旨在通抵御攻擊者通過精心構造的提示語來操縱模型輸出的行為,增強模型對提示注入攻擊的魯棒性。面向隱私安全攻擊的防御技術。大模型存在無意識隱私數據泄露的風險。對抗訓練和提示工程是兩種有效的防御策略。對抗訓練通過在模型訓練中引入對抗性示例,提高模型在對抗性攻擊時的魯棒性。提示工程則通過調整提示位置和標識,增強指令的魯棒性,緩解大模型遺忘基線問題導致的隱私泄露。此外,成員推理攻擊利用模型輸出來推測訓練數據,正則化、Dropout 和數據增強等技術可以防止過擬合,從而降低隱私泄露風險。引入差分隱私通過添加噪聲來限制模型對單個數據點
69、的敏感性,進一步保護隱私。在實際應用中,還可以采3839大模型安全實踐(2024)用隱私風險檢測技術,基于關鍵詞匹配、語境和語義分析,監控輸入提示和生成內容,并通過過濾或拒絕響應機制,在隱私保護和信息傳遞之間取得平衡。另外,生成內容過濾審查模型可以檢測敏感信息,并進行屏蔽、過濾或修改,持續優化隱私保護策略。針對毒化數據的防御技術。毒化數據攻擊是指惡意行為者故意將有害數據注入模型的訓練集中,從而影響模型的輸出和行為。為了對抗這類攻擊,首先應保證數據安全,采取有效的數據溯源和對齊技術,確保所有訓練數據的安全性和可靠性。發展高級的對抗算法來識別和處理包含毒化數據的輸入至關重要。這包括使用復雜的數據分
70、析技術來識別異常模式,以及開發能夠自動排除或修正這些數據的機制。特別是在處理多模態數據時,如文本、圖像和聲音,需要構建統一的安全風險防御策略,以保障數據的完整性和模型的安全運行。面向惡意后門的防御技術。攻擊者通過在訓練數據中隱藏惡意指令或模式,使模型在特定輸入下產生預設的惡意行為。通過檢查模型中的神經元激活特征,以識別那些可能被惡意操縱的神經元,可以有效地識別和消除這些后門;通過模型的微調和再訓練來清除這些后門,有助于提高模型對這類攻擊的魯棒性。持續的監控和定期的安全評估對于維護模型的長期安全至關重要。針對提示注入攻擊的防御技術。針對提示注入攻擊,通過控制模型的提示指令可以進行有效的防御,保護
71、模型免受對抗攻擊。最直觀和簡單的方法就是明確地指示模型成為負責任的模型,不要生成有害內容,這在一定程度上能夠降低指令攻擊的成功率。然而,攻擊者會在提示注入攻擊中,誘導模型繞過預設的安全機制,實現惡意攻擊。通過對抗訓練進行防御是常用的方法,通過迭代的收集這些攻擊樣本,使用指令微調等方法對模型進行迭代的優化,使模型面對不斷出現的新型惡意提示輸入時能通過拒絕等方式正確應對,提高對抗攻擊場景下的魯棒性。值得注意的是,面對指令攻擊時,過于保守的防御策略會影響模型生成內容的多樣性和趣味性,在安全性和生成質量之間的權衡需要更深入的研究。三、衍生安全防御技術 在內生、外生安全防御技術的基礎上,進一步討論如何保
72、護訓練數據的安全、提高模型對抗惡意攻擊的能力、增強模型的解釋性、保護模型中的隱私信息,以及如何確保模型運行環境和周邊系統的安全性,包括討論部署環境的安全性、通信的安全性、AIGC安全的重要性。(1)偏見和毒性內容生成風險防范技術 預訓練數據排毒。在大模型的預訓練階段,關鍵任務之一是確保訓練數據的安全性和質量。這一過程涉及兩個主要策略:數據清洗和偏見調節。為了保障模型輸出的安全性,預處理階段需移除潛在的不當數據,同時添加高質量、安全的訓練語料。針對大模型預訓練數據中的偏見問題,除了刪除有問題的數據外,數據增廣是另一種促進模型公平性的方法。通過加入多樣化的數據集,可以在預訓練階段幫助模型形成更全面
73、的視角?;趶娀瘜W習的對齊。在實現方式上,基于人類偏好的強化學習技術通過人類的偏好反饋,以強化學習方式優化語言模型,引導模型在生成時更接近人類價值觀?;?AI 反饋的強化學習技術使用 LLM代替人類標記偏好,通過自我提升的方式,利用自動生成的評論和修正來訓練 AI,避免了依賴大量人工標簽識別有害輸出。此外,基于強化學習的大模型對齊技術已逐漸成為當下大模型安全研究的主流技術。4041大模型安全實踐(2024)來源:OpenAIReinforcement Learning from Human Feedback 圖 3-13 基于人類反饋的強化學習方法示意圖 推理階段的安全風險防控。具體為,基于
74、提示的安全控制,其經過指令微調的大模型具有指令遵從的能力,相關研究證明,通過在指令中添加安全相關的規則和限制可以有效降低不當言論的生成。安全回復策略,為提升語言模型的安全性,讓模型學會在面對有害輸入時生成安全回復是一種常用的安全策略。這通常涉及到結合安全風險檢測器的使用,以識別用戶輸入以及模型輸出中的偏見或歧視內容。(2)虛假新聞防范技術 基于大模型的虛假新聞檢測。大模型可直接用于虛假新聞檢測,無需微調即可檢測自身或其他類似模型的輸出?;谖⒄{的 AIGC 文本檢測模型通過識別 AI 生成的特定痕跡,判斷新聞是否由 AI 生成,作為判斷虛假信息的輔助特征。此外,困惑度與可信度也是衡量文本是否由
75、語言模型生成的指標。來源:Defending Against Neural Fake News 圖 3-14 虛假新聞檢測模型 Grover 示意圖 基于事實核查的虛假新聞檢測。事實核查作為一種評估陳述、主張或者信息真實性和準確性的過程,它在識別和防止虛假新聞的傳播中起著至關重要的作用。其中的關鍵技術有,聲明檢測,旨在判斷某個聲明是真實或虛假的,這項任務的研究對象通常是可驗證或值得驗證的新聞,通常被視為一項分類任務。證據檢索,目標是找到支持或反駁某一聲明的證據,這些證據可以是文本、表格、知識庫內容或圖像。依賴聲明或新聞的表面特征而不考慮現實世界的信息,通常難以準確的判斷其是否是真實或虛假的,因
76、此提供有效的證據對于產生有說服力的判決理由在事實核查過程中是必不可少的。聲明核查,目的是根據檢索的證據評估聲明的真實性,以判斷其是否為虛假新聞,通常分為分別式判決預測和理由生成兩個階段。(3)版權侵犯風險防范技術 面向AI訓練數據安全的水印技術。在訓練數據中嵌入數字水印,主要目的是保護數據版權,防止數據在未經授權場景下的使用。后門攻擊是數據集版權保護中水印環節的重要技術,數據版權擁有者通過在訓練數據中嵌入水印作為隱藏的后門,當攻擊者未經授權使用這些數據訓練模型時,后門被植入模型中。通過檢查可疑模型是否包含特定的隱藏后門,數據版權擁有者可以判定數據是否被竊取使用,從而進行版權保護。4243大模型
77、安全實踐(2024)來源:Did You Train on My Dataset?Towards Public Dataset Protection with Clean-Label Backdoor Watermarking 圖 3-15 訓練數據添加水印流程圖 面向 AI 生成內容溯源的水印技術。數字水印技術在 AIGC 版權保護領域顯示出巨大的潛力,特別是結合快速微調和有效的水印提取技術,可以為版權保護提供一種更為高效和實用的解決方案。在 AIGC技術日益普及的今天,開發和應用這些先進的數字水印技術對于維護內容創作者的權益和保護知識產權至關重要。(4)電信詐騙風險防范技術 深度偽造檢測技
78、術。主要研究基于特定的偽造痕跡或數據驅動等方法,以識別視頻、圖像和語音等信息是否是深度偽造內容。具體的方法有:基于空間域信號的深偽檢測,側重于分析圖像或視頻在像素級的差異,通過觀察可見或不可見的偽影來區分真實內容和偽造內容?;陬l域的深偽檢測,從頻域角度出發,探索真實和合成圖像之間的微妙差異。不同于依賴空間域的可視特征,頻率域分析揭示了深度偽造技術在光譜層面引入的隱蔽偽影,這些偽影在視覺上不易察覺,但在頻域分析中變得明顯,為深度偽造檢測提供了新的視角?;谏镄盘柕纳顐螜z測,真實的面部圖像和視頻通常是使用攝像頭等設備拍攝,與合成的偽造內容相比更自然,因此使用生物信號有助于更清晰的辨別真偽內容。
79、生物信號,如面部表情、眼睛運動、皮膚色澤變化以及心跳節律等,都是判斷視頻真偽的重要線索。來源:人臉深度偽造主動防御技術綜述 圖 3-16 深度偽造主動防御技術流程圖 深度偽造主動防御技術。主要研究防止惡意行為者利用個人的面部圖像或視頻進行虛假制作。其核心思想是在將含有人臉的圖像或視頻上傳至公共網絡平臺之前,對其進行細微的修改,比如加入特定的擾動或水印。這些改動對日常觀察者幾乎不可察覺,不會影響正常使用。具體的方法有:基于主動干擾的防御技術,通過向源數據中注入精心設計的擾動,使其面對深度偽造時,能夠破壞深偽模型的生成效果,使得偽造失敗,或使偽造出來的圖像或視頻在視覺上與真實內容存在明顯差異?;?/p>
80、主動取證的防御方法,核心在于對偽造圖像的溯源分析或在復雜情況下的身份驗證。這種方法的優勢在于,提供了在深度偽造成功發生后,追蹤其來源和確認真偽的手段。3.2 大模型可靠性技術研究和進展 3.2.1 大模型的對抗魯棒性 大模型的輸入在遭受到自然擾動或者惡意用戶的對抗攻擊時,存在產生錯誤或潛在風險內容的風險,為此大模型的對抗魯棒性優化至4445大模型安全實踐(2024)關重要。數據增強和對抗訓練的是較通用的對抗魯棒性優化方案。數據增強方面,可以根據不同的內容模態設計針對性的數據增強策略,來提升訓練樣本的多樣性。對圖片樣本,可以采用傳統的幾何顏色增強和基于生成模型 AI 增強的方式。對音頻樣本,可以
81、采用傳統音頻增強方法,包括加噪、混響、SpecAugment(一種語音識別的數據增強方法)等。對文本樣本,通過對樣本的改寫、退問等方法,可以讓措辭形式更加豐富、提問角度更加多樣。訓練方面,針對跨模態數據構建針對性的對齊 loss 進行訓練,可以提升模型的泛化能力;采用預先設計的攻擊函數對樣本變換進行對抗訓練,可以升模型對抗魯棒性。大模型的快速發展不僅增加了應用場景的復雜度,也給攻擊者提供了更多的攻擊手段,這對大模型的對抗魯棒性建設提出了更大的挑戰,對各種攻擊手法具備快速防御的能力變得愈加重要。除了在模型訓練階段去提升模型的對抗魯棒性之外,對投入應用的大模型需要有更敏捷的防御能力,通過對用戶指令
82、的進行精細理解來檢測存在攻擊誘導意圖的指令,并進行前置干預,可以避免可能產生的安全問題。3.2.2 大模型的真實性 在大型語言模型的應用中,確保大模型生成的內容的真實性是一個亟待解決的關鍵問題。在實際應用中大模型生成的內容會存在事實性幻覺問題,嚴重影響了大模型應用的可靠性。解決大模型的幻覺問題對于提升大模型系統的信任度、安全性和廣泛應用具有重大意義。目前學界和業界致力于幻覺緩解的方案層出不窮,主要的思想有如下:1.在模型的訓練階段進行改進,即所有涉及到模型參數更新的操作,其中包括預訓練,微調等。2.在推理階段對模型進行干預。在模型的推理階段,模型根據用戶提供的輸入文本生成回復。3.優化推理階段
83、用戶輸入的提示語,其基本邏輯是模型對用戶提交的不同風格的提示語是相對敏感的,會產生不同效果的生成。4.對模型的輸出進行后處理,即在初步得到的生成文本之后進行進一步的編輯、修改。5.結合外部知識檢索模塊緩解幻覺,也被稱為檢索增強生成,即使用一個鏈接到外部知識源的信息檢索單元加強模型的生成質量。6.基于多智能體的思路進行幻覺的緩解,即引入多個大語言模型參與到生成過程中去,從而提高信息處理和決策制定的質量。上述幻覺緩解方案風格迥異,關注了模型生成過程中不同因素,并可結合使用以提高效果,這些方案展示了人工智能技術進步并為未來研究和應用提供了豐富的靈感和可能性,隨著技術的發展,可以期待更加智能、準確和可
84、靠的語言模型出現,以更好地服務人類社會的各種需求。來源:清華大學 圖 3-17 模型幻覺防御技術 3.2.3 大模型的價值對齊 大型語言模型可以根據輸入指令執行多元化任務,保障大模型生成內容和行為符合人類的價值觀和倫理道德,以避免產生有害或不當4647大模型安全實踐(2024)內容,也是大模型可信領域的重要研究方向。首先,通過清洗訓練樣本中帶有“毒性”的數據,可以避免大模型在訓練時學到不符合主流價值觀的知識。但是,人類價值觀是非常復雜的,現有的數據很難準確的對人類價值觀進行全面的刻畫。通過引入基于強化學習的對齊技術,在模型訓練期間施加符合人類價值觀的反饋,可以有效促進模型與人類價值觀的一致性。
85、基于人類偏好的強化學習技術根據人類的偏好反饋,通過強化學習方式優化語言模型,引導模型在生成的時候更接近人類價值觀。這是在大模型預訓練階段后對模型進行微調的方式之一。此階段的目標是讓模型的輸出與人類價值觀盡可能一致,提高其有用性、真實性和無害性,這是將預訓練模型與人類價值觀進行對齊的重要步驟。具體而言,該技術在強化學習階段使用大量人工標注數據訓練模型,包括指令微調、獎勵模型訓練和生成策略優化三個子階段。首先,在指令微調階段,使用精心挑選的指令數據來微調預訓練的大模型,使其能夠理解用戶的指令以應對各種查詢。獎勵模型訓練階段中,人類對模型生成的多條不同回復進行評估和排序,生成的人類偏好標簽數據用于訓
86、練獎勵模型,使其能學習并擬合人類的偏好。在生成策略優化階段,獎勵模型根據生成回復的質量計算獎勵,這個獎勵作為強化學習框架中的反饋信號,并用于更新當前策略的模型參數,從而引導模型的輸出更符合人類的期望。這一階段通過人類反饋調整模型的產出、優化模型的生成策略,以緩解有害輸出等問題,使模型與人類價值觀對齊?;?AI 反饋的強化學習技術(Reinforcement Learning from Artificial Intelligence Feedback,RLAIF)使用 LLM 代替人類標記偏好,避免了對大量人工標簽的依賴。雖然這個方法可以減少大量的成本,但是因為缺少了人類的真實反饋,最終對齊效
87、果仍然有限。通過結合人工反饋和 AI 反饋進行強化學習,可以更好地兼顧人工標記成本和模型效果。隨著大模型的規模越來越大,其能力水位也越來越強,可能在未來某個時刻,會超過人類水平,那時人類如何有能力去監督超越人類的智能體是一個面向未來的研究課題目前大部分的研究還是讓模型去擬合人類的偏好,如何讓大模型系統的目標與人類的目標一致,是需要政府、企業、高校等多個社會主體共同合作去攻克的跨學科難題。3.3 大模型可控性技術研究和進展 3.3.1 大模型的可解釋性 大模型在任務處理方面展示了十分突出的能力。然而,其內部工作機制的復雜,這種透明度的缺乏會對下游應用帶來潛在的風險。對大模型的可解釋性研究不僅可以
88、輔助指導模型的改進和優化,還能增強社會民眾對大模型應用的信任?;谶^程信息的解釋性。大模型在處理復雜任務的時候通常需要workflow(工作流)編排或者 Agent(智能體)自主規劃把任務拆解成多個單步動作進行執行。在執行的過程中會產生大量的過程信息。通過打印過程信息可以展示各個模塊間傳遞信息,幫助研發人員對模型推理過程進行解構。在進行問題修復時,可以更有效地定位到知識缺失、指令遵循、邏輯推理等可能存在的具體問題?;?CoT(思維鏈)提示的解釋性。通過 CoT 提示技術可以讓模型進行自我解釋,并提升復雜邏輯推理任務處理性能。CoT 提示技術要求模型在生成答案之前,先展示其思考過程,這不僅僅是
89、直接給出4849大模型安全實踐(2024)答案,而是包括了推理、分析和解釋的步驟。通過促使模型更深入地理解問題,可以讓模型的最終生成的內容更全面、更有邏輯性以及具備解釋性?;谀P蛢壬臋C制可解釋性。一些新的大模型的可解釋研究嘗試去解釋大模型運作過程中的內在認知。雖然大模型在一些場景中生成的內容是沒有風險的,但這有可能是模型被訓練的不去表現風險,模型的內部可能仍然保留了一些具有風險的內在認知。通過觀測大模型內部和外部的權重變化,可以推斷模型是否存在虛構、欺騙等模型內生認知的潛在風險。另一方面,知識編輯一的技術,通過分析風險樣本,定位模型的風險區域。對其參數進行精確的修改后,可以對風險問題進行一
90、定程度的修復。盡管大語言模型的解釋性方法層出不窮,但是隨著模型的參數規模不斷增長、基準數據集的缺乏、商業化因素導致模型閉源性問題,給大模型應用的解釋性研究帶來了更大的挑戰。未來如何實現大模型由內到外的全面可解釋是大模型可信領域需要重點攻克的難題。同時,企業和機構在追求大模型性能表現的提升過程中,也需要關注模型解釋性方面的研究,給用戶和監管機構同步呈現模型決策的解釋性依據,保障大模型應用的可控性。3.3.2 大模型的可標識和可追溯 AIGC(生成式人工智能)目前已經開始逐漸替代傳統的 UGC(用戶生成內容)和 PGC(專業生成內容),成為內容供給的來源之一。這也導致大模型被惡意濫用的風險也在不斷
91、增加。對提供生成式服務的大模型應用平臺,需要具備對生產內容的追溯能力,來應對大模型能力被惡意使用后的可追責。對常規的內容類平臺,也需要對 AIGC內容進行主動標注和監控,對潛在的 AIGC 風險進行及時感知。數字水印追溯。數字水印通過將指定的信息嵌入模型生成的內容中,來對模型生成內容的生產模型和生產者進行溯源。一方面可以保護生產者的版權信息,另一方面當生成的內容出現安全問題時,可以用于追溯來源信息。數字水印技術主要需要解決的 2 個技術難點是水印的不可見性和魯棒性。對于水印的不可見性,需要做到用戶無感,將水印嵌入到數據中時不影響用戶對于數據的使用,原數據與嵌入水印數據差別盡可能小,在視覺和各種
92、場景使用上無法區分。對于水印的魯棒性,在保存讀取或傳播過程中信息可能存在丟失,嵌入和提取整條鏈路需要有校驗和糾錯的能力,避免錯誤解析水印信息,此外帶有水印的信息在傳播過程中會有不同程度的變換,例如,對圖片的模糊、壓縮、裁剪、旋轉、錄屏等。水印算法也需要具備可能存在的各種樣本干擾,使得嵌入后的信息在多種變換后仍能保持穩定性,準確的提取水印信息。來源:螞蟻集團 圖 3-18 數字水印的應用流程 AIGC 檢測技術。AIGC 檢測是用于標識內容是否由 AIGC 技術生成或者被 AIGC 技術篡改。在目前 AIGC 的內容持續增長的環境下,AIGC 標識可以有效地幫助審核人員判別 AIGC 濫用帶來的
93、潛在風險,包括版權問題,學術污染等;在構建 AIGC 檢測算法時主要面臨 3 個5051大模型安全實踐(2024)關鍵的挑戰:面向生成方式的泛化性、面向傳播和攻擊手法的魯棒性、面向審理研判的可解釋性。來源:螞蟻集團 圖 3-19 圖片 AIGC 模型類型(1)面向生成方式的泛化性,AIGC 模型從算法架構,模型權重和生成方式等各個維度可以有大量的組合形式,泛化性就是指 AIGC檢測模型的各種通過建立全面的 AIGC 內容生成系統可以保障多樣化的樣本供給,保障模型訓練和評估的泛化性。(2)面向傳播和攻擊手法的魯棒性,AIGC 的內容在傳播或者攻擊時,其分布會被不同程度干擾,魯棒性是指 AIGC
94、檢測算法在被傳播或者攻擊后,仍然要保持一定的檢測性能。因此,在構建 AIGC 檢測算法時,需要基于多種攻擊手法,通過對抗訓練的方式來提升算法的魯棒性。因此,在構建 AIGC 檢測算法時,需要基于多種攻擊手法,通過對抗訓練的方式來提升算法的魯棒性。表 3-2 AIGC 圖片的攻擊類型 攻擊等級 攻擊類型 描述 L1 自然干擾 主要是指原圖在直接傳播過程中受到的簡單干擾,包括JPEG 壓縮、視頻壓縮、Gamma 校正、對比度、亮度等。L2 主動干擾 對原圖進行編輯后帶來的干擾,例如截圖、編輯涂抹、圖像拼接、噪聲干擾、旋轉、截屏、尺度縮放、翻轉、濾波、局部篡改、像素抖動。L3 混合干擾 主要是指通過
95、社交媒體平臺上傳,經歷傳播后帶來的混合類型的干擾,通常是 L1 和 L2 中的多種干擾形式的組合。L4 物理干擾 通過拍照、錄屏、打印等物理媒介的形式進行傳播后帶來的干擾。來源:螞蟻集團(3)面向審理研判的可解釋性,對被標識為 AIGC 生成的內容后,需要提供解釋性的信息,來輔助審核人員做出決策判斷。例如,在一些證件的審核場景可以標識出被篡改的區域或者字段,來讓審核人員進行進一步的核實;在論文審核的場景可以標識出疑似 AIGC 的文本段落和 AIGC 文本占比,來治理學術界里濫用 AI 的現象。3.3.3 大模型的指令遵循 大語言模型可能會輸出偏離用戶的指令結果,這會影響大模型在執行新指令和擴
96、展任務時的效果和可控性。業界有多個公開的數據集,可以用于評估模型的指令遵循的能力,包括AlignBenc,AlpacaEval等。大模型指令遵循能力主要可以從幾個方面進行優化。監督微調階段?;诟哔|量的指令數據集對大模型進行監督微調是最常見的優化方法之一。而現有的指令數據集通常受限于質量、多樣性和創造性,因此,如何高效的構建指令數據是目前重要的研究方向之一?;谌斯嬙旌秃Y選可以獲得小規模的高質量數據集,通過改寫技術,可以進一步對指令進行同義詞替換、風格遷移和知識遷移等操作,提升泛化性,但是其多樣性和創造性仍然非常受限。Self-instruct 框架基于大語言模型根據少量的種子數據來生成大規
97、模的指令數據,再通過過濾和聚合來構建高質量的指令數據集,整個過程減少對人工標注的依賴,降低了數據獲取成本。5253大模型安全實踐(2024)強化學習階段。將人類對指令執行的反饋納入訓練過程可以進一步提升模型對指令執行的效果。通過引入強化學習算法(比如 PPO、DPO 算法等)來訓練模型,使其在遵循指令方面逐步優化,以獲得更好的反饋和表現。此外,還可以通過對抗訓練來提高模型對異?;蛘`導性指令的抵抗力。指令優化方面。指令編寫的方式對最終的執行結果也很重要。一個模糊的指令可能會導致模型產生無關或低質量的輸出。對指令的優化有幾個方向,例如明確任務的輸入和輸出格式、提供任務示例、把復雜任務分解為多個子任
98、務等。另一方面。在多模態的任務中,把一些概念性的指令,以描述性的形式進行改寫,也可以有效地提升任務執行的效果。3.4 大模型安全評測技術研究和進展 為確保大模型能在實際應用中發揮最大的效果,防止潛在的風險和濫用情況的發生,一方面大模型在上線應用前需要進行完備的安全性評估,另一方面對投入應用的大模型需要進行動態監測。通過測評可以及時的發現潛在的安全性、可靠性和可控性問題,輔助研發人員提升系統的魯棒性和安全性。大模型的評測主要包括通用能力和安全性兩個方向。通用能力是指大模型在各類任務中的表現,包括理解能力,任務處理,邏輯推理等。安全性則覆蓋了內容安全,數據安全,價值觀等方面。目前,信通院、智源研究
99、院等機構都發布了針對大模型各能力維度的評測體系,從技術、應用、安全等方面對大模型應用進行全面的評測。在大模型的安全評測領域,重點關注的技術挑戰有以下幾個方面。來源:螞蟻集團 圖 3-20 大模型安全性評測鏈路 考綱試題的全面性?;诖竽P蛻眯问侥壳罢诓粩嘤楷F,從早期的問答式的文本的交互,到圖文音視的綜合型的理解交互,再到目前正在持續增長的 Agent 類型的應用模式。因此,對模型的安全評估首先需要考慮對多模態和各種應用場景的覆蓋。此外,評測試題也需要全面覆蓋大模型應用中可能產生的安全問題的類型。例如,在安全性問題方面,需要關注評估模型在正常使用或被誘導時,可能會出現的內容安全、隱私安全和道
100、德倫理等方面的風險;在可靠性方面,需要評估模型在不同時間點或不同輸入條件下的輸出一致性,例如相同輸入在不同時間點生成的結果是否一致。在可控性方面,需要評估模型在和用戶交互時是否能夠保持輸出內容和用戶意圖一致。對抗樣本的多樣性。要評估大模型應對復雜的語言環境和不同程度的攻擊手法時的對抗魯棒性,可以在已有的評測試題的基礎上,通過生成算法構建更加多樣化的測試樣本。針對日常使用場景,通過同義詞替換和改寫技術,可以生成出不同措辭風格的樣本,提升測試樣本的泛化性。針對惡意攻擊的場景,一方面,可以通過把一些敏感詞通過文字同音詞替換或者把輸入圖像進行風格遷移的操作來構造出突變的樣本,擾亂模型的對風險意圖的感知
101、;另一方面,可以利用大模型的運行機制,通過生成具有誘導性質的 prompt(提示詞)或者5455大模型安全實踐(2024)多輪交互引導的形式來誘導模型繞過防御策略輸出帶有風險的內容。評估研判的自動化。大模型評測場景中,面對不同的模型基座、模型版本、模型的 prompt 配置、以及 workflow 的設計,大模型輸出的內容都是不同的,而最終生成內容的安全性是未知的。傳統的做法是通過人工對模型返回的內容進行研判標注,根據研判標簽生成評估報告,基于人的研判通常會耗費大量的人力和時間成本,同時也會因為人和人之間的認知差異產生研判標準上的分歧?;趥鹘y模型進行風險識別可以一定程度上對高置信的判斷進行自
102、動化處置,但是受限于能處理的內容長度,高精度的要求以及長尾疑難問題的理解等問題,無法完結替代人工進行自動化的研判。利用大模型服務進行自動化研判(LLM-as-a-judger)是一個新的研究方向,主要有兩種形式。一種是基于商業化的大模型服務,構建研判策略,但是依賴三方 API 會存在成本高,數據隱私,可控性差,性能難調控等問題。另一種則是構建專用研判大模型,例如 PandaLM、JudgeLLM 等??傮w來看,大模型的評測在行業中已經有很多進展,但是相對于技術的發展,評測的研究是滯后的。目前大部分的評測主要是針對內容類的場景,隨著大模型的技術快速發展和廣泛應用,對 Agent 這種復雜大模型應
103、用架構和未來通用 AGI(通用人工智能)的評估是當下面臨的挑戰。這需要政府,高校等機構,聯合有相關經驗的企業共同合作,制定標準建立面向未來的大模型可信評測框架,并推動落地,確保大模型技術的安全可靠,為社會帶來積極影響。四、大模型安全行業實踐與案例分析 4.1 金融領域大模型安全實踐 一、案例介紹 支小寶 2.0 是一款基于大模型技術的智能金融助理,是基于百億級金融知識數據、千人千面的資產配置能力、可控可信的圍欄安全技術以及多智能體協同模式來構建的智能金融助理,重塑了理財問答的體驗,從原本機械化的回答,到逐步逼近人類專家的溝通分析水平。它致力于為用戶提供透明可信賴的金融服務和高度智能化的專業建議
104、,為數億投資者,隨時隨地提供免費的服務。支小寶服務的用戶群體龐大,其在大模型應用過程中的安全問題尤為重要。圖 4-1 金融領域大模型安全實踐案例 二、大模型安全實踐案例描述 支小寶 2.0 作為一款先進的人工智能產品,自始至終將安全性和合規性作為核心價值。在信息充斥的數字時代,保護知識產權、商業秘密、個人隱私以及遵守法律法規至關重要。因此,支小寶采取了一系列全面而深入的安全措施,確保支小寶的技術和服務不僅高效、創新,而且安全、可靠。5657大模型安全實踐(2024)(一)大模型安全在各環節的落實措施 1、訓練數據安全 知識產權和商業秘密評估:使用境內外關鍵詞和分類模型對中文、英文及代碼語料進行
105、預清洗,識別并處理隱私風險。境外語料清洗更深入,持續迭代并新增英文隱私識別模型。截至 2024 年 4 月,清洗風險數據達千萬條。民族、信仰、性別評估:對境內外語料進行預清洗,采用兩千余關鍵詞和通用分類模型,覆蓋偏見歧視風險。境外語料清洗更嚴格,新增數千英文寬泛詞和 2 個偏見識別模型。截至 2024 年 4 月,清洗風險數據百萬條。2、算法模型安全 支小寶通過復合方法確保模型安全:1.預訓練語料清掃,清除200 億數據中的 3000 萬毒性內容;2.安全指令和知識微調,涵蓋 60萬專業領域法規等知識;3.安全價值觀對齊,基于無害、有用、真實原則,強化學習打標超50萬數據;4.通過多階段防控,
106、包括pretrain、sft、rlhf,保障模型安全性。3、系統平臺安全 為確保系統平臺安全,采取了四項措施:1.依據國家網絡安全、數據安全和個人信息保護相關法律法規,結合公司實際,制定網絡安全管理、審計、密碼管理及數據全生命周期安全管理制度;2.加強網絡安全防護,定期進行安全審計和漏洞掃描,并持續加固;3.實施嚴格的數據訪問控制和全生命周期保護;4.細化安全應急流程,通過技術與制度保障及時發現和處理安全問題。4、業務應用安全 自建大量多維度的評估數據集,共同用于衡量模型生成過程的透明性、模型生成結果的準確性以及模型全鏈路系統的可靠性。在零樣本和少樣本設置下,結合測試數據中的標準答案,從準確率
107、、合理率、風險率等多個角度,以日頻率進行自動化評估和人工評估,進而得到相應的評估指標,確保業務應用的安全性。(二)大模型安全技術實現 針對支小寶業務需求實施了“安全圍欄”策略,開發了包括底線和意圖識別、情緒分析、主題分類在內的內容理解技術,實現風險內容的可控生成。在產品應用端,重點加強了端側安全措施,如實施安全權限驗證,以增強整體安全性。同時,評估框架覆蓋內容安全、數據保護、科技倫理和業務合規四大關鍵領域,綜合考量意識形態、隱私、知識產權、商業秘密、信仰、性別等多方面風險。針對金融業務,通過內嵌一致性檢驗和金融價值對齊,確保數據的準確性和金融邏輯的嚴格性。三、大模型安全措施成效 通過持續的技術
108、創新和嚴格的安全管理,支小寶在評估測試中展現了卓越的表現,語料、模型、安全等各項安全指標均達到了行業領先水平。對于用戶來說,支小寶致力于打造智商、情商、財商三商在線的理財助手,讓普通投資者也可以獲得少數人才擁有的人工理財經理體驗。它能以趨近真人行業專家的服務水平,幫助金融機構為用戶提供高質量的行情分析、持倉診斷、資產配置和投教陪伴等專業服務,結合用戶持倉狀況引導合理配置,幫助用戶避免追漲殺跌的非理性行為,從而培養良好的理財觀念和理財習慣通過對安全力的持續構建,可以為用戶提供一個更加安全、透明的 AI 環境,同時為社會的可持續發展做出積極貢獻。支小寶不僅是一款產品,更是對安全承諾的體現,對社會責
109、任的堅守。5859大模型安全實踐(2024)4.2 醫療領域大模型安全實踐 一、案例介紹 醫療 AI 助手是基于“百靈”大語言模型及新一代行業大模型在臨床問診、病史采集及文本撰寫、臨床輔助決策、個性化精準醫療、醫患溝通及患者診療支持、學術研究、醫學教育等臨床領域的應用場景切入,研制符合上海市第一人民醫院醫療應用特色的大模型技術平臺。全面覆蓋患者就醫診前、診中、診后三大環節。每個環節均有核心功能,患者無需在紛繁的產品界面尋找特定功能,只需與醫療 AI助理問答即可解決就醫全流程咨詢和陪伴問題。圖 4-2 醫療領域大模型安全實踐案例 從產品技術角度來看,構建數字導診“陪伴式”的智能醫療平臺,旨在通過
110、與患者的多模態交互,根據患者的自然語言描述,準確了解患者的病情和就醫訴求,并通過自然語言及語音的方式與患者互動,完成患者語義的理解及推理,告知患者目標科室掛號,提示相關的流程、院內就醫路線等等,從而實現協助智慧醫院醫務導診服務人員面向就診患者,提供就醫流程指導、就醫預分診、就醫掛號、院內就診路線提示等導診輔助服務。二、大模型安全實踐案例描述 醫療 AI 助手從數據處理、算法模擬、服務管理等三個層面,在合規性、安全性、可控性、可靠性基礎上開展醫療“AI 大模型場景應用”穩定運營,促進新一代人工智能技術賦能智慧醫療產業,助力提高智慧醫療服務水平,提高人民群眾對智慧醫療服務的獲得感和幸福感。圖 4-
111、3 醫療領域大模型安全技術實現(一)大模型安全在各個環節的落實措施 1、訓練數據安全 訓練數據都經過了脫敏和隱私處理,具體邏輯:基于圖像 OCR 技術和安全脫敏工具對圖片圖像或者文字等醫療文檔進行脫敏處理。圖片敏感信息的識別和馬賽克/遮蓋;醫院紅章、二維碼等圖片敏感信息進行遮蓋文檔敏感信息的識別和打碼。2、算法模型安全 自研模型部署,推理框架,支持算法模型的 ToB 私有化部署,保6061大模型安全實踐(2024)證算法模型的安全。提供加密模型訓練解決方案,解決領域大模型提供方、領域數據提供方、基礎大模型提供方之間的隱私計算信任問題,使得通過多方高質量數據和基礎大模型構建領域大模型成為可能。3
112、、系統平臺安全 在大模型項目里,系統平臺安全是一個至關重要的方面,主要圍繞六項措施來展開:1.訪問控制和身份驗證:確保只有授權用戶和系統能夠訪問大模型 API。2.數據加密:使用 SSL/TLS 等加密協議來確保 API 在傳輸過程中的數據不會被未授權訪問。建立 API 防火墻來監控和控制進出 API 的數據流。達到防止惡意流量和攻擊的效果。在API 平臺會對傳入的數據進行嚴格的驗證,確保數據格式、類型和范圍符合預期,防止惡意輸入導致的安全問題。3.建立日志和監控體系:通過系統平臺會記錄 API 的使用情況來實時監控和日志分析,做到及時發現和響應安全威脅。4.安全審計:定期進行安全審計,評估
113、API和整個系統平臺的安全性,確保沒有安全漏洞。5.隱私保護:特別是在處理個人數據和敏感信息時,API 需要遵守數據保護法規,如 GDPR等。這包括數據脫敏、匿名化等技術,這些措施共同構成了大模型項目中的系統平臺安全框架,旨在保護 API 和相關的數據資產免受未授權訪問和潛在的安全威脅。4、業務應用安全 自建醫療垂類知識庫,逐步開放應用到醫療垂類大模型進行知識庫代答,基于醫療垂類內容的特殊性首創安全前置護欄解決方案,結合千萬級自建知識庫,保障內容可控生成,從領域、話題、意圖多個視角量化內容防控,保證大模型生成結果準確性符合醫療垂類的安全性和準確性,進而確保業務應用的安全性。(二)大模型安全技術
114、實現 在解決垂類醫療防御難點的過程中,醫療 AI 助手融合實際的業務場景需求,來聚焦防御難點構建大模型防御的解決方案,創建安全前置護欄的解決方案。在護欄中深度結合垂類醫療的知識庫,來實現風險內容的可控生成。在端側安全上醫療 AI 助手通過對數據加密和訪問機制的控制建立端側安全業務防線,來保障醫療數據和個人隱私在傳輸和存儲的過程的安全性,同時還采取精細化的權限管理和前置護欄解決方案的措施來保障醫療數據的合法性和合格性。以此來構建端側安全的業務防線。醫療 AI 助手遵循嚴格的隱私協議,對醫療數據進行脫敏和匿名處理,記錄訪問日志以追溯數據使用情況,并建立安全漏洞管理和應急響應機制。這些綜合措施共同為
115、醫療行業的數字化轉型構筑了堅實的安全防線,確保醫療數據的安全性和隱私性得到最大程度的保障。三、大模型安全措施成效 醫療是一門嚴肅的學科,在產業應用醫療大模型項目中,安全技術具有至關重要的地位。這些模型通常處理大量的個人健康信息,包括敏感的疾病記錄、治療歷史和生物識別數據。因此,確保這些信息的安全和隱私是項目成功的關鍵因素。安全技術為上海市第一人民醫院的大模型項目帶來的價值是多方面的,包括保護患者數據隱私、雙向內容風險防控、管理風險和合規性以及建立公眾信任。4.3 政務領域大模型安全實踐 一、案例介紹“贛服通”是依托江西省一體化在線政務服務平臺打造的移動服務平臺,是推進“互聯網+政務服務”的一項
116、重要舉措?!摆M服通”以智能客服和數字人為技術應用場景來打造的政務 AI 助理,是具備高6263大模型安全實踐(2024)度數據安全能力的行業大模型產品。通過千萬政務語料訓練來實現精準意圖識別,智能追問反問和高頻事項即問即辦等功能。同時針對政務行業大模型應用中生成不可控、安全覆蓋廣、內容對抗強、時效要求高的挑戰。構建安全護欄和安全防御兩大核心能力,覆蓋數百項大模型內容生成風險。圖 4-4 政務領域大模型安全防御技術實現 二、大模型安全實踐案例描述(一)大模型安全在各環節的落實措施 1、訓練數據安全 在訓練數據安全方面展現了高度的重視和專業性。由于處理的數據涉及公民信息、財務安全等敏感內容,政務大
117、模型采用了高強度的數據加密技術,確保數據在存儲和傳輸過程中的安全性。同時,使用境內外關鍵詞和分類模型對中文、英文及代碼語料進行預清洗,識別并處理隱私風險。此外,政務大模型還實施了定期數據備份策略,以防數據丟失或被篡改。在模型訓練過程中,通過魯棒性測試和安全多方計算技術,政務大模型能夠應對各種潛在攻擊,確保模型的穩定性和準確性。最后,安全審計和監控措施的實施,保證了數據的安全合規使用。綜上所述,政務大模型在垂類政務行業中采取了全方位的安全措施,以確保訓練數據的安全性和可靠性。2、算法模型安全 政務大模型在算法模型安全方面的優化措施主要包括:1 安全指令和知識微調,涵蓋 30 萬政務領域法規等知識
118、 2.精細權限管理:實施嚴格的權限控制,確保只有授權人員能夠訪問和使用模型。3.模型加密與簽名:部署前對模型進行加密,確保數據安全性,并使用簽名驗證模型完整性。4.入侵檢測與防御:實時監測潛在攻擊,并快速響應,保護模型免受威脅。這些措施共同提升了政務大模型在算法模型安全方面的防護能力。3、系統平臺安全 政務大模型在系統平臺安全的措施可以歸納如下四類:一是依據國家網絡安全、數據安全和個人信息保護相關法律法規,結合公司實際,制定網絡安全管理、審計、密碼管理及數據全生命周期安全管理制度;二是嚴格的訪問控制:通過引入訪問控制機制,對各級用戶進行權限管理,確保用戶只能訪問其合法權限范圍內的數據和功能。三
119、是實時行為分析:運用機器學習和數據挖掘技術,對用戶行為進行實時分析,識別異常行為。四是細化安全應急流程,通過技術與制度保障及時發現和處理安全問題。這些措施共同構成了大模型項目中的系統平臺安全框架,保護重要系統平臺的穩定運行。4、業務應用安全 有別于基于確定性數據的傳統應用,AI 應用的模式給安全帶來全新的挑戰,政務知識庫有數據質量的風險,大模型生成的內容(AIGC)存在不可靠的風險,大模型要滿足監管合規的要求。6465大模型安全實踐(2024)面對這些挑戰,小贛事在用戶問答中融合了安全防護能力,針對AI 應用在智能審核,線上攻防等方向進行全面加固。智能審核方面,支持文本、圖片、視頻等多媒介智能
120、識別,通過積累多年的法規梳理解讀、監管指導建立豐富的規則庫,基于海量的多維數據,支持對審核內容做準確的實體識別。線上攻防基于面向大模型原生的防御體系,可以應對單次 50 萬量級的飽和攻擊,通過百萬級高質量題庫識別各類攻擊手段,降低拒答率。(二)大模型安全技術實現“贛服通”政務 AI 助手在端側實施的安全措施取得了顯著成果。首先,數據加密技術的廣泛應用確保了訓練數據在存儲和傳輸過程中的安全性,有效降低了數據泄露風險。其次,魯棒性測試與模型優化提升了算法模型的穩定性和準確性,使其在面對潛在攻擊時更具抵抗力。同時,系統平臺層面實施的身份認證、訪問控制以及實時監控與異常檢測機制,為政務大模型提供了堅實
121、的防護屏障,確保只有授權用戶才能訪問系統,并實時監測潛在威脅。在業務應用層面,通過數據脫敏、保護及業務邏輯的安全驗證,保障了業務數據的準確性和業務邏輯的合規性。這些安全措施的實施,不僅提升了政務大模型自身的安全性,也為政府機構的日常工作提供了可靠保障,促進了政務服務的安全與高效運行。三、大模型安全措施成效“贛服通”會同網信、公安等部門建立了安全管理機制,運用國產密碼加密技術、區塊鏈技術等強化保障安全,并加強政務數據運行監控,全面提升網絡安全防護水平。深度融合了安全護欄和安全防御能力,在用戶提問理解、提問風險決策、回答風險決策構建了全面的防御體系。助力江西省政府打造集“咨詢、搜索、預約、提醒、評
122、價”于一體的 AI 數字人智能客服“小贛事”,為辦事用戶提供一個更加便捷、安全的使用環境。4.4 人力資源領域大模型安全實踐 一、案例介紹 AIGC 靈活用工直招平臺創新性涵蓋了智能化招聘、精準人才匹配、個性化推薦與培訓、高效數據處理與分析以及風險防控與合規性等方面,平臺核心功能包括:智能化招聘流程:通過大模型進行簡歷和面試篩選,為企業提供精準的候選人亮點與疑點分析。高效數據處理與分析:處理和分析大量的人力資源數據,形成人力解決方案。風險防控與合規性:人才招聘、培訓和管理合規風險智能監測和預警。圖 4-5 人力資源領域大模型安全實踐案例 二、大模型安全實踐案例描述(一)大模型安全在各環節的落實
123、措施 1、訓練數據安全 數據清洗和預處理:AIGC 靈活用工直招平臺對收集到的和人力6667大模型安全實踐(2024)資源相關的數據使用特定的技術,如去除 HTML 標簽、噪聲、重復數據,以及過濾掉包含敏感信息或不適宜的內容的數據,來清洗和預處理數據。隱私保護:由于人力資源行業涉及大量隱私,因此在訓練數據過程中,需要對敏感數據進行脫敏處理,例如替換或刪除個人信息,或者使用匿名化技術,如哈希函數或差分隱私技術來保護個人信息。數據均衡處理:為了降低數據收集的局限性對模型帶來的影響,如數據偏向于特定群體或地區,無法反映整個人力資源市場的狀況,通過綜合使用數據平衡策略、數據采樣技術、數據增強技術、序列
124、標注和語義建模等技術手段,確保各類數據比例合理,提高人力資源模型對不同數據的適應性。數據質量評估和審核:收集到的數據會存在一些錯誤、惡意數據,如薪資水平異常高/低,通過可視化工具或數據統計與分析,可以識別數據中的異常值,提高數據質量。2、模型訓練安全 數據加密。結合人力資源不同應用場景下的不同數據規模,不同業務需求,選擇性綜合使用同態加密、對稱加密、差分隱私、哈希算法等技術,對模型訓練中的數據加密,確保數據在傳輸過程中不被竊取,在存儲時也不被非法訪問。數據存儲。由于人力資源數據涉及隱私,為了防止數據泄露、丟失,可以通過阿里云存儲服務存儲數據,使數據得到更好的保護。建立防火墻和入侵檢測系統。通過
125、部署入侵檢測系統(IDS)、入侵防御系統(IPS),使用雙因素認證等技術,或使用虛擬專用網絡(VPN)或專用網絡(如內部網絡)等,來隔離敏感資源,監控異常行為,防止個人信息泄露,訓練數據丟失。3、模型部署與使用安全 模型加密。在模型部署到生產環境前,對模型進行加密處理,確保模型在傳輸和存儲過程中的安全性;通過模型水印技術,對模型進行唯一標識,防止模型被非法復制或篡改。訪問控制。設立嚴格的訪問權限管理機制,確保只有經過授權的人員才能訪問和使用模型;監控并記錄模型的訪問和使用情況,及時發現并處理異常行為。4、模型維護與更新安全 模型驗證。在對模型進行更新或維護前,進行充分的驗證和測試,確保更新或維
126、護后的模型性能和安全性不受影響,并定期對模型進行性能評估和安全評估,確保模型的持續穩定和安全。審核機制。建立模型更新和維護的審核機制,確保所有更新和維護操作都經過嚴格的審查和批準,并對模型的更新和維護過程進行記錄和監控,以便在出現問題時進行溯源和追責。(二)大模型安全技術實現 1、云 身份驗證。通過用戶名和密碼、生物識別(如指紋識別、面部識別)、數字證書、多因素身份驗證(MFA)等手段驗證用戶身份,確保只有合法的用戶才能訪問人力資源云端系統。訪問控制。通過配置 ACL 或 RBAC,將訪問權限與對象或角色關聯,精細地控制用戶對人力資源云端數據中心資源的訪問,防止未經授權的人員訪問和篡改數據。安
127、全認證。確保 HRSaaS 平臺能通過國際權威安全認證,防止個人信息泄露,云端傳輸數據丟失,未經授權訪問和其他信息安全威脅。數據加密傳輸。通過 SSL/TLS 協議、建立 VPN、運用對稱加密技6869大模型安全實踐(2024)術、哈希算法等技術,對傳送到云端的數據進行加密,確保數據的機密性與完整性。2、邊 數據加密。通過數據脫敏、對稱加密技術、哈希算法、同態加密等技術手段對個人信息、薪資等在邊緣側傳輸和存儲的數據敏感信息進行加密,確保數據機密性。安全更新和補丁管理。由于邊端設備會直接處理員工信息、考勤記錄、薪資變動等數據,因而要及時更新。通過建立自動化更新機制,可以定期檢查邊端設備的操作系統
128、、應用程序和安全補??;通過建立中央化補丁管理系統,可以集中管理邊端設備的補丁需求,確保它們得到及時一致的更新。安全審計和日志記錄。啟用邊緣設備的安全審計和日志記錄功能,記錄所有重要事件和操作,通過定期檢查和分析日志,及時發現潛在的安全問題和威脅。3、端 用戶培訓與教育。明確培訓目標,強調終端安全的重要性;制定具體的培訓內容,提高員工對安全危險的識別,教授正確的安全操作流程;定期復習、測試,確保員工掌握和應用安全知識。設備選型與認證。選擇經過安全認證和測試的終端設備,如具有安全啟動、硬件加密和固件保護的設備。備份與恢復。通過數據庫備份、云備份等技術定期備份終端設備上的重要數據,并確保備份數據的安
129、全性。三、大模型安全措施成效 AIGC 智能直招平臺通過實施一系列大模型安全措施,有效提升了平臺的隱私保護能力、算法透明性和產品可控性,降低了機器幻覺帶來的誤導,有效提升平臺的安全性、認可度和信賴度。4.5 智能助理領域大模型安全實踐 一、案例介紹 個人助手大模型產品依托于“SenseNova”大模型的通用能力,主要功能包括:語音助手:問答、閑聊、寫作、商品助手;輸入助手:根據對話上下文內容生成回復、回復風格化;文檔助手:文檔潤色、文案生成、文檔問答等多方面功能。產品以大語言模型為基礎捕捉用戶需求,支持長上下文溝通,實現強個性化特色的需求捕捉,最終協助用戶實現調用設備的對應功能的目的。圖 4-
130、6 智能助理領域大模型安全實踐案例 二、大模型安全實踐案例描述(一)大模型安全在各環節的落實措施 1、訓練數據安全 底層數據方面,對于不同來源的原始語料數據,采用不同過濾規則,結合人工抽檢,確保語料來源合法可靠。建立敏感詞安全規則+語義分類器的組合機制對訓練數據進行過濾,最終對全部歷史語料進7071大模型安全實踐(2024)行二次清洗處理,確保數據安全。2、算法模型安全 通過運用知識庫掛載技術確保大語言模型輸出內容安全、準確、專業。在典型的基于知識庫的問答(QA)場景中,用戶需要向大型語言模型(LLM)查詢特定知識庫,例如 PDF、Word 文件等的相關內容,然后文本長度對本地知識庫超長文本的
131、內容理解形成了障礙。通過 Embedding 模型對本地知識庫進行一次提煉,提高整個問答系統的效率。Embedding 模型是一個精準的篩選器,幫助提取出知識庫中對當前用戶問題來說最重要的內容,以滿足用戶不同的提問需求,同時有效地減輕了LLM處理長文本的負擔,有效緩解大模型幻覺問題,并面向不同用戶提供一致性答案。3、系統平臺安全 構建內容安全運營平臺,包括應急響應平臺、策略運營平臺、人審標注平臺、風險數據平臺等。設計內容安全審核鏈路,包括機器審核、人工審核、投訴舉報、用戶治理等核心功能,實際敏感詞條攔截可達百萬級。同時具備健全的安全響應機制,第一時間快速處置內外部風險,結合分級報告、處理突發安
132、全事件。同步籌備涉政專班人員,方便與監管部門對接。4、業務應用安全 具備健全的安全響應機制,第一時間快速處置內外部風險,結合分級報告、處理突發安全事件,后續籌備涉政專班人員,方便與監管部門對接。(二)大模型安全技術實現 建立 AI 場景下數據安全整套解決方案,保障 AI 數據隱私合規?;诳蛻粜枨蠛头掌髑闆r,對模型進行公有云或私有云部署,適配相應環境,并對穩定性、安全性進行維護。在云端應用 Embedding 模型相關技術時,面向國家監管要求,提供安全回復審核能力模型和人工黑名單庫,保證大模型回復安全的通過接口調用模型能力。同步推出端云協同的綜合方案,會在建立端側本地隱私知識庫的基礎上進行端
133、側推理,為用戶隱私數據保駕護航。具體表現在通過文檔上傳的方式構建用戶專屬知識庫,實現即問即答響應快的特性;以及本地文檔手機離線也可進行總結摘要與問答,無需擔心機密信息聯網泄露。另外在本地安全模塊的基礎上實現意圖分流,所有涉及隱私的數據及 query 等,將全部基于端側模型處理,實現終端的隱私保護。三、大模型安全措施成效 個人助手大模型產品推出以 AI 安全為核心的大模型安全保障體系,在底層數據、模型技術、配套機制、業務應用等層面實行完善的解決方案。進行全面完整的知識劃分,有效緩解大模型幻覺問題;建立安全測試集驗證流程有效識別各個風險維度,提升算法模型的可解釋性和可控性。大模型安全策略遵循了人類
134、價值觀,契合用戶意圖、形成可信可靠的大模型應用產品。五、大模型安全未來展望與治理建議 5.1 未來展望 大模型發展空間巨大,平衡機遇與安全風險挑戰成為大模型發展的關鍵保障。大模型的優異能力表現給產業帶來太多驚喜,在強大算力、海量數據支撐下,大模型將會在越來越多的領域超越人類,通用人工智能成為可能。與此同時,也將面臨著大模型浪潮給社會7273大模型安全實踐(2024)安全帶來的巨大沖擊,如研發過程中引發信息泄露、價值對齊、機器幻覺等問題,以及落地過程中面臨的數據、模型、算法及其運行的軟硬件環境安全風險。人類尚未準備好如何絕對安全“駕馭”大模型更好的為人類服務大模型的風險挑戰比以往任何時候都嚴峻。
135、大模型的安全問題引起了全球范圍內的廣泛關注,它不僅關系到技術本身的穩健性,還涉及倫理、法律、社會等多個層面。大模型安全成為學術界、產業界、政府部門共同關注的議題,社會各界正在尋求平衡創新與風險管理的有效策略,以促進人工智能技術的可持續和負責任的發展。隨著人工智能技術的不斷進步,確保大模型的安全、可信、可靠、可控,已成為推動科技創新、產業健康發展,維護社會秩序和保障個人權益的重要任務,需要全人類社會的共同關注和努力。需要使用系統化思維去洞察、捕捉和評估大模型系統中可能的隱患及其影響,如數據的安全與合規、模型結果測試與驗證、監控與審計等。大模型安全問題不容小覷,也不能僅靠每個環節獨立思考,應該體系
136、化一盤棋考慮,從而構建完備的大模型安全屏障。大模型標準需求迫切,全面支撐大模型安全測試驗證能力建設。當前,大模型技術迅猛發展、行業數據迅速匯集、創新應用不斷深入,產業發展腳步加快。大模型企業正在各自為政奮力開展技術研發,積極嘗試新的商業模式,在這樣的背景下,行業共識尚未形成,大模型標準化建設尚未跟上技術和產業發展步伐,標準體系建設需求迫切。大模型安全急需總結先進經驗、統一行業共識,以系統科學的理論和方法為基礎,運用標準化的工作原理,不斷優化標準內容,構建大模型安全指標體系和測試驗證標準體系。測試驗證是大模型安全的有效手段。從傳統人工智能的判決式到大模型的生成式的轉變,大模型測試自動化程度低,基
137、于大模型安全標準打造高效一致的測試驗證體系將會變得越來越重要,包括構建大模型安全測評能力和大模型安全自動化驗證工具,涉及測試方法、測試對象、測試任務、測試指標、數據集、工具平臺等。隨著大模型技術的不斷發展,新的安全威脅和挑戰也會不斷出現,安全標準和測試驗證能力也需要與時俱進,以適應新的技術發展和安全需求。大模型安全基礎設施尚不完善,構建大模型基礎設施迫在眉睫。目前,國外對大模型軟硬件基礎設施已形成技術壁壘,大模型訓練框架、部署框架等各類軟件基礎設施,以及芯片、處理器、服務器等各類硬件基礎設施在很大程度上依賴國外,如 TensorFlow、PyTorch、NVIDIA GPU 等。國內自主安全可
138、控的大模型軟硬件基礎設施正在實現產業突破,但是總體來說我國大模型安全基礎設施尚不完善,完全大模型風險因素繁多,系統化構建大模型安全體系屏障成必然。面對動輒百億、千億級參數規模的大模型,其超大參數體量以及計算復雜性致使大模型技術比以往任何人工智能技術都復雜許多,涉及算力、網絡、數據、模型結構、訓練方法、產品化落地等眾多環節,每一個環節都需要處理兆級的海量數據。且作為數據驅動型技術,其計算過程更像一個“黑箱操作”,大模型安全性、可靠性、可控性等挑戰空前巨大。在大模型研發、訓練、部署、應用的任何技術的環節都可能帶來風險,風險因素繁多,任何環節的風險都可能帶來整個系統的安全挑戰,原有的安全體系已經難以
139、適應新情況。大模型安全需要構建一個全面、協調、系統的安全管理框架。大模型系統的安全環環相扣,涉及數據保護、可解釋性、魯棒性、倫理責任、合法合規等方面。大模型安全是一個統一的、協調的復雜系統,7475大模型安全實踐(2024)自主的大模型安全軟硬件環境生態尚未形成。構建自研軟硬件適配的大模型基礎設施體系的需求急迫。搭建軟硬件適配測試平臺,可對各類軟硬件進行兼容性測試和性能評估,確保其在大模型基礎設施中的穩定運行;支持 GPU、TPU 等 AI 芯片研發,實現國產 AI 芯片的自給自足;實現高速互聯網絡和分布式計算網絡基礎設施的持續升級,支撐超大規模算力資源的共享和高效利用;推動智算中心的持續升級
140、轉型,實現智能計算與存儲一體化;研究“端、邊、云”協同過程中的數據安全技術,確保數據安全。大模型安全實踐經驗尚淺,標桿場景為大模型安全實踐指明方向。大模型安全應用是一個新興領域,研究和應用尚處于起步階段,因此缺乏成熟的參考案例來指導實踐。大模型企業仍在探索如何有效地確保大模型的安全性,在原有的傳統數據安全、信息安全、系統安全等經驗基礎上,進行能力遷移,應用于大模型安全。大模型安全問題變得更加多樣化和難以預測,原有的安全技術也需要不斷調整和優化,并通過企業不斷探索和實踐,逐步積累經驗,建立一套成熟的安全實踐體系,這對于指導未來的大模型安全實踐至關重要。安全不僅僅是一個技術問題,更是一個戰略問題,
141、大模型企業將采用更為先進的安全技術和工具,如數據加密、聯邦學習、訪問控制、異常檢測、測試驗證等,來增強大模型系統的安全性。同時,通過建立專門的安全團隊,與研發、產品、運營等部門緊密合作,共同研制、實施安全策略、構建安全技術屏障、防范未來安全風險。隨著新的大模型安全實踐的不斷深入,將涌現出大量成功案例,應用標桿的集體爆發將為大模型安全構建實踐范式,打造高價值的參考體系。大模型安全“以人為本”是核心,堅持發展負責任的 AI 是大模型安全立足點。技術的發展始終是以拓展人類的能力、服務于人為目的的,大模型安全以“以人為本”作為核心,才能保證其發展方向不偏離,確保技術的發展既符合倫理道德,又能夠為人類社
142、會帶來積極的影響?!耙匀藶楸尽钡拇竽P桶踩砟顝娬{的是在大模型的技術和應用過程中,始終將人的利益、需求和安全放在首位,大模型的設計者、開發者和使用者都必須始終保持“以人為本”思維,需要切實保障用戶和社會的安全與利益。任何背離“以人為本”核心發展的大模型技術和應用最終都將導致安全風險和挑戰,當大模型的發展忽視了人的需求、權利和福祉時,就可能造成不可預測的后果,例如侵犯個人隱私、導致社會不公平、倫理道德沖突等問題。發展“以人為本”的人工智能就是要發展負責任的人工智能,即對人類負責、對社會負責。堅持發展負責人的 AI 是大模型安全立足點,據此構建健康、可靠的大模型安全生態,以確保大模型的安全和效益能
143、夠與社會的發展同步,為人類帶來真正的福祉,是未來人工智能可持續發展的基本保障。5.2 治理建議 構建集大模型安全政府監管、大模型安全生態培育、大模型安全企業自律、大模型安全人才培養、大模型安全測試驗證“五維一體”多元參與、協同共治的治理框架。7677大模型安全實踐(2024)來源:中國信息通信研究院 圖 5-1 大模型安全“五維一體”治理框架 大模型安全政府監管。一是加強大模型合規體系建設,以高標準、嚴要求為準則,確保大模型發展與社會責任并行不悖,這也是確保大模型安全性的重要措施,政府應加強大模型相關法律法規和政策的宣貫工作。二是為企業提供大模型安全公共服務,包括信息公開、業務指導、制定倫理規
144、范操作指南、風險管理和合規指引、搭建大模型公共服務平臺等,為企業和個人提供高效的信息渠道和行為引導。三是建立監管和應急響應機制,設立專門的部門監督、管理大模型研發與應用,定期對大模型的安全性進行監督檢查,并建立應急響應措施,以便在出現大模型安全問題時能夠迅速采取措施,防控風險蔓延,確保大模型安全。大模型安全生態培育。一是建立全面的安全教育和宣傳體系,提高公眾對大模型安全的認識和理解,通過教育和宣傳提升全民的數字素養。大模型的應用已深入人們生活和工作的方方面面,培養使用者對于大模型風險的識別和防范能力,提升全民人工智能安全意識和素養,是構造大模型安全生態的基礎。二是構建大模型安全社會監督體系,構
145、建一個全民參與的大模型安全體系,完善反饋機制,建立公開透明的信息共享平臺,讓監管機構、企業和公眾能夠及時反饋和了解大模型安全的最新動態。大模型安全企業自律。一是構建企業大模型合規體系,制定相關安全制度和準則。企業應制定嚴格的內部安全政策和操作規程,確保大模型的研發、部署和運維等過程符合行業安全標準和法律法規要求。二是加強企業安全培訓與安全意識。作為生成式人工智能服務提供者的企業主體應確保其產品安全,強化企業安全環境,定期對員工進行大模型安全相關的培訓,強化安全意識,確保每位員工都能理解并遵守安全操作規范。三是建立安全監督機制,設立專門的安全監督崗位,并規定其職責,使企業能及時發現并處理潛在的安
146、全問題,并通過建立產品應用跟蹤機制,對風險產品及時召回,不斷優化安全策略,降低大模型產品在企業內部和外部的風險。大模型安全人才培養。一是加強大模型安全人才隊伍建設,構建大模型安全學習體系,構建跨學科學習,將人工智能、網絡安全、數據科學等領域的知識進行整合,以培養具備綜合能力的人才隊伍。二是鼓勵核心技術攻關,比如如何攻克大模型數據安全、模型安全、系統安全和應用安全等技術難題,如何構建內生安全、外生安全、衍生安全的防御體系,并不斷跟進前沿技術發展,以應對新的挑戰。三是推動高校、研究機構與企業的緊密合作,實現資源共享,促進大模型安全領域人才培養與市場需求的對接。大模型安全測試驗證。一是推進大模型安全標準研制,研究和借鑒國際上已有或在研的大模型安全標準和最佳實踐,加強大模型安全測試驗證技術研發和標準化工作,加速標準應用轉化。二是加速78大模型安全測試驗證能力建設。開發和標準化一系列大模型測試驗證工具,構建標準化測試數據集,開展大模型安全測試驗證示范場景,快速構建體系化大模型安全測試驗證能力。三是鼓勵第三方機構開展大模型安全測試評估業務。通過政策引導、資金支持和市場激勵,鼓勵有資質的第三方機構提供專業、獨立的大模型安全測試驗證服務,幫助企業及時發現和解決大模型的安全隱患,提升整個行業的安全水平,從而推動大模型產業健康發展。