《阿里巴巴&達摩院:2023生成式人工智能治理與實踐白皮書(96頁).pdf》由會員分享,可在線閱讀,更多相關《阿里巴巴&達摩院:2023生成式人工智能治理與實踐白皮書(96頁).pdf(96頁珍藏版)》請在三個皮匠報告上搜索。
1、4生成式人工智能治理與實踐白皮書56生成式人工智能治理與實踐白皮書生成式人工智能治理與實踐白皮書編寫單位指導委員會錢 磊 歐陽欣 朱紅儒 安筱鵬 范科峰 董 建 聞 佳 鄭俊芳 孫文龍吳澤明 阿里巴巴集團安全部總裁阿里云智能集團首席安全官阿里云智能集團標準化業務副總裁阿里云研究院院長中國電子技術標準化研究院信息技術研究中心主任中國電子技術標準化研究院信息技術研究中心副主任 阿里巴巴集團公共事務總裁阿里云智能集團首席風險官兼首席財務官中國電子技術標準化研究院副院長阿里巴巴集團首席技術官阿里巴巴集團中國電子技術標準化研究院阿里云智能集團達摩院專家委員會編寫組主要成員陳岳峰傅宏宇 彭駿濤 楊易侗馬宇
2、詩 朱琳潔 李金純 杜東為楊雨澤 肖哲暉 蔣哲琪毛瀟鋒黃龍濤郎一寧李進鋒 徐國海司靖輝 沈 暉安 勍特別鳴謝李曉軍王 鵬賈一君葉 珩孫 寧成 晨 7編寫組組長編寫組副組長關于我們編寫單位張榮 阿里云智能集團算法安全負責人袁媛 阿里研究院執行副院長李婭莉 阿里巴巴達摩院安全與法務負責人薛暉 阿里巴巴人工智能治理與可持續發展研究中心主任徐洋 中國電子技術標準化研究院人工智能研究室主任阿里巴巴人工智能治理與可持續發展研究中心(AAIG)是阿里巴巴集團旗下的人工智能頂級研發團隊,致力于利用 AI 技術解決安全風險問題,并推動 AI 技術邁向更加可用、可靠、可信和可控。團隊成員百余名,學術研究能力和工程
3、實踐能力兼備,在計算機視覺、自然語言理解、數據挖掘與網絡安全等領域的國際頂級會議和期刊上發表論文 100 多篇,多次在國際國內知名賽事中取得冠軍,獲授權國際國內專利 60 余項,申請中專利達到 200 多項,參與多項技術標準的制定。AAIG 貫徹“科技創新是最好的網絡安全”的理念,所研發的人工智能產品涵蓋內容安全、業務風控、數字安防、數據安全與算法安全等多個領域,為集團在全球的千萬商家和十億消費者提供安全保障,并通過技術服務方式賦能阿里云上一萬多家中小企業構筑安全防線。聯系我們aaiglist.alibaba-8生成式人工智能治理與實踐白皮書一.生成式人工智能的發展以及 擔憂1.生成式人工智能
4、的技術與應用突破141.1 文生文突飛猛進141.2 文生圖效果驚艷151.3 行業應用廣泛161.4 使用門檻降低182.生成式人工智能的內生問題與社會擔憂202.1 個人信息的實時交互擔憂202.2 內容安全的源頭敏捷控制212.3 模型安全的全生命周期內控222.4 知識產權的溯源與權屬挑戰22二.生成式人工智能的治理愿景和框架1.國際社會治理特點261.1 治理目標:堅持促發展與重監管并行261.2 治理模式:強調多元主體協同共治261.3 治理手段:創設例外保留創新空間271.4 治理細則:技術規范逐漸明晰272.我國的治理特點282.1 促進發展:對人工智能發展給予更多政策支持,配
5、套發布一系列產業政策文件282.2 重視治理:確定了現階段算法治理的重點場景,推動建立算法治理的“法治之網”282.3 倫理約束:加強科技倫理治理頂層設計,明確人工智能倫理原則及治理要求283.本書觀點:發展多主體協同敏捷治理體系,構建全生命周期風險分類治理框架30目錄9三.生成式人工智能風險產生原因的分析1.綜述:構建生成式大模型的條件341.1 算力341.2 數據341.3 算法351.4 生態351.5 人才352.語言大模型362.1Transformer 網絡362.2 訓練過程和使用的數據362.3 語言大模型的生成過程392.4小結:語言大模型的風險來源403.視覺大模型413
6、.1 模型原理413.2訓練過程423.3 生成過程443.4小結:視覺大模型的風險來源45四.生成式人工智能風險治理實踐和探索1.生成式人工智能治理格局建設481.1 以針對性立法回應技術發展與產業需求481.2 以政策完善構建與技術發展需求相匹配的治理機制481.3 產業自律自治筑成負責任創新治理機制492.生成式人工智能不同環節的風險治理 512.1 模型訓練階段的風險治理522.2 服務上線階段的風險治理532.3 內容生成階段的風險治理532.4 內容傳播階段的風險治理543.個人信息合規563.1 大模型與個人信息的關系563.2 訓練數據中的個人信息563.3 算法服務時拒絕生成
7、個人信息5810生成式人工智能治理與實踐白皮書4.內容安全保障594.1 內容安全視角里,AIGC 與 UGC 的異同594.2 生成式模型風險評測604.3 模型層內生安全614.4 應用層安全機制624.5 生成信息的信任機制635.模型安全防控685.1魯棒性685.2 可解釋性685.3 公平性685.4 防濫用機制695.5 實踐案例:魯棒評估基準與增強框架696.知識產權探索736.1訓練數據的知識產權合法性治理探索736.2 生成物知識產權治理探索747.實踐案例:虛擬模特塔璣757.1虛擬模特塔璣促進生產力提升757.2 數據驅動下的虛擬模特與個人信息保護767.3 內容安全保
8、障767.4 模型安全控制777.5 生成式標識與知識產權保護7711五.生成式人工智能多主體協同敏捷治理體系1.敏捷治理的理念與特點802.多主體協同下的敏捷治理探索與實踐 812.1 政府規范引導822.2 產業守正創新822.3 社會監督理解84六.總結與展望(88)專有名詞解釋(92)12生成式人工智能治理與實踐白皮書13一.生成式人工智能的發展以及擔憂14生成式人工智能治理與實踐白皮書1.1 文生文突飛猛進2022 年 11 月 30 日,OpenAI 發布了對話式通用人工智能服務 ChatGPT。僅推出 5 天,用戶數就超過 100 萬;上線兩個月后,用戶數突破 1 億,成為 AI
9、 界的頂流。ChatGPT 能遵循人類指令完成各種認知型任務,包括交互對話、文本生成、實體提取、情感分析、機器翻譯、智能問答、代碼生成、代碼糾錯等,并且展現出了和人類近似的水平。2023 年 3 月 15 日,GPT-4 發布,在知識推理以及在邏輯運算方面有大幅提升,還支持多模態輸入,進一步擴展了應用場景。ChatGPT 成功背后的技術突破主要有以下三個方面:(1)超大規模參數的預訓練語言模型為了使模型具備通用的能力,必須學習到世界知識,這要求模型具有足夠大的參數量來存儲海量的世界知識。GPT-3.5 的模型參數已經達到 1750 億的規模。隨著模型參數量的擴大,語言模型還出現能力涌現的現象,
10、例如上下文學習(In-context Learning),以及思維鏈(Chain Of Thought)等推理能力。(2)多任務的自然語言預訓練模型自然語言處理任務包括問答、機器翻譯、閱讀理解、摘要、實體抽取等,之前的學術研究都在特定的任務下進行針對性的算法設計,遷移性差。而 ChatGPT 采用了多任務預訓練的方式,不同任務共享模型參數。這使得模型具有通用能力,下游任務不再需要微調,直接通過提示學習或者零樣本學習就具有很強的性能。(3)基于人工反饋機制的強化學習OpenAI 通過引入指令微調以及基于強化學習的微調技術,提升模型和人類的價值觀對齊。具體來看,指令微調技術使語言模型得以支持用戶以
11、人類慣常的溝通方式,與模型進行互動并推動模型能力的提升。同時,通過人工反饋和標注數據,借助強化學習進行微調,從而確保模型具備正確的價值觀。在應用上,語言大模型構建了“多場景、低門檻、高效率”的共創應用新模式,具有豐富的應用場景,在醫療、教育、零售、媒體等行業完成產品落地應用。根據全球管理咨詢公司麥肯錫(McKinsey)的報告,生成式人1.生成式人工智能的技術與應用突破15工智能的新興主導地位為新一輪經濟革命奠定了基礎,估算每年能為全球經濟增加 4.4 萬億美元收入。1.2 文生圖效果驚艷2022 年 2 月,開源工具 AI 繪畫工具 Disco Diffusion 發布,這是一個在Googl
12、e Colab 上運行的代碼,其原理是使用了 CLIP-Guided Diffusion,只需要輸入文本提示,就能生成對應的圖片。同年 4 月,OpenAI 發布了Dall-E2,能夠生成更高分辨率和真實性的圖像。同時,AI 繪畫工具 Midjourney 發布。Google 在 5 月、6 月分別發布 AI 作畫的技術,Imagen 和 Parti。7 月份,Stability AI 在 LAION 5B 開源數據集上訓練了文生圖擴散模型 Stable Diffusion,生成的圖像形象逼真,畫質細膩。技術的開源,極大地推動了圖像生成領域的發展。2022年8月,在美國科羅拉多州舉辦的新興數字
13、藝術家競賽中,參賽者提交了使用模型生成的繪畫作品太空歌劇院,獲得了“數字藝術/數字修飾照片”類別一等獎。參賽者并沒有繪畫基礎,通過 AI 繪圖軟件 MidJourney 耗時 80 個小時創作了該作品。這意味著 AI 繪畫的質量已經達到了專業水平。進入到 2023 年,AI 繪畫繼續井噴式發展。2023 年 3 月,百度發布的文心一言支持了文本生成圖像,Adobe也發布了 AI 工具 Firefly。也是在 3 月,MidJourney V5 發布,生成質量更高,而且支持自然語言的描述輸入,使得 AI 繪畫的門檻進一步降低。阿里巴巴于 7 月推出了新的繪畫 AI“通義萬相”??拼笥嶏w、商湯、華
14、為等人工智能企業也陸續推出文生圖大模型產品,國內呈現“百模大戰”的競爭格局。AI 繪畫的技術突破式發展依賴以下 3 個技術的積累和突破:(1)在生成式模型方面,擴散模型的提出使得圖像生成技術在基礎理論上取得了突破。擴散模型(Diffusion Models)相比生成對抗網絡(GAN)和變分自編碼器(VAE),具有訓練更加穩定,采樣過程可控,生成的樣本質量更好等優點。(2)在圖文對齊模型上,OpenAI 的 CLIP 模型的提出為文本和圖像兩個模態構建了橋梁,奠定了文本生成圖片的技術基座。(3)VVQGAN,VQVAE 這類視覺量化生成模型,可以將圖像壓縮到量化的隱空間,從而為高效的隱空間擴散模
15、型訓練提供了基礎。16生成式人工智能治理與實踐白皮書此外,可以通過微調開源的 Stable Diffusion 模型來開發定制化的 AI 繪畫模型,這使得 AI 繪畫模型出現了百花齊放的現象。同時,AI 繪畫的技術也通過引入更多的其他信息輔助生成想要的圖片,使得結果更加可控。例如近期的ControlNet,通過引入另外一個圖片作為條件信息,控制文本生成的圖片的風格,進一步提升了可用性。文生圖在多個行業上具有廣泛的應用前景,例如在廣告行業,AI 制作宣傳海報;在設計行業,AI 輔助藝術創作、服裝設計等;在電商行業,有虛擬模特、虛擬試衣等應用場景。另外,文生圖在游戲和漫畫等行業的應用也會加速內容制
16、作的速度。1.3 行業應用廣泛語言大模型、視覺大模型等通用大模型就像一個高中生,具有了基礎的邏輯、認知、知識處理等通用能力;隨著行業、產業對智能化需求的升級,不少領域已經開始對通用大模型這位“高中生”進行進一步的專業學習和訓練,讓其成為行業領域的專家,提供專業領域的咨詢、工作內容的行業大模型。相較于通用大模型,行業大模型具有定制化、易部署、可微調、強安全等特點,能夠有效適用于具體應用場景,更準確解決專業領域問題,提升行業效能。目前,部分行業大模型已經在電力、交通、金融、能源、民生服務、互聯網等行業的智能化中嶄露頭角。例如,智能辦公提效需求強烈,也是 AI 大模型賦能優先級最高的場景之一。以企業
17、協同工具釘釘為例,2023年 4 月正式接入通義千問大模型后,群聊、文檔、視頻會議及應用開發的智能化場景作為首發,通過輸入“/”魔法棒可以喚起 10 余項 AI 能力,智能化程度顯著提升,減少了人工重復操作成本,升級成為智能協同辦公平臺+智能應用開發平臺。1718生成式人工智能治理與實踐白皮書大模型在醫療領域有廣泛的應用,在患教助手、問診在線值班醫生、醫療隨訪、臨床輔助決策和過程質控、影像助手、臨床科研助理、藥物研發數據洞察、醫療保險助手等場景都可以發揮巨大作用。阿里健康基于以上場景,致力于研發“先進且可靠”的垂直領域大模型,通過使用萬級的書籍文獻,并結合專家經驗,通過專家審核,構建了十萬級疾
18、病詞條和百萬級醫患問答、百萬級別醫學術語集、全病種疾病及合理用藥知識圖譜,在各類平臺及各級醫療機構的信息集成、專業語言理解及歸納總結等方面實現了突破,目前已達到一對一個性化咨詢服務、提升愈后跟蹤性研究效率等成效。1.4 使用門檻降低1.4.1 生成式人工智能大模型相關的軟件供應鏈不斷完善越來越多的應用開發者希望集成語言大模型(LLM),提供更智能化的服務,LangChain 應運而生。LangChain 是一個強大的框架,旨在幫助開發人員使用 LLM 構建端到端的應用程序,提供了一套工具、組件和接口,可簡化創建由 LLM 提供支持的應用程序的開發過程。同樣地,在視覺大模型領域開源了基于 Sta
19、ble Diffusion 的 AI 繪畫圖形化 Stable Diffusion WebUI,支持多系統且具有很好的擴充性,非專業人員也能通過頁面交互使用文生圖大模型進行圖像生成。這使得視覺生成模型被開發者集成和使用的難度大幅降低。19綜上所述,生成式人工智能大模型相關的基礎軟件設施也在不斷完善,使得基于大模型的應用開發也更加便捷、成本更低。1.4.2 開源共享平臺降低了大模型的訓練和使用門檻 Hugging Face,業界最大的開源模型平臺,大模型的使用更加簡單。Hugging Face 是一個開源的自然語言處理 AI 工具平臺,其在 github 上開源的 Transformers 庫以
20、及 Diffusers庫,已經成為生成式人工智能領域最受歡迎的開源庫。除了開源代碼,Hugging Face 上還有大量的開源模型,例如知名的 LLama 系列、Stable Diffusion 等,目前已經共享了超過 10 萬個預訓練模型,1 萬個數據集,成為機器學習界最大的開源共享平臺。CivitAI Stable Diffusion 模型社區,豐富 Stable Diffusion 模型庫。Civitai 是基于 Stable Diffusion 的模型共享社區網站,匯集了 1000 多個不同風格、不同主題的模型。用戶可以上傳自己基于 Stable Diffusion 微調的模型,也可以
21、下載其他用戶共享的模型,直接進行圖像生成。這使得開發者不用訓練就能根據自己的喜好獲得模型,大幅降低了使用成本。云計算助力生成式人工智能,MaaS 的服務方式逐漸成形。生成式人工智能的發展推動了云計算和人工智能的高度融合,全面智能化時代正在加速到來。云計算的服務模式將從以往的 IaaS,PaaS,SaaS 發展為 Maas。逐漸形成了以模型為中心,以模型為服務,以模型為核心的AI 開發新范式。20生成式人工智能治理與實踐白皮書以 ChatGPT 為首的生成式人工智能,在多種感知和認知任務上表現出與以往人工智能截然不同的能力,使人工智能產品和服務的個性化、定制化能力高度提升,給公眾帶來諸多工作便利
22、和生活娛樂,表現出強大的歸納總結能力和強大的創造力,并且隨著技術水平不斷發展,生成式人工智能的潛力將進一步被激發,廣泛賦能各垂直領域,與人類社會深度融合。但是,新技術往往是一把雙刃劍,生成式人工智能也不例外,其對社會的深刻影響將強化和放大各類治理風險。圍繞內容安全、個人信息保護能力、模型安全、知識產權權屬等問題,社會各界表現出不同程度的擔憂。2.1 個人信息的實時交互擔憂生成式人工智能的訓練與使用均依賴于數據,目前已成為個人信息保護監管領域的高度關注對象。一方面,真實個人信息作為訓練數據可以使生成式人工智能產品與服務更加個性化、定制化。另一方面,個人信息參與到生成式人工智能的訓練或使用,如未進
23、行匿名化處理有潛在暴露特定個人信息的風險。生成式人工智能技術、產品與服務所涉及的個人信息問題,既需要考慮訓練數據中的個人信息,也需要考慮服擔憂2.生成式人工智能的內生問題與社會21務過程中實時交互中個人信息的輸入與輸出問題。一般來說,在模型訓練階段,使用的數據中是否可以包含個人信息、可以包含的個人信息類型與程度如何、個人信息的來源如何、用戶輸入個人信息是否可以跨境等問題,可以在數據集投入模型訓練前通過用戶授權、數據清洗、去標識化、匿名化、出境安全評估等方式解決。在服務階段,生成式人工智能的實時交互的特點幾乎沒有給常用的“機審+人審”方式留下任何機會。各界需要在新的技術背景下重新思考和審視個人信
24、息問題,尤其是實時交互中的個人信息是否可以收集、如何收集、是否需要單獨提示、收集的信息應當如何使用,以及模型的生成內容是否可以呈現個人信息等問題。2.2 內容安全的源頭敏捷控制生成式人工智能的內容安全廣義上包括輸出內容的社會安全性,是否合法合規、遵守道德倫理和公序良俗等,具體表現在違法不良信息、內容失實、偏見歧視、違反倫理道德等方面。生成內容的安全性是公眾選擇使用相關產品和服務的重要影響因素之一,也是全球人工智能監管的重要事項。對用戶而言,便捷高效地得到文本、圖片、音視頻、代碼等內容是使用生成式人工智能技術的主要用途,生成的內容越是接近或超過一般人類的創作能力,往往越能獲得用戶的青睞。然而,語
25、言風格越接近人類、合成的音視頻越逼真,用戶越是難以鑒別其中的真假。一旦訓練數據遭受偏見、錯誤、不良等信息毒害,亦或模型存在缺陷,生成內容很可能是錯誤甚至是具有社會危害性的。特別是受知識儲備、數字技能、社會環境等因素限制,公眾難以察覺專業性強和陌生領域的錯誤。如果公眾依賴生成內容做決策,在金融交易、投資規劃、醫療診斷等高風險領域,容易產生連鎖安全事件。從治理角度來看,對服務提供者來說,與以往的互聯網信息發布相比,生成式人工智能的內容輸出更快速,幾秒鐘就生成大段文字,其中可能含有誤導性內容,大幅提升了對互聯網信息的污染速度,顯著提高了治理難度。如果每一條輸出內容都進行人工審查,人力成本大幅上升而用
26、戶體驗嚴重受損,不具有可行性,這成為內容安全保障的難點。同時,由于現階段生成式人工智能服務通常無法提供準確的依據和來源,相關生成內容無法鑒偽,風險也無法被有效定位溯源。由此可知,生成式人工智能如果訓練不當、使用不當,可能造成虛假信息與違法不良信息的傳播,甚至成為詐騙分子的非法牟利工具,因此,從訓練數據和算法源頭上控制內容安全、管理用戶的輸入和對生成結果的使用,成為降低生成式人工智能風險的重要切入點。22生成式人工智能治理與實踐白皮書2.3 模型安全的全生命周期內控模型安全指生成式模型自身的、內在的安全,主要包括兩方面內涵:一方面是傳統軟件和信息技術安全問題,如后門漏洞、數據竊取、逆向工程等;另
27、一方面是人工智能技術的“黑盒模型”特點所帶來的新安全問題,例如公平性、魯棒性、可解釋性等。生成式人工智能模型安全包含數據集、模型等要素,涉及訓練、測試、驗證等多個環節,是一項復雜命題。模型安全挑戰可能帶來廣泛和復雜的后果。目前,生成式大模型在人工智能系統中的作用將類似于操作系統在傳統軟件系統中的作用,由于其普遍性和規模性,生成式大模型可能會成為單一故障點和攻擊隱患點,從而成為針對源自該模型的應用程序的攻擊的主要目標。作為大規模應用或產品的核心組成部分,大模型必須建立完善的安全防御機制??傊?,生成式模型存在的各類安全風險會給社會與企業帶來不可忽視的影響。這需要通過技術手段加以防范與解決,在全生命
28、周期內融入必要的安全機制,加強內在安全能力,避免由系統功能性故障導致不可接受的風險,構建全面的安全管理體系。2.4 知識產權的溯源與權屬挑戰全球范圍看,知識產權的主要權利形式是著作權、商標權和專利權。從工作原理來看,生成式人工智能以各類作品、科技成果、程序、標識、設計等人類智力成果為重要“養料”,可能觸及的知識產權侵權問題較多;又以各類圖片、文字、代碼等內容為“果實”,生成物能否成為知識產權的保護對象是核心關注點。因此,知識產權保護與風險防范是生成式人工智能研發、使用與推廣各個環節都無法回避的問題。訓練階段,數據集可能包括他人作品、商標、技術成果。日前,Getty Image 起訴 Stabi
29、lity AI,主張 Stability AI 侵犯了其數百萬張圖片版權,AI 繪畫工具 Stable Difussion 陷入 AIGC 時代版權糾紛,成為業內第一案,引發生成式人工智能行業的高度警惕與擔憂。訓練數據很多是通過爬蟲方式在互聯網環境中獲取,而互聯網環境中的信息來源非常豐富且原始權利人、權利路徑很難明晰,很難找到確定的權利人獲取授權。相對地,從在先權利人角度,訓練數據是否含有其知識產權成果、是否侵權,往往需要在生成物呈現結果后予以推測和判斷,從而導致了溯源難、定責難等困難。內容生成與傳播階段,關于生成物的權利保護,核心關注點在于生成物是否能成為知識產權的保護對象。目前,生成物多以
30、文學和藝術作品形式存在,鮮少構成商標或專利,因此,關于生成物的知識產權保護爭議多集中在23著作權領域。此外,在人類的提示語下,由人工智能生成的成果愈發難以區分,人工智能自身是否會成為權利主體或者侵權主體的問題也逐漸引起全社會的關注。從全球實踐看,目前人工智能的水平尚不到能夠獨立產生意思表示和承擔法律行為后果的境地,主要依賴算法控制,因此,主要國家和地區對全面賦予機器人或人工智能法律主體資格保持慎重態度,生成物知識產權權利歸屬也存有爭議空間。24生成式人工智能治理與實踐白皮書25二.生成式人工智能的治理愿景和框架26生成式人工智能治理與實踐白皮書1.1 治理目標:堅持促發展與重監管并行作為數字戰
31、略的一部分,歐盟的人工智能治理圍繞促進發展和使用展開,既推出產業發展政策,又同步推進監管規則制定。2018 年 4 月,歐盟發布歐盟人工智能戰略奠定了歐盟人工智能發展與治理的藍圖。2021 年4 月以來,歐盟致力于推動人工智能法案(AI Act)起草、修改和落地實施,2023 年 6 月該法案已進入談判階段,預計年底成為正式法律,為人工智能治理提供“硬法”支持。美國強調監管的科學性和靈活性,以掃清人工智能技術應用的障礙、促進技術創新為宗旨,堅持監管的前提是鼓勵人工智能的創新和發展。在生成式人工智能發展的刺激下,2023 年 5 月,美國白宮發布國家人工智能研發戰略計劃(2023 版)(NAIR
32、DSP),在提出促進發展有效措施的同時,推動理解和解決人工智能的倫理、社會影響,以及通過政策、標準等手段引導人工智能系統的安全性。1.2 治理模式:強調多元主體協同共治歐盟和美國都主張采用多元主體廣泛、深度參與的模式,持續推動企業自愿治理標準和框架,使人工智能治理從政府主導向“政府+市場”協同模式轉型。歐洲主要由政府全面立法企業參與,而美國則采取更寬松的模式即政府引導,主要靠市場自律,自我規制進行協同治理。在社會公眾和監管部門對生成式人工智能的使用影響愈發關注的背景下,企業和科研機構加大人工智能治理活動的參與力度,逐漸從被動接受治理規則,到主動謀求制定規則。生成式人工智能產業的競技式發展,已經
33、引起了各國監管部門高度重視。在原有的人工智能監管框架下,各國紛紛針對生成式人工智能開展監管與治理的探索與思考。2023 年伊始,美國從人工智能生成物版權入手,探討生成式人工智能的社會影響與意義,組織 OpenAI 等人工智能領軍企業出席聽證會,白宮也召開相關專題會議;3 月末,意大利曾出臺禁令限制 ChatGPT 使用并開展隱私安全性調查,隨后,德國、法國、西班牙等也著手加強對 AI 聊天工具的監管;6 月,歐盟人工智能法案進入談判階段,談判文本尤其針對生成式人工智能強調確保透明度、平衡上下游供應商權責與利益;7 月中旬,我國國家互聯網信息辦公室也針對生成式人工智能服務發布了生成式人工智能服務
34、管理暫行辦法。1.國際社會治理特點27比如,電氣和電子工程師協會(IEEE)商業委員會在 2020 年第一季度發布第一份題為對企業使用人工智能的呼吁的倡議,強調企業在人工智能治理中的主體作用。再比如,谷歌開源了一個數據集來幫助檢測合成聲音;Meta、Partnership AI 和其他組織發起了深度偽造視頻檢測比賽;Anthropic、谷歌、微軟和 OpenAI 宣布成立“前沿模型論壇”(The Frontier Model Forum)等。1.3 治理手段:創設例外保留創新空間歐盟在人工智能法案中提出監管沙盒機制,即建立一個受控的環境,以在有限時間內測試創新性技術,進入數字創新中心,使用檢測
35、和實驗設施,幫助創新型公司、中小型企業和初創企業在遵守法規的情況下繼續創新,保證在不妨礙創新的情況下實現負責任研發。美國聯邦政府避免一刀切式的過度干預,以不阻礙人工智能技術和產業發展、降低創新的門檻和成本為優先考慮。其政策把為人工智能應用創設“安全港”、監管例外、監管豁免等提到了很高的地位:一是允許為特定人工智能應用程序提供安全港的試點計劃;二是采取成本效益分析,在對人工智能進行監管之前,充分考慮人工智能活動的利弊,并衡量風險、治理成本與效益的比重。1.4 治理細則:技術規范逐漸明晰標準化成為治理科技發展帶來的風險與問題的重要手段,支撐各領域政策和法律的實施,起到頂層政策到產業實施的銜接作用。
36、隨著歐盟人工智能法案進入談判階段,歐洲面對內部統一市場任務,標準與其他監管規則的聯動愈發緊密。首先,人工智能法案中尤其強調標準的兩大作用,一是確保生成式人工智能系統透明度,二是平衡上下游供應商權責與利益。與此同時,依據2023 年歐洲標準化年度工作計劃,歐洲三大標準組織將人工智能標準化工作重點放在安全和可信的人工智能體系建設上,尊重歐盟認可的基本價值觀和人權,加強歐洲競爭力。美國也加快了生成式人工智能標準化工作,促進治理方案落地。2023 年 6 月,美國政府宣布成立由 NIST 領導的生成式人工智能公共工作小組(Generative AI Public Working Group),解決由生
37、成式人工智能帶來的挑戰與機遇,支持 NIST 制定相關指南,進行測試、評估和測量方面的工作,同步探索生成式人工智能技術用于解決健康、環境、氣候變化等重大挑戰的可能性。28生成式人工智能治理與實踐白皮書以大模型為代表的生成式人工智能掀起發展新浪潮,全球競爭格局加速演進,中美科技博弈日益激烈。在此重大戰略機遇期,國家在高度重視人工智能技術創新發展的同時,統籌發展與安全,堅持發展與治理并重,發布了一系列法律法規、政策及標準,促進人工智能產業健康發展。2.1 促進發展:對人工智能發展給予更多政策支持,配套發布一系列產業政策文件2017 年 7 月,國務院公布了新一代人工智能發展規劃,明確提出未來將要對
38、人工智能發展給予更多資金、政策支持,以及國家級的統籌規劃。隨后,陸續發布了一系列產業政策文件,包括促進新一代人工智能產業發展三年行動計劃(2018-2020)國家新一代人工智能創新發展試驗區建設工作指引中華人民共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目標綱要等,旨在引導和促進中國人工智能產業高質量發展。部分地方也出臺人工智能產業促進文件,如深圳經濟特區人工智能產業促進條例和上海市促進人工智能產業發展條例等。2.2 重視治理:確定了現階段算法治理的重點場景,推動建立算法治理的“法治之網”在網絡安全法個人信息保護法等法律法規的基礎上,陸續出臺關于加強互聯網信息服務算法綜合治理的
39、指導意見和互聯網信息服務算法推薦管理規定等監管文件,逐步建立健全算法綜合治理體系。隨著生成式模型的快速發展,我國迅速出臺相關監管規定,如國家互聯網信息辦公室等部門出臺互聯網信息服務深度合成管理規定 生成式人工智能服務管理暫行辦法 等,對相關領域加強精細化治理與監管。2023年6月,國務院辦公廳發布的2023 年度立法工作計劃已將人工智能法草案納入其中,關于人工智能的整體立法工作也已啟動。2.3 倫理約束:加強科技倫理治理頂層設計,明確人工智能倫理原則及治理要求在科技倫理方面,我國在逐步探索人工智能的基本倫理規范。2021年 關于加強科技倫理治理的指導意見 將“增進人類福祉”、“尊重生命權利”、
40、“堅持公平公正”、“合理控制風險”和“保持公開透明”明確為科技倫理原則,并對創新主體、科研人員、科技類社會團體等在科技倫理治理的角色進行分別定義。隨后發布的新2.我國的治理特點29一代人工智能倫理規范明確了基本倫理規范,并提出了一系列人工智能應用管理規范、研發規范、供應規范和使用規范。企業應重點關注算法、數據、服務等環節的研發規范與供應規范,保障人類擁有充分自主決策權,確保人工智能始終處于人類控制之下。30生成式人工智能治理與實踐白皮書理體系,構建全生命周期風險分類治理框架 大模型技術的飛速發展掀起人工智能發展新浪潮,文字創作、邏輯推理、多模態融合等能力不斷涌現,智能化程度實現質的飛躍,行業應
41、用門檻不斷降低,為高質量發展提供新的動能。生成式人工智能在廣泛賦能人類社會的同時,對內容安全、個人信息保護、模型安全和知識產權等方面帶來了不少新的風險與挑戰。各國家和地區均致力于以前期的人工智能全局治理制度與規范框架為基礎,完善生成式人工智能的專項頂層設計和治理方案,逐步細化法律法規、標準規范等治理手段,由各大企業牽頭積極落實,初步形成政產學研用多主體協同共治的敏捷治理體系。在此背景下,本書圍繞構建生成式大模型的算力、數據、算法、生態、人才等基礎條件,以語言大模型和視覺大模型兩類大模型為重點示例,結合以大模型為底座的生成式人工智能的技術及應用特點,針對生成式人工智能的全生命周期,總結分析相關風
42、險產生的特點及原因,探索生成式人工智能不同階段、不同類型風險的治理模式與方法。在此背景下,本書圍繞構建生成式大模型的算力、數據、算法、生態、人才等基礎條件,以語言大模型和視覺大模型兩類大模型為重點示例,結合以大模型為底座的生成式人工智能的技術及應用特點,針對生成式人工智3.本書觀點:發展多主體協同敏捷治31能的全生命周期,總結分析相關風險產生的特點及原因,探索生成式人工智能不同階段、不同類型風險的治理模式與方法。我們認為,生成式人工智能技術尚在發展,數據質量和算法技術路線具有較高的不確定性,疊加深度神經網絡模型的“黑箱”不可解釋性,生成式人工智能逐漸放大、增強了個人信息、內容安全、模型安全、知
43、識產權相關風險,并衍生出更棘手的新型科技風險。生成式人工智能在全面提升生產力的同時,也帶來了前所未有的治理挑戰,甚至可能會對國家安全和社會穩定構成威脅。綜上,推動負責任的生成式人工智能研發及應用,推動生成式人工智能的健康發展并讓其更好地服務于人類社會,是智能時代的大勢所趨。因此,生成式人工智能治理不能一刀切,需要針對全生命周期中各關鍵階段的要求,建立健全包容審慎、動態敏捷的柔性治理機制,針對不同階段、不同類型的風險進行針對性治理。同時,要圍繞模型訓練、服務上線、內容生成、內容傳播、用戶使用管理等關鍵環節,創新研發治理技術體系;營造政產學研用多主體協同共治的外部環境,提供生成式人工智能創新與良性
44、發展的重要機制保障。32生成式人工智能治理與實踐白皮書33三.生成式人工智能風險產生原因的分析34生成式人工智能治理與實踐白皮書生成式人工智能本質上是一個被用戶使用的算法服務,從生命周期上,分為模型訓練、服務上線、內容生成、內容傳播四個階段。這一算法服務通常由大模型驅動,都離不開算力、數據、算法、生態和人才五個構成條件,也都面臨內容安全、個人信息、模型安全和知識產權的問題。因此,要理解和分析生成式人工智能的風險表現,首先需要對大模型的五個構成條件有所了解。1.1 算力生成式人工智能的訓練和運營需要海量算力資源支持。以 ChatGPT 為例,OpenAI 與微軟 Azure 云平臺合作,發布了具
45、有 28.5 萬個 CPU 核心、1 萬個 GPU 和 400 GB/s GPU 間傳輸帶寬的超級計算機(Azure Supercomputer),為模型的訓練和日常運營提供算力基礎。在訓練階段,ChatGPT 算力消耗約為3640PFLOPS/天,需要7-8個投資規模5億美元、算力500P的數據中心才能支撐,訓練成本約為500萬美元/次;在運營階段,僅 GPU 的年投入就高達 7000 萬美元。隨著算力需求的指數級增長,高性能硬件的重要性越來越突出。英偉達面向指數級增長的生成式人工智能計算需求,聯合 1500 余家生成式人工智能企業共同研發符合生成式人工智能計算特點的芯片架構與專用計算引擎。
46、1.2 數據數據,本質是知識,對生成式大模型能力的突破起著至關重要的作用。生成式大模型的訓練數據集囊括了全球大量書籍、網絡百科全書、論壇、博客等高質量語料庫。數據規模一般接近 8000 億個分詞 token 和上百 TB(清洗前)。數據的質量與規模同樣重要,目前,多數公司委托數據標注外包公司或眾包平臺,對龐大的數據集進行手動標注,以提升數據集的質量。另外,數據集的來源,可能涉及個人信息及國家安全。例如,用于谷歌的 T5 和 META 的 LLaMA 等大模型的訓練的 C4 數據集,雖然源自公開網站,但也包括至少 27 個被美國政府認定為盜版和假冒產品市場的網站。重視數據合規監管和質量評估、做好
47、數據多樣性和代表性發展,提升數據集質量將是未來數據領域的必然發展趨勢。1.綜述:構建生成式大模型的條件351.3 算法生成式人工智能是由深度學習技術發展而來,運用了統計學、概率論、機器學習等基礎知識,在文本生成和圖像生成領域有著不同的技術路線,主要運用 Transformer 神經網絡模型、基于人類反饋的強化學習(Reinforcement Learning form Human Feedback,RLHF)、零樣本學習(Zero-Shot Learning)、提示學習(Prompt Learning)等創新技術。未來,生成式大模型將朝著多模態發展,支持圖像、文本、語音、視頻多模態下的多種任務
48、,在能力泛化與技術融合方面更具優勢,在跨模態支撐、解決復雜任務方面具有先進性,可實現規模和范圍普及,具備“基礎設施”式的屬性,賦能千行百業。1.4 生態谷歌、微軟等企業將生成式人工智能成果開放 API 供用戶調用,并鼓勵二次開發,借助用戶反饋進行優化,依托 GitHub 等開源社區促進版本更新,聚集廣泛的開源貢獻者和開發者力量,形成雙向迭代的良好生態,促進生成式大模型技術飛速發展。大模型有效解決了場景需求碎片化、應用落地難、投入重復等痛點,加速產業化進程,降低應用門檻。未來生成式人工智能將成為公共基礎資源,如供水供電一般流向終端,流向用戶和企業。大模型加速了人工智能技術產業化的進程,將會有廣泛
49、而深入的應用,或將進入模型即服務的時代。1.5 人才生成式人工智能屬于前沿技術,跨學科屬性強,需要多學科專家配合。以 OpenAI 公司為例,聯合創始人涉足風險投資、人工智能、航空航天、自動駕駛等多個領域,核心團隊目前由 87 位核心成員組成,絕大多數來自全球頂尖高?;蛑髽I,是相關領域的專家。在 2019 年,微軟向 OpenAI 提供了 10 億美元的投資,2023年 1 月提供了第二筆 100 億美元的投資,用于聘請更多的研究人員、建立算力和數據等技術基礎設施。36生成式人工智能治理與實踐白皮書語言大模型基于 Transformer 網絡結構,分三個階段完成訓練,在生成階段還可能借助外
50、部工具集獲取額外信息對模型提供引導。2.1 Transformer 網絡2018 年,基于 Transformer 網絡結構的生成式預訓練模型(Generative Pre-trained Transformer,GPT)問世,用于生成自然語言文本。Transformer 模型使用了自注意力機制(Self-attention Mechanism),讓輸入的 Query 自己決定哪些部分為需要關注的對象,聚焦于核心信息。Transformer 模型生成內容的流程:模型對輸入的 Query 計算語義向量(Embedding)和位置編碼(Positional Encoding);然后進入編碼階段,輸
51、入的是語義向量和位置編碼,利用自注意力機制聚焦于關鍵對象,再進入神經網絡計算。在解碼階段,也利用了自注意力機制,模型按位置逐步產生可能的輸出,也就是詞匯的向量表示和概率。最后是歸一化,將解碼階段輸出的向量,取最大概率值對應的詞,轉換為自然語言作為最終輸出。2.2 訓練過程和使用的數據語言大模型的訓練目標是通過對無監督語料、有監督語料、人類反饋信號的學習,使其具備通用智能。2.2.1 無監督預訓練階段本階段的目標是讓模型獲取語言學知識(如何像人一樣說話)、世界知識(全領域的常識)、智能的涌現,如上下文學習能力(In-context learning)、思維鏈(Chain of thought)等
52、,奠定模型的能力基礎。模型最容易學會語言學知識,然后是世界知識,智能的涌現難度高一些。我們往往發現:模型生成的內容語句通順、合乎語法(學會了像人一樣說話);但是會犯常識錯誤,一本正經地胡說八道(沒有完全掌握世界知識),簡單的小學數學題不會做(思維鏈能力不足)。無監督預訓練使用從公開域搜集的海量文本信息。載體包括百科、論文、書籍、社區、新聞等;數量巨大,字數可達千億甚至萬億級別。一次完整的訓練可能需要一個月甚至更長時間;消耗的算力資源多,單次成本在2.語言大模型37百萬美元級別。這一特點決定了無監督預訓練不可能高頻率迭代,也就是說語言大模型更新知識的周期較長,無法對近期的問題作出準確回答。從無監
53、督預訓練的目的看,是讓大模型具備通用的能力,而不是對用戶個體的理解,所以并不需要主動搜集個人信息用于訓練。訓練的數據中本來存在的風險可能會給語言大模型引入各種風險。目前我們并不能確定大模型是否以類似人類的方式學習了訓練語料,但是可以肯定的是,大模型由于參數規模巨大,具有很強的記憶力,很可能會記住訓練語料中大量的原文。這些被模型記住的內容可能包括違法不良信息、個人隱私、歧視與偏見、未經授權的知識產權內容等。如果模型真的能“學習”語料,甚至還會因為良好的泛化能力在響應用戶的相似提問時“舉一反三”地輸出風險。訓練數據中缺失特定信息也會引入風險。從原理上講,無監督預訓練階段會對語料中出現的內容進行統計
54、,并計算內容之間的相關性,如果特定信息不在訓練數據中,語言大模型根本就不會獲得關于這個特定信息的知識,在執行生成任務時就不會生成相關內容或者給出錯誤的答案。2.2.2 有監督微調(SFT)階段在有監督微調階段,語言大模型獲得指令遵循能力,被激發認知能力,提升執行垂直領域特定任務的能力。本階段需要使用人工制作的有監督數據,數量從數萬條到數百萬條,主要形式為問答對;訓練時間持續幾天到十幾天。指令遵循能力:無監督預訓練階段完成后,語言大模型還不能很好理解與遵循人類的指令。模型需要通過示例來學習如何理解用戶的指令并按照指令生成有用的回答;與此同時,對指令的遵循可能帶來模型被惡意用戶誘導的風險,還需要讓
55、模型學會拒絕惡意指令。激發認知能力:如果把無監督預訓練階段比喻為學生閱讀大量材料自學,觀察其中的模式并建立模式之間的相關性;有監督微調階段可以比喻為課堂上老師借助少量例題進行講解,啟發學生思考,建立模式之間的正確聯系,并通過類比來擴展聯系。訓練數據中往往不可避免會混入事實性錯誤,以及不符合所在國家主流價值觀的內容,這些內容都可能影響語言大模型,使其在回答特定 Query 時輸出違法不良信息、歧視與偏見。由于深度神經網絡的不可解釋性,我們無法確定網絡中哪部分參數存儲了此類信息,以及從信息到數值化向量之間的關系;由于行為的不可控性,我們也無法禁止模型生成此類內容。需要指出的是,如果模型在無監督預訓
56、練階段學習的大量語料對某事物的評價是正向的,在有監督微調階段扭轉為負向評價比較困難。以及,有監督微調階段,如果問答對有偏,對模型造成的影響會很大。38生成式人工智能治理與實踐白皮書提升執行垂直領域特定任務的能力:語言大模型具備通用的智能,使用的訓練數據并不針對特定領域,訓練的方法并不針對特定的任務。這使得語言大模型在執行知識門檻比較高的專業領域中的特定任務時表現不一定好,如果信任其給出的答案,可能造成人身傷害與財產損失。2.2.3 基于人類偏好的強化學習(RLHF)階段本階段的目的是完成價值觀的對齊,使模型的輸出更符合人類預期的結果,比如遵循指令、給出有價值的回答、立場客觀公正、拒絕不當要求、
57、拒絕知識范圍外的問題等。RLHF 的核心思想圍繞訓練評價模型(Reward Model)展開,它的作用是確定人類在給定的列表中更喜歡哪個回答。評價模型是本階段成敗的關鍵因素。具體的做法是:建立人類偏好數據集,然后用數據集來訓練評價模型。首先,隨機采樣一個 Query,讓已經完成 SFT 的語言大模型生成若干個回答,比如 A、B、C。然后,讓標注人員對這三個回答進行排序,比如ABC。評價模型借助排序學習(Learning-to-Rank),通過學習輸入的類似 AB,BC 這樣的樣本,模型最終能夠對同一個 Query 的多個回答進行打分。評價模型訓練完成后,后續就不再需要人工。具體的過程是:語言大
58、模型針對一個 Query 生成 Response,評價模型對 Response 打分,語言大模型根據打分對自身做調整,然后重新生成 Response,評價模型再次對生成的結果打分。這個過程反復進行,直到生成的結果符合評價模型的要求。通過 RLHF 使語言大模型的生成內容更符合人類預期,是一種效果好而且效率高的方法。然而也會引入風險:評價模型反映的是標注人員的偏好而不是人類的偏好。標注人員的數量并不會很多,而且標注人員的種族、性】別、年齡、受教育狀況、地域等因素很可能分布不均,不可避免會引入錯誤的觀點、歧視與偏見。評價模型可能“偷懶”學習到淺層次的特征,而不是反映本質的特征。比如,針對一個 Qu
59、ery 有 A 和 B 兩個 Response,其中 A 有條理地從不同角度進行了分析,然后給出了不同策略下的意見;B 簡短地給出了唯一的結論。標注人員的排序是 AB。然而,評價模型學習的時候,有可能把 A 優于 B 的原因歸結為篇幅更長。后續評價模型指引語言大模型做強化學習時,可能鼓勵語言大模型生成冗長而不一定實際有用的 Response。評價模型的獲得,因為需要多人的交互,時間相對長;后續語言大模型的迭代時間較短,以小時為單位。一個好的評價模型能夠讓語言大模型在短時間內低成本完成與人類價值觀的全面對齊;與此同時,語言大模型無法反抗評價模型,只能按照其評價來修改自己的行為,一旦評價模型有偏會
60、導致語言大模型放大偏差。392.3 語言大模型的生成過程語言大模型在一個具體的用戶與模型對話序列中生成內容,輸入既包括當前 Query,也包括之前的對話內容。輸出的內容,由輸入和模型來共同產生。前文信息有助于語言大模型了解語境,更好地理解用戶的意圖,消除Query 中的歧義。然而,用戶可能借助對話序列對模型進行誘導,Query 中還可能含有違法不良信息、錯誤的價值觀與偏見歧視、個人信息、未經授權的內容等,這些都可能造成模型輸出風險內容。隨著模型能接收的 Query 長度增加,我們也可以利用這一有利條件來引入更多可靠的信息,從而提升模型的生成質量。通過前面介紹的訓練過程,我們可以認為:語言大模型
61、的特性中包含對訓練數據做記憶和檢索的成分,但是這個記憶并不精確,而是做了壓縮,造成對事實性問題容易犯錯。語言大模型擬合了訓練數據的分布,并歸納出很多種模式,在生成的過程中會對每個具體的位置選擇一個模式,從而表現出一種不穩定的形式,也就是生成的可控性低。為了提升生成結果的有用性和可靠性,產品設計上往往會將針對 Query 的檢索結果、工具集調用的結果也一起輸入到語言大模型中。傳統的信息檢索,由于很方便判斷信息來源,可以針對事實性問題獲得精確的結果;而且能夠給出近期的信息。工具集則可以完成特定的任務,尤其是大模型不擅長的計算與邏輯推理任務。綜上所述,模型的輸入既包含 Query 的內容和對話前文,
62、又有檢索得到的精確結果、工具集返回的計算/推理結果,在此基礎上做生成,得到的內容有用性和可靠性都會得到提升。然而,檢索結果、工具集結果中也可能引入個人信息、違法不良信息、錯誤的價值觀與偏見歧視、未經授權的內容等,直接或者間接造成模型生成的 Response 含有風險。40生成式人工智能治理與實踐白皮書2.4 小結:語言大模型的風險來源如前所述,語言大模型基于 Transformer 網絡結構,屬于深度神經網絡,具有深度神經網絡固有的魯棒性不足、可解釋性缺乏、生成內容可控性較低等缺陷。在訓練的階段,會因為訓練數據中含有未經許可的個人信息、違法不良信息、錯誤的價值觀和偏見、未經授權的內容等而引入個
63、人信息、內容安全、模型安全、知識產權方面的風險;如果模型沒有學習到拒絕用戶的不合理請求,則可能為了滿足用戶的需要而輸出風險信息;強化學習階段可能放大已經存在的風險。生成階段也會因為用戶 Query 的特定要求、對話的前文、調用的工具集等對模型產生誘導,生成風險內容。41目前主流的生成式視覺大模型是基于輸入文本的圖像生成大模型。下文從模型原理、訓練過程和生成過程,以及風險來源來介紹視覺大模型。3.1 模型原理生成式視覺大模型有多種實現,目前最主流的是 Stable Diffusion 模型。Stable Diffusion 的前身是一個 Latent Diffusion Models(潛在擴散模
64、型,LDMs)的文生圖(Text-to-Image)模型,之后,Stability AI 的研究團隊使用了 4000 個 A100 GPU 在 LAION-5B 的一個子集上訓練了一個 Latent Diffusion Model,該模型就是 Stable Diffusion。通過海量數據的訓練,Stable Diffusion 模型表現出了優秀的圖像生成能力。和之前的基于 GAN 的生成式模型不同,Stable Diffusion 是基于擴散模型的生成式視覺大模型。擴 散 模 型(Diffusion Model)的 基 本 思 想 來 自 物 理 學 領 域 的 非 平 衡 熱 力 學(No
65、n-equilibrium Thermodynamics),是一種隱變量模型(Latent Variable Model),包括擴散過程和逆擴散過程。其中擴散過程使用馬爾科夫鏈不停地在圖像上疊加高斯噪聲,例如 Xt-1 上疊加高斯噪聲形成 Xt。逆擴散過程的目的是從高斯噪聲圖像逐步去噪,從而生成高質量的符合原始數據分布的高質量圖像。在數據生成過程中,變分自編碼器和對抗生成網絡是將隱空間的特征使用生成網絡合成數據;而擴散模型的生成過程是從高斯噪聲出發,通過不斷地迭代最后形成合成數據。相比于變分自編碼器和對抗生成網絡,由于涉及到迭代的過程,擴散模型的數據合成更加耗時。但是這也帶來了其他優點,比如擴
66、散模型合成的數據在多樣3.視覺大模型42生成式人工智能治理與實踐白皮書性以及質量上都超越了對抗生成網絡。Stable Diffusion 本質上是一個條件生成模型,即根據輸入的文本內容生成對應的圖像。生成過程是基于擴散模型的去噪過程,將一張純噪聲圖片通過迭代的方式逐步去除噪聲,同時在去噪過程中引入文本信息作為條件指導。具體的文本和視覺信息的融合采用交叉注意力的方式進行多模態信息的融合。由于圖像的原始空間維度非常高,導致擴散模型在訓練和生成的過程中都非常耗時。所以 Stable Diffusion 不是直接在高維圖像空間中操作,而是首先將圖像壓縮到隱空間。對比原像素空間,隱空間小了 48 倍,從
67、而加速了擴散模型的訓練和生成效率。在模型結構上,Stable Diffusion 主要由圖像自編碼器、圖像生成器和文本編碼器三個部分組成。Stable Diffusion 中采用的圖像自編碼器是一個 VAE 模型。文本編碼器是一個 Transformer 語言模型,可以把文字轉換成 Embedding 表達。圖像生成器由一個 U-Net 網絡和一個采樣算法共同組成。3.2 訓練過程視覺大模型的具體訓練過程一般可以分為無監督預訓練階段(文本編碼器、圖像自編碼器)、生成模型訓練階段(圖像生成器)、生成模型對齊階段這三個階段。其中無監督預訓練階段包括圖像自編碼器與文本編碼器的訓練。生成模型訓練階段主
68、要指圖像生成器的訓練。生成模型對齊階段主要是使擴散模型與用戶的生成目標對齊的過程,主要體現在個性化/定制化的生成、可控生成等。3.2.1 無監督預訓練階段圖像自編碼器預訓練目的是使用圖像編碼器將高維的圖像信息壓縮到低維的隱特征空間,然后使用圖像解碼器能夠將隱特征恢復到原始圖像的像素空間,從而對圖像進行語義壓縮。具體而言,圖像自編碼器(Auto Encoder)是一種深度學習模型,其目的是學習數據的緊湊表示,同時保留足夠的信息來重建原始數據。它由一個編碼器和一個解碼器組成,其中編碼器將輸入數據壓縮成一個低維表示,而解碼器將這個低維表示轉換回原始數據。自編碼器的主要應用之一是數據壓縮和去噪,以及特
69、征提取和生成模型。自編碼器在圖像處理中有多種應用,包括圖像壓縮和解壓縮、特征提取、圖像合成和超分辨率等。其中,生成對抗網絡(GAN)和變分自編碼器(VAE)是兩種常用的圖像合成方法。GAN 通過生成器和判別器之間的競爭來生成新樣本,而 VAE 使用潛在變量模型來學習數據的緊湊表示。43為了減少擴散模型的計算量,Stable Diffusion 模型中引入了圖像自編碼器,將圖像從高維的原始像素空間壓縮到低維的圖像隱空間,然后在該向量空間上使用擴散模型進行隱空間的圖像生成,最后通過解碼器將隱空間解碼到原始像素空間。這個階段使用的訓練數據一般是 ImageNet 數據集,約 120 萬張圖像。文本編
70、碼器預訓練目的是將圖像和文本映射到同一個特征空間,從而可以度量圖像和文本之間的語義相似度以及兩個模態間的特征可以相互表征,一般采用多模態對比學習的方法進行自監督訓練。多模態對比學習是一種將多個模態(如圖像和文本)的信息融合在一起進行學習的方法,通過對不同模態的信息進行比較,來捕捉它們之間的內在聯系和相互表示。多模態對比學習在多個領域都有應用,如自然語言處理、計算機視覺和語音識別等。為了能夠融合圖像和文本信息,Stable Diffusion 模型中直接使用了 CLIP 的文本表征模型。CLIP(Contrastive Language-Image Pretraining)模型是 OpenAI
71、提出的一種通過聯合訓練圖像和文本任務的方法進行預訓練的模型,以自監督的方式訓練,通過學習將描述性文本與圖像內容關聯起來,能夠理解圖像和文本之間的語義關系,從而使得基于文本生成的圖像能夠有效保持輸入文本的語義特征。當然,不同的視覺生成式大模型也可以采用不同的文本預訓練編碼器,例如 DeepFloydIF 采用了純文本預訓練模型 T5,圖像和文本的語義對齊的任務放到了生成模型訓練的階段。具體采用哪種文本編碼器效果最好,目前在學術界和產業界還沒有形成共識。在圖像和文本編碼器預訓練階段,訓練數據中可能存在違法不良的信息。經過對違法不良信息數據的學習,圖像編碼器模型具備了對這些違法不良信息的重建能力,文
72、本編碼器使得文本的語義特征和圖像語義進行了對齊,從而使得違法不良的文本信息可以傳導到圖像生成過程中。3.2.2 生成模型訓練階段生成模型訓練的目的是根據當前的噪聲圖像和文本信息的輸入,優化生成模型 UNet 的參數,使其能夠去除當前圖像的噪聲,從而形成高質量的且具有文本語義的圖像。這階段的訓練數據一般采用圖像-文本對數據,數據規模巨大。Stable Diffusion 就是在 LAION-2B-en 數據集上訓練的,它是 LAION-5B 數據集的一個子集,包含 20 億多圖文對數據。訓練時長大約為 A100 150,000 GPU Hours。由于生成模型訓練階段會使用到海量的圖文對訓練數據
73、,其中包含的違法不良信息和個人生物特征信息等都會通過訓練壓縮到模型中。這導致生成模型在生成階段可能會面臨個人信息、內容安全、知識產權等風險。44生成式人工智能治理與實踐白皮書3.2.3 生成模型對齊階段雖然 Stable Diffusion 模型具有很強的通用能力,但是在個性化定制的生成方面能力欠缺。在視覺大模型方面已經有很多工作研究個性化的生成方式,其中以 Dreambooth、Lora、ControlNet 為代表的 Stable Diffusion 定制化微調已經在很多場景被廣泛使用。生成模型對齊階段的目的是使得生成模型的生成能力和用戶的需求相對齊,主要體現為生成的樣本更加個性化和可控。
74、這階段的訓練數據基本都是開發者自行組織的數據,包括個性化數據、特定領域數據(例如二次元數據)等,數據規模從幾個到幾千到幾十萬級別。相比于生成模型訓練階段,這階段只需要少量數據就能進行有效對齊。個性化定制使得生成模型的生成更加定制化、更加可控。這也會給視覺大模型帶來額外的風險。利用違法不良數據進行定制化微調,使得視覺大模型的風險更加突出。3.3 生成過程基于 Stable Diffusion 的視覺大模型的生成過程主要是逆擴散的過程。一般的,用戶會輸入以下信息來生成對應的圖像。文本提示:用戶輸入的文本提示主要是描述希望生成的是什么樣的圖片。圖像的分辨率:用戶輸入圖像的分辨率,用于指定生成的圖像的
75、寬和高。提示詞相關性(CFG Scale):該參數主要控制生成的圖像和文本提示之間的相關性。CFG 太低會導致圖像飽和度偏低和文本提示不相關。過高的 CFG 可能會出現過度銳化從而影響生成的圖像質量。采樣方法:由于擴散模型的生成過程是迭代式的,這導致了生成的速度很慢。所以很多學術界的工作致力于加速擴散模型的生成過程。通常采樣方法和擴散模型的訓練過程相互獨立,即在生成階段可以使用不同的采樣方法生成圖片。采樣步數:采樣步數表示生成階段的去噪的步數,步數越多,生成的質量越好,但是耗時越長。負文本提示:為了提升擴散模型生成圖像的質量,一般還會引入負文本提示,負文本提示的不希望生成的圖像有這些性質,例如
76、模糊等。通過以上信息的輸入,初始化的圖像從高斯噪聲出發,根據輸入的文本提示信息通過擴散模型不斷迭代去除噪聲,最后形成符合用戶預期的合成數據。45在這個過程中,惡意用戶可能會將有害的文本提示信息進行輸入,從而導致生成有害的圖像數據,引發內容安全的問題。如果用戶的文本提示中輸入藝術家藝術風格類型的詞匯,也會導致生成的圖像數據具備輸入藝術家的作品風格,有可能會導致知識產權的問題。在個人信息方面,用戶可以通過在提示中輸入包含個人信息的內容,合成具有個人信息的圖片,從而導致個人信息的風險。此外,攻擊者還能利用對抗攻擊、投毒攻擊等方式,攻擊視覺大模型誘導其生成有風險的數據,引發視覺大模型的模型安全風險。3
77、.4 小結:視覺大模型的風險來源視覺大模型的風險來源主要來自兩部分,一部分是模型自身的安全問題,例如深度神經網絡的魯棒性、公平性、不可解釋性等風險。此外,在視覺大模型的不同訓練階段,也存在這個人信息、內容安全、模型安全、知識產權等方面的風險。例如,訓練數據中含有未經授權的個人信息數據,從而導致視覺大模型生成了侵犯個人隱私的圖片。下表展示了視覺大模型在訓練的各個階段的一些風險問題以及產生這些風險問題的原因。46生成式人工智能治理與實踐白皮書47四.生成式人工智能風險治理實踐和探索48生成式人工智能治理與實踐白皮書隨著 ChatGPT 這個現象級應用的橫空出世,各方逐漸認識到以大模型為代表的生成式
78、人工智能引發了全新的產業變革,帶來無法限量的價值,以及通用人工智能技術路線的不確定性。對生成式人工智能進行有針對性的風險治理成為了政府側和產業側的共識,并形成了立法有針對性回應、政策順應實踐發展、產業自律自治的治理格局。1.1 以針對性立法回應技術發展與產業需求我國網信辦等部門發布了生成式人工智能服務管理暫行辦法,專門回應生成式人工智能服務提供者在技術發展與治理的權利與義務、監管部門的權責等。歐盟方面,人工智能法案突破了最初提案所設定的“不針對沒有特定目標的人工智能系統”(AI systems without a specific purpose)原則,在 5 月 11 日歐洲議會兩個委員會通
79、過的草案對基于大規模的數據上訓練出來的人工智能模型、用于通用輸出并能適應廣泛的特殊任務的“基礎模型”進行了專門規定,對“基礎模型”的提供者增加了三方面的特別義務:一是針對基礎模型的設計和開發的風險管理義務,通過多種手段提高模型的安全性、穩定性,包括(1)分析、記錄和管控各類風險,(2)管理數據來源,(3)模型性能、可解釋性、安全性評估,(4)能耗控制,(5)質量管理,并基于上述內容進行備案。二是針對基礎模型的后續使用的信息保障義務,鑒于基礎模型所具有的功能多樣性和應用可能性,當被直接集成到高風險人工智能系統中時,需要通過可理解的技術文件和使用說明,以支持下游使用者合規地開發和使用。三是針對應用
80、基礎模型的生成式人工智能,則對生成內容提出了額外要求,包括不得生成違法內容、不得損害基本權利,以及披露受著作權法保護的訓練數據的使用情況。西班牙數據保護局 AEPD 呼吁歐盟層面的個人數據保護機構評估 ChatGPT 可能引發的隱私擔憂,對此歐盟數據保護委員會(EDPB)成立了一個特別小組,并就可能采取的執法行動交換信息,希望出臺針對人工智能隱私規則相關的公共政策。1.2 以政策完善構建與技術發展需求相匹配的治理機制一方面是基于大模型的產業特點進行分層治理。從大模型研發到應用開發到使用管理,其產業鏈條長、利益相關方眾多、各環節相互責任關系還不明確。為了保證治理措施不過度妨礙大模型技術創新和產業
81、應用,治理模式不斷創新,形成了與大模型研發應用管理相匹配的分層治理模式。加拿大人工智能與數據法草案將人工智能1.生成式人工智能治理格局建設49全生命周期區分為設計、研發、投入使用和管理四個環節,對每個環節的安全保障管理義務進行分別規定,并對不同主體客以差異化的責任。我國生成式人工智能服務管理暫行辦法明確鼓勵服務提供者發展技術、推動相關基礎設施和公共訓練數據資源平臺建設、提供優質內容,各主管部門科學監管、制定相應的分類分級監管規則或指引,使用者有投訴、舉報權利;互聯網信息服務深度合成服務管理規定將生成式人工智能產業鏈的參與者分為技術支持者、服務提供者、服務使用者,其中服務提供者面向用戶和公眾提供
82、生成式人工智能內容,承擔較多的內容管理和用戶管理及保護義務,而技術提供者更多在后端進行模型開發,因此承擔較大的模型安全和數據安全義務。另一方面是對大模型的研發應用進行協同治理。各國政府在針對大模型提出治理合規要求的過程中不斷征求各方意見,并通過出臺指南指引、進行講解培訓等方式幫助人工智能企業提高安全合規能力。此外,在立法和政策中強調提升公眾的人工智能理解和使用水平,推進公眾和其他利益相關方參與到人工智能治理之中,為承擔大模型開發的企業進行反饋和建議,形成群策群力、敏捷協同的大模型治理機制。1.3 產業自律自治筑成負責任創新治理機制在政府進行針對性的治理回應的同時,社會力量也快速參與到治理中,在
83、原則理念和行動方式方面自下而上創新治理機制、推動形成治理共識。學術界和產業界已經開始對生成式人工智能的安全風險和倫理問題進行反思,提出了暫緩研發應用、加強技術安全、評估倫理影響、防范控制危害等一系列自律性的問責要求。2023 年 3月29日,生命未來研究所(Future of Life Institute)公布由辛頓、馬庫斯和馬斯克等行業領軍人物簽署的公開信,呼吁立即暫停訓練比 GPT-4 更強大的人工智能系統至少 6 個月。信中指出,人工智能開發人員必須與政策制定者合作,以顯著加快構建更為有力的人工智能治理體系,具體建議包括:(1)建立專門負責人工智能的有能力的新監管機構;(2)監督和跟蹤高
84、性能人工智能系統和大量計算能力;(3)推出標明來源系統和水印系統,以幫助區分真實與合成的內容;(4)構建強大的審計和認證生態系統;(5)界定人工智能造成的傷害的責任;(6)為人工智能技術安全研究提供強大的公共資金;(7)設立資源充足的機構來應對人工智能將可能造成的巨大經濟和政治破壞。50生成式人工智能治理與實踐白皮書2023年3月23日,OpenAI在其官網上發布使用政策(Usage Policies),向用戶闡明如何安全負責地使用其產品,包括禁止的用途,平臺政策,插件政策等。其中,禁止的用途覆蓋了生成仇恨性內容、欺騙性內容,侵犯他人隱私行為,沒有在具有資質的專業人士監督下生成法律意見,財務意
85、見等方面。2023 年 5 月 16 日,OpenAI 首席執行官山姆阿爾特曼(Sam Altman)在美國參議院舉行的聽證會上提出了對生成式人工智能的三大治理方向,包括:(1)對超過關鍵能力門檻的大模型的研發和發布實施許可制;(2)制定“一個足夠靈活的治理制度”,考慮多方利益相關者,并廣泛聽取專家和組織的建議,對人工智能系統的安全標準、評估要求、披露做法和外部審計作出規定;(3)監管機制需要考慮在國際范圍內的實施與推行。2023 年 7 月 21 日,美國總統拜登在白宮召集七家領先的人工智能公司,包括亞馬遜、Anthropic、谷歌、Inflection、Meta、微軟和 OpenAI,并宣
86、布這些公司已自愿承諾,幫助實現人工智能技術安全、可靠和透明的發展。51從前面的分析得知,很多風險是從訓練使用的數據,以及訓練方法引入的;而且由于深度神經網絡的不可解釋性,我們無法確定網絡中哪部分參數對應這些風險,也沒有技術手段在生成階段禁止模型生成風險內容。這決定了以工程化的風險治理視角分析,結合國內外法規和倡導性意見,生成式人工智能的風險治理需要貫穿產品的全生命周期模型訓練、服務上線、內容生成、內容發布與傳播各階段。同時,訓練數據和模型參數規模巨大、深度神經網絡的不可解釋性,為鼓勵新技術的發展,結合國際治理實踐,又需要對可能出現的風險保持審慎包容的態度。大模型生成的內容是用戶和模型交互的結果
87、,并不完全是模型自身的產出。內容安全的風險很大程度上是來自于用戶的惡意輸入和誘導,從用戶維度進行管控也是非常有效的手段之一。而在內容傳播階段,其風險的擴散范圍和速度,已經脫離了服務提供者的控制,需要用傳播領域的手段來治理風險。因此,生成式人工智能的風險治理需要全面考慮數據、模型、服務、用戶等要素。治理 2.生成式人工智能不同環節的風險52生成式人工智能治理與實踐白皮書2.1 模型訓練階段的風險治理訓練階段奠定了模型的能力基礎,也決定了模型自身的安全性;這個階段會涉及到數據和模型,不會和用戶發生關聯。相應的風險治理工作包括:2.1.1 訓練數據的篩選和過濾采集時對數據源進行審核,選擇可信度高、正
88、確導向的數據源合法進行采集;采集后對數據進行清洗、安全過濾,剔除含有風險的數據。在有監督微調階段、基于人類偏好的強化學習階段涉及到標注的數據,需要進行機器和人工相結合的審核。數據的質量在很大程度上決定了模型能力和安全性的上限。2.1.2 模型安全評測針對生成式人工智能的特點,進行風險定義,建設 Benchmark 和評測能力,對模型風險做全面深入的評測。Benchmark 的構建,需要考慮多個維度:風險分類、對模型的誘導方式、事實幻覺,以及針對特定領域Query 的識別。風險分類包括但不限于內容安全、個人信息、模型安全等;誘導方式包括但不限于直接提問、多輪問答、角色扮演、安全否定、信息投毒等;
89、事實幻覺考察大模型生成內容與事實是否符合;針對醫療、投資等特定領域的評測,對公眾提供服務時回答這些領域的問題可能需要相關資質。建設能力同時,需要建設生成式人工智能模型/服務的評測體系,在發生模型迭代、服務功能變更時,以及日?;瘓绦邪踩u測,持續全面地跟蹤安全情況。2.1.3 模型對齊與內生安全增強首先,通過技術手段將人類價值觀量化并嵌入模型,令生成式人工智能“理解”人類的價值,保障在運行實施階段能夠遵循。針對評測中發現的問題,采取技術手段在模型迭代時增強內生安全能力。模型內生安全能力能夠從根本上保障模型的安全性,能夠有效減輕外部安全措施的壓力,降低風險內容生成的可能性。內生安全的增強,可以貫穿
90、模型訓練的三個階段,在每個階段有不同的方式。2.1.4 算法機制機理審核企業內的風險管理團隊需要在生成式大模型構建的早期就介入,圍繞生成式人工智能產品全生命周期的潛在風險要素,對模型的目的、采用的技術、使用的數據、干預的方式等重要因素開展審核,對不合規、不合理的部分提出具體可實施的整改要求,并監督有關部門盡快落實,將安全隱患遏制于研發階段。532.2 服務上線階段的風險治理在算法服務上線階段,服務提供者需要選擇安全有效的模型作為基座構建完整的算法服務。在這個階段并不涉及模型的訓練、使用的數據,但是會決定對模型的核驗、對模型的使用方式、調用的工具集等。模型選用:在模型能力滿足業務需求的前提下,服
91、務提供者可以選用具有良好資質和聲譽的技術支持者提供的模型,模型應盡可能滿足魯棒性、可解釋性、可追溯性等指標要求。模型核驗:服務提供者在使用前對模型進行核驗,完成多維度安全評測。服務提供者并不一定具備進行多維度安全評測的能力,需要由中立的第三方機構提供評測服務。服務需要使用的工具集(Tool-plugin):服務提供者根據業務目的明確在服務過程中調用哪些工具,驗證其合理性和必要性;決定工具集返回信息的使用方式;進行安全測試,確保工具提供的信息不會導致模型產生違法不良信息、錯誤傾向等內容。合規動作:企業自行開展算法安全自評估,對算法目的、使用的數據、模型、訓練方法、評測過程、干預策略等進行評審。根
92、據主管部門的管理辦法要求,技術提供者和服務提供者需要向主管機關做相關的算法備案、向用戶提供用戶協議、公示算法機制機理等,在運行過程中根據審計要求建立完善的日志。2.3 內容生成階段的風險治理大模型生成的內容是用戶和模型交互的結果。用戶的輸入,以及模型對用戶之前輸入的反饋,都影響到模型當前的生成。用戶使用生成式人工智能服務的目的、是否主觀上給出惡意輸出和誘導,很大程度上決定了模型輸出內容的安全性。生成式人工智能服務,是用戶達成目的的工具。實踐中,內容安全的風險很大程度上是來自于用戶的惡意輸入和誘導,從用戶維度進行管控也是非常有效的手段之一。這就意味著,服務提供者對生成內容的風險管理并不局限在內容
93、維度,還需要擴展到用戶維度。具體的工作包括:2.3.1 賬號管理按照相關法規,完成賬號的注冊、身份核驗、安全管控、賬號的分類分級等管理工作。對于用戶的身份核驗,互聯網信息服務深度合成管理規定中明確指出:“深度合成服務提供者應當基于移動電話號碼、身份證件號碼、統一社會信用代碼或者國家網絡身份認證公共服務等方式,依法對深度合成服務使用者進行真實身份信息認證,不得向未進行真實身份信息認證的深度合成服務使用者提供信息發布服務”。生成式人工智能服務管理暫行辦法沒有做進一步的要求,但參考相關定義,生成式人工智能服務提供者也應當遵守包括互聯網用戶賬號信息管理規定在內的相關法律法規規定,在前端對賬號進行管理,
94、降低生成內容的風險。54生成式人工智能治理與實踐白皮書2.3.2 個人信息保護互聯網信息服務深度合成管理規定中明確指出:深度合成服務提供者和技術支持者提供人臉、人聲等生物識別信息編輯功能的,應當提示深度合成服務使用者依法告知被編輯的個人,并取得其單獨同意。生成式人工智能服務管理暫行辦法中要求,在模型訓練過程中涉及個人信息的,應當取得個人同意;(技術、服務)提供者不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應當依法及時受理和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求。2.3.3 內容審核與處置 審
95、核機制:建立內容審核的制度、專職團隊;對用戶輸入信息、模型輸出信息進行安全審核;對不同時效要求的業務場景采取不同的審核方式。內容分類分級:對于涉及生物特征,包含特殊含義物體,新聞等生成內容進行更嚴格的審核。審核技術:建設風險知識庫、多模態的過濾能力、針對變形變異的識別能力等,以檢測可能的違法不良信息、個人信息、錯誤價值觀與歧視偏見等。正向引導:針對底線及原則問題,需要建設標準答案庫。一方面避免因為模型的行為不可控性做出錯誤的回答,另一方面也可以通過標準答案傳遞主流價值觀,進行正向引導。不當內容處置:建立阻斷機制;對于模型生成不適宜內容的情況,具備應急處理的技術手段等。2.4 內容傳播階段的風險
96、治理內容的傳播方式和途徑、范圍是風險的決定性因素之一。在傳播環節出現的風險,需要建立相應的風險治理技術手段和工作機制。2.4.1 添加標識互聯網信息服務深度合成管理規定明確定義,深度合成服務可能導致公眾混淆或者誤認的,應當在生成或者編輯的信息內容的合理位置、區域進行顯著標識,向公眾提示深度合成情況。這些場景包括:智能對話、智能寫作等模擬自然人進行文本的生成或者編輯服務;合成人聲、仿聲等語音生成或者顯著改變個人身份特征的編輯服務;55 人臉生成、人臉替換、人臉操控、姿態操控等人物圖像、視頻生成或者顯著改變個人身份特征的編輯服務;沉浸式擬真場景等生成或者編輯服務;其他具有生成或者顯著改變信息內容功
97、能的服務。為了實現對生成合成內容的確認和溯源,推薦對生成內容添加隱藏標識,記錄服務提供者、服務使用者、生成時間等信息。隱藏標識應具備足夠的抗攻擊能力、溯源能力。目前,針對圖像、視頻的隱藏標識在技術上比較成熟,達到實踐中可用的程度;針對文本的隱藏標識能力技術上尚未成熟。生成式人工智能服務管理暫行辦法要求,(技術、服務)提供者應當按照互聯網信息服務深度合成管理規定對圖片、視頻等生成內容進行標識。2.4.2 風險監測 信息監測:建立輿情監測、前臺內容巡檢等工作機制。舉報投訴:建立舉報投訴入口,并及時處理。2.4.3 應急處置建立辟謠機制,建立應急處理響應機制并做演練。在虛假信息傳播時,盡早進行處置可
98、以有效控制傳播范圍和深度。56生成式人工智能治理與實踐白皮書3.1 大模型與個人信息的關系人工智能經歷了從有監督學習向無監督學習的發展階段,卷積神經網絡等技術推動了數據驅動的應用模式:在需求側人工智能可以通過獲取、學習和分析海量的用戶行為數據,判斷用戶的偏好和需求,實現對用戶的認知和洞察;在供給側人工智能則通過學習內容的特征,借助推薦、排序等機制實現用戶需求和內容的匹配,并根據用戶的行為反饋進行優化,提高推薦的準確性?;谏鲜鎏攸c,此類人工智能的產業應用呈現出明顯的規模效應,在需求端需要更多的用戶數據,在供給端則依賴更為全面的內容特征。與此前的人工智能相比較,生成式人工智能的技術特征有明顯差異
99、。語言大模型的主要功能是模擬人類的思維活動方式生成人類可以理解和使用的內容,模型的訓練并不依賴于用戶行為數據,而是對語料庫這一類知識性內容有強烈的需求。此外,為了保證生產內容與人類價值觀的對齊,業界往往采取了強化學習的方法,通過納入人工標注等 RLHF 機制優化模型表達,使模型生成的內容更接近于人類的認知。對于用戶數據并不依賴、對專業化高質量語料依賴大,這一特點使得生成式人工智能的產業應用不需要依賴連接用戶和內容的平臺模式,而可以發展出更為專業化、通用化的解決方案,以滿足人們對于知識內容的需求。山姆阿爾特曼在美國國會聽證中強調,ChatGPT 的優化目標不是為了最大化用戶參與度,因此除了保留
100、30 天用于信任度和安全執法保障外,OpenAI不會使用用戶數據訓練模型;同時因為過度使用會消耗太多的算力資源,OpenAI 也不會建立用戶配置文件,避免產生過多的用戶個性化使用需求。3.2 訓練數據中的個人信息生成式人工智能技術的發展對訓練數據的依賴度很高,在充分挖掘數據價值的過程中,不可避免要解決個人信息保護的問題。從平衡利益相關方、促進技術和產業發展等角度綜合考慮,場景化和分類分級是目前認可度較高的有益思路。在生成式人工智能對個性化要求不高的情況下,主動采用技術手段從源頭減少個人信息收集、降低個人信息在訓練數據中的比例和真實性。實踐中,預訓練階段語料數量巨大,常采取“關鍵詞+正則表達式匹
101、配”的方式檢測身份證、電話號碼等個人信息,然后執行刪除或者模糊化操作。對于訓練數據中無法避免收集、無法剔除的個人信息,按照我國法律法規及標準規范要求,一方面,可從合法公開披露的信息中收集個人信息進行訓練;另一方面,從收集、處理、存儲、使用等環節綜合考慮個人信息的3.個人信息合規57授權同意和安全使用。在全球性產品和服務中,對跨境傳輸的個人信息應同步考慮兩國或地區之間對個人信息保護的不同要求以及數據跨境安全問題。同時需要規范未成年人保護,尤其針對未成年人提供服務時,需要執行更嚴格的個人信息保護措施。從目前生成式人工智能服務管理暫行辦法看,訓練數據中的個人信息仍應按照網絡安全法個人信息保護法數據安
102、全法個人信息安全規范互聯網信息服務深度合成管理規定等要求利用,一般需遵循下述基本規則:收集與處理:核心是同意與分級。保障用戶個人知情權,以征得用戶自愿、明確同意為原則,僅在極少數法律規定的特定情形下可不取得個人同意。例如,個人信息保護法第二十七條“個人信息處理者可以在合理的范圍內處理個人自行公開或者其他已經合法公開的個人信息;個人明確拒絕的除外。個人信息處理者處理已公開的個人信息,對個人權益有重大影響的,應當依照本法規定取得個人同意?!蓖瑫r,個人信息授權可以撤回。在中國境內,需按照個人信息保護法、GB/T 35273-2020信息安全技術 個人信息安全規范的規定,進行一般個人信息和敏感個人信息
103、(生物識別、宗教信仰、特定身份、醫療健康、金融賬戶、行蹤軌跡等)的分類,尤其注意特殊用途人臉、人聲等生物識別信息用于生成式人工智能服務的情形下,產品和服務的提供者需要明確提示并取得使用者單獨同意。GB/T 42574-2023 信息安全技術個人信息處理中告知和同意的實施指南 更為詳細地區分了“告知”與“同意”情形,并對應提出了相關技術性處理方案,對法律規定情形予以推薦性細化與補充。存儲、加工與傳輸:核心是分級、去標識化、匿名化以及加密。對于不同級別的個人信息采取不同的措施使其脫離與個人信息主體之間的關聯性,有利于在保護個體權利的基礎上針對性使用。需要注意生成式人工智能服務管理暫行辦法從數據存儲
104、角度給用戶輸入個人信息用于后續訓練數據增加了明確限制,要求產品或服務提供者“不得非法留存能夠識別使用者身份的輸入信息和使用記錄”。GB/T 37964-2019信息安全技術 個人信息去標識化指南對去標識化進行了技術性闡述,同時,在附件中提供了針對個人信息去標識化的常用技術和模型,供實踐中參考。GB/T 42460-2023信息安全技術 個人信息去標識化效果評估指南也從效果上為個人信息的處理提供了參照。58生成式人工智能治理與實踐白皮書由于個人敏感信息的泄露和非法使用對人身、財產、人格尊嚴具有高風險,GB/T 35273-2020信息安全技術 個人信息安全規范指出在傳輸和存儲中,對個人敏感信息采
105、取加密等安全措施是必要的。使用與展示:核心是分級、信息范圍與安全可控、去標識化、降低負面影響。對已收集和處理的個人信息的使用與展示是生成式人工智能訓練階段對個人信息利用的重要環節。以可控、安全、無害的方式利用個人信息對生成式人工智能進行訓練,保證個人信息經過處理后不再與特定個人或群體相關、不胡亂匹配,是奠定生成物真實、合法、無害的基礎。生成式人工智能服務管理暫行辦法中,一方面對預訓練數據、優化訓練數據的真實性、準確性、客觀性、多樣性提出要求,另一方面要求產品或服務提供者不得非法留存能夠識別使用者身份的輸入信息和使用記錄等,同時對個人信息更正、刪除、屏蔽和投訴機制的建立提出要求。GB/T 352
106、73-2020信息安全技術 個人信息安全規范第 7 條對個人信息的使用與展示提出了規范性參考,雖然整體側重個性化,但對訓練數據中個人信息的使用與展示的技術性設計具有合規參考性。委托處理、共享、轉讓及第三方接入:核心仍是信息范圍與安全可控,且在個人信息處理者有變的情況下,需履行告知以及變更事項重新取得同意的義務。按照生成式人工智能服務管理暫行辦法的要求,用戶的輸入信息和使用記錄以避免向第三方披露為原則,如需向第三方披露或與第三方合作,應按照相關法律法規進行,因此,在涉及個人信息的問題上,應尤其注意個人信息保護法個人信息安全規范等要求。3.3 算法服務時拒絕生成個人信息在模型的訓練過程中,需要在有
107、監督微調階段通過構造 Query-Response 對,讓模型學習拒絕用戶對于個人信息的 Query、非法獲取個人信息的 Query,并在進行安全評測時確認模型能正確做出反應。如果訓練者具備進行基于人類偏好的強化學習的能力,也需要在這個階段進行模型和人類價值觀的對齊。算法提供在線服務時,對于用戶 Query 中對個人信息的違法不當請求予以拒絕,特別是生成虛假個人信息或獲取個人敏感信息。需要予以拒絕的個人信息包括但不限于:要求生成特定個人信息,如能夠標識身份的證件(身份證、護照、市民卡、銀行卡等)、住址、電話號碼等;要求告知非法獲取個人信息的方法,如批量購買特定歸屬地的手機號、獲取酒店住宿客人信
108、息、入侵計算機系統以盜取他人個人信息等。594.1 內容安全視角里,AIGC 與 UGC 的異同AIGC 相比 UGC(用戶生成內容),從內容安全角度看,在主體責任、交互性、審核時效性、內容復雜度、風險范圍等多個維度都有較大差異,還有針對特定問題必須正面做出正確回答的特殊要求。同時,在很多場景下,AIGC 和 UGC 又有很多相似之處,尤其體現在 AI 作為 U(用戶)的工具進行內容生成,此時用戶的使用目的、提示語、對生成結果的使用很大程度上又都是用戶的主觀意圖決定。4.內容安全保障60生成式人工智能治理與實踐白皮書4.2 生成式模型風險評測風險評測需要對風險做出明確的定義,構建覆蓋各風險點和
109、各種表現形式的 Benchmark,再設計方法對模型的 Response 進行準確的判讀。生成式模型的風險定義:從風險類型維度,可以區分為內容安全,還包括個人信息、模型安全等,針對每一種風險做細分定義。與此同時,針對 AIGC 的特點,還需要考察生成式模型在以下維度的能力:應對惡意誘導、出現事實幻覺、對特定領域 Query 的識別等。通過 Benchmark 定位生成式模型的風險:Benchmark 的獲得可以有兩種方式:基于風險知識庫借助模型生成,以及人工撰寫?;陲L險知識庫做生成的典型實現方式是:從風險知識庫提取知識點/條目,使用規則/生成式模型在知識的指引下做內容生成,生成的結果由專家進
110、行審核和改寫,然后得到風險 Query。構建的 Benchmark 能夠對大模型的安全性做全面細致的評測,反映大模型在哪些類別的風險上安全性不足,以及應對惡意誘導、出現事實幻覺的風險。機器與人工結合的評測:以往的判別式模型做評測相對簡單,比如評測執行分類任務的模型,只需要對 Benchmark 中每一道題預先打標給出 Label,比對模型給出的 Lable 與預置 Lable,就可以計算出 ROC 曲線來衡量模型的識別能力,整個過程可以完全自動化,執行成本低。針對生成式模型的評測則復雜很多,需要對模型生成的大段文字做出評價。如果說判別式模型的評測是批改判斷題,則生成式模型的評價是批改問答題。在
111、實踐中往往采取機器+人工結合的方式,具體的操作如下:針對獲得的風險query,借助生成式模型獲得多個Response,人工對Response進行審核、排序作為可用答案排序。評測時,針對模型生成的 Response,與可用答案一起進行排序,結合排序結果以及風險識別模型的判別結果進行決策。其中機器不確定的部分,由人工進行審核。614.3 模型層內生安全對輸入和輸出做安全過濾,實質上是在定義的有限的風險類型范圍內進行防御,而用戶的輸入在主題和目的上是全域的,模型生成的內容也是全域性的。提升模型生成內容的安全性,根本辦法是提升模型內生安全。4.3.1 無監督預訓練階段:本階段引入風險的主要因素是訓練語
112、料中包含的個人信息、違法不良信息、錯誤的價值觀、偏見與歧視等。針對訓練語料,首先需要對信息源進行篩選,選擇具有良好資質、良好聲譽的信息源;其次要對語料內容進行處理,將其中的個人信息采取模糊化等必要的過濾措施予以保護、對訓練數據采取必要的數據清洗措施以保障對生成結果輸出的安全有效管控。4.3.2 有監督微調階段:對于既有的有監督語料,需要進行安全過濾和人工審核。對于發現的風險,需要生成相應的安全語料對模型進行訓練,引導模型學習針對風險 Query 的正確態度和立場。安全語料的制作也需要借助生成式模型,可分為 3個步驟:步驟 1:風險 Query 的獲取。根據評測中發現的風險,借助生成式模型做知識
113、引導的語料生成,獲得一系列風險 Query。步驟 2:安全 Response 的獲取??梢杂袃煞N方式:針對風險 Query,借助生成式模型或者人工獲取多個Response。然后使用評價模型對多個 Response 進行排序,排名靠前的 Response 進行人工審核、改寫,得到最佳 Response。步驟 3:安全 Response 的多樣性生成。對于步驟 2 中得到的最佳 Response,借助技術手段做可控生成,提供安全語料的多樣性。4.3.3 基于人類偏好的強化學習階段:強化學習的關鍵是評價模型的質量。評價模型一旦生效,生成式模型無法反抗,只能按照評價模型的指導持續調整自身的行為。為了盡
114、可能保障評價模型的正確性、降低偏見,對生成內容排序的標注人員需要進行培訓,并且安排具有不同背景、不同來源的標注人員進行操作,盡可能提升排序結果的公平性。62生成式人工智能治理與實踐白皮書4.4 應用層安全機制應用層安全機制需要考慮算法服務全過程可能的風險,以及滿足對 AIGC 內容安全的特殊要求。安全機制可以直接搭載在生成式模型上作為插件,也可以是在產品層面接入。4.4.1 應用層安全機制整體設計 對特定問題做標準回答對于必須正面做出得體回答的問題,預置標準答案。當用戶 Query 提出此類問題時,在標準答案庫中進行檢索匹配,如果命中,則系統直接返回預置的標準答案。這一技術手段,也可以用于對線
115、上服務階段出現的風險進行應急處置,快速生效,避免繼續生成風險內容。對 Query 進行風險識別需要對用戶 Query 判斷是否存在個人信息、內容安全、模型安全等風險,以及是否存在惡意、是否涉及特定領域等。針對識別到風險的 Query,提供安全答復,并對用戶進行提醒?;谥R庫的檢索增強生成式模型基于概率做內容輸出,并不能保證對事實性問題作出準確的回答,出現“知識幻覺”;尤其是針對63模型訓練時間點之后的事件。一種緩解的方式是:針對用戶 Query,利用搜索引擎獲取可信度高的結果同時輸入到模型,引導模型做出符合事實的內容生成。對 Response 做安全過濾即便采取了以上措施,由于模型的不可控性
116、,Response中仍然可能含有個人信息、內容安全、模型安全等風險,需要在輸出之前再執行一次安全過濾,識別到風險內容則及時進行攔截。4.5 生成信息的信任機制模型的生成效果越來越逼真,對于 AIGC 和人類產生的內容,在實踐中技術手段很難準確分辨,即便經過訓練的人也無法在缺少輔助信息的前提下執行審核任務。模型生成的內容,其產生的影響或者風險有時并不取決于內容本身,還需要考慮使用方式和傳播情況。因此,需要使用技術手段,構建生成信息的信任機制,具體的做法包括但不限于:在可能造成誤解的場景下,對 AIGC 予以明確說明;有條件的情況下對于生成的內容提供依據,比如附上相關的真實鏈接;對于圖像、視頻等生
117、成內容嵌入魯棒性的隱藏水印,在傳播過程中做到可辨識可溯源。實踐案例:評估大模型安全性和責任感的中文評測集-CValues相比其他內容生產方式,AIGC的內容生產更加高效,更加不可控,并且有可能生成不安全以及不負責任的內容。所以針對大模型的安全評估和安全治理是一項重要的工作。當前,用于衡量大模型通用能力的數據集非常豐富,而用于安全評估的數據集卻非常匱乏。近期,阿里巴巴大模型團隊和安全團隊聯合發起了一個開源大模型治理項目給 AI 的 100 瓶毒藥,并推出了一個用于評估大模型安全性(Safety)和責任感(Responsibility)的中文評測集-CValues,旨在以人類價值觀為基準,評估中文
118、語言模型在處理真實世界情境中的問題和挑戰時的表現,幫助我們了解模型的能力和局限性。64生成式人工智能治理與實踐白皮書CValues 評測集由不同領域的專家人工構造,涵蓋了 10 個安全領域(從風險分類角度進行劃分,例如違法犯罪、敏感話題、身心健康、倫理道德等)和 8 個專業領域(從專家研究角度進行劃分,例如兒童教育、法理問題、親密關系、心理學問題等),并依托“給 AI 的 100 瓶毒藥”項目邀請了各專業領域的專家學者提供涉及人類社會價值觀的誘導提示,以確保提示信息的多樣性和專業性。在評估階段,對模型生成的結果同時進行了人工評估和機器評估,以客觀公正地展現中文語言模型的相關能力。評測結果顯示大
119、多數中文語言模型在安全方面表現良好,但在責任方面仍有很大的改進空間。此外,阿里巴巴也探索了如何提升模型的安全性和負責任能力,使其與人類價值觀對齊,例如通過邀請多個領域資深專家提出了各領域不同的原則和規范,并采用基于專家原則的訓練方法來協助模型實現價值對齊。實踐案例:知識計算強化違法不良信息防控能力生成式人工智能給內容安全保障帶來巨大的困難;不可控、幻覺等本質缺陷,都對內容安全工作提出了新的挑戰,對認知智能技術有著更高的依賴和要求,主要包括以下三方面的挑戰:強對抗、強動態、強時效。(1)強對抗挑戰體現在黑灰產會利用各種表達方式繞開檢測,包括隱喻攻擊、制造新梗、黑話暗語等。黑灰產還可能利用大模型進
120、行對抗,更加隱蔽和難以防控。(2)強動態挑戰體現在隨著新事件和話題的層出不窮,已有的數據標簽也會隨之發生變化,數據驅動的神經模型需要重新訓練。65(3)強時效挑戰體現在政策法規和監管指令頻繁下發,要求具備對新風險的識別能力,同時快速應急“止血”。在應對上述三個挑戰時,純數據驅動的神經網絡模型已經難以勝任,需要依托于專業的領域知識進行準確的風險判定。因此,將數據驅動的神經方法與知識符號推理進行結合是未來深度學習需要著重考慮的研究方向,神經符號主義希望能讓神經網絡結合符號化的知識體系,同時不失去神經網絡的靈活性。目前,產業界在內容風控場景中將神經網絡模型和人工規則及知識圖譜進行整合,提出了基于知識
121、計算的風險防控模式:采用人機協同的方式定義計算框架,主要涉及到數據層、知識層、算子層三個層面的能力。數據層匯聚了涉及內容風險的原始數據,以及針對不同風險領域精煉加工的結構化數據;知識層包含預訓練模型和知識圖譜,預訓練模型用于實現對通用數據的歸納,可以作為算子開發的基礎模型,知識圖譜實現對風控專業知識的組織與沉淀,解決知識碎片化、數據獲取難的問題;算子層拆解出目標更明確的簡單任務,構建端到端的神經算子,實現風險復雜判定邏輯的簡化解耦。最終,基于知識計算的防控模式利用業務人員設計的風控 DSL,執行元知識的注入,進行神經符號推理,從而實現人機協同的風險防控。實踐案例:雙重保護增強 AIGC 的保護
122、和溯源能力近年來,圖像大模型在圖像生成方面取得顯著進步,已經可以合成以假亂真的偽造人臉圖像,在影視工業、廣告設計、數字媒體等行業中創造了新的價值。然而科技的進步往往是一把雙刃劍,也可能被惡意使用于抹黑公眾人物、干擾政治選舉等,造成倫理道德與隱私安全方面的負面影響?,F有的研究工作提出了被動保護和主動保護兩類方法來保護人臉圖像免受惡意篡改(如圖所示)。被動保護方法旨在檢測人臉圖像是否是深度模型合成的偽造圖像,這種方法可以檢測出被惡意篡改后的圖像,但無法提前防止惡意篡改的發生。主動保護方法將普通的對抗擾動注入到圖像中,以破壞人臉編輯系統的輸出,可以預先防止圖像被惡意篡改,但是無法檢測圖像是否偽造。6
123、6生成式人工智能治理與實踐白皮書為了解決現有方法的局限性,阿里巴巴提出了一種基于注入索引信息的對抗樣本的人臉圖像保護方法,提供主動和被動的雙重保護。一方面,該方法作為一種主動保護方法,通過破壞人臉編輯模型的性能來防止人臉圖像被惡意篡改。另一方面,受保護圖像中包含的信息可以作為對圖像溯源的索引,有助于實現偽造圖像檢測等被動保護方法。這種方法可以在更廣泛的方面為隱私保護、版權保護、信息安全等問題提供啟發。67具體地,我們首先為待保護的人臉圖像分配唯一的索引,并使用圖像和其對應的索引構建人臉圖像數據庫。這條索引信息也稱為圖像的身份信息,用于對圖像數據的溯源。同時,受保護的人臉圖像是一種對抗樣本,可以
124、破壞人臉編輯模型的輸出,使破壞者很難使用人臉編輯模型針對受保護的圖像進行編輯并產生逼真的偽造圖像。如圖所示,當破壞者試圖將受保護的少女照片編輯為老婦人,或者戴上眼鏡時,人臉編輯模型的輸出會發生明顯失真。這種主動保護圖像的方式,能夠預先防止圖像受到惡意篡改。68生成式人工智能治理與實踐白皮書5.1 魯棒性生成式人工智能模型因其輸出空間的自由度更高,可靠性問題更加突出,需要關注在訓練和部署過程中潛在的安全風險和漏洞。魯棒性,即模型對于輸入中的擾動、對抗性樣本或惡意攻擊是否具有足夠的抵抗力。這涉及到對模型進行對抗性攻擊的測試,以發現并改進模型對抗攻擊的弱點。泛化性,除了在對抗性這種惡意攻擊外,生成式
125、人工智能模型在跨域數據、或者是在分布外樣本上可能給出不準確、誤導性或有害的回答。這方面可以在模型訓練階段引入正則項,避免過擬合到訓練數據,從而提升在分布外樣本上的性能。5.2 可解釋性生成式人工智能模型由于其復雜的網絡結構和超大規模的模型參數和訓練數據,使得理解模型內部的決策過程和判斷依據變得異常困難,同時也給模型的應用帶來了一定的風險和不確定性,尤其是在涉及敏感信息、決策推理等領域。為了提高生成式人工智能模型的可解釋性,比較常見的方法是對模型進行解釋或提取關鍵信息的技術,例如通過可視化模型的內部結構、中間層的表示、梯度等信息來理解模型的工作原理。另一種方法是引入約束和規則來指導模型的生成過程
126、,以增加可解釋性。此外,還有一些工作致力于提出評估指標和方法來衡量可解釋性。5.3 公平性在生成式人工智能模型中,由于其訓練數據通常是從互聯網上采集,其中可能存在種族、性別、職業等不平衡的問題。為了解決公平性問題,一種方法是通過對訓練數據集進行仔細的審查和篩選,以避免不公平的內容進入模型的學習過程中。另外也可以在訓練過程中引入公平性約束,例如通過調整損失函數或設計公平性指標來確保生成5.模型安全防控69的回復不帶有任何形式的歧視或偏見。5.4 防濫用機制生成式人工智能模型因為其強大的生成能力,如果被惡意使用會帶來非常嚴重的后果。例如,生成惡意代碼、欺詐短信,偽造人臉等。開發人員需要致力于研究如
127、何檢測這些風險,研發對生成內容進行溯源的技術,并提出對模型使用進行限制和約束的方法。生成式人工智能模型的部署和使用需要遵守倫理和法律準則。服務提供者對模型使用過程中的合規性和合法性進行評估和監測,以確保模型的不被惡意使用。5.5 實踐案例:魯棒評估基準與增強框架生成式人工智能模型同樣存在深度學習模型固有的魯棒性問題。在深度學習模型安全性方面,阿里巴巴開展了一系列的研究和探索,主要包含安全評估模型魯棒性評估平臺,安全加固模型的魯棒增強框架,行業賦能標準推動新技術的安全性保證。5.5.1 安全評估模型魯棒性評估基準(ARES)模型魯棒性評估基準(ARES)由阿里巴巴和清華大學合作共同發起,是針對模
128、型在圖像分類場景的各項魯棒性測試。ARES 包含三個方面:自然條件分布內的測試場景,自然條件分布外的測試場景以及對抗條件下的測試場景。ARES 在每種測試中采用了豐富且全面的數據集,涉及人工采集數據,數字圖像模擬仿真數據和白盒/黑盒遷移對抗攻擊擾動后的對抗樣本等,用以準確地反映模型面臨各種威脅下的安全性并給出綜合評估指標。ARES 同時提供了 55 種具有不同網絡結構和訓練方式的典型深度學習模型在 ImageNet 圖像分類任務上的各項魯棒性基準結果。ARES 中對比的模型結構包括傳統的卷積神經網絡模型、視覺 Transformer 等,對比的訓練方式包括傳統監督訓練、大規模預訓練、自監督訓練
129、、對抗訓練等。在自然條件下,通過 ImageNet-21k 等大規模數據預訓練的視覺 Transformer 模型具備最佳的分布偏移下魯棒性,同時可泛化到更多的未知測試數據域。然而該類模型無法成功防御人為制造的對抗樣本攻擊,在對抗攻擊算法 AutoAttack 下識別準確率降低至 0%。70生成式人工智能治理與實踐白皮書在對抗條件下,對抗訓練作為一種經典的對抗防御魯棒訓練方法,可顯著提升在受到人為對抗樣本攻擊時的魯棒性。ARES 的基準評估也印證了模型的自然分布泛化性和對抗魯棒性之間存在固有的權衡,兩者此消彼長。ARES 魯棒性評估基準的建立為學術界和工業界提供了完善且便捷的魯棒性一站式測試平
130、臺,同時也有助于推動魯棒學習算法的技術研究,構建安全可靠的人工智能服務。5.5.2 安全加固模型的魯棒增強框架阿里巴巴自研的魯棒訓練框架 EasyRobust 用于構建魯棒的視覺分類模型,提升在實際復雜場景下的可靠性,從多個維度服務于研究者和算法工程師:(1)全面的魯棒性基準套件。支持多個被學界認可的魯棒性標準測試集以及攻擊算法供用戶調用以評估算法效果;(2)領先的魯棒算法效果。支持 27 個魯棒訓練算法,20 個以上開源魯棒模型,最強對抗魯棒模型 Swin-B在 AutoAttack 下可維持 47.42%識別準確率;(3)用于模型解釋的可視化分析工具。提供類激活圖注意力機制,分類決策邊界,
131、模型卷積核等可視化工具。EasyRobust 囊括了基于數據增強,訓練策略,模型架構設計,優化算法,模型功能層設計等的 27 種魯棒性增強方法,致力于提升在對抗攻擊和分布外偏移兩種困難場景下的可靠性。對大部分方法,EasyRobust 提供了在標準數據集 ImageNet 上的預訓練權重,對比同類開源工具展現出具有競爭力的結果。在對抗魯棒性上,通過標準對抗訓練產生的 Swin-B 模型在干凈測試集和 AutoAttack 攻擊下分別取得 75.05%和 47.42%的識別準確率,具備較強對抗魯棒性的同時甚至在標準ImageNet測試集上已接近傳統卷積模型ResNet50的性能。另外,在分布偏移
132、數據測試中,由阿里巴巴自研的離散對抗訓練方法 DAT 在圖像損壞模擬仿真數據集 ImageNet-C上取得 31.4%的平均錯誤率,在風格遷移模擬仿真數據集 Stylized-ImageNet 上取得 32.77%的識別準確率,均顯著優于現存同類方法。EasyRobust 提供了豐富的模型可視化分析工具,進一步解釋魯棒訓練技術帶來的優化。通過卷積核,注意力圖和決策邊界三項分析手段,可知魯棒模型對比正常模型具備更優的特征,例如更關注與類別強相關的判別性區域,樣本點遠離分類決策邊界驅使結果更穩定等。71至今,深度模型仍遠未達到人類視覺感知的魯棒性,EasyRobust 為此作出了持續的努力,例如將
133、模型接口公開至 ModelScope 推進社區建設;將魯棒性基準和增強方法擴展至目標檢測、分割等更多視覺任務;不斷開發更多的魯棒性方案等。希望這些努力為縮小機器視覺和人類視覺之間的感知差距,構建真正穩健的算法服務起到推動作用。72生成式人工智能治理與實踐白皮書近 期,EasyRobust 開 源 項 目 EasyRobust:A Comprehensive and Easy-to-use Toolkit for Robust and Generalized Vision 榮獲 IEEE 開源科學獎(IEEE Open Source Award),是國內僅有的兩個獲獎項目之一。73知識產權制度的
134、誕生與演進的主線是保護人類智力成果、保護市場競爭公平性與激發人類創造力。因此,在生成式人工智能全生命周期的治理與實踐中,知識產權問題也不宜片面化,既要保護作為訓練數據的現有人類智力成果,也需注意創新公平和創造力延續。在生成式人工智能技術飛速發展的當下,我們圍繞訓練數據和生成物兩方面,對符合生成式人工智能發展需求的知識產權制度進行積極探討,而非過早對知識產權治理的方式方法進行定論。我們認為要順應生成式人工智能技術發展路徑,對相關機制持續討論、動態更新,在不限制技術創新發展的同時,凝聚更多共識,構建符合生成式人工智能內容創作、傳播和利用的權益保護和惠益分享體系。6.1 訓練數據的知識產權合法性治理
135、探索如前所述,訓練數據的知識產權內容來源的合法性及侵權是生成式人工智能治理中需要解決的重要問題。在治理中需要重點關注如何合法獲得知識產權內容用于訓練和提供生成式服務。訓練數據中爬取數據的比例較大,需要注意爬取還涉及競爭相關法律問題,通常以是否違反 Robots 協議和競爭秩序為審查要點。減少生成式人工智能造成知識產權侵權的關鍵節點是訓練數據集形成前。常見方案如:(1)從真實權利人處購買具有知識產權權利的數據庫;(2)使用有合法授權的開源數據集;(3)避免跨越技術措施的爬取。在未來,隨著生成式人工智能產品和服務的廣泛使用,用戶輸入知識產權內容的問題亟待各方思考和解決。由于生成式人工智能致力于類人
136、化解決問題,而非展示被動接收內容,互聯網平臺經濟時代以用戶協議要求用戶對輸入平臺信息的知識產權負責的做法,在生成式人工智能中將逐漸被摒棄,否則難以為生成式人工智能的用戶提供應有的服務用戶上傳知識產權內容以期獲得一個優化或者特定意向修改的生成物是非常普遍的。英國、日本等已經意識到現有著作權保護制度與大模型訓練對知識內容需求存在緊張關系,也在通過擴大合理使用范圍、創制科研例外等手段為大模型合法使用受著作權保護作品創設制度可能。6.知識產權探索74生成式人工智能治理與實踐白皮書6.2 生成物知識產權治理探索 人工智能生成物表現形式包括文本、圖片、聲音、視頻、代碼等,這些形式并不構成知識產權保護的阻礙
137、。對生成式人工智能生成物的治理,需要探討和解決的關鍵問題包括生成物是否構成法律意義上受保護的知識產權客體,以及如何合法合規使用生成物,為人工智能權利主體資格問題找到一個判斷法則或界限。生成式人工智能的生成物本身是否能夠成為知識產權權利主體,仍是一個暫無定論的開放問題,但在著作權領域的人工智能生成物獨創性已經被各界逐漸認可。知識產權客體適格問題的難點在于人工智能中有多少是人工智能自身的或者產品和服務提供者的“智慧”成果??陀^地講,無論訓練數據中包含多少他人在先的智力成果,生成物的產生離不開人類對算法的設計與控制,產品和服務提供者的智力投入是不可否認的,僅保護算法不保護生成物會造成生成物使用的無權
138、屬狀態。近期,美國針對包含人工智能生成材料的作品出臺了版權登記指南,有利于權屬明晰,鼓勵開發者提供更高階的生成式人工智能產品和服務,為人工智能生成物合法合規使用奠定了權利基礎。不過,確認生成物的知識產權也會造成其他問題,典型的,用戶通常也對生成物提供了智力貢獻,生成物的權利人究竟是用戶還是服務的提供者?生成物如果產生了商業使用收益,是否需要向上游權利人分配收益以及如何向上游權利人分配收益?人工智能生成物的合法合規使用,尤其依賴于生成物及其上游內容的權屬清晰程度,而溯源技術手段的不斷成熟與完善對相關治理有重要促進作用。受益于互聯網平臺時代知識產權保護技術的開發和使用,為生成物添加人工智能生成明暗
139、水印的做法已經相對成熟,同時,對于創意較高、商業預期價值高的人工智能生成物,版權電子登記、可信時間戳及其他區塊鏈相關技術的使用也可以推廣。從發展的視角來看,人工智能生成內容逐漸逼近人類創造水平,內容生成方式從人類中心、機器輔助的主次模式走向了人類指導、機器創作的合作模式,人工智能的發展極大拓展了人類創造能力的邊界,也沖擊著只保護人類創作的傳統著作權制度的合法性基礎。而另一方面,人工智能生成內容又作為合成數據被進一步應用于更高級別、更為智能的人工智能模型訓練之中,實現了從機器到機器的自我演化過程,此類中間形態的內容如果受到過度保護,可能抑制了大模型技術的研發和應用。因此,應在不限制技術創新發展的
140、同時,凝聚更多共識,革新舊有的著作權制度,使其更符合生成式人工智能內容創作、傳播和利用的權益保護和惠益分享體系。757.1 虛擬模特塔璣促進生產力提升電商平臺上,服飾類商品的模特圖對商品銷售至關重要,但拍攝成本較高。阿里巴巴嘗試通過生成式人工智能去合成模特圖,為中小商家提供一個正向賦能的工具。阿里巴巴設計了一套基于生成式人工智能的解決方案,可以生成世界上獨一無二并不真實存在的模特。用戶可以指定模特具有任意的膚色和年齡,并選擇多樣化的姿態。7.實踐案例:虛擬模特塔璣76生成式人工智能治理與實踐白皮書7.2 數據驅動下的虛擬模特與個人信息保護塔璣與北京服裝學院服飾數字化團隊合作,通過大規模動作捕捉
141、設備采集了經授權的高質量真人模特動作數據,并對基礎數據做了豐富度提升,以適應成人模特、兒童模特、外籍模特、室內、街景等不同應用場景。采集和組織數據方式考慮了合法性、安全性和可持續性,為產品研發提供有力的數據支持。7.3 內容安全保障 塔璣采用了一系列內容安全算法來對違法不良信息進行識別和攔截。檢測到風險內容時,塔璣會立即采取相應措施,同時定期優化和升級檢測模型,從而保障生成內容的安全性。除此之外,塔璣還有一個重要的功能是童模生成。目前,這些虛擬童模已經被一些主流品牌的旗艦店使用。777.4 模型安全控制塔璣算法采用數據均衡和公平性約束策略,避免種族、性別、年齡等方面的歧視,保證算法的公平性。數
142、據均衡策略確保每個群體的影響程度相同;公平性約束將其融入到損失函數中,讓算法更注重公平性。這是一種技術手段,也是一種價值觀念,為推動社會公平貢獻力量。7.5 生成式標識與知識產權保護為了保護使用者的權益和內容的知識產權,阿里巴巴采取了三種方式來加強保障。第一種方式是明水印。塔璣在每一張圖片上都添加了明水印,明確告知使用者此圖片為人工智能生成。第二種方式是暗水印。塔璣在不影響用戶使用的前提下,將暗水印嵌入到圖片中。暗水印肉眼不可見,只有通過特定的檢測模型才能識別,實現了對圖片的傳播溯源,增強對圖片的版權保護。第三種方式是阿里巴巴原創保護平臺。塔璣在平臺內采取了一系列措施,例如內容審核、版權監測等
143、算法策略,及時發現盜版圖片,并將其召回。這樣可以保護使用者的權益,維護整個平臺的良性發展環境。78生成式人工智能治理與實踐白皮書除此之外,塔璣還有一個重要的功能是童模生成。目前,這些虛擬童模已經被一些主流品牌的旗艦店使用。79五.生成式人工智能多主體協同敏捷治理體系80生成式人工智能治理與實踐白皮書生成式人工智能以全社會信息的輸入為“知識”,在能力、思維等方面日趨接近人類,廣泛融入社會,可以說,其已不再是單一的技術,更像是具有社會性的綜合體。因此,生成式人工智能不可避免地要強調政府、產業、學術研究、公眾用戶等多權利相關主體的協同共治,同時,為了統籌安全與發展,保持持續創新能力,也應在協同共治的
144、基礎上,探索動態治理機制,尋求足夠敏捷的治理方式。、當前,生成式人工智能的發展還存在著較大的不確定性,采用過重、不科學的治理方式會抑制產業的發展,而敏捷治理作為更加順應科技研發應用的治理模式,其目標正是解決科技治理中技術高速演進的不確定性問題,通過治理過程中的小步快走、迭代試錯、動態更新,順應技術發展趨勢,持續發揮人工智能的正向價值。敏捷治理有以下三方面的特點:一是治理價值的平衡性。一方面要預先客觀評估重大風險點,有效管控科技進步帶來的安全隱患;另一方面也要擁抱新技術,優先保護科技發展的需要,以技術進步來緩解治理難題。二是治理主體的協同性。集聚政產學研用等多方力量,讓更多的人參與到科技治理之中
145、,積極在對話和合作中尋求社會共同認識,全面地、包容地優化治理方案,實現他律和自律的有效結合。1.敏捷治理的理念與特點81 三是治理手段的靈活性。強調點剎式處理,根據新技術發展情況動態調整治理原則,主管部門及時明確治理目標與要求,監管舉措反應快、下手準、力度輕,企業積極應對、快速調整、有效管控,以降低技術路徑和商業策略轉變帶來的損失。生成式人工智能的各協同主體應著重從各自優勢出發,積極貢獻治理經驗和實踐,形成政府規范引導、產業守正創新、社會監督理解的多元、包容、共治的體系,實現技術研發安全負責任、技術風險可控可干預、技術福祉普惠可持續。實踐 2.多主體協同下的敏捷治理探索與82生成式人工智能治理
146、與實踐白皮書2.1 政府規范引導2.1.1 完善頂層設計我國已有互聯網信息服務算法推薦管理規定互聯網信息服務深度合成管理規定生成式人工智能服務管理暫行辦法等治理規范性政策文件,并且已處于國際前列,下一步重點將是結合我國產業發展實踐情況,制定技術及管理細則和標準指導行業落地,推動現有的先進制度扎實實施。2.1.2 健全治理體系加速打造多方協同的治理機制,促進政產學研用治理深度融合。建設人工智能治理“試驗田”,鼓勵有能力的企業、科研院所投入建設,建立治理和監管沙箱,在可控范圍內驗證治理的標準規范、治理工具、協同工作和數據流通共享機制等治理手段的科學性、可用性,同時針對技術發展過程可能出現的各類風險
147、,根據場景和風險大小,堅持審慎包容、分類分級的治理態度和思路,促進發展鼓勵研發。2.1.3 推動國際合作深入參與國際人工智能治理規則制定,貢獻中國治理經驗,基于我國產業優勢打造國際領先的中國方案,積極促成全球范圍的協同共治,尤其鼓勵一線企業、組織的參與和貢獻,為中國產業發聲,從而提升中國方案在國際上的競爭力和話語權。2.2 產業守正創新2.2.1 通過標準化形成行業自律將標準作為準則和實踐之間的橋梁,研制具體可操作的規范,加強重點標準的推廣宣貫力度,樹立行業標桿,進一步補全從頂層原則到行業落地的細則指引。2.2.2 建設分類分級治理制度綜合技術路線、應用場景、安全風險等因素,圍繞倫理、可信賴等
148、方面加快建設分類分級治理準則、保護要求等方面的制度。重點解決自動駕駛、智能醫學、智慧金融、智能媒體/輿情等高風險場景問題,對于風險等級較低的場景類型給予更多技術引導,避免過度治理導致發展受限。832.2.3 持續發展治理技術,尋求發展與治理的平衡模式治理技術的研發和應用,會顯著提高行業發展與治理水平,例如數據匿名化機制激發數據價值、數字水印技術保障生成內容的可溯源防篡改等。建議給予技術發展更多空間,進一步提升治理水平,形成以發展促治理,同時也以治理促發展的良性循環。2.2.4 在監管框架下合理分配主體責任生成式人工智能產業應結合實際情況,在監管框架下合理區分各方的主體責任,加強治理主體的聯動及
149、治理任務的協同,提高社會治理效率,有效推動敏捷治理的落地實施,降低治理成本和發展約束,以爭取更多的創新空間。2.2.5 吸收多方意見、沉淀各界觀點用于產業發展科技企業作為產業治理的核心角色,應主動將內外部、多方面、跨學科的知識融入敏捷組織、敏捷開發的治理中,在技術研發路徑、選型適配和市場應用等節點上,適時、適當地引入政府、學界、公眾等可信第三方的觀點和建議,將其融入技術發展目標設定之中,并持續溝通、快速迭代、敏捷試錯,不斷優化技術發展路線?!緦嵺`案例】阿里巴巴發起這個 AI 不太冷系列研討會,以“相信科技的力量,創造美好的未來”為目標,邀請跨學科產學研專家,一起就熱點爭議話題共同探討人工智能技
150、術的倫理、能力、風險,以及應對實踐和未來規劃,讓生成式人工智能可用、可靠、可信、可控,為生成式人工智能技術的可持續發展貢獻力量。84生成式人工智能治理與實踐白皮書2.3 社會監督理解2.3.1 普及新技術,彌合公眾認知鴻溝建設可持續發展的人工智能,是一個跨多學科、綜合性強和智力密集的復雜工作。人工智能發展所面臨的難題,單憑一家企業、一所高?;蚴且粋€機構是不可能獨立解決的。企業需要聚攏跨學科的產學研伙伴,共同打磨自律的行業規范,彌合公眾的認知鴻溝,打破生成式人工智能一貫冰冷深奧的印象,打造有溫度、有趣的 AI 形象;主動向公眾闡釋技術和治理的新進展,把理解門檻降低、讓治理經驗透明?!緦嵺`案例】阿
151、里巴巴聯合高校和產業界發起人工智能治理交互欄目追 AI 的人,關注并分享 AI 新技術、AI 治理新觀點、可持續發展新風向。目前已經聯合清華大學、北京大學、對外經貿大學、南開大學、浙江大學、重慶郵電大學、中國科學院大學等多家高校和律所,舉辦了 29 期直播。在人工智能的支撐下,優質數字資源跨越山海,推動新技術交流更加開放。追AI的人 受到專業圈和社會公眾的持續關注和支持,欄目同步在B站、微信視頻號、釘釘、知乎等平臺直播,累計超 100 萬人次觀看,多所高校學生自發組織集體在教室學習。同時,持續以文章回放和科普短視頻為載體,對外輸出知識,旨在用簡單清晰的語言,向公眾闡釋對于人工智能的普遍疑問,助
152、力公眾算法素養的提升,推動社會就人工智能的發展和治理達成共識。852.3.2 校企聯合,助力人才培養習近平總書記強調,“中國高度重視人工智能對教育的深刻影響,積極推動人工智能和教育深度融合,促進教育變革創新”。在生成式人工智能發展大浪潮中,人才培養是抓住時代機遇的關鍵。社會各界應攜手打造高質量的人工智能教育生態,用好技術手段、凝聚各方力量,培養順應時代發展要求的創新人才?!緦嵺`案例】為響應教育部產學合作協同育人的號召,落實產教融合、校企合作機制,阿里巴巴聯合北京航空航天大學人工智能研究院開展面向全校本科生的人工智能安全與倫理(又名對抗機器學習)課程,企業講師將業界最新的技術發展動態引入課堂,并
153、運用年輕人喜聞樂見的多元化運營手段,激發學生上課的積極性,讓學生們對人工智能安全和倫理相關的概念、技術和應用進行了解,將企業實戰場景、前沿技術分享給廣大學生,培養人工智能安全人才。86生成式人工智能治理與實踐白皮書87六.總結與展望88生成式人工智能治理與實踐白皮書大模型推動人工智能的技術飛躍,催生無數技術和應用創新的思想火花,為新一輪的互聯網產業發展創造巨大機遇。網絡信息內容從用戶生成內容(UGC)和專業生產內容(PGC)真正走向了人工智能創造(AIGC),網絡內容維度更為多元性,層次更加豐富,表達方式更加多樣,為豐富人類的精神文化生活提供了新的信息供給。大模型可以作為接口和橋梁,銜接其他服
154、務或者工具,建立通用智能供給能力。大模型也能與機器人技術相結合,未來生成式智能體(Generative Agents)在世界環境中模擬人類行為的真實性,具備記憶、檢索、歸納總結、反思、與其他智能體互動等能力,從虛擬世界到物理世界,模型幫助機器人進行感知、規劃和動作執行,大幅提升現實世界的生產力。然而,在這一切美好發生之前,我們需要意識到生成式人工智能還存在著較大的缺陷,需要判斷其對人類權益和社會秩序構成的潛在風險,用審慎的態度規劃技術發展路徑,采取多元協同的方式聚各方合力確保技術在正確的軌道上發展和應用。唯有如此,生成式人工智能才能安全地發展,才能在人類的控制和引導下更加可用、可靠、可信、可控
155、,更好地服務人類需求、推動社會發展。我們需要進行科學的監管和治理,降低生成式人工智能帶來的顛覆式創新的負面影響,避免內容生成和傳播方式對信息的可控性和安全的風險,保證人工智能與人類知識和價值觀正確地對齊。第一,構建目標明確、敏捷協同的治理體系,對生成式人工智能帶來的顛覆式創新進行針對性的監管和治理,確保技術在人類掌握下有序發展,被更廣泛更好地利用,服務于人類日益增長的美好生活需要,成為了政府、產業乃至全社會的普遍共識。在治理目標上,強調發展和安全的協調統一。一方面要求有效管控核心風險,加強人工智能可信賴和倫理治理水平,避免生成式人工智能對國家安全、產業秩序和社會穩定帶來負面影響;另一方面要意識
156、到不發展是最大的不安全,通過技術進步帶動產業高質量發展、提高生產效率,保障我國科技發展話語權。在治理方式上,突出以風險為基礎的治理機制。生成式人工智能對個人信息、內容安全、模型安全和知識產權等方面帶來諸多挑戰,以風險為基礎的治理要求對各環節的風險點進行識別和判斷,根據風險特征、危害性和影響范圍進行分類分級,對于處在不同研發階段、針對不同應用場景、面向不同數量用戶的生成式人工智能服務有差異化的風險管理要求。在治理手段上,采用包容、敏捷的新型治理工具。生成式人工智能處在快速發展階段,其技術路線還在動態演進,產業和社會應用前景尚不明晰,監管和產業需要共同面對諸多不確定性問題,采用監管沙箱、盡職免責等
157、創新容錯手段,推動積極溝通、敏捷協作,共同尋找提高安全性、可控性和可靠性的解決方案;同時通過宣傳教育,提高公眾對于生成式人工智能的認知水平,建立基于信任的人機協作社會生態??偨Y與展望89第二,針對研發過程設置安全措施,針對重點風險域形成治理方案。在模型訓練、服務上線、內容生成、內容傳播各階段,覆蓋生成式人工智能服務和產品的全生命周期設置安全措施,避免遺漏風險;在內容安全、個人信息、模型安全、知識產權等重點風險領域,制定專項風險治理方案。在模型訓練階段,要進行對數據的審查和保護,確保訓練數據的合法性和安全性。同時,需要加強對模型的審查,防止出現偏差性或歧視性結果。在服務上線階段,要進行對模型的安
158、全測試和評估,確保其穩定性和安全性。同時,需要加強對用戶數據的隱私保護,避免被泄露或濫用。在內容生成階段,應該倡導人機合作,加強對生成內容的引導和審核,防止出現違法不良信息、歧視與偏見。在內容傳播階段,對生成的信息嵌入隱藏的標識,通過技術手段進行溯源,定位信息發布者,從而在一定程度上解決虛假信息傳播的風險。對于個人信息安全、內容安全、模型安全、知識產權四個重點安全領域,應充分考慮 AIGC 與 UGC(用戶生成內容)、判別式 AI 的差異性,提出針對性的有效解決方案。例如:生成式 AI 相對于算法推薦服務對個性化要求不高,可主動采用技術手段從源頭減少個人信息收集、降低個人信息在訓練數據中的比例
159、和真實性;對于輸出的合成內容,算法服務可拒絕生成個人信息內容;可采用數據匿名化機制,在保護個人信息的同時,激發更多數據價值。從內容安全角度看,AIGC 相比 UGC 在主體責任、交互性、時效性、內容復雜度、風險范圍等多個維度都有較大差異,因此在風險評測定位、模型內生安全、應用安全機制、生成內容追溯機制等方面全面設置針對性的治理機制。在模型安全層面,生成式人工智能模型因其輸出空間的自由度更高、網絡結構復雜、模型參數和訓練數據規模巨大等特點,在魯棒性、可靠性、公平性、可用性、可解釋性等方面都帶來了新的風險挑戰,應相應地提升治理技術能力,提出針對性治理解決方案。生成式人工智能的知識產權問題,目前仍在
160、熱議中,尚未形成統一看法。知識產權問題不宜片面化,既要保護作為訓練數據的現有人類智力成果,也需注意創新公平和創造力延續?,F階段宜鼓勵平衡相關利益主體的治理方案,既要從源頭進行訓練數據相關權利人的保護,規避非法爬取,利用水印、區塊鏈等技術,建立生成式人工智能相關知識產權溯源補償機制;又要挖掘緩存價值,在一定范圍上承認生成物的知識產權價值。第三,重視更加技術化的治理手段,提升生成式人工智能在數據、模型、應用等層面的治理技術,促進人工智能產業健康、快速發展。在數據層面,強化數據清洗、預處理、合規審查等標準化技術手段,促進高質量中文數據集發展;增加高質90生成式人工智能治理與實踐白皮書量、事實性知識庫
161、或者知識圖譜,通過檢索式增強、知識計算等技術解決大模型“一本正經地胡說八道”等問題,提高生成式人工智能的可信度。在模型層面,研究探索大模型的可解釋性問題,包括對世界知識的記憶和存儲原理,以及預測階段的知識提取過程;構建大模型參數修正技術,探索大模型的知識遺忘和知識修改技術,從而針對定向問題進行模型修正;探索更高效的 RLHF 技術,具備更好的泛化性,提升模型和人類知識與價值觀的對齊,研發可信賴的生成式人工智能。在應用層面,建立大模型應用系統的風險 Debug 系統,風險修復系統,做到風險提前發現,提前修復;建立應用系統的數據閉環,對風險數據不斷進行 RLHF 對齊,不斷提升應用系統的安全性。本
162、次技術革命代表了人工智能能力的重大躍遷,其快速的普及和廣泛的應用也讓人類和機器的關系問題從倫理的星空落入了每一個人的心底,如何可持續地開發更安全、更負責任的大模型,讓生成式人工智能更符合人類的價值判斷和實際需求,如何在技術研發應用的全周期內提高治理能力,最大限度降低潛在危害,又如何用發展的眼光去看待生成式人工智能新興技術對傳統認知范式的挑戰,讓制度創新和技術創新相互匹配、相互促進?這些問題需要包括政府機構、科技企業、科研人員、社會公眾在內,每一個面向未來的參與者,去一同面對、共擔責任、共商共治、協作探索,用更為精準、精確的手段管控生成式人工智能的發展路徑,從而確保人工智能始終在人類的掌控之下,
163、并為人類帶來更大的福祉和價值。912023 年生成式人工智能治理與實踐白皮書2022 年人工智能治理與可持續發展實踐白皮書生成式人工智能治理與實踐白皮書由阿里巴巴集團、中國電子技術標準化研究院、阿里云智能集團、達摩院聯合編寫發布。本書從生成式 AI 發展的態勢和擔憂出發,探討了生成式 AI 產生的風險,分析了風險產生的原因,提出了敏捷治理、協同共治的治理理念。不僅系統分析了生成式大模型中算力、數據、算法、生態、人才等五大構成條件,還分別對語言大模型、視覺大模型,圍繞內容安全、個人信息保護、模型安全和知識產權等風險維度,進行了從產生原因到實踐解決方案的深入剖析,助力新技術的健康發展與創新應用。同
164、時,針對生成式 AI 不同環節的風險治理,即從模型訓練階段、服務上線階段、內容生成階段、內容傳播階段四大階段入手,提出了一系列具體的治理措施,期待為各界提供有益的參考。人工智能治理與可持續發展實踐白皮書 由阿里巴巴集團聯合中國信通院編寫發布。本書全面總結了阿里巴巴在人工智能治理與可持續發展領域的實踐,重點針對當前人工智能應用中的熱點問題,從數據、技術、管理及多元協同等方面,系統性介紹了我們的實踐思路和方法,同時輔以若干專題進行闡釋。白皮書提出,針對當前黑產的作手段和發展趨勢,亟需構建大規模、專業化、魯棒性強的電商反作弊風控平臺,助力維護公平的電商生態,包括研發行為風控引擎、加強對抗訓練、挖掘風
165、險團伙等,構建覆蓋域內+域外、線上+線下、離散行為+聚集團伙、提前預警+主動防控的全方位打擊網絡虛假交易的能力。92生成式人工智能治理與實踐白皮書專業名詞解釋1.生成式 AI/生成式人工智能生成式人工智能(Generative Artificial Intelligence)是人類設計的一種基于深度學習的技術,能夠模擬人類的思維,生成具有一定連貫性和邏輯性的文本、圖像、視頻、語音、代碼等內容。生成式人工智能能夠自己創造出新的內容,而不是只能根據輸入數據進行處理。2.大模型/生成式大模型大模型是指網絡結構復雜、參數規模巨大的深度學習模型。隨著技術的發展,多大的模型能夠稱之為大模型,標準也在變化。
166、生成式大模型,指具有生成能力的大模型。3.AIGCAIGC(Artificial Intelligence Generated Content),指生成式人工智能產生的內容。4.UGCUGC(User-generated Content),指用戶生產的內容。5.PGCPGC(Professional Generated Content),指專業用戶生產的內容。6.內生安全內生安全(Endogenous Satety and Security),指一個模型應該憑借自己的能力盡可能避免因為各種原因表現出預期的設計功能之外的行為。7.無監督預訓練無監督預訓練(Unsupervised Pre-Tra
167、ining),指用來訓練模型的數據不包含監督信號,需要模型自動學習到其中有價值的信息。938.有監督微調(SFT)有監督微調(Supervised Fine-Tuning),指在無監督預訓練得到的模型基礎上,針對特定任務使用少量的有監督信號的數據對其進行重新訓練的技術。在這個過程中,模型的參數會在原來的基礎上發生一些較小的改變。在完全不修改模型主干的基礎上,使用下游任務數據和任務目標,對模型參數進行調整,使模型能夠適應下游任務。9.基于人類偏好的強化學習(RLHF)基于人類偏好的強化學習(Reinforcement Learning with Human Feedback),是一種將強化學習與
168、人類反饋(偏好)相結合的技術,其中人類的偏好被用作獎勵信號,用于引導模型生成高質量的輸出。在不修改預訓練模型結構和參數的情況下,僅通過網絡學習的方式,設置學習模型的提示語,為模型輸入增加提示信息。在獲得提示語后,將提示語與下游任務標簽組合后一同輸入到模型中,得到最終的預測結果。10.深度合成deep synthesis,深度合成是指利用以深度學習、虛擬現實為代表的算法制作文本、圖像、音頻、視頻、虛擬場景等信息的技術??梢哉J為“生成式人工智能”是“深度合成”概念的真子集。11.Query Query,在本文中指生成式大模型的輸入。12.ResponseResponse,在本文中指生成式大模型的輸
169、出。13.魯棒性魯棒性(Robustness),即模型對于輸入中的擾動、對抗性樣本或惡意攻擊是否具有足夠的抵抗力。14.泛化性泛化性(Generalizability),除了在對抗性這種惡意攻擊外,生成式人工智能模型在跨域數據、或者是在分布外樣本上可能給出不準確、誤導性或有害的回答。94生成式人工智能治理與實踐白皮書15.公平性公平性(Fairness),尊重既定事實、社會規范和信仰,且不受偏袒或不公正歧視影響的對待、行為或結果。對公平性的考慮是與環境高度相關的,并且因文化、代際、地理和政治觀點而異。公平不等于沒有偏見。偏見并不總是導致不公平,不公平可能是由偏見以外的因素引起的。16.可信賴可
170、信賴(Trustworthiness),滿足利益相關方期望并可驗證的能力。依賴于語境或行業,也依賴于具體的產品或服務、數據以及所用技術,應用不同的可信賴特征并對其進行驗證,以確保利益相關方的期望能得到滿足??尚刨嚨奶卣靼ǎ嚎煽啃?、韌性、安全性(信息安全、功能安全)、隱私性、可問責、透明性、真實性、質量、實用性等??尚刨囎鳛橐环N屬性用于描述服務、產品、技術、數據和信息,在治理中也用于組織。17.可解釋性可解釋性(Explainability),系統以人能理解的方式,表達影響其(執行)結果的重要因素的能力??山忉屝岳斫鉃閷Α霸颉钡谋磉_,而不是嘗試以“實現必要的優勢特性”做出爭辯。18.可靠性可
171、靠性(Reliability),實施一致的期望行為并獲得結果的性質。19.可控性 可控性(Controllability),系統被人類或其它外部主體干預的性質。20.可問責可問責(Accountability),系統及其利益相關方對其行動、決定和行為負責任的狀態??蓡栘熍c分配的責任有關。責任可能基于法規或協議,也可能通過委托的一部分進行指派??蓡栘熒婕柏撠熑嘶驅嶓w通過特定方法和依據特定條件,對其它人或實體的某些事物負責。21.倫理倫理(Ethics),開展人工智能技術基礎研究和應用實踐時遵循的道德規范或準則。95完整電子版下載,請微信掃碼關注 AAIG 公眾號獲取22.偏見偏見(Bias),對待特定對象、人員或群體時,相較于其他實體出現系統性差別的特性。對待指任何一種行動,包括感知、觀察、表征、預測或決定。23.透明性透明性(Transparency),系統與利益相關方交流關于該系統適當信息的特性。系統透明性相關的信息一般包含特性,性能,缺陷,組件,程序,度量,設計目標,設計選擇和假設,數據源及標注協議。對系統某些方面不適當的暴露一般會違背安全、隱私或保密要求。2023 年11 月第二次印刷96生成式人工智能治理與實踐白皮書