《云計算開源產業聯盟:2024開源大模型應用指南1.0(風險治理篇)(85頁).pdf》由會員分享,可在線閱讀,更多相關《云計算開源產業聯盟:2024開源大模型應用指南1.0(風險治理篇)(85頁).pdf(85頁珍藏版)》請在三個皮匠報告上搜索。
1、I 開源大模型應用指南開源大模型應用指南 1.01.0 (風險治理篇)(風險治理篇)云計算開源產業聯盟云計算開源產業聯盟 2022024 4年年1 11 1月月 I 版權聲明版權聲明 本報告本報告版權屬于版權屬于中國信息通信研究院中國信息通信研究院,并受法律保護,并受法律保護。轉載、摘編或利用其它方式使用轉載、摘編或利用其它方式使用本報告文字或者觀點的,應本報告文字或者觀點的,應注明注明“來源:來源:中國信息通信研究院”中國信息通信研究院”。違反上述聲明者,本。違反上述聲明者,本院院將追究其相關法律責任。將追究其相關法律責任。II 編制說明編制說明 本指南由云計算開源產業聯盟可信開源合規計劃開
2、源人工智能治理工作組撰寫,限于撰寫組時間、知識局限以及技術、社會發展迭代等因素,內容恐有疏漏,煩請各位讀者不吝指正。在編寫過程中得到多家單位的大力支持,在此特別致謝中國信息通信研究院、中興通訊股份有限公司、中國平安人壽保險股份有限公司、東方證券股份有限公司、中國光大銀行股份有限公司、北京抖音信息服務有限公司、百度在線網絡技術(北京)有限公司、天翼數字生活科技有限公司、亞信科技(中國)有限公司、深圳開源互聯網安全技術有限公司、鼎道智聯(北京)科技有限公司、北京大學人工智能研究院 AI 安全與治理中心、北京大學武漢人工智能研究院、OpenSDV汽車軟件開源聯盟、開源社、重慶中科汽車軟件創新中心、上
3、海市錦天城律師事務所等單位的各位專家,感謝各位秉承開源精神,協同共創,最終完成本指南的撰寫工作。主要撰稿人:張燕、郭雪、俊哲、孟偉、辜凌云、趙云虎、丁華、陳岱源、王帥、張小豐、陶冶、劉東威、孫珊珊、李夢歡、馬紅偉、嚴雪倫、周飛、李炫、張慶、成思敏、柴丹、李曉麗、李響、李欣博、沈楊、洪燁、梁堯。III 前前 言言 近年來,開源模式與人工智能技術加速融合,有力地打破了閉源人工智能技術壟斷、加速人工智能大模型技術持續創新、拓展大模型應用路徑、重塑人工智能產業生態,同時開源大模型的創新發展和應用還為個人、企業和國家的發展提供更為廣闊的發展天地。然而,大模型技術在給人類帶來生活方式轉變和生產方式革新的同
4、時,也引入了安全、合規等多方面風險挑戰,甚至可能對人類社會的可持續發展帶來負面影響。大模型開源增加了人工智能系統風險暴露和被惡意利用的可能性,開源許可模式的應用也使得人工智能技術利用的合規風險更加復雜,開源大模型的可得性亦可能加劇開源大模型濫用風險。為保障開源大模型技術健康有序發展,充分釋放人工智能技術效能,相關政策或法規紛紛出臺,除人工智能治理宏觀監管要求外,越來越多的國家政府開始關注開源大模型的針對性、包容性監管。在具體風險治理層面,企業也開始探索構建開源大模型綜合性治理體系,并建立開源大模型風險防控機制,以最大化開源大模型應用實效。本指南結合中國信通院開源研究工作,分析總結開源大模型發展
5、態勢,重點圍繞開源大模型應用風險及治理動態、治理措施展開研究,為企業安全、合規、高效應用開源大模型提供參考。IV 目目 錄錄 版權聲明.I 一、開源大模型發展態勢.1(一)從軟件到大模型,開源的 變”與 不變”.1(二)從壟斷到開放,開源重塑 AI 生態.3(三)從個人到國家,開源釋放 AI 效能.6 二、開源大模型創新趨勢.8(一)開源語言大模型開啟百家爭鳴新紀元.8(二)開源多模態大模型注入 AI 生態新活力.11(三)開源 AGENT 引領人工智能發展新方向.14 三、開源大模型風險挑戰.16(一)開源大模型應用或導致安全風險升級.17(二)開源大模型應用或面臨多重規制要求.20(三)開
6、源模式或加劇大模型技術濫用風險.28 四、開源大模型治理全球動態.29(一)國際組織高度重視開源大模型發展,積極探索全球人工智能治理方案.30(二)歐盟立法謀求人工智能監管主導權,開源大模型得有條件義務豁免.31(三)美國人工智能監管增強化趨勢明顯,國防領域率先探索開源大模型影響 .33(四)中國人工智能治理規則由 軟”及 硬”,開源大模型或得包容性監管 .34 五、企業應用開源大模型風險治理實操要點.46(一)開源大模型治理體系構建.47(二)開源大模型風險防控建議.49 六、國內開源大模型應用生態完善方向.77 V 圖圖 目目 錄錄 圖 1 大模型的開放訪問等級.3 圖 2 人工智能大模型
7、許可協議合規流程.53 圖 3 Hugging Face Model 格式 Markdown 截圖.71 圖 4 Hugging Face LLaMA-3.1 README.md 截圖.72 圖 5 LLaMA-3.1 CycloneDX 模型組件轉換信息截圖.73 圖 6 CycloneDX LLaMA-3.1 模型卡片信息截圖.74 圖 7 CycloneDX LLaMA-3.1 數據集信息演示截圖.74 圖 8 LLaMA-3.1 CycloneDX 文件子組件表示信息截圖.76 表表 目目 錄錄 表 1 經典開源語言大模型解析.9 表 2 經典開源多模態大模型解析.12 表 3 經典開
8、源 Agent 解析.15 表 4 國內外典型大模型許可協議類型表.21 表 5 地方政府開源人工智能相關規范文件.35 表 6 常見人工智能開源許可協議合規要點解讀.54 表 7 AI/ML BOM 示例.70 1 一、開源大模型發展態勢 開源作為一種開放、無邊界的新型協作模式,從開源軟件到開源硬件,再到開放數據、開源大模型,開源的應用范疇不斷拓展,但開放和可復制的核心原則始終未變。較之于閉源大模型,開源不僅重塑了人工智能產業生態,開源大模型的發展和應用更為個人、企業、國家提供了更為廣闊的發展天地。(一)(一)從軟件到大模型,開源的“變”與“不變”從軟件到大模型,開源的“變”與“不變”開源思
9、想興起于軟件開發領域,軟件開源核心在于源代碼開放。開源”(Open Source)概念根植于上世紀五十年代以來自由開放的計算機文化,并隨著開源軟件促進會(Open Source Initiative Association,OSI)經典開源定義的確立,逐漸形成共識。在傳統軟件行業,源代碼凝結了創作者的設計思想、實現方法和具體表達,因此軟件開源的核心集中體現在源代碼的開放、可獲取。歷經數十年的發展,開源已成為現代軟件產業的主流開發模式。目前,全球 96%的商業代碼庫中包含開源軟件,并且商業代碼庫中 77%的代碼直接源自開源軟件。1 開源模式應用場景不斷拓展,大模型開源形式多元。隨著數字時代的到來
10、和全球互聯的加深,開源模式在不同場景的應用過程中逐漸衍生出開放數據、開源大模型等多種概念形態,成為人工智能技術創 1 新思科技:2024 年開源安全和風險分析報告,網絡地址:https:/ 年 10 月 11日。2 新、開放、共享、可持續發展的源頭活水。不同于傳統軟件的源代碼開源,實踐中圍繞大模型相關技術,形成了開源模型框架、開源模型代碼、開源參數權重、開源工具庫以及開源訓練數據等多種開源形式,但單一元素的公開和可獲取可能并不足以支持使用者復現模型效果,實現開源 授之以漁”的根本目的。開源大模型定義逐漸清晰,開放性和可復制性的基本原則一以貫之。為促進開源思想在人工智能技術領域的貫徹和落實,避免
11、部分開發者假借開源之名,行限制技術共享之實,OSI 組織凝聚各方共識,探索開源 AI 定義,為用戶和開發者提供判定 AI 模型是否開源的概念框架。根據當前定義,2開源人工智能系統需滿足以下四個條件:一是允許公眾出于任何目的使用系統,無需征得許可;二是允許公眾研究系統的工作原理并檢查其組件;三是允許公眾出于任何目的修改系統,包括更改其輸出;四是允許公眾出于任何目的共享系統供他人使用,無論是否經過修改。與開源軟件定義的基本原則一致,該定義明確了開源大模型框架、權重、代碼以及訓練數據等核心元素的開放性和可復制性,以確保開源大模型能夠獲得持續更新和改進。開放性是開源大模型獲取社區貢獻的前提。開源大模型
12、的開放性是指將大模型開發和訓練的方法論、進展和技術成果向社會開放,而不對公眾的訪問、復制、檢查加以限制。3開源大模型可開放的內容包括模型原理、參數權重、源代碼和具體的訓練數據,不同模型開放的 2 The Open Source AI Definition-1.0,網絡地址:https:/opensource.org/ai/open-source-ai-definition,最后訪問日期:2024 年 11 月 13 日。3 M.A.Peters and P.Roberts,Virtues of openness:Education,science,and scholarship in the
13、digital age.Routledge,2015.3 內容有所差異。依據 OSI 組織的相關定義4,開源大模型須在 OSI 認證的許可協議或條款下向公眾公開 適合修改的形式”,包括模型權重和參數,訓練和運行 AI 系統的全部源代碼,以及有關訓練數據的詳細信息,而不強制要求開源大模型公開全部的原始訓練數據。實踐中,不同大模型的開放程度存在較大差異,基于斯坦福大學基礎模型研究中心發布的 AI 系統訪問等級,從完全封閉到完全開放之間存在多種開放選項(見圖 1)??蓮椭菩允情_源大模型研究、應用的重要基石??蓮椭菩砸馕吨褂谜呖稍谙嗤虿煌沫h境和條件下,獨立運行大模型并復現開源大模型的技術效果,是
14、對開源大模型進行科學研究、技術驗證和創新應用的能力基礎。在人工智能大模型領域,實現可復制性的前提在于模型開發者盡可能提供完整的數據集、代碼、模型參數等模型開發和訓練的相關信息,從而供使用者驗證模型性能、應用運行結果,從數據、代碼和架構等層面對模型加以改進和創新,最終推動技術的進步和革新。圖 1 大模型的開放訪問等級5 (二)(二)從從壟斷壟斷到到開放開放,開源重塑,開源重塑 AI 生態生態 4 The Open Source AI Definition-1.0,網絡地址:https:/opensource.org/ai/open-source-ai-definition,最后訪問日期:2024
15、 年 11 月 13 日。5 Rishi Bommasani et al.,“Considerations for Governing Open Foundation Models”,網絡地址:https:/hai.stanford.edu/issue-brief-considerations-governing-open-foundation-models,最后訪問日期:2024 年 4 開源是打破 AI 技術壟斷的“破破船”。在傳統商業模式中,企業往往傾向于封鎖創新技術,以謀求長期的市場競爭優勢。開源開放破除了閉源大模型專有技術依賴問題,激發市場創新活力。用戶可免費獲取開源大模型并根據不同
16、應用場景和個性化需求做自適應定制,有效減少了對于高成本商業技術或單一技術廠商的依賴,避免部分人工智能技術廠商利用先發優勢封閉技術、壟斷市場。如 Meta 公司推出開源大模型 LLaMA2,有力打破了大語言模型長期被 OpenAI、谷歌等商業巨頭壟斷的局面。同時開源大模型允許廣泛的社區參與和眾創協作,大大提升技術迭代速度和創新效率,刺激閉源人工智能技術突破、提升,促進良性市場競爭并增強市場多樣性。開源大模型是 AI 應用觸達的破加速器。開源開放顯著降低了大模型的部署及應用門檻,使得人工智能技術得以廣泛應用于金融、醫學、教育、能源、法律等領域。如基于開源大模型 LLaMA 的行業模型生態圈已然形成
17、,包括醫學領域的 QiZhenGPT、ChatMed、BenTsao,法律領域的 LAWGPT,教育領域的 Taoli 大模型等,均通過人工智能技術賦能相關產業轉型升級。此外,大模型開源還有助于促進人工智能技術在欠發達地區的普及和交流,提升資源受限地區和群體的數字發展機會。如基于 Qwen 1.5 訓練開發的開源語言模型 Sailor,專注于東南亞地區的多樣化語言環境,促進了人工智能技術在小語種地區的落地和應用。開源是 AI 科技創新的破催化劑。圍繞成熟的開源大模型項目,8 月 29 日。5 往往會形成活躍的開源社區,社區成員可以通過民主、開放的形式共同進行項目的開發和維護工作,從而形成一個強
18、大的知識網絡以優化大模型的產品體驗。6開源社區不僅有益于積累技術經驗和推進模型迭代,更為大模型技術的發展提供了多樣化的技術路線儲備,避免大模型技術陷入 局部最優化”陷阱。例如,目前 Transformer 算法在自然語言處理技術領域占據主流地位,但仍有眾多開源項目在不斷探索 RNN 算法的優化和改進方向,以期在該領域實現技術突破。開源是 AI 商業模式的破孵化器。開源大模型的開放性和靈活性有助于幫助企業快速構建商業生態,推動人工智能技術從實驗室走向市場,加速人工智能技術的商業化進程。目前,成熟的人工智能企業基本形成了開源和閉源相結合的商業模式。其中,Meta、百川智能、360等企業傾向于借助開
19、源社區以提升模型質量并快速打造自己的產品和生態。而 OpenAI、百度、華為等具有先發優勢的企業雖采取閉源戰略發展其核心大模型產品,但也積極參與開源生態的建設,如百度構建飛槳社區、華為開放昇騰資源等。此外,隨著使用者定制化需求的增加,開源大模型研發企業逐漸從以 產品”為賣點轉向以 服務”為賣點,7幫助企業構筑符合其應用場景的垂類大模型,并針對該模型提供持續維護、優化和迭代升級服務。同時,通過將大模型開源,企業可吸引第三方開發者和企業圍繞其開源產品構建應用程序和服務,以提升企業的品牌形象和模型的行業影響力,進而圍繞其具有影 6 參見陳光沛,魏江,李拓宇:開源社區:研究脈絡、知識框架和研究展望,載
20、外國經濟與管理2021 年第 2 期,第 84-102 頁。7 參見郭雪,郭晧,趙海玲:開源領域有哪些成熟的商業模式?,網絡地址:https:/www.openatom.org/insight/article/3ky83uwLO5JS,最后訪問日期:2024 年 8 月 30 日。6 響力的開源模型制定技術標準,并采取發布專屬硬件、提供計算服務、出售相關培訓等方式拓展盈利渠道。開源是 AI 風險治理的破探照燈。閉源大模型因缺乏透明度,安全合規風險事件時有發生。如 Clearview AI 從互聯網上收集了數十億張圖片來訓練其閉源 AI 系統,后該公司便因未經同意收集和使用個人數據而招致法律訴訟
21、和道德爭議。較之于閉源大模型,開源大模型框架、參數、算法、數據以及其他技術細節都公開可見,因此研究人員和開發者可對代碼進行充分審查以識別其潛在安全漏洞和算法瑕疵。合規層面,開源大模型訓練數據的公開允許第三方機構和公眾檢查數據的來源和使用方式,進一步敦促模型訓練方更好地理解和遵守數據使用相關法律法規和標準,保障數據權利人的基本權益。倫理層面,開源大模型允許第三方開發者直接查看和理解模型的內部工作原理,極大地提升了模型的可解釋性,有助于揭示模型潛在的偏見、歧視或其他倫理問題。此外,較之于商業基礎模型的開發團隊,開源社區的技術人員具有更為豐富的文化背景,有助于確保模型充分考慮、尊重不同文化群體的需求
22、和價值觀。(三)(三)從從個人個人到到國家國家,開源釋放開源釋放 AI 效能效能 開源引導用戶從消費者轉變為創造者,為個體提供個性化表達渠道。隨著人工智能技術的顛覆性發展,大模型不再只是生產工具,更是個體提升自我、表達自我的重要渠道。8就閉源大模型而言,終端用 8 極客公園:開源大模型領域最重要的玩家們,在關心/擔心什么,網絡地址:https:/ 年 8 月 30 日。7 戶和大模型企業之間是 消費者-生產者”的關系,用戶無法了解模型生成內容的原理和具體細節,僅能單向被動接受 算法黑箱”所提供的輸出內容,而無法體現其創作風格和表達習慣。開源大模型則允許用戶利用自己的日常數據實現模型的定制化,個
23、人用戶可以通過開源大模型實現高度個性化的 AI 應用,以作為個人自我表達的延伸。例如,藝術家和設計師可將個人作品作為輸入,對開源模型如 Stable Diffusion 進行再訓練,以定制具備其個人風格的大模型,并協助其進行新的藝術創作。開源降低 AI 技術研發和應用門檻,為企業提供低成本、高效率解決方案。大模型技術效果的實現高度依賴海量數據和充足的算力資源,中小企業難以從零開始完成模型框架設計、訓練數據收集、基礎模型預訓練等工作。開源大模型通過將已經完成初步訓練的基礎模型公開,幫助應用企業理解現有模型的工作原理,并支持應用企業在此基礎上針對個性場景進行深度定制開發和數據定向訓練。此外,開源大
24、模型促進了不同領域之間的交叉融合和創新,各行業企業可以自由對其進行修改和擴展,從而創造出更多具有創新性的應用和產品。開源匯聚人工智能相關知識和資源,為國家前沿科技和智能產業發展提供有力驅動。開源作為一種新型協作模式,有助于實現全球人才、技術、算力、產業鏈等寶貴資源的有效整合。大模型開放社區可提供從基礎設施、軟件與數據環境、算法框架到智能模型的全棧 AI技術棧以及強大的算力支持和學習資源,為開發者和愛好者提供平等參與的機會,促進技術普及化,有效激發創新活力。同時,跨學科、8 跨領域的知識融合,為人工智能領域的技術難題攻關提供新的思路和方法,助力人工智能技術實現持續迭代和不斷創新。此外,企業的參與
25、為開源大模型技術研發和眾創提供必要資金支持和技術貢獻,依托開源大模型形成的成熟商業模式也將反哺開源大模型社區和技術的縱深發展,促進創新鏈和產業鏈深度融合、技術供給和市場需求互動演進,全面提升國家在前沿科技和智能產業方面的競爭力。二、開源大模型創新趨勢 近年來,開源模式在語言大模型領域迎來了爆發式發展,開源語言大模型量質齊升,形成百家爭鳴之勢。同時,自然語言處理技術的快速進步為多模態大模型以及 Agent 的發展、成熟奠定堅實基礎,并且開源模式也在持續推動大模型技術的迭代創新和應用落地。(一)(一)開源開源語言大模型語言大模型開啟開啟百家爭鳴百家爭鳴新紀元新紀元 語言大模型作為人工智能技術的重要
26、分支,與開源模式深度融合并得以廣泛運用。語言大模型即基于大規模語料庫訓練的,可執行文本總結、翻譯、情感分析等廣泛任務的人工智能模型,是專注于自然語言處理的重要人工智能技術領域。語言大模型發展初期,大多數性能強大的語言大模型僅能通過付費 API 訪問,而其工作方式和工作原理卻鮮為人知。同時,語言大模型的預訓練階段需耗費大量資源和高額成本。為促進模型健壯性的提升,處理偏見等有害生成內容,并推動語言大模型創新,開源模式成為產業界的優選方案。早期的開源語言大模型包括 GPT-NeoX-20B、開源預訓練 Transformer“(OPT)語言模型以及 BLOOM 等,這些開源語言大模型在性能上較之于閉
27、源大模9 型仍有較大差距,但 LLaMA 等高質量開源預訓練語言大模型的發布則大力推動了開源語言大模型質量的飛躍和數量的激增。目前,國內外開源語言大模型已形成百家爭鳴之勢,大量性能優越的開源大模型,如 OpenAI 的 GPT、Mistral AI 的 Mixtral、Microsoft 的 Phi、Google的 LaMDA 及 Gemini、DeepMind 的 Gopher、xAI 的 Grok、Meta 的LLaMA 等以及智譜 AI 的 GLM、阿里巴巴的通義千問、科大訊飛的星火、零一萬物的 Yi 等得到快速發展和廣泛應用。表 1 經典開源語言大模型解析 專欄專欄 1 經典開源語言大
28、模型經典開源語言大模型解析解析 1.通義千問通義千問 Qwen 模型簡介 Qwen 是阿里巴巴集團 Qwen 團隊基于 QWenLMHeadModel 模型架構研發的大語言模型和大型多模態模型系列,目前已升級至Qwen2.5 版本,無論是語言模型還是多模態模型,均在大規模多語言和多模態數據上進行預訓練,并通過高質量數據進行后期微調以貼近人類偏好。關鍵技術原理 通義千問的模型架構基于增強的 Transformer 結構,采用了旋轉位置嵌入(RoPE)和無偏置的 RMSNorm 技術,使用 Flash Attention來加速訓練過程,并采用 SwiGLU 激活函數以提高模型的性能。軟硬件依賴 軟
29、件:Qwen 大模型目前支持主流的 Linux、MacOS、Windows10 操作系統,運行前需安裝 transformers(4.40.0+)、Python(3.8+)、PyTorch(2.2+)等組件,也可通過 OLLaMA 等模型部署框架快速在本地安裝。硬件:當前通義千問的基礎模型已經穩定訓練了大規模高質量且多樣化的數據,覆蓋多語言(當前以中文和英文為主),總量高達3 萬億 token。對于較小規模的模型如 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B,推薦使用具有至少 16GB 顯存的 GPU,如 V100、P100或 T4 等,對于更大規模的模型如 Qwen2-72
30、B,則需要使用具有80GB 顯存以上的 A100 GPU。2.LLaMA 模型簡介 LLaMA(Large Language Model Meta AI)是 Meta AI 發布的開放且高效的大型基礎語言模型,具有 7B、13B、33B、65B(650 億)四種版本。LLaMA 系列開源大模型的訓練數據集皆來源于公開數據集,以確保其開源兼容性和可復現性。目前 LLaMA 已升級至 3.1版本。關鍵技術原理 LLaMA 3 采用了典型的 Decoder-only 的 Transformer 架構,與LLaMA 2 類似,但進行了一些改進,如使用 RoPE(旋轉嵌入)作為位置編碼方案,以及分組查詢
31、注意力(Grouped Query Attention,GQA)機制來提高推理速度。軟硬件依賴 11 軟件:LLaMA3 大模型支持主流的 Linux、MacOS、Windows操作系統,用戶可通過命令行或 OLLaMA 等模型部署框架快速在本地安裝,運行前需安裝 transformers(4.40.0+)、Python(3.7+)、PyTorch(2.2+)等必要關聯組件。處理器和內存:建議使用具有至少 8 核 CPU 進行高效后端操作和數據預處理。對于模型訓練和推理,尤其是 70B 參數模型,推薦使用多個強大的 GPU,最好是支持 CUDA 架構的 Nvidia GPU,如 RTX 300
32、0 系列或更高版本。對于 8B 模型,至少需要 16GB RAM,而 70B 模型則建議 32GB 或更多才能滿足基本運行需求。存儲:需要足夠的存儲空間來存儲模型和相關數據集,對于像70B 這樣的大型模型,建議使用 TB 級的 SSD 存儲,以確??焖俚臄祿L問。(二)(二)開源多模態大模型開源多模態大模型注入注入 AI 生態新活力生態新活力 Transformer 開源框架和 BERT 開源模型大力推動多模態模型發展,開源多模態大模型漸成生態。多模態模型,也稱作跨模態模型,是指在模型的輸入域、輸出域涉及一種以上模態數據的人工智能模型,可廣泛應用于文本和圖像的語義理解、圖像描述、視覺定位、對話
33、問答、視覺問答、視頻的分類和識別、音頻的情感分析和語音識別等場景。不同于單一模態,多模態學習旨在通過不同模態數據的有效整合,實現全面、準確的決策。21 世紀以來,深度學習技術的興起,尤其是Transformer 開源框架和 BERT 開源模型顯著推動了多模態模型的快12 速發展,9極大地促進了 AI 技術的跨領域融合,為人工智能生態注入新活力和新動力。目前主流的多模態大模型多以 Transformer 為基礎,該框架通過自注意力機制(Self-Attention Mechanism)、多頭注意力(Multi-Head Attention)等技術實現了對于全局信息的高效捕獲,顯著提高了模型的表達
34、力。此外,BERT 開源模型自 2019 年以來也逐漸被應用至多模態領域,該模型通過預訓練學習到的深層次語言表示,可作為多模態模型中文本模態數據的有力特征提取器,以幫助模型更好地理解和處理與圖像、視頻等其他模態相關的文本信息。同時,BERT 的預訓練和遷移學習方法也可應用于多模態模型,以提高模型性能和適用性。在開源基礎架構和模型技術的引領下,多模態模型領域也涌現出眾多開源項目,包括 CLIP、DALL-E、Flamingo、VLMo、Ernie-ViLG、mPLUG、LLaVA 等,開源多模態大模型生態逐漸構建。表 2 經典開源多模態大模型解析 專欄專欄 2 經典經典開源多模態大模型開源多模態
35、大模型解析解析 1.CLIP(Contrastive Language-Image Pretraining)模型簡介 CLIP 是 OpenAI 推出的一款多模態大模型,可理解和關聯圖像和文本,其核心思想在于通過對比學習,將圖像和文本映射到同一個向量空間,從而使得模型可以處理圖像分類、圖像搜索、文本生成等任務。此外,CLIP 可實現零樣本學習,并可通過對比學習,生成高效的圖像和文本表示,用于多種下游任務。9 上堵吟:探索多模態大語言模型,網絡地址:https:/ 年 10 月 6 日。13 關鍵技術原理 對比學習:CLIP 采用對比學習策略,同步訓練圖像和文本編碼器,將具有相同語義內容的圖像與
36、文本映射到同一向量空間內,并通過增強正確圖像-文本配對之間的相似度并降低錯誤配對之間的相似度,實現了精準的語義匹配。Transformer 架構:CLIP 的文本編碼器使用 Transformer 模型,圖像編碼器使用類似 ResNet 的卷積神經網絡,并最終通過線性變換將兩者的輸出映射至同一空間。軟硬件依賴 軟件依賴:CLIP 基于 PyTorch 框架,兼容大多數深度學習庫和工具。硬件依賴:CLIP 需要 GPU 支持,尤其是在大規模數據集上進行訓練時,建議使用高性能 GPU(如 NVIDIA A100)。2.Flamingo 模型簡介 Flamingo 是由 DeepMind 發布的多模
37、態模型,能夠處理文本、圖像和視頻等多種模態的數據。該模型擅長多模態內容的生成和推理,并具有強大的視頻處理能力。關鍵技術原理:Transformer 架構:Flamingo 使用多層 Transformer 編碼器處理文本和圖像模態,視頻處理則通過時序卷積或 Transformer 實現。多模態聯合學習:Flamingo 通過聯合訓練不同模態的數據,使14 其在不同模態之間共享表示,進行跨模態推理。軟硬件依賴 軟件依賴:Flamingo 基于 TensorFlow 或 JAX 框架,要求支持大規模并行計算。硬件依賴:Flamingo 對 GPU 和 TPU 的依賴較大,特別是在視頻處理任務中。(
38、三)(三)開源開源 Agent 引領人工智能發展新方向引領人工智能發展新方向 大模型賦能 Agent 能力增效,開源模式加速 Agent 創新應用。Agent“(智能體)是一種能夠感知環境、做出決策并采取行動的智能系統,通常具備自主性、適應性、交互性和學習能力四大特征,即能夠在無人類干預的情況下獨立完成任務、根據周圍環境和用戶反饋不斷調整自身行為、與其他智能體或人類進行溝通和協作,同時還能通過持續學習提升自身性能。Agent 的發展歷經符號規則、統計學習、深度學習等階段,并隨著大模型技術的快速發展迎來了基于大模型的突破式解決方案,越來越多的研發人員開始采用大語言模型作為 Agent的認知核心,
39、并借助多模態感知和多元工具應用等方式來拓展其感知和行動空間。通過引入大語言模型深度學習新范式,思維鏈推理以及先進的自然語言理解技術賦予了 Agent 強大的學習與知識遷移能力,使得開發廣泛適用且高效的 Agent 成為現實,推進人類不斷接近通用人工智能。10與其他人工智能領域技術相似,開源模式同樣在極大程 10 劉瑤:2024 年 AI Agent 行業報告大模型時代的“APP”,探索新一代人機交互及協作范式,網絡地址:https:/ 2024 年 10 月 6 日。15 度上促進了 Agent 技術的創新發展和應用觸達,LangChain、TaskMatrix.AI、CogView、Auto
40、GPT、Open Assistant 等開源 Agent 相關項目通過代碼、框架或工具的公開可獲取,有效降低了 Agent 技術的研究和應用門檻,推動其發展和應用。表 3 經典開源 Agent 解析 專欄專欄 3 經典開源經典開源 Agent 解析解析 1LangChain 簡介 LangChain 是一個用于構建可編程 Agent 的開源框架,LangChain 的架構設計高度模塊化,開發者可以根據需求靈活選擇和組合不同組件。此外,LangChain 還支持與多個開源語言模型的集成,使其成為開發大模型 Agent 的理想選擇。LangChain 的核心在于將語言模型的生成能力與外部工具結合,
41、以實現復雜任務的自動化。此外,LangChain 開源項目十分活躍,有大量插件和擴展可供使用。關鍵技術原理 語言模型與工具集成:LangChain 通過結合大型語言模型(如 GPT-3、BERT 等)與外部工具(如搜索引擎、數據庫),實現 Agent的多功能化。任務規劃與執行:Agent 能夠根據用戶輸入進行任務規劃,調用適當的工具完成任務。軟硬件依賴 16 軟件依賴:LangChain 基于 Python,兼容大多數深度學習框架和工具。硬件依賴:LangChain 對硬件要求不高,常用于輕量級任務的自動化執行。2.TaskMatrix.AI TaskMatrix.AI 是由微軟亞洲研究院推出
42、的一個多模態任務Agent,可通過自然語言指令執行復雜的任務,如網頁操作、數據處理等。該項目支持復雜任務執行并支持多模態處理,同時針對中文語境進行了優化,適用于國內的應用場景。關鍵技術原理 多模態融合:TaskMatrix.AI 將語言、圖像和操作指令結合起來,使得模型能夠在復雜的多模態環境中工作。強化學習:TaskMatrix.AI 通過強化學習,可在多步任務中不斷優化決策,提高任務執行的效率和準確性。軟硬件依賴 軟件依賴:TaskMatrix.AI 基于微軟的深度學習框架,集成了多種 API 和工具。硬件依賴:TaskMatrix.AI 需要較高性能的 GPU 支持,特別是在多模態任務中。
43、三、開源大模型風險挑戰 大模型技術在給人類帶來生活方式轉變和生產方式革新的同時,也引入了安全、合規等多方面風險挑戰,并對人類社會的可持續發展17 造成威脅。此外,較之于閉源大模型,開源大模型關鍵元素的公開在一定程度上增加了風險暴露的可能性和被惡意利用的概率,開源許可模式的應用使得人工智能技術利用的合規風險更加復雜,開源大模型的可得性還可能加劇人工智能技術的濫用風險。(一)(一)開源大模型應用或開源大模型應用或導致安全風險升級導致安全風險升級 安全層面,開源大模型應用主要面臨傳統信息系統安全風險以及算法缺陷所誘發的新型安全風險。1.開源模式或加劇模型攻擊風險 開源大模型信息系統安全性面臨多重復雜
44、風險。一是大模型開源招致更高入侵風險。較之于閉源大模型,開源大模型代碼等信息公開可獲取,使得信息系統可能面臨更高入侵風險,攻擊者可能利用漏洞未經授權訪問大模型信息系統,導致敏感數據泄露或被篡改、服務中斷、關鍵基礎設施受損等,影響個人、企業、社會甚至國家的安全。然而,閉源大模型信息系統所面臨安全風險嚴重程度不亞于開源大模型,閉源大模型的保密性限制了外部審查,AI 系統安全漏洞難以被及時發現,并可能被廣泛應用于企業各信息系統中,一旦漏洞暴露便增加了被攻擊者利用的風險,從而可能導致更嚴重的安全事件。二是開源大模型系統安全問題處理面臨兼容性和社區支持等不確定因素。在大模型開源項目中,不同分支和分叉在功
45、能特性和安全性能上的差異可能導致跨系統兼容性問題,從而顯著提升開源大模型系統集成和維護的復雜性。此外,開源項目的更新和漏洞修復高度依賴于開源社區參與者的積極貢獻。若項目維護活動不夠活躍,或者開18 源社區缺乏足夠的開發維護人員,開源大模型項目將在較長時間內保持脆弱狀態,存在嚴重安全隱患。三是開源大模型依賴復雜性加劇供應鏈攻擊風險。開源大模型的開發和部署通常依賴于大量第三方軟件包和依賴庫資源,依賴項中的安全問題將可能通過供應鏈攻擊的方式迅速影響到整體信息系統。如國內 360、騰訊等企業安全團隊曾多次發現 TensorFlow、PyTorch 等開源深度學習框架及其依賴庫的安全漏洞,攻擊者可利用相
46、關漏洞造成任意代碼執行、拒絕服務攻擊、信息泄露等危害。2.開源模式或升級算法安全風險 開源人工智能算法風險問題顯著。一是開源大模型算法依然存在可解釋性問題。盡管開源大模型的代碼、參數和訓練方法公開透明,但由于模型內部多層次的非線性數據處理和海量參數的復雜交互,大模型的決策路徑和工作機制仍屬黑盒模式11,如此可能導致輸出結果難以預測和確切歸因,如有異常難以快速修正和溯源追責。二是開源大模型算法魯棒性弱。魯棒性是指大模型技術在面對復雜的數據環境時,保持性能穩定和輸出結果準確的能力。較之于閉源大模型,開源大模型的應用環境更加的多元和復雜,同時開源大模型通常為通用性模型,因此在復雜場景下或特定用例中,
47、開源大模型可能表現出輸出內容不準確、做出錯誤判斷或行為、服務中斷或性能下降等問題。根據 FlagEval 大模型評測平臺測評結果,在內容擾動魯棒 11 信息化與數字化:一文讀懂“黑盒”大模型的可解釋性,網絡地址:https:/ 2024 年 10 月 6 日。19 性評測和格式擾動魯棒性評測中,開源大模型 LLaMA-2-7B 的擾動后總平均準確率不到 40%。三是大模型算法開源易引發對抗性攻擊和反向工程。攻擊者可通過獲取、研究公開算法,設計輸入數據以誤導模型算法輸出錯誤結果。對于依賴模型進行關鍵決策系統而言,如身份驗證系統、欺詐檢測系統、自動駕駛汽車的感知系統等,對抗性攻擊尤其危險。同時,若
48、攻擊者通過注入惡意數據以影響模型的訓練過程,將導致生成存在偏見或不可信結果的模型。相較于閉源大模型對攻擊者的黑盒輸出,基于開源大模型的應用極易繼承白盒對抗性攻擊的安全漏洞,從而引發嚴重的安全風險。此外,開源大模型的公開性也使得攻擊者更易通過分析或復制模型算法來盜用知識或進行模型復制。四是開源大模型算法仍然可能存在價值觀和意識形態風險。一方面,人工智能大模型訓練基于大量數據,然而數據的標注人員文化背景差異巨大,并可能從認知和感知層面無意識地將主觀偏好和隱性偏見通過標注方式引入模型。同時,由于算法設計者在模型開發和訓練過程中會基于經驗和主觀判斷進行參數選擇,并致力于目標函數的最優化以提升對主流趨勢
49、的預測精度,而將少數群體數據視為異常值或噪聲,可能最終導致該部分群體受到算法的不公平對待12。此外,當前人工智能算法不足以獨立識別和抵制偏見數據,因此在與外部環境的互動過程中,用戶輸入的偏見可能會通過人工智能系統自我加強的 12參見張玉宏,秦志光,肖樂:大數據算法歧視的本質,載自然辯證法研究,2017 年第 33 卷第 5期,第 81-86 頁。20 反饋循環被不斷復制和放大,進而加劇現有的社會歧視13。根據聯合國教科文組織大型語言模型中對婦女和女童的偏見報告分析,開源大模型仍然是性別偏見的重災區,如在 LLaMA 2 生成的內容中,女性從事家務勞動的頻率是男性的 4 倍。另一方面,境外開源大
50、模型與國內環境和內容安全要求并不完全符合,即使經過再訓練仍然無法完全去除其原生數據價值傾向,這類模型可能更容易生成違背社會主義核心價值觀、危害國家安全和利益、損害國家形象,宣揚恐怖主義、極端主義,宣揚民族仇恨、民族歧視,暴力、淫穢色情,以及虛假有害信息等法律、行政法規禁止的內容。(二)(二)開源大模型應用或面臨多重開源大模型應用或面臨多重規制要求規制要求 合規層面,開源大模型應用面臨多重監管要求和法律規制,本文主要圍繞開源許可、訓練數據以及大模型生成物三大業界關注重點議題解析開源大模型合規風險。1.開源許可協議適用或面臨層層限制 大模型開源許可協議種類繁多,許可協議本身潛藏諸多風險。開源許可協
51、議可謂開源大模型應用、發展的法律基石。目前全球最大開源大模型托管平臺 HuggingFace 上匯聚超百萬開源大模型項目,涉及七十余個開源許可協議,可大致分為三類:通用型開源軟件許可協議、知識共享許可協議、新型人工智能許可協議。1)寬松型開源軟件許可協議如 Apache-2.0、MIT 等在開源大模型項目中適用熱度最高,該 13 新傳碩博芝士站:算法偏見(Algorithmic Bias),網絡地址:https:/ 年 10 月 6 日。21 類許可協議僅為被許可方設定較低限度義務限制,因此廣受商業公司歡迎。但該類許可協議的許可對象一般為軟件產品(或源代碼和二進制代碼)及相關文件,對于開源大模
52、型項目中的部分元素,如模型參數、訓練數據集等可能難以完全覆蓋,因此使用該類開源許可協議下的開源大模型項目可能存在一定風險問題。2)知識共享系列許可協議僅包含版權許可,但當前人工智能領域專利數量激增,開源大模型項目涉及專利方案可能性較大,因此應用知識共享許可協議下的開源大模型或潛藏較高專利風險。3)新型人工智能許可協議主要包括RAIL(Responsible AI Pubs Licenses)系列許可協議及 Meta 的LLAMA2、Stability AI 等許可協議,此類許可協議多超出了 OSI 的經典開源定義范疇,增加了使用范圍、規模、用戶類型等方面的限制。同時,該類許可協議在一定程度上代
53、表著協議制定方或模型發布方的立場或價值觀,部分條款在不同社會條件和文化背景下解釋和適用可能略有差異。表 4 國內外典型大模型許可協議類型表 序序號號 名稱名稱 模型類模型類型型 大大模型模型 許可許可協議協議 備注備注 1 阿里云通義千問 預訓練 以Qwen/Qwen2-72B 為代表 Tongyi Qianwen LICENSE AGREEMENT Tongyi Qianwen Release Date:August 3,2023 自定義許可協議,與Meta 的 LLaMA 許可協議有相似之處 2 阿里云通義千問 對話 以Qwen/Qwen2-72B-Instruct為代表 3 零壹萬物 預
54、訓練 以 01-ai/Yi-1.5-34B-32K為代表 Apache 2.0 Apache 2.0 許可協議是 Apache 基金會制22 序序號號 名稱名稱 模型類模型類型型 大大模型模型 許可許可協議協議 備注備注 4 零壹萬物 對話 以 01-ai/Yi-1.5-34B-Chat為代表 定的被廣泛采用的開源許可協議 5 幻方/深度求索 預訓練 以 deepseek-ai/deepseek-llm-7b-base為代表 DEEPSEEK LICENSE AGREEMENT Version 1.0,23 October 2023 自定義許可協議,與國外的 Open RAIL 許可協議有相似
55、之處 6 幻方/深度求索 對話 以DeepSeek-V2-Chat 為代表 7 上海 AI實驗室/書生浦語 預訓練 internlm2_5-20b Apache 2.0 Apache 2.0 許可協議是 Apache 基金會制定的被廣泛采用的開源許可協議 8 上海 AI實驗室/書生浦語 對話 internlm2_5-20b-chat 9 騰訊 預訓練 LLaMA-Pro-8B LLAMA 2 COMMUNITY LICENSE AGREEMENT Meta 的 LLaMA 許可協議 10 騰訊 對話 LLaMA-Pro-8B-Instruct 11 百川 預訓練 Baichuan2-13B-B
56、ase Baichuan2 模型社區許可協議 自定義許可協議 12 百川 對話 Baichuan2-13B-Chat 13 Meta/LLaMA 預訓練 meta-LLaMA/Meta-LLaMA-3-70B META LLAMA 3 COMMUNITY LICENSE AGREEMENT 自定義許可協議。要求遵循貿易管制法律法規 14 Meta/LLaMA 對話 meta-LLaMA/Meta-LLaMA-3-70B-Instruct 23 序序號號 名稱名稱 模型類模型類型型 大大模型模型 許可許可協議協議 備注備注 15 Mistral AI_ 預訓練 mistralai/Mixtral
57、-8x22B-v0.1 Apache 2.0 Apache 2.0 許可協議是 Apache 基金會制定的被廣泛采用的開源許可協議 16 谷歌 預訓練 google/gemma-2-9b Gemma Terms of Use 未特別定義貿易管制條款 17 谷歌 對話 google/gemma-2-9b-it Gemma Terms of Use 未特別定義貿易管制條款 18 微軟 預訓練 microsoft/phi-2 MIT 被廣泛采用的寬松開源許可協議 19 微軟 對話 microsoft/Phi-3-medium-4k-instruct MIT 被廣泛采用的寬松開源許可協議 20 Sta
58、bility 預訓練 stabilityai/stablelm-2-12b STABILITY AI COMMUNITY LICENSE AGREEMENT 自定義許可協議。要求遵循貿易管制法律法規 21 Stability 對話 stabilityai/stablelm-2-12b-chat STABILITY AI COMMUNITY LICENSE AGREEMENT 自定義許可協議。要求遵循貿易管制法律法規 22 TII 預訓練 tiiuae/falcon-40B Terms and Conditions Falcon 2 11B TII License Version 1.0 基于
59、Apache 2.0 許可協議的自定義許可協議 23 TII 對話 tiiuae/falcon-40B-instruct 24 OpenAI-Community 預訓練 openai-community/gpt2 MIT 被廣泛采用的寬松開源許可協議 25 Princeton普林斯頓 預訓練 princeton-nlp/Sheared-LLaMA-2.7B Apache2.0 Apache 2.0 許可協議是 Apache 基金會制定的被廣泛采用的開源許可協議 24 序序號號 名稱名稱 模型類模型類型型 大大模型模型 許可許可協議協議 備注備注 26 Facebook 預訓練 facebook
60、/opt-30b OPT-175B LICENSE AGREEMENT 自定義許可協議。未對貿易管制法律法規的遵從做出特別規定 27 BigScience 預訓練 bigscience/bloom-3b bigscience-bloom-rail-1.0 自定義許可協議。未對貿易管制法律法規的遵從做出特別規定 開源大模型許可協議條款復雜,適用面臨多層限制。首先,開源許可協議可謂使用者使用、修改、分發開源大模型項目的權利來源,一旦使用者違反開源軟件許可協議相關規定,該授權即告終止,后續任何基于該開源大模型項目的利用行為都可能構成侵權,因此使用者基于開源大模型項目進行復制、修改、運行、分發等操作的
61、合規前提在于忠實遵循開源許可協議的規定,包括遵循歸屬要求及再分發要求等。其次,不同于軟件項目,大模型項目的開發需耗費大量資源,個人往往難以負擔,因此當前開源大模型的發布方多為商業公司。該類公司出于商業考量或社會責任,可能在開源許可協議中添加部分特殊條款,如 LLaMA3.1 和通義千問 2 明確活躍用戶達到閾值需另行申請商業許可、LLaMA2 許可協議包含用于訓練其他大模型的限制、LLaMA3.1 明確了衍生大模型命名的限制、RAIL 系列及 LLaMA3.1包含使用場景的限制等。再次,同一大模型項目可能同時集成多個開源組件,若不同開源組件存在開源許可協議兼容性問題,將最終導致使用者無法同時滿
62、足所有開源許可協議的義務要求,因而引發合規問題。最后,不同國家或地區對于開源許可協議條款的法律解釋和執行方式也可能存在差異。目前,我國在 羅盒訴風靈案”中突破性地認25 可 GPL-3.0 開源許可協議具有合同性質,并將其作為判斷侵權行為的邏輯起點,體現了開源社群規范對法律規范的影響力。14因此,使用者除了應當遵守開源許可協議本身的要求外,還需確保其使用符合所在國家或地區的相關法律規定和要求。同時,許可協議條款也可能會隨時間變化,進而使用者應持續跟蹤開源許可協議的變動情況并更新對應的使用策略。2.開源大模型數據合規風險問題突出 大模型的訓練和優化涉及大量數據,開閉源大模型訓練數據合規風險存在眾
63、多相似之處。一是數據來源合法性問題。開閉源大模型訓練數據主要包括開放數據、自采數據、商業數據、使用者輸入的信息、其他模型輸入的數據等。無論通過何種途徑獲取,需首先確保訓練數據來源合法。1)對于開放數據集而言,使用開放數據集不僅需遵循其開源許可協議義務要求,還需考察其許可協議的傳染性和兼容性,避免導致模型中的其他元素被迫開源或許可協議難以履行。同時開放數據集中還可能包含侵權數據,不加甄別的使用將可能招引法律風險,如曾用于 LLaMA 等開源大模型訓練的開放數據集 Books3 中包含大量未授權書籍,在部分國家訓練和應用可能引發侵權糾紛。2)自采數據多通過爬蟲等技術抓取互聯網數據,若不加以人工干預
64、,相關爬蟲技術可能違反網絡爬蟲排除協議“(robot 協議)等聲明文件要求,繞過目標網站的防護措施爬取數據,進而導致知識產權侵權、不正當競 14 參見辜凌云:以許可協議為核心的開源社區治理邏輯,載知識產權2024 年第 6 期,第 57-58頁。26 爭等法律問題,情節嚴重者還可能觸犯刑法。3)商采數據需謹慎關注數據來源合法性以及數據可交易性,以避免發生合規風險。4)應用使用者輸入數據應先通過用戶協議等方式獲取使用者授權,否則將可能導致對于使用者知識產權、商業秘密以及個人隱私的侵犯。5)使用其他模型輸入的數據需遵循相關模型的許可要求,如 LLaMA2 許可協議明確禁止利用生成數據訓練其他大模型
65、,違反相關協議規定將可能導致著作權侵權。二是數據及隱私風險。若訓練數據中包含個人敏感數據,未得合法授權或未經適當處理、管控,將可能違反數據隱私等法律法規的要求。三是數據偏見和歧視風險。訓練數據本身或在收集、處理的過程中可能存在無法準確反映現實或含有系統性偏見的問題,進而導致人工智能輸出結果存在歧視和偏見,加劇社會不公,帶來法律及倫理上的風險。3.開源或加重大模型生成物侵權風險 知識產權侵權風險問題是開閉源大模型的共同隱憂。生成物在數據輸入和內容輸出階段都可能涉及著作權侵權問題。在數據輸入階段,機器學習需將原始數據轉碼為結構化數據,該過程涉及對原有數據內容的調整,包括格式轉換、整理刪除和匯總等,
66、可能構成對著作權人翻譯權、改編權和匯編權的侵犯。15內容輸出階段主要涉及三方面侵權風險:一是復制權侵權,即生成內容若與受版權保護的作品在基本表達上相同或相似且未經授權,可能構成侵權;二是改編權侵權,生 15 參見張平:人工智能生成內容著作權合法性的制度難題及其解決路徑,載法律科學(西北政法大學學報)2024 年第 3 期,第 27 頁。27 成物在保留原作品表達的同時產生了實質性差異,可能觸及改編權的邊界;三是信息網絡傳播權侵權,若生成物被上傳或傳播于互聯網,將可能侵犯著作權人的信息網絡傳播權。16此外,大模型生成物還可能涉及商標侵權和專利侵權問題。生成物中包含的圖像、文字或標志與他人商標相似
67、或相同,會構成商標侵權。同時,若人工智能生成的創新設計、技術方案或產品形態已被他人申請了專利,未經許可擅自實施將可能會構成專利侵權。大模型生成物還可能構成人格權侵權乃至刑事犯罪。若大模型生成物未經授權使用了他人特定形象、聲音或其他個人特征,或擅自使用自然人的形象來創設虛擬人物,可能侵犯該人物的肖像權、姓名權或隱私權等人格權利。如知名影星 Scarlett Johansson 對 OpenAI 提出指控,控訴 OpenAI 語音助手人工智能產品未經授權模仿其聲音。此外,人工智能生成物若包含貶損、侮辱或誹謗他人的信息,將可能構成名譽權侵權,情節嚴重者將可能構成刑事犯罪。開源大模型生成物侵權法律責任
68、歸屬不明風險突出。閉源大模型的所有權和使用權較為明確,且通常配有完善的生成物歸屬和侵權歸責協議,以確保相關風險發生時,可快速識別責任主體。因此,用戶在使用閉源大模型服務時,對于生成物致損或侵權的責任歸屬,具有較高預見性。如微軟創立了版權承諾保護機制,承諾為使用其生成式人工智能編碼工具 Copilot 的用戶面臨的侵權索賠進行賠償。而開源大模型的貢獻方數量眾多,此外,開源大模型通常未明確開源大模型 16 參見姚志偉:人工智能生成物著作權侵權的認定及其防范以全球首例生成式 AI 服務侵權判決為中心,載地方立法研究2024 年第 3 期,第 2-5 頁。28 生成物侵權責任承擔方,因此相關風險發生時
69、,可能面臨責任歸屬不明的情況。(三)(三)開源模式或加劇開源模式或加劇大模型大模型技術濫用風險技術濫用風險 開源模式大大降低了人工智能技術的使用門檻,但另一方面,可得性的增加將可能加劇大模型的不當使用風險,進而對個人以及社會的可持續發展造成影響。1.開源或加劇大模型濫用風險,影響個體發展 開源大模型不當應用或加深信息繭房、固化認知偏見。早在 20世紀初,美國學者凱斯桑斯坦便基于對互聯網信息傳播的考察提出 信息繭房”概念。隨著人工智能的到來,與閉源大模型功能原理相似,開源大模型也可通過與用戶的交互對話,分析預測用戶的價值觀和認知偏好,并基于該分析結果輸出與用戶價值理念相似的信息和答案,從而強化了
70、用戶現有的認知體系,并可能增強其認知偏差。此外,過度依賴大模型提供的信息,將導致用戶無法獲取在訓練數據集中代表性不足的“小眾”觀點或信息,從而限制個體在多元信息環境中形成全面認知。開源大模型過度應用或導致能力退化、阻礙個人發展。開源模式降低了人工智能應用的技術門檻,但若長期應用和過度依賴則可能減少用戶學習和鍛煉專業技能的機會,導致用戶應對困難與挑戰的自主思考和創新能力下降,被動接受模型提供的解決方案還將造成用戶信息篩選能力以及決策判斷能力的退化。美國智庫布魯金斯學會刊文指出,GPS 導航和智能手機讓人類更容易遺忘地址和電話號碼,29 ChatGPT 也將可能導致人類記憶和批判能力的下降。同時,
71、對于人工智能技術及服務的過度應用還可能逐漸改變人類的交流方式和情感體驗,導致社交技能的退化、情感體驗的漠化以及語言表達的鈍化。2.開源或升級大模型濫用風險,影響社會發展 開源大模型惡意利用或促進黑客攻擊民主化。開源加速人工智能技術應用落地,使得萬千行業因此受益,但也給了不法分子更多可乘之機。目前,人工智能濫用案例時有發生,開源模式更是進一步降低人工智能技術惡意應用門檻,甚至利用有害語料庫對開源大模型加以訓練,專門用于網絡犯罪、詐騙等非法行為非法大模型也數見不鮮。如基于開源語言大模型構建,并去除安全和道德限制的非法大模型FraudGPT 支持自動化編寫欺騙性短信、釣魚郵件和釣魚網站代碼,并提供高
72、質量詐騙模板和黑客技術學習資源,使得人工智能技術武器化和民主化,據悉,FraudGPT 的用戶數在短短數月內便超過了先進的國家網絡戰部隊黑客數量。17 四、開源大模型治理全球動態 為避免人工智能技術發展陷入科林格里奇困境18,平衡風險治理和創新引導,聯合國等國際組織以及各國家政府紛紛出臺相關政策或法規,以回應該時代命題。目前,隨著開源模式優越性的彰顯,全球相關組織皆對開源大模型生態構建及創新發展給予高度重視。此外,17FREEBUF:改變網絡安全,最火爆的黑客工具:武器化人工智能 FraudGPT ,網絡地址:https:/ 2024 年 10 月 6 日。18 注:科林格里奇困境(Colli
73、ngridges Dilemma)是英國技術哲學家大衛科林格里奇在技術的社會控制(1980)中指出,一項技術如果因為擔心不良后果而過早實施控制,那么技術很可能就難以爆發。反之,如果控制過晚,已經成為整個經濟和社會結構的一部分,就可能走向失控,再來解決不良問題就會變得昂貴、困難和耗時間,甚至難以或不能改變。這種技術控制的兩難困境。30 在風險治理方面,國際組織及國家政府也開始探索人工智能監管措施,除有例外規定外,開源大模型作為人工智能子類,同等適用人工智能相關規制規則。然而,歐盟人工智能法案等法律法規已從開源特殊性角度出發,明確了開源大模型的差異化監管規則,未來針對開源大模型的精細化、包容性監管
74、或成為趨勢。(一)(一)國際國際組織高度重視開源大模型發展,積極探索全球組織高度重視開源大模型發展,積極探索全球人工智能治理方案人工智能治理方案 聯合國政策助力凝聚開源大模型發展共識。2020 年 6 月,聯合國秘書長安東尼斯古特雷斯發布數字合作路線圖:執行數字合作高級別小組的建議,明確了開放共享人工智能模型不僅可有效減少能源和人力資源的重復消耗,還能促進優質教育的發展、加深人類對于地球系統及其他生態系統的了解,并提出為提升互聯網連接的優勢,各行為主體都須推廣開放人工智能模型。此外,2023 年底,聯合國人工智能高級別顧問委員會發布“以人為本的人工智能治理臨時報告也強調開源數據和模型共享是利用
75、人工智能造福人類的重要因素。人工智能風險問題成全球關注焦點。一是聯合國強調提升人工智能治理國際協同性。聯合國在統一全球人工智能治理共識、提升人工智能治理措施跨國互操作性、消弭全球數字鴻溝等方面發揮著不可替代的作用。如在聯合國教科文組織的倡導下,聯合國 193 個會員國一致通過首個人工智能倫理全球協議“人工智能倫理問題建議書。該建議書結合人工智能系統全生命周期倫理影響和各會員國發展差異,確立了人工智能發展的價值觀、原則和行動指南。此外,2024 年31 9 月,聯合國人工智能高級別顧問委員會發布以人為本的人工智能治理 最終報告,提出以全球網絡化、敏捷靈活的方式管理人工智能,包括通過成立國際人工智
76、能科學小組、開展人工智能治理政策對話及標準交換等方式建立共同理解、構建協同性治理方法,以應對人工智能在全球范圍內帶來的挑戰和機遇。促進國際社會穩定和公平發展。二是區域間國家組織探索人工智能治理方向。北約積極回應近年來人工智能領域的快速發展。北約于 2024 年 7 月 10 日更新其“人工智能戰略,戰略明確了四大優先發展領域,包括制定和執行符合國際法規及標準的倫理準則、建立覆蓋北約成員國的統一的技術標準和數據交換協議、促進人工智能與量子計算等信息技術的融合發展、構建多元化 AI 生態系統。經合組織呼吁構建負責任人工智能系統。經濟合作與發展組織于 2019 年 5 月通過全球首個人工智能主題政府
77、間標準,并于 2024 年 5 月進行了修訂。該修訂版以創新、可信和人權為主線,呼吁構建負責任的人工智能系統,包括增強人工智能系統的透明度和可解釋性等,并建議在國家政策和國際合作中重點關注中小企業的人工智能發展環境。發展中國家關注人工智能技術的可及性。2023 年 9 月,77 國集團和中國發布關于 當前發展挑戰:科學、技術和創新的作用”的哈瓦那宣言,呼吁發展開放科學,并為發展中國家提供可負擔的可靠連接,確保人工智能可被可靠、公平的開發、接入和使用。(二)(二)歐盟立法謀求人工智能監管主導權,開源歐盟立法謀求人工智能監管主導權,開源大模型大模型得得有條件有條件義務義務豁免豁免 32 歐盟建立全
78、球首部人工智能監管立法,平衡 AI 風險治理和開源創新保護。2024 年 8 月 1 日,歐盟人工智能法案正式生效,世界上第一部人工智能領域的綜合性立法由此誕生。該法案以預防人工智能危害為主要原則,覆蓋了人工智能產業全生命周期,并且根據人工智能系統的風險等級設立了不同的監管要求,同時采取監管沙盒等創新性、適應性監管措施,以平衡風險監管和技術發展。此外,歐盟人工智能法案還給予開源大模型更多包容,明確了在非高風險環境中免費或用于科學研究和開發目的而投入使用的開源 AI 系統可豁免部分合規義務。19同時,該法案對于開源大模型的定義門檻較低,在要求注明來源并遵循類似分發條款的前提下開放共享模型代碼及相
79、關數據即可被視為開源。該系列規定也為開源大模型的繁榮發展營造了良好的政策環境。歐盟產品責任法案與時俱進,充分考慮開源特殊性。為適應數字時代的發展,歐盟委員會修訂了產品責任指令,該法案擴大了產品的定義范圍,明確將人工智能系統包含在內,同時新指令簡化了索賠者的舉證責任,允許索賠者基于產品缺陷而非過錯來追究產品提供方的責任,從而適應人工智能產品專業性、復雜性、不透明性等特點。同時,該法案明確將在商業活動的過程之外開發或提供的免費且開源的軟件排除在產品責任的適用范圍之外,因為該類產品并未投放至市 19 注:歐盟人工智能法案在第 2 條“范圍”中列明:此規定不適用于以自由和開源許可提供的 AI 組件,除
80、非它們作為高風險 AI 系統或是第二編(編者注:第二編為“禁止的 AI 實踐”)或第四編(編者注:第四編為“透明度義務”)的 AI 系統的一部分由提供者投放市場或投入使用。此豁免不適用于第 3 條定義的具有系統性風險的基礎模型(編者注:第 3 條定義的“基礎模型”指的是一種 AI 系統模型,它在大規模的廣泛數據上進行訓練,旨在產生廣泛的輸出,并可以適應各種不同的任務)。33 場,以最大程度保護開源創新與研究。(三)(三)美國美國人工智能人工智能監管監管增強化趨勢明顯增強化趨勢明顯,國防領域率先國防領域率先探索探索開源大模型開源大模型影響影響 美國人工智能監管日趨呈漸進化、增強化趨勢。早期,奧巴
81、馬政府通過 為人工智能的未來做好準備、國家人工智能研發戰略計劃等文件回應人工智能引發的倫理、安全以及數據隱私等挑戰,而未將人工智能作為獨立監管領域。2019 年,特朗普政府簽發行政令保持美國在人工智能領域的領導地位,以確保美國在 AI 研發及相關領域的全球領先優勢。在此期間,美國尚未形成聯邦性的監管立法或法規,主要依靠區域性監管和行業自律等方式開展人工智能治理工作布局。202023 年 10 月,拜登政府簽署行政令安全、可靠和可信開發和使用人工智能,人工智能治理關注焦點從偏見隱私、研發創新轉向更底層的安全可靠等根本原則。同期,人工智能地方性立法頻繁。在2024年立法會議上,包括波多黎各、維爾京
82、群島和華盛頓特區在內的多個地方政府提出人工智能立法法案,并有 31 個地方政府通過相關決議或立法。如 2024 年 8 月,加利福尼亞州通過了前沿人工智能模型安全與創新法案,該法案為開發者設立了一系列創新性的安全要求和義務,旨在維護前沿人工智能模型開發和使用過程中的公共安全。美國國防考量開源大模型潛在影響。美國國防部正在積極推動人工智能技術的廣泛應用,并通過商業創新以推進其人工智能戰略,但 20 參見邢亞杰、戚凱:論當前美國政府的人工智能監管政策,載國際觀察,2024 年第 4 期:第 31-57 頁。34 在該過程中,開源大模型的創新潛能和濫用風險成為美國國防工業是否應用開源大模型的重要分歧
83、點。目前,在針對開源大模型風險及治理的廣泛討論中缺乏國防安全層面的考量,因此,未來美國國防部將對開源大模型的影響進行量化評估,包括開閉源大模型用例對比以及開源大模型的應用數據等。(四)(四)中國人工智能治理規則由“軟”及“硬”,中國人工智能治理規則由“軟”及“硬”,開源大模開源大模型或得包容性監管型或得包容性監管 中國人工智能監管規則框架逐漸確立,開源大模型同等適用。人工智能發展早期,我國便高度強調開源開放發展原則,布局人工智能發展格局。2017 年,國務院印發新一代人工智能發展規劃,明確倡導開源共享理念,促進創新資源在全球范圍內的優化配置。隨著人工智能技術的快速發展,2020 年,國家標準化
84、管理委員會等五部門聯合印發國家新一代人工智能標準體系建設指南,提出人工智能標準體系的八大維度,并明確重點開展開源框架安全標準研制,通過標準指導確立了人工智能技術的規制方向。同期,個人信息保護法、數據安全法等法律法規相繼發布,為人工智能應用中的數據保護等重點風險提供防治方向。近期,大模型數量實現爆發式增長,人工智能應用風險逐漸暴露,中國開始聚焦人工智能確立相關監管規則。如互聯網信息服務算法推薦管理規定建立了事前事中事后的算法推薦服務監管措施,互聯網信息服務深度合成管理規定明確了深度合成服務的監督管理職責、服務提供者的責任等內容,生成式人工智能服務管理暫行辦法 明確提出對生成式人工智能服務實行包容
85、35 審慎和分類分級監管原則。上述法律法規屬于人工智能領域的一般性監管規則,未對開源算法、開源人工智能、開源大模型提出特殊規定,因此開源大模型應當同等適用。各地方政府高度支持開源大模型發展,立法草案充分體現開源創新保護。自 2022 年底至今,各地方政府陸續出臺開源與大模型、開源與相關軟硬件、開源與算法、開源與訓練數據等開源與人工智能相關的規范文件,以鼓勵、加強、完善開源人工智能生態構建,促進開源與人工智能的協同發展。此外,2024 年 5 月 10 日,國務院公布2024 年度立法工作計劃,明確 預備提請全國人大常委會審議人工智能法草案”,我國開創性人工智能領域綜合性立法也將正式開啟。目前,
86、業界專家學者已匯聚共識,起草了中華人民共和國人工智能法(學者建議稿)和人工智能示范法 2.0“(專家建議稿),前者明確了關鍵人工智能監管和特殊應用領域人工智能監管,后者則引入人工智能管理負面清單制度。此外,兩個版本的立法草案都高度重視開源大模型的發展和治理,鼓勵促進開源生態建設,并明確了開源大模型提供者的責任減免規則。表 5 地方政府開源人工智能相關規范文件 名稱名稱 地地方方 發布日期發布日期 實施日期實施日期 發布機構發布機構 條款條款 廣東省新一代人工智能創新發展行動計劃(2022-2025年)廣東省 2022.12.22 2022.12.22 廣 東 省 科學技術廳,廣 東 省 工業
87、和 信 息化廳 3.加強人工智能操作系統和基礎軟件研究。圍繞智能機器人、智能手機、無人駕駛系統等領域,加快研發具有自主知識產權的通用人工智能操作系統、服務器級人工智能操作系統、智能終端人工智能操作系統和開源基礎軟件,加強人工智能36 領域開源軟件生態建設,夯實人工智能發展的軟件基礎。開源基礎軟件。整合全球人工智能創新資源,開發面向人工智能的操作系統、數據庫、中間件、開發工具等關鍵基礎軟件,支持面向云端訓練和終端執行的開發框架、算法庫、訓練庫等研發,支持基礎軟件開發平臺、開放技術網絡和開源社區建設,促進人工智能基礎軟件開發。開源軟件生態。研究機器視覺、語音識別、機器翻譯、智能交互、知識處理、控制
88、決策等人工智能基礎解決方案,支持面向無人駕駛、智能機器人、無人機等人工智能應用領域構建基于開源開放技術的公共數據資源庫、標準測試數據庫、云服務平臺等各類通用開源軟件和開放技術平臺。智能傳感創新平臺。重點攻克無人系統核心智能芯片以及毫米波雷達、激光雷達等關鍵傳感器,提升核心器件國產化比例。面向國內產業鏈上下游企業開放核心算法 IP 以及關鍵傳感器的配套算法和數據接口,推動新型傳感器數據集開源共享,建設國產無人系統開源生態。智慧醫療創新平臺。建立行業共性平臺技術和醫療共享資源庫,推動上下游企業、科研院所、行業協會、醫療機構之間的合作,推動核心算法研究,面向上下游企業開放平臺和數據接口,推動醫療數據
89、資源和平臺37 開源共享。構建資源開放共享格局。支持人工智能優勢企業和科研院所建設面向行業共性需求的開放共享平臺,推動自主核心軟硬件開源開放共享。加強人工智能數據資源開放與保護政策體系和倫理安全標準體系建設,促進重點領域數據信息依法有序流動,引導人工智能產業健康可持續發展。營造開放共享發展氛圍。推動人工智能龍頭企業基于人工智能操作系統、芯片、傳感器等自主核心軟硬件提供開源開放共享服務,支持芯片企業、算法企業和產業聯盟聯合研發基于國產芯片的算子庫、開源學習框架、軟件棧、模組和開放應用。支持有條件的企業和科研院所面向行業共性需求,自主建設技術開源和開放的共享平臺。加強人工智能倫理安全標準體系建設,
90、建立人工智能安全性測試模型及評估模型,形成安全性測試評估的方法、技術、規范和工具集。支持高校、龍頭企業、行業協會等加強協同,建設綜合測試驗證環境。南京國家人工智能創新應用先導區建設實施方案 寧政發(2022)133 號 南京 2022.12.12 2022.12.12 南 京 市 人民政府 18 建設高質量行業數據開放平臺。依托集約化建設的自主可控人工智能計算中心、共性技術平臺和仿真訓練平臺,在科研大模型研究、創新應用開發、仿真測試的過程中為人工智能企業提供算力、算法、算據資源。探索制定數據交易和數據治理規則,引導有關龍頭企業建設線上數據集交易38 平臺,實現數據安全匯聚,逐步形成高質量的行業
91、公共開放數據集。通過算法開源和數據開放,打造創新型開發者社區,匯聚海量算法、模型、產品、應用與服務。北京市通用人工智能產業創新伙伴計劃 北京 2023.05.19 2023.05.19 北 京 市 經濟 和 信 息化局,北京市 科 學 技術委員會,北 京 市 發展 和 改 革委員會(七)培育軟件開發新范式。變革軟件領域的開發應用模式,提升軟件生產力工具效能,利用生成式 AI 重構企業軟件。以開源聚合創新,構建大模型開源社區,吸引科研院所、代碼托管平臺、開發者及團隊在京形成開放、包容、活躍的創新氛圍。在基礎軟件領域引入大模型應用,提升國產操作系統、辦公、設計、編程軟件性能,豐富信創軟件品類。加強
92、工業軟件與大模型融合,加快推進智能工業軟件開發應用,提升軟件質量、豐富應用功能。倡導模型即服務,提升云服務商、集成企業服務水平。鼓勵互聯網服務迭代升級,推動涌現大模型+互聯網新軟件新服務。北京市加快建設具有全球影響力的人工智能創新策源地 實 施 方 案(2023-2025年)京 政 發202314 號 北京 2023.05.21 2023.05.21 北 京 市 人民政府 2.引領人工智能關鍵核心技術創新。支持創新主體重點突破分布式高效深度學習框架、大模型新型基礎架構、深度超大規模圖計算、超大規模模擬計算等基礎平臺技術。支持數據與知識深度聯合學習、高維空間多模態語義對齊、大規模認知與推理、可控
93、內容生成、高效低成本訓練與推理等關鍵算法研發,著力推動大模型相關技術創新。鼓勵相關技術和算法開源開放。5.加強自主開源深度學習39 框架研發攻關。針對分布式計算需求,研發動靜統一編程、多維自動并行技術,提升深度學習框架在超大規模模型訓練和多端多平臺推理部署等方面的核心能力,研發多類型模型開發、訓練、壓縮、推理全流程工具,支持自主深度學習框架與人工智能芯片開展廣泛適配和融合優化,實現人工智能國產軟硬件技術的深度協同。8.構建高效協同的大模型技術產業生態。建設大模型算法及工具開源開放平臺,構建完整大模型技術創新體系,積極爭取成為國家人工智能開放生態技術創新中心。組建全棧國產化人工智能創新聯合體,搭
94、建基于國產軟硬件的人工智能訓練和服務基礎設施,研發全棧國產化的生成式大模型,逐步形成自主可控的人工智能技術體系和產業生態。北京市促進通用人工智能創新發展的若干措施 京政辦發 2023 15 號 北京 2023.05.23 2023.05.23 北 京 市 人民 政 府 辦公廳 圍繞模型構建、訓練、調優對齊、推理部署等環節,積極探索基礎模型架構創新,研究大模型高效并行訓練技術和認知推理、指令學習、人類意圖對齊等調優方法,研發支持百億參數模型推理的高效壓縮和端側部署技術,形成完整高效的技術體系,鼓勵開源技術生態建設。深圳市加快推動人工智能高質量發展高水平應用行動方 案(20232024 年)深圳
95、2023.05.31 2023.05.31 中 共 深 圳市 委 員 會辦公廳,深圳 市 人 民政 府 辦 公廳(四)加強科技研發攻關。聚焦通用大模型、智能算力芯片、智能傳感器、智能機器人、智能網聯汽車等領域,實施人工智能科技重大專項扶持計劃,重點支持打造基于國內外芯片和算法40 的開源通用大模型;支持重點企業持續研發和迭代商用通用大模型;開展通用型具身智能機器人的研發和應用。實施核心技術攻關載體扶持計劃,支持科研機構與企業共建 5 家以上人工智能聯合實驗室,加快組建廣東省人形機器人制造業創新中心。杭州市人民政府辦公廳關于加快推進人工智能產業創新發展的實施意見 杭政辦函202355 號 杭州
96、2023.07.24 2023.08.25 杭 州 市 人民 政 府 辦公廳(二)構建高效協同模型創新生態。推進 MaaS 新模式,支持頭部企業開展多模態通用大模型關鍵技術攻關、中小企業深耕垂直領域做精專用模型,鼓勵相關技術和算法開源開放,形成“1+N+X”的協同創新、雙向賦能產業生態。(二)增強模型創新能力。鼓勵頭部企業、高校院所開展多模態通用大模型研發并向中小企業開放模型應用,對參數量超過千億,經權威第三方評測機構評測性能達到國內領先的通用大模型,給予牽頭研發單位訓練成本補助,補助金額最高不超過 5000 萬元。支持企業、高校院所圍繞擅長領域開發專用模型,每年評選不超過 10 個性能先進并
97、在杭成功落地的優秀專用模型,按照不超過研發成本30%的標準給予牽頭研發單位補助,補助金額最高不超過 500 萬元。支持企業、高校院所和第三方機構圍繞模型開發搭建開源開放平臺(社區),構建基于開源開放技術的軟件、硬件、數據、應用協同的產業生態,擇優評選一批市級開源開放示范平臺,優先享受公41 共數據集支持。促進人工智能創新發展政策措施 寧政辦規發 2023 8 號 寧夏 2023.08.13 2023.09.15 寧 夏 回 族自 治 區 人民 政 府 辦公廳(七)鼓勵模型創新。支持落地企業開展大模型訓練,圍繞模型構建、訓練、調優對齊、推理部署等環節,積極探索基礎模型架構創新,研究大模型高效并行
98、訓練技術和認知推理、指令學習、人類意圖對齊等調優方法,研發支持百億參數模型推理的高效壓縮技術和端側部署技術,鼓勵開源技術生態建設。對于參數量超過百億、典型應用場景超過 5個的大模型,根據相關政策給予不超過項目總研發投入 30%、最高 1000 萬元資金支持。(八)加大平臺開放。支持企業、科研院所建設開源開放、協同共享的人工智能數據歸集、算法匯聚、算力開放及檢驗檢測的創新服務平臺,參考平臺軟硬件投入、人工智能企業用戶數、服務成果等方面,擇優給予綜合貢獻度較高的開放平臺最高 500 萬元資金獎勵。武漢市人民政府辦公廳關于印發武漢建設國家人工智能創新應用先導區實施方案(2023-2025年)的通知武
99、政辦202385號 武漢 2023.08.30 2023.08.30 武 漢 市 人民政府 2.加強大模型要素支撐。推動頭部企業聯合多模態人工智能產業聯盟組建創新聯合體,創建人工智能方向制造業創新中心,開展大模型創新算法開發與開源開放。以武漢人工智能研究院“紫東太初”多模態大模型為核心,圍繞多模態理解與生成、高效訓練與部署、預訓練模型架構設計與優化42 等方面,建設自主可控的跨模態大模型通用人工智能平臺。吸引國內大模型頭部企業在漢布局垂直領域模型,聯合全市電子信息制造業、工業質檢、教育、醫療、遙感等行業龍頭企業,研發具有影響力的垂直行業模型 10 個以上,培育一批垂直行業模型解決方案服務商,推
100、動智能制造、智能汽車、智慧醫療等領域的人工智能產業實現應用。上海市促進智能機器人產業高質量 創新發展行動方案(2023-2025年)滬經信制2023915 號 上海 2023.10.19 2023.10.19 上 海 市 經濟 和 信 息化委員會,上 海 市 發展 和 改 革委員會,上海 市 科 學技 術 委 員會,上海市財政局,上海 市 統 計局 4、重點攻關具身智能等先進技術。通過模仿學習和強化學習訓練構建機器人運動控制大模型,實現小腦能力。以通用多模態大模型為基礎,構建多模態感知規劃大模型,實現大腦能力。搭建包含機器人動作庫、物體知識庫和數據采集平臺的具身數據中心,建立模擬機器人運行環境
101、與機器人感知、運動信息的驗證仿真中心和具身算力中心。通過合作開發、開源共享的方式,訓練多模態大模型,打造具身智能開源開放平臺。開發通用人形機器人原型機,實現人形機器人面向場景應用的優化迭代,促進類腦智能等前沿技術與機器人融合創新,進一步提高智能水平。上海市推動人工智能大模型創新發展若干措施(2023-2025 年)滬經信智 2023 608號 上海 2023.10.20 2023.10.20 上 海 市 經濟 和 信 息化委員會,上 海 市 發展 和 改 革委員會,上海 市 科 學技 術 委 員會,中共上9.推進大模型應用生態建設。打造開源大模型行業應用創新生態空間,支持大模型開源社區和協作平
102、臺建設,引進培育大模型相關初創團隊,加強行業大模型在垂直領域的深度應用,構建開放協同產業生態。43 海 市 委 網絡 安 全 和信 息 化 委員 會 辦 公室,上海市財政局 推動區塊鏈、大模型技術賦能生產性互聯網服務平臺發展實施方案 滬經信生2023936 號 上海 2023.10.25 2023.10.25 上 海 市 經濟 和 信 息化委員會,上 海 市 商務委員會 結合支持生產性互聯網服務平臺高質量發展、浦江數鏈城市數字基礎設施體系工程、開源大模型行業應用創新生態空間等重點工作,推動區塊鏈、大模型賦能各類平臺發展。3.夯實通用大模型基礎能力。支持本市創新主體打造具有國際競爭力的通用大模型
103、。實施智能算力加速計劃,加快大模型算力基礎設施建設。推動大模型語料數據聯盟持續開源高質量數據集,賦能大模型企業加速模型迭代。建設大模型測試評估與協同創新中心,推動大模型產業健康發展。(三)強化政策保障。通過市促進產業高質量發展、商務高質量發展等專項資金,對標桿性企業、應用場景進行支持或獎勵。建設開源大模型行業應用創新生態空間,對入駐的企業和團隊給予相應支持。將生產性互聯網服務平臺領域的大模型相關應用及解決方案納入人工智能示范應用清單。對符合條件的專業人才予以政策支持。鼓勵各區出臺配套支持政策。浙江省人民政府辦公廳關于加快人工智能產業發展的浙江省 2023.12.07 2023.12.07 浙江
104、省人民政府辦公廳(二)推動大模型技術開源與開放。推動人工智能大模型領域自主可控開源社區和開放創新平臺建設,打造44 指導意見 浙政辦發202365號 模型即服務(MaaS)新范式。支持自主開源深度學習框架研發攻關和代碼托管鏡像平臺建設。制定推廣開源領域相關標準和協議,推進人工智能領域開源軟件的國際規則互認。研發多類型模型開發、訓練、壓縮、推理全流程工具,培育開發者群體,繁榮開源生態。重慶市 AI 及服務機器人產業集群高質量發展行動計劃(20232027年)渝經信通信 2023 10 號 重慶 2023.12.15 2023.12.15 重慶市經濟和信息化委員會 人形機器人。支持企業和科研院所前
105、瞻布局人形機器人通用原型機研發、AI 通用大模型技術開發、關鍵零部件攻關和標準制定。聚焦靈巧臂手建模和控制技術、復雜運動控制技術、仿生感知認知技術、生機電融合技術、人工智能技術、視深導航技術等領域,推動人形機器人技能提升和智能發育,加快關鍵技術攻關與工程化。強化機器人 AI 大模型能力支撐,構建開源開放的機器人 AI 大模型評測體系和生態,加快 AI 和人形機器人融合發展。中國(上海)自由貿易試驗區臨港新片區集聚發展人工智能產業若干措施 滬自貿臨管委202420號 上海 2024.03.04 2024.09.01 中國(上海)自由貿易試驗區臨港新片區管理委員會 2支持建設人工智能開源平臺 鼓勵
106、構建高效協同的大模型技術產業生態,支持企業打造開源通用大模型、商用通用大模型、垂直領域行業大模型,集聚發展大模型和生成式人工智能產業,重點支持分布式高效深度學習框架、深度超大規模圖計算等技術,開發搭建自主可控的人工智能開源平臺。對千億參數以上且落地三個及以上實際應用場景的深度學習平臺的企業,按照平臺研發費用的 10%-30%比例45 給予支持,支持金額不超過3000 萬元;按照年度運營費用的 10%比例給予支持,年度支持金額不超過 100萬元,資助周期不超過 3年。寧夏回族自治區工業和信息化廳 寧夏回族自治區財政廳 關 于 征 集2024 年大數據產業試點示范項目的通知 寧夏 2024.03.
107、04 2024.03.04 寧 夏 回 族自 治 區 工業 和 信 息化廳,寧夏回 族 自 治區財政廳 2.人工智能方向。支持人工智能通用大模型和行業應用大模型產品的開發、訓練和推理,推進人工智能技術在各場景融合應用。支持建設人工智能大模型領域自主可控開源社區和創新平臺。鼓勵信息技術服務企業積極提供算力支持、研發部署、語料數據等大模型服務。石景山區促進人工智能大模型產業發展行動計劃(20242025年)石政辦發20244 號 北京 2024.03.26 2024.03.26 北 京 市 石景 山 區 人民 政 府 辦公室 7.整合資源協同發展。發揮科研院所等技術資源優勢,聯合頭部企業開展大模型
108、研發應用,鼓勵相關技術和算法開源開放,提升大模型產品研發水平和行業賦能能力。建設人工智能大模型產業標桿型孵化器,梯次培育一批人工智能大模型垂直行業代表企業。北京經濟技術開發區關于加快打造 AI 原生產業創新高地的若干政策京技管發202410 號 北京 2024.03.28 2024.03.28 北 京 經 濟技 術 開 發區 管 理 委員會 13.打造人工智能公共服務平臺。建設國家人工智能軟硬件協同創新與適配驗證中心,面向工業、能源、交通、金融等行業搭建人工智能軟硬件行業解決方案測試床,推動國產人工智能大模型在關鍵行業落地應用。建設人工智能開源開放平臺,鼓勵大模型領域自主可控開源社區發展,支持
109、自主開源深度學習框架研發攻關和代碼托管鏡像平臺建設。根據開源社區注冊用戶活躍度、托管大模型及代碼數量,經評審后給予平臺企業最高 500 萬元補貼。46 廣東省人民政府辦公廳印發廣東省關于人工智能賦能千行百業若干措施的通知 粵辦函202488號 廣東省 2024.05.26 2024.05.26 廣 東 省 人民 政 府 辦公廳 7.建設大模型開源社區。建設原創性基礎大模型資源池,鼓勵組建大模型開源社區,支持大模型及其衍生品的自由開放訪問、參數調整、應用開發。優化大模型發展環境,降低非技術因素阻礙。面向社區成員開展培訓、知識普及等活動,培育大模型開發人才。到 2027年,基本建成一站式研究、開發
110、、協作、部署和落地展示人工智能的開源服務體系。北京市推動“人工智能+”行動計劃(2024-2025年)京 發 改2024 1081 號 北京 2024.07.18 2024.07.18 北 京 市 發展 和 改 革委員會,北京 市 經 濟和 信 息 化局,北京市科 學 技 術委員會,中關 村 科 技園 區 管 理委員會 建設運營北京算力互聯互通和運行服務平臺,為企業大模型訓練、用戶單位大模型部署,提供便捷泛在的算力支持。依托北京數據基礎制度先行區,打造安全可信數據空間,引導企事業單位開放并匯聚高價值行業數據。建設數據訓練基地,為大模型訓練提供算力、數據、開發工具和開源社區等資源。推動數據分類分
111、級管控和“監管沙盒”機制。支持基礎大模型在各行業領域推廣應用,鼓勵以自主可控的基礎大模型為底座加速訓練細分行業垂類大模型,完善大模型應用工具鏈。鼓勵開源高參數自主可控基礎大模型,支持搭建模型和數據集托管云服務平臺,促進開發者分享和協作。五、企業應用開源大模型風險治理實操要點 開源大模型的應用風險不僅影響廣泛,還體現出高度的復雜關聯性和生成漸進性,因此,企業需構建統一的開源大模型治理體系,以47 統籌開展開源大模型風險防控工作。(一)(一)開源大模型治理體系構建開源大模型治理體系構建 1.構建開源大模型治理組織 開源大模型治理需要企業構建專門的治理組織,該類組織通常是一個跨部門、多角色的協作體系
112、,旨在確保企業使用開源大模型時的合規性、安全性、高效性和創新性。以下是企業開源大模型治理組織可能包含的主要角色和職責分工。一是開源大模型治理委員會。治理委員會負責制定開源大模型的使用策略、合規標準、風險管理政策等,并監控相關政策實施情況,進行定期修訂。治理委員會一般由企業高管、法務專家、技術專家等關鍵角色組成,以確保決策的全面性和權威性。二是技術部門。研發團隊主要負責開源大模型的引入、定制開發、性能優化等工作,該團隊相關人員需具備深厚的技術背景和創新能力,以確保開源大模型應用滿足企業的業務需求。運維團隊主要負責開源大模型的部署、監控、故障排查和性能調優,該團隊人員需要具備豐富的運維經驗和快速響
113、應能力,以確保模型穩定運行。三是安全和合規部門。安全團隊主要負責對開源大模型進行安全評估、漏洞掃描和應急響應,保障模型的安全性,此外還需密切關注安全動態,以及時應對潛在的安全威脅。合規團隊負責審查開源許可協議條款,確保企業使用開源大模型符合相關法律法規和內部合規要求。合規團隊人員還需關注開源社區的動態和法律法規的變化,及時調整企業的合規策略。48 四是社區與協作部門。社區與協作團隊負責推動與開源社區的聯系和合作,組織參與社區活動,貢獻代碼或改進建議,提升企業在開源社區中的影響力。此外,該團隊一般還負責與其他企業或研究機構的合作洽談,以推動開源大模型的技術創新和應用落地。五是支撐部門。培訓與發展
114、團隊主要負責為員工提供相關技術培訓和合規培訓,提高員工使用和維護開源大模型的能力。該團隊需關注員工的發展需求,以制定個性化的培訓計劃。項目管理團隊負責開源大模型相關項目的整體規劃、進度控制和質量管理,該類團隊需要與各相關部門緊密合作,以確保項目的順利進行和高質量完成。六是其他相關部門。根據企業的具體情況和實際需求,開源治理組織還可能包括數據科學家、產品經理、市場營銷人員等相關角色,相關角色將在各自的領域內為開源大模型的治理和應用提供支持。2.建立開源大模型治理機制 企業面向開源大模型的治理機制明確了開源大模型治理的規則和原則,旨在確保企業高效、合規、安全的使用開源大模型。以下是開源大模型治理機
115、制的主要組成部分。一是制定開源大模型治理政策與合規框架。企業應制定明確的開源大模型使用政策,明確開源大模型的選用標準、使用范圍、貢獻流程、風險評估及合規要求等。同時企業應明確開源大模型的合規性審核流程,確保企業使用的開源大模型符合其開源許可協議的義務要求,且不違反相關法律法規和企業內部規定。二是構建風險管理機制。在安全風險管理方面,企業需對開源大49 模型進行定期的安全風險評估,識別并修復潛在的安全漏洞。在供應鏈風險管理方面,企業需審查開源大模型依賴的第三方組件和庫,確保其安全性和穩定性。在應急響應方面,企業應制定針對開源大模型安全事件的應急響應計劃,確保相關緊急安全事件時能夠迅速應對。三是開
116、展技術治理與運維。首先,企業應使用版本控制系統管理開源大模型的版本更新,確保代碼的可追溯性和可管理性。其次,企業應實施 CI/CD 流程,自動化構建、測試和部署過程,提高開發效率和代碼質量。此外,企業還需對開源大模型的運行性能進行實時監控,并根據實際情況進行優化調整。四是參與社區活動與貢獻。企業應構建開源社區貢獻機制,鼓勵員工積極參與開源社區,與開發者交流、分享經驗,共同推動開源大模型的發展,并在符合開源許可協議要求的前提下,向開源項目貢獻代碼或改進建議,提升企業在開源社區的影響力。五是加強知識產權管理。在使用開源大模型時,應進行必要的專利檢索和審查,以避免侵犯他人的專利權。此外,在對外貢獻時
117、,企業應確保對開源大模型的修改和分發符合版權法規,維護企業的合法權益。六是建立健全培訓與文化建設。企業應提供開源大模型主題技術培訓和風險防控培訓,提高員工使用、維護開源大模型的能力及風險防控意識。此外,在內部積極倡導、推廣開源文化,鼓勵員工積極參與開源項目,形成開放、協作的工作氛圍。(二)(二)開源大模型風險防控建議開源大模型風險防控建議 50 1.項目生態選型建議 目前開源大模型項目不勝枚舉,質量也層次不齊,因此企業在選用開源大模型項目時,需首先對社區及項目的穩定性、成熟度、活躍度等進行評估,以確保擬采用開源大模型項目可長期穩定運行,從而降低相關技術應用風險及運維風險。其一,企業宜進行項目代
118、碼質量和文檔完整性評估。開源大模型的代碼質量和文檔完整性是開源大模型項目評估的基礎,如果質量較低或文檔不完整,會直接影響項目的可用性和可維護性。因此開源大模型使用企業應評估代碼的規范性,注釋的詳細程度以及文檔包括部署指南的全面性等。高質量的代碼和詳盡的文檔意味著項目的成熟度較高,可以幫助開源大模型使用企業快速上手并減少潛在的錯誤。其二,企業宜進行項目更新頻率和活躍度評估。開源大模型項目的更新頻率和社區活躍度是評估其生命力和持續發展能力的重要指標,較低頻次的更新和低活躍度的社區可能意味著項目無法得到及時的漏洞修復和新功能的引入。開源大模型應用企業可以通過查看項目的提交歷史、發布日志和社區討論來評
119、估其活躍度,以評估項目的穩定性。其三,企業宜進行項目貢獻者評估。開源大模型項目的成功很大程度上依賴于社區的貢獻者質量和數量,豐富且高質量的貢獻者群體可以確保項目的持續發展和有效管理。開源大模型使用企業應關注項目的貢獻者數量、質量以及活躍度,如是否有明確的領導者、是否有足夠的貢獻者等以評估開源大模型項目是否可得到持續、有力的支持。51 其四,企業宜進行社區治理結構評估。治理結構是指社區內部成員之間權利與責任的分配方式,以及決策流程和協調機制的集合。開源大模型使用企業應深入了解開源社區的治理結構和決策流程,包括項目的領導者和核心貢獻者以及其他成員之間的權責分配、決策的集中度等。如在一個高度去中心化
120、的社區中個別成員的離開可能不會對整體造成太大影響,而在一個中心化程度較高的社區中關鍵人物的缺失可能導致項目陷入困境。因此,治理結構的評估有助于使用企業理解項目的構成、方向和決策過程。2.安全風險防控建議 企業可從開源大模型應用全生命周期進行開源大模型安全風險防控。模型引入階段:企業在開源大模型引入階段應做好安全準備工作,包括制定開源大模型安全指導政策、組建開源大模型安全團隊以及采購或開發開源大模型安全檢測工具或平臺等。此外,在進行開源大模型選型時,企業應評估項目是否存在已知的安全隱患和漏洞,并了解項目在數據保護、隱私安全和系統穩定性方面的表現。同時,針對算法安全風險,企業可基于模型公開的測評數
121、據或自主進行模型魯棒性測評、模型 幻覺”測評以及模型偏見性測評等模型內生安全測評,以評估大模型的算法安全性是否滿足公司相關政策。模型部署/優化階段:若企業采用新數據進行模型優化,宜在數據收集和處理階段采取必要安全措施,包括數據分類與保護、數據脫敏、數據源審核、差分隱私和同態加密等,并針對數據集開展違法52 不良數據檢測、數據投毒污染檢測、數據隱私檢測以及數據多樣性檢測等。此外,為降低開源大模型產生不真實、有偏見、違法不良信息,企業可構建安全對齊數據集,包括構建正樣本數據,以幫助模型更好學習人類價值觀;構建惡意樣本數據,以幫助開發人員進行模型測評;構建外部對齊數據,為模型輸出建立法律和道德約束。
122、21在算法優化方面,企業可通過提示詞語義增強和結構增強、調整算法模型結構、擴充多樣化的訓練數據集等方式增強大模型的魯棒性,提升算法抵抗誘導攻擊的能力。此外,為避免大模型被竊取、纂改,企業還可構建大模型后門檢測能力,以及時發現異常行為。模型再發布/對外提供服務階段:企業在利用開源大模型提供服務階段應通過安全檢測手段,如在大模型應用過程中持續檢測是否存在提示注入攻擊、對抗攻擊和隱私攻擊,以及時預警和處理。同時,針對模型生成內容,可通過自動化或人工方式進行安全合規審核,以防止模型生成違法不良信息。此外,企業還應通過水印技術標識人工智能合成內容,以降低大模型生成虛假信息或誤導性信息的有害性。企業若計劃
123、對外開源優化后的大模型,還應進行充分的代碼審查和安全測試以確保模型的安全性。3.合規風險防控建議(1)許可協議應用合規流程 在許可協議合規方面,企業使用開源大模型的合規流程一般包含 21 大模型安全研究報告 2024,https:/ 2024年 10 月 6 日。53 以下環節。圖 2 人工智能大模型許可協議合規流程 模型引入階段:企業應先做好合規準備工作,包括制定開源大模型合規管理指導政策、組建合規專業團隊、開發或采購開源大模型代碼檢測及合規管理工具與平臺、開展開源大模型合規培訓等。其次,在進行開源大模型選型時,企業首先應確保開源大模型來源合法合規、權威可控。再次,企業還應仔細審查開源大模型
124、許可協議內容,結合未來使用方式和使用場景判斷擬引入開源大模型是否滿足公司合規政策。同時,企業應對開源大模型的知識產權情況進行審慎審查,包括進行相關專利的檢索等,以避免發生法律糾紛。最后,企業應結合開源大模型的安全性、可用性等因素綜合評估是否引入該開源大模型,并留存相關審批記錄。模型部署/優化階段:企業開放人員應在專業合規人員的協助下,明確開源大模型與其他開源模塊或開放數據之間的許可協議兼容性,解決可能存在的許可協議條款沖突問題。此外,基于確切的使用方式和使用場景綜合確定待履行義務,并準備義務履行材料。模型再發布/對外提供服務階段:企業應根據許可協議要求履行對應聲明義務和/或衍生作品再開源義務,
125、并進行義務符合性審查,以確保完全符合大模型許可協議的相關要求。54 表 6 常見人工智能開源許可協議合規要點解讀 專欄專欄 4 常見人工智能許可協議合規要點解讀常見人工智能許可協議合規要點解讀 1.AI PUBS RAIL 系列系列許可協議許可協議合規要點合規要點 AI PUBS RAIL LICENSES 系列許可協議的制定參考了開源Apache 許可協議版本 2.0 的內容,二者存在類似條款,因此參照Apache 許可協議合規實務,可提出如下開源大模型 AI PUBS RAIL LICENSES 系列許可協議合規要點:明確大模型適用的明確大模型適用的 AI PUBS RAIL LICENS
126、ES 許可協議許可協議具具體版本體版本 大模型許可協議合規項目工作的第一步是判斷大模型適用許可協議種類和版本。具體為分清大模型參數文件(即模型)所適用的許可協議和大模型代碼文件(即源代碼)所適用的許可協議,進而根據相應的許可協議內容確定大模型許可協議合規工作的具體依據。評估大模型的應用風險評估大模型的應用風險 AI PUBS RAIL LICENSES 系列許可協議附有明確的免責聲明和責任限制條款,此類條款對于保護大模型的開源貢獻者至關重要,但也同時意味著后續使用者雖可根據許可協議使用開源大模型的參數文件和代碼文件,但是依然存在著侵犯他方版權或者專利的風險。因此建議企業在使用開源大模型的參數文
127、件和代碼文件時,盡可能選用知名公司發布的或業內廣泛使用的開源大模型的參數文件和代碼文件,此類開源代碼由于具有知名企業背書或經過長期55 市場檢驗,侵權風險較小。而冷門、小眾的開源大模型的參數文件和代碼文件相對較大,需審慎評估后決定是否使用。對適用對適用 AI PUBS RAIL LICENSES 系列系列許可協議許可協議大模型后大模型后續應用和開發的開源續應用和開發的開源/閉源選擇閉源選擇 對于 AIPubs Open RAIL-M 和 AIPubs OpenRAIL-S 兩個“公開Open”性質的許可協議類似于 Apache 許可協議版本 2.0,屬于寬松型開源許可協議,這兩款許可協議并不要
128、求后續使用者開源其基于開源大模型的衍生作品,因此此類衍生作品的開發者有權決定是否繼續開放其衍生作品。對于 AIPubs Research-Use RAIL-M 和 AIPubs Research-Use RAIL-S 兩個研究用途許可協議,許可協議內容中刪除了下游和其他用戶可以自由訪問該被許可的模型/源代碼的條款,考慮到其只能用于研究和學術用途,原則上應僅在研究范圍內允許訪問和使用。根據根據 AI PUBS RAIL LICENSES 系列系列許可協議許可協議的具體版本,的具體版本,嚴格履行嚴格履行許可協議許可協議項下規定的義務項下規定的義務 根據大模型的具體使用情形,例如:為第三方遠程訪問服
129、務(例如軟件即服務),通過任何媒體復制和分發模型/源代碼,按照 AI PUBS RAIL LICENSES 系列許可協議規定履行相關許可協議義務。許可協議義務主要包括兩方面:第一方面類似開源軟件許可協議 Apache2.0 的義務,向模型或模型衍生作品的任何第三方接收者提供一份許可協議的副本、使任何修改的文件帶有顯著的通知,聲明修改了該文件、保留所有版權、56 專利、商標和歸屬聲明。第二方面是 AI PUBS RAIL LICENSES 系列許可協議特有的用途限制的義務,主要按照 AI PUBS RAIL LICENSES 系列許可協議附件 A 嚴格對使用大模型的用途進行限制。必須將 AI P
130、UBS RAIL LICENSES 系列許可協議第 5 條及附件 A 限制作為可執行的條款包含在管轄模型/源代碼的使用和/或分發的任何類型的法律協議中,還應通知分發給的后續用戶,模型或模型的衍生作品受第 5 條的約束。對于 AIPubs Research-Use RAIL-M 和 AIPubs Research-Use RAIL-S 兩個研究用途許可協議,還要求源代碼的任何第三方接收者必須遵守僅被允許的學術和研究用途,不得商用。2.BigScience Open RAIL-M License 許可協議許可協議或或 BigScience RAIL License v1.0 許可協議許可協議合規要
131、點合規要點 商業公司在合規使用和分發適用 BigScience Open RAIL-M License 許可協議或 BigScience RAIL License v1.0 許可協議的大模型時應當關注如下問題:BigScience Open RAIL-M License 許可協議許可協議和和 BigScience RAIL License v1.0 許可協議許可協議的的專利和版權專利和版權授權授權范圍包括模范圍包括模型、模型衍生作品和補充材料(即代碼文件及其型、模型衍生作品和補充材料(即代碼文件及其文檔文檔)商業公司在部署、使用和分發適用 BigScience Open RAIL-M Lice
132、nse 許可協議或 BigScience RAIL License v1.0 許可協議的大模型時,應清楚 BigScience Open RAIL-M License、BigScience RAIL 57 License v1.0 許可協議的版權和專利的許可范圍包括模型、模型衍生作品和補充材料(即代碼文件及其文檔)。在此基礎上商業公司還應當注意,雖然模型參數文件和補充材料(即代碼文件及其文檔)相關的版權和專利根據 BigScience Open RAIL-M License 許可協議和 BigScience RAIL License v1.0 許可協議第 2、3 條進行許可,但BigScien
133、ce Open RAIL-M License 許可協議和 BigScience RAIL License v1.0 許可協議第 4 條規定的被許可人需要滿足的對應條件僅為復制、分發和提供遠程訪問“模型和模型衍生作品”時需要滿足的條件,而不包括“補充材料”,并且第 5 條及附件 A 的使用限制僅適用于“模型及其衍生作品”,同樣并不適用于“補充材料”。模型權利人根據模型權利人根據 BigScience Open RAIL-M License 許可協許可協議議和和 BigScience RAIL License v1.0 許可協議許可協議對被許可人的對被許可人的授權范圍包括版權和專利權,但不包括商標
134、和商號權授權范圍包括版權和專利權,但不包括商標和商號權 BigScience Open RAIL-M License 和 BigScience RAIL License v1.0 許可協議第 2 條明確授予被許可人永久的、全球性的、非排他性的、不收費的、免版稅的、不可撤銷的版權許可,用于再制造、準備、公開展示、公開執行、可分許可和分發補充材料、模型和模型的衍生作品。BigScience Open RAIL-M License 許可協議和 BigScience RAIL License v1.0 許可協議第 3 條明確授予被許可人永久的、全球性的、非排他性的、不收費的、免版稅的、不可撤銷的(許可
135、協議另有規定除外)的專利許可,用于制造、委托制造、使用、許諾銷售、銷58 售、進口和以其他方式轉移模型和補充材料。BigScience Open RAIL-M License 許可協議和 BigScience RAIL License v1.0 許可協議第 8 條規定,不允許被許可人使用許可人的商標、商號、標識或以其他方式錯誤陳述雙方之間的關系。特別關注特別關注 BigScience Open RAIL-M License 許可協議許可協議和和BigScience RAIL License v1.0 許可協議許可協議第第 7 條規定的“被許條規定的“被許可人還可人還應盡合理努力使用最新版本的模
136、型應盡合理努力使用最新版本的模型”的要求”的要求 商業公司在合規使用和分發適用 BigScience Open RAIL-M License 許可協議或 BigScience RAIL License v1.0 許可協議的大模型時,應當特別關注適用 BigScience Open RAIL-M License 許可協議和 BigScience RAIL License v1.0 許可協議的大模型第 7 條規定的“被許可人還應盡合理努力使用最新版本的模型”的要求。該要求被公眾詬病,因為若商業公司在適用 BigScience Open RAIL-M License 許可協議或 BigScience
137、 RAIL License v1.0 許可協議的大模型基礎上已經進一步投入數據和算力對模型進行了微調,并將微調后的模型用于商業服務。此后該大模型的后續版本發布,前述商業公司是否應當放棄之前投入成本微調后的模型,而采用新的后續模型,并再次投入成本對后續模型進行微調存在爭議。被許可人對適用被許可人對適用 BigScience Open RAIL-M License 許可協許可協議議或或 BigScience RAIL License v1.0 許可協議許可協議的大模型修改的大模型修改形成的形成的衍生衍生作品無強制開源義務作品無強制開源義務 BigScience Open RAIL-M Licens
138、e 和 BigScience RAIL License 59 v1.0 許可協議第三節:使用、分發和再分發的條件第 4、5、6 條規定,被許可人為第三方遠程訪問目的提供托管(例如軟件即服務),在任何媒體上再制造和分發模型或模型的衍生作品的副本,無論是否修改,所需要滿足的條件中,并不要求后續使用者對基于開源大模型進行修改得到的派生作品繼續進行開源/開放,因此被許可人對修改適用 BigScience Open RAIL-M License 許可協議或 BigScience RAIL License v1.0 許可協議的開源大模型獲得的衍生模型作品,有權決定是否繼續開源。被許可人用模型為用戶提供遠程
139、訪問、再制造被許可人用模型為用戶提供遠程訪問、再制造和分發模型或和分發模型或模型的衍生模型的衍生作作品的副本品的副本(無論是否修改)(無論是否修改),需遵守需遵守 BigScience Open RAIL-M License 許可協議許可協議和和 BigScience RAIL License v1.0 第第 5 條及附件條及附件 A 的使用限制的使用限制 被許可人用模型為用戶提供遠程訪問、再制造和分發模型或模型的衍生作品的副本(無論是否修改),需遵守 BigScience Open RAIL-M License 許可協議或 BigScience RAIL License v1.0 第 5 條
140、和附件 A 的使用限制。BigScience Open RAIL-M License 許可協議或 BigScience RAIL License v1.0 的附件 A 規定了 13 類使用限制,限制的類別和通用的AI Open RAIL 許可協議的使用限制相似,也可以大致分為違法、傷害和歧視和不符合透明度三類。3.LLaMA 2 及及 LLaMA 3 許可協議許可協議合規合規要點要點 60 商業公司在合規訪問、使用和分發大模型 LLaMA 2/3 時應當關注如下問題。LLaMA 2/3 許可協議許可協議許可的內容是許可的內容是 LLaMA 2/3 模型參數文模型參數文件、代碼文件及其件、代碼文
141、件及其文檔文檔 LLaMA 2/3 許可協議許可的內容是“LLaMA 材料”,而“LLaMA 材料包括 Meta 擁有的 LLaMA 2/3 和其文檔?!癓LaMA 2/3”是指基礎大語言模型及軟件和算法,包括機器學習模型代碼、訓練過的模型權重、可推理代碼、可訓練代碼、可微調代碼以及 Meta 分發上述材料的其他部分?!拔臋n”是指由 Meta 分發的 LLaMA 2/3 隨附的規格、手冊和文檔。LLaMA 2/3 的模型權重參數文件和開源代碼文件統一適用的模型權重參數文件和開源代碼文件統一適用LLaMA 2/3 許可協議許可協議 Meta 并沒有將 LLaMA 2/3 的模型權重參數文件和開源
142、代碼文件進行區分,沒有分別適用模型許可協議和開源軟件許可協議,而是統一適用其定制的 LLaMA 2/3 社區許可協議(LLAMA 2/3 Community License)和 LLaMA 2/3 可接受使用政策(LLaMA 2/3 Acceptable Use Policy)。Meta 對被許可人授予的使用關于對被許可人授予的使用關于 LLaMA 2/3 的知識產權范的知識產權范圍應當包括版權和專利權,但不包括商標和商號權圍應當包括版權和專利權,但不包括商標和商號權 LLaMA 2/3 許可協議議未授予任何商標許可,并且因 LLaMA 材料關聯,無論 Meta 還是被許可方均不得使用對方或其
143、任何關聯公司擁有或與之相關的任何名稱或標記,除非為了描述和再分發61 LLaMA 材料而合理和慣常使用。不得使用不得使用 LLaMA2/3 及其輸出用于改進其他大語言模型及其輸出用于改進其他大語言模型 LLaMA 2/3 許可協議規定,被許可人不得使用 LLaMA 材料或任何輸出或 LLaMA 材料的結果來改進任何其他大型語言模型(不包括 LLaMA 2/3 或其派生作品)。開源軟件許可協議一般沒有此類限制,因此需要 LLaMA2/3 的使用者特別關注。如果被許可人及其關聯公司提供的產品或服務的月訪問用如果被許可人及其關聯公司提供的產品或服務的月訪問用戶超過戶超過 7 億,需要另行申請單獨的商
144、業許可億,需要另行申請單獨的商業許可 LLaMA 2/3 社區許可協議(LLAMA 2/3 Community License)根據 LLaMA 官網的介紹就是一個定制的商業許可,被許可人可將LLaMA 用于商業或非商業用途。但 LLaMA 2/3 社區許可協議(LLAMA 2/3 Community License)同時規定,如果在 LLaMA 2/3 版本發布之日,被許可方或被許可方的關聯公司提供的產品或服務的每月活躍用戶數在上一個日歷月中超過 7 億,則必須向 Meta 申請單獨的商業許可協議。Meta 可以自行決定是否授予該權利。開源軟件許可協議一般沒有此類規定,該規定事實上要求大型互
145、聯網公司單獨申請商業許可,排除在LLaMA 2/3 社區許可協議(LLAMA 2/3 Community License)適用的被許可人范圍之外。被許可人擁有被許可人擁有 LLaMA2/3 所做的修改形成的派生作品,且所做的修改形成的派生作品,且無強制開源義務無強制開源義務 LLaMA 2/3 許可協議規定,根據 Meta 對其制作的 LLaMA 材62 料及其衍生品的所有權,對于被許可人做出的對 LLaMA 材料的任何修改和派生作品,在被許可人和 Meta 之間,被許可人現在和將來都是此類派生作品和修改的擁有者。LLaMA 2/3 許可協議規定也類似于 Apache 許可協議版本 2.0屬于
146、寬松型開源協議,除履行保留許可協議內容、聲明等開源許可協議義務外,其并不要求后續使用者對基于大模型進行修改得到的衍生作品繼續進行開源/開放,因此被許可人對修改 LLaMA2/3 獲得的衍生作品,有權決定是否繼續開源。被許可人需遵守被許可人需遵守 LLaMA 2/3 可接受使用政策可接受使用政策(LLaMA 2/3 Acceptable Use Policy),不得違反使用限制),不得違反使用限制 被許可人在使用、分發和修改 LLaMA 2/3 時,不得違反 LLaMA 2/3 可接受使用政策(LLaMA 2 Acceptable Use Policy),將 LLaMA2/3用于四類禁止用途:第
147、 1 類違反法律或侵犯他人權利的方式利用LLaMA 2/3;第 2 類參與、促進、煽動、便利或協助計劃或開展對個人造成死亡或身體傷害風險的活動;第3 類故意欺騙或誤導他人;第4 類是未能適當地向最終用戶披露人工智能系統的任何已知危險的情況。其中前 3 類使用限制和通用的 AI Open RAIL 許可協議相似,第 4 類是 LLaMA 2/3 許可協議另外增加的限制。LLaMA 3 特殊要求特殊要求 如果被許可者分發或提供 LLaMA 材料(或其任何衍生作品)或使用了 LLaMA3 中任何材料的產品或服務(包括其他 AI 模型),被許可者除應隨任何此類 LLaMA 材料提供本協議的副本外,還應
148、63 當在相關網站、用戶界面、博客文章、關于頁面或產品文檔上突出顯示“Built with Meta LLaMA 3”。如果被許可者使用 LLaMA 材料來創建、訓練、微調或以其他方式改進一個 AI 模型,并進行分發或使其可用,被許可者還應在任何此類 AI 模型名稱的開頭加入“LLaMA 3”字樣。Meta 僅在此種情況下授予被許可者使用“LLaMA 3”標記的許可,被許可者需要遵守 Meta 發布在其官網上的品牌指南,且被許可者因使用“LLaMA 3”而產生的所有商譽都將歸屬 Meta。4.通 義 千 問通 義 千 問 許 可 協 議許 可 協 議(Tongyi Qianwen LICENS
149、E AGREEMENT)合規要點合規要點 商業公司在合規使用和分發適用通義千問許可協議的開源大模型時應當關注如下問題:通義千問通義千問許可協議許可協議授予被許可人對材料(即模型、代碼和文授予被許可人對材料(即模型、代碼和文檔)的使用、分發和修改的許可檔)的使用、分發和修改的許可 通義千問許可協議授予許可的材料主要包括模型、代碼和文檔。因此商業公司在部署、使用和分發通義千問人工智能開源大模型時,應清楚通義千問許可協議許可的知識產權(主要為版權和專利)范圍為材料(即模型、代碼和文檔)。通義千問通義千問許可協議許可協議未授予商標和商號權未授予商標和商號權 通義千問許可協議第 2 條規定,基于阿里云的
150、知識產權或阿里云擁有的在材料中體現的其他權利,授予被許可人對材料非獨占64 的、全球性、不可轉讓且免版稅的有限許可,使用、再制造、分發、復制、創建衍生作品及對材料進行修改。通義千問許可協議第 6 條規定,除通義千問許可協議要求的履行通知要求或為描述和再分發材料而合理和通常使用外,未授予使用阿里云的商號、商標、服務標志或產品名稱的商標許可。特別關注通義千問特別關注通義千問許可協議許可協議對模型商業使用的限制條件對模型商業使用的限制條件 商業公司在合規使用和分發通義千問人工智能開源大模型時時應當特別關注通義千問許可協議第 4 條規定“如果被許可人商業性地使用材料,并且被許可人的產品或服務擁有超過
151、1 億的月活躍用戶,則應當向阿里云申請許可協議。未經阿里云的明確授權,不得行使通義千問許可協議下的權利”的商業使用限制,如果非商業使用則沒有被許可人的產品或服務擁有不超過 1 億的月活躍用戶的限制。被許可人對適用通義千問被許可人對適用通義千問許可協議許可協議的人工智能開源大模型的人工智能開源大模型修改形成的衍生作品無強制開源義務修改形成的衍生作品無強制開源義務 通義千問許可協議第 3 條規定,被許可人可以任何媒介再制造和分發材料或其衍生作品的副本,無論是否進行了修改,以源碼或目標碼形式。因此被許可人(即后續的模型使用分發者)對基于開源大模型修改得到的衍生作品是否繼續開源有決定權。使用、分發、修
152、改通義千問開源大模型通義千問的使用用途使用、分發、修改通義千問開源大模型通義千問的使用用途限制限制 通義千問許可協議第 5 條規定了兩點使用規則:(1)材料(模65 型、代碼和文檔)可能受到中國、美國或其他國家和地區出口管制或限制的影響。被許可人在使用材料時應遵守適用的法律和法規。(2)不得使用材料或其任何輸出來改進任何其他大型語言模型(不包括通義千問或其衍生作品)。由此可見通義千問許可協議概括性的要求使用通義千問模型代碼和文檔時應遵守適用的法律和法規,并不得使用通義千問模型或其任何輸出來改進任何其他大型語言模型 使用、分發、修改人工智能開源大模型通義千問產生的爭議使用、分發、修改人工智能開源
153、大模型通義千問產生的爭議適用中國法律,杭州法院具司法管轄權適用中國法律,杭州法院具司法管轄權 通義千問許可協議第 9 條規定了適用法律和司法管轄權,協議及由此產生或與之相關的任何爭議將受中國法律管轄,不考慮沖突法原則,并且聯合國國際貨物銷售合同公約不適用于協議。對于協議引起的任何爭議,位于杭州市的人民法院具有排他的司法管轄權。5.千問許可協議(千問許可協議(Qwen LICENSE AGREEMENT)合規要點合規要點 千問許可協議(Qwen LICENSE AGREEMENT)在通義千問許可協議(Tongyi Qianwen LICENSE AGREEMENT)基礎上進行了微調。除簡單的字詞
154、調整外,重點變化在第三條“再分發”和第五條“使用規則”。對第三條“再分發”的修訂主要為:通義千問許可協議(Tongyi Qianwen LICENSE AGREEMENT)規定,再制造和分發材料或其衍生作品的副本,無論是否進行了修改,以源碼或目標碼形式,需要66 滿足第三條第二款規定中的 abcd 四個條件。千問許可協議(Qwen LICENSE AGREEMENT)再分發條款則調整為,復制和分發材料或其衍生作品的副本,或使其作為包含于任何媒介的產品或服務的一部分可獲得,無論是否進行修改,以源碼或目標碼形式,需要滿足第三條第二款規定中的 abcd 四個條件。對第五條“使用規則”的修訂主要為:通
155、義千問許可協議(Tongyi Qianwen LICENSE AGREEMENT)規定,不得使用材料或其任何輸出來改進任何其他大型語言模型(不包括通義千問或其衍生作品);千問許可協議(Qwen LICENSE AGREEMENT)則調整為,用戶可以使用“材料”或任何輸出或結果來創建、訓練、微調或改進已發布或可用的 AI 模型,但需要在相關產品文檔中應當突出顯示“使用Qwen 構建”或“使用 Qwen 改進”的內容。(2)訓練數據應用合規要求 根據國內現行法律法規的規定,人工智能服務提供企業應在應用或二次開發開源大模型時,嚴格按照個人信息保護法等法律法規及標準中的個人信息保護要求,對已知的可能存
156、在的個人信息進行保護,在收集使用者輸入信息用于訓練前應征得用戶同意,并提供投訴舉報渠道以及處理機制,對于用戶提出的可能侵犯個人信息的情形,及時予以處理。此外,由于部分開源大模型訓練數據的黑盒特性,開源大模型的應用者在履行上述數據合規義務之外,還應制定合適的評估方法,以防止從基礎模型中引入數據合規風險。就具體應用場景而言,企業應根據各場景下開源大模型應用特點67 采取相應措施,以確保訓練數據的合規應用。微調(Fine-tuning):大模型微調是指在預訓練大規模模型的基礎上,引入新的數據集進行進一步的訓練,以適應特定任務需求或特定應用場景。因此,大模型的微調方在關注前述數據合規的一般要求外,還應
157、關注新引入的數據集的合規要求。企業可采取系列措施確保微調數據集的安全,包括構建語料來源黑名單,對各來源語料進行安全評估;提高語料來源多樣性;確保語料來源的可追溯性,使用開源語料時,應確保語料來源有合法的開源授權協議或相關授權文件,使用自采語料時,應當有采集記錄,并確保不采集他人已明確聲明不可采集的語料;使用商業語料時,應當簽署具備效力的合同協議等,并核查提供方的合法性證明材料;對于我國法律要求阻斷的信息,不得作為訓練語料;建立訓練語料不良內容過濾機制,包括關鍵詞過濾、分類模型、人工抽檢等。量化(Quantization):大模型量化是指將大型深度學習模型的參數從高精度(通常是 32 位浮點數,
158、即 FP32)轉換為低精度(如16 位浮點數 FP16、8 位整數 INT8 等)表示的過程。量化的目的是在盡量減少模型精度損失的情況下,顯著降低模型的存儲空間和計算資源需求,從而提高模型的推理速度和能效。量化過程通常不涉及新數據的引入,但可能會導致模型的精度損失,進而導致此前采取的部分數據合規和內容安全措施失效。因此,對于擬發布量化版本大模型的企業來說,應將每個量化版本的大模型當作獨立模型對待,即針對每個量化版本均履行全部評估程序,以確保其合規性。68 蒸餾(Distillation):大模型蒸餾是指通過訓練一個較小的模型(稱為“學生模型”)來逼近和模仿一個較大且復雜的模型(稱為“教師模型”
159、)的輸出。蒸餾的目的是在保持性能的同時,減少模型的大小、計算復雜度和推理時間,使得模型更易于部署和使用,特別是在資源受限的環境中,如移動設備或嵌入式系統。大模型蒸餾需引入教師模型,該教師模型本身便是一個獨立的大模型,因此應用者除應關注擬發布的模型數據合規外,還需關注教師模型的數據合規性。檢索增強生成(RAG,Retrieval-Augmented Generation):檢索增強生成技術的核心思想在于將預訓練大規模生成模型與檢索模塊(如 BM25、Dense Retriever 等)結合使用。檢索模塊可從大型文檔庫中找到與輸入查詢(如問題或上下文)相關性最高的文檔或信息片段,并將該信息作為條件
160、輸入到生成模型中,以生成更準確和更豐富的回答或內容。檢索模塊雖不直接參與模型訓練以影響模型參數,但會影響到模型運行時的上下文環境并影響模型的最終輸出結果。若檢索模塊的知識庫中包含了不合規信息,同樣可能導致大模型輸出不合規信息。因此在使用檢索增強生成技術的大模型應用開發完成后,企業應評估由模型、檢索器和外部文檔庫構成的整體應用的安全性,確保經過檢索增強后的大模型仍然滿足相關數據合規要求。4.物料清單構建建議 人工智能/機器學習物料清單(Artificial Intelligence/Machine Learning Bill of Materials),AI/ML BOM),即用于記錄和管理人工
161、智能和機器學習項目中所涉及的各種組件和資源的清單,包括數據集、69 算法、模型和相關元數據。AI/ML BOM 使 AI/ML 開發過程透明化,開源大模型應用企業可借助 AI/ML BOM 更好地了解開源大模型系統組件及其來源,對于評估和管理 AI/ML 系統中的安全風險、合規風險等至關重要。不同于軟件物料清單(Software Bill of Materials,SBOM),AI/ML BOM 側重于梳理展示人工智能和機器學習項目特有的組件,包括數據集、算法、模型等,其中數據起著至關重要的作用,是主要元素之一,數據的質量和特征會對人工智能/機器學習模型的性能產生重大影響。AI/ML BOM
162、主要包含:數據集。數據集相關內容中應涵蓋:數據集來源:明確數據集的來源,例如公開數據集、企業內部數據、第三方數據提供商等。規模和特征:包括數據的數量、類型(如文本、圖像、音頻等)、質量指標等。例如,一個圖像分類項目的數據集可能包含數萬張不同類別的圖片,具有高分辨率和準確的標注。預處理步驟:記錄對數據集進行的清洗、歸一化、增強等操作,這些步驟對于提高模型的性能和泛化能力至關重要。算法。算法相關內容應涵蓋:選擇的機器學習算法或深度學習架構,如決策樹、支持向量機、卷積神經網絡等。算法的參數設置和優化方法,例如學習率、正則化參數等。70 算法的性能評估指標,如準確率、召回率、F1 值等,用于衡量算法在
163、特定任務上的表現。模型。模型相關內容應涵蓋:模型的結構和參數:描述模型的層數、節點數、連接方式等結構信息,以及模型在訓練過程中得到的權重和偏差等參數。訓練過程:包括訓練數據的使用情況、訓練的輪數、使用的硬件資源等。評估和驗證:記錄模型在驗證集和測試集上的表現,以及進行的交叉驗證等評估方法。相關元數據。相關內容應涵蓋:項目的創建時間、更新時間、供應商等基本信息。數據和模型的許可協議信息,確保合規使用。與安全和隱私相關的信息,如數據加密方式、模型的訪問控制等。表 7 AI/ML BOM 示例示例 專欄專欄 5 AI/ML BOM 示例示例 目前業界對于人工智能/機器學習物料清單(AI/ML BOM
164、)的需求尚未完全明確,行業實踐仍處于初級階段?,F存 AI 模型庫的表達方式和行業標準各不相同,反映了這一領域的多樣性與不確定性。本文以 LLaMA-3.1 為應用示例,基于模型卡信息,并通過行業標準格式轉換,以構建 AI/ML BOM。一、一、模型卡模型卡 71 模型卡(Model Cards)作為模型附隨的重要文件,為模型提供了關鍵的上下文信息。此類信息有助于用戶理解模型的功能、用途、限制和性能。模型卡通常以 Markdown 格式編寫,包含在README.md 文件中,對于提升模型的透明性和可訪問性至關重要。模型卡通常包含模型信息;期望適用場景和潛在限制信息,包括偏見和道德考慮;訓練參數和
165、實驗信息,包括 GPU 數量和碳排放信息等;訓練的數據集信息;以及模型的性能評估信息等。全球最大模型庫 Hugging Face Model Hub 還提供了模型卡編制的模版文件以供參考,模型的創建者可根據自身需求修改模型卡結構,因此不同模型的模型卡信息格式可能各不相同。下圖是 Hugging Face Model Hub 提供的模型卡模板摘錄截圖。22 圖 3 Hugging Face Model 格式 Markdown 截圖 以廣泛使用的 LLaMA-3.1 模型為例,模型創建者需要在提交的模型資源根目錄創建 README.md 文件,23該文件便詳細列明了 22 https:/ 2024
166、 年 10 月 6 日。23 https:/huggingface.co/meta-llama/Meta-Llama-3.1-8B/resolve/main/README.md,最后訪問日期 2024 年10 月 6 日。72 LLaMA-3.1 的模型卡信息,包括模型信息、應用信息、訓練信息、測評信息以及責任與安全、道德考慮與限制等。圖 4 Hugging Face LLaMA-3.1 README.md 截圖 二、二、行業標準格式轉換行業標準格式轉換 在 AI 模型不斷發展的情況下,行業標準對于 AI/ML BOM 的支持也是應運而生。在 SBOM 領域廣泛使用的標準 SPDX 和Cycl
167、oneDX,也支持了 AI/ML BOM 表達。以 CycloneDX 為例,CycloneDX 是由全球性開源組織 OWASP主導,并經 Ecma International 認可發布的國際標準。24 CycloneDX對模型卡信息進行了標準化,其中模型和數據集清單可以單獨使用,也可以與 HBOMs、SBOMs 以及 SaaSBOMs 中定義的軟件和硬件組件或服務清單結合使用。CycloneDX 抽象出了 AI/ML BOM 的高級對象模型,以下便參考 CycloneDX 定義的 AI/ML BOM 格式規范25對 LLaMA-3.1 模型卡信息進行格式轉換。24 https:/cyclon
168、edx.org/capabilities/mlbom/,最后訪問日期 2024 年 10 月 6 日。25 https:/cyclonedx.org/docs/1.6/json/,最后訪問日期 2024 年 10 月 6 日。73 模型基本信息 組件(components)維度描述了大模型基本信息:圖 5 LLaMA-3.1 CycloneDX 模型組件轉換信息截圖 模型卡信息 CycloneDX 標準格式在組件(components)維度還新增了模型卡片(Model Cards)的屬性值,用于表達模型信息。在 CycloneDX標準格式下,LLaMA-3.1 模型卡信息可以細化為:74 圖
169、6 CycloneDX LLaMA-3.1 模型卡片信息截圖 數據集信息 由于 LLaMA-3.1 并未公開其數據集,以下提供一個僅供演示使用的數據集信息。圖 7 CycloneDX LLaMA-3.1 數據集信息演示截圖 75 76 此 外,CycloneDX 支 持 子組 件 層 次結 構 的 文 檔。由于 HuggingFace 作為 AI 包管理器將 AI 模型和數據集表示為 git-repos,因此可將 AI 模型/數據集的文件記錄為機器學習模型組件的子組件。轉換后的文件子組件如下圖所示:圖 8 LLaMA-3.1 CycloneDX 文件子組件表示信息截圖 77 六、國內開源大模型
170、應用生態完善方向 近年來,開源模式在加速人工智能大模型技術持續創新、拓展大模型應用路徑,釋放大模型產能潛力,推動形成新質生產力等方面的作用逐漸突顯,開源大模型正在成為產業發展的重要驅動力。然而,隨著開源大模型的深入應用,相關風險陸續暴露。目前,全球各相關主體也在持續關注開源大模型的應用治理,多國際組織及國家政府開始探索開源大模型風險治理和創新引導的平衡之道,越來越多的企業由點及面逐步構建開源大模型風險防范和治理體系。未來,我國各方主體可從以下方向完善開源大模型應用生態,以促進開源大模型安全、合規、高效、可持續的應用和發展。一是構建高質量中文數據集。數據是提升開源大應用效能的重要基礎資源。目前,
171、由于國內數據挖掘不足及數據流程渠道不暢,可用于大模型訓練的高質量中文數據集十分有限,并呈現碎片化分散狀態。為促進優質中文數據集的構建,我國可加快推動數據要素市場化配置改革,豐富完善數據基礎制度體系、促進數據流通交易和開發利用、推動數據基礎設施建設、推進數據領域核心技術攻關、強化數據安全治理。同時,加強政產學研用多方協作,分類整合存量公共數據,建立健全公共數據開放授權機制,促進數據資源的流通和共享。78 二是探索建構訓練數據合理使用制度。訓練數據資源能否以合法、低成本、高效的方式獲取,對于人工智能技術的發展和競爭具有決定性作用。目前,網絡爬取是開源大模型訓練數據的重要獲取方式,同時也是著作權侵權
172、風險的 高發區”。橫向比較來看,美國、英國、韓國、日本等國家皆在法律制度上為訓練數據的合理使用留下合法性空間,為國內人工智能產業的發展和繁榮提供良好制度環境。同時,從社會演進的角度而言,為適應數字社會發展,傳統語境下強調個體權利保護的制度思路應適度向數字語境中促進數據要素利用的制度思路轉變。26因此,我國亟需針對現存制度體系下的訓練數據合法性困境進行進一步的回應及探索。三是推動建立開源大模型標準化評估框架。目前,開源大模型的安全評估框架明顯缺乏,27為提高開源大模型的安全性和可靠性,我國亟需建立健全開源大模型標準化評估框架,全面覆蓋安全性、準確性、可靠性、公平性等測評維度,并開發推廣開源大模型
173、自動化測評工具,以促進評估框架的利用和推廣。此外,我國還可加強與國際標準組織的交流與合作,以推動開源大模型評估框架中國方案的國際化應用。四是建立推廣本土化開源大模型許可協議。國內開源大模型發布者在發布開源大模型時需要尋找一款合適的許可協議作為約束開發者的法律文件。而現有的開源大模型許可協議基本上來自于國外,用 26 參見黃紹坤:人工智能訓練數據收集的合法性困境與制度建構,網絡地址:https:/ 年 10 月 6 日。27 Yuxia Wang et al.,“Do-Not-Answer:A Dataset for Evaluating Safeguards in LLMs”,2023-08-25,https:/arxiv.org/abs/2308.13387.79 英文寫就,沒有官方的中文版本,如果套用境外的大模型許可協議可能出現與中國法律的銜接問題,既不利于中國本土開發者的閱讀與理解,也不利于開源大模型的推廣。此外,目前國內由各商業公司發布的定制化開源大模型往往不滿足經典開源定義,為企業使用開源大模型設置了多重限制。因此,為促進國內開源大模型生態的可持續及全球化發展,我國亟需建立并推廣統一且權威的本土化開源許可協議,以利于中國開發者閱讀理解,與中國的法律實踐相適應,并契合全球開源大模型的發展趨勢和發展要求。