《金杜:2023大模型合規白皮書(81頁).pdf》由會員分享,可在線閱讀,更多相關《金杜:2023大模型合規白皮書(81頁).pdf(81頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型合規白皮書20232023 年 11 月大模型合規白皮書金杜律師事務所上海人工智能研究院華為技術有限公司上海昇思AI框架&大模型創新中心2023年11月前言大模型作為人工智能發展脈絡中的里程碑,引發了新一輪的科技創新浪潮,其以強大的計算能力和深度學習技術,極大地提高了內容生產效率,促進內容生產方式顛覆式變革。各行各業紛紛布局大模型應用,把握智能化發展的機遇。然而,大模型也面臨隱私泄露、侵犯第三方權益以及違背倫理等潛在風險,引發了社會各界的關注和擔憂。隨著大模型的廣泛應用,加快完善大模型的立法監管以確保大模型的應用與發展符合倫理道德和社會價值觀,推動人工智能科技的健康發展變得迫在眉睫。世界
2、上主要國家和地區均著手并加快完善大模型相關的法律監管。例如,歐盟以人工智能法案為核心,結合大模型可能涉及的其他領域的立法,逐步建立起專項法案為主、現存法規為輔的人工智能法律監管框架;美國對于人工智能大模型的立法較為分散,各州分別各自推進人工智能立法,聯邦政府則試圖在現有的立法框架及監管規則內對大模型及人工智能進行規制,但同時,人工智能相關的聯邦專項立法提案也在推進當中。我國圍繞網絡安全、數據安全、個人信息保護等重點領域制定了法律法規,并及時跟進人工智能技術創新發展態勢,先后針對互聯網信息推薦、生成式人工智能等技術領域出臺了管理辦法,建立了法律法規和標準規范相協調的人工智能監管制度體系。在此背景
3、下,本白皮書在我國人工智能法律監管框架下進一步梳理了大模型相關方的合規義務及要點,并展望未來大模型法律監管體系的發展趨勢與特征,對政府、企業、社會共建大模型治理體系提出切實建議,從而為社會各界了解大模型立法最新動態和立法趨勢提供有價值的參考,并為相關單位開展大模型業務提供法律解讀及合規指引,保障大模型相關業務的合規經營以及行業的健康規范發展。目錄前言一、大模型的發展歷程(一)早期模型的探索與局限性8(二)深度學習的崛起11(三)GPT 等代表性大模型的影響121.大模型帶來的效率與準確度革命142.大模型帶來的機會與挑戰15二、全球大模型監管現狀(一)主要國家和地區加快完善大模型監管171.歐
4、盟172.美國253.英國35(二)我國對于大模型的監管現狀381.立法現狀382.合規要素473.大模型業務中各方合規義務一覽表594.運營角度的其他考量61三、未來展望與發展建議(一)未來展望:大模型合規的前沿701.大模型技術創新發展與合規風險并存702.大模型合規框架走向標準化與國際化703.社會文化和倫理逐漸與合規體系相融714.行業應用面臨不同合規挑戰與監管725.治理路徑分階段、有彈性地構建73(二)發展建議:構筑大模型合規生態741.政府推動構建行業新秩序742.企業創新與責任擔當783.社會組織加強協同合作808大模型合規白皮書一、大模型的發展歷程(一)早期模型的探索與局限性
5、從早期的符號邏輯到現代的深度學習1模型,AI 領域經歷了數十年的探索和迭代,為后續突破打下了堅實基礎。隨著大數據的發展和 AI 計算能力的爆炸式增長,深度學習模型的崛起顯得尤為突出。然而,盡管這些模型在特定任務上取得了令人矚目的成就,其在初期也面臨著許多局限性,如存在數據依賴、計算消耗大、缺乏可解釋性等。這些局限性不僅為 AI 領域帶來技術挑戰,也引發了對模型偏見、安全性和應用范圍的深入思考。1956 年 6 月舉行的達特茅斯夏季人工智能研究項目,被廣泛認為是人工智能作為一個研究學科的開端。自“人工智能”概念被提出,大模型的發展經歷了三個階段:早期發展期(1956-2005):該階段主要是傳統
6、神經網絡模型的階段,例如循環神經網絡(RecurrentNeuralNetwork,“RNN”)2、卷積神經網絡(ConvolutionalNeuralNetworks,“CNN”)3。起初,AI發展主要基于小規模的專家知識,然后逐漸轉向機器學習4,1980年和1998年誕生的CNN和LeNet-55奠定了深度學習模型的基礎??焖俪砷L期(2006-2019):該階段是全新的神經網絡模型階段,模型的發展方向主要聚焦長序列的處理和計算效率的提升,以Transformer6架1深度學習(Deeplearning)是機器學習(Machinelearning)中的一類算法,指利用多層神經網絡,模仿人腦處
7、理信息的方式從原始輸入中逐步提取和表達數據的特征。https:/en.wikipedia.org/wiki/Deep_learning,最后訪問于 2023 年 11 月22 日。2循環神經網絡(RecurrentNeuralNetwork,RNN)是具有時間聯結的前饋神經網絡(FeedforwardNeuralNetworks),特點是必須按順序處理,并且上一層的神經細胞層輸出和隱藏狀態具有較大的權重影響下一層的運算。循環神經網絡必須完成上一步才能進行下一步,只能串行不能并行,因此循環神經網絡具有“短時記憶”的特點,技術上把這個現象稱為梯度消失或梯度爆炸,循環神經網絡不擅長處理和捕捉長文本中
8、的語義。https:/en.wikipedia.org/wiki/Recurrent_neural_network,最后訪問于 2023 年 11 月 22 日。3卷積神經網絡(ConvolutionalNeuralNetworks,CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡(FeedforwardNeuralNetworks),是 深 度 學 習(Deeplearning)的 代 表 算 法 之 一。https:/en.wikipedia.org/wiki/Convolutional_neural_network,最后訪問于 2023 年 11 月 22 日。4機器學習(Mach
9、inelearning),作為人工智能的一個分支,是指不需要進行顯式編程,而由計算系統基于算法和數據集自行學習,做出識別、決策和預測的過程。https:/en.wikipedia.org/wiki/Machine_learning,最后訪問于 2023 年 11 月22 日。5LeNet 又稱 LeNet-5,由 YannLecun 提出,是一種經典的卷積神經網絡,是現代卷積神經網絡的起源之一。https:/en.wikipedia.org/wiki/LeNet,最后訪問于 2023 年 11 月 22 日。6Transformer 是一種基于注意力機制的序列模型,最初由 Google 的研究
10、團隊提出并應用于機器翻譯任務。9大模型合規白皮書構的出現為代表。從2013年的Word2Vec7到2017年的Transformer,都標志著深度學習模型正走向一個全新的時代。在該階段,如GPT8和BERT9等預訓練模型逐漸成為主流。全面爆發期(2020-至今):該階段是預訓練大模型階段。以GPT為代表,預訓練大模型處于快速發展的階段,特別是OpenAI10推出的GPT-3和GPT-4,標志著大模型技術正邁向新高度。機器學習有三種主要的方式,分別是監督學習、無監督學習、強化學習。監督學習(SupervisedLearning):“模板規范”(投喂好的資料),我們向模型投喂帶有標簽的數據(包括數
11、據特征和期望的輸出值),讓算法學習輸入和輸出之間的映射關系。經典的監督學習包括分類和回歸。分類:例如學習大量貓和狗的圖片和標簽,當模型接收新的動物圖片時可以將其根據特征識別是貓還是狗;回歸:例如學習貓的產地、毛色、習性等特征,并將貓的價值作為輸出標簽進行訓練,當模型接收新的貓咪圖片時可以根據特征預測貓的價值。無監督學習(UnsupervisedLearning):“開卷有益”(多投喂資料),我們向模型投喂不帶標簽的數據,讓模型自行尋找其中的規律,并進行處理。經典的無監督學習包括聚類和降維。聚類:例如學習大量房屋的信息,模型自行尋找其中的價格、面積、戶7Word2vec,是一群用來產生詞向量的相
12、關模型。這些模型為淺而雙層的神經網絡,用來訓練以重新建構語言學之詞文本。https:/en.wikipedia.org/wiki/Word2vec,最后訪問于 2023 年 11 月 22 日。8GPT,全稱 GenerativePre-TrainedTransformer(生成式預訓練 Transformer 模型),是一種基于互聯網的、可用數據來訓練的、文本生成的深度學習模型。https:/en.wikipedia.org/wiki/Generative_pre-trained_transformer,最后訪問于2023 年 11 月 22 日。9BERT(BidirectionalEnc
13、oderRepresentationsfromTransformers)是一種預訓練的深度學習模型,用于自然語言處理任務,基于 Transformer 架構的雙向編碼器,通過無監督的學習方式預訓練語言表示,以便能夠捕捉語言的上下文信息。10OpenAI 是在美國成立的人工智能研究公司,核心宗旨在于“實現安全的通用人工智能(ArtificialGeneralIntelligence,AGI)”,使其有益于人類。https:/en.wikipedia.org/wiki/OpenAI,最后訪問于 2023 年 11 月 22 日。10大模型合規白皮書型的規律,并自動將相同類型的房屋進行匯總。降維:例
14、如學習大量房屋的信息,模型自行尋找其中用戶決策最關心的因素,在保留價格和其他少量輔助數據的同時對房屋數據進行壓縮,以便簡化建模。強化學習(ReinforcementLearning):“創意引導”(進行條件反射),我們向模型設置特定環境,讓模型在其中采取行動,我們再對其進行反饋,讓模型從反饋中學習以便優化下一次的行動。這一過程就類似以條件反射的方式訓練小狗。在機器學習領域的早期階段,研究者們的主要關注點是基于統計、線性回歸和決策樹等的簡單模型。早期模型具有以下特點:簡單性。早期的模型,如線性回歸和邏輯回歸,是基于明確的數學方程,使其容易被理解和解釋。計算消耗低。由于模型的簡單性,其在計算上相對
15、高效,不需要大量的計算資源。表示能力存在上限。雖然早期模型在特定方面表現良好,但其表示能力有限,尤其體現在處理復雜任務和非線性問題上。大模型早期所面臨的主要局限性包括:存在數據依賴:早期的模型對于大量高質量數據有極高的依賴性。在沒有足夠訓練數據的情況下,這些模型往往難以達到令人滿意的性能,但獲取、清洗、標注這些數據卻昂貴且極為耗時。缺乏可解釋性:大模型通常被視為“黑盒”,即模型的內部工作原理很難被理解。由于用戶需要理解模型的決策過程,模型的解釋性不足在很多關鍵領域(如醫療和司法)構成障礙。泛化能力不足:盡管早期的大模型在特定任務中表現性能優秀,但其在新數據或新場景中的泛化能力仍受到質疑。存在環
16、境和任務依賴:早期的AI模型通常需要根據特定任務定制和調11大模型合規白皮書整,這意味著為特定任務訓練的模型可能難以直接應用于其他任務。模型具有一定偏見:由于訓練數據往往包含現實世界的偏見,大模型可能反映這些偏見,導致應用于實際場景時出現歧視或不公平的決策。安全性和穩定性不足:由于早期大模型的復雜性,其易受到對抗性攻擊或在特定條件下表現不穩定。以上局限性不僅為 AI 領域的研究者和工程師帶來挑戰,也為 AI 技術的未來發展和應用提出反思和探索的方向。隨著技術發展,許多問題已經得到解決或緩解。(二)深度學習的崛起深度學習從其最初的簡單嘗試到現今所達到的輝煌高峰,不僅展現了技術的快速發展,更揭示了
17、人類在追求智慧和知識上的不懈努力。深度學習源自人類對人腦工作原理的好奇和模仿,意圖借助數學和算法的力量,賦予計算機對信息的處理和認知能力。隨著技術日益成熟,深度學習賦予計算機識別圖像、處理自然語言甚至復雜決策的能力,不僅體現技術進步,也標志人工智能正逐步走向更加深入、廣泛的應用領域,為人類生活帶來無盡可能性。因此,深度學習的崛起可以被視為人類科技史上的一大里程碑。神經網絡的早期探索。1957 年,FrankRosenblatt 提出感知器模型,被稱為最簡單的神經網絡,通過簡單的線性組合實現分類任務。盡管當時的應用領域有限,但其為后續神經網絡的發展奠定了基礎。19 世紀 80 年代,Rumel-
18、hart、Hinton 及其團隊引入了反向傳播算法,通過多層神經網絡訓練,為復雜模型和任務提供強大工具。數據與計算能力的融合。21 世紀初,互聯網的廣泛傳播和智能設備的普及,使得數據呈現指數級增長,為深度學習提供豐富的訓練數據。同時,硬件技術也在飛速發展,NVIDIA 等廠商投入 GPU 研發,其能夠大幅度加速數值計算,尤其是深度學習中的矩陣運算,軟硬件的進步大大加速了模型的訓練過程。12大模型合規白皮書關鍵技術突破與模型創新。1997 年,Hochreiter 和 Schmidhuber 提出長短時記憶網絡(LongShort-TermMemory,LSTM),解決了循環神經網絡的梯度消失/
19、梯度爆炸的問題,使得神經網絡可以更好的處理長文本內容,為序列數據的處理開辟了新天地。1998 年,YannLeCun 及其團隊提出 LeNet-5,但真正讓深度學習走向世界舞臺的是 2012 年由 AlexKrizhevsky 等人設計的AlexNet,其在 ImageNet 挑戰賽中大勝,展示了深度學習在圖像處理上的潛力。2014 年,生成式對抗網絡(GenerativeAdversarialNetworks,“GAN”)被提出。GAN 的原理是通過競爭機制來逐步提高生成器的準確性。2016 年橫空出世擊敗圍棋世界冠軍李世石的 AlphaGo,就是基于 GAN 架構訓練的模型。2017 年,
20、Google 提出 Transformer 架構,此后 BERT、GPT 等模型皆以其為基礎,在自然語言處理任務中達到新高度。(三)GPT等代表性大模型的影響Transformer 架構的優點是可以并行處理輸入序列的所有元素,能夠捕捉長序列內容的關聯關系,因此 Transformer 架構不再受到“短時記憶”的影響,有能力理解全文,進而 Transformer 成為自然語言處理的主流架構。一個原始的 Transformer 架構由編碼器(Encoder)和解碼器(Decorder)兩部分構成,其中編碼器用于將輸入序列轉換為一系列特征向量,解碼器則將這些特征向量轉換為輸出序列,即:輸入內容編碼器
21、解碼器輸出內容。如果給編碼器輸入一句英語“Sheisastudent”,解碼器返回一句對應的中文“她是一名學生”。Transformer 的架構和自注意力機制能夠實現這些的關鍵在于“將詞匯轉換為詞向量,并通過多頭注意力機制(Multi-HeadAttention)和前饋神經網絡(Feed-ForwardNetwork)兩個子層進行處理”。第一步:模型對接收到的輸入序列文本 Token 化,Token 可以被理解為文本的基本單元,短單詞可能是一個 Token,長單詞可能是多個 Token。Token 是 GPT 的收費單元,也是源于此。第二步:將 Token 轉換成一個數字,成為 TokenID
22、,因為計算機語言只13大模型合規白皮書能存儲和運算數字。第三步:將TokenID傳入嵌入層(EmbeddingLayer),轉換為詞向量(WordEmbedding),詞向量是一串數字??梢詫⑦@個過程想象為將一個單詞放到多維空間中,每個數字就表達了這個單詞某個維度的含義,一串數字所能表達和蘊含的信息量遠多于 TokenID的一個數字,可以記載這個單詞的詞義、語法和不同語境、語序中的變化關系。第四步:對詞向量的語序和語境進行位置編碼,形成位置向量。上文提到語境和語序對理解詞義至關重要。之后將詞向量合并位置向量,將合并后的結果傳給編碼器,這樣模型既能理解詞義也能理解語境和語序。第五步:接收到上述信
23、息后,編碼器中的多頭注意力機制將會運作,捕捉其中的關鍵特征,編碼器在處理時不僅會關注這個詞與臨近的詞,還會關注輸入序列中所有其他詞,將輸入的信息根據上下文進行調整,輸出了降維后的向量。第六步:進入編碼器的前饋神經網絡處理,前饋神經網絡“思考”之前步驟中收集的信息,并增強模型的表達能力,嘗試進行預測。第七步:降維后的向量將繼續傳輸給解碼器運算。解碼器具有帶掩碼的多頭注意力機制,解碼器在處理時僅關注這個詞及其之前的詞,遮蓋輸入序列中后面的內容,并結合已經生成的文本,保持未來輸出文本的時間順序及邏輯連貫性。第八步:進入解碼器的前饋神經網絡處理,解碼器中的前饋神經網絡與第六步類似,也是增強模型的表達能
24、力。第九步:解碼器的最后處理環節經過 linear 層和 softmax 層,這兩個子層將解碼器輸出內容轉換為詞匯表的概率分布,概率分布反映下一個 Token 生成概率。通常模型選擇概率最高的 Token 作為輸出,生成輸出序列。因此解碼器本質上是在做“單詞接龍”的游戲,猜下一個輸出單詞。14大模型合規白皮書圖 1近年來大語言模型進化樹11從圖 1 可以看出,經過演變,大模型大致分為三種:其一是舍棄 Decoder、僅使用 Encoder 作為編碼器的預訓練模型,以 Bert 為代表,但 Bert 未突破ScalingLaws,Encoder-Only 分 支 在 2021 年 后 逐 漸 沒
25、 落。其 二 是 同 時 使 用Encoder、Decoder 的預訓練模型,代表模型有清華大學的 chatGLM。其三是舍棄Encoder、僅使用 Decoder 作為編碼器的預訓練模型,以 GPT 為代表,其通過預測下一個單詞,基于給定的文本序列進行訓練。GPT 最初主要被視為文本生成工具,而 GPT-3 的推出成為該分支發展的歷史性時刻。自 GPT-3 問世后,不斷涌現出諸多如ChatGPT、PaLM、GPT-4等優秀的大模型,Decoder-Only分支現發展勢頭強勁。1.大模型帶來的效率與準確度革命GPT 及其他大模型為當今的生產效率帶來了前所未有的革命性提升。傳統11SeeJinf
26、engYangetal.,HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond,https:/arxiv.org/pdf/2304.13712.pdf.15大模型合規白皮書上,數據處理、內容生成、決策支持等任務都需要大量人力支持,且伴隨著可能的人為錯誤和效率不高等問題。然而,大模型通過其強大的計算能力和廣泛的知識基礎,使得這些任務在短時間內得以高效完成。無論是企業內部的行政管理、市場分析,還是產品設計、客戶服務,大模型都能夠提供快速、準確且高質量的輸出。這種技術驅動的生產效率革命不僅大幅度減少企業的運營成本,也為新商業模式和新
27、機遇創造可能性。大模型的出現也標志著信息處理和知識推斷的準確性革命。大模型代表了可以更深入、更廣泛地理解和處理人類語言的能力,使得很多任務的執行準確性得到前所未有的提高。大模型背后的深度學習算法使得系統能夠從大量數據中提取規律和關系。與此同時,模型的龐大規模意味著它們能夠記憶和處理的細節越來越豐富,這確保了其在諸如文本解析、情感分析和復雜問題回答等任務中的出色表現。傳統的機器學習模型通常需要針對特定任務進行訓練,而GPT 之類的模型由于其通用性,可以被微調以適應特定的領域或任務,從而在醫學、法律、工程等專業領域中展現出驚人的準確性。在機器翻譯、圖像識別等許多應用場景中,大模型相較過去錯誤率顯著
28、降低,準確性的提高對于如醫療診斷和自動駕駛汽車等關鍵領域具有特殊重要性。2.大模型帶來的機會與挑戰大模型當前已經覆蓋了許多領域,為我們的日常生活、工作和娛樂帶來了深刻的變革。例如,在零售業,大模型能夠根據消費者的購買記錄和瀏覽習慣為其生成個性化的購物推薦;在新聞和媒體領域,它可以快速地為記者生成初稿或摘要,加速新聞的傳播速度;在娛樂領域,音樂、藝術和電影制作人開始嘗試利用 AI 生成原創作品。同時,大模型在醫療、金融和交通領域的應用也都在逐步展開,為我們的健康、財富和出行安全提供了前所未有的支持。例如:醫藥行業:在藥物研發領域,傳統方法需要合成大量化合物,并且研發時間長、成本高,大模型的引入大
29、大加快了藥物的研發速度,其中以蛋白質結構預測為典型。例如,生物技術公司安進使用NVIDIA的BioNe-16大模型合規白皮書Mo模型,顯著減少了分子篩選和優化的時間。金融服務:金融服務行業正在經歷技術驅動的數字轉型,其中大模型在客戶服務、營銷優化、投資指導、風控與反欺詐等環節扮演重要角色。例如,FinancialTransformer能夠理解非結構化的金融數據,對市場深度分析、投資決策提供支持。零售行業:零售商正使用大模型以提升客戶體驗,實現動態化定價、細分客戶、設計個性化推薦以及可視化搜索。例如,生成式AI會使用包含產品屬性的元標簽以生成更加全面的產品描述,包括“低糖”、“無麩質”等術語。高
30、等教育:智能輔導系統、自動化論文評分以及各學科相關的大語言模型已經陸續在各大高校得到應用。例如,佛羅里達大學的研究人員使用超級計算機開發了一種自然語言處理模型,使計算機能夠讀取和解釋存儲在電子健康記錄臨床筆記中的醫學語言,甚至實現自動繪制圖表。此外,基因組學大語言模型等專業大模型也已經有落地案例。公共服務:政府機構人員可以使用生成式AI提高日常工作的效率,大模型的分析能力能夠幫助其處理文件,加快辦事效率。由大語言模型驅動的AI虛擬助手和聊天機器人可以即時向在線用戶提供相關信息,減輕電話接線員的壓力。然而,這些應用也帶來了諸多爭議。例如,數據隱私是公眾最大的關切之一,原因是生成式 AI 的許多應
31、用都依賴于大量的個人數據。大模型內容生成也可能會模糊真實和虛構的界限,從而引發道德和法律上的困境。大模型的透明性和公正性也是廣大公眾、企業和政府關心的焦點。在數據收集、處理到跨境傳輸的全過程中,每一個階段都存在特定風險,如侵犯隱私、泄露商業秘密或跨境數據違規流通等。另外,隨著人們對大模型的使用頻次逐漸增加,可能出現人們對大模型過于依賴而不再進行批判性思考的現象,從而引發人們對于自身思維能力倒退、價值創造能力降低的擔憂。17大模型合規白皮書二、全球大模型監管現狀(一)主要國家和地區加快完善大模型監管2023 年 11 月 1 日,首屆人工智能安全全球峰會在布萊切利園正式開幕,會上包括中國、美國、
32、歐盟、英國在內的二十余個主要國家和地區共同簽署了布萊切利宣言(TheBletchleyDeclaration)12,承諾以安全可靠、以人為本、可信賴及負責的方式設計、開發、部署并使用 AI。布萊切利宣言肯定了 AI 的廣泛應用前景,同時指出了 AI(尤其是包括大模型在內的前沿高功能通用 AI 模型)在包括網絡安全和生物技術等領域所可能造成的風險,以及需要解決的包括保護人權、透明度和可解釋性、公平性、問責制、監管、人類監督與控制、歧視與偏見、隱私與數據保護、合成欺騙性內容、AI 濫用等問題,并確認 AI 開發者需要對該等風險及問題承擔重大責任。各國家和地區共同承諾在國際層面識別共同關注的前沿 A
33、I 安全風險,并承諾在各國家和地區制定各自的基于風險的政策。最后,布萊切利宣言表達了支持建立一個具有國際包容性的前沿 AI 安全科學研究網絡的決心。布萊切利宣言作為目前全球針對 AI監管的前沿文件,顯示了全球對于 AI 發展的密切關注。目前,就歐盟、美國及英國而言,其均將大模型作為人工智能的一部分進行監管,因此,對于境外大模型的監管現狀的梳理,需要與整體人工智能監管現狀相結合。1.歐盟(1)立法現狀2016 年 10 月,歐盟議會法律事務委員會頒布歐盟機器人民事法律規則(EuropeanCivilLawRulesinRobotics)13,正式揭開了歐盟人工智能與大模型合規監管的立法篇章。此后
34、,歐盟陸續頒布了與人工智能和大模型合規監管密切相關的一系列法案及政策,其中尤以人工智能法案(ArtificialIntelli-12https:/www.gov.uk/government/publications/ai-safety-summit-2023-the-bletchley-declaration/the-bletchley-declaration-by-countries-attending-the-ai-safety-summit-1-2-november-2023,最后訪問于 2023 年 11 月 22 日。13https:/www.europarl.europa.eu/d
35、oceo/document/TA-8-2017-0051_EN.pdf,最后訪問于 2023 年 11 月 22 日。18大模型合規白皮書genceAct)14最值得注意。目前,人工智能法案已經進入最終談判階段,一經通過,其可能成為全球第一部專門針對人工智能進行綜合性立法的區域性法規??傮w來看,歐盟針對人工智能與大模型合規監管的政策采取了專項法案為主、現存法規為輔的結構,以人工智能法案作為治理核心,結合可能涉及的其他相關領域的立法(包括數據及個人信息、市場監管等),共同構成了包括大模型在內的人工智能監管體系。(a)人工智能法案2021 年 4 月,歐盟發布了人工智能法案的提案。2022 年,歐
36、盟委員會綜合各方意見,對人工智能法案進行了進一步修正。2023 年 6 月,人工智能法案再次修正,并經歐洲議會投票通過(“人工智能法案”)15。按照歐盟立法程序,修正法案下一步將正式進入歐盟委員會、議會和成員國三方談判協商的程序,并確定最終版本。人工智能法案是歐盟首部有關人工智能的綜合性立法,其以人工智能的概念作為體系原點,以人工智能的風險分級管理作為制度抓手,以人工智能產業鏈上的不同責任主體作為規范對象,以對人工智能的合格評估以及問責機制作為治理工具,從人工監管、隱私、透明度、安全、非歧視、環境友好等方面全方位監管人工智能的開發和使用,詳細規定了人工智能市場中各參與者的義務,主要內容如下:(
37、i)以人工智能(ArtificialIntelligence,“AI”)概念為體系原點根據人工智能法案,“AI 系統”是指一種以機器為基礎的系統,該系統在設計上具有不同程度的自主性,可以為實現明確或隱含的目標生成如預測、建議或決策等的輸出結果,對物理或虛擬環境造成影響。而“大模型”是指在廣泛的數據上進行規?;柧毜娜斯ぶ悄苣P?,其設計是為了實現輸出的通用性,并能適用各種不同的任務。值得注意的是,較為狹窄、不普遍的、無法適應廣泛任務的預訓練模型不屬于人工智能法案所規制的大模型。14詳見下文第 1(1)(a)段。15https:/www.europarl.europa.eu/doceo/docum
38、ent/TA-9-2023-0236_EN.pdf,最后訪問于 2023 年 11 月 22 日。19大模型合規白皮書(ii)以責任主體為規范對象人工智能法案將 AI 系統的責任主體劃分為提供方、部署方、進口方、分銷商四種主要角色。其中,“提供方”指開發或擁有已經開發的 AI 系統,以自己的名義將其投放市場或在歐盟投入服務的自然人或法人;“部署方”指在歐盟境內在其權限范圍內使用 AI 系統的自然人或法人(不包括在個人非專業活動過程中使用),包括使用 AI 系統以提供用戶服務的商業機構等;“進口方”指在歐盟設立或者位于歐盟境內,并將帶有歐盟境外自然人或法人名稱或商標的 AI 系統投放到歐盟市場的
39、自然人或法人;“分銷商”指供應鏈中提供方和進口方之外的在歐盟市場中提供 AI 系統且不改變其系統屬性的自然人或法人。(iii)風險分級標準對于 AI 系統涉及的風險,歐盟主要區分為“不可接受的風險”、“高風險”、“有限風險”和“最小風險”四類,具體如下:存在不可接受風險的AI系統。存在下列情況的AI系統均可能屬于存在“不可接受的風險”的AI系統,歐盟成員國內將完全禁止該等AI系統投入市場或者交付使用:(1)采用潛意識技術或有目的的操縱或欺騙技術;(2)利用個人或社會群體的弱點(例如已知的人格特征或社會經濟狀況、年齡、身體精神能力);(3)利用人的社會行為或人格特征進行社會評分;(4)在公眾場所
40、的“實時”(包括即時和短時延遲)遠程生物識別系統。高風險AI系統。存在下列情況的AI系統均屬于存在“高風險”的AI系統,其投放市場及交付使用均受到嚴格的管控并需履行評估及備案要求:-AI系統同時滿足下述兩項條件:(1)屬于歐盟統一立法規制范圍內的產20大模型合規白皮書品的安全組件或為該范圍內的產品本身;并且(2)根據歐盟統一立法規制需要就健康或安全問題經過第三方合格評估方可投放市場或交付使用;-AI系統同時滿足下述兩項條件:(1)存在可能損害環境或損害人類健康、安全、基本權利的重大風險;并且(2)符合分級標準且在規定的領域內使用,包括生物特征識別AI系統、關鍵基礎設施AI系統、可能決定人的受教
41、育或職業培訓機會的AI系統、作為超大型在線社媒平臺16擬在其用戶內容推薦中使用的AI系統等。有限風險AI系統。不屬于存在不可接受的風險或高風險的AI系統,但需要履行一般合規要求,屬于存在“有限風險”的AI系統,主要包括與人類互動的AI系統、用于情緒識別的AI系統、用于生物特征分類的AI系統以及生成深度合成內容的AI系統。最小風險AI系統。在上述三種類型之外的AI系統,均屬于存在“最小風險”的AI系統,主要包括允許自由使用AI的電子游戲、郵件過濾器等。(iv)風險分級監管對于前述不同的風險等級,人工智能法案采取了不同程度的監管措施,具體包括:對于存在不可接受風險的AI系統,嚴厲禁止使用;對于高風
42、險AI系統,要求其同時履行:(1)高風險AI系統的特殊合規要求(“特殊合規要求”);以及(2)AI系統的一般合規要求(“一般合規要16指根據歐盟第 2022/2065 號法規第 33 條的規定的超大型在線平臺的社交媒體平臺,主要為用戶數量超過 4500 萬的社交媒體平臺。21大模型合規白皮書求”)。其中,特殊合規要求主要包括內部合規及外部認證措施:-內部合規措施須貫穿系統全生命周期,包括:(1)形成風險管理體系;(2)實施數據治理;(3)形成技術文檔;(4)自動記錄運行日志;(5)保證透明度;(6)保證人工監督;(7)保證系統的準確性、穩健性和網絡安全性。-外部認證措施均應當于上市前完成,包括
43、:(1)根據系統功能不同,進行自評估或者第三方評估;(2)在歐盟公共高風險AI系統數據庫中備案;(3)使用CE(ConformityEuropean,“CE”)標識。對于有限風險AI系統,履行一般合規要求即可。就一般合規要求而言,主要為透明度要求,具體要求根據AI系統的不同類型而有所區分:-針對與人類互動的AI系統,系統使用者需要告知人類其正在與AI系統進行互動;-針對情緒識別及生物特征分類AI系統,系統使用者需要告知系統識別對象上述系統的存在,并且需要就生物識別數據的獲取取得系統識別對象的同意;-針對生成深度合成內容的AI系統,系統使用者需要對外告知該等內容是由AI生成或操縱的,而并非真實內
44、容。對于最小風險AI系統,不作強行性干預。(v)各類責任主體的義務總體而言,提供方是 AI 系統的最終負責人,其需履行的義務最為全面,責任承擔亦為最重,部署方需履行風險防范義務,其他參與者需履行以審查義務為核心的一系列的合規義務,具體如下:22大模型合規白皮書 提供方的義務主要包括:(1)執行前述所有特殊合規要求;(2)在系統上標明其名稱、注冊名稱或注冊商標,以及其聯系信息;(3)確保執行人工監督的人員精通自動化或者算法偏見的風險;(4)執行數據保護,包括數據保護影響評估并發布摘要,以及提供輸入數據或所使用的數據集的任何其他相關信息的說明;(5)建立書面質量管理體系;(6)日志及文檔保存;(7
45、)對不當行為采取糾正措施并告知有關機構;(8)提交歐盟合格聲明,并在系統上市后由國家監督機構和國家主管部門保管;(9)境外提供方應在歐盟境內設置代表(“授權代表”),以全權履行人工智能法案項下提供方的義務并配合主管機構的工作。部署方的義務主要包括:(1)監督與風險控制;(2)數據保護;(3)履行備案,作為歐盟公共當局或者歐盟機構、團體(“公共當局”)的部署方或者屬于數字市場法案17守門人的部署方,需要在使用系統前在歐盟公共高風險AI系統數據庫中備案,其余高風險AI系統的部署方可自愿備案;(4)履行高風險AI系統的基本權利影響評估,以確定系統在使用環境中的影響。部署方為公共當局的,應公布評估的結
46、果摘要,作為上述備案的一部分。進口方主要義務包括:確保AI系統提供方履行了自評估或第三方評估義務、形成技術文檔義務、授權代表任命義務(如需),并確保AI系統帶有CE標識,附有所需的說明文件。(vi)大模型的特殊合規義務大模型的提供方在大模型上市前,應確保該模型符合下述要求:(1)以適當的方法識別、減少重大風險,并記錄剩余的不可緩解的風險;(2)只納入經過適當的大模型數據治理措施的數據集,且須審查數據來源的適當性和可能的偏差以及緩解措施;(3)在設計和開發期間進行測試及評估,以在其整個生命周期內達到適當的性能、可預測性、可解釋性、可糾正性、安全性和網絡安全水平;(4)減少能耗及浪費,提高整體效率
47、,具有測量和記錄能耗以及可能產生的其他17詳見下文第 1(1)(b)段。23大模型合規白皮書環境影響的能力;(5)制定技術文件和使用說明;(6)建立質量管理系統,以記錄對上述義務的遵守;(7)在歐盟數據庫中備案該大模型;(8)在其大模型投放市場或投入使用后的 10 年內,將技術文件交由國家主管部門保存。(b)數據隱私、算法及知識產權相關法律法規針對大模型及其所服務的 AI 系統所涉及的數據、個人信息、算法以及知識產權等領域,歐盟現有的相關規定在各自適用的范圍內實際上起到了垂直監管的作用。該等垂直監管類的主要規定如下:2018 年 5 月,歐盟委員會的通用數據保護條例(GeneralDataPr
48、otec-tionRegulation,“GDPR”)18生效。GDPR 從數據控制者和處理者的責任以及數據監管等方面重新調整了歐盟個人數據保護策略。另外,GDPR 關于透明度的原則以及自動化決策有關的規定也為算法設計者設置了相關義務,包括確保算法訓練數據痕跡可查義務以保證算法訓練數據真實、對算法部分技術原理進行闡釋義務以保證算法目標服務人群充分了解情況,以及算法的非歧視機制等。2022 年 10 月,歐盟委員會頒布了數字服務法案(DigitalServiceAct,“DSA”)19,其適用對象為數字服務供應商。DSA 將適用對象劃分為管道服務商、緩存服務商、托管服務商、在線平臺及在線搜索引擎
49、,并特別定義了超大型在線平臺(VeryLargeOnlinePlatform,“VLOP”)和超大型在線搜索引擎(VeryLargeOnlineSearchEngines,“VLOSE”)。上述主體各自承擔不同的合規義務,其中 VLOP 及 VLOSE 承擔的合規義務最重。DSA 的立法宗旨為加強網絡平臺的內容審查義務、非法商家打擊義務、信息透明義務(例如需向消費者明確透傳算法推薦及定向廣告內容),幫助建立透明、安全、可預測、可信任的網絡環境,保護網絡平臺用戶的權益。2022 年 11 月,歐盟委員會頒布了數字市場法案(DigitalMarketAct,“DMA”)20,引入“守門人”這一概念
50、,對從事在線中介服務(如應用商店)、18http:/data.europa.eu/eli/reg/2016/679/2016-05-04,最后訪問于 2023 年 11 月 22 日。19http:/data.europa.eu/eli/reg/2022/2065/oj,最后訪問于 2023 年 11 月 22 日。20http:/data.europa.eu/eli/reg/2022/1925/oj,最后訪問于 2023 年 11 月 22 日。24大模型合規白皮書在線搜索引擎、社交網絡服務、即時通訊服務、視頻共享平臺服務、虛擬助手、網頁瀏覽器、云計算服務、操作系統、在線市場和廣告服務等服務
51、的符合標準的大型互聯網平臺進行反壟斷合規監管。DMA 借助行為清單工具,明確列舉了守門人“必須為”和“禁止為”的內容,旨在維護數據開放,保護個人數據、禁止守門人濫用優勢地位進行不正當競爭,確保數字市場的公平競爭和良性發展。2019 年 3 月,歐盟議會通過了數字化單一市場版權指令(DirectiveonCopyrightintheDigitalSingleMarket,“版權指令”)21。版權指令規定,基于科學研究與數據分析兩種目的,并且作品為合法獲取的情形下的數據挖掘(TextDataMining,“TDM”)具有正當性。顯然,大模型的開發者進行的 TDM 通常并不屬于科學研究范疇,而更可能
52、屬于以數據分析為目的的 TDM。版權指令第 4 條為大模型在數據訓練階段對版權客體的復制、提取行為設置了合理使用的例外,該等例外實際上賦予了 TDM 在數據處理階段復制、提取數據行為的合法性,且不存在主體限制或使用技術目的限制,換言之,即使是出于商業性使用目的也同樣適用??傮w而言,GDPR 適用于 AI 采集和使用個人數據等場景,DMA 和 DSA以透明度和公平性為核心,對數字平臺服務的提供方分別提出監管要求,版權指令則對大模型訓練數據的獲取合法性進行了規定。而在人工智能法案即將通過的大背景下,法案中所提及的大模型系統及其所嵌入的 AI 系統的提供方、部署方、進口方、分銷商等角色是否以及如何適
53、用于該等垂直監管類的規定,人工智能法案如何處理與現有的各垂直監管法規的法條競合、沖突與協調適用等問題,人工智能的監管部門與其他各垂直監管法規的監管部門的管轄權如何劃分以及與各類組織機構間協調運作,都需要通過實踐來回答。(2)相關案例實際上,意大利、法國、西班牙已經對 OpenAI 展開了調查22。在意大21https:/eur-lex.europa.eu/eli/dir/2019/790/oj,最后訪問于 2023 年 11 月 22 日。22https:/www.politico.eu/article/chatgpt-italy-lift-ban-garante-privacy-gdpr-o
54、penai/,最后訪問于 2023 年 11 月 22 日;https:/www.zdnet.fr/actualites/chatgpt-les-premieres-plaintes-francaises-enregistrees-par-la-cnil-39956702.htm,最后訪問于 2023 年 11 月 22 日。25大模型合規白皮書利,2023 年 3 月,意大利個人數據保護局(GaranteperlaProtezionedeiDatiPersonali,“GPDP”)宣布禁止使用 ChatGPT,并限制開發這一平臺的OpenAI 公司處理意大利用戶信息,同時對 OpenAI 公
55、司展開立案調查,理由是 ChatGPT 平臺存在用戶對話數據和付款服務支付信息丟失的情況,而且沒有就收集處理用戶信息進行告知,缺乏大量收集和存儲個人信息的法律依據。此外,ChatGPT 沒有有效的年齡核實系統,可能會讓未成年人接觸到不適當的內容。4 月 12 日,GPDP 列出一份清單,要求 OpenAI 在 4 月底前滿足包括透明度、數據糾正及被遺忘權、個人數據保護、未成年人保護等一系列要求。4 月 28 日,ChatGPT 在完成整改后重新在意大利上線。在西班牙,2023 年 4月 13 日,西班牙國家數據保護局發表聲明,因 ChatGPT“可能不符合 GDPR規范”而對 OpenAI 啟
56、動初步調查程序。在法國,2023 年 4 月,法國數據監管機構國家信息與自由委員會(CommissionNationaledelinformatiqueetdesliberts,“CNIL”)對 ChatGPT 提出違反 GDPR、涉嫌侵犯個人隱私、捏造不實信息等數項指控,并展開調查。2.美國(1)立法現狀相較于歐盟的統一協調、垂直跨部門的體系化立法而言,美國對于大模型及其所服務的 AI 系統的立法總體而言仍呈現較為保守、零散、地區化的態勢。在州一級層面,各州的立法進程相差較大,較為積極的例如伊利諾伊州、加利福尼亞州、弗吉尼亞州、紐約州等已經通過了相關法案,但側重點各有不同,例如主要針對人工智
57、能視頻面試23及職場自動化決策24、人工智能產業促進25等。在聯邦層面,目前為止,美國尚未通過一部完整且專門針對大模型及其所服務的 AI 系統的法案,而是試圖通過調整政府機構的權力,在現有的立法框架及監管規則內對大模型及人工智能進行規制,但由于政府機構多元,機構之間的執行程度與政策發展也并不平衡。目前,聯邦層面的合規重點主要涉及 AI 安23https:/ilga.gov/legislation/publicacts/fulltext.asp?Name=101-0260&GA=101,最后訪問于 2023 年 11 月 22 日。24https:/legistar.council.nyc.go
58、v/LegislationDetail.aspx?ID=4344524&GUID=B051915D-A9AC-451E-81F8-6596032FA3F9&Options=ID%7cText%7c&Search=,最后訪問于 2023 年 11 月 22 日。25http:/alisondb.legislature.state.al.us/ALISON/SearchableInstruments/2019RS/PrintFiles/SJR71-int.pdf,最后訪問于2023 年 11 月 22 日。26大模型合規白皮書全、算法透明度、反歧視、評估等要求。但隨著 ChatGPT、Bard 等
59、生成式人工智能的井噴式出現,目前一系列與人工智能的聯邦立法提案也已經出現在了國會中。同時,聯邦政府機構也在積極制定相關政策,加緊對于AI的體系化監管。(a)人工智能重點整體性法規政策2020 年 11 月,美 國 行 政 管 理 和 預 算 局(OfficeofManagementandBudget)頒布了人工智能應用監管指南(GuidanceforRegulationofAr-tificialIntelligenceApplications)26,反映了美國在人工智能監管方面的核心立場。該指南并未直接規定人工智能的監管法規,而是為美國政府提供了關于制定人工智能監管政策的指導方針。該指南主要關
60、注了歧視、國家安全等問題,并提出了一系列風險評估和管理框架等要求,以提升人工智能的可信度和透明度,但其對人工智能仍持自由開放的基本態度,旨在確保監管規則不會妨礙人工智能的發展。2020 年 12 月,時任美國總統特朗普簽署了名為促進聯邦政府使用可信賴人工智能(PromotingtheUseofTrustworthyArtificialIntelligenceintheFederalGovernment,ExecutiveOrder13960ofDecember3,2020)27的行政命令,主要規定了聯邦政府機構在考慮設計、開發、獲取和在政府中使用人工智能時應遵循的一系列旨在促進公眾信心、保護國
61、家價值觀并確保人工智能的合法使用的共同原則,包括:(a)合法并尊重國家價值觀。各機構在設計、開發、獲取和使用人工智能時,應充分尊重國家價值觀,并符合憲法及其他適用的法律和政策,包括涉及隱私、公民權利和公民自由的法律和政策;(b)目的明確,效率主導。各機構應在風險可控情況下積極設計、開發、獲取和使用有益的人工智能;(c)準確性與有效性。各機構應確保其對人工智能的訓練場景與應用場景一致,確保人工智能的可靠性;(d)安全性與穩健性。各機構應確保其人工智能在面對系統漏洞和其他惡意攻擊時的彈性;(e)可理解性。各機構應確保其人工智能應用程序的操作和結果能夠被相關專家和用戶充分理解;(f)可問責性和可追溯
62、性。各機構應確保在設計、開發、采購和使用人工智能時,26https:/www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf,最后訪問于 2023 年 11 月 22 日。27https:/www.federalregister.gov/documents/2020/12/08/2020-27065/promoting-the-use-of-trustworthy-artificial-intelligence-in-the-federal-government,最后訪問于 2023 年 11 月 22 日。27大模型合規白皮書明確界
63、定、適當分配各主體的角色和責任。人工智能的設計、開發、獲取和使用應酌情并在切實可行的范圍內進行詳細記錄和追蹤;(g)定期監測。各機構應根據上述原則定期測試其系統并及時更新補正;(h)透明。各機構應在實際可行的范圍內,根據適用的法律和政策向適當的利益相關者披露其使用人工智能的相關信息;(i)問責。各機構應負責實施和執行適當的保障措施,以確保其人工智能系統的正常使用和運行,并應監督記錄該等保障措施的遵守情況,并應為所有負責設計、開發、采購和使用人工智能的人員提供適當的培訓。2021 年 1 月,經國會批準,2020 國家人工智能倡議法案(NationalAIInitiativeActof2020(
64、DIVISIONE,SEC.5001)正式通過28,其中明確重申了確保美國在可信人工智能領域的領導地位。該法案的主要目的是確保美國在人工智能研發方面的領導地位,為社會各部門的人工智能技術整合準備充足勞動力,協調各聯邦機構開展人工智能相關活動,保證信息多渠道流通。具體而言,該法案將:(1)通過美國白宮科技政策辦公室(OfficeofScienceandTechnologyPolicy,“OSTP”)管理的機構間協調委員會,制定人工智能研究領域的機構間協調戰略規劃;(2)成立咨詢委員會,該委員會將跟蹤人工智能的科學研究現狀,為機構間協調委員會提供信息;(3)在美國國家科學基金會(NationalS
65、cienceFoundation,“NSF”)的協調下,建立人工智能研究機構網絡,該網絡將促進學術界、政府部門、私人組織之間的合作,加快人工智能的研究;(4)支持美國國家標準技術研究所(NationalInstituteofStandardsandTechnology,“NIST”)研究制定人工智能評價標準,要求 NIST 創建數據共享的管理框架;(5)支持 NSF 在人工智能相關領域開展多種研究,以優化人工智能系統,推進其他領域的科學研究;(6)NSF 將提供獎學金和培訓來支持人工智能及相關領域的教育;(7)支持能源部(DepartmentofEnergy,“DOE”)開展人工智能研究,利用
66、 DOE 的基礎設施來應對人工智能挑戰、促進技術轉移、實現與其他聯邦機構間的數據共享及協同合作;(8)進一步探究人工智能帶來的機遇和挑戰,探究保持美國在人工智能領域領先地位所需的計算資源。2022 年 10 月,OSTP 頒布了人工智能權利法案藍圖(Blueprintfor28https:/www.congress.gov/116/crpt/hrpt617/CRPT-116hrpt617.pdf#page=1210,最后訪問于 2023 年 11 月 22 日。28大模型合規白皮書anAIBillofRight)29,主要內容包括前言、指導人工智能的設計、使用和部署的五項原則(該等五項原則為:
67、技術的安全性和有效性、防止算法歧視、保護數據隱私、告知及解釋義務以及人類參與決策)、應用說明以及技術指南,該指南針對五項原則中的每一項均解釋了原則的重要性、原則所指引的期望以及各級政府到各種規模的公司等多種組織為維護原則可以采取的具體的實施步驟、原則的實踐案例。2023 年 1 月,NIST 正式發布了人工智能風險管理框架(第一版)(AIRiskManagementFramework1.0,“AIRMF1.0”)30。AIRMF1.0 是一個自愿性框架,基于經濟合作與發展組織(OrganizationforEconomicCo-op-erationandDevelopment)的 AI 系統分
68、類框架,旨在為設計、開發、部署和使用 AI 系統提供指南,以增強人工智能的可信度、降低風險,并提供關于如何在整個人工智能生命周期(包括 AI 的應用背景和數據輸入階段(AI 設計)、AI模型構建階段(AI 開發)、AI 任務執行和輸出階段(AI 部署)、AI 操作和監控階段(AI 監控)中管理風險的建議。2023 年 4 月,美國參眾兩院共同發布了確保人工智能安全、可靠、道德和穩定系統法(草案)(AssuringSafe,Secure,andEthicalSystemsforAIAct,“ASSESSAIAct”)(Draft)31。該法案將設立一個人工智能工作組,以評估聯邦政府在 AI 政策
69、和使用方面的現有政策、監管現狀、法律空白,并提出具體建議。具體而言,該人工智能工作組的成員將包括美國司法部長、NIST 和OSTP 的負責人,以及來自工業界、學術界和非營利組織的代表。該人工智能工作組將針對保護隱私、公民自由和公民權利的政策,面部識別和生物特征識別的聯邦標準,AI 審計和風險評估的要求等內容提出建議,并且將在成立后的18 個月內向國會和總統提交最終報告。2023 年 6 月,美國參眾兩院共同發布了國家人工智能委員會法(草案)(NationalAICommissionAct)(Draft)32。該法案將設立一個由來自不同領域29https:/www.whitehouse.gov/
70、wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf,最后訪問于 2023年 11 月 22 日。30https:/nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf,最后訪問于 2023 年 11 月 22 日。31https:/www.congress.gov/bill/118th-congress/senate-bill/1356,最后訪問于 2023 年 11 月 22 日。32https:/www.congress.gov/bill/118th-congress/h
71、ouse-bill/4223,最后訪問于 2023 年 11 月 22 日。29大模型合規白皮書的 20 名專家組成的委員會,并指示該委員會制定 AI 立法框架,該法案目前正在國會審議中。該法案本身并不是 AI 的監管框架,而是尋求建立一個國家人工智能委員會,即一個位于立法部門的獨立機構,負責制定 AI 綜合監管提案。該委員會的職責在于確保美國實現與 AI 相關的三個主要目標,包括:減輕與 AI相關的風險和潛在危害、保護美國在 AI 研發領域的領先地位、建立 AI 保障機制,確保 AI 系統符合美國價值觀。2023 年 10 月,美國總統拜登簽署了關于安全、可靠和值得信賴的人工智能的行政命令(
72、ExecutiveOrderonSafe,Secure,andTrustworthyAr-tificialIntelligence)33,該命令主要圍繞 AI 發展的八項原則展開,并針對每項原則向特定政府機構及官員提出了詳細的要求。上述八項原則具體包括:(一)安全與保障原則,即應采取措施保證 AI 是安全且可靠的。為達成此目的,NIST 應與商務部合作:(1)制定指導方針,以提供確保 AI 安全可靠的指南、標準及最佳實踐;以及(2)收集美國境內的,或美國企業擬收購的擁有或具備可能開發大規模算力的潛力的公司相關數據,確保 AI 的安全可靠性,包括:(a)管理關鍵基礎設施和網絡安全中的 AI;(b
73、)降低 AI 與化學、生物、放射和核威脅交叉的風險;(c)減少 AI 合成內容帶來的風險,促進識別和標記由 AI 系統產生的合成內容的能力,并確定由聯邦政府或其代表生產的合成和非合成數字內容的真實性和來源;(d)促進 AI 培訓聯邦數據的安全發布和防止惡意使用;(e)指導形成國家安全備忘錄。國家安全事務總統助理和總統助理兼政策副幕僚長應監督機構間流程,并向總統提交一份擬議的 AI 國家安全備忘錄。該備忘錄應涉及作為國家安全系統組成部分的、或用于軍事和情報目的的 AI 的治理。備忘錄應概述國防部、國務院、其他相關機構和情報系統應對 AI 帶來的國家安全風險(例如內部人員風險和外部攻擊風險)和潛在
74、利益的行動。(二)促進創新及競爭原則。美國應促進 AI,特別是半導體行業的的創新、競爭和合作,并保護 AI 知識產權,制止對關鍵資產和技術的非法串通和壟斷。具體措施包括:(a)NSF 應:(i)協調啟動實施國家 AI 研究資源的試點項目;(ii)33https:/www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/,最后訪問
75、于 2023 年 11 月 22 日。30大模型合規白皮書資助并啟動 NSF 區域創新引擎,優先考慮 AI 相關工作,如 AI 相關研究、社會或勞動力需求;(iii)在目前資助的 25 個國家 AI 研究機構的基礎上,建立至少4 個新的機構;(b)能源部長應與 NSF 主任協調,建立一項試點計劃,以加強現有的科學家培訓計劃,目標是到 2025 年培訓 500 名新的研究人員;(c)國家專利商標局應澄清與 AI 和可專利主體的發明人有關的問題;(d)國土安全部長應領銜制定培訓、分析和評估計劃,以減輕 AI 相關 IP 風險,包括收集和分析與 AI 相關的 IP 盜竊報告,調查此類影響國家安全的事
76、件,并采取執法行動;(e)為推動廣泛的醫療保健技術開發人員進行負責任的 AI 創新,以促進醫療保健部門患者和工作人員的福利,衛生與公共服務部部長應支持 AI 開發和使用,包括通過衛生與公共服務部的項目與適當的私營部門合作,支持 AI 工具的發展,為患者開發個性化的免疫反應檔案、加速通過美國國立衛生研究院 AI/機器學習聯盟促進健康公平和研究人員多樣性(AIM-AHEAD)計劃授予的撥款等。為促進競爭,該命令還授權包括聯邦貿易委員會在內的所有聯邦機構,利用其權力促進 AI 和相關技術的競爭,包括采取措施制止非法勾結,防止占主導地位的公司的不正當競爭,并努力為小企業和企業家提供包括資金及貸款計劃、
77、專業設備、知識產權援助等。(三)保護勞動者權益,改善勞動環境原則。具體措施包括:(a)為增進政府對 AI 對工人的影響的理解,(i)經濟顧問委員會主席應編寫并向總統提交一份關于 AI 對勞動力市場影響的報告;(ii)勞工部長應向總統提交一份報告,分析各機構針對因采用 AI 等技術進步而被取代的工人所能夠采取相應措施的能力,包括聯邦援助項目,加強 AI 教育與職業培訓等;(b)為幫助確保在工作場所部署的 AI 能夠促進員工的福祉,勞工部長應為雇主制定并公布可用于減輕 AI對員工福祉的潛在危害并最大化其潛在利益的原則和最佳實踐;(c)為培養多樣化的 AI 勞動力,NSF 主任應優先考慮通過現有計劃
78、支持 AI 相關教育和 AI 相關勞動力發展,包括設立獎學金等。(四)促進公平及人權原則。具體措施包括:(a)加強刑事司法系統中的 AI和公民權利;(b)保護與政府福利和項目有關的公民權利;(c)在宏觀的市場經31大模型合規白皮書濟中加強 AI 和公民權利,包括防止在招聘中使用 AI 造成的非法歧視,解決住房市場和消費者金融市場中對弱勢群體的歧視,打擊用于決定住房和其他房地產相關交易的自動化或算法工具(例如租戶篩選系統)所包含的非法歧視,以及幫助確保殘疾人從 AI 中受益,同時保護其免受風險。(五)消費者權益保護原則。具體措施包括:(a)鼓勵獨立監管機構保護美國消費者免受欺詐、歧視和隱私威脅,
79、并解決使用 AI 可能產生的其他風險,包括金融穩定風險,并考慮出臺現有法規適用于 AI 的解釋和指導,包括澄清受監管實體對其使用的任何第三方 AI 服務進行調查和監控的責任以及需履行的透明度義務;(b)衛生與公共服務部部長應幫助確保 AI 在醫療保健、公共衛生和人類服務部門安全使用;(c)交通部長應與相關機構協商,促進 AI 在交通運輸部門的安全使用;(d)為幫助確保 AI 在教育部門的負責任開發和部署,教育部長應制定有關 AI 資源分配的指導。這些資源應解決 AI 在教育中的安全、負責和非歧視使用問題,包括 AI 系統對弱勢和服務不足社區的影響;(e)鼓勵聯邦通信委員會考慮將 AI 用于改善
80、通信網絡,包括用于改善頻譜管理、促進聯邦與非聯邦頻譜運營商之間共享頻譜、為使用包含 AI 的下一代技術(包括6G 和 OpenRAN)提高網絡安全性、彈性和互操作性提供支持、阻止騷擾信息等。(六)隱私及公民自由保護原則。在開發和運營 AI 的過程中,必須確保數據的收集、使用和保留是合法、安全的,并能保護隱私。具體措施包括:(a)行政管理和預算局局長應:(i)評估并采取措施識別各機構采購的商業可用信息(“CAI”),特別是包含個人身份信息的 CAI;并且(ii)與聯邦隱私委員會和機構間統計政策委員會協商,評估與包含個人身份信息的CAI的收集、處理、維護、使用、共享、傳播有關的機構標準和程序,以便
81、為各機構提供指導,說明如何減輕各機構與CAI有關的活動所帶來的隱私風險;(b)NIST 應為各機構制定指導方針,以評估包括 AI 在內的差分隱私保證(differential-privacy-guarantee,一種用來防范差分隱私攻擊的隱私保護方法)保護措施的有效性;(c)促進與隱私增強技術(Privacy-enhancingTechnologies,PETs)有關的研究、開發和實施。32大模型合規白皮書(七)聯邦政府 AI 風險管控原則。聯邦政府應當管控使用 AI 的風險,并提高其內部監管、管理和支持負責任地使用 AI 的能力。(八)確保聯邦政府 AI 領導地位原則。美國應引領 AI 在全
82、球的社會、經濟和技術進步,包括與國際合作伙伴合作制定 AI 風險管理框架,并共同應對挑戰。該命令還要求商務部長和國務卿就全球技術標準與主要國際伙伴合作,并提交一份關于全球參與計劃的報告。(b)數據及算法技術合規2022 年 2 月,美國眾議院發布了2022 年算法問責法案(草案)(Algo-rithmicAccountabilityActof2022)(Draft)34,要求使用自動化決策系統做出關鍵決策的企業研究并報告這些系統對消費者的影響,其內容包括是否會因為消費者的種族、性別、年齡等生成對消費者有偏見或歧視性的自動決策等。該法案形成了“評估報告評估簡報公開信息”三層信息披露機制。此外,聯
83、邦貿易委員會還將建立可公開訪問的信息存儲庫,公開發布關于自動化決策系統的有限信息。2022 年 6 月,美國參眾兩院共同發布了美國數據隱私和保護法案(草案)(theAmericanDataPrivacyandProtectionAct,“ADPPA”)(Draft)35。ADPPA 規定,使用“覆蓋算法”的大數據持有人,如果對個人或群體構成相應傷害風險,并單獨或部分使用“覆蓋算法”來收集、處理或傳輸覆蓋數據,則應當根據 ADPPA 規定的評估標準進行隱私影響評估。ADPPA 將“覆蓋算法”定義為:“使用機器學習、自然語言處理、人工智能技術或其他類似或更復雜的計算處理技術,并就涵蓋數據做出決策或
84、促進人類決策的計算過程”。人工智能大模型為深度學習模型,需要大規模的數據集,這些數據集很可能涵蓋個人信息、數據與隱私。因此,可能構成使用“覆蓋算法”,進而需要根據 ADPPA 規定的評估標準進行隱私影響評估。另外,ADPPA 還對隱私政策的告知與退出機制、反偏見等內容做出了規定。ADPPA 規定,企業或代表企業的服務提供商需要告知個人有“選擇退出”的選擇,即拒絕企業對其個人數據的收集、處理或傳輸。34https:/www.congress.gov/bill/117th-congress/senate-bill/3572,最后訪問于 2023 年 11 月 22 日。35https:/www.c
85、ongress.gov/bill/117th-congress/house-bill/8152,最后訪問于 2023 年 11 月 22 日。33大模型合規白皮書2023 年 2 月,拜登總統簽署了關于通過聯邦政府進一步促進種族平等和支持服務不足社區的行政命令(ExecutiveOrderonFurtherAdvancingRacialEq-uityandSupportforUnderservedCommunitiesThroughTheFederalGovern-ment)36,規定人工智能大模型應避免由于大量輸入訓練數據中存在的對種族、性別、年齡、文化和殘疾等的偏見而導致訓練結果輸出內容中
86、存在偏見。聯邦政府在設計、開發、獲取和使用人工智能和自動化系統時,各機構應在符合適用法律的前提下,防止、糾正歧視和促進公平,包括保護公眾免受算法歧視。(c)知識產權保護在 2020 年 4 月,美 國 專 利 商 標 局(UnitedStatesPatentandTrade-markOffice)判定,只有自然人才可以在專利申請中被指定為發明人,而生成式 AI 系統不可以37。2023 年 3 月,美國版權局(UnitedStatesCopyrightOffice)發布了版權登記指南:包含人工智能生成材料的作品(CopyrightRegistrationGuid-ance:WorksConta
87、iningMaterialGeneratedbyArtificialIntelligence)38。該指南明確,相關法律中使用的“作者”一詞不包括非人類;人工智能生成的內容應該明確地被排除在版權登記之外。版權局強調,人類在多大程度上創造性地控制了作品的表達,并“實際形成”了作者身份是判斷是否可以作為版權作品作者的關鍵因素。(d)生成內容合規2019 年 6 月,美國眾議院發布了深度偽造責任法案(草案)(DefendingEachandEveryPersonfromFalseAppearancesbyKeepingExploitationSubjecttoAccountabilityActof2
88、019,“DEEPFAKESAccountability36https:/www.whitehouse.gov/briefing-room/presidential-actions/2023/02/16/executive-order-on-further-advancing-racial-equity-and-support-for-underserved-communities-through-the-federal-government/,最后訪問于 2023 年 11月 22 日。37https:/ 2023 年 11 月22 日。38www.federalregister.gov/d
89、ocuments/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence,最后訪問于 2023 年 11 月 22 日。34大模型合規白皮書Act”)(Draft)39,其中規定,“深度偽造”一詞系指任何錄像、電影、錄音、電子圖像或照片,或者言論或行為的實質上衍生的任何技術表達,該等表達看似真實地描述了一個人的任何言論或行為,而該人事實上并未從事該等言論或行為,以及其制作實質上依賴于技術手段,而非他人在身體上或言語上模
90、仿該人的能力;任何深度偽造制作者必須對其深度偽造記錄有顯著的披露,任何包含移動的視覺元素的深度偽造記錄應當嵌入數字水印,以清楚地識別該記錄是否包含改變的音頻或視覺元素。2020 年 11 月,美國眾議院頒布了識別生成對抗網絡法案(IdentifyingOutputsofGenerativeAdversarialNetworksAct,“IOGANAct”)40,指示 NSF 和 NIST 支持對深度偽造的研究。該法案要求 NSF 支持對操縱或合成內容和信息真實性的研究,支持必要的測量和標準開發研究,以加速技術的開發,檢查生成對抗網絡的功能和輸出或其他合成或操縱內容的技術。(2)相關案例2023
91、 年 1 月 13 日,美國三名藝術家 SarahAndersen、KellyMcKernan和 KarlaOrtiz 代表其他集體訴訟成員對 StabilityAILtd.、StabilityAIInc.、Midjourney,Inc.、DeviantArt,Inc.四名被告發起集體訴訟,指控四位被告所使用的生成式 AI 圖片產品在未經用戶同意下擅自爬取了數百萬乃至數十億張受著作權保護的圖像的未經授權的副本用于訓練模型和生成 AI 圖片,其所生成的內容亦并未包含原告的著作權信息,進而侵犯了原告的版權。該案件中,爭議焦點主要在于:(1)生成式人工智能生成的內容是否侵犯了原告的版權;(2)被告未
92、經原告許可而刪除和修改其作品的著作權管理信息是否侵犯原告版權。2023 年7 月,在美國加利福尼亞州北區地方法院舉行的關于被告駁回動議的聽證會上,法院表達了對原告的核心責任論述的嚴重懷疑,認為原告未能提出可靠的依據來證明生成式人工智能生成的內容與原告創作的作品間存在實質的相似或者侵權情39https:/www.congress.gov/bill/116th-congress/house-bill/3230,最后訪問于 2023 年 11 月 22 日。40https:/www.congress.gov/bill/116th-congress/senate-bill/2904,最后訪問于 202
93、3 年 11 月 22 日。35大模型合規白皮書況。41某種程度上,這一案例揭示了大模型輸出的一個典型的知識產權難題:輸出結果階段,著作權人想要證明其著作權作品數據與生成式人工智能生成作品之間存在因果關系的難度較大,只有在著作人確定人工智能生成作品與其爬取的著作人著作權作品數據之間相關聯后,才可以確定有哪些作品的著作權被侵犯,進而維護自身權益。3.英國(1)立法現狀與美國類似,英國部分現存的不同類型的法律法規已經涵蓋了對人工智能的規定,其中部分重點法律法規如下:(a)生成內容合規2023 年 10 月,英國議會頒布了在線安全法案(OnlineSafetyAct2023)42。在線安全法案規定了
94、一系列與互聯網信息內容相關的安全規定,賦予英國議會權力來批準哪些信息屬于“合法但有害”的內容,要求在線平臺立即采取措施。該法案要求社交媒體平臺、搜索引擎以及其他允許用戶發布內容的應用程序和網站,承擔保護兒童、打擊非法活動,并維護其已聲明的條款與條件的責任。(b)數據合規數據保護法 2018(DataProtectionAct2018)43是主要的英國數據保護法律之一。英國脫歐后,英國政府將 GDPR 和相關監管要求轉化為英國的數據保護監管體系,即所謂的“英國 GDPR”雖然有部分調整,但其有關數據控制者和處理者的權利和義務與歐盟 GDPR 基本相同。2022 年 7 月,數據41SarahAn
95、derson,etal.v.StabilityAILTD.,etal.(2023/01/13),Casedetails:https:/ 后 訪 問 于 2023 年 11 月 22 日;https:/ 2023 年 11 月 22 日;https:/ 年 11 月 22 日。42https:/www.legislation.gov.uk/ukpga/2023/50/enacted,最后訪問于 2023 年 11 月 22 日。43https:/www.legislation.gov.uk/ukpga/2018/12/enacted,最后訪問于 2023 年 11 月 22 日。36大模型合規白
96、皮書保護和數字信息法案(DataProtectionandDigitalInformationBill)44首次被提交至英國議會討論,后經撤回修改,于 2023 年 5 月形成數據保護和數字信息法案(2 號)(DataProtectionandDigitalInformation(No.2)Bill)45并再次提交至英國議會討論,目前處于三讀前的報告階段。其中,針對自動化決策所涉及的個人數據,法案規定完整或部分基于特殊類別的個人數據的重大決策不得僅僅基于自動化決策做出,除非符合以下條件之一:(1)該決策完全基于數據主體明確同意的個人數據處理;(2)該決策是為訂立或履行數據主體與控制者之間的合同
97、所必需的,或法律要求或授權的。該法案同時也規定了自動化決策的保障措施,需由以下措施組成:(1)向數據主體提供就數據主體作出的決策的信息;(2)使數據主體能夠就該等決策作出陳述;(3)使數據主體能夠就此類決策獲得控制者的人為干預;(4)使數據主體能夠對該等決策提出異議。法案還規定了數據最小化原則、個人數據的訪問和控制權、風險評估及合規檢查等條款,以幫助企業更好地履行合規義務。(c)知識產權保護2022 年 6 月,英 國 知 識 產 權 局(UKIntellectualPropertyOffice,“UKIPO”)公布了文本與數據挖掘版權例外改革提案(ArtificialIntel-ligenc
98、eandIntellectualProperty:copyrightandpatents:Governmentresponsetoconsultation)46。對于文本和數據挖掘,該提案計劃引入一個新的版權和數據庫例外,允許文本和數據挖掘用于任何目的,包括商業目的;版權所有者仍將擁有保護其內容的保障措施,包括要求合法訪問。該提案使得任何文本和數據挖掘都無需向權利人支付許可費。目前該提案仍在審核之中。(d)算法技術合規2021 年 5 月,英國中央數字與數據辦公室、人工智能辦公室與內閣辦公室聯合發布了自動決策系統的倫理、透明度與責任框架(Ethics,Transpar-44https:/bil
99、ls.parliament.uk/bills/3322,最后訪問于 2023 年 11 月 22 日。45https:/bills.parliament.uk/bills/3430,最后訪問于 2023 年 11 月 22 日。46https:/www.gov.uk/government/consultations/artificial-intelligence-and-ip-copyright-and-patents/outcome/artificial-intelligence-and-intellectual-property-copyright-and-patents-governme
100、nt-response-to-consultation,最后訪問于 2023 年 11 月 22 日。37大模型合規白皮書encyandAccountabilityFrameworkforAutomatedDecision-Making,“ETAF”)47。ETAF 強調,算法和自動化決策在上線之前應該進行嚴格的、受控的和分階段的測試。在整個原型和測試過程中,需要人類的專業知識和監督來確保技術上的彈性和安全,以及準確和可靠的系統。測試時,需要考慮自動化決策系統的準確性、安全性、可靠性、公平性和可解釋性。ETAF 規定,企業必須對算法或自動決策系統做一個平等影響評估,使用高質量和多樣化的數據集,
101、發現和抵制所使用數據中明顯的偏見和歧視。ETAF 指出,算法或計算機系統應該被設計為完全可以負責和可被審計的,算法和自動化的責任和問責制度應該明確。(2)相關案例目前英國的司法實踐中,對于專利的發明人是否只能為自然人存在激烈的討論。2018 年 10 月 17 日和 2018 年 11 月 7 日,StephenThaler 先后分別向 UKIPO 提出兩項發明專利申請,并將其創造并擁有的人工智能機器“DABUS”作為專利申請中的發明人,理由是兩項發明均由“DABUS”在沒有傳統人類發明人幫助下創造完成。2019 年 12 月,UKIPO 駁回以“DABUS”作為發明人的專利申請,理由是“DA
102、BUS”為非自然人,不屬于專利法中規定的發明人。StephenThaler 不服該決定,并接連上訴到英國最高法院。英國最高法院于2023 年 3 月 2 日開始審理本案,目前案件還在審理中。48該案的爭議焦點在于,英國 1977 專利法案第 13(2)(a)條是否要求專利申請中的發明人只能為自然人,包括申請人認為發明是由人工智能在沒有傳統人類發明人幫助下創造的情況;是否可以在沒有指定人類發明人的情況下授予專利權;如果是人工智能創造的發明,那么該人工智能的所有者、創造者和使用者是否可以被授予專利權。該案的判決將為“AI 能否被認定為發明人”這一難題在英國的解決提供指引,同樣對 AI 大模型領域的
103、研究與發展至關重要。47https:/www.gov.uk/government/publications/ethics-transparency-and-accountability-framework-for-automated-decision-making/ethics-transparency-and-accountability-framework-for-automated-decision-making,最后訪問于2023 年 11 月 22 日。482021/0201:Thaler(Appellant)vComptroller-GeneralofPatents,Designs
104、andTrademarks(Respondent),Casedetails:https:/www.supremecourt.uk/cases/uksc-2021-0201.html,最后訪問于 2023 年 11 月 22 日;EnglandandWalesCourtofAppeal(CivilDivision)Decisions:ThalervComptrollerGeneralofPatentsTradeMarksAndDesigns2021EWCACiv1374(21September2021),Casedetails:https:/www.bailii.org/ew/cases/EWC
105、A/Civ/2021/1374.html,最后訪問于 2023 年 11 月 22 日。38大模型合規白皮書(二)我國對于大模型的監管現狀1.立法現狀我國對大模型的監管主要是圍繞網絡安全、數據安全、個人信息展開,相關法律法規也以中華人民共和國網絡安全法、中華人民共和國數據安全法和中華人民共和國個人信息保護法為主,同時,中華人民共和國科學技術進步法、互聯網信息服務管理辦法等法律法規亦針對互聯網信息服務層面的合規制定了相關規范。隨著產業的發展,我國的監管法律體系從該等方面不斷深化拓展至算法服務、深度合成服務等與大模型密切相關的領域,互聯網信息服務算法推薦管理規定、互聯網信息服務深度合成管理規定等規
106、定陸續出臺。2023 年 8 月 15 日,我國針對生成式人工智能服務領域制定的首部法律法規生成式人工智能服務管理暫行辦法(“AIGC 暫行辦法”)生效,這是我國在人工智能監管領域不斷探索完善的重要成果,明確了提供和使用生成式人工智能服務的總體要求,并對生成式人工智能服務提出了分類分級的監管要求,一定程度上標志著我國生成式人工智能服務領域進入強監管和高合規標準的新階段。與此同時,人臉識別技術應用安全管理規定(試行)(征求意見稿)49等與大模型領域密切相關的法律法規和相關規定正在制定過程中。在大模型的浪潮下,各機構、行業也積極響應,陸續發布了一系列大模型開發、運營相關的行業規范,如中國信息通信研
107、究院(“中國信通院”)聯合產學研各界制定的可信大模型標準體系 2.0、同濟大學上海市人工智能社會治理協同創新中心研究團隊編制的人工智能大模型倫理規范操作指引、華東師范大學和上海人工智能實驗室聯合兩院院士、高校校長、知名專家學者共同制定發布的教育通用人工智能大模型系列標準等等。值得關注的是,人工智能法已列入國務院 2023 年立法工作計劃,人工智能法(草案)預備提請全國人大常委會審議??梢哉f,我國正在推動全國層面的人工智能專門立法。不過,根據流程,人工智能法(草案)將由49于 2023 年 8 月 8 日發布征求意見稿,但暫未生效。39大模型合規白皮書國務院相關部門起草,然后經國務院常務會議審議
108、并通過,繼而才提請立法機關審議、表決,具體所需時間目前難以預計。目前,我國和大模型相關的、已經生效的主要法律法規和相關規定,以及部分相對較有影響力的行業規范如下:(1)法律法規和相關規定名稱頒發部門生效時間中華人民共和國網絡安全法全國人民代表大會常務委員會2017.06.01中華人民共和國數據安全法全國人民代表大會常務委員會2021.09.01中華人民共和國個人信息保護法全國人民代表大會常務委員會2021.11.01中華人民共和國科學技術進步法全國人民代表大會常務委員會2022.01.01互聯網信息服務管理辦法國務院2000.09.25具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定國家
109、互聯網信息辦公室,公安部2018.11.30網絡信息內容生態治理規定國家互聯網信息辦公室2020.03.01關于加強互聯網信息服務算法綜合治理的指導意見國家互聯網信息辦公室,中央宣傳部,教育部,科學技術部,工業和信息化部,公安部,文化和旅游部,國家市場監督管理總局,國家廣播電視總局2021.09.17互聯網信息服務算法推薦管理規定國家互聯網信息辦公室,工業和信息化部,公安部,國家市場監督管理總局2022.03.0140大模型合規白皮書名稱頒發部門生效時間關于支持建設新一代人工智能示范應用場景的通知科學技術部2022.08.12互聯網信息服務深度合成管理規定國家互聯網信息辦公室,工業和信息化部,
110、公安部2023.01.10生成式人工智能服務管理暫行辦法國家互聯網信息辦公室,國家發展和改革委員會,教育部,科學技術部,工業和信息化部,公安部,國家廣播電視總局2023.08.15科技倫理審查辦法(試行)科學技術部,教育部,工業和信息化部,農業農村部,國家衛生健康委員會,中國科學院,中國工程院,中國科學技術協會,中國社會科學院,中央軍委科學技術委員會2023.12.01新一代人工智能發展規劃國務院2017.07.20關于調整發布 的公告商務部,科學技術部2020.08.28網絡安全標準實踐指南人工智能倫理安全風險防范指引全國信息安全標準化技術委員會2021.01.05關于加強科技倫理治理的意見
111、中共中央辦公廳,國務院辦公廳2022.03.20網絡安全標準實踐指南生成式人工智能服務內容標識方法全國信息安全標準化技術委員會2023.08.2541大模型合規白皮書(2)相關行業規范名稱編制機構發布時間新一代人工智能治理原則發展負責任的人工智能國家新一代人工智能治理專業委員會2019.06新一代人工智能倫理規范國家新一代人工智能治理專業委員會2021.09可信大模型標準體系 2.0中國信息通信研究院等2023.03人工智能倫理治理標準化指南國家人工智能標準化總體組等2023.03人工智能大模型倫理規范操作指引同濟大學等2023.07教育通用人工智能大模型系列標準華東師范大學等2023.07教
112、育通用人工智能大模型標準體系研究報告可信 AI 技術和應用進展白皮書(2023)中國信通院等2023.07“弈衡”通用大模型評測體系白皮書中國移動研究院等2023.07人工智能法示范法 1.0(專家建議稿)中國社會科學院法學研究所等2023.08面向行業的大規模預訓練模型技術和應用評估方法金融大模型中國信息通信研究院等制定中面向行業的大規模預訓練模型技術和應用評估方法汽車大模型中國信息通信研究院等制定中下文將對該等大模型領域的已經生效的主要法律法規和相關規定以及部分相對較有影響力的行業規范進行簡單介紹。42大模型合規白皮書(1)主要法律法規(a)具有輿論屬性或社會動員能力的互聯網信息服務安全評
113、估規定2018 年 11 月 15 日,國家互聯網信息辦公室聯合公安部發布具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定(“安全評估規定”),該規定于 2018 年 11 月 30 日起正式施行。安全評估規定根據中華人民共和國網絡安全法、互聯網信息服務管理辦法、計算機信息網絡國際聯網安全保護管理辦法等有關法律、行政法規制定,明確了國家將加強對具有輿論屬性或社會動員能力的互聯網信息服務和相關新技術新應用的安全管理,規范互聯網信息服務活動。根據安全評估規定,下述類型的互聯網信息服務提供者需按安全評估規定自行進行安全評估:(i)開辦論壇、博客、微博客、聊天室、通訊群組、公眾賬號、短視頻、網絡
114、直播、信息分享、小程序等信息服務或者附設相應功能;(ii)開辦提供公眾輿論表達渠道或者具有發動社會公眾從事特定活動能力的其他互聯網信息服務。在此基礎上,安全評估規定規定了互聯網信息服務提供者應自行進行安全評估的具體情形。除進行自行安全評估的義務以外,安全評估規定還要求前述互聯網信息服務提供者應履行消除安全隱患、形成安全評估報告、提交安全評估報告等各項義務。(b)互聯網信息服務算法推薦管理規定2021 年 12 月 31 日,國家互聯網信息辦公室、中華人民共和國工業和信息化部、中華人民共和國公安部和國家市場監督管理總局聯合發布互聯網信息服務算法推薦管理規定(“算法推薦管理規定”),該規定于 20
115、22 年 3月 1 日起施行。算法推薦管理規定的適用范圍是在中華人民共和國境內應用算法推薦技術提供互聯網信息服務的情形。算法推薦管理規定確立了算法分級分類安全管理的制度設計。其中分級分類關注的維度包括算法推薦服務的輿論屬性或者社會動員能力、內容類別、用戶規模、算法推薦技術處理的數據重要程度、對用戶行為的干預程度等。此外,算法推薦管理規定要求算法推薦服務提供者建立健全相關制度,例如算法推薦服務提供者應建立健全算法機制機理審核、科技倫理審查、用戶注冊、信息發布審核、數據安全和個人43大模型合規白皮書信息保護、反電信網絡詐騙、安全評估監測、安全事件應急處置等管理制度和技術措施。同時,算法推薦服務提供
116、者應承擔算法合規義務以及用戶權益保護責任,保護用戶的知情權和選擇權。(c)互聯網信息服務深度合成管理規定2022 年 11 月 25 日,國家互聯網信息辦公室、工業和信息化部、公安部聯合發布互聯網信息服務深度合成管理規定(“深度合成管理規定”),該規定于 2023 年 1 月 10 日起施行。深度合成管理規定是我國第一部針對深度合成服務治理的專門性部門規章,主要針對應用生成合成類算法的互聯網信息服務進行了規范,明確了生成合成類算法治理的對象和基本原則,強化了深度合成服務提供者和技術支持者的主體責任,并鼓勵相關行業組織通過加強行業自律推動生成合成類算法的合規發展。深度合成管理規定適用于在中華人民
117、共和國境內應用深度合成技術提供互聯網信息服務的情形,深度合成服務提供者和技術支持者是主要的責任主體,二者均有義務進行算法備案,且均負有遵守數據和技術管理規范、加強訓練數據管理、依法告知生物識別信息被編輯的個人、加強深度合成相關技術管理、依法開展安全評估等義務。此外,深度合成服務提供者還需承擔信息安全主體責任和內容標識義務等,落實安全可控的技術保障措施,并制定和公開管理規則。(d)生成式人工智能服務管理暫行辦法2023 年 7 月 10 日,國家網信辦、國家發展改革委、教育部、科技部、工業和信息化部、公安部和廣電總局聯合發布生成式人工智能服務管理暫行辦法,該辦法于 2023 年 8 月 15 日
118、起生效。根據AIGC 暫行辦法規定,任何利用生成式人工智能技術為中國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務都適用該辦法。這意味著,境內外人工智能生成內容(ArtificialIntelligenceGeneratedContent,“AIGC”)服務提供者,無論其提供的服務是在模型層還是在應用層,亦無論是直接提供服務或通過 API 接口或其他方式間接提供服務,倘若其提供服務的對象是中國境內公眾,都應當遵守AIGC暫行辦法。在監管機制與合規要求方面,AIGC 暫行辦法對生成式人工智44大模型合規白皮書能服務采取了包容審慎和分類分級的監管原則,要求生成式人工智能服務提供者在內容管理、訓
119、練數據、用戶權益、安全評估等多個層面承擔相應的責任。(e)網絡安全標準實踐指南人工智能倫理安全風險防范指引2021 年 1 月,全國信息安全標準化技術委員會發布網絡安全標準實踐指南人工智能倫理安全風險防范指引,將 AI 倫理安全風險總結為以下五大方面:(1)失控性風險:AI 的行為與影響超出服務提供者預設、理解和可控的范圍,對社會價值等產生負面影響;(2)社會性風險:不合理使用 AI 而對社會價值等方面產生負面影響;(3)侵權性風險:AI 對人的基本權利,包括人身、隱私、財產等造成侵害或產生負面影響;(4)歧視性風險:AI 對人類特定群體具有主觀或客觀偏見,影響公平公正、造成權利侵害或負面影響
120、;(5)責任性風險:AI相關各方行為失當、責任界定不清,對社會信任、社會價值等方面產生負面影響。(f)關于加強科技倫理治理的意見2022 年 3 月,中共中央辦公廳、國務院辦公廳印發關于加強科技倫理治理的意見,提出“科技倫理是開展科學研究、技術開發等科技活動需要遵循的價值理念和行為規范,是促進科技事業健康發展的重要保障”,并明確了以下五大類科技倫理原則:增進人類福祉、尊重生命權利、堅持公平公正、合理控制風險和保持公開透明。(g)科技倫理審查辦法(試行)2023 年 10 月 8 日,科學技術部、教育部、工業和信息化部等多部門聯合發布科技倫理審查辦法(試行)(“科技倫理審查辦法”),該辦法對于幾
121、乎所有科技活動所涉及的科技倫理審查和監管做出了明確的規定,并將于 2023 年12 月 1 日起正式實施。在審查主體方面,科技倫理審查辦法明確要求從事生命科學、醫學、人工智能等科技活動的單位,研究內容涉及科技倫理敏感領域的,應設立科技倫理(審查)委員會,其他有倫理審查需求的單位可根據實際情況設立科技倫理(審查)委員會。在審查程序方面,科技倫理審查辦法將審45大模型合規白皮書查程序依據科技活動倫理風險發生的可能性和嚴重、緊急程度劃分為一般、簡易和應急三類。在審查內容及標準方面,科技倫理審查辦法針對所有科技活動規定了審查的重點內容和標準,以及針對涉及人類研究參與者以及數據和算法的科技活動就審查的重
122、點內容和標準進行特殊規定。例如,就涉及數據和算法的科技活動而言,一方面,要求數據的收集、存儲、加工、使用等處理活動以及研究開發數據新技術等符合國家數據安全和個人信息保護等有關規定,數據安全風險監測及應急處理方案得當;另一方面,要求算法、模型和系統的設計、實現、應用等遵守公平、公正、透明、可靠、可控等原則,符合國家有關要求,倫理風險評估審核和應急處置方案合理,用戶權益保護措施全面得當。(2)主要行業規范(a)新一代人工智能倫理規范2021 年 9 月,我國國家新一代人工智能治理專業委員會發布新一代人工智能倫理規范,旨在將倫理道德融入人工智能全生命周期,促進公平、公正、和諧、安全,避免偏見、歧視、
123、隱私和信息泄露等問題。新一代人工智能倫理規范的適用主體為從事人工智能管理、研發、供應、使用等相關活動的自然人、法人和其他相關機構。在此基礎上,新一代人工智能倫理規范明確了人工智能的基本倫理規范,包括增進人類福祉、促進公平公正、保護隱私安全、確??煽乜尚?、強化責任擔當、提升倫理素養。同時,新一代人工智能倫理規范提出了一系列人工智能應用管理規范、研發規范、供應規范和使用規范。(b)可信大模型標準體系 2.050為進一步促進我國大模型產業發展,中國信通院聯合產學研各方于 2022 年2 月起制定可信大模型標準體系,并于 2023 年 3 月正式發布可信大模型標準體系 2.0??尚糯竽P蜆藴鼠w系 2.
124、0以 ModelasaService(“MaaS”)服務結果為核心,從模型開發、模型能力、模型運營、模型應用、安全可信共50原文文本尚未公開,相關介紹參見微信文章一文讀懂可信 AI 大模型標準體系,鏈接:https:/ 2023 年 11 月 22 日。46大模型合規白皮書五個方向構建大模型標準體系,以有效助力相關主體快速構建能力全面、應用廣泛、運營便捷、安全可信的基礎大模型。(c)人工智能大模型倫理規范操作指引2023 年 7 月,由同濟大學上海市人工智能社會治理協同創新中心研究團隊編制的人工智能大模型倫理規范操作指引正式對外發布。人工智能大模型倫理規范操作指引旨在結合中國的具體情況和國際通
125、用的倫理準則,參考借鑒國家新一代人工智能治理專業委員會頒布的新一代人工智能倫理規范和聯合國頒布的人工智能與數據倫理原則、人工智能倫理建議書,為中國 AI 企業提供了大模型倫理規范操作指引。人工智能大模型倫理規范操作指引主要包括 AI 大模型全生命周期的技術與倫理要素、大模型的研發與應用的倫理原則、大模型技術研發的倫理實踐指南三部分內容,提出了尊重人的自主權、保護個人隱私、保障公平公正、提高透明度和可解釋性、負責任的創新等五項大模型倫理原則,以及公平性、透明性、隱私、安全性、責任、人類的監督與控制、可持續性等七項大模型倫理實踐操作建議。(d)人工智能法示范法 1.0(專家建議稿)2023 年上半
126、年以來,中國社會科學院國情調研重大項目我國人工智能倫理審查和監管制度建設狀況調研課題組主持人、中國社會科學院法學研究所網絡與信息法研究室副主任周輝組織多方專家團隊,經多次調研、討論、修改,起草形成 人工智能法示范法1.0(專家建議稿)(“人工智能示范法建議稿”)。人工智能示范法建議稿共分為六章:第一章(總則)闡明人工智能發展的基本原則,包括治理原則、人類自主原則、安全原則、透明可解釋、公平原則等;第二章(人工智能發展)從基礎設施、人才培養、技術創新、體制機制支持等維度提出相應制度規范,結合產業發展實際,采取有力措施鼓勵人工智能創新,并強調以國家機關的先行先試促進人工智能的推廣應用;第三章(人工
127、智能管理制度)沿用近年來實踐證明較為可行的風險分類分級管理方式,對人工智能技術研發和提供活動作出規定;第四章(人工智能研發者、提供者義務)47大模型合規白皮書明確人工智能研發者、提供者應承擔相應合規義務,同時,對人工智能研發者、提供者進行了區分,依據其不同活動特點分配主體義務,結合本法前述條款設定的負面清單管理制度,針對負面清單內的人工智能研發、提供活動進一步規定了相應的義務類型;第五章(綜合治理機制)銜接第一章(總則)規定,明確國家人工智能主管機關職責,提出創新監管、協同監管等機制;第六章(法律責任)根據人工智能的風險活動,設計相應的法律責任,并明確盡職免責等制度,為人工智能創新活動提供寬松
128、政策環境。人工智能示范法建議稿提出了負面清單管理等治理制度,并對人工智能產業鏈條各主體責任義務分配等核心問題進行了回應。在相應的法律法規尚未出臺之際,人工智能示范法建議稿在一定程度上對于人工智能產業鏈條中的研發者、提供者、使用者等主體履行相應風險防范、安全保障義務等提供了可供參考的執行標準。2.合規要素在大模型領域,合規義務主要責任主體為大模型服務提供者,即利用大模型技術提供服務的組織、個人。結合前述主要法律法規和相關規定、以及部分相對較有影響力的行業規范性文件,大模型服務提供者可以分為以下兩類:服務提供方服務提供方是指提供大模型相關服務的組織、個人。服務提供方通常會利用大模型相關服務開發面向
129、終端用戶的大模型應用場景,比如百度文心一言網站、抖音快手上面的一些AI特效功能等等。技術支持方技術支持方是指為大模型相關服務提供技術支持的組織、個人。技術支持方往往表現為大模型的設計者、開發者和完成者,掌握著大模型背后的核心算法和運行規則,負責處理數據訓練、生成內容標記、模型優化48大模型合規白皮書等技術性事項。技術支持方通常會結合服務提供方關于大模型終端運用的需求,以API等形式提供大模型服務所需的技術支持。在深度合成管理規定中,合規主體分為“深度合成服務提供者”和“深度合成服務技術支持者”,分別對應上述“服務提供方”和“技術支持方”;而 AIGC暫行辦法、算法推薦管理規定等法律法規和相關規
130、定均未對“生成式人工智能服務提供者”、“算法推薦服務提供者”基于上述角度進行進一步區分。盡管如此,該等規定項下,在明確“人工智能服務提供者”、“算法推薦服務提供者”的具體責任和義務時,同樣依據其提供的服務內容及類型規范了不同的責任和義務。例如,模型訓練通常由技術支持方負責,其作為“生成式人工智能服務提供者”應當確保訓練數據的來源合法合規,由于技術支持方并不直接面對終端用戶,所以其僅承擔法規項下明確需要參照適用的那些原本針對服務提供方的要求。而對于面向終端用戶的“人工智能服務提供者”,即服務提供方,由其直接將內容/信息向終端用戶提供,所以前述內容/信息所引致的結果也是由其直接產生,故其應當在明確
131、并公開其服務的適用人群、場合、用途、指導使用者科學理性認識和依法使用生成式人工智能技術、采取有效措施防范未成年人用戶過度依賴或者沉迷生成式人工智能服務等方面履行相應的義務。如果因為服務的提供而產生了違約、侵權等民事責任,服務提供方往往是第一責任人。此外,根據AIGC 暫行辦法第 2 條規定,行業組織、企業、教育和科研機構、公共文化機構、有關專業機構等研發、應用生成式人工智能技術,未向境內公眾提供生成式人工智能服務的,不適用AIGC 暫行辦法的規定。也即,需要遵守相關大模型合規義務的主體,是指向境內公眾提供服務的大模型服務提供者。若上述主體未向境內公眾提供服務的,則不適用 AIGC 暫行辦法。深
132、度合成管理規定雖未將使用者限制在“公眾”的語境,但對于標識的目標和要求,亦限制在了“公眾混淆或者誤認的”和“向公眾提示深度合成情況”范圍?;谇笆鲆幎?,一個值得探討的話題是,對于僅面向境內企業而并非公眾提供大模型應用服務的大模型服務提供者是否適用AIGC 暫行辦法。某種角度而言,加強大模型監管旨在規范公共層面的數據流通、傳播,避免重要、敏感信息的泄露,以及防止違法、虛假信息和內容在社會層面廣泛傳播。倘若僅49大模型合規白皮書面向特定企業提供服務,且該企業僅在內部使用大模型服務而不會導致大模型服務成果向公眾流通,很有可能并不適用AIGC 暫行辦法。但是,通過 API接口等方式“封裝”后間接提供服
133、務的,可能仍會被認為屬于服務提供方而非技術支持方,例如,倘若某一大模型服務提供者自研完成大模型開發后,作為技術支持方向中國境內的另一大模型服務提供者提供大模型技術接口并收取技術服務費,而后者進而作為服務提供方面向中國境內的消費者提供大模型應用服務,兩者很有可能均需要履行AIGC 暫行辦法項下的義務。除了主體層面的合規要素外,大模型領域的監管對象:算法與模型同樣值得探討?!八惴ā笔菍τ跀祿M行計算或其他處理的規則,從人工智能的角度,算法通過代碼的形式實現?!澳P汀笔峭ㄟ^算法對數據進行處理后,將處理形成的有效結果,作為未來處理參照的模型數據集,與算法形成一個作為模型的整體。簡單來說,“模型”=“算
134、法”+“模型數據集”。區別“算法”和“模型”的概念,對于人工智能的監管具有重要意義,主要體現在:更好地界定客體例如,單純的算法提供者和內容提供者都不具有內容生成能力,所以AIGC暫行辦法的監管客體應是模型。同樣地,深度合成管理規定以內容生成能力作為前提,其監管客體也應是模型。算法備案的對象和內容,是算法而非模型51。安全評估規定則應將算法和模型都納入監管范圍。此外,算法的監管要點在于設計合規和提高算法透明度,而弱化所選擇的訓練數據的數據合規、標注質量評估和輸出內容的知識產權等問題,而模型的監管則需要兩者兼顧。能更好地分析產業目前,以AIGC為代表的人工智能市場已初步形成了應用層-模型層-基礎層
135、三個產業層次。直接面向終端用戶的“服務”特別是互聯網信息服務被納入應用層、“模型”特別是通用基礎大模型的訓練和開發以及由此產生的模型即服務(MaaS)范式則應被納入模型層。在更底層,“算法”特別是算法框架和開發平臺作為單純的算法基礎服務商,和AI芯片、智能云服務、智算中心等作為算力基礎服務商,以及數據集、向量數據庫等作為基礎數據服務商,則都被納入基礎層。51在互聯網信息服務算法備案系統提交備案信息時,需要填寫算法信息和模型信息。50大模型合規白皮書 能更好地識別行為不同產業的行為監管邏輯根本不同。應用層直接面向用戶甚至公眾生成信息和內容,大多數涉及輿論屬性和社會動員能力,以及民事侵權和個人信息
136、保護等問題是在此階段直接產生。模型層涉及訓練和預訓練的開展,在承上啟下的過程中,既涉及底層算法的應用、數據的選擇和標注,也決定了最終輸出內容/信息的質量,此時需要關注的主要既包括數據合規、知識產權、公序良俗(如避免歧視)等基礎層問題,也需要關注對最終輸出的內容和信息的連帶責任問題。在基礎層,僅“算法”的提供和數據的服務,則關注內容更限于上面提到的各自基礎層問題本身。結合主體與客體的分析,對于大模型服務提供者,當前我國的法律體系下,其需要遵循的合規要素主要涉及業務資質、內容合規、數據訓練合規、算法技術合規、個人信息保護、知識產權保護和競爭法、數據與網絡安全、產品合規、監管手續、科技倫理等方面,具
137、體如下:(1)監管手續與業務資質(a)算法備案算法備案是算法治理體系的重要監管內容,是實現算法透明性和可解釋性的必要環節,其旨在保護用戶權益,維護產品安全和信息安全。算法推薦管理規定、深度合成管理規定、AIGC 暫行辦法都對大模型服務提供者提出了算法備案要求。算法備案的主體是大模型服務提供者,在選擇“生成合成類(深度合成)算法”這一算法類型進行算法備案時需要區分備案主體身份(“深度合成服務技術支持者”或“深度合成服務提供者”),即服務提供方和技術支持方需要作為不同的備案主體對同一算法進行備案,二者在算法備案項下的義務相互獨立而不可互相替代。根據算法推薦管理規定,大模型服務提供者應當在提供服務之
138、日起十個工作日內通過互聯網信息服務算法備案系統填報服務提供者的名稱、服務形式、應用領域、算法類型、算法自評估報告、擬公示內容等信息,履行備案手續。51大模型合規白皮書(b)安全評估目前我國多部法律法規和相關規定中均對“具有輿論屬性或社會動員能力的互聯網信息服務”提出了安全評估的要求。不過,目前我國法律法規和相關規定中僅明確了“具有輿論屬性或社會動員能力的互聯網信息服務”(即開辦論壇、博客、微博客、聊天室、通訊群組、公眾賬號、短視頻、網絡直播、信息分享、小程序等信息服務或者附設相應功能以及開辦提供公眾輿論表達渠道或者具有發動社會公眾從事特定活動能力的其他互聯網信息服務),而對于何為具有輿論屬性或
139、社會動員能力的算法推薦服務、深度合成服務、生成式人工智能服務則暫時并未給出進一步定義。實務中,對于何為“具有輿論屬性或社會動員能力”的判斷相對較為寬泛,幾乎涵蓋了所有具備信息共享功能的服務。因此,大模型服務很有可能涉及具有輿論屬性或社會動員能力的互聯網信息服務,即需要按照具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定通過全國互聯網安全管理服務平臺完成安全評估。按照AIGC 暫行辦法等法律法規和相關規定,對于大模型服務還需進行新技術新應用安全評估(“雙新評估”),而關于雙新評估的具體流程以及要求仍有待監管部門進一步公開。(c)業務資質為了保障大模型服務的合規發展,大模型在進入市場前,必須
140、依照相關法律規定取得相應的資質證照。許可證類型根據相應業務而決定,例如:倘若最終的服務屬于經營性互聯網信息服務,需取得 B25 類增值電信業務經營許可證(即 ICP 證);倘若最終的服務屬于在線數據處理與交易處理業務,需取得 B21類增值電信業務許可證(即 EDI 證)。在當前我國的實踐中,大模型服務涉及互聯網信息服務的可能性相對較高,這主要是因為對于服務提供方向用戶提供大模型應用服務的情形而言,服務提供方通過對訓練數據和用戶輸入對話的采集和處理以及平臺的建設,通過互聯網向用戶提供信息內容,往往會涉及為其他單位或個人用戶發布文本、圖片、音視頻、應用軟件等提供平臺服務,即信息發布平臺和遞送服務這
141、一類型的經52大模型合規白皮書營性互聯網信息服務。同時,對于經營性和非經營性的判斷,實踐中,不宜簡單以服務是否收費來判斷有償或是無償,而應當綜合考量是否與科研、公益等非經營性活動有明顯區分,需要充分考慮是否存在變相營利的情形。此外,大模型服務領域或業務場景較為廣泛,很有可能涉及多個行業的監管,從而需要獲得特定行業的相關證照才能夠合法運營。例如,在涉及圖文、視聽節目的情形下,往往還涉及網絡文化經營許可證、網絡出版服務許可證、信息網絡傳播視聽節目許可證等行業監管角度的證照。(2)數據訓練合規數據訓練是大模型技術存在的基礎,是大模型應用的底層邏輯核心,數據是大模型最底層的原料,數據訓練則是對原料的使
142、用。因此,數據訓練合規是滿足服務生成內容合規、知識產權合規、個人信息合規等合規要素的重要前提。AIGC 暫行辦法明確了生成式人工智能服務提供者在進行大模型訓練時所應當履行的合規義務,其應當使用具有合法來源的數據和基礎模型,不得侵害他人依法享有的知識產權,涉及個人信息的應當取得個人的同意或者符合法律、行政法規規定的其他情形。大模型數據訓練主要包括訓練數據的收集、存儲、使用等環節。在此過程中,除應當履行網絡安全、數據安全、個人信息保護等義務外,還應當確保訓練數據來源的合法性。從當前的行業實踐來看,大模型服務提供者獲取訓練數據的途徑大體可以分為經授權獲取數據(如采購第三方數據庫等)與自行收集數據(如
143、通過網絡爬蟲等技術手段收集數據等)兩類。在后者情況下,大模型服務提供者可能侵犯他人享有權益的內容,存在一定的法律風險。在收集環節,在未經許可收集數據的情況下,根據數據類型不同,可能存在侵犯他人著作權、商業秘密、個人隱私等風險。若大模型在訓練過程中存在破壞/繞開技術措施的方式獲取數據,如采取破壞、繞開數據控制者設置的加密措施、訪問限制措施、反爬措施等方式獲取數據,或對數據控制者造成不合理負擔的方式獲取數據,妨礙、破壞他人產品或服務的正常運行,均有可能被53大模型合規白皮書認定具有不正當性,從而被認定為構成不正當競爭。在存儲、使用環節,如果原始數據中包含受法律保護的客體或內容,則存儲、使用行為可能
144、落入法律規制的范疇。(3)內容合規根據AIGC 暫行辦法以及網絡信息安全領域的監管要求,大模型服務提供者需要保證服務生成內容合規,承擔對服務生成內容的審核義務,建立健全服務生成內容治理機制,依法設立辟謠機制、設立違法和不良信息識別特征庫,積極承擔信息內容管理主體責任;同時,當服務提供方發現違法內容時,應當及時采取停止生成、停止傳輸、消除等處置措施,并向有關主管部門報告。(4)算法技術合規根據 算法推薦管理規定、深度合成管理規定、AIGC暫行辦法 等規定,大模型服務提供者需要承擔算法技術管理相關的責任,主要內容詳見下表:序號合規要點具體內容1反歧視機制在算法設計、訓練數據選擇、模型生成和優化、提
145、供服務等過程中,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視。2算法機制機理審核定期審核、評估、驗證算法機制機理、模型、數據和應用結果;不得設置誘導用戶沉迷、過度消費等違反法律法規或者違背倫理道德的算法模型。3公平競爭機制不得利用算法共謀方式形成壟斷、排除市場競爭,遵循反壟斷、反不正當競爭相關法律規定。4提供必要支持和協助有關主管部門依據職責對生成式人工智能服務開展監督檢查,提供者應當依法予以配合,按要求對訓練數據來源、規模、類型、標注規則、算法機制機理等予以說明,并提供必要的技術、數據等支持和協助。54大模型合規白皮書(5)個人信息保護中華人民共和國個人信息保護法
146、(“個人信息保護法”)規制個人信息全生命周期的保護和處理活動,要求企業應在個人信息的收集、存儲、使用、加工、傳輸、提供、公開、刪除等方面落實合規義務。面向消費者的生成式人工智能應用服務在個人信息保護方面與其他應用服務相比有很多相同之處,包括制定用戶服務協議、隱私政策,明確處理用戶數據的合法性基礎。在此基礎上,AIGC暫行辦法針對生成式人工智能服務領域的個人信息保護做了進一步的規定,例如服務提供者對使用者的輸入信息和使用記錄應當依法履行保護義務和知情同意原則,不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄,應當依法及時受理
147、和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求。此外,大模型服務提供者還應當特別關注個人信息的跨境傳輸問題。根據AIGC 暫行辦法,無論是中國境外的技術支持方直接面向中國境內公眾提供生成式人工智能服務,還是服務提供方通過接入中國境外的 API 接口向中國境內公眾提供生成式人工智能服務,均應當履行AIGC 暫行辦法項下的合規要求。在跨境的場景下,大模型服務提供者很可能將中國境內用戶的個人信息傳輸至境外。對此,大模型服務提供者還應當按照個人信息保護法、數據出境安全評估辦法、個人信息出境標準合同辦法等相關法律法規和相關規定項下的要求履行個人信息跨境傳輸相關的義務,例如數據出境安全評估、
148、個人信息保護影響評估、個人信息出境標準合同簽訂和備案、用戶告知等,并根據不同的場景選擇合適的跨境傳輸方式。(6)知識產權保護和競爭法AIGC 暫行辦法等法律法規和相關規定亦從知識產權保護和競爭法角度提出了相關要求。例如,根據AIGC 暫行辦法,大模型服務提供者和用戶在提供與使用大模型服務時還應當尊重知識產權、遵守商業道德、保守商業秘密,不得利用算法、數據、平臺等優勢實施壟斷和不正當競爭行為;同時,大模型服務提供者在進行預訓練、優化訓練等訓練數據處理活動時,亦不能侵犯他人55大模型合規白皮書的知識產權。大模型服務提供者在大模型的開發和運用中還需要特別注意開源軟件使用場景,應該在了解清楚每份代碼的
149、許可證類型后,明確每種許可證下的代碼或軟件的使用方式,以及這些許可證對商業化模式的影響,確保使用相關代碼的過程不違反開源協議。大模型服務從輸入數據的獲取及預處理,算法模型的構建與訓練,到生成內容的輸出與優化等各環節,均涉及專利、著作權、商業秘密等多種知識產權客體,稍不留意便將產生相應的侵權糾紛。需要特別注意的是,大模型多為商業性開發和利用,利用已有作品進行大模型訓練的行為很難構成合理使用。因此,在服務生成內容生成過程中,倘若涉及與已有作品的接觸且服務生成內容與已有作品存在實質性相似,服務生成內容本身很可能涉及著作權的侵權。而對于大模型服務提供者而言,其本身屬于網絡服務提供者,至少應當對用戶輸入
150、數據進行審核且應當遵守服務生成內容合規方面的義務,中華人民共和國民法典第一千一百九十五條亦明確了網絡服務提供者應當遵守的通知-刪除義務,倘若未能遵守該等義務,有可能需承擔共同侵權責任。(7)數據與網絡安全中華人民共和國數據安全法(“數據安全法”)從多方面規定了企業數據安全保護相關的義務,包括數據分類分級、安全管理制度、風險監測、風險評估等,面向消費者提供生成式人工智能服務的大模型服務提供者作為數據安全法項下的數據安全合規主體,也應當履行數據安全法項下的合規義務。中華人民共和國網絡安全法(“網絡安全法”)從多方面規定了企業網絡安全保護相關的義務。根據網絡安全法,只要是由運營軟硬件設備組成的、按照
151、一定的規則和程序對信息進行收集、存儲、傳輸、交換、處理的信息系統的所有者、管理者和網絡服務提供者,均屬于網絡運營者。因此,大模型服務提供者作為網絡運營者也應當履行網絡安全法項下的合規義務。對于大模型服務提供者而言,其在網絡安全法項下的合規義務主要包括兩個方面:一方面,從網絡運行安全的角度出發,大模型服務提供者作為網絡運營者,應當按照網絡安全等級保護制度的要求,履行安全保護義務,保障網絡科技活動負責人向科技倫理(審查)委員會申請科技倫理審查56大模型合規白皮書免受干擾、破壞或者未經授權的訪問,防止網絡數據泄露或者被竊取、篡改;另一方面,從網絡信息安全的角度出發,大模型服務提供者作為網絡運營者,應
152、當對其收集的用戶信息嚴格保密,并建立健全用戶信息保護制度,采取技術措施和其他必要措施,確保其收集的個人信息安全,防止信息泄露、毀損、丟失。從具體措施而言,在安全管理層面,大模型服務提供者作為網絡運營者,應當明確網絡安全的責任,并通過完善的規章制度、操作流程為網絡安全提供制度保障;在技術層面,大模型服務提供者作為網絡運營者,應當采取各種事前預防、事中響應、事后跟進的技術手段,應對網絡攻擊,從而降低網絡安全的風險。(8)產品合規依照相關規定,當面向終端用戶提供大模型服務相關產品時,大模型服務提供者亦應當履行一系列從用戶保護角度出發的合規義務。例如,建立實名認證體系義務、服務協議簽訂義務、明確并公開
153、其服務信息以指導使用者科學理性認識和依法使用相關產品的義務、采取有效措施(如限定服務范圍、限定服務時間)防范未成年人用戶過度依賴或者沉迷相關產品的義務、采取有效措施穩定可持續的提供服務的義務、違法整改義務、建立健全投訴舉報機制義務等。(9)科技倫理在法律法規和相關規定層面,科技倫理審查辦法、關于加強科技倫理治理的意見 均對于科技倫理方面的合規要求予以規定;在行業規范層面,新一代人工智能倫理規范等文件均已經從原則上對于人工智能領域的科技倫理規則進行了一定程度的規定。具體要求如下:(a)科技倫理(審查)委員會設立根據科技倫理審查辦法,如大模型服務提供者涉及以人為研究參與者的科技活動,包括利用人類生
154、物樣本、個人信息數據等的科技活動,或不直接涉及人或實驗動物,但可能在生命健康、生態環境、公共秩序、可持續發展等方面帶來倫理風險挑戰的科技活動,應當負責進行科技倫理審查;如研究內容57大模型合規白皮書科技倫理(審查)委員會對審查批準的科技活動開展倫理跟蹤審查涉及科技倫理敏感領域的,應設立科技倫理(審查)委員會,其他有科技倫理審查需求的單位可根據實際情況設立科技倫理(審查)委員會。大模型服務提供者應在設立科技倫理(審查)委員會后 30 日內,通過國家科技倫理管理信息登記平臺進行登記,登記內容包括科技倫理(審查)委員會組成、章程、工作制度等,相關內容發生變化時應及時更新,并在每年 3 月 31 日前
155、,向國家科技倫理管理信息登記平臺提交上一年度科技倫理(審查)委員會工作報告。(b)科技倫理審查流程根據科技倫理審查辦法,科技倫理(審查)委員會開展科技倫理審查的流程如下:(c)倫理審查復核根據科技倫理審查辦法,針對納入科技部發布的需要開展倫理審查復核的科技活動清單的科技活動,通過科技倫理(審查)委員會的科技審查后,除非國家實行行政審批等監管措施且將符合倫理要求作為審批條件、監管內容的,還需由開展技術活動的單位報請所在地方或相關行業主管部門組織開展專家復核;開展技術活動的單位應在納入清單管理的科技活動獲得倫理審查批準后 30 日內,通過國家科技倫理管理信息登記平臺進行登記,登記內容包括科科技倫理
156、(審查)委員會根據科技倫理審查申請材料決定是否受理申請并通知申請人依據科技活動倫理風險發生的可能性和嚴重、緊急程度,科技倫理(審查)委員會采用一般/簡易/應急程序進行科技倫理審查,作出審查決定,申請人對審查決定有異議的,可向作出決定的科技倫理(審查)委員會提出書面申訴科技活動負責人向科技倫理(審查)委員會申請科技倫理審查58大模型合規白皮書技活動實施方案、倫理審查與復核情況等,相關內容發生變化時應及時更新,并在每年 3 月 31 日前向國家科技倫理管理信息登記平臺提交上一年度納入清單管理的科技活動實施情況報告。根據科技部于 2023 年 10 月 8 日附隨科技倫理審查辦法發布的需要開展倫理審
157、查復核的科技活動清單,“具有輿論社會動員能力和社會意識引導能力的算法模型、應用程序及系統的研發”屬于需要開展倫理審查復核的科技活動。因此,大模型服務提供者如涉及大模型研發,除通過科技倫理(審查)委員會的科技審查以外,極有可能還需進行倫理審查復核。(d)科技倫理治理除前述程序性要求以外,在實體層面,大模型服務提供者應當重視在研發和提供大模型服務過程中的科技倫理治理,重點關注研發規范與供應規范,其中重點內容包括:(i)提升數據質量。在數據收集、存儲、使用、加工、傳輸、提供、公開等環節,嚴格遵守數據相關法律、標準與規范,提升數據的完整性、及時性、一致性、規范性和準確性等。(ii)增強安全透明。在算法
158、設計、實現、應用等環節,提升透明性、可解釋性、可理解性、可靠性、可控性,增強人工智能系統的韌性、自適應性和抗干擾能力,逐步實現可驗證、可審核、可監督、可追溯、可預測、可信賴。(iii)避免偏見歧視。在數據采集和算法開發中,加強倫理審查,充分考慮差異化訴求,避免可能存在的數據與算法偏見,努力實現人工智能系統的普惠性、公平性和非歧視性。(iv)加強質量管控。強化人工智能產品與服務的質量監測和使用評估,避免因設計和產品缺陷等問題導致的人身安全、財產安全、用戶隱私等59大模型合規白皮書侵害,不得經營、銷售或提供不符合質量標準的產品與服務。(v)保障用戶權益。一方面,大模型服務提供者可以拒絕或避免開發以
159、損害他人權益為主要目的的或者容易受到惡意利用的產品或服務;另一方面,在產品與服務中使用人工智能技術應明確告知用戶,應標識人工智能產品與服務的功能與局限,保障用戶知情、同意等權利,為用戶選擇使用或退出人工智能模式提供簡便易懂的解決方案,不得為用戶平等使用人工智能設置障礙。(vi)推動倫理安全建設。大模型服務提供者應建立健全覆蓋管理、研發、供應、使用等全生命周期的風險治理體系、事件應對體系等。具體來說,大模型服務提供者可以采取建立驗證算法、風險預警、記錄和回溯機制等必要措施,持續監測和降低風險;同時定期分析風險監控報告并反饋和優化管理機制,完善治理體系。此外,大模型服務提供者可以建立事件應對體系,
160、設立人工緊急干預機制、中止應用機制、救濟金基金等必要保障機制,并明確事故處理流程,確??梢栽贏I倫理安全風險發生時作出及時響應。3.大模型業務中各方合規義務一覽表(下表僅大致劃分了各項義務的主要承擔方,僅作參考)合規要素合規義務主要義務主體服務提供方技術支持方用戶監管手續與業務資質算法備案安全評估一般性資質包括 ICP 證,特殊資質包括網絡文化經營許可證、網絡出版服務許可證、信息網絡傳播視聽節目許可證等60大模型合規白皮書合規要素合規義務主要義務主體服務提供方技術支持方用戶內容合規發布內容合規AIGC 標識及時處理違法內容數據訓練合規數據質量保證數據來源合規數據標注算法技術合規反歧視機制算法技
161、術透明性提供必要支持個人信息保護個人信息來源合規個人信息去標識化個人信息跨境合規知識產權保護和競爭法不得侵害他人依法享有的知識產權尊重他人商業秘密開源軟件使用合規不得利用算法、數據、平臺優勢,實施壟斷和不正當競爭行為數據與網絡安全數據來源合規數據跨境合規61大模型合規白皮書合規要素合規義務主要義務主體服務提供方技術支持方用戶網絡安全不得利用互聯網技術從事違法活動網絡安全監管建立網絡安全等級保護制度建立網絡安全保障體系產品合規指導、保護用戶穩定服務違法處理與整改建立投訴機制科技倫理科技倫理審查實踐科技倫理規范4.運營角度的其他考量(1)大模型運營的要素(a)大模型運營的標的在大模型相關的運營交易
162、中,往往涉及技術支持方、服務提供方、終端用戶等主體,各主體之間所涉及的標的亦有所不同。以當前的實踐為例:(i)對于技術支持方提供大模型軟件許可的場景,該等許可的標的實際上是軟件模型。通常而言,大模型軟件許可協議會針對許可標的予以特別規定。例如,如果被許可方僅需利用許可方已有的訓練后模型,則被許可方根據許可協議取得訓練后模型一定的使用權即可;但在很多場景下,被許可方需要的并非已有的訓練后模型,而是定制化的訓練62大模型合規白皮書后模型,對于該等定制化的訓練后模型的權利歸屬、使用條款,雙方有必要在許可協議中予以進一步約定。(ii)對于服務提供方面向終端用戶提供互聯網平臺服務的場景,其提供的服務通常
163、為大模型交互對話、文字識別、自然語言處理等大模型產品服務,即以大模型為核心的服務產品。(b)大模型軟件與傳統軟件的區別(i)軟件開發方式對于傳統軟件,軟件開發者更關注軟件的功能需求,即軟件必須實現的功能。因此,軟件開發者需要使用各種模型對相關功能需求進行描述,數據處理等規則往往已經被事先設計確定。而對于大模型軟件而言,較之于功能需求,模型、訓練模型的數據以及支撐模型訓練的算力更為關鍵。模型開發者使用大量的數據對訓練模型進行持續訓練,使之歸納出處理新數據的規則。待訓練模型通過學習知識成為具有推理和決策能力的訓練后模型,從而實現智能化。(ii)數據使用方式在傳統軟件開發過程中,通常并不需要收集并使
164、用大量的數據。但在大模型軟件的開發過程中,軟件開發者必須借助大量的高質量數據樣本對大模型進行訓練,并在訓練過程中不斷優化參數以提高運行效率和準確性。訓練數據通常根據具體的應用場景進行確定。以計算機視覺應用場景為例,利用現有的開源數據集通常難以滿足特定的視覺應用場景需求,因此需要采集足夠多的來自于實際應用場景的真實圖像或視頻數據,并對這些數據進行一定的處理,例如數據清洗、數據標注等。(iii)軟件部署方式從軟件使用者的角度,大模型軟件的安裝部署方式與傳統軟件無明顯差異,但是從運營方式和商業模式來看,二者還是存在一定區別。對于傳統軟件而言,63大模型合規白皮書其對算力的要求相對較低,因此通常是由企
165、業購買后安裝在其自有服務器上,相關數據也通常存儲在本地計算機或服務器中。而對于大模型軟件而言,新興應用場景產生的海量數據對大模型算力的需求持續加大,例如云游戲、自動駕駛等對數據傳輸的速度和量級都提出了更高的要求,而通過云計算和云部署的方式便可以在很大程度上解決上述問題。在該等情形下,相關數據則被傳輸并存儲在云端。(2)大模型運營的關注要點(a)知識產權相關(i)知識產權權屬在傳統軟件許可協議中,無論許可標的是目標代碼還是源代碼,雙方均應當對相關知識產權的權屬安排進行提前約定,以免后續產生糾紛。一般而言,軟件許可協議的知識產權歸屬安排會根據時間順序采用“三段式”的敘述邏輯,即背景知識產權、前景知
166、識產權和改進知識產權。其中,背景知識產權是指協議一方在履行協議前擁有或取得的技術成果及相關知識產權,前景知識產權是指在雙方合作期間產生的知識產權,而改進知識產權則是指對前景知識產權進行的修改、改編或提升,包括但不限于對前景知識產權相關的功能、性能、部件或模塊的變更等。如上文所述,模型是由訓練程序從訓練數據中歸納出的某種“推理規則”,在此過程中,訓練數據的質量和標注精度對模型的準確性起到至關重要的作用,換言之,訓練程序輸入不同的訓練數據后所輸出的模型也不盡相同。一般而言,模型的訓練分為靜態訓練(statictraining)和動態訓練(dynamictraining)兩種,因此,模型也分為靜態模
167、型與動態模型。對于靜態模型,模型訓練好則長期投入使用,而對于動態模型而言,隨著新數據的不斷輸入,通過對這些數據的整合,模型也將不斷進行更新迭代。因此,在大模型軟件許可中,若許可方許可的僅是靜態模型,則被許可方64大模型合規白皮書在具體的應用場景下使用該等模型,模型不會在被使用時同步自我演化或改進,被許可方只能通過許可協議要求許可方向其定期提供更新后的模型。但是,若被許可方獲得的是動態模型的許可,由于被許可方持續不斷地向模型輸入實際應用場景的數據,模型也將被不斷訓練進而形成新的版本。在該等情形下,由于模型在使用被許可方所提供的數據過程中實現了自我改進,被許可方本身便可以對該等改進所形成的前景知識
168、產權主張相應的權利。即使在許可方較為強勢進而主張相關前景知識產權為自己單獨所有的情況下,被許可方也可以考慮要求許可方就最新版本的模型向自己提供一項免費的許可,對此,雙方還應當在許可協議中進一步明確許可費、更新維護等相關事項。(ii)AIGC 的保護大模型運營還面臨著 AIGC 可版權性的問題。在我國的現行法律框架下,AIGC 的相關權益可能以以下路徑獲得保護:(1)著作權法;(2)反不正當競爭法;(3)民法典。AIGC 通常表現為音樂、圖畫、文字、視頻、代碼等內容或表達形式,表面上符合著作權法對作品的形式要求。而 AIGC 的可版權性的關鍵在于是否存在人類智力成果的貢獻。也即是說,如果人類對
169、AI 的最終生成結果具有控制力,AIGC 存在人類的獨創性貢獻,就可以成為受著作權法保護的作品。反之,則可能無法獲得著作權法的保護。至于人類要參與到何種程度才能構成對內容的獨創性貢獻,當前并沒有形成統一定論。因此,在著作權法中新設鄰接權、在民法典虛擬財產設置針對 AIGC 的具體規則等方式對 AIGC 相關權益予以保護的論題存在大量的討論。而利用反不正當競爭法進行保護,主要是集中于大規模收集和生產的數據或信息,大規模盜用或以不正當手段獲取 AIGC 等場景。AIGC 雖然在權利屬性方面尚存爭議,但這并不阻礙 AIGC 的后續利用。目前以技術服務費、內容許可費等收益方式是 AIGC 后續利用的常
170、見模式。相應的,關于生成物的的權利歸屬、后續利用范圍和限制等均應和用戶在協議中予以明確約定。65大模型合規白皮書(iii)潛在的知識產權侵權風險大模型訓練中可能產生潛在的知識產權侵權風險。如前文所述,大模型訓練主要包括訓練數據的收集、存儲、使用等環節。而根據訓練各個環節所使用的數據或內容所構成的法律客體的不同,可能存在侵犯著作權、商業秘密等知識產權的風險,或者因行為的不當性構成不正當競爭行為。針對數據收集行為,數據的收集者更可能基于批量的數據、重復的獲取行為等被追究反不正當競爭法項下的責任。針對數據存儲行為,大模型開發者通常需要將收集到的原始數據存儲到服務器中,在這一過程中會形成數據或內容的副
171、本。如該等存儲的內容可能構成著作權,在相關副本需要長時間停留在服務器的情況下,可能落入“復制權”的控制范疇;而如果不存儲原始數據,僅在訓練時臨時調用,則可能因為沒有形成“永久性復制件”,從而不會受到著作權法規制的范疇。針對數據使用行為,可能涉及對原始數據的修改、加工、翻譯等操作,與之相應,則存在侵犯改編權、翻譯權等著作權權利的風險。在落入著作權權利范疇的情況下,就數據訓練過程能否適用合理使用規則也是全球范圍內探討的重點問題。為迎接人工智能等新技術,2019 年 3 月 26 日歐盟通過了單一數字市場版權指令,新增了“不限制目的的文本和數據挖掘”這一豁免情形,即在權利人未以適當方式保留文本和數據
172、挖掘權利的情況下,基于文本和數據挖掘的目的,復制、提取合法訪問的作品或其他客體的行為被納入責任豁免機制。日本著作權法于 2018 年增設了新的合理使用條款“不以欣賞作品原有價值為目的的利用”。依據該條規定,只要模型訓練階段的作品利用行為不存在“根據作品的性質、目的和使用情況,不合理地損害版權人利益”的情形,大概率可以受到該條款的責任豁免。目前我國現行著作權法規定的“合理使用”情形難以涵攝大模型訓練的場景。具體而言,AIGC 場景可能適用的情形只有三種,包括“個人學習、研究、欣賞目的”“適當引用”“科學研究”。其中,“個人學習、研究、欣賞目的”66大模型合規白皮書的合理使用對作品使用的目的進行了
173、嚴格的限制,而 AI 模型訓練基本是為了開發商業化產品,具有商業動機,難以被解釋為該情形?!斑m當引用”指的是“為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品”,而使用訓練數據的主要目的是為了生成新作品,與該種情形存在較大出入?!盀榭茖W研究使用作品”需同時滿足“教學或科研人員”的主體要件,以及“少量復制”的要求,該等要求與 AI 模型訓練中大量復制使用作品的現狀不符。但是對于大模型而言,確保訓練數據中包含的作品全部獲得作品著作權人的許可在現實中并非易事。一方面,大模型開發者需要花費大量的時間和成本將可能受保護的作品從訓練數據中識別出來;另一方面,針對識別出來的受保護的作
174、品,大模型開發者還需逐一地與作品的著作權人進行協商取得其許可,并支付許可費用??紤]到不同作品許可談判的難度以及大模型開發的時效性,在實踐中逐一取得相關作品著作權人許可并無可行性。因此,對于大模型訓練階段知識產權風險的防控亟待后續著作權法等相關法律法規進一步明確、集體管理等支付提供有效的指引。針對大模型產品的著作權侵權問題,目前業內出現了一種新的潛在方案,以緩釋大模型產品使用者的知識產權侵權疑慮。2023 年 11 月 6 日,在發布最新的 GPT-4 版本“GPT-4Turbo”時,針對著作權侵權難題,OpenAI 一并提出了“著作權盾”的解決方案,即在 OpenAI 的客戶因使用其產品導致著
175、作權侵權的法律訴訟時,OpenAI 將介入并為其客戶進行辯護,且承擔因此發生的相關費用,具體的方案仍待 OpenAI 進一步澄清。52后續有待觀望這一方案在多大程度上能夠減輕大模型產品的著作權侵權問題。(b)數據相關(i)數據使用大模型運營中涉及的數據主要包括模型訓練階段使用的原始訓練數據和訓52https:/ 2023 年 11 月 22日。67大模型合規白皮書練數據集,以及模型使用階段的輸入數據和輸出數據,而模型使用階段的數據存在被用于訓練模型的可能性。在大模型軟件許可中,由于并非所有的被許可方均希望提供數據給許可方以訓練模型,協議雙方可以約定許可方是否能使用被許可方的相關數據進行模型訓練
176、,在許可使用的情形下通常會對許可方使用相關數據的目的和范圍進行限制。(ii)數據權屬鑒于一般認為對于衍生數據權利的確認并不代表否認原始數據主體的權利,模型訓練階段使用的原始訓練數據和模型使用階段的輸入數據的相關權益應當分別歸屬于原始數據主體和輸入數據主體,但模型訓練階段使用的訓練數據集由于經過收集、清洗、標注等篩選處理,其相關權益應當歸屬于模型開發者,而模型使用階段的輸出數據由于其法律屬性界定尚存在爭議,通常需要協議雙方明確約定相關數據的權益歸屬、使用方式等內容。(iii)數據來源由于在大模型運營中,模型使用階段的數據有可能被用于訓練模型,協議雙方均應當確保自身使用的數據具有合法來源。對于大模
177、型而言,獲取數據的方式主要包括數據交易、自行采集和開放數據爬取,其中,數據交易是指通過合法的交易方式從數據提供方處獲取相關數據,自行采集是指通過 APP、傳感器等方式直接采集數據,開放數據爬取則是指通過數據爬蟲等方式獲取開放的數據。前兩者獲取數據時應當注意要確保取得相關數據權利主體的授權,通過開放數據爬取時則應當重點關注數據爬蟲行為本身是否合法;對于許可方而言,不同數據種類存在不同注意事項,如除法律另有規定,對于個人信息應當直接或要求數據提供方取得個人信息主體同意,且應注意采取合理方式履行提示或者說明義務,如在用戶協議中對相關內容加粗處理;對于被許可方而言,可以在協議中要求許可方對其提供的模型
178、不侵犯第三方權利作出陳述與保證,而在提供數據給許可方以訓練模型時,被許可方也應當履行相關合規審查義務,如獲得數據主體授權、不違反保密義務等。68大模型合規白皮書(iv)數據質量與數據標注根據AIGC 暫行辦法第 7 條規定,生成式人工智能服務提供者應當采取有效措施提高訓練數據質量。提高訓練數據的質量對于避免誤導用戶、避免生成式人工智能被錯用、誤用、濫用,對于促進大模型運營都起著至關重要的作用。AIGC 暫行辦法第 8 條進一步規定,在生成式人工智能技術研發過程中進行數據標注的,提供者應當制定符合AIGC 暫行辦法要求的清晰、具體、可操作的標注規則;開展數據標注質量評估,抽樣核驗標注內容的準確性
179、;對標注人員進行必要培訓,提升遵法守法意識,監督指導標注人員規范開展標注工作。數據標注是指對未經處理的語音、圖片、文本、視頻等原始數據進行加工處理,使其成為結構化數據讓機器可識別的過程。數據標注由標注人員進行,人為錯誤或個人主觀意識不可避免會反映在數據標注過程中,影響數據質量,因此制定清晰明確的標注規則、對標注人員進行培訓是提高生成式人工智能的可靠性與可信度不可或缺的關鍵環節。例如,全國信息安全標準化技術委員會于2023年10月11日發布的 生成式人工智能服務安全基本要求(征求意見稿)在“5.3語料標注安全要求”節從標注人員、標注規則、標注準確性三個層面,對服務內容提供方的數據標注工作提出了具
180、有可操作性的安全標準。(v)數據安全在大模型運營中,為訓練模型需要采集各行業領域的不同類型的數據,可能涉及敏感個人信息、重要數據等對安全保護有特殊要求的數據類型,也可能涉及數據出境等問題。對于敏感個人信息和重要數據,以自動駕駛為例,智能駕駛汽車通過攝像頭等傳感器每時每刻都在收集車主等的個人信息、車輛行駛信息等數據,根據汽車數據安全管理若干規定(試行),車輛行蹤軌跡、音頻、視頻、圖像和生物識別特征等信息屬于敏感個人信息,而涉及個人信息主體超過 10 萬人的個人信息屬于重要數據。如汽車數據處理者對相關數據處理時存在安全問題,可能導致個人信息主體的人身、財產安全以及國家安全受到損害。對此,法律69大
181、模型合規白皮書法規規定汽車數據處理者應當具有直接服務于個人的目的,包括增強行車安全、智能駕駛、導航等;應當報送汽車數據的安全防護和管理措施,包括保存地點、期限等。對于數據出境,被許可方應當在協議中明確要求許可方遵守數據出境的合規要求和履行數據出境申報義務等。(c)開源相關開源作為推動大模型發展的重要力量,已成為當前人工智能領域的發展趨勢之一。開源在促進大模型研發創新的同時,也推動和降低了大模型落地以及人工智能產業落地的門檻。雖然大模型軟件與傳統開源軟件在計算機軟件屬性方面相似,但考慮到大模型軟件的開發及其主要應用場景與傳統軟件仍存在一定區別,因此其開源合規問題也具有一定的特殊性。具體而言,大模
182、型開發者在大模型開發階段至少應當關注大模型本身的開源合規問題和模型權重的開源合規問題。2023 年 7 月 19 日,Meta 在其官網宣布大語言模型 Llama2 正式發布,這是 Meta 大語言模型的最新版本,也是 Meta 聲稱的首個采用開源模式的大語言模型。然而,Llama2 并非完全意義上的“開源”,事實上,Llama2 對其商業用途做了一定的限制。例如,在 Llama2 版本發布之日,倘若被許可方或被許可方關聯公司提供的產品或服務的每月活躍用戶數在上一個日歷月中超過7 億,則必須向 Meta 申請許可證,Meta 可以自行決定是否授權。因此,大模型開發者通過利用開源方式進行大模型開
183、發時,一方面,應當梳理開發所使用的開源代碼和許可證類型,另一方面,在明確開源代碼及許可證類型后,應當進一步明確各類許可證下模型的使用方式,特別應當注意不同許可證對模型的用途所施加的限制,從而避免發生侵權或違約風險。除大模型本身的開源合規問題外,模型權重的開源合規問題也應當引起大模型開發者的重點關注。以清華大學開放的 ChatGLM-6B 和 ChatGLM2-6B 模型為例,相比于大模型本身,ChatGLM-6B 和 ChatGLM2-6B 對模型權重設置了更為特殊的許可條件。具體而言,模型權重對學術研究完全開放,但是模型權重的商業使用則需要完成登記并獲得授權。因此,大模型開發者還應當注意區分
184、模型本身和模型權重所適用的許可條件。70大模型合規白皮書三、未來展望與發展建議(一)未來展望:大模型合規的前沿1.大模型技術創新發展與合規風險并存隨著深度學習和其他人工智能技術的快速發展,大模型的結構和性能都得到顯著優化。尤其在大模型的規模、復雜性和應用范圍上,技術進步為其提供了強大支持。然而,快速的技術進步也帶來了新的合規挑戰,尤其體現在數據隱私、模型透明度和倫理道德等方面。模型結構的優化是為了滿足更為復雜的任務需求。例如,Transformer 架構使得模型可以更好地處理長序列數據,顯著提升在自然語言處理和其他序列任務上的性能,且神經網絡的不斷深化使得模型可以學習到更為復雜的特征和規律。但
185、是這種優化也為模型的可解釋性和透明度帶來挑戰,大模型的內部結構和操作成為了一個“黑盒”,使得外部觀察者很難理解其具體的工作原理。與此同時,技術進步也帶來了數據處理和計算的新能力,即模型可以訓練和處理前所未有的大規模數據集,為模型訓練提供豐富數據,但這也引發了對于數據隱私和合規的關注。在歐洲、北美和其他地區,政府和監管機構對數據隱私和合規提出嚴格要求,對企業和研究機構在處理用戶數據時遵循明確的指導原則提出要求。2.大模型合規框架走向標準化與國際化(1)全球合規標準的趨同與差異隨著全球化的加速和技術的普及,大模型的合規問題不再是單一國家或地區的關注點,而是各國共同面臨的挑戰。在這一背景下,合規標準
186、在全球范圍內呈現出趨同的趨勢,但各國之間因文化、法律和經濟發展水平的差異,仍存在區別。技術普及、國際經貿往來和大型企業的全球化策略都在推動各國合規標準統一。例如,對數據隱私的關注、對模型透明度的要求以及對技術應用的71大模型合規白皮書倫理道德邊界設定,使得各國在這些共同議題上逐漸形成共識。然而由于文化背景、歷史傳統和經濟發展階段的不同,各國處理大模型合規問題所采取的方法和策略也略有不同。例如,歐盟的 GDPR 更強調個人隱私權益保護,美國更強調企業權益與用戶權益之間的平衡。(2)國際合作與共建合規框架在全球經濟一體化的背景下,單一國家難以獨立解決大模型合規的問題。因此,國際合作與共建成為趨勢,
187、旨在構建一個公平、透明、有效的大模型合規框架。隨著技術跨境應用和數據跨境流動,各國意識到只有通過合作,才能真正解決跨國合規問題。同時,大型技術企業和研究機構的跨國活動也需要統一的合規標準指導。聯合國、G20、世界經濟論壇等國際組織和論壇,將成為各國討論和推進共建合規框架的平臺,各國能夠借此分享經驗、協調差異,并共同制定合規指導原則和標準。隨著全球經濟技術進一步融合,國際合作與共建的趨勢將日益凸顯,各國之間交流合作將更加深入,共同構建穩定、公正的大模型合規環境。3.社會文化和倫理逐漸與合規體系相融(1)社會公正是大模型合規的前提大模型的發展與應用涉及到社會、文化和倫理等多重維度,正確理解和處理這
188、些維度是確保大模型健康、合規發展的關鍵。社會公正是大模型發展的前提,大模型的開發與應用過程應符合公平正義,算法決策應避免偏見和歧視,促進公平。同時,大模型應尊重文化多樣性。不同文化背景下,對于同一問題的看法和解決方法可能存在巨大差異,需要充分考慮大模型合規中的文化差異,確保大模型的決策不違反當地文化習俗和價值觀。(2)大模型倫理問題需多角度對待隨著技術應用全球化,大模型的倫理問題需要從多元文化的視角審視,以72大模型合規白皮書確保模型在不同文化背景下都能得到合理應用。雖然公平、透明和可解釋性等倫理原則具有普適性,但不同文化背景下,其具體實施方式可能存在特殊性。因此,需要在普適性和特殊性之間找到
189、平衡,確保倫理原則應用全球化的同時,考慮地方文化的特殊性。同時,為確保大模型在全球范圍內合規應用,需要加強跨文化倫理研究,探討不同文化背景下的倫理問題和挑戰,并為大模型開發提供指導,為大模型應用全球化提供堅實的倫理基礎。4.行業應用面臨不同合規挑戰與監管隨著大模型在各個行業廣泛應用,不同行業和領域對大模型的合規需求也呈現出明顯差異性。(1)不同行業合規需求存在差異 金融:在金融領域中,大模型的決策可能直接影響資金流動和市場穩定性。因此,金融行業對大模型的準確性、穩定性和透明性要求極高,且需考慮數據隱私和安全性問題。醫療健康:在醫療健康領域中,大模型決策涉及患者的生命健康,大模型的誤判可能導致嚴
190、重后果。因此,醫療行業對大模型的準確性和可解釋性要求嚴格,且需滿足醫療數據的保密性和合規性要求。公共管理:在公共管理領域中,大模型可能用于資源分配、公共決策、政務服務等核心環節。因此,大模型合規要求不僅涉及技術層面,還需保證決策的公平、公正和透明,以及服務的準確可信。新聞媒體:在新聞媒體領域中,需考慮內容的真實性、多樣性和公平性,確保提供的內容不會誤導公眾或加劇社會分化。因此,新聞行業對大模型的可理解性和可靠性要求嚴格,且須滿足新聞數據的準確性和真實性要求。73大模型合規白皮書(2)大模型行業應用評估與監管趨于完善隨著未來大模型在各行業的應用廣泛度提升,針對大模型相關的評估與合規監管的重要性也
191、日益凸顯,相關評估和監管機制需不斷完善。大模型的獨立評估:可由第三方機構對大模型進行獨立的評估,確保模型的決策公正、準確,并符合行業的特定要求,以提高大模型在公眾中的信任度,確保其合規應用。持續監管與審計:對于已經部署的大模型,持續監管和審計也需進一步加強,以及時發現并糾正潛在問題,確保大模型在實際應用中仍滿足合規要求。建立反饋機制:大模型在實際應用中可能出現未知問題,完善反饋機制可進一步暢通大模型開發者和使用者的溝通渠道,以便用戶和利益相關者可以及時提出意見和建議,幫助大模型持續改進。合規性指導與教育:需將合規性指導和教育提上日程,以確保大模型開發者和使用者都能夠明確合規要求,幫助其更好理解
192、和遵循相關規定。5.治理路徑分階段、有彈性地構建在面對大模型合規問題時,固化規則和僵硬管理往往難以適應技術快速演進和應用場景多樣性。因此,彈性治理理念應運而生,主張構建靈活、適應性強的治理路徑。彈性治理并非放任自流,而是在明確的指導原則下,給予大模型開發者和應用者一定自主權,使其能夠針對特定場景適當調整。彈性治理具有以下特性:適應性,即彈性治理對于新技術和應用場景的出現能夠快速反應,不會因為固化規則而制約創新。多元性,即彈性治理考慮到不同文化、社會和行業的特點,可在明確框架內進行多樣化實踐。持續性,即彈性治理強調持續監督和反饋,而非一次性審核,確保大模型始終保持在合規的軌道上。74大模型合規白
193、皮書(二)發展建議:構筑大模型合規生態1.政府推動構建行業新秩序政府應通過為企業提供政策指導,為行業構建有利于創新與合規的新秩序,推動行業有序發展和健康成長。(1)制定與完善相關法律法規,構建不同階段合規制度(a)橫縱向監管結合,兼顧治理的統一協調與規則的垂直細分大模型的出現標志著社會生產方式的劃時代革新,其覆蓋的產業版圖極為全面,包含從芯片、高性能計算集群、圖形處理器等硬件部署,到數據及各類語言的學習與處理、算法與模型搭建、內容生成、全場景泛語言多任務的處理應用的軟件研發運營;其涉及的法律領域相當廣泛,包括網絡安全與數據治理、個人隱私保護、知識產權、反不正當競爭、產品市場監督等各類合規要素。
194、針對這一復雜多變的“龐然大物”,境外各主要地區的立法思路不約而同地遵循了“橫向監管”與“縱向監管”兩條主要路徑。所謂橫向監管,指以大模型這一整體概念為核心,建立一套統一的、普遍適用于各類大模型的、跨越多個行業不同主管部門的監管規則,目的是為大模型監管提供統一的標準以規制并引導行業發展,所體現的立法理念是“概念先行”。其表現形式通常為一部綜合性法律法規(“橫向法規”),配套一系列橫向的統一監管工具(“橫向監管工具”),例如登記、備案及評估系統等。橫向監管的優點主要體現在以下幾個方面:(1)一致性。橫向監管將大模型所涉及的普遍風險進行了統一規定,使得各類大模型間的監管標準一致,可以減少監管規則的沖
195、突、混淆與重復,降低企業及機構的合規成本;(2)開放性。橫向監管可以對大模型采取較為廣泛和開放的定義,并闡述大模型所適用的普遍原則(例如歐洲、美國、英國等地均在各類法規政策中反復強調的合法、安全、透明、穩健、反歧視、人工監督、符合倫理、保護個人隱私、增進社會福利等原則),使其可以涵蓋大模型未來的各種創新形式,一定程度上避免因為舊概念無法適75大模型合規白皮書用于新發展而帶來的立法滯后、監管缺失以及重復立法、資源浪費,也避免因為某一大模型可能同時落入多個縱向法規的規制范圍而產生法規的適用沖突;(3)全面性。橫向監管可以將各類合規要素均納入綜合性立法的考量之中,避免遺漏一些不在特定縱向監管范圍內的
196、問題;(4)可預測性。單一且固定的橫向監管工具為企業提供了監管的可預測性。所謂縱向監管,指將大模型根據不同功能進行拆解細分,并針對每一種功能類型的大模型單獨規定其合規要點,以便更精確地解決某一領域存在的特定問題,所體現的立法理念是“實踐先行”。其表現形式通常為多部針對性法律法規并行(“縱向法規”)??v向監管的優點主要體現在以下幾個方面:(1)針對性??v向監管可以更有效地解決某一特定類型的大模型所存在的特定問題,提高法律法規的可適用性與治理效率,做到對癥下藥、量身定制,避免過于寬泛的合規要求所導致的高昂合規成本以及部分條款適用性存疑所導致的合規焦慮;(2)靈活性??v向監管允許監管機構在短時間內針
197、對新的技術或行業發展及時推出新的監管規則并調整監管策略,但因避免由于法律體系過于龐大,需要考慮條款間協調性與新舊條款融合銜接。參考各國治理策略,我國對于大模型的監管可以考慮兼采橫向、縱向監管之所長,針對不同的生產環節,分別適用不同的監管策略。一方面,大模型和人工智能二者在運行邏輯上緊密相連,因此,可以考慮采用以單部橫向法規作為主體,并配合統一的橫向監管工具。另一方面,針對大模型中的重點類型、主要功能,可以設置多部針對性法律法規予以規制;同時,考慮到不同類型的大模型所需要遵守的標準以及監管重點不同,在橫向監管工具的具體適用中(例如評估準則、備案信息清單等),可以嵌入縱向監管標準(例如針對特定行業
198、的垂直大模型委托第三方機構制定行業標準)。在大模型產品、大模型服務的發布前環節(包括設計、開發、部署),可以考慮采取“縱向監管優先+橫向監管兜底”的方式,即倘若企業所研發的大模型相關技術(例如深度合成)落入某一特定縱向法規的管理范疇,則該縱向法規的要求應當優先適用,但是倘若針對該等技術并無任何可適用的現存縱向法規,則可以由橫向法規作為兜底性條款起到規范作用,避免監管缺口。針對產品和/或76大模型合規白皮書服務的審核環節以及使用環節,可采用固定的橫向監管工具進行統一監管,降低合規成本。同時,在具體的法律條款中,亦需要針對不同的環節設定不同等級的合規要求。(b)明確責任主體,確定責任分配目前,總體
199、而言,我國現行的大模型監管體系主要采取的是縱向法規與橫向監管工具并行的策略,現行的主要法律法規和相關規定針對的主要是特定的深度合成等技術本身,同時采用了包括算法備案在內的、未來可能能夠擴展適用于其他類型的監管工具。然而,各項規定之間的概念難以實現統一已經成為了目前較為凸顯的問題之一。例如,深度合成管理規定區分了“深度合成服務提供者”和“深度合成服務技術支持者”;AIGC 暫行辦法主要明確了“生成式人工智能服務提供者”的合規義務;算法推薦管理規定則主要針對“算法推薦服務提供者”提出了合規的系列要求。但事實上,大模型產業鏈中從研發到投放市場、交付使用,所涉及的主體眾多,所涉及的法律關系亦較為復雜,
200、包括自行及委托研發、人工智能集成、商業運營、分銷、跨境許可等,概念的劃分模糊可能導致責任承擔不明晰,監管問責也將付之闕如。歐盟的 人工智能法案 提案可能可以為我國的法律規范體系提供部分思路。人工智能法案將責任主體劃分為提供方、部署方、進口方、分銷商四種角色。由于提供方對于系統的控制力度最強,因此,提供方在人工智能法案項下需要承擔的合規義務相對最重,但當部署方、進口方和分銷商對系統進行了署名或者進行了實質性的修改,從而被認為在相當程度上控制了系統時,將被視為提供方,亦需要承擔較重的合規義務。(2)為合規大模型的研發與應用提供資金支持和稅收優惠 資金支持:為鼓勵企業和研究機構研發符合合規要求的大模
201、型,政府可以設立特定的資金池,專門用于支持該方面的研究和項目。此類資金支77大模型合規白皮書持不僅能夠緩解企業和研究機構在研發階段的資金壓力,更能夠引導整個行業向合規方向發展。稅收優惠:除了直接資金支持,政府可以通過稅收優惠的方式,為大模型的研發與應用提供更多激勵。例如,對于在大模型研發和應用方面做出顯著貢獻的企業以及獲獎企業等,可以給予一定比例的稅收減免或退稅,從而鼓勵更多企業參與大模型的研發與應用。(3)與行業進行深度合作,共建合規監管體系在構建大模型合規生態的過程中,政府與行業之間的合作尤為關鍵。政府可以通過各種渠道,如研討會、論壇等,與行業進行深度互動,了解行業的實際需求和問題,打造出
202、既能滿足技術發展需求,又能確保社會公眾利益的合規框架。建立溝通機制:政府應當建立如定期政策研討會、行業論壇、工作小組等與行業之間的常態化溝通機制,在確保行業聲音被真正聽到的同時,也讓政府的政策制定更加接地氣、具有針對性。共同制定標準:技術與合規的標準并非一成不變,隨著技術發展,這些標準也需要隨之調整。政府應該與行業專家、高校學者、企業代表共同制定和完善相關技術與合規標準,確保其兼顧科學性與實用性。鼓勵行業自律:除了外部監管,政府應當鼓勵行業自我監管。例如,支持行業組織制定專門的行為準則或倫理守則,為行業內的企業和個人提供行為指導。組織培訓與教育:對于大模型合規的要求和標準,不僅行業內部需要了解
203、,公眾也需要有所認識。政府可以通過組織培訓和教育活動,幫助行業和公眾更好地理解和應對合規性問題,協助用好大模型這一生產力工具。78大模型合規白皮書2.企業創新與責任擔當(1)注重大模型的自我治理與社會責任在數字化時代,企業的責任不僅僅局限于提供高質量的產品和服務,還需要確保其行為和創新對社會產生正面影響。對于從事大模型研發和應用的企業而言,自我治理和擔當社會責任至關重要。建立完善的自我監管機制:企業應建立一套內部審核與評估機制,確保大模型的研發與應用過程中能夠滿足法律、倫理和社會的要求,其包括但不限于對模型的輸入輸出內容進行審查、對模型的決策邏輯進行透明化,以及定期進行模型的合規性檢查。強化企
204、業社會責任文化:企業應當將社會責任意識融入公司文化中,積極參與公益活動,加強與社區和非政府組織的合作,以弘揚企業的正面形象和增強公眾信任。與社會持續溝通交流:企業需定期與社會各方進行溝通與交流,通過公開座談會、聽證會或社交媒體平臺等方式,聽取外部對其大模型應用的意見和建議。公開透明的責任報告:企業應考慮定期發布關于大模型的責任報告,內容包括模型的研發、應用、影響評估以及面臨的挑戰和解決方案,向公眾展示其在合規、倫理和社會責任方面所做的努力。促進多方利益平衡:在追求利潤的同時,企業還需確保技術創新帶來的社會效益,這意味著在決策過程中要充分考慮消費者、員工、股東和社會的利益,并努力實現其中的利益平
205、衡。(2)重視技術研發與模型優化技術的不斷進步與創新是推動大模型走向合規的核心動力。企業若想在競79大模型合規白皮書爭激烈的市場環境中長期穩定發展,必須將研發和模型優化置于首位。持續增加研發投入:企業應持續增加對技術研發的資金投入,鼓勵團隊深入研究和探索更先進、更高效的模型算法。這不僅能提高模型的性能,還能為企業在合規性方面帶來先發優勢。與學術界緊密合作:與全球頂尖的學術機構和研究者建立合作關系,可以幫助企業緊跟最新的技術發展趨勢,確保技術研發的方向與國際前沿水平保持一致。關注用戶反饋與需求:用戶是大模型應用的最終受益者,企業應定期收集并分析用戶反饋,根據反饋對模型進行優化,確保其更好地滿足用
206、戶實際需求??珙I域技術融合:大模型的發展不僅僅依賴于單一技術,還需要與其他技術領域(如隱私計算、邊緣計算等)進行融合,從而帶來更加高效、安全和合規的應用解決方案。(3)加強與其他參與方的溝通與合作大模型的研發、應用和管理是一個涉及多方的復雜過程。為確保大模型的合規性和有效性,企業不能單打獨斗,必須加強與各相關參與方的溝通和合作。這不僅有助于企業更好理解和應對合規性挑戰,還能為整個行業帶來更加完善和統一的合規框架。只有在各方共同努力下,大模型才能真正為社會帶來持久和廣泛的價值。與政府和監管機構建立對話機制:企業應主動與政府和相關監管機構建立常態化的對話與溝通機制,及時了解政策方向和監管要求,為政
207、策制定提供行業實踐和技術建議。與同行業企業展開合作:在合規性問題上,企業之間不應僅視對方為競爭對手,應當共同研發技術標準,分享最佳實踐案例,以及協同應對潛80大模型合規白皮書在的技術、安全和倫理挑戰。同時,企業也應與國際組織和跨國公司建立合作關系,共同探討和制定國際合規標準和最佳實踐方式。參與或創建多方協同的行業聯盟:通過參與或創建行業聯盟,企業可以與各方共同探討合規性問題,分享資源,合作研發,從而提高整個行業的合規性水平。3.社會組織加強協同合作(1)加強大模型監督與評估隨著技術快速發展,確保大模型的合規性和公正性至關重要,而社會組織在大模型的監督與評估中發揮的作用不可忽視。例如,非政府組織
208、、研究機構和行業協會通過編制發布大模型開發與運營相關的行業性規范,可以保證大模型技術在帶來革命性改變的同時,不損害公眾利益。設立第三方評估機構:設立獨立于企業和政府的第三方評估機構,開展客觀、公正的大模型評估,深入挖掘和識別模型中的偏見、不公和其他潛在問題。提高透明度和可解釋性:通過監督企業公開或部分公開其模型的工作機制、數據來源和訓練方法,提高整個行業的透明度,使復雜的模型更加可解釋,幫助公眾和決策者更好理解模型的決策邏輯。舉辦公開評估和測試:組織公開的模型評估和測試活動,提高社會影響力,助力推動行業標準制定,鼓勵企業采用更高的技術和倫理標準,促進模型透明度提升。(2)開展大模型相關的教育與
209、培訓社會組織應加強大模型技術宣傳和教育培訓,培養一批有知識、有技能、有責任心的新一代從業者,確保大模型技術在發展中獲得公眾支持和信賴,為81大模型合規白皮書其在各個行業的應用創造有利條件。組織專題講座和研討會:通過定期的講座、研討會或工作坊,企業分享最新科研成果,向公眾、政府官員傳遞關于大模型的最新研究、最佳實踐和倫理標準,政府人員也能夠及時分享與公布最新政策。開發教育課程:建議與教育機構合作,制作并發布易于理解的教育材料并進行推廣,如視頻、動畫、互動教程等開發大模型所需的相關技術教育課程,向未來技術人員和決策者提供充分的知識普及。與企業和研究機構合作:與行業領先的企業和研究機構合作,確保其教
210、育和培訓內容與實際應用和前沿研究保持同步,推動產學研快速轉化。(3)與政府、企業建立對話機制社會組織作為核心媒介應為企業和政府的溝通提供交流載體,通過持續、透明和多方參與的對話,使相關主體共同參與大模型合規決策。建立交流互動平臺:通過設立定期的圓桌論壇、工作小組或研討會,為政府、企業和公眾之間建立溝通橋梁,促進政府、企業和其他利益相關者提供交換觀點、分享經驗和探討解決方案的平臺,加強互信和合作。收集和響應公眾反饋:作為與公眾之間的橋梁,社會組織應當為公眾打造分享觀點、提出疑慮和建議的平臺,定期收集公眾對大模型應用的看法和反饋,以深入探討大模型技術背后的倫理和社會影響。同時,將社會聲音反饋給企業
211、與政府,幫助企業和政府調整策略,確保技術真正服務于社會。應對突發事件:在大模型應用中可能出現的突發事件或爭議情況下,社會組織可以作為調解者或顧問,協助各方共同應對和解決問題。主編單位:金杜律師事務所上海人工智能研究院華為技術有限公司上海昇思 AI 框架&大模型創新中心專家指導委員會:宋海濤、聶衛東、李學堯、王永全、丁誠編審委員會:張逸瑞、陳府申、錢琪欣、劉燕京、楊浩、房思哲編輯委員會:主編:孫麗、馮寶寶成員:鄧志輝、朱佳蔚、吳之洲、張一凡、張中陽、張津豪周彤、侯玉杰、賈挺猛、唐晟凌、黃中斌、康起明蔣世聰、潘一颿(姓氏筆畫排序)聲明:本出版物不代表金杜律師事務所對有關問題的法律意見,不代表上海人工智能研究院對有關問題的立場,僅供讀者參考。任何僅僅依照本出版物的全部或部分內容而做出的作為和不作為決定及因此造成的后果由行為人自行負責。如您需要法律意見或其他專家意見,應該向具有相關資格的專業人士尋求專業的法律幫助。本出版物中,凡提及“香港”、“澳門”、“臺灣”,將分別被詮釋為“中國香港特別行政區”、“中國澳門特別行政區”、“中國臺灣地區”。版權聲明:金杜律師事務所、上海人工智能研究院 2023 年版權共同所有如需了解更多信息,請訪問