1、12024 年年第第11 期期2大模型技術專利態勢大模型技術專利態勢編者按編者按AI 大模型是通過預先在海量數據上進行大規模訓練,而后能通過微調以適應一系列下游任務的通用人工智能模型。大模型按照功能可分為自然語言處理(NLP)大模型、計算機視覺(CV)大模型、科學計算大模型和多模態大模型四類。目前,AI 大模型是實現通用人工智能(AGI)的重要路徑。AI 大模型已成為優化算力瓶頸、放大數據優勢、發展數字經濟的重要拼圖。據統計,亞洲已成為 AI 大模型技術的主要產出區,中國為 AI 大模型專利最多產出國,粵港澳大灣區 AI 大模型專利位居四大灣區之首。美國 IBM 領跑生成式人工智能(GenAI
2、)專利,Meta 公開了大模型代碼 Code Llama,華為公開了可保護 AI大模型版權的專利。專利應用領域,韓國發布了世界首個超大型專利領域大語言模型,3智慧芽已實現 AI 大模型在專利等垂直領域應用等。筆者從知識產權的角度,梳理了大模型技術全球發展動態、國內發展動態、挑戰與思考,供讀者參考。目目4錄錄全球發展動態全球發展動態.3大模型主要分四大功能類型.3IBM 公司領跑 GenAI 專利.5亞洲成為AI大模型技術的主要產出區.8Meta 公開大模型代碼 Code Llama.9韓國發布世界首個超大型專利領域大語言模型.9國內發展動態國內發展動態.10我國大模型專利申請總數突破4萬余件.
3、10粵港澳大灣區AI大模型專利位居四大灣區之首.13智慧芽實現AI大模型在專利等垂直領域應用.15華為公開可保護AI大模型版權的專利.16挑戰與思考挑戰與思考.17AI基礎模型與知識產權.17OpenAI 因 AI模型訓練面臨版權訴訟.195全球發展動態全球發展動態大模型分為大模型分為 NLP、CV、科學計算、多模態大模型四類、科學計算、多模態大模型四類人工智能大模型是在參數和架構的基礎上構建起來的一種結構,是人工智能邁向通用智能的里程碑技術,通過預先在海量數據上進行大規模訓練,而后能通過微調以適應一系列下游任務的通用人工智能模型。在“大數據+大算力+強算法”的加持下,進一步通過“提示+指令微
4、調+人類反饋”方式,可以實現一個模型應用在很多不同領域?;A模型是一種機器學習模型,它在廣泛的數據基礎上進行訓練,從而可以應用于各種用例?;A模型改變了人工智能(AI),為 ChatGPT 等著名的生成式人工智能應用提供了動力?;A模型是一種通用技術,可以支持各種不同的用例。建立基礎模型通常是高度資源密集型的,最昂貴的模型需要花費數億美元來支付所需的底層數據和計算費用。6圖1 大模型技術原理按照功能可分為 NLP 大模型、CV 大模型、科學計算大模型和多模態大模型。NLP(Natural Language Processing,自然語言處理)大模型:LLM為 NLP 大模型的一種,主要用于處理
5、自然語言文本數據,具備強大的語言理解和生成能力,幫助人奏完成問答、創作、文本等工作,例如 OpenAI 的 GPT 系列模型;CV(Computer Vision,計算機視覺)大模型:主要用于處理圖像和視頻數據,具備強大的圍像識別和視頻分析能力,如人臉識別、物體檢測等,具體可以在智能駕駛、安防等領圾進行利用,例如騰訊的PCAM 大模型;科學計算大模型:主要用于解決科學領圾的計算問題,如生物信息學、材7科科學、氣侯模擬等,需要處理大規模教值數據,例和華為的盤古氣象模型;多模態大模型:可以同時處理多種類型的模態數據,如文本、圍像、語音等,實現跨模態搜索、跨模態生成等任務,已有的滲透應用具休包括搜索
6、引學、辦公工具、全融電商等,例如谷歌的Vision Transformer 模型。表 1 AI 大模型基本分類資料來源:中航證券 資料來源:中航證券 2024-01-24 研究報告研究報告IBM公司領跑公司領跑 GenAI 專利專利在整個人工智能領域中,有一個子集生成式人工智能(Generative AI,GenAI),不僅經過訓練可以識別模式,而且還被賦予了類似人類的能力,可以生成自己的內容,無論是文字、圖片還是視頻。據估計,人工智能領域約有22%的專利與 GenAI 有關。這些技術的核心是生成對抗網絡(機器學習的一8種)、大型語言模型和被稱為生成預訓練轉換器的神經網絡模型(GPT 縮寫背后
7、的技術,現已成為GenAI 的同義詞)。在過去幾年中,GenAI 專利申請的趨勢線表明,這一新興技術的發展勢頭正日益強勁。在過去五年中,該領域的專利授權年復合增長率為 16%,而作為衡量公司目前正在追逐的熱門技術的最佳指標專利申請則以 31%的速度增長。圖 1 GenAI 專利申請和授權發展趨勢就試圖保護其 GenAI 創新成果的公司而言,IBM 是在人工智能熱潮中翩翩起舞的大象,它擁有 1591 項應用,比谷歌多三分之一。IBM 此前宣布將采取更具選擇性的專利戰略,重點關注五大領域,人工智能就是其中一個創新領域。此外,排名第三的微軟自 2019 年以來已向 OpenAI 投資了 100 多億
8、美元。排名前十的其他公司包括三星、Adobe、英特爾、Capital One 和百度。9ChatGPT 背后的公司現在幾乎家喻戶曉,而它卻不是 GenAI 的十大申請者之一,甚至沒有進入前 25 名。事實上,IFI CLAIMS 能找到的專利還不到五項。也就是說,可能有更多的申請尚未公開?;蛘?,OpenAI 可能在很大程度上依賴于商業秘密以保持其專有技術和模式的秘密性。該公司的基礎技術肯定與大型語言模型和使用人工神經網絡的轉換器架構有關這些技術已被許多其他公司開發和使用。例如,當明確搜索生成式預訓練轉換器技術時,發現了來 自 IBM、谷 歌、微 軟、Salesforce 和 Adobe 等 公
9、 司 的 專 利。例 如,Salesforce 在一年多前獲得的 US11487999B2 申請涉及通過預訓練語言模型進行空間時間推理。圖 2 GenAI 技術主要專利申請人任何發明都建立在前人的專利和技術架構之上,GenAI 在這方面也不例外。10許多底層技術在過去幾年中已經被創造和改進,直到它們開始融合,形成了一個可以獨立創造新主題的技術基礎架構。模式識別、自然語言數據處理、語音和圖像識別都是任何人工智能(尤其是 GenAI)所需的技術能力。根據 IFI 的分析,GenAI 最倚重的專利類別是名為“基于生物模型的計算安排”的子類別。這種生物技術有助于推動醫學、生態學、微生物學和病毒學等領域
10、的發展。比方說,能夠創建一個虛擬心臟來預測心血管疾病的發病順序,或者繪制出像COVID-19 這樣的傳染病地圖,然后預測疫苗接種率的結果,這些都是對社會的巨大貢獻。但該專利子類的關鍵技術之一是深度學習,尤其是一種名為卷積神經網絡的技術。例如,這種網絡可以幫助機器像人類一樣觀察和解讀圖像,這使得該專利類別成為GenAI 的基石。11圖3 為 GenAI 奠定基礎的專利技術領域除了擁有最多的 GenAI 專利外,IBM 還涵蓋了內容生成的四個基礎領域:圖像、語音、文本和視頻。谷歌和三星也在做同樣的事情,而其他公司則專注于特定的能力。下面是一個正在申請中的谷歌語音生成專利的例子:EP4268225A
11、1;還 有 一 個 來 自 Adobe 的 生 成 圖 像 的 應 用:US20230230198A1。在內容生成技術方面,Nvidia 的專利主要集中在圖像和視頻方面。例如,去年八月提交的一項待審申請涵蓋了檢測和放大視頻會議中發言者的技術:US20230394627A1。Nvidia 的影響力遠不止于 GenAI 專利。該公司強大的GPU 和 CUDA 框架正在推動這一領域的發展。2023 年,對其工具的需求急劇12上升,股價也隨之飆升,全年漲幅超過 230%。在公司最近發布的季度財報中,創始人兼首席執行官黃仁勛表示,公司正處于“全速增長”階段。這種斷崖式增長的根源是什么?他說:“生成式人工
12、智能時代正在起飛?!眻D4 各公司的GenAI 應用領域資 料 來 源:資 料 來 源:IFI Insights:Opening the Patent Picture onGenerative AI.2024-03-01.https:/ AI大模型技術的主要產出區大模型技術的主要產出區1 月 10日,博鰲亞洲論壇創新報告2023(簡稱報告)在廣州發13布,指出亞洲已成為AI 大模型技術的主要產出區。其中,中國為AI 大模型專利最多產出國。華南理工大學法學院知識產權研究所所長關永紅解讀報告提及,截至2023 年6月,中國AI 大模型專利數量占比高達58%,韓國(占比 8%)和日本(占比5%)也是亞
13、洲專利主要產出地區;美國占比為18%。關永紅表示,截至2023年10 月,國內大模型達到 238個,但截至5 月只有79個,反映中國大模型快速增長態勢。迄今為止,華為仍是全球最大的PCT 專利申請人,2022年公布了 7689件 PCT 申請,緊隨其后的是韓國的三星電子(4387件)和美國的高通公司(3855 件)。資料來源:灣區經濟觀察 資料來源:灣區經濟觀察 2024-01-11 新聞新聞Meta公開大模型代碼公開大模型代碼 Code Llama2023 年 8 月 24 日,Meta 發布了基于 Llama 2 的代碼大型語言模型系列Code Llama,該系列在開放模型、填充功能、大型
14、輸入上下文支持以及編程任務的零點指令跟蹤能力方面具有最先進的性能。Meta 提供多種類型的模型,14以覆蓋廣泛的應用領域:基礎模型(Code Llama)、Python 專用模型(Code Llama-Python)和指令跟蹤模型(Code Llama-Instruct),每種模型有 7B、13B 和 34B 參數。所有模型都是在 16k 個詞組的序列上進行訓練的,在多達 100k 個詞組的輸入上都有改進。7B 和 13B 的 Code Llama 和Code Llama-Instruct 變體支持基于周圍內容的填充。Code Llama 在多個代碼基準測試中達到了開放模型中最先進的性能,在
15、HumanEval 和 MBPP 測試中的得分分別高達 53%和 55%。值得注意的是,Code Llama-Python7B 在 HumanEval 和 MBPP 上的表現優于 Llama 2 70B,而在 MultiPL-E 上,所有模型都優于其他所有公開發表的模型。Meta 在允許研究和商業使用的許可下發布Code Llama。資料來源:資料來源:Code Llama:Open Foundation Models for Code.2023.08.242024-03-01.https:/ 年 12 月 21 日,韓國知識產權局(KIPO)與 LG 人工智能研究院舉15辦了專利領域人工智能
16、(AI)開發合作成果的發布會,該成果是以專利領域大語言模型為基礎,開發的超大型 AI 審查系統,將于明年正式啟動,這將是全球首個合作建立的專利領域大語言模型。2023 年 7 月 14 日,KIPO 與LG 人工智能研究院簽訂業務協議,將人工智能技術應用于專利創新管理,構建超大型專利專用大語言模型是其首個合作任務。該大語言模型是在 LG 人工智能研究院擁有的超大型人工智能“EXAONE”上,學習與專利管理相關的七種類型信息(1.78TB),涵蓋韓文/英文專利公報、通知書、機器翻譯、CPC 分類、機器閱讀信息、咨詢案例集。此外,考慮到 KIPO 的應用場景和目標,設計了 88 個億參數,通過兩次
17、學習過程提高性能。該大語言模型在性能評估、摘要總結、翻譯等表現中都取得了高于平均水平的結果,預計在針對各個領域進行進一步的調整后,有望實現更高的性能。KIPO 計劃以此次構建的專利專用大語言模型為基礎,2024 年開始正式啟動研發專利檢索、分類等審查業務。KIPO 將繼續通過積極引入專利管理領域的創新技術來推動專利制度的發展,而 LG 人工智能研究院也將根據專利文獻學習優化 EXAONE,提升專利創新領16域的工作效率,成為韓國人工智能產業發展的基礎。資料來源:中國科學院知識產權信息 資料來源:中國科學院知識產權信息 2023-12-27 新聞新聞國內發展動態國內發展動態我國大模型專利申請總數
18、突破我國大模型專利申請總數突破4 萬余件萬余件2023 年 11 月 20 日,國家工業信息安全發展研究中心、工信部電子知識產權中心發布中國 AI 大模型創新和專利技術分析報告(下稱報告),展示了我國自 2017 年以來大模型專利技術布局、競爭態勢以及發展趨勢,從專利視角揭示了大模型技術的演進歷程以及產業全景,并對未來大模型的專利布局、技術創新及產業發展提出展望。報告顯示,我國大模型專利申請總數突破 4 萬余件,呈現出強勁的增長勢頭。其中,百度、騰訊、阿里等國內頭部企業表現突出,涌現出大量專利創新成果。百度、騰訊、阿里等企業專利申請數量均突破 400 件,百度、騰訊專利授權量均突破 100 件
19、。排名前十位的企業主體總計申請專利達 3800 余件,授權專利 960 余件,分別占我國大模型創新主體專利總數的 9.6%和 8.7%。17以百度為代表的大模型頭部企業,通過不斷的技術創新和專利積累,正加速推動我國大模型生態的構建和發展。圖 1 AI 大模型專利企業創新主體排名報告針對主要創新主體的專利進行了技術功效矩陣分析,分析顯示專利布局主要集中在大模型準確度提升、精度提高、速度及效率加快、成本優化控制等維度,這些維度成為百度、騰訊、阿里等公司專利布局的重點。百度在上述維度的專利布局優勢明顯,騰訊在大模型準確度提升及效率加快等布局較為活躍,阿里也進行了相應維度的專利布局。值得一提的是,百度
20、有兩件涉及信息生成和語義表示模型的專利,其被引用次數分別達到了 43 次和 31 次,凸顯出大模型相關專利在人工智能技術發展中的前瞻性和重要性。18圖 2 AI 大模型主要創新主體技術功效矩陣報告顯示,多模態融合和跨領域應用是大模型專利技術的發展趨勢,軟件業、制造業及服務業等是我國大模型創新主體專利布局較多的行業,專利布局數量分別為 3.6萬件、3.4萬件、2.8萬件。從主要創新主體的應用場景分布看,百度、騰訊、阿里等企業深入推進專利產業化發展,在軟件業、制造業等眾多行業的專利布局較多。據報道,百度推出的智能云開物工業互聯網平臺是率先融合大模型技術和產業的“雙跨”平臺,加速推動工業互聯網落地,
21、已積累 4 萬多個工業模型和智能應用。19圖 3 AI 大模型主要創新主體行業應用分布報告對我國大模型創新主體的高價值專利及創新競爭指數進行了評價。結果顯示,互聯網公司以及電子科技領軍企業大模型技術創新優勢明顯。百度、阿里、華為、騰訊等大模型領域優勢企業位居榜單前列,京東、浪潮及科大訊飛等科技企業創新也較為活躍,共同助推國產大模型發展提速。此外,平安科技和國家電網入圍前十,也表明人工智能大模型技術正不斷向各個應用場景滲透,不同行業的創新主體紛紛加碼人工智能大模型研發投入,我國大模型產業創新水平正不斷提升。表 1 中國AI 大模型高價值專利及創新競爭指數排名20報告指出,高校及科研院所在大模型領
22、域技術創新活躍,涌現了大量專利成果。從 2017 年起至 2023 年 9 月底,高校及科研院所共申請大模型相關專利數量約 2.2 萬件,占我國大模型專利總數 54.7%,成為大模型創新的重要主體??萍季揞^及互聯網企業不斷推進產學研協同創新,通過成立聯合實驗室和技術研發中心等方式共同開發大模型應用產品,加快推動高校專利產業化應用。報告顯示,中小企業積極涌入大模型賽道。我國大模型領域企業主體共申請專利超過 1.8 萬件,中小企業專利貢獻超過 80%。推進大中小企業融通發展,在細分領域的技術創新及場景應用開展深度合作,有助于形成多元、開放、共贏、可持續的發展格局,將為我國大模型生態構建提供生動實踐
23、路徑。21報告認為,全球大模型的競爭不僅僅是技術層面的競爭,關鍵是生態層面的競爭,重點在于以大模型為基礎匯聚更多創新主體構建上層應用,構筑市場競爭優勢。我國專利申請及授權趨勢仍保持快速增長,高校(科研機構)及中小企業等創新主體創新活躍度不斷提升,知識產權生態建設不斷完善。下一步,我國應在大模型知識產權創造及保護、大中小企業及產學研深度協同創新、開辟更多專利應用場景等方面持續發力,持續推動國產大模型技術突破和生態繁榮。資料來源:資料來源:1中國日報 中國日報 2023-11-20 新聞新聞2IPRdaily 2023-11-20 新聞新聞粵港澳大灣區粵港澳大灣區 AI大模型專利位居四大灣區之首大
24、模型專利位居四大灣區之首博鰲亞洲論壇創新報告 2023顯示,對標紐約、東京等灣區,聚焦四大專利指標(發明專利、PCT 專利、同族專利、專利被引頻次),粵港澳大灣區的 AI 大模型技術專利綜合能力已經超越世界其他灣區。在發明專利和同族專利方面,粵港澳大灣區公開量和復合增長率位居四大22灣區之首:2017-2021 年,發明專利公開總量及復合增長率分別為 176.9 萬件和 21.74%;同族專利公開量 303.21 萬件,數量多于其他三大灣區總和兩倍有余,復合增長率為20.24%。分行業來看,粵港澳大灣區的發明專利集中在新一代信息技術領域,占比達 62.37%,數字創意產業占比為 19.63%。
25、新能源汽車相關服務、新材料和生物產業也是主要行業。高附加值的消費電子、新能源、新材料等先進制造集群是粵港澳大灣區發展AI 大模型的基礎。OPPO、vivo、榮耀等手機廠商也紛紛下場。vivo 在 2023 年11 月發布藍心大模型,OPPO 在今年 1月宣布 AI 大模型在手機端落地。1 月 10 日,vivo 智能交互技術總監付凡提出,模型本質上是一種介質,“就跟人腦一樣,人腦大概有 860 億神經元,而 vivo 發布的模型可以達到約700億神經元的量級?!薄霸鯓幼屇P蛯W習人類的知識,需要通過模型結構跟數據去做這種算法知識,對模型信息進行壓縮。我們理解到的信息其實基于壓縮機制,對人類信息進
26、行集合、壓縮?;谶@個前提,模型的智能就能體現在對人類所有知識的匯總?!?3付凡說。付凡透露道,vivo 從 2018 年成立研究院對數據圖譜化處理:“目前整理了大概 1.3 萬 T 的多模態數據,包括音頻文字、圖像設計,提供給模型訓練的大概是 2800T 文本數據,最終模型會形成 15T 數據。15T 是什么概念?相當于電腦、手機硬盤的存儲大小?!睘榱颂峁┻@一量級的數據給大模型學習,在算力支持方面,“目前是頂級 GPU 大概 2000 卡的運行訓練,保證模型訓練的效率和穩定性?!薄澳壳拔覀兏惺艿侥P透嗟氖且粋€能力很強的文科生,其邏輯推理能力如何提升,跟心理學、營養學這樣面向用戶的科學該怎么
27、結合,是下一步我們需要探索的?!备斗卜Q。德勤中國科技、傳媒和電信行業主管合伙人程中認為,大模型將在產業端應用迎來需求爆發,例如能源行業探索“井下無人”,制造業開始探索無人化的黑燈工廠。2022 年,全球對 AGI 投資達約 45 億美元;2023 年第一季度該數值達到120億美元。大部分集中在技術端。24程中強調,AGI 撬動的只是一個熱點,回到產業端,這項投資要產生回報,有幾個不可忽視的話題。首先是工程體驗?!耙郧暗漠a業數字化里經常談敏捷開發,但這只能在技術上解決問題,未來更多的是工程體驗,解決 AI 人才極度短缺問題,提升工程師效率?!睌祿@示,全球來看,一個開發中的技術工程師平均一周工作
28、量大概是 41小時,“但這 41 個小時有接近一半的時間是在修復 bug,不是為了新的功能和效應。如果用工程體驗的模型去優化,讓這 21 小時變成 10 個或 5 個小時,會給企業端帶來很大的價值?!薄傲硗?,要考慮怎么利用通用大模型。很多企業在構建自己的私有模型,但這不叫大模型,因為私有模型的數據涉及商業核心價值。我們預測,未來私有的 AI 模型跟通用大模型、產業大模型可能是多者融合的狀態。算力方面,因為全球面臨缺芯,算力不可能會野蠻生長,也可以考慮用共享的模式讓算力更敏捷?!背讨刑岬?。資料來源:灣區經濟觀察 資料來源:灣區經濟觀察 2024-01-11 新聞新聞25智慧芽實現智慧芽實現 AI
29、大模型在專利等垂直領域應用大模型在專利等垂直領域應用2023 年 9 月,2023 智慧芽創新賦能大會在深圳舉行。目前,智慧芽已在行業內率先實現人工智能大模型在專利、生物醫藥等垂直領域的應用,同時,基于目前人工智能大模型的文本理解優勢,將在生物制藥、新能源、新材料等垂直領域率先應用落地。據智慧芽技術副總裁屠昶旸介紹,AI 大模型賦能業務是一個曲折但需要堅持的路徑。當前,智慧芽在大模型應用方面已構建了算法、數據、算力 3 大核心優勢。在算法方面,智慧芽擁有業內最大的算法團隊,積累了豐富的垂直行業 AI算法經驗,已在過去十余年間成功采用計算機視覺、機器學習、自然語言處理、神經網絡、OCR 識別、知
30、識圖譜、大模型技術等處理和分析各類數據,輔助用戶進行創新決策。在數據方面,智慧芽積累了海量的高質量數據,包括專利、生物醫藥、科創三大類140余項,如覆蓋全球 170個受理局的超1.8億專利數據、超1.1億26企業數據、超7 萬的全球新藥數據等。在算力方面,智慧芽已成功建立了專屬的 AI 訓練到推理的基礎平臺,可以為不同的 AI 應用提供高效、靈活、可擴展的計算資源,從而提高 AI 模型的性能和效率。以智慧芽生物醫藥大模型為例,“該模型包含 330 億參數,整合了專利、論文、書籍、臨床試驗等 100B+tokens 的行業數據,支持用戶進行多輪對話,集成了專家檢索、語義檢索等功能?!蓖狸茣D說道。
31、據其介紹,該大模型的應用能力已達到高分通過全國專利代理師資格考試的水平。臨床結果大模型可實現數十倍提升信息處理效率,且準確率達到 85%以上。在 AI 大模型的幫助下,原 20 名醫藥專家需耗費 2 年的時間才能完成的從 30 萬+文獻解析出 5 萬+臨床試驗結果的工作,現只需 5 名專家耗時 3 個月就能完成。此外,專利檢索專家、技術交底書助手、技術研發助理等 AI 大模型賦能的功能已在智慧芽各產品中進行內測?!拔磥?,智慧芽對內將全面應用 AI 大模型賦能自身所有產品線,對外將面27向科技企業輸出大模型解決方案,通過可落地的垂直模型結合企業內部數據,通過 AI 算法結合專家模型,對齊領域專家
32、知識庫能力幫助更多企業真正進化為AI First,從而實現創新生產力的提升?!蓖狸茣D說道。資料來源:資料來源:21世紀經濟報道 世紀經濟報道 2023-09-18 新聞新聞華為公開可保護華為公開可保護AI大模型版權的專利大模型版權的專利愛 企 查 App 顯 示,11 月 7 日,華 為 技 術 有 限 公 司 申 請 的 專 利CN117009989A“一種語言模型保護方法、裝置及計算設備集群”公布。該專利詳情如下:摘要:摘要:一種語言模型保護方法,包括:獲取用戶輸入的請求文本;在請求文本的類別屬于目標類別的情況下,將目標指令和請求文本輸入至目標語言模型進行處理,得到添加有水印詞的第一回復信
33、息,以及,輸出第一回復信息,其中,目標指令用于指示目標語言模型在對請求文本處理的結果中添加水??;在請求文本的類別不屬于目標類別的情況下,將請求文本輸入至目標語言模型進行處理,得到第二回復信息,以及,輸出該第二回復信息。這樣,在通過語28言模型處理特定類型的請求時,可以通過語言模型自動生成帶水印包含的回復信息,實現了在盡量不損傷模型生成文本質量的前提下提高語言模型的版權保護能力。技術背景:技術背景:大語言模型(large language model,LLM)是自然語言處理領域中非常重要的技術之一。大語言模型可以幫助用戶更好地理解和使用語言,從而提高用戶的生產力和溝通效率。大語言模型可以進行機器
34、翻譯、文本寫作、代碼編程和開放問答等諸多任務。開發基于大語言模型的系統需要高昂的機器和人力成本,因此大語言模型本身是公司構建 AI 競爭力的核心資產。目前,研究已經證實了通過模型竊取技術,可以用很低的成本實現大語言模型功能的復刻,從而導致大語言模型的知識產權遭到侵犯。因此,需要對大語言模型進行有效的保護,避免模型竊取的攻擊,實現對現有侵權行為的鑒定。發明目的或效果:發明目的或效果:能夠對大語言模型進行有效的保護,實現了在盡量不損傷模型生成文本質量的前提下提高語言模型的版權保護能力,降低了模型鑒權的難度。資料來源:資料來源:IT 之家 之家 2023-11-08,CN117009989A(公開日
35、:(公開日:2023-2911-07)挑戰與思考挑戰與思考AI基礎模型與知識產權基礎模型與知識產權英國英國CMA 對基礎模型的審查對基礎模型的審查英國競爭與市場管理局(CMA)最近宣布對人工智能基礎模型進行審查,作為其執行英國政府人工智能監管方法的一部分。CMA 的審查是對一項影響巨大的變革性技術的早期及時干預。遵守知識產權法以及對知識產權持有者的潛在影響不在 CMA 的審查范圍之內,但美國最近的事態發展已開始顯示出英國和歐洲可能出現的情況。美國:基礎模型與知識產權美國:基礎模型與知識產權基礎模型的許多內容都有可能受到版權保護,預計將有監管干預和訴訟來確定哪些內容可受保護,哪些內容不可受保護或
36、侵權。2023 年3月,美國版權局就如何處理包含人工智能生成材料的作品給出了明確的指導意見,指出:30“如果一部作品的傳統作者要素是由機器生成的,則該作品缺乏人類作者身份,版權局將不予注冊。這包括人工智能技術在沒有人類參與的情況下自主生成材料的情況。例如,當人工智能技術僅接收來自人類的提示,并產生復雜的文字、視覺或音樂作品作為回應時,作者權的傳統要素是由技術而非人類用戶決定和執行的”。美國的一個早期案例是 Getty Images 訴 Stability AI 案,Stability AI 創造了一種名為“Stable Diffusion”的圖像生成模型,利用人工智能根據文字提示提供“計算機合
37、成”圖像。蓋蒂公司在 2023 年 3 月 29 日的修訂訴狀中指控Stability AI 復制了蓋蒂圖片公司超過 1200萬張照片,侵犯了蓋蒂公司的版權、商標、商譽和網站使用條款。一個可能會引發更多問題的案件是針對共同被告 GitHub、微軟和 OpenAI提起的集體訴訟,該案指控 Copilot(一種在數十億行代碼基礎上訓練出來的代碼生成模型)在未獲得授權的情況下提供授權代碼片段的行為侵犯了版權。被告辯稱,該案應在幾乎所有方面被駁回-原告未能證明版權已經產生;未能31證明他們擁有版權;未能證明被告侵犯了版權;也未能證明原告遭受了任何損失。英國:基礎模型與知識產權英國:基礎模型與知識產權這
38、些案件的進展情況將引起各地人工智能咨詢律師的興趣。英國的情況又如何呢?以下是我們的十大要點:1)計算機生成作品:英國對計算機生成作品的處理方法與美國不同。根據英國1998 年版權、工業品外觀設計和專利法第 9(3)條,計算機生成作品的作者是為其創作做出安排的人;根據第 178 條,計算機生成作品是指由計算機生成的作品,該作品沒有人類作者。這樣看來,在英國你可以追溯到循環中的人,而在美國則不行。2)屏幕抓?。夯A模型的部分內容往往是通過網絡抓取和屏幕抓取創建的。許多網站的使用條款都禁止此類活動,Stability 和Copilot 案都包括違約索賠。3)基礎模型運營商的許可/服務條款:企業用戶需
39、要對這些條款進行仔細審查,因為其中包含一些陷阱,特別是在數據保護、保密、賠償、責任、許可范圍以及數據和衍生數據的所有權方面。324)文本和數據挖掘:歐盟在數字單一市場指令中采用了文本和數據挖掘(“TDM”)例外。它涵蓋“任何旨在分析數字形式文本和數據的自動分析技術,以生成包括但不限于模式、趨勢和相關性的信息”。這一例外可以通過適當表達的保留語言來推翻。英國在脫歐前并沒有頒布該指令,關于 TDM 例外的范圍已經有了很多討論:它在英國的落地仍是一個懸而未決的問題。5)英國“允許行為”的版權例外:在 TDM 例外之外,英國沒有美國“公平交易”的廣泛版權例外,被告可能很難將基礎模型納入英國更具體的允許
40、行為之一。6)數據庫權:數據庫權是英國和歐盟法律所特有的。原告可以聲稱基礎模型創作者摘錄或重復使用了原告數據庫中的內容,但歐洲國家法院和歐洲法院對數據庫權侵權索賠并不太同情。有點違反直覺的是,基礎模型經營者可能更容易對其創建的模型主張數據庫權。7)發布用于訓練人工智能模型的版權材料摘要:歐洲議會最近提議修訂人工智能法(drat AI Act),要求生成式基礎模型運營商公布用于訓練的版權材料摘要。8)輸入查詢和輸出響應中的版權等:最后,注意與輸入查詢和由這些查33詢生成的輸出響應有關的知識產權狀況。9)其他知識產權:考慮其他知識產權,如商業秘密、商標和發明權。10)數據保護等:知識產權只是受人工
41、智能影響的眾多法律領域之一,尤其不要忘記數據保護。與以往一樣,法律很難跟上技術的發展,但有了人工智能基礎模型,技術變革的速度更快,受影響的法律問題范圍也比我們以前所見的任何情況都要廣泛。資料來源:資料來源:AI Foundation Models And Intellectual Property.2023.06.232024-03-01.https:/ 因因AI模型訓練面臨版權訴訟模型訓練面臨版權訴訟在一項突破性的法律進展中,包括 GPT 3 和 GPT 4 在內的一些最先進語言模型背后的組織 OpenAI 發現自己卷入了一場于 2023 年 9 月 19 日提起的版權侵權訴訟。作家協會(T
42、he Authors Guild):由約翰-格里沙姆(John34Grisham)、伊琳-希爾德布蘭德(Elin Hilderbrand)、喬治-R-R-馬?。℅eorge R.R.Martin)等著名作家組成的團體聲稱,OpenAI 非法使用了他們擁有版權的作品來訓練語言模型,導致在未經他們同意的情況下創作了衍生作品。這起訴訟對人工智能領域、版權法和整個創意產業都具有深遠的影響,而且是在其他作家對OpenAI 提起一連串美國版權訴訟之后發生的。生成式人工智能的法律風險生成式人工智能的法律風險當人工智能模型在未經適當授權的情況下復制或轉換受版權保護的作品時,就會引發嚴重的知識產權侵權問題。確定
43、人工智能生成內容的所有權仍然是一個復雜的問題。是人工智能模型的創建者、提供提示的人,還是其他人?人工智能平臺通常在包含大量未授權作品的龐大數據集上進行訓練。這引發了人們對人工智能用戶是否可以在未經許可的情況下向這些平臺輸入受版權或商標保護的作品的擔憂。最近的訴訟,如安德森訴穩定人工智能等公司案和蓋蒂訴穩定擴散公司案,35都凸顯了生成式人工智能面臨的法律挑戰。這些案件提出了知識產權法中“衍生作品”的構成要素以及如何適用合理使用原則的問題。合理使用原則允許出于批評、評論、教學或研究等目的,在未經所有者同意的情況下有限度地使用受版權保護的材料。它在確定人工智能生成的內容是否侵犯版權方面起著至關重要的
44、作用。谷歌在一宗訴訟中辯稱其搜索引擎的文本搜刮構成合理使用,這一辯護成為科技與版權交叉領域的一個先例。它凸顯了版權材料轉換性使用的重要性。美國最高法院涉及安迪-沃霍爾基金會和攝影師林恩-戈德史密斯(LynnGoldsmith)的案件可能會重新定義版權法,解決什么是“轉換性”作品的問題。對沃霍爾不利的判決可能會影響人工智能生成的作品。作家協會訴訟概述作家協會訴訟概述這起由一群作家提起的訴訟稱,OpenAI 在未獲得適當許可的情況下利用了他們受版權保護的文學作品來訓練其語言模型。這引發了幾個有關版權侵權、合理使用和人工智能模型訓練邊界的關鍵問題。原告認為,OpenAI 的語言模型復制了他們受版權保
45、護的大量文本,從而侵36犯了他們作為創作者的專有權。他們認為,這種未經授權的復制構成了版權侵權。此外,作者協會還聲稱,在包含版權材料的數據集上訓練大型語言模型可能構成侵權。OpenAI 可能會反訴他們的使用屬于“合理使用”原則。合理使用允許在未經作者同意的情況下,出于批評、評論、新聞報道、教學、學術或研究等目的有限度地使用受版權保護的材料。然而,合理使用與侵權之間的界限可能很模糊,法院通常會根據具體情況做出裁決。作家協會還聲稱,OpenAI 的模型已經產生了基于其小說的衍生作品。這些未經授權的衍生作品有可能貶低原創作品的價值,損害作者的商業利益。作家協會訴訟的潛在影響作家協會訴訟的潛在影響該訴
46、訟強調了可能影響作家、創作者和人工智能開發者的幾個值得注意的問題:1)人工智能開發者和公司需要對用于訓練模型的資源保持警惕。該訴訟強調了獲得適當許可或確保其人工智能模型是在公共領域或授權內容上訓練的重要性。372)關于人工智能生成內容的合理使用問題的爭論可能會愈演愈烈。隨著人工智能越來越熟練地生成創意作品,法院將需要努力確定人工智能生成的內容何時構成合理使用,何時侵犯版權。3)作者和創作者可能必須積極主動地保護自己的知識產權。這起訴訟提醒人們,在人工智能可以大規模復制和篡改文本的時代,版權保護仍然至關重要。4)這起訴訟可能會促使政策制定者考慮制定相關法規,解決人工智能在侵犯版權方面的問題。平衡
47、技術進步與知識產權保護之間的關系將是一項復雜的任務。OpenAI 版權訴訟案將技術、創意和法律交匯處的一個緊迫問題推到了風口浪尖。隨著人工智能模型變得越來越復雜,解決版權問題將變得至關重要。作家和創作者應隨時了解人工智能生成內容的演變情況,而人工智能開發者則應謹慎行事,遵守版權法,以避免潛在的訴訟。這場訴訟的結果可能會為未來的案件開創先例,并影響人工智能用于生成、修改或復制創意作品的方式。就目前而言,它是一個嚴峻的警示:在數字時代,保護知識產權一如既往地重要。38資 料 來 源:資 料 來 源:OPENAI FACES COPYRIGHT LAWSUIT OVER AIMODEL TRAINING.2023.10.022024-03-01.https:/www.scintilla-