《通信行業深度:開源競速AI大模型的“Linux時刻”降臨-230531(27頁).pdf》由會員分享,可在線閱讀,更多相關《通信行業深度:開源競速AI大模型的“Linux時刻”降臨-230531(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 證券研究報告|行業深度 2023 年 05 月 31 日 通信通信 開源競速:開源競速:AI 大模型的大模型的“Linux 時刻時刻”降臨降臨 ChatGPT 發布后不久,Meta 就開源了類 GPT 大語言模型 LLaMA,此后,Alpaca、Vicuna、Koala 等多個大模型誕生,它們以遠低于 ChatGPT 的模型規模和成本,實現了令人矚目的性能,引發業內人士擔憂“谷歌和OpenAI 都沒有護城河,大模型門檻正被開源踏破,不合作就會被取代”。資本市場也在關注大模型未來競爭格局如何,模型小了是否不再需要大量算力,數據在其中又扮演了什么角
2、色?本報告試圖分析這波開源大語言模型風潮的共同點,回顧開源標桿 Linux 的發展史,回答這些問題。共同點一:始于開源。共同點一:始于開源。開源免費,開源的商業模式至少包括:1、靠服務變現。曾上市、后被 IBM 收購的 Linux 企業服務公司紅帽即是一例。企業為了更穩定和及時的技術支持,愿意付費。2、靠授權費變現。安卓開源,但谷歌向歐盟使用安卓谷歌套件的廠商收取許可費即是一例。3、許可證、標準和能力評價體系的發展,是開源大模型商用程度深化的催化劑。這波開源大模型采用的許可證協議主要是 Apache 2.0 和 MIT,它們不禁止商用,并且不禁止用戶修改模型后閉源,這有助于公司應用此類大模型。
3、共同點二:參數少、小型化。共同點二:參數少、小型化。相較于 GPT3+千億參數超大模型,這波開源大模型的參數量普遍在十億至百億級別。目前尚沒有一套系統的大模型性能評價體系,其中僅部分任務有公信力較強的評分標準。開源大模型中,Vicuna 的能力也較強,在部分任務能達到 92%GPT4 的效果??傮w來說,OpenAI GPT 系仍一騎絕塵,但訓練成本高,難復現。而開源大模型借助更大標識符訓練數據集、DeepSpeed、RLHF 等方式,實現低訓練成本和高性能,超大模型以下大模型的壁壘正在消失。共同點三:數據集重視人類指令,并走向商用。共同點三:數據集重視人類指令,并走向商用。ChatGPT 相較
4、于 GPT3 效果大幅提升的重要因素是使用了 RLHF(基于人類反饋的強化學習),即在訓練中,使用人類生成的答案和對 AI 生成內容的排序,來讓 AI“對齊”人類偏好。LLaMA 沒有使用指令微調,但 LLaMA 之后的大量大模型使用并開源了指令數據集,并且逐步探索自建指令數據集,而非使用有商用限制的 OpenAI 的,進一步降低了復現 GPT 的門檻,擴展了商用可用性。接下來怎么看開源大模型?接下來怎么看開源大模型?站在開源大模型浪潮中,我們注意到兩個趨勢:1)與多模態融合,清華大學的 VisualGLM-6B 即是著名開源語言模型ChatGLM 的多模態升級版,我們認為,其可基于消費級顯卡
5、在本地部署的特性是大勢所趨。2)開源模型+邊緣計算推動 AI 商用落地,哈爾濱大學的中文醫療問診模型“華駝”以及在跨境電商的使用就是案例。投資建議:投資建議:我們認為,對大模型的看法應該分時、分層看待。1、短期內,OpenAI 的 GPT 系超大模型仍然超越眾開源大模型,因此,應當重點關注與其在股權和產品上深度合作的微軟、能獲得 ChatGPTios App 收益分成的蘋果,以及超大模型的算力服務商英偉達等;2、中長期來看,如果部分開源大模型能力被進一步驗證,則應用將快速鋪開,大模型對算力將形成正循環;3、其他:邊緣算力、大數據公司和開源大模型服務商業態也值得關注。建議關注:1)智能模組服務商
6、:美格智能、廣和通;2)邊緣IDC 服務商:龍宇股份、網宿科技;3)光模塊服務商:中際旭創、新易盛、天孚通信、源杰科技;4)傳統的 IoT 通信芯片廠商:有望受益行業上行過程。建議關注:中興通訊、工業富聯、翱捷科技、初靈信息;5)應用端標的:愷英網絡、神州泰岳、佳訊飛鴻、中科金財等。風險提示風險提示:倫理風險、市場競爭風險、政策法律監管風險。增持增持(維持維持)行業行業走勢走勢 作者作者分析師宋嘉吉分析師宋嘉吉 執業證書編號:S0680519010002 郵箱: 分析師孫爽分析師孫爽 執業證書編號:S0680521050001 郵箱: 相關研究相關研究 1、通信:海外 AI 算力的新看點202
7、3-05-28 2、通信:邊緣計算始于 AI,賦能應用2023-05-21 3、通信:算力為王,中心、邊緣齊發力2023-05-21-16%0%16%32%48%64%2022-052022-092023-012023-05通信滬深3002023 年 05 月 31 日 P.2請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 內容目錄內容目錄 1 引言.4 1.1“谷歌和 OpenAI 都沒有護城河,大模型門檻正被開源踏破”.4 1.2 開源大模型集中出現,堪稱風潮.4 1.2.1“LLaMA 系”:表現好,但商用化程度低.4 1.2.2 Dolly2.0、RedPajama、StableLM
8、 等:商用化程度高.5 1.2.3 中文雙子星:ChatGLM-6B 和 MOSS.5 2 共同點一:始于開源.7 2.1 為什么要開源?.7 2.1.1 模型視角:防止大公司壟斷,破除商業禁用限制.7 2.1.2 數據視角:保護企業機密,使定制化數據訓練成為可能.7 2.1.3 算力視角:降低算力成本,使大模型的使用“普惠化”.7 2.2 開源,需要什么土壤?.7 2.2.1 從開源標桿 Linux 說開去.7 2.2.2 Linux 并非一己之作,借力于社區深厚的開源歷史.8 2.3 開源了,還怎么賺錢?.10 2.3.1 紅帽公司(Red Hat):服務至上.10 2.3.2 安卓系統(
9、Android):背靠谷歌,靠廣告變現.10 2.4 開源大模型主流許可證支持商用.11 3 共同點二:開源大模型參數少、小型化.12 3.1 超大模型和大模型分別多大?.12 3.2 GPT 系超大模型能力最強,但難復現.12 3.2.1 Vicuna:利用 GPT-4 評估.14 3.2.2 Zeno Build 測評:較新,較全面.14 3.2.3 C-Eval:全面的中文基礎模型評估套件.14 3.2.4 GPT 系超大模型訓練成本高,短期內難復現.15 3.3 開源大模型性價比高,超大模型以下大模型的壁壘正在消失.15 4 共同點三:開源大模型數據集重視人類指令,并自立門戶.17 4
10、.1 學習 ChatGPT 方法論,引入人類指令數據集.17 4.2 數據集走向商用.18 4.2.1 預訓練數據集少量可商用.18 4.2.2 指令數據集部分可商用.18 5 展望.20 5.1 多模態化:助力通用人工智能(AGI)發展.20 5.1.1 ImageBind 閃亮登場,用圖像打通 6 種模態.20 5.1.2 開源大模型的多模態探索集中于圖片,但進展飛快.20 5.2 專業化:下游生態發力,針對特定任務微調模型.22 6 投資建議.24 6.1 微軟:與 OpenAI 深度合作.24 6.2 英偉達:開源大模型帶動應用風起,算力需求狂飆.24 6.2.1 超大模型對算力的需求
11、將保持高增長.24 6.2.2 開源大模型的快速追趕也將利好算力.24 6.2.3 催化劑:開源大模型許可證、標準和能力評價體系的發展.24 6.3 Meta:開源“急先鋒”,受益于開源生態.25 6.4 其他.25 TVdUqYhUkWpNsQrM7N9R8OmOoOoMnOfQqQoQkPpPqRaQrRxOMYoNoMxNqRqP2023 年 05 月 31 日 P.3請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 6.4.1 邊緣算力+開源模型:AI 應用的落地加速器.25 6.4.2 大數據公司:看好“開源大模型自有海量數據”組合.25 6.4.3 開源大模型服務商:服務至上.25
12、 6.4.4 蘋果:獲得 ChatGPT App 收入分成.25 風險提示.26 圖表目錄圖表目錄 圖表 1:谷歌工程師發文闡述對大模型競爭格局的擔憂.4 圖表 2:大模型發展樹狀圖.5 圖表 3:部分開源大模型概況.6 圖表 4:2021 年,中國服務器操作系統市場,Linux 裝機量市占率遠超 Unix.8 圖表 5:Linux 創始人發布的第一篇有關 Linux 的帖子.9 圖表 6:紅帽公司的部分產品及其定價(截至 2023 年 5 月 9 日).10 圖表 7:部分開源軟件許可證.11 圖表 8:大模型訓練和推理的一般流程.12 圖表 9:部分大模型的參數量.13 圖表 10:PaL
13、M 模型與先前模型最先進結果(SOTA)在多項任務中比較結果.13 圖表 11:開源大模型與 OpenAIGPT 系大模型能力對比.13 圖表 12:由 GPT-4 評估的回答質量.14 圖表 13:Zeno Build 測評結果.14 圖表 14:C-Eval 評估結果.15 圖表 15:部分開源大模型微調成本.16 圖表 16:Chinchilla 五樣本大型多任務語言理解測試結果.16 圖表 17:ChatGPT RLHF 三步驟.17 圖表 18:部分開源大模型的預訓練模型開源與商用情況.18 圖表 19:部分開源大模型指令數據集的開源與商用情況.19 圖表 20:ImageBind
14、典型實例展示.20 圖表 21:醫學知識圖譜 CMeKG 片段示例.23 圖表 22:華駝大模型 sus 評分實驗結果.23 2023 年 05 月 31 日 P.4請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 1 引言引言 一篇報道引發了公眾對開源大語言模型的強烈關注。1.1“谷歌和“谷歌和 OpenAI 都沒有護城河,都沒有護城河,大模型門檻正被開源踏破大模型門檻正被開源踏破”“除非谷歌和“除非谷歌和 OpenAI 改變態度,選擇和開源社區合作,否則將被后者替代”,改變態度,選擇和開源社區合作,否則將被后者替代”,據彭博和 SemiAnalysis 報道,4 月初,谷歌工程師 Luke
15、 Sernau 發文稱,在人工智能大語言模型(Large Language Models,LLM,以下簡稱“大模型”)賽道,谷歌和 ChatGPT 的推出方 OpenAI 都沒有護城河,開源社區正在贏得競賽。這一論調讓公眾對“年初 Meta 開源大模型 LLaMA 后,大模型大量出現”現象的關注推向了高潮,資本市場也在關注大公司閉源超大模型和開源大模型誰能贏得競爭,在“模型”“算力”“數據”三大關鍵要素中,大模型未來競爭格局如何,模型小了是否就不再需要大量算力,數據在其中又扮演了什么角色?本報告試圖剖析這波開源大模型風潮的共同點,回顧開源標桿 Linux 的發展史,回答以上問題,展望大模型的未
16、來。圖表 1:谷歌工程師發文闡述對大模型競爭格局的擔憂 資料來源:Bloomberg、SemiAnalysis,國盛證券研究所 1.2 開源大模型集中出現,堪稱風潮開源大模型集中出現,堪稱風潮 2 月 24 日,Meta 發布 LLaMA 開源大模型,此后,市場集中涌現出一批大模型,大致可以分為三類。1.2.1“LLaMA 系系”:”:表現好,但商用化程度低表現好,但商用化程度低 LLaMA 包括四個不同的參數版本(70 億/130 億/330 億/650 億),不支持商用,指令數據集基于 OpenAI,模型表現可與 GPT-3 持平或優于 GPT-3。其中,70 億和 130 億參數版擁有包
17、含 1 萬億個標識符(Token)的預訓練數據集;330 億和 650 億參數版擁有包含 1.4 萬億個標識符的預訓練數據集。在與 GPT-3 的對比中,LLaMA-70 億參數版在常識推理任務、零樣本任務、自然問題和閱讀理解中的表現與 GPT-3 水平相當,而 130 億參數及更高參數的版本模型在以上領域的表現均優于 GPT-3。2023 年 05 月 31 日 P.5請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 LLaMA 模型本身沒有使用指令數據集,但考慮到效果優于 GPT-3 的 ChatGPT 使用了人類指令數據集,一批開源大模型在 LLaMA 模型基礎上,使用了 OpenAI
18、指令數據集來優化模型的表現,包括 Alpaca、GPT4All、Vicuna、Koala、Open Assistant 和 Hugging Chat。由于 OpenAI 指令數據集不可商用,因此這批基于 LLaMA 的開源大模型也都不可商用。圖表 2:大模型發展樹狀圖 資料來源:Harnessing the Power of LLMs in Practice:A Survey on ChatGPT and Beyond,國盛證券研究所 1.2.2 Dolly2.0、RedPajama、StableLM 等:商用化程度高等:商用化程度高 這些大模型沒有使用 OpenAI 指令數據集,因此可以商用
19、,但大多數還在持續開發中。1.2.3 中文雙子星:中文雙子星:ChatGLM-6B 和和 MOSS ChatGLM-6B 和 MOSS 分別由清華大學和復旦大學相關研究團體推出,在中文社區知名度較高。這批模型還具有一些共同點,報告將在下文詳述。2023 年 05 月 31 日 P.6請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 3:部分開源大模型概況 模型名稱模型名稱 推出團隊推出團隊 發布時間發布時間 參數規模參數規模 訓練數據集規模訓練數據集規模/標識符數量標識符數量 指令數據集規模指令數據集規模 LLaMA Meta 2023.2.24 70 億/130 億/330 億/650
20、 億 1 萬億(70 億/130 億版);1.4 萬億(330億/650 億)無 Open Assistant LAION 2023.4.17 基于 StableLM 70 億版、LLaMA 300 億版和Pythia 120 億/14億/69 億版微調訓練 1.4 萬億(LLaMA)、1.5萬億(StableLM)、0.3 萬億(Pythia)16.1 萬對 Alpaca 斯坦福大學 2023.3.13 基于 LLaMA-70億版開發 1 萬億 5.2 萬對 ChatGLM-6B 清華大學 2023.3.14 62 億 未開源 無 GPT4All Momic AI 2023.3.29 基于
21、LLaMA-70億版 1 萬億 40 萬對(GPT4All)、80 萬對(GPT4All-J)3 Vicuna 加州伯克利大學等1 2023.3.30 基于 LLaMA-130億版 1 萬億 7 萬對 Koala 加州伯克利大學 2023.4.3 基于 LLaMA-130億版 1 萬億 47.2 萬對 Dolly2.0 Databricks 2023.4.12 120 億/1.5 萬對 Red Pajama Together 等2 2023.4.17 目前只有預訓練數據,尚無基礎模型 1.2 萬億 無 Stable LM Stability AI 2023.4.19 30 億/70 億(150
22、 億和 300億版仍在開發)1.5 萬億 46.7 萬對+MOSS 復旦大學 2023.4.21 160 億 約包含 7000 億單詞 140 萬對 Hugging Chat Hugging Face、LAION 2023.4.26 300 億(與Open Assistant合作基于LLaMA-300 億版訓練)14 億 8.44 萬對 資料來源:LLaMA、Open Assistant、Alpaca、ChatGLM-6B、GPT4ALL、Vicuna、Koala、Dolly2.0、Red Pajama、Stable LM、MOSS、Hugging Chat 模型官網,國盛證券研究所注:1 加
23、州伯克利大學、CMU、Stanford、UC San Diego 和 MBZUAI;2 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Qubec AI Institute 等;3 GPT4All-J 模型在 GPT4All 基礎上將指令數據集擴充到 80 萬對數據量,擴充的數據量包括多回合問答樣本、詩歌、說唱以及短篇小說等創造性寫作樣本。2023 年 05 月 31 日 P.7請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 2 共同點一:共同點一:始于開源始于開源 這波風潮中,不管是模型本身,還是模型所使
24、用的數據集,它們首要的共同點是“開源”。2.1 為什么為什么要要開源?開源?市場對開源大模型的重要問題是,為什么要開源,這是否會損傷大模型行業的商業模式。我們梳理了部分大模型對開源原因的自述,總結如下。2.1.1 模型視角:防止大公司壟斷,破除商業禁用限制模型視角:防止大公司壟斷,破除商業禁用限制 為了使人工智能研究民主化,彌合開放模型和封閉模型之間的質量差距,破除商業化禁用限制,開源大模型的蓬勃發展有望促進以上目標。2.1.2 數據視角:保護企業機密,使定制化數據訓練成為可能數據視角:保護企業機密,使定制化數據訓練成為可能 保障保障數據隱私,允許企業定制化開發。數據隱私,允許企業定制化開發。
25、對于許多行業而言,數據是企業的命脈,大模型的開源使得企業可以將自己的數據集在大模型上進行訓練,同時做到對數據的控制,保護企業數據隱私。同時,開源大模型允許企業的開發人員在模型的基礎上進行定制化開發,定向訓練數據,也可以針對某些主題進行過濾,減少模型體量和數據的訓練成本。2.1.3 算力視角:降低算力成本,使大模型的使用“普惠化”算力視角:降低算力成本,使大模型的使用“普惠化”開源大模型開源大模型節省了訓練階段的算力消耗,為企業降低算力成本,推動大模型使用“普惠節省了訓練階段的算力消耗,為企業降低算力成本,推動大模型使用“普惠化”?;?。算力總需求=場景數*單場景算力需求。在大模型的訓練和使用中
26、,算力消耗分為兩部分場景,即訓練成本消耗及推理成本消耗。就訓練成本而言,大模型的訓練成本高,普通企業的算力資源難以承受,而開源大模型主要節省了企業預訓練階段的算力。但由于不同垂類的訓練場景更加豐富,所以整體訓練需求是增長的。就推理成本而言,大模型在參數體量龐大的情況下,其推理成本也很高,普通公司難以維持其日常開銷,因此,降低模型參數體量可進而降低企業在使用模型時的推理成本。2.2 開源,需要什么土壤?開源,需要什么土壤?開源大模型的蓬勃發展并非沒有先例,全球規模最大的開源軟件項目開源大模型的蓬勃發展并非沒有先例,全球規模最大的開源軟件項目Linux 有類似有類似的故事。的故事。研究 Linux
27、 的發展史,對展望開源大模型的未來,有借鑒意義。2.2.1 從開源標桿從開源標桿 Linux 說開去說開去 Linux 是一款基于是一款基于 GNU 通用公共許可證(通用公共許可證(GPL)發布的免費開源操作系統。)發布的免費開源操作系統。所有人都能運行、研究、分享和修改這個軟件。經過修改后的代碼還能重新分發,甚至出售,但必須基于同一個許可證。而諸如 Unix 和 Windows 等傳統操作系統是鎖定供應商、以原樣交付且無法修改的專有系統。許多全球規模最大的行業和企業都仰賴于許多全球規模最大的行業和企業都仰賴于 Linux。時至今日,從維基百科等知識共享網站,到紐約證券交易所,再到運行安卓(一
28、個包含免費軟件的 Linux 內核專用發行版)的移動設備,Linux 無處不在。當前,Linux 不僅是公共互聯網服務器上最常用的操作系統,還是速度排名前 500 的超級電腦上使用的唯一一款操作系統。2023 年 05 月 31 日 P.8請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 服務器市場,服務器市場,Linux 市占率已經市占率已經遠超遠超操作系統“鼻祖”操作系統“鼻祖”Unix,“,“Linux 時刻”發生時刻”發生。以中國市場為例,根據賽迪顧問數據,按照裝機量統計,在服務器架構上,Linux 是市場主流,占據絕對領先地位,市場占有率達到 79.1%。Windows 市場占有率降
29、至 20.1%,Unix 市場占有率僅剩 0.8%。圖表 4:2021 年,中國服務器操作系統市場,Linux 裝機量市占率遠超 Unix 資料來源:賽迪顧問,國盛證券研究所 2.2.2 Linux 并并非非一一己之作己之作,借力于社區借力于社區深厚的開源歷史深厚的開源歷史 Unix 開源過,為開源過,為 Linux 提供了火種提供了火種 Unix,現代操作系統的鼻祖。,現代操作系統的鼻祖。操作系統是指直接管理系統硬件和資源(如 CPU、內存和存儲空間)的軟件,它位于應用與硬件之間,負責在所有軟件與相關的物理資源之間建立連接。而 Unix 被許多觀點認為是現代操作系統的鼻祖。Unix 曾曾開源
30、。開源。世界上第一臺通用型計算機誕生于 1946 年,而 Unix 開發于 1969 年。在長達十年的時間中,UNIX 擁有者 AT&T 公司以低廉甚至免費的許可將 Unix 源碼授權給學術機構做研究或教學之用,許多機構在此源碼基礎上加以擴展和改進,形成了所謂的“Unix 變種”。后來 AT&T 意識到了 Unix 的商業價值,不再將 Unix 源碼授權給學術機構,并對之前的 Unix 及其變種聲明了著作權權利。Unix 回歸閉源之后太貴,促成了回歸閉源之后太貴,促成了 Linux 的開發的開發 Linux 由 Linux Torvalds 于 1991 年設計推出,當時他還在讀大學,認為當時
31、流行的商業操作系統 Unix 太貴了,于是基于類 Unix 操作系統 Minix 開發出了 Linux,并將其開放給像自己這樣負擔不起的團隊。僅用于教學的僅用于教學的 Minix,啟發了,啟發了 Linux 的開發的開發 在 AT&T 將源碼私有化后,荷蘭阿姆斯特丹自由大學教授塔能鮑姆為了能在課堂上教授學生操作系統運作的實務細節,決定在不使用任何AT&T的源碼前提下,自行開發與UNIX相容的作業系統,以避免版權上的爭議。他以小型 UNIX(mini-UNIX)之意,將它稱為MINIX。第一版 MINIX 于 1987 年釋出,只需要購買它的磁片,就能使用。在 Linux 系統還沒有自己的原生檔
32、案系統之前,曾采用 Minix 的檔案系統。79.1%20.1%0.8%LinuxWindowsOthers2023 年 05 月 31 日 P.9請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 開源社區、許可證與標準助力開源社區、許可證與標準助力 從開始就從開始就開源開源。1991 年 8 月,Linux 創始人 Linus Torvalds 將 Linux 發到 Minix Usenet新聞組。隨后他將 Linux 發布到 FTP 網站上,因為他想讓更多人一起來開發這個內核。圖表 5:Linux 創始人發布的第一篇有關 Linux 的帖子 資料來源:comp.os.minix,國盛證券研
33、究所 許可證助力許可證助力生態開枝散葉、生生不息生態開枝散葉、生生不息。Linux 基于 GNU GPL 許可證(GNUs Not Unix General Public License,革奴計劃通用公共許可證)模式。GPL 許可證賦予“自由軟件”賦予用戶的四種自由,或稱“Copyleft(公共版權)”:自由之零:不論目的為何,有“使用”該軟件的自由。自由之一:有“研究該軟件如何運作”的自由,并且得以“修改”該軟件來符合用戶自身的需求??稍L問源代碼是此項自由的前提。自由之二:有“分發軟件副本”的自由,所以每個人都可以借由散布自由軟件來敦親睦鄰。自由之三:有將“公布修訂后的版本”的自由,如此一來
34、,整個社群都可以受惠??稍L問源代碼是此項自由的前提。GPL 許可證要求 GPL 程序的派生作品也要在遵循 GPL 許可證模式。相反,BSD 式等許可證并不禁止派生作品變成專有軟件。GPL 是自由軟件和開源軟件的最流行許可證。遵循GPL 許可證使得 Linux 生態能生生不息,不至于走進無法繼續發展的“死胡同”。標準標準對內使生態“形散而神不散”,對內擁抱“巨鯨”對內使生態“形散而神不散”,對內擁抱“巨鯨”。對內統一標準。對內統一標準。Linux 制定了標準 LSB(Linux Standard Base,Linux 標準基礎)來規范開發,以免各團隊的開發結果差異太大。因此,各 Linux 衍生
35、開發工具只在套件管理工具和模式等方面有所不同。我們認為,這使得 Linux 開源社區的發展“形散而神不散”,使 Linux 生態的發展不至于分崩離析。對外對外兼容兼容Unix。為了讓Linux能兼容Unix軟件,Linus Torvalds參考POSIX(Portable Operating System Interface,可攜帶式操作系統接口)標準修改了 Linux,這使得Linux 使用率大增。該標準由 IEEE(Institue of Electrical and Electronics Engineers,電氣和電子工程師協會)于 20 世紀 90 年代開發,正是 Linux 的起步
36、階段,它致力于提高 Unix 操作系統環境與類 Unix 操作系統環境下應用程序的可移植性,為 Linux的推廣提供了有利環境。2023 年 05 月 31 日 P.10請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 2.3 開源了,還怎么賺錢?開源了,還怎么賺錢?市場對“開源”的核心疑問是商業模式?!伴_源”本身免費,但“開源”作為土壤,“開源社區”孕育出了各種商業模式,從 Linux 的生態中可以學習到這一點。2.3.1 紅帽公司(紅帽公司(Red Hat):服務至上:服務至上 紅帽公司(Red Hat)是 Linux 生態的領軍企業,超過 90%的財富500 強公司信賴紅帽公司,紅帽作為
37、公司的商業價值巨大。1993 年,紅帽成立,1999 年,紅帽即在納斯達克上市,紅帽招股書援引 IDC 的數據稱,截止到 1998 年所有經授權的新安裝 Linux 操作系統中,有 56%來自紅帽;2012 年,紅帽成為第一家收入超過 10 億美元的開源技術公司;2019 年,IBM 以約 340 億美元的價格收購了紅帽。關于 Linux 和紅帽的商業模式,就像好奇心日報打的比方,某種意義上,開源的 Linux 內核像免費、公開的菜譜,紅帽們像餐廳,人們仍然愿意去餐廳品嘗加工好的菜肴和享受貼心的服務。紅帽面向企業提供 Linux 操作系統及訂閱式服務,主要服務內容包括:1、24*7 技術支持;
38、2、與上游社區和硬件廠商合作,支持廣泛的硬件架構,如 x86、ARM、IBM Power 等;3、持續的漏洞警報、定向指導和自動修復服務;4、跨多個云的部署;5、實時內核修補、安全標準認證等安全防護功能;6、檢測性能異常、構建系統性能綜合視圖,并通過預設調優配置文件應用等。圖表 6:紅帽公司的部分產品及其定價(截至 2023 年 5 月 9 日)資料來源:紅帽公司,國盛證券研究所 2.3.2 安卓系統(安卓系統(Android):背靠谷歌,靠廣告變現:背靠谷歌,靠廣告變現 根據 Statcounter 數據,截至 2023 年 4 月,安卓系統(Android)是全球第一手機操作系統,市占率高
39、達 69%,遠超第二名(iOS,31%)。安卓基于 Linux 內核開發,2005 年被谷歌收購。隨后,谷歌以 Apache 免費開放源代碼許可證的授權方式,發布了安卓的源代碼,使生產商可以快速推出搭載安卓的智能手機,這加速了安卓的普及。而關于商業模式,安卓手機預裝的諸多服務由谷歌私有產品提供,例如地圖、Google Play應用商店、搜索、谷歌郵箱(Gmail)因此,盡管安卓免費、開源,但谷歌仍能通過其在移動市場“攻城略地”,將用戶流量變現。2023 年 05 月 31 日 P.11請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 谷歌還直接向安卓手機廠商收取授權費谷歌還直接向安卓手機廠商收
40、取授權費,從 2018 年 10 月 29 日開始,使用安卓系統的手機、平板電腦的歐盟廠商使用谷歌應用程序套件,必須向谷歌支付許可費,每臺設備費用最高達 40 美元(約 277 元)。2.4 開源大模型主流許可證支持商用開源大模型主流許可證支持商用 開源社區已經有 GPL、BSD、Apache 等知名許可證。大模型方面,我們注意到,2023 年2 月發布的、引領了大模型開源浪潮的 LLaMA 禁止商用,僅可用于研究,MetaAI 將根據具體情況,授予公務員、社會團體成員、學術人員和行業研究實驗室,訪問該模型的權限。其中,LLaMA 的推理代碼基于 GPL3.0 許可證,這意味著:1)他人修改
41、LLaMA 的推理代碼后,不能閉源;2)新增代碼也必須采用 GPL 許可證。不過,我們注意到,部分開發人員在 LLaMA 基礎之上開發的變體模型,有不同類型的許可證。例如,基于 nanoGPT的LLaMA實現Lit-LLaMA新增了部分模型權重,這部分模型采用的許可證是Apache2.0。開源開源大模型采用的大模型采用的協議協議主要是主要是 Apache 2.0 和和 MIT 許可證許可證。Alpaca、Vicuna、Dolly、OpenAssistant 和 MOSS 均采用 Apache 2.0 許可證,Koala 和 GPT4all 采用 MIT 許可證。這兩個許可證均允許商用。但令人惋
42、惜的是,Alpaca、Vicuna、Koala 和 GPT4all 因 OpenAI或 LLaMA 限制無法商用。同時,值得注意的是,Apache2.0 和 MIT 許可證均允許再修改源碼后閉源,公司可以在開源大模型基礎上開發自己的模型,或對公司更有吸引力。圖表 7:部分開源軟件許可證 資料來源:,國盛證券研究所 2023 年 05 月 31 日 P.12請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 3 共同點二:共同點二:開源大模型開源大模型參數少、參數少、小型化小型化“模型參數的大小”與“模型對算力的需求”正相關。3.1 超大模型和大模型分別多大?超大模型和大模型分別多大?預訓練賦予模
43、型基本能力。預訓練賦予模型基本能力。在自然語言處理(NLP)中,預訓練是指在特定任務微調之前,將語言模型在大量文本語料庫上訓練,為模型賦予基本的語言理解能力。在預訓練過程中,模型被訓練以根據前面的上下文預測句子中的下一個單詞。這可以通過掩蓋一些輸入中的單詞并要求模型預測它們的方式進行,也可以采用自回歸的方法(例如 GPT),即根據句子中的前面單詞預測下一個單詞。預訓練模型通常包括大量的參數和對應的預訓練數據(通常用標識符即 Token 的數量衡量)。2017 年谷歌大腦團隊 Transformer(變換器)模型的出現,徹底改變了 NLP 的面貌,使得模型可以更好地理解和處理語言,提高 NLP
44、任務的效果和準確性。圖表 8:大模型訓練和推理的一般流程 資料來源:Generative Pre-Trained Transformer for Design Concept Generation:An Exploration,國盛證券研究所 超大模型和大模型分別多大?超大模型和大模型分別多大?語言模型的大小是根據其參數量來衡量的,參數量主要描述了神經元之間連接強度的可調值。目前一般大語言模型參數量在幾十到幾百億之間,超過千億參數的我們稱為“超大模型”,例如 GPT-3(1750 億參數)。3.2 GPT 系系超大模型超大模型能力最強能力最強,但難復現,但難復現 大模型的性能評價標準并沒有統一
45、。大模型的性能評價標準并沒有統一。一個重要原因是大模型生成內容的任務種類多,不同的應用場景和任務可能需要不同的指標和方法去評估模型的表現。其中部分任務可能有公信力較強的評分標準,如機器翻譯中的 BLEU,但大部分任務缺乏類似標準。模糊共識是模糊共識是超大模型性能好。超大模型性能好。大語言模型目前的發展趨勢是越來越大(詳見下圖),原因是大模型在預訓練后就具有較好通用性和穩定性。例如,谷歌團隊的超大模型 PaLM(5400 億參數),在零樣本和少量樣本測試中均有良好的成績(詳見下圖),并且隨著其2023 年 05 月 31 日 P.13請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 訓練標識符數
46、量的上升,性能仍能提升。這也不難理解,簡單來說,模型見得多了,自然會的也多了。圖表 9:部分大模型的參數量 圖表 10:PaLM 模型與先前模型最先進結果(SOTA)在多項任務中比較結果 資料來源:Nature,國盛證券研究所 資料來源:PaLM:Scaling Language Modeling with Pathways,國盛證券研究所 “同行評議”,“同行評議”,GPT 系大模型“風華絕代”。系大模型“風華絕代”。當前,OpenAI GPT 系的超大模型擁有著強大的能力和廣泛的應用,在處理自然語言任務時具有高準確性和強大的表達能力,其在文本生成、問答系統、機器翻譯等多個領域都取得了出色效
47、果,成為了當前自然語言處理領域的標桿之一,被各類大模型當作比較基準。復現 ChatGPT 的門檻并沒有降低,開源大模型大部分僅在某些方面有較好的表現,整體質量與 ChatGPT 仍不可比,尚需觀望。圖表 11:開源大模型與 OpenAIGPT 系大模型能力對比 模型名稱模型名稱 與與 GPT 系大模型能力比較結果系大模型能力比較結果 Alpaca 由 5 名學生盲評 text-davinci-003 和 Alpaca 7B,內容包括電子郵件寫作、社交媒體和生產力工具,90:89 獲勝。Vicuna 部分任務上,達到 92%GPT4 的效果。Koala 在“羊駝”和“考拉”測試集上,在 60%情
48、況下,人類滿意度不低于 ChatGPT。GPT4all 對于基準真相(Ground Truth)的模型困惑度*表現不如 GPT4。OpenAssistant 偏好測試略優于 GPT-3.5-turbo(51.7%對 48.3%)。資料來源:Alpaca、Vicuna、Koala、GPT4all、OpenAssistant 官網,國盛證券研究所*注:模型困惑度指預測下一個單詞的不確定性,越低越好。近段時間以來,我們還注意到若干大模型評價體系,評價方法主要包括機器自動評測(如使用 GPT4)、人類盲評等,我們重點介紹其中部分及其測評結果,但不論哪種評價體系,GPT 系大模型都一騎絕塵。海外 伯克利
49、大學 Chatbot Arena 借鑒游戲排位賽機制,讓人類對模型兩兩盲評;開源工具包 Zeno Build,通過 Hugging Face 或在線 API,使用 Critique 評估多個大模型。2023 年 05 月 31 日 P.14請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 海內 SuperCLUE 中文通用大模型綜合性評測基準,嘗試全自動測評大模型;C-Eval 采用 1.4 萬道涵蓋 52 個學科的選擇題,評估模型中文能力,類似標準尚需時間和市場的檢驗。3.2.1 Vicuna:利用:利用 GPT-4 評估評估 目前大部分目前大部分開源大模型開源大模型性能未進行系統評價,更多
50、處在起步試驗階段。性能未進行系統評價,更多處在起步試驗階段。在對性能進行評價的開源大模型中,Vicuna 的報告中利用 GPT-4 進行的評估相對較為系統,結果也最令人矚目。圖表 12:由 GPT-4 評估的回答質量 資料來源:lmsys.org,國盛證券研究所 3.2.2 Zeno Build 測評測評:較:較新,較全面新,較全面 Zeno Build 對 GPT-2、LLaMA、Alpaca、Vicuna、MPT-Chat、Cohere Command、ChatGPT(gpt-3.5-turbo)七個模型測評,結果與 GPT-4 評價結果相近。ChatGPT 有明顯優勢,Vicuna 在開
51、源模型中表現最佳。圖表 13:Zeno Build 測評結果 資料來源:Zeno Chatbot Report,國盛證券研究所 3.2.3 C-Eval:全面的中文基礎模型評估套件全面的中文基礎模型評估套件 C-Eval 評估結果顯示,即便是在中文能力上,GPT-4 也是一騎絕塵,但 GPT-4 也僅能達到 67%的正確率,目前大模型的中文處理能力尚有很大提升空間。2023 年 05 月 31 日 P.15請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 14:C-Eval 評估結果 資料來源:C-EVAL:A Multi-Level Multi-Discipline Chinese E
52、valuation Suite for Foundation Models,國盛證券研究所 3.2.4 GPT 系超大模型訓練成本高,短期內難復現系超大模型訓練成本高,短期內難復現 ChatGPT 所需算力所需算力和訓練成本和訓練成本可觀??捎^。不考慮與日活高度相關的推理過程所需的算力,僅考慮訓練過程,根據論文Language Models are Few-Shot Learners的測算,ChatGPT的上一代 GPT-3(1750 億參數版)所需的算力高達 3640PF-days(即假如每秒做一千萬億次浮點運算,需要計算 3640 天),已知單張英偉達 A100 顯卡的算力約為 0.6PF
53、LOPS,則訓練一次 GPT-3(1750 億參數版),大約需要 6000 張英偉達 A100 顯卡,如果考慮互聯損失,大約需要上萬張 A100,按單張 A100 芯片價格約為 10 萬元,則大規模訓練就需要投入約 10 億元。OpenAI 在 GPT-3(1750 億參數)的訓練上花費了超過 400 萬美元,而為了維持 ChatGPT 和 GPT4(參數量未公布,預計更高)的運轉,每個月理論上更高。3.3 開源大模型性價比高,超大模型以下大模型的壁壘正在消失開源大模型性價比高,超大模型以下大模型的壁壘正在消失 開源大模型小型化趨勢明顯,開源大模型小型化趨勢明顯,參數約為百億級別,參數約為百億
54、級別,成本降低乃題中之義。成本降低乃題中之義。開源大模型通常具有較少的參數,在設計、訓練和部署上,需要的資源和成本都相對較低。這波開源大模型的參數普遍較小,均在十億百億級別左右。2023 年 05 月 31 日 P.16請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 15:部分開源大模型微調成本 模型名稱模型名稱 指令數據集大小指令數據集大?。ㄈf對)(萬對)微調微調成本(美元)成本(美元)微調芯片微調芯片 微調時間微調時間 Alpaca 5.2 600 8x A100 3 小時 Vicuna 7 300 8x A100 一天內 Koala 47.2 100 8x A100 6 小時 G
55、PT4all 40 100 8x A100 8 小時 GPT4all-J 80 200 8x A100 8 小時 資料來源:Alpaca、Vicuna、Koala、GPT4ALL、GPT4ALL-J 模型官網,國盛證券研究所 “船小好調頭”,基于已有的開源預訓練模型進行微調也是開源大模型的優勢之一。在預訓練模型基礎上進行微調和優化,以適應不同的任務和應用場景,這種方法不僅可以大大縮短模型的訓練時間和成本,而且還可以提高模型的性能和效率。更多標識符訓練數據和新技術更多標識符訓練數據和新技術,讓超大模型以下的大模型壁壘趨于消失,讓超大模型以下的大模型壁壘趨于消失。LLaMA 被“開源”,讓大家都有
56、了一個可上手的大模型,并且隨著 DeepSpeed、RLHF 等技術的發展,幾百億的模型可以部署在消費級 GPU 上。更多標識符訓練數據可能比更多參數重要:DeepMind 發表于 2022 年 3 月 29 日的研究Training Compute-Optimal Large Language Models(在計算上優化計算大語言模型)向我們揭示了模型大小和訓練數據規模之間的關系:大模型往往訓練不足,導致大量算力的浪費。用更小的模型更充分地訓練,能達到比大模型更好的性能。例如 DeepMind 的Chinchilla,模型僅有 700 億參數,經過 1.4 萬億標識符訓練數據集的訓練,在測試
57、中效果優于 DeepMind 的 Gopher(2800 億參數,3000 億標識符訓練數據集)和 OpenAI 的 GPT-3(1750 億參數,3000 億標識符訓練數據集)。為了更好地實現模型性能,模型參數量每翻一倍,標識符訓練數據集的規模也應該隨之翻一倍。更小的模型,也意味著更小的下游微調和推理成本。DeepSpeed 技術:可以顯著減少訓練大模型的時間和成本。RLHF(基于人類反饋的強化學習):可以以較小的標識符訓練量提高模型的性能和準確性。圖表 16:Chinchilla 五樣本大型多任務語言理解測試結果 資料來源:Training Compute-Optimal Large La
58、nguage Models,國盛證券研究所 2023 年 05 月 31 日 P.17請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 4 共同點三:共同點三:開源大模型開源大模型數據集數據集重視重視人類指令,并人類指令,并自立門戶自立門戶“數據集的大小”也與“模型所需的算力”正相關。4.1 學習學習 ChatGPT 方法論,引入人類指令數據集方法論,引入人類指令數據集 微調是提升特定性能的捷徑。微調是提升特定性能的捷徑。微調是指在已經預訓練的模型上,使用具有標注數據的特定任務數據集,進一步小規模訓練。微調可以以較小的算力代價,使模型更加適應特定任務的數據和場景,從而提高模型的性能和準確性。目
59、前微調多為指令微調,指令數據集逐漸成為開源大模型的標配。RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習),是一種新興的微調方法,它使用強化學習技術來訓練語言模型,并依據人類反饋來調整模型的輸出結果。RLHF(基于人類反饋的強化學習)是 ChatGPT 早期版本 GPT3 所不具備的功能,它使得只有 13 億參數的 InstructGPT 表現出了比 1750 億參數 GPT-3 更好的真實性、無害性和人類指令遵循度,更被標注員認可,同時不會折損 GPT-3 在學術評估維度上的效果。RLHF(基于人類反饋的強化學習)分為三個
60、步驟:1)監督微調(SFT):讓標注員回答人類提問,用這一標注數據訓練 GPT;2)獎勵模型(RM)訓練:讓標注員對機器的回答排序,相較于第一步由標注員直接撰寫回答的生成式標注,排序作為判別式標注的成本更低,用這一標注訓練模型,讓它模擬人類排序;3)無人類標注,用近端策略優化算法(PPO)微調模型。這三個步驟對應的數據集的大小分別為 1.3 萬個、3.3 萬個、3.1 萬個。圖表 17:ChatGPT RLHF 三步驟 資料來源:OpenAI 官網,國盛證券研究所 對于具有大量數據和一定算力的公司來說,使用自己的數據進行微調可以展現出模型的特化能力,并且用較小的算力達成接近大模型的效果。如多校
61、聯合開發的 Vicuna 語言模型,基于 Meta 的 LLaMA-130 億參數版模型,對 7 萬條用戶分享的 ChatGPT 對話指令微2023 年 05 月 31 日 P.18請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 調,部分任務上,達到了 92%的 GPT4 的效果。在通用性和穩定性上無法超過超大模型,但可以通過微調強化其某些方面的能力,性價比要更高,更適合中小公司應用。4.2 數據集走向商用數據集走向商用 數據集是語言模型發展的重要基礎和支撐,通常是由公司或組織自主收集、整理或直接購買獲得。相比之下,開源數據集大多由社區或學術界共同維護的,其數據量和種類更加豐富,但可能存在一
62、定的數據質量問題和適用性差異。4.2.1 預訓練數據集預訓練數據集少量可商用少量可商用 預訓練數據集開源對模型商用至關重要。預訓練數據集開源對模型商用至關重要。在后 LLaMA 時代,開源大模型猶如雨后春筍般涌現,但很快大家便發現由于 LLaMA 和 OpenAI 的限制,基于其開發的模型無法商用(Alpaca、Koala、GPT4All、Vicuna),為了打破這一局面,Dolly2.0 率先出手,“為了解決這個難題,我們開始尋找方法來創建一個新的,未被“污染”的數據集以用于商業用途?!彪S后 Red Pajama 和 MOSS 接踵而至。圖表 18:部分開源大模型的預訓練模型開源與商用情況
63、預訓練數據集是否開源預訓練數據集是否開源 模型是否可商用模型是否可商用 LLaMA Alpaca GPT4All Vicuna Koala Dolly2 RedPajama MOSS 資料來源:LLaMA、Alpaca、GPT4ALL、Vicuna、Koala、Dolly2.0、Red Pajama、MOSS 模型官網,國盛證券研究所 4.2.2 指令數據集指令數據集部分可商用部分可商用 打造開源生態,各取所需。打造開源生態,各取所需。在早期開源項目中,因其指令數據及多來自 ChatGPT 生成或對話內容,受 OpenAI 限制無法商用。除去研究用途微調外,目前越來越多模型選擇自己構建指令數據
64、集來繞開這一限制。指令數據集多樣化,部分模型的指令數據集可商用化。指令數據集多樣化,部分模型的指令數據集可商用化。按照上文對此批集中出現的大模型的分類,除去 LLaMA、基于 LLaMA 開發出的模型以及 StableLM 使用 OpenAI 的指令數據集外,其余大模型的指令數據集均不基于 OpenAI,也因此這些大模型的指令數據集可商用化,這會加快推動使用且重視 RLHF(基于人類反饋的強化學習)訓練范式的此類大模型的更迭與發展。2023 年 05 月 31 日 P.19請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 19:部分開源大模型指令數據集的開源與商用情況 指令數據集是否基指
65、令數據集是否基于于 OpenAI 指令數據集能否商用指令數據集能否商用 OpenAssistant Alpaca ChatGLM-6B 未開源 GPT4All Vicuna Koala Dolly2 RedPajama StableLM MOSS 大概率可商用 Hugging Chat 資料來源:Open Assistant、Alpaca、ChatGLM-6B、GPT4ALL、Vicuna、Koala、Dolly2.0、Red Pajama、Stable LM、MOSS、Hugging Chat 模型官網,國盛證券研究所 2023 年 05 月 31 日 P.20請仔細閱讀本報告末頁聲明請仔細
66、閱讀本報告末頁聲明 5 展望展望 我們注意到開源大模型走向相似的路口。5.1 多模態化:多模態化:助力通用人工智能(助力通用人工智能(AGI)發展)發展 多模態開源大模型開始出現,將大模型推向新高潮,助力人類走向通用人工智能。多模態開源大模型開始出現,將大模型推向新高潮,助力人類走向通用人工智能。多模態即圖像、聲音、文字等多種模態的融合。多模態模型基于機器學習技術,能夠處理和分析多種輸入類型,可以讓大模型更具有通用性?;诙囝I域知識,構建統一、跨場景、多任務的模型,推動人類走向通用人工智能(Artificial General Intelligence,AGI)時代。5.1.1 ImageBi
67、nd 閃亮登場,用圖像打通閃亮登場,用圖像打通 6 種模態種模態 ImageBind 開源大模型可超越單一感官體驗,讓機器擁有“聯想”能力。開源大模型可超越單一感官體驗,讓機器擁有“聯想”能力。5 月 9 日,Meta 公司宣布開源多模態大模型 ImageBind。該模型以圖像為核心,可打通 6 種模態,包括圖像(圖片/視頻)、溫度(紅外圖像)、文本、音頻、深度信息(3D)、動作捕捉傳感(IMU)。相關源代碼已托管至 GitHub。該團隊表示未來還將加入觸覺、嗅覺、大腦磁共振信號等模態。從技術上講,ImageBind 利用網絡數據(如圖像、文本),并將其與自然存在的配對數據(如音頻、深度信息等
68、)相結合,以學習單個聯合嵌入空間,使得 ImageBind 隱式地將文本嵌入與其他模態對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態上實現零樣本識別功能。目前 ImageBind 的典型用例包括:向模型輸入狗叫聲,模型輸出狗的圖片,反之亦可;向模型輸入鳥的圖片和海浪聲,模型輸出鳥在海邊的圖片,反之亦可。圖表 20:ImageBind 典型實例展示 資料來源:ImageBind:One Embedding Space To Bind Them All,國盛證券研究所 5.1.2 開源大模型的多模態探索開源大模型的多模態探索集中于圖片,但進展飛快集中于圖片,但進展飛快 當前開源大模型在多
69、模態的探索仍處于初級階段,除 ImageBind 打通了六種模態外,多數仍在探索文本與圖像的融合,但速度相當快,我們梳理了其中部分。2023 年 05 月 31 日 P.21請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 VisualGLM-6B:可在消費級顯卡上本地部署可在消費級顯卡上本地部署 團隊:VisualGLM-6B 是開源大語言模型 ChatGLM-6B 的多模態升級版模型,支持圖像、中文和英文,由清華大學知識工程和數據挖掘小組發布。技術:VisualGLM-6B 是由語言模型 ChatGLM-6B 與圖像模型 BLP2-Qformer 結合,二者結合后的參數為 78 億(62
70、億+16 億)。該模型使用的預訓練數據集是CogView 數據集中 3000 萬個高質量的“中文圖像-文本”和 3 億個“英文圖像-文本”對。在微調階段,該模型在長視覺問答數據集上進行訓練,以生成符合人類偏好的答案。性能:根據 DataLearner,VisualGLM-6B 集成了模型量化技術,用戶可以在消費級顯卡上本地部署模型,INT4 量化級別只需要 8.7G 的顯存。這意味著即使是擁有游戲筆記本的用戶也可以快速且私密地部署這個模型,這在此類大小的ChatGPT 類模型中尚屬首次。UniDiffuser:為多模態設計的概率建??蚣転槎嗄B設計的概率建??蚣?UniDiffuser 團隊:
71、清華大學計算機系朱軍教授帶領的 TSAIL 團隊于 3 月 12 日公開的一篇論文One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale,進行了一些多模態的探索。技術:UniDiffuser 采用該團隊提出的基于 Transformer 的網絡架構 U-ViT,在開源的大規模圖文數據集 LAION 的 50 億參數版上,訓練了一個十億參數量的模型,使得其能夠高質量地完成多種生成任務。功能:簡單來講,該模型除了單向文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,實現了任意模態之間的
72、相互轉化。LLaVA:部分指令表現可比肩部分指令表現可比肩 GPT-4 團隊:由威斯康星大學麥迪遜分校,微軟研究院和哥倫比亞大學共同出品的LLaVA,在 GitHub 上開源了代碼、模型和數據集。技術:LLaVA 是一個端到端的多模態大模型,它連接了一個視覺編碼器和大語言模型,用于通用的視覺和語言理解。功能:以文本為基礎的任務:LLaVA 可以處理并分析文本,允許用戶問問題,可以和用戶交談,或者完成用戶輸入的任務,比如提煉文件概要、情感分析、實體識別等。以圖像為基礎的任務:LLaVA 可以分析圖像,描述圖像,進行物體識別,分析理解場景。性能:早期實驗表明,LLaVA 的多模態聊天能力有時在未見
73、過的圖像/指令上都能輸出比肩 GPT-4 的表現,在合成的多模態指令跟隨數據集上與 GPT-4 相比,獲得了 85.1%的相對分數。MiniGPT-4:脫胎于脫胎于 LLaMA 的多模態的多模態開源大模型開源大模型,個人用戶的,個人用戶的 GPT-4“平替”“平替”團隊:多模態 GPT-4 大模型的發布,將大眾對于大模型的熱情推到了一個新的2023 年 05 月 31 日 P.22請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 高潮。但是 GPT-4 并沒有完全免費開放給個人,要想使用 GPT-4,要么需要通過官方的邀請,要么需要升級到付費賬號。但即使付費,一些地區也無法進行相關服務的購買。
74、在這種環境下,阿布杜拉國王科技大學的 Deyao Zhu、Jun Chen 等人于 4 月 23 日發布了 MiniGPT-4,旨在將來自預訓練視覺編碼器的視覺信息與先進的大語言模型結合。技術:具體來說,MiniGPT-4 采用了與 BLIP-2 相同的預訓練視覺組件,其中該組件由 EVA-CLIP 的 ViT-G/14 和 Q-Former 組成,同時使用大語言模型 Vicuna調優,可以執行各種復雜的語言任務。功能:MiniGPT-4 可實現許多玩法,如上傳一張海鮮大餐照片,即可得到菜譜;上傳一張商品效果圖,即可獲得一篇帶貨文案;手繪一個網頁,即可得到對應的 HTML 代碼。據使用過的人士
75、反饋,MiniGPT-4 整體效果不錯,但目前對中文支持還有待提高。mPLUG-Owl:模塊化多模態大模型模塊化多模態大模型 團隊:mPLUG-Owl 是阿里巴巴達摩院 mPLUG 系列的最新工作,延續 mPLUG系列的模塊化訓練思想,將語言大模型遷移為多模態大模型。技術:mPLUG-Owl 采用 CLIP ViT-L/14 作為視覺基礎模塊,采用 LLaMA 初始化的結構作為文本解碼器,采用類似 Flamingo 的 Perceiver Resampler 結構對視覺特征進行重組。此外,mPLUG-Owl 第一次針對視覺相關的指令評測提出了全面的測試集 OwlEval。功能:mPLUG-Ow
76、l 具有很強的多輪對話能力、推理能力及笑話解釋能力。此外,研究團隊還觀察到 mPLUG-Owl 初顯一些意想不到的能力,比如多圖關聯、多語言、文字識別和文檔理解等能力。性能:實驗證明 mPLUG-Owl 在視覺相關的指令回復任務上優于 BLIP2、LLaVA、MiniGPT4。5.2 專業化:專業化:下游生態發力,針對特定任務下游生態發力,針對特定任務微調微調模型模型 大模型開源化為下游生態的蓬勃生長提供了絕佳機會,在細分產業的開發下,大模型開始在特定任務上深化開發,改變人類生活。自開源大模型 LLaMA 推出后,基于 LLaMA 預訓練模型微調的下游專業化模型開始浮現,例如醫療問診領域中的華
77、駝。團隊:華駝是基于中文醫學知識的 LLaMa 指令微調模型,在智能問診層面表現出色,可生成一些更為可靠的醫學知識回答。在生物醫學領域,已發布的大語言模型模型因為缺乏一定的醫學專業知識語料而表現不佳。4 月 14 日,哈爾濱工業大學一團隊發布了其對 LLaMa 模型進行指令微調后得到的、針對醫學領域的、開源智能問診模型 Hua Tuo。技術:LLaMA 擁有 70 億650 億參數等多個版本,為了更快速、高效地訓練,節約訓練成本,華駝采用了 LLaMA70 億參數版本作為基礎模型。為了保證模型在醫學領域回答問題的準確性,研究人員通過從中文醫學知識圖譜 CMeKG 中提取相關的醫學知識,生成多樣
78、的指令數據,并收集了超過 8000 條指令數據進行監督微調,以確保模型回答問題的事實正確性。2023 年 05 月 31 日 P.23請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 圖表 21:醫學知識圖譜 CMeKG 片段示例 資料來源:HuaTuo(華駝):Tuning LLaMA Model with Chinese Medical Knowledge,國盛證券研究所 性能:在模型效果上,華駝與其他三個基準模型進行了比較。為了評估模型性能,研究人員招募了五名具有醫學背景的專業醫師,在安全性、可用性、平穩性(SUS)三個維度上進行評估。SUS 刻度從 1(不可接受)到 3(好),其中 2
79、 表示可接受的響應。平均 SUS 得分如下圖所示。結果表明,華駝模型顯著提高了知識可用性,同時沒有太多地犧牲安全性。圖表 22:華駝大模型 sus 評分實驗結果 資料來源:HuaTuo(華駝):Tuning LLaMA Model with Chinese Medical Knowledge,國盛證券研究所 華駝或將是未來開源大模型下游的特定任務模型發展的范式,即采用低參數體量的小型開源大模型作為基礎模型,加之以特定專業領域的數據進行訓練,得到表現更好的細分領域模型。2023 年 05 月 31 日 P.24請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 6 投資建議投資建議 開源大模型的發
80、展影響深遠,本報告選取其中部分可能受益的方向,提請市場關注。6.1 微軟微軟:與與 OpenAI 深度合作深度合作 我們認為,短期內,ChatGPT 系仍是能力最強的大模型,與其深度合作的微軟將受益。股權上股權上,根據財富雜志報道,在 OpenAI 的第一批投資者收回初始資本后,微軟將有權獲得 OpenAI 75%利潤,直到微軟收回投資成本(130 億美元);當 OpenAI實現 920 億美元的利潤后,微軟的份額將降至 49%。與此同時,其他風險投資者和OpenAI 的員工,也將有權獲得 OpenAI 49%的利潤,直到他們賺取約 1500 億美元。如果達到這些上限,微軟和投資者的股份將歸還
81、給 OpenAI 非營利基金會。產品上產品上,除了讓搜索引擎必應(Bing)整合 ChatGPT,2023 年 1 月,微軟宣布推出Azure OpenAI服務,Azure全球版企業客戶可以在云平臺上直接調用OpenAI模型,包括 GPT3.5、Codex 和 DALL.E 模型,其后不久,微軟宣布將 GPT4 整合到了新必應和 Office 升級版 Copilot 上。6.2 英偉達英偉達:開源大模型開源大模型帶動應用風起,帶動應用風起,算力算力需求狂飆需求狂飆 算力服務是開源大模型浪潮中受益確定性較強的方向,在軟硬件一體化方面具有明顯的領先優勢,是當前 AI 算力的領頭羊。6.2.1 超大
82、模型對算力的需求將保持高增長超大模型對算力的需求將保持高增長 超大模型超大模型質量優勢質量優勢突出突出,市場,市場將將持續追捧,持續追捧,其其對算力的需求會一直增長對算力的需求會一直增長。超大型模型具有強大的表達能力和高準確性,在質量上具有優勢,市場將持續追捧這種模型。超大模型規模、數據集和日活持續擴大,所需算力將持續增多。6.2.2 開源大模型開源大模型的快速追趕也將利好算力的快速追趕也將利好算力 短期內,市場對短期內,市場對開源大模型開源大模型持觀望態度持觀望態度。開源大模型在通用性上表現較差,短時間內無法與大型模型抗衡,加之目前難以系統評價模型的具體性能,市場對開源大模型持觀望態度,等待
83、它們證明自己的性能和優勢。中長期看,中長期看,開源大模型開源大模型有望進一步提高性能,從而在市場上占據更大的份額。有望進一步提高性能,從而在市場上占據更大的份額。相較于超大模型,開源大模型具有更低的算力需求和更易于部署的特點,還可以通過快速微調等方式,針對某些專業領域優化,具備一定吸引力和實用性。在中長期內,如果有開源大模型能夠接近或超越 ChatGPT 在質量上的表現,那么市場對這類模型的需求可能會迅速上升。相應地,這類算力需求會很快起量。6.2.3 催化劑:催化劑:開源大模型開源大模型許可證、標準和能力評價體系的發展許可證、標準和能力評價體系的發展 許可證許可證:我們認為,開源社區發展已久
84、的許可證體系,豐富了開發者的選擇,有助于大模型選擇適合自己的許可證,從而推動商業應用。大模型的繁榮發展,顯然將帶動市場對算力的需求。標準標準:我們預計,大模型社區或許還將產生類似于 Linux 開發標準 LSB 的標準,適當的標準化將使得大模型的生態不至于過于分散。我們看好開源社區源源不斷的生2023 年 05 月 31 日 P.25請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 命力對英偉達等算力服務商業績的推動。大模型能力評價體系大模型能力評價體系:有公信力的大模型能力評價體系將有助于市場快速分辨大模型的能力,有助于大模型賽道的發展。6.3 Meta:開源開源“急先鋒”,受益于開源生態“
85、急先鋒”,受益于開源生態 回顧安卓的發展史,我們看好“谷歌-安卓”體系中的類谷歌角色,在該體系中,谷歌作為開源操作系統安卓的開發商,將開源作為激勵生態上下游發展的工具,增強自身專有服務在終端客戶的曝光度。映射到大模型,我們認為,開源了 LLaMA 的 Meta,可能通過 LLaMA,加深與下游大模型開發廠商的合作,將自身體系中的專有產品,綁定銷售給客戶。6.4 其他其他 6.4.1 邊緣算力邊緣算力+開源模型:開源模型:AI 應用的落地加速器應用的落地加速器 邊緣算力可以將推理計算放置用戶的設備上,不僅能夠提高數據處理的速度和效率,從而降低推理的成本,還能夠保護用戶的隱私和安全。智能模組智能模
86、組:作為承載邊緣算力的最佳模式,是未來具身智能產品放量下最具有確定性和彈性的品種。建議關注美格智能、廣和通。邊緣邊緣 IDC:憑借時延和成本優勢,是滿足“階梯形”算力分布的一種有效補充。建議關注龍宇股份、網宿科技。光模塊光模塊:中際旭創、新易盛、天孚通信、源杰科技。傳統的傳統的 IoT 通信芯片廠商通信芯片廠商:有望受益行業上行過程。建議關注:中興通訊、工業富聯、紫光股份、銳捷網絡、翱捷科技、初靈信息。6.4.2 大數據公司大數據公司:看好“:看好“開源大模型開源大模型+自有海量自有海量數據”數據”組合組合 對“擁有大量數據但算力不足”的企業而言,利用自己的數據,充分預訓練和微調開源可商用模型
87、,性價比較高。這可以提高模型的準確性和適用性,也能夠大大縮短模型訓練時間和成本。此外,微調后的模型還能夠更好地滿足企業的特定需求和業務場景,從而提升企業的競爭力和創新能力。隨著技術的不斷發展和普及,自主微調模型成為企業利用自有數據,快速實現智能化應用的重要手段。6.4.3 開源大模型服務商開源大模型服務商:服務至上:服務至上 回顧紅帽的發展史,我們認為,即使大模型進入開源時代,面向客戶的 24*7 的服務仍然必不可少,尤其是面向企業的。我們看好開源大模型服務商。6.4.4 蘋果蘋果:獲得:獲得 ChatGPT App 收入分成收入分成 ChatGPT 在 App Store 上架,按照 App
88、 Store 的慣例,蘋果將獲得收入分成。2023 年 05 月 31 日 P.26請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 風險提示風險提示 倫理風險倫理風險:人工智能與人交互過程中,可能出現倫理風險。市場競爭風險市場競爭風險:開源大模型的發展一日千里,對商業公司而言,是機遇也是挑戰。政策法律監管風險政策法律監管風險:隨著相關法律的逐步完善,或出現法律監管的問題,例如在個人數據保護和知識產權保護方面出現大量糾紛。2023 年 05 月 31 日 P.27請仔細閱讀本報告末頁聲明請仔細閱讀本報告末頁聲明 免責聲明免責聲明 國盛證券有限責任公司(以下簡稱“本公司”)具有中國證監會許可的證
89、券投資咨詢業務資格。本報告僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。本報告的信息均來源于本公司認為可信的公開資料,但本公司及其研究人員對該等信息的準確性及完整性不作任何保證。本報告中的資料、意見及預測僅反映本公司于發布本報告當日的判斷,可能會隨時調整。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息及資料保持在最新狀態,對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司力求報告內容客觀、公正,但本報告所載的資
90、料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。投資者應當充分考慮自身特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。投資者應注意,在法律許可的情況下,本公司及其本公司的關聯機構可能會持有本報告中涉及的公司所發行的證券并進行交易,也可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本報告版權歸“國盛證券有限責任公司”所有。未經事先本公司書面授權,任何機構或個人不得對本報告進行
91、任何形式的發布、復制。任何機構或個人如引用、刊發本報告,需注明出處為“國盛證券研究所”,且不得對本報告進行有悖原意的刪節或修改。分析師聲明分析師聲明 本報告署名分析師在此聲明:我們具有中國證券業協會授予的證券投資咨詢執業資格或相當的專業勝任能力,本報告所表述的任何觀點均精準地反映了我們對標的證券和發行人的個人看法,結論不受任何第三方的授意或影響。我們所得報酬的任何部分無論是在過去、現在及將來均不會與本報告中的具體投資建議或觀點有直接或間接聯系。投資評級說明投資評級說明 投資建議的評級標準投資建議的評級標準 評級評級 說明說明 評級標準為報告發布日后的 6 個月內公司股價(或行業指數)相對同期基
92、準指數的相對市場表現。其中 A 股市場以滬深 300 指數為基準;新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為基準;香港市場以摩根士丹利中國指數為基準,美股市場以標普 500 指數或納斯達克綜合指數為基準。股票評級 買入 相對同期基準指數漲幅在 15%以上 增持 相對同期基準指數漲幅在 5%15%之間 持有 相對同期基準指數漲幅在-5%+5%之間 減持 相對同期基準指數跌幅在 5%以上 行業評級 增持 相對同期基準指數漲幅在 10%以上 中性 相對同期基準指數漲幅在-10%+10%之間 減持 相對同期基準指數跌幅在 10%以上 國盛證券研究所國盛證券研究所 北京北京 上海上海 地址:北京市西城區平安里西大街 26 號樓 3 層 郵編:100032 傳真:010-57671718 郵箱: 地址:上海市浦明路 868 號保利 One56 1 號樓 10 層 郵編:200120 電話:021-38124100 郵箱: 南昌南昌 深圳深圳 地址:南昌市紅谷灘新區鳳凰中大道 1115 號北京銀行大廈 郵編:330038 傳真:0791-86281485 郵箱: 地址:深圳市福田區福華三路 100 號鼎和大廈 24 樓 郵編:518033 郵箱: