1、證券研究報告行業深度報告計算機 東吳證券研究所東吳證券研究所 1/19 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 計算機行業深度報告 AI 偏向科普性報告:圍繞算法、算力、數據偏向科普性報告:圍繞算法、算力、數據和應用和應用 2023 年年 04 月月 06 日日 證券分析師證券分析師 王紫敬王紫敬 執業證書:S0600521080005 021-60199781 研究助理研究助理 王世杰王世杰 執業證書:S0600121070042 行業走勢行業走勢 相關研究相關研究 華為盤古大模型產業鏈梳理 2023-03-27 數據安全,為數據要素市場發展保駕護航 2023-03
2、-24 增持(維持)Table_Tag Table_Summary 投資要點投資要點 大模型是大模型是 AI 開發的新范式,是人工智能邁向通用智能的里程碑:開發的新范式,是人工智能邁向通用智能的里程碑:大模型指通過在大規模寬泛的數據上進行訓練后能適應一系列下游任務的模型,本質依舊是基于統計學的語言模型,只不過“突現能力”賦予其強大的推理能力?,F有的大模型的框架在本質上是一致的,幾乎所有參數規模超過千億的大語言模型都采取 GPT 模式,但是不同類型的企業給予自己所在領域的優勢,開發的大模型在功能上還是有所差異。技術對大模型的效果具有決定作用,因此未來競爭格局也依賴于技術突破。算力是算力是 AI
3、時代的“石油”:時代的“石油”:大模型的訓練和推理都會用到 AI 芯片的算力支持,在數據和算法相同情況下,算力是大模型發展的關鍵,是人工智能時代的“石油”。我們假設 GPT-3 訓練時間為一個月,則需要 843顆英偉達 A100 芯片。我們假設 GPT-3 每日日活為 5000 萬,則需要約16255 顆英偉達 A100 芯片。GPT-4 為多模態數據,我們預計算力需求量是 GPT-3 的 10 倍以上。中國大廠相繼布局大模型,我們測算,僅十家頭部廠商大模型 1 年內有望增加約 20 萬片 A100 需求量。長期來看,則需求量有望超 200 萬片,新增算力需求將使算力市場增長 2 倍以上。20
4、21 年,中國加速卡市場中 Nvidia 占據超過 80%市場份額,國產 AI 芯片性能與海外仍有差距,國產大模型推出有望加快國產芯片發展。數據資源是數據資源是 AI 產業發展的重要驅動力之一:產業發展的重要驅動力之一:數據集作為數據資源的核心組成部分,是指經過專業化設計、采集、清洗、標注和管理,生產出來的專供人工智能算法模型訓練的數據。大規模語言模型性能強烈依賴于參數規模 N,數據集大小 D 和計算量 C,訓練數據主要來自于維基百科、書籍、期刊、Reddit 社交新聞站點、Common Crawl 和其他數據集,GPT4 依靠大量多模態數據訓練。未來 AI 模型的競爭力或體現在數據質量和稀缺
5、性,發展數據要素市場,促進相關公共、企業、個人數據的進一步放開,將為國內 AI 發展提供重要支撐。AI 賦能各行各業,未來是賦能各行各業,未來是 AI 應用的星辰大海應用的星辰大海:AI 堪比第四次技術革命,本輪最直接的應用在內容創作領域,打開產業的想象邊界。我們應該去尋找在 AI 賦能下,應用功能顯著改善、客戶粘性顯著提升,市場空間大幅提升的領域,主要有內容創作,辦公軟件,ERP,機器人以及芯片設計領域。當前部分大模型廠商已經開啟產業化應用,但是算力依舊是限制 AI 大規模商業化落地的主要原因,一旦解決,直接受益 AI+的將是信息化行業,因此我們看好各行業信息化領域處于優勢地位的龍頭公司。投
6、資建議:投資建議:算法上,我們建議關注已經有先發優勢的大模型公司:三六零、科大訊飛、同花順等,此外還有一些實施企業,如軟通動力、潤和軟件、漢得信息等;算力上,我們推薦景嘉微、中科曙光、神州數碼,建議關注海光信息、寒武紀、四川長虹、拓維信息等;數據上,我們推薦各細分賽道的信息化龍頭企業,如久遠銀海、容知日新、中控技術,建議關注國能日新、千方科技等;應用上,我們推薦在具備“殺手級”應用潛能的廠商金山辦公、用友網絡、恒生電子,建議關注廣聯達、石基信息等。風險提示:風險提示:政策推進不及預期;行業競爭加劇 -23%-18%-13%-8%-3%2%7%12%17%22%27%2022/4/62022/8
7、/52022/12/42023/4/4計算機滬深300 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 2/19 內容目錄內容目錄 1.算法:大模型算法:大模型人工智能邁向通用智能的里程碑人工智能邁向通用智能的里程碑.4 2.算力:算力:AI 訓練的基礎設施訓練的基礎設施.8 3.數據:數據:AI 發展的驅動力發展的驅動力.11 4.應用:應用:AI 的星辰大海的星辰大海.14 5.投資建議與相關標的投資建議與相關標的.18 6.風險提示風險提示.18 4WdYgVkWbVkXtWqZrYaQ8Q9PpNrRoMtQkPrRqMkP
8、pPpRaQoPyRxNsPpMMYoOqP 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 3/19 圖表目錄圖表目錄 圖 1:大語言模型.4 圖 2:Transformer 引領了大模型的爆發.5 圖 3:GPT-4 多語言性能表現優秀.5 圖 4:GPT-4 的文字輸入限制.5 圖 5:大模型評估框架 V1.0.6 圖 6:大模型的投入成本.6 圖 7:百度文心一言.7 圖 8:華為盤古.7 圖 9:OpenAI-ChatGPT.8 圖 10:Google-BERT.8 圖 11:用時 1 個月訓練 ChatGPT-3 需要英
9、偉達 A100 芯片數量.9 圖 12:維持 ChatGPT-3 每日 5000 萬月活運營需要英偉達 A100 芯片數量.9 圖 13:A800 和 A100 性能對比.10 圖 14:國產 AI 芯片產品算力對比.11 圖 15:大模型訓練數據來源統計(表中數字單位為 GB).12 圖 16:數據采集示意圖.13 圖 17:三次工業革命帶來下游應用技術爆發.14 圖 18:GPT-4 畫出了三體中的羅輯.15 圖 19:AI 生成不同的 3D 建筑風格.15 圖 20:Microsoft365 Copilot.15 圖 21:ChatGPT 改善了機器人對環境的適應性.16 圖 22:智能
10、 EDA 和傳統 EDA 流程圖.17 表 1:GPT-4 和 GPT-3.5-turbo 收費標準.10 表 2:國產大模型帶動算力需求測算(短期為 2023 年,長期為 2024-2025 年).10 表 3:計算機各行業數據要素相關廠商.13 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 4/19 1.算法:大模型算法:大模型人工智能邁向通用智能的里程碑人工智能邁向通用智能的里程碑 大模型就是大模型就是 Foundation Model(基礎模型),指通過在大規模寬泛的數據上進行訓(基礎模型),指通過在大規模寬泛的數據上進行
11、訓練后能適應一系列下游任務的模型。練后能適應一系列下游任務的模型。大模型兼具“大規?!焙汀邦A訓練”兩種屬性,面向實際任務建模前需在海量通用數據上進行預先訓練,能大幅提升人工智能的泛化性、通用性、實用性,是人工智能邁向通用智能的里程碑技術。圖圖1:大語言模型大語言模型 數據來源:人工智能前沿,東吳證券研究所 大模型的本質依舊是基于統計學的語言模型,“突現能力”賦予其強大的推理能力。大模型的本質依舊是基于統計學的語言模型,“突現能力”賦予其強大的推理能力。通俗來講,大模型的工作就是對詞語進行概率分布的建模,利用已經說過的話預測下一個詞出現的分布概率,而并不是人類意義上的“理解”。較過往統計模型不同
12、的是,“突現能力”使得大模型擁有類似人類的復雜推理和知識推理能力,這代表更強的零樣本學習能力、更強的泛化能力,當前幾乎所有參數規模超過千億的大語言模型都采取當前幾乎所有參數規模超過千億的大語言模型都采取 GPT 模式模式。近些年來,大型語言模型研究的發展主要有三條技術路線:Bert 模式、GPT 模式以及混合模式。Bert 模式適用于理解類、做理解類、某個場景的具體任務,專而輕,2019 年后基本上就沒有什么標志性的新模型出現;混合模式大部分則是由國內采用;多數主流大語言模型走的還是 GPT 模式,2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT,GPT 技術路線愈發趨于繁榮。
13、請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 5/19 圖圖2:Transformer 引領了大模型的爆發引領了大模型的爆發 數據來源:量子學派,東吳證券研究所 GPT4 作為人工智能領域最先進的語言模型,在如下四個方面有較大的改進作為人工智能領域最先進的語言模型,在如下四個方面有較大的改進。1)多多模態模態:GPT4 可以接受文本和圖像形式的 prompt,在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等);2)多語言多語言:在測試的 26 種語言的 24 種中,GPT-4 優于 GPT-3.5
14、 和其他大語言模型(Chinchilla,PaLM)的英語語言性能;3)“記憶力”記憶力”:GPT-4 的最大 token 數為 32,768,即 215,相當于大約 64,000 個單詞或 50 頁的文字,遠超 GPT-3.5 和舊版 ChatGPT 的 4,096 個 token;4)個性化個性化:GPT-4 比 GPT-3.5 更原生地集成了可控性,用戶將能夠將“具有固定冗長、語氣和風格的經典 ChatGPT 個性”更改為更適合他們需要的東西。圖圖3:GPT-4 多語言性能表現優秀多語言性能表現優秀 圖圖4:GPT-4 的文字輸入限制的文字輸入限制 數據來源:Accuracy,東吳證券研
15、究所 數據來源:Allmetaverse,東吳證券研究所 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 6/19 現有的大模型的框架在本質上是一致的,尚未出現技術上的“降維打擊”?,F有的大模型的框架在本質上是一致的,尚未出現技術上的“降維打擊”。GPT-4雖然整體性能最為領先,但從技術上看,GPT-4 仍然是對自然語言處理增強學習、深度循環神經網絡及其改進版本、大模型等已有技術的組合的創新,并且通過足夠大量的數據進行支持,并非在大模型技術上有革命性突破。雖然國內 AI 大模型版本相對要滯后一些,但是并不存在不可彌補的鴻溝。參數量和
16、數據量是決定了模型效果。參數量和數據量是決定了模型效果。通常認為,參數量大于 1000 億時,模型才有可能形成“突現能力”,這種現象在 GPT3 后開始更加顯著。過往的 NLP 模型是按照具體任務和具體數據來訓練的,所以數據質量越好,模型效果越好。而從 Transformer 開始,除了數據質量外,數據數量的重要性也愈發重要。因此參數量和數據量決定了模型最終的效果,最直觀的效果指標就是準確度。此外,IDC 搭起了大模型評估框架 V1.0 以充分評估大模型技術能力、功能豐富度與底層深度學習平臺開發能力,以及對各行業賦能的實際效果。圖圖5:大模型評估框架大模型評估框架 V1.0 分類分類 一級一級
17、 二級二級 產品能力 模型能力 功能豐富度 模型性能 平臺工具能力 功能豐富度 平臺成熟度 易上手程度 開放性 開放可體驗的能力數 對用戶數據隱私保護、數據安全措施 應用能力 應用廣度 覆蓋的行業數 應用深度 客戶業務流程關鍵環節滲透度 生態能力 應用生態 基于大模型進行產品開發的開發者數 基于大模型工具與平臺開發者創建的模型或應用數目 數據來源:IDC,東吳證券研究所 當前大模型的商業模式是“通用大模型當前大模型的商業模式是“通用大模型+產業模型”。產業模型”。底層 AI 大模型的研發具有極高的研發門檻,面臨高昂的成本投入,不利于人工智能技術在千行百業的推廣。而具有數據、算力、算法綜合優勢的
18、企業可以將模型的復雜生產過程封裝起來,通過低門檻、高效率的生產平臺,向千行百業提供大模型服務。各個行業的企業只需要通過生產平臺提出在實際 AI 應用中的具體需求,生產大模型的少數企業就能夠根據應用場景進一步對大模型開發訓練,幫助應用方實現大模型的精調,以達到各行業對于 AI 模型的直接應用。圖圖6:大模型的投入成本大模型的投入成本 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 7/19 項目項目 成本成本 智算集群建設成本 一臺搭載 A800 的服務器成本超過 40 萬元,服務器采購成本通常是數據中心建設成本的 30%,一個智算集
19、群的建設成本超過 3030 億元億元。模型訓練成本 大模型一次完整的模型訓練成本為 1000 萬-1 億元人民幣級別,如果進行 10 次完整的模型訓練,成本便高達數億元數億元,再加上數據采集、人工標注、模型訓練等一系列軟性成本。運營成本 數據中心內的模型訓練需要消耗網絡帶寬、電力等資源,成本也以億元億元為單位計算。數據來源:財經十一人,東吳證券研究所 不同類型的企業在發展大模型擁有的優勢也不盡相同。不同類型的企業在發展大模型擁有的優勢也不盡相同。1)一是以阿里巴巴、華為、騰訊及百度為代表的基礎云廠商,既具備做出通用 ChatGPT 的能力,也有著足夠的數據和算力。2)二是以科大訊飛為代表的 A
20、I 算法領先企業,被視為計算機板塊中最有可能做出通用 ChatGPT 的公司。3)擁有天然的場景應用及配套數據優勢的互聯網平臺。例如,國內最大的在線問答社區知乎,以問答類任務為主模式與 GPT 天然契合。4)擁有高價值內容數據的企業也具備做好大模型的核心要素,可以大幅提升對人類意圖的理解,從而提升回答信息的準確性。各大廠商各大廠商大模型百花齊放,核心差異在于細節。大模型百花齊放,核心差異在于細節。以國內廠商為例:1)百度由于多年在 AI 領域的深耕,其文心大模型涵蓋基礎大模型、任務大模型、行業大模型的三級體系,打造大模型總量約 40 個。2)騰訊混元應用方向則主要是騰訊自身生態的降本增效,其中
21、廣告類應用表現出色。3)阿里更重技術,通義大模型基于阿里云、達摩院打造的硬件優勢,可將大模型所需算力壓縮到極致;另外其底層技術優勢還有利于構建 AI的統一底層。4)華為的優勢則在于其訓練出業界首個 2000 億參數以中文為核心的預訓練生成語言模型,包括 NLP、CV、多模態、科學計算大模型,目前已實現醫學、氣象、時尚等多個 AI 場景落地。5)中科院的紫東太初是全球首個視覺-文本-語音三模態預訓練模型,同時具備跨模態理解與跨模態生成能力。圖圖7:百度文心一言百度文心一言 圖圖8:華為盤古華為盤古 數據來源:文心一言官網,東吳證券研究所 數據來源:華為開發者大會 2021,東吳證券研究所 當前全
22、球人工智能創新鏈基本形成了中美兩國主導、東亞北美西歐協同引領的格局。當前全球人工智能創新鏈基本形成了中美兩國主導、東亞北美西歐協同引領的格局。美國是人工智能發展領域的前沿國家,其擁有一系列具備充足技術和資金資源的公司和實驗室,各巨頭科技公司均有相關的技術資源。其代表性模型有ChatGPT、Claude、BarT、請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 8/19 BlenderBot3、Megatron-Turing 等;中國雖然在大模型上差距尚存,但研究和開發都非?;钴S,正在加速追趕,也開發出了一些比較有代表性的模型,如百度
23、文心一言、阿里通用、騰訊混元、華為盤古、中科院紫東太初等;東亞、北美、西歐等地區國家協同引領大模型發展,各有成果問世,如俄羅斯的 YaLM、英國的 Gopher、韓國的 HyperCLOVA、以色列的 Jurassic-1 Jumbo 等。圖圖9:OpenAI-ChatGPT 圖圖10:Google-BERT 數據來源:OpenAI,東吳證券研究所 數據來源:Google,東吳證券研究所 如果仍維持如果仍維持 Transformer 的模型架構基礎,未來行業將是寡頭壟斷的競爭格局。的模型架構基礎,未來行業將是寡頭壟斷的競爭格局。一方面,現有的大模型已經開始訓練,在模型訓練上有絕對的優勢,模型的
24、效果也會更好;另一方面,隨著大模型版本的迭代,每一代大模型的算力、訓練成本也有跡可循,對資金的需求也會持續擴大,沒有雄厚資金支持的企業會逐漸掉隊。一旦大模型技術出現突破,行業競爭格局有望一家獨大。一旦大模型技術出現突破,行業競爭格局有望一家獨大。由于當前大模型的技術是公用的,沒有哪家存在明顯的技術領先,因此各行各業廠商紛紛入局,希望分得一杯羹,因此出現了大模型百花齊放的競爭格局。一旦出現技術突破,大模型的準確度以及智能化出現了“碾壓”的優勢,行業需求會迅速向 NO.1 集中,有望形成一家獨大的競爭格局。2.算力:算力:AI 訓練的基礎設施訓練的基礎設施 大模型算力成本主要分為初始訓練成本和后續
25、運營成本。大模型算力成本主要分為初始訓練成本和后續運營成本。初始訓練:初始訓練:根據 openAI 官網數據,每個 token(token 是服務端生成的一串字符串,以作客戶端進行請求的一個令牌)的訓練成本通常約為 6N FLOPS(FLOPS 指每秒浮點運算次數,理解為計算速度,可以用來衡量硬件的性能),其中 N 是 LLM(大型語言模型)的參數數量。1750 億參數模型的 GPT-3 是在 3000 億 token 上進行訓練的。根據openAI 官網數據,在訓練過程中,模型的 FLOPS 利用率為 46.2%。我們假設訓練時間訓練時間為為 1 個月個月,采用英偉達 A100 進行訓練計算
26、(峰值計算能力為 312 TFLOPS FP16/FP32),則測算結果為需要測算結果為需要 843 顆英偉達顆英偉達 A100 芯片。芯片。請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 9/19 圖圖11:用時用時 1 個月訓練個月訓練 ChatGPT-3 需要英偉達需要英偉達 A100 芯片數量芯片數量 數據來源:CSDN,東吳證券研究所測算 運營(推理)成本:運營(推理)成本:運營階段所需算力量與使用者數量緊密相關。根據 openAI 官網數據,每個 token 的推理成本通常約為 2N FLOPS,其中 N 是 LLM 的
27、參數數量。根據openAI 官網數據,在訓練過程中,模型的 FLOPS 利用率為 21.3%。同樣采用英偉達 A100進行推理計算(峰值計算能力為 312 TFLOPS FP16/FP32)。我們假設 GPT-3 每日 5000萬活躍用戶,每個用戶提 10 個問題,每個問題回答 400 字,則測算結果為需要測算結果為需要 16255顆英偉達顆英偉達 A100 芯片。芯片。圖圖12:維持維持 ChatGPT-3 每日每日 5000 萬月活運營需要英偉達萬月活運營需要英偉達 A100 芯片數量芯片數量 數據來源:CSDN,東吳證券研究所測算 GPT-4 為多模態大模型,對算力要求相比為多模態大模型
28、,對算力要求相比 GPT-3 會提升會提升 10 倍。倍。GPT-4 的收費是 8k context 為$0.03/1k token,是 GPT-3.5-turbo 收費的 15 倍($0.002/1K tokens),因此我們推斷 GPT-4 的參數量是 GPT-3 的 10 倍以上,預計 GPT-4 的算力需求是 GPT-3 的 10 倍以上。請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 10/19 表表1:GPT-4 和和 GPT-3.5-turbo 收費標準收費標準 收費標準 GPT-4$0.03/1k token GPT
29、-3.5-turbo$0.002/1K tokens 數據來源:OpenAI 官網,東吳證券研究所 國產大模型有望帶動國內新增國產大模型有望帶動國內新增 A100 出貨量超出貨量超 200 萬顆,使得中國算力市場空間增萬顆,使得中國算力市場空間增加加 2 倍以上。倍以上。我們假設國內百度,華為,阿里,騰訊,字節等前 10 位頭部大廠都會發布自己的大模型。短期來看,短期來看,考慮到時間緊迫性,參考 GPT-3 的算力需求,僅十家頭部廠商大模型 1 年內有望增加約 20 萬片 A100 需求量。長期來看,長期來看,如果后續迭代為多模態大模型或者活躍用戶量大幅提升,則需求量有望超 200 萬片。根據
30、 IDC 數據,2021 年,中國加速卡數量出貨超過 80 萬片,新增算力需求將使算力市場增長 2 倍以上。表表2:國產大模型帶動算力需求測算國產大模型帶動算力需求測算(短期短期為為 2023 年,年,長期長期為為 2024-2025 年年)國內自研大模型廠商數量(家)10 家 每家短期需要 GPU 數 20,000 片 每家長期需要 GPU 數 200,000 片 短期總需求數 200,000 片 長期總需求數 2,000,000 片 2021 年中國加速卡出貨量 800,000 片 數據來源:IDC,東吳證券研究所測算 加速卡國產化率較低,美國制裁加速。加速卡國產化率較低,美國制裁加速。根
31、據 IDC 數據,2021 年,中國加速卡市場中國加速卡市場中中 Nvidia 占據超過占據超過 80%市場份額。市場份額。2022 年 10 月 7 日,美國商務部工業和安全局(BIS)發布一套新的、范圍廣泛的出口管制措施,對向中國出口先進人工智能(AI)和超級計算芯片制造、生產設備以及所需的某些工具實施新限制。英偉達的 A100 和 H100 被列入出口管制清單。英偉達推出中國特供版英偉達推出中國特供版 A800,算力與,算力與 A100 基本一致?;疽恢?。2022 年 11 月 8 日,英偉達推出 A800 GPU,將是面向中國客戶的 A100 GPU 的替代產品。A800 符合美國政
32、府關于減少出口管制的明確測試,并且不能通過編程來超過它。A800 GPU 在算力上與 A100 保持一致,但增加了 40GB 顯存的 PCIe 版本,但在 NVLink 互聯速度上,A800 相較于A100 下降了 200GB/s 的速度。同時,A800 80GB SXM 版本目前已經不支持 16 塊 GPU的成套系統,上限被限制在 8 塊??偟膩砜?,總的來看,A800 能夠滿足國內市場需求,是能夠滿足國內市場需求,是 A100 的的平替版本。平替版本。圖圖13:A800 和和 A100 性能對比性能對比 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券
33、研究所 行業深度報告 11/19 數據來源:英偉達官網,東吳證券研究所 國產國產 AI 芯片性能與海外仍有差距,國產大模型推出有望加快國產芯片發展。芯片性能與海外仍有差距,國產大模型推出有望加快國產芯片發展。國產AI 芯片廠商主要有寒武紀,景嘉微,沐曦,燧原等,但其產品性能距離海外仍有差距。以國產寒武紀為例,MLU370 性能為 FP32 24TFLOPS,僅為英偉達 A100 的 10%不到。要達到同等算力要求,國產芯片片數需求量會更大,但大量 AI 芯片并行運行會對控制能力有較高要求,難以滿足。但發展自己的 AI 芯片產業迫在眉睫,各家廠商正在快速追趕。圖圖14:國產國產 AI 芯片產品算
34、力對比芯片產品算力對比 數據來源:各公司官網,東吳證券研究所 3.數據:數據:AI 發展的驅動力發展的驅動力 數據資源是數據資源是 AI 產業發展的重要驅動力之一。產業發展的重要驅動力之一。數據集作為數據資源的核心組成部分,是指經過專業化設計、采集、清洗、標注和管理,生產出來的專供人工智能算法模型訓 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 12/19 練的數據。人工智能應用的數據越多,其獲得的結果就越準確。聯想集團首席技術官芮勇認為,大模型的特點可以概括為“一大三多”:“一大是指參數規模大,是千億參數級別的超大型人工智能模型
35、;三多是指利用多來源、多模態、多任務的互聯網海量數據進行訓練。大規模語言模型性能強烈依賴于參數規模大規模語言模型性能強烈依賴于參數規模 N,數據集大小,數據集大小 D 和計算量和計算量 C。OpenAI 在 2020 年曾經提出大模型縮放規律,計算量增加 10 倍,模型規模要增加 5 倍,訓練數據增加 2 倍。盡管后來 DeepMind 重現定義了最優模型訓練的參數規模和訓練數據量之間的關系,說明數據規模和參數量同等重要,我們仍然可以定性地認為,大模型的性能提升需要依靠持續擴大的數據集實現?;ヂ摼W提供的海量數據是 AI 近期能夠取得突破性進展的重要基礎。大模型的訓練數據主要來自于維基百科、書籍
36、、期刊、大模型的訓練數據主要來自于維基百科、書籍、期刊、Reddit 社交新聞站點、社交新聞站點、Common Crawl 和其他數據集。和其他數據集。OpenAI 雖沒有直接公開 ChatGPT 的相關訓練數據來源和細節,但可以從近些年業界公布過的其他大模型的訓練數據推測出 ChatGPT 的訓練數據來源,近幾年大模型訓練采用的數據來源基本類似。國內大模型的數據來源和自身優勢業務有較強相關性,如百度文心一言大模型的來源主要基于互聯網公開數據,包括網頁、搜索、圖片、語音日均調用數據,以及知識圖譜等。圖圖15:大模型訓練數據來源統計(表中數字單位為大模型訓練數據來源統計(表中數字單位為 GB)數
37、據來源:Alan D.Thompson,東吳證券研究所 GPT4 依靠大量多模態數據訓練。依靠大量多模態數據訓練。GPT4 是一個大規模的多模態模型,相比于此前的語言生成模型,數據方面最大的改進之一就是突破純文字的模態,增加了圖像模態的輸入,具有強大的圖像理解能力,即在預練習階段輸入任意順序的文本和圖畫,圖畫經過 Vision Encoder 向量化、文本經過普通 transformer 向量化,兩者組成多模的句向量,練習目標仍為 next-word generation。根據騰訊云開發者推測,GPT4 訓練數據中還額外增加了包含正誤數學問題、強弱推理、矛盾一致陳述及各種意識形態的數據,數據量
38、可能是 GPT3.5(45TB 數據)的 190 倍。未來未來 AI 模型的競爭力或體現在數據質量和稀缺性:模型的競爭力或體現在數據質量和稀缺性:根據 Google 的研究,數據質量 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 13/19 在高風險的人工智能領域具有更高的重要性,但人們往往只關注于模型,而忽略數據質量,在所有 AI 相關領域幾乎都是如此。我們認為 GPT-4 更多依賴模型效率和數據質量的提升來實現改進,未來在細分垂直行業的優化也將基于行業特定數據展開。高質量、稀缺的數據放開對高質量、稀缺的數據放開對 AI 發展至
39、關重要。發展至關重要。發展國內自己的大模型需要國內的高質量、稀缺數據。然而,根據發改委高技術司,我國政府數據資源占全國數據資源的比重超過 3/4,開放的規模卻不足美國的 10%,個人和企業可以利用的規模更是不及美國的 7%,但這類數據的開放共享程度不高,全國開放數據集規模僅約為美國的 11%,數據有待進一步開放匯集,為開發更符合國內需求的大模型提供基礎。發展數據要素市發展數據要素市場,促進相關公共、企業、個人數據的進一步放開,將為國內場,促進相關公共、企業、個人數據的進一步放開,將為國內 AI 發展提供重要支撐。發展提供重要支撐。我們認為可以主要關注兩個方面:能夠采集、處理細分行業稀缺數據的廠
40、商:久遠我們認為可以主要關注兩個方面:能夠采集、處理細分行業稀缺數據的廠商:久遠銀海、容知日新、國能日新、千方科技、中控技術、千方科技、用友網絡等,以及具有銀海、容知日新、國能日新、千方科技、中控技術、千方科技、用友網絡等,以及具有專業數據處理服務能力的通用第三方廠商:海天瑞聲等。專業數據處理服務能力的通用第三方廠商:海天瑞聲等。圖圖16:數據采集示意圖數據采集示意圖 數據來源:行行查,東吳證券研究所 表表3:計算機各行業數據要素相關廠商計算機各行業數據要素相關廠商 行業 相關公司 電信 中國移動,電信,聯通,思特奇 廣播電視 廣電網絡 能源 國能日新,恒實科技,朗新科技,遠光軟件,國網信通,
41、朗新科技,海聯訊,金現代,普聯軟件 金融 中科江南,稅友股份,宇信科技,長亮科技,神州信息,新大陸,廣電運通,ST 御銀,證通電子,京北方,同花順,銀江技術,銀之杰,新國都,浩云科技,高偉達,四 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 14/19 方精創,古鰲科技,天陽科技,恒生電子,金證股份,頂點軟件 公路水路運輸 中遠???,千方科技,金溢科技,鴻泉物聯,皖通科技,銳明技術,德賽西威,盛視科技,有棵樹,運達科技,萬集科技,天邁科技,通行寶,微創光電,多倫科技,諾力股份,道通科技 鐵路 世紀瑞爾,唐源電氣,思維列控 民航 航
42、天信息 郵政 湘郵科技 水利 和達科技 應急管理 辰安科技 衛生健康 久遠銀海,國新健康,創業匯康,衛寧健康,山大地緯,萬達信息,思創醫惠,朗瑪信息,榮科科技,和仁科技 社會保障 美亞柏科 國防科技 旋極信息,華如科技,佳緣科技,能科科技 冶金 上海鋼聯 地理信息 航天宏圖,中科星圖,四維圖新,超圖軟件 酒店 石基信息 建筑 廣聯達,立方數科,恒華科技,盈建科,宏景科技,品茗科技 教育 競業達,新開普,佳發教育,鷗瑪軟件,科大訊飛 煤炭 梅安森,北路智控,龍軟科技 數據來源:Wind,東吳證券研究所 4.應用:應用:AI 的星辰大海的星辰大海 AI 時代已經來臨,最大的市場將是被時代已經來臨,
43、最大的市場將是被 AI 賦能的下游應用市場。賦能的下游應用市場。如果說 AI 是第四次工業革命,那么正如前三次工業革命,最大的市場將是被 AI 賦能的下游應用市場。本輪革命性的產品 ChatGPT 將極大地提升內容生產力,率先落地于 AIGC 領域,打開其產業的想象邊界。文本生成、代碼生成、圖像生成以及智能客服將是能直接賦予給下游行業的能力,打開其產業想象的邊界。圖圖17:三次工業革命帶來下游應用技術爆發三次工業革命帶來下游應用技術爆發 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 15/19 數據來源:維基百科,東吳證券研究所
44、我們應該去尋找“殺手級”的下游應用市場。我們應該去尋找“殺手級”的下游應用市場。所謂“殺手級”應用市場,即在 AI 賦能下,該應用功能顯著改善,客戶粘性顯著提升,最后體現為客戶付費率和付費單價顯著提升,市場空間大幅提升。我們認為根據美國產業發展現狀來看,當前來看已經涌現的“殺手級”應用領域主要有內容創作,辦公軟件,ERP,機器人以及芯片設計領域。最直接的應用在內容創作領域。最直接的應用在內容創作領域。ChatGPT 的功能核心是基于文本的理解和分析,與內容創作行業趨同。ChatGPT 可用于創建新聞文章、博客文章甚至小說等內容,它可以生成原創且連貫的內容,為內容創作者節省時間和資源。整體生成式
45、 AI 已用于創建圖像,視頻,3D 對象,Skyboxes 等。這大大節省了創作時間,同時帶來了多樣的創作風格。圖圖18:GPT-4 畫出了三體中的羅輯畫出了三體中的羅輯 圖圖19:AI 生成不同的生成不同的 3D 建筑風格建筑風格 數據來源:行者慎思,東吳證券研究所 數據來源:設計癖,東吳證券研究所 在辦公軟件領域是劃時代的生產力的解放。在辦公軟件領域是劃時代的生產力的解放。我們認為辦公場景是當前所能看到的AI最大級別應用場景,Microsoft365 Copilot將會帶來需求的剛性,是人工智能殺手級應用。在 Word 中,Copilot 可以幫助打草稿、排版、修改;在 Excel 中,C
46、opilot 可以幫助用戶修改樣式,并進行數據分析、預測、可視化等;在 PPT 中,Copilot 能夠基于文本自動繪制 PPT,根據 PPT 生成講稿。Copilot 協助完成 Office 套件中大量執行類工作,并提供低階創意參考,極大提升使用者效率,節省重復性時間 Microsoft365 Copilot 的推出標志著人類與計算機交互方式的重大進步,這將徹底改變我們的工作方式,開啟新一波生產力增長。圖圖20:Microsoft365 Copilot 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 16/19 數據來源:微軟發布
47、會,東吳證券研究所 與與 ERP 的結合有望重構企業管理。的結合有望重構企業管理。ERP 能夠學習企業管理“通用數據”,又能學習企業管理“私有數據”,讓 ERP 在做到貫徹領先企業管理理念的同時,越來越個性化,低成本滿足企業對 ERP 定制化的需求。ERP 使用流程繁瑣,使用 ChatGPT 和直接詢問,獲得想要的信息,可降低使用者門檻。ERP 往需要很多繁重的人工操作,例如手動輸入數據、生成內容和標注筆記等,使用 ChatGPT 可以自動抓取,減少人數。ERP 是企業管理核心軟件,AI 賦能后有望進一步增強客戶粘性,為客戶創造更多價值。ChatGPT 解決了機器人的痛點。解決了機器人的痛點。
48、ChatGPT 開啟了一種新的機器人范式,允許潛在的非技術型用戶參與到回路之中,ChatGPT 可以為機器人場景生成代碼。在沒有任何微調的情況下,利用 LLM 的知識來控制不同的機器人動作,以完成各種任務。ChatGPT大大改善了機器人對指令的理解,并且不同于以前單一、明確的任務,機器人可以執行復合型的任務。圖圖21:ChatGPT 改善了機器人對環境的適應性改善了機器人對環境的適應性 請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 17/19 數據來源:每日經濟新聞,東吳證券研究所 看看好好 ChatGPT 在芯片設計領域的應用在
49、芯片設計領域的應用。傳統的芯片設計強烈依賴模板而忽視了大量可以復用的優秀數據,同時數據量大導致 ChatGPT 泛化性更好。此外芯片硬件模塊相對單一,有一些成熟范式,芯片設計代碼復雜但人工不足,這些都與 ChatGPT 有很好的互補。AI 使得芯片開發成本降低、周期縮短,具備足夠多訓練數據和 AI 能力的芯片設計公司競爭優勢可能會擴大。圖圖22:智能智能 EDA 和傳統和傳統 EDA 流程圖流程圖 數據來源:機器之心專欄,東吳證券研究所 我們認為算力是限制我們認為算力是限制 ChatGPT 大規模商業化落地的主要原因。大規模商業化落地的主要原因。ChatGPT-4 訪問被持續限流,本質上是算力
50、成本承壓。OpenAI 對于 Plus 付費用戶的 GPT-4 訪問閾值在較短的時間內連續下降了 4 次,背后是其日活和周活用戶數的持續攀升,大規模的用戶訪問使得 GPT 的算力成本進一步增長。隨著應用端逐漸豐富,對算力的需求提出了更多的需求,預計未來的算力需求缺口將會持續擴大??v使 ChatGPT 前尚處于發展的早期探索階段,也存在一些如算法模型不完善、理解能力不足、回答問題不夠靈活等突出問題,但是其目前已經成功跑出了商業模式,卻由于算力需求缺口不得不進行訪問限制或者降低精度。隨著 GPT 生態的建立、相關應用的爆發,算力的需求將持續擴大,算力需求缺口將會持續擴大,成為 ChatGPT 大規
51、模商業化的限制。AI 時代已經來臨,時代已經來臨,AI+萬物將賦能千行百業,未來各信息化賽道都會探索出各自的萬物將賦能千行百業,未來各信息化賽道都會探索出各自的人工智能應用場景。人工智能應用場景。這其中,我們更加看好各行業信息化領域處于優勢地位的龍頭公司,他們不僅具備了較高的市場份額,同時在資源集聚、行業 Knowhow 積累和行業壁壘上請務必閱讀正文之后的免責聲明部分請務必閱讀正文之后的免責聲明部分 東吳證券研究所東吳證券研究所 行業深度報告 18/19 都實現了比較優勢,這些公司包括??低?、金山辦公、恒生電子、廣聯達、深信服、中科創達、用友網絡、科大訊飛、三六零、同花順、石基信息等。5.
52、投資建議與相關標的投資建議與相關標的算法上,我們建議關注已經有先發優勢的大模型公司:三六零、科大訊飛、同花順等,此外還有一些實施企業,如軟通動力、潤和軟件、漢得信息等;算力上,我們推薦景嘉微、中科曙光、神州數碼,建議關注海光信息、寒武紀、四川長虹、拓維信息等;數據上,我們推薦各細分賽道的信息化龍頭企業,如久遠銀海、容知日新、中控技術,建議關注國能日新、千方科技等;應用上,我們推薦在具備“殺手級”應用潛能的廠商金山辦公、用友網絡、恒生電子,建議關注廣聯達、石基信息等。6.風險提示風險提示政策推進不及預期。政策推進不及預期。相關政策推進受到多種因素影響,節奏和力度可能不及預期。行業競爭加劇。行業競
53、爭加劇。行業市場空間廣闊,可能吸引更多公司參與行業競爭。免責及評級說明部分 免責聲明免責聲明 東吳證券股份有限公司經中國證券監督管理委員會批準,已具備證券投資咨詢業務資格。本研究報告僅供東吳證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為客戶。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議,本公司不對任何人因使用本報告中的內容所導致的損失負任何責任。在法律許可的情況下,東吳證券及其所屬關聯機構可能會持有報告中提到的公司所發行的證券并進行交易,還可能為這些公司提供投資銀行服務或其他服務。市場有風險,投資需謹慎。本報告是基于本公司分析師認
54、為可靠且已公開的信息,本公司力求但不保證這些信息的準確性和完整性,也不保證文中觀點或陳述不會發生任何變更,在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本報告的版權歸本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制和發布。如引用、刊發、轉載,需征得東吳證券研究所同意,并注明出處為東吳證券研究所,且不得對本報告進行有悖原意的引用、刪節和修改。東吳證券投資評級標準:公司投資評級:買入:預期未來 6 個月個股漲跌幅相對大盤在 15%以上;增持:預期未來 6 個月個股漲跌幅相對大盤介于 5%與 15%之間;中性:預期未來 6 個月個股漲跌幅相對大盤介于-5%與 5%之間;減持:預期未來 6 個月個股漲跌幅相對大盤介于-15%與-5%之間;賣出:預期未來 6 個月個股漲跌幅相對大盤在-15%以下。行業投資評級:增持:預期未來 6 個月內,行業指數相對強于大盤 5%以上;中性:預期未來 6 個月內,行業指數相對大盤-5%與 5%;減持:預期未來 6 個月內,行業指數相對弱于大盤 5%以上。東吳證券研究所 蘇州工業園區星陽街?5 號 郵政編碼:215021 傳真:(0512)62938527