互聯網傳媒行業大模型“安卓時刻”:高質量數據為“勝負手”-230331(40頁).pdf

編號:120834 PDF 40頁 3.29MB 下載積分:VIP專享
下載報告請您先登錄!

互聯網傳媒行業大模型“安卓時刻”:高質量數據為“勝負手”-230331(40頁).pdf

1、大模型“安卓時刻”:高質量數據為“勝負手”證券研究報告互聯網傳媒行業/行業深度報告2023年3月31日分析師:楊曉峰登記編號:S1220522040001聯系人:楊昊摘要21 1、大模型的“安卓時刻”到來大模型的“安卓時刻”到來,訓練數據質量或是后續競爭關鍵,訓練數據質量或是后續競爭關鍵MetaMeta大模型大模型LLaMALLaMA開源且持續改進,為行業帶來變數。開源且持續改進,為行業帶來變數。我們認為可以參考安卓與iOS的關系,預判開源大模型與OpenAI的GPT模型的關系,當前國內外科技公司都在緊鑼密鼓的布局大模型的開發,“安卓時代”來臨后,競爭或持續激烈化,格局或將生變。而從而從Cha

2、tGPTChatGPT等模型的經驗來看,數據具有重要意義。等模型的經驗來看,數據具有重要意義。出于模型準確度和專業性的需求,學術期刊、書籍、代碼等資料類型在訓練數據中有獨特價值。2 2、特別應當關注代碼和權威資料作為高質量訓練數據的價值、特別應當關注代碼和權威資料作為高質量訓練數據的價值代碼:從代碼:從GitHub、GitLab、Gitee為代表的代碼庫平臺可以獲取較為豐富的代碼資源,相對門檻較低;或是企業自身積累的代碼資源。權威資料:權威資料:關注具有較高權威性的資源,如知乎具有較為豐富的語料,學術期刊、科學書籍的公開可得性更低,因此也具備更強的稀缺性。3 3、建議關注高質量數據產業鏈參與方

3、:、建議關注高質量數據產業鏈參與方:中國科傳:中國科傳:權威文本資料稀缺標的,中國最大的綜合性科技出版機構,業務包括期刊、科學圖書、出版物進口等,積累有較為豐富的專業資料,且已經有科學智庫、中國生物志庫等數據庫產品生成。海天瑞聲:海天瑞聲:高質量數據供應商,與各類大型科技公司、研究機構有較為穩定的合作關系。投資建議:投資建議:建議關注文本數據資料相關投資機會。高質量數據相關公司:高質量數據相關公司:1)權威資料及數據供應商,中國科傳(萬方數據庫)、海天瑞聲(AI訓練數據供應商);2)低估值專業出版公司,如中南傳媒、鳳凰傳媒;大模型開發公司:大模型開發公司:昆侖萬維(昆侖天工)、三六零、百度集團

4、(“文心一言”)、騰訊控股(混元大模型)、阿里巴巴(通義大模型)。風險提示:風險提示:開源大模型開發不及預期;AI大模型應用不及預期;數據使用政策發生變化。BV9UjWmUfZkXuVqZtWaQcM7NmOpPmOmPiNpPmQfQnNnObRnMrMuOoPoNvPqQmQ目錄一大開源背景下,訓練數據質量的比拼是關鍵二高質量數據之代碼庫:開源平臺供給豐富資源三高質量數據之權威文本:期刊圖書資料有獲取壁壘四建議關注高質量數據產業鏈參與方五投資建議六風險提示31.1 META LLaMA:或給大模型競爭格局帶來變數數據來源:OpenAI,方正證券研究所4圖表:Github上公開的LLaMA源

5、代碼圖表:國內外互聯網科技公司積極布局AI大模型METAMETA開源大模型開源大模型LLaMALLaMA體積小,體積小,性能勝性能勝過過GPTGPT-3 3:2023年2月25日,Meta發布LLaMA模型,發布之后引起了廣泛討論,通過與其他大模型,特別是GPT-3的對比,發現LLaMA性能更優,模型體積卻大幅減小。2023年3月初,Github上有公開LLaMA模型全部代碼,截至目前為止,已經收獲15.2K的收藏。國內已有多家公司已有或正在開發相關國內已有多家公司已有或正在開發相關智能大模型智能大模型。除了國外的微軟、META、Google以外,國內的互聯網科技公司如騰訊、阿里巴巴、百度、昆

6、侖萬維等都有自己的模型布局RLHF在預訓練完成的GPT-3上進行調優,分為三步進行:(1 1)有監督的調優)有監督的調優(2 2)模擬人類偏好)模擬人類偏好(3 3)近端策略優化()近端策略優化(PPOPPO)步驟(1)僅進行一次,而步驟(2)、(3)可進行重復迭代,不斷更新訓練回報模型從而獲得更優的策略模型。1.2 ChatGPT的經驗:數據訓練意義重大圖表:GPT的原理數據來源:OpenAI,方正證券研究所5圖表:ChatGPT的RLHF調優流程Stage1Stage2模型預訓練(無監督)參數微調整(有監督)未標注的語料Transformer模型自主訓練模型遷移至NLP任務對特定任務進行f

7、ine-tuning預訓練的GPT調優后的GPT圖表:AI專家吳恩達“人工智能領域的二八定律”數據來源:OpenAI,方正證券研究所整理6圖表:人工智能三要素數據算法算力數據收集數據標注AI標注人工標注模型訓練人工標注團隊進行的數據標注人工標注團隊進行的數據標注是ChatGPT得到優化的壁壘。通過在調優過程中加入數萬條人工編寫的數據,同時對模型給出的回答進行打分,讓AI學習走向更好的方向,標注數據的質標注數據的質量直接影響到模型最終的學習結果。量直接影響到模型最終的學習結果。圖表:OpenAI數據標注規則HelpfulTruthfulHarmless標注員從三個角度進行打分或評判,并對多個版本

8、的回答進行優劣排序。完成人類偏好學習1.2 ChatGPT的經驗:數據訓練意義重大根據OpenAI公開論文顯示,ChatGPT的訓練集使用了總計約320TB的文字信息,涵蓋超4000億詞和約31億個網頁,其中包括來自新聞、博客、社交媒體的內容。模型數據集主要來自:普通爬蟲、期刊、Reddit鏈接、書籍、維基百科和其他數據集。1.3 期刊與書籍:文本AI訓練集中權威資料的主要來源圖表:AI算法原始訓練集當中爬蟲和期刊是重要來源(單位:GB)7圖表:ChatGPT訓練數據來源文字信息320TB單詞4000億個網頁31億個維基百科書籍期刊Reddit鏈接普通爬蟲其他合計GPT-14.64.6GPT-

9、24040GPT-311.42110150570753The Pile v1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550數據來源:Life Architect,方正證券研究所圖表:關于書籍數據集的來源數據來源:Life Architect,方正證券研究所8注:單位為GB,數值為原始訓練集大小。來源GPT-1BookCorpusGPT-3古騰堡語料庫The Pile v1古騰堡語料庫,BookCorpus,Books3Megatron-

10、11BBookCorpusMT-NLG古騰堡語料庫,BookCorpus,Books3BookCorpus來源于Smashwords35萬本電子書(5.5萬+免費)古騰堡語料庫來源于古騰堡項目電子文本檔案3.6萬本免費電子書圖書數據集Books3196640本書籍1.3 期刊與書籍:文本AI訓練集中權威資料的主要來源圖表:關于期刊數據集的來源數據來源:Life Architect,方正證券研究所9注:單位為GB,數值為原始訓練集大小。來源The Pile v1PubMed Central,ArXiv,FreeLaw,PubMed Abstracts,PhilPapers,NIH ExPorte

11、rMT-NLGPubMed Abstracts,NIH ExPorter,ArXivGopherScienceDirect,Gale,NCBI,AcadamiaArXiv:論文預印本服務器(數學、物理等8個領域)3000W+出版物PubMed Abstracts:生物醫學文章在線存儲庫1946至今60W+預印本1991至今NIH ExPorter 1985至今1.3 期刊與書籍:文本AI訓練集中權威資料的主要來源ChatGPT通過網絡爬蟲獲取文本數據的預訓練方式引發爭議,在Bing接入互聯網材料的早期,由于基礎資料的質量降低,其回應內容出錯的情形有更為頻繁的出現。數據來源:IT之家,方正證券研

12、究所10圖表:新版Bing演示視頻錯誤頻出1.3 期刊與書籍:文本AI訓練集中權威資料的主要來源1.4 代碼庫:連接第三方應用程序的訓練語料數據來源:OpenAI,方正證券研究所11圖表:ChatGPT成為用戶和應用中間樞紐ChatGPTChatGPT已經可以控制其他應用。已經可以控制其他應用。北美時間3月23日,Open AI官網宣布推出ChatGPT插件功能,同時開源知識庫檢索插件源代碼,該插件使ChatGPT能夠連接到第三方應用程序并與開發人員定義的API進行交互。ChatGPTChatGPT插件的出現將重塑人機交互模式插件的出現將重塑人機交互模式,代碼作為訓練的重要性更加突出。,代碼作

13、為訓練的重要性更加突出。應用于更多場景下的大模型需要更加強大的編程能力增強邏輯性,并提高“與其他應用溝通的能力”。語言指令用戶文本訓練文本+代碼訓練檢索檢索實時實時信息信息檢索檢索知識庫知識庫信息信息代表用代表用戶執行戶執行操作操作圖表:ChatGPT新插件可以實現的功能數據來源:LLaMA:Open and Efficient Foundation Language Models,方正證券研究所12圖表:LLaMA數據集經過處理使用圖表:LLaMA數據集的來源占比1.4 代碼庫:連接第三方應用程序的訓練語料LLaMA訓練數據集是多個源的混合物,并且大多比例是重用了已用于訓練其他大型語言模型的

14、數據源,但只使用公開可用且與開源兼容的數據。LLaMALLaMA的訓練集中,書籍、期刊和代碼庫的訓練集中,書籍、期刊和代碼庫是重要來源。是重要來源。LLaMA訓練數據集中有4.5%的Github來源、4.5%的書籍、以及2.5%的ArXiv(期刊)。67.0%15.0%4.5%4.5%4.5%2.5%2.0%CommonCrawlC4GithubWikipediaBooksArXiv目錄一大開源背景下,訓練數據質量的比拼是關鍵二高質量數據之代碼庫:開源平臺供給豐富資源三高質量數據之權威文本:期刊圖書資料有獲取壁壘四建議關注高質量數據產業鏈參與方五投資建議六風險提示132.1 代碼庫平臺:通過共

15、同開發持續迭代數據來源:維基百科,Github,方正證券研究所繪制14圖表:GitHub為代表的代碼庫平臺的工作原理及其功能代碼倉庫項目倉庫1倉庫2項目1項目2代碼庫外部集成軟件開發者倉庫儲藏用戶上傳代碼,保護代碼安全項目上傳開源項目,分享在平臺供全平臺開發者進行項目修改。交流提供軟件開發者的交流渠道,在意見交流中對代碼進行不斷改進。集成為開發者提供API等開發工具,支持開發者將其代碼與眾多編程軟件平臺進行交互處理上傳代碼并儲存以Git作為控制程序代碼庫平臺控股管理圖表:Git開源代碼共享更新原理流程分享反饋到原開源項目分享輸出輸出上傳分享分享上傳至代碼庫上傳至代碼庫代碼庫平臺個人開發者公司共

16、同開發分布式儲藏功能功能板塊板塊數據來源:GitHub 官網,方正證券研究所15圖表:GitHub倉庫界面展示圖表:GitHub開源項目下載界面展示用戶名/倉庫名創建文件/上傳文件/倉庫中搜索文件/下載或克隆文件關注/收藏/復制克隆項目開源項目介紹收藏數查閱數分倉庫建立數2.1 代碼庫平臺:通過共同開發持續迭代數據來源:GitHub 官網,GitLab 官網,Gitee官網,方正證券研究所整理16GitHubGitLabGitee開發軟件免費免費免費CI/CD收費免費免費私有化部署收費免費-Wiki免費免費免費甘特圖免費免費免費開源項目數量多一般少外部集成數量少多一般圖表:主要代碼平臺功能對比

17、圖表:截至2022年三個平臺規模指標對比010002000300040005000600070008000900010000GitHubGitLabGitee用戶數量(萬人)年新增開源項目(萬件)累計倉庫項目(萬件)2008年2月成立由開發者Chris Wanstrath、P.J.Hyett和湯姆普雷斯頓沃納使用Ruby on Rails編寫而成,使用Git作為版本控制軟件。在2018年,GitHub被微軟公司收購。2011年成立,2021年上市由Gitlab公司推出,基于Git的集成軟件開發平臺,可以實現自托管的Github項目。將開發、運營、IT、安全和業務團隊結合在一起,以縮短開發生命周

18、期,提供企業所需的業務量。2013年5月成立由開源中國(深圳市奧斯網絡有限公司主辦社區)推出的基于Git的代碼托管和寫作開發平臺,提供中國本土化代碼托管服務。包含三個版本,分別為社區版、企業版和高校版。2.2 主要代碼庫平臺:GitHub/GitLab/gitee目錄一大開源背景下,訓練數據質量的比拼是關鍵二高質量數據之代碼庫:開源平臺供給豐富資源三高質量數據之權威文本:期刊圖書資料有獲取壁壘四建議關注高質量數據產業鏈參與方五投資建議六風險提示17C ChatGPThatGPT的標注團隊構成體現其數據特點,使得其更加擅長處理海外信息,或以符合海的標注團隊構成體現其數據特點,使得其更加擅長處理海

19、外信息,或以符合海外文化方式輸出。外文化方式輸出。ChatGPT數據標注團隊構成可以看出,數據更多關注中文以外資料,這也是其在中文語境下表現不如英語等其他語言的原因。語義大模型需要其使用語境下的文本資料訓練。語義大模型需要其使用語境下的文本資料訓練。以ChatGPT為代表的大模型都體現了與用戶交互的智能性,需要理解用戶輸入的文字,即便不同的模型底層,也需要對使用者常用的語言環境有較為充分的了解。3.1 語義大模型對語料的需求需要獨特訓練圖表:ChatGPT人工標注團隊國籍分布數據來源:Open AI,方正證券研究所1852.6%31.6%15.8%10.5%5.3%0%10%20%30%40%

20、50%60%東南亞白人拉丁裔黑人/非洲裔東亞22%22%17%0%5%10%15%20%25%圖表:ChatGPT人工標注團隊種族分布公域專有用戶私域3.2 學術期刊、科學圖書等出版物數據具有稀缺性數據來源:方正證券研究所繪制19圖表:文本內容的權威性與可獲得性二維評價公版圖書社交媒體/評論區學術期刊&科學圖書網文等PUGC用戶個人記錄未發表資料權威性高低一般圖書出版物易獲得不可獲得存在壁壘問答社區3.3 圖書行業:產業鏈中出版社/數字出版社是重要環節圖表:出版行業產業鏈圖譜20作者讀者(個人/機構)電子書電子書授權上架授權上架授權或買斷授權或買斷實體書線上線下銷售分發平臺數據來源:方正證券研

21、究所繪制實物實物銷售銷售數字出版稿酬稿酬權利流權利流費用流費用流數字數字銷售銷售授權或買斷授權或買斷稿酬稿酬出版、發行、印刷出版、發行、印刷出版社采購采購費用費用采購費用采購費用數據來源:各公司官網,各公司財報,方正證券研究所整理21圖表:出版業上市公司圖書概況公司圖書概況中國出版公司在文學、古籍、音樂、美術、社科、工具書等領域具有領先優勢,擁有豐富的作者、譯者、內容資源,年均出版圖書約2萬種。鳳凰傳媒累計創作大眾類電子書超過3500部。中國科傳旗下平臺“科學文庫”,覆蓋數理、化學、材料、生命等分類截至目前電子藏書量達64702種中文傳媒“贛鄱書云”數據庫歸集中文傳媒旗下所有出版社自1951年

22、以來歷年出版圖書內容資源,已導入電子圖書基本信息71994本中信出版旗下平臺“中信書院”包括800+有聲書和4000+電子書資源新華文軒旗下共有圖書及音像電子網絡數字產品出版單位10家年出版圖書6000余種新經典擁有1400多位知名作家、50多部百萬級暢銷作品以及2億人次以上讀者讀客文化定位于“全版權”運營商,以“激發個人成長”為宗旨,整合文藝、社科以及少兒等領域的優質版權3.3.1 圖書行業相關公司情況-出版公司數據來源:各公司官網,各公司財報,方正證券研究所整理22圖表:電子書籍相關分發平臺書籍概況公司圖書概況閱文集團擁有770萬名創作者與千萬部作品儲備,覆蓋200+內容品類掌閱科技涵蓋文

23、學、社科、藝術等21個領域可細分為文學、歷史、親子等60個分類中文在線與200+專業出版單位和幾千名作者正式簽約授權,每年能提供新增正版數字圖書2-4萬種,占每年出版的大眾領域適讀圖書70%以上。超星讀書擁有100萬+電子圖書,覆蓋航空航天、政治法律、工業技術、農業科學、生物科學、歷史、地理、交通運輸等領域。起點中文網提供玄幻、武俠、青春、科幻等首發小說書旗小說提供都市、玄幻、仙俠、靈異、歷史、游戲、競技等作品形態咪咕閱讀匯聚超60萬冊精品正版圖書內容,覆蓋黨政經典作品、出版圖書、原創小說、熱播影視原著等內容品類。3.3.2 圖書行業相關公司情況-分發平臺23作者學術期刊高校學術資源數據庫平臺

24、最終使用方 匯編權、翻譯權、印刷版 電子版的復制權、發行權和網絡傳播權等 數字化匯編權 數字化復制權 數字化制品發行權 信息網絡傳播權 數字化版式設計權 上述權利的許可使用權簽署著作權轉讓協議,著作權等相關權利轉讓給雜志社支付稿酬支付稿酬簽署學術期刊數字出版合作協議書,高校擁有學位論文使用權簽署學術期刊數字出版合作協議書一次性買斷或按銷售額比例支付版權使用費簽署協議,高校授權知網使用學位論文提供協定內的服務,支付稿費個人研究機構圖表:期刊論文的關系圖譜權利流權利流費用流費用流3.4 權威期刊:知網、萬方、維普,出版社與數據庫平臺是關鍵節點數據來源:人民日報、中國新聞出版廣電報、騰訊新聞、上游新

25、聞,方正證券研究所圖表:期刊數據庫規模比較248500800012000050001000015000知網萬方維普期刊數量(單位:種)6000300002000400060008000知網維普文獻數量(單位:萬篇)19003300195701000200030004000知網萬方維普收錄核心期刊數量(單位:種)同方股份(600100.SH)國資委中國科學技術信息研究所向其霖100%30.11%中國科傳(601858.SH)49.43%(疑似實控)15%中國科學院74.4%49.64%(實際控制人)圖表:重要期刊數據庫重要參與方股權控制情況數據來源:天眼查、中國知網、萬方數據、維普資訊,方正證券

26、研究所3.4 權威期刊:知網、萬方、維普,出版社與數據庫平臺是關鍵節點3.5 知乎:高質量文本素材,消費、科學、娛樂為主數據來源:知乎財報,方正證券研究所繪制(非注明部分均為截至2021Q4數據)25內容4.9億條億條問答4.2億條億條視頻2280萬條萬條內容創作者5500萬人萬人平均月活躍內容創作者270萬人萬人平均每月創作內容1300萬條萬條問答5.1億條億條(截至2022Q4)-10.0%-5.0%0.0%5.0%10.0%15.0%020406080100120知乎MAU(百萬)YoY(右軸)用戶用戶提問提問(需求)(需求)內容內容(供給)(供給)創作者創作者圖:知乎MAU走勢圖表:知

27、乎用戶與內容形成循環圖表:知乎各熱門話題占網頁瀏覽總量的比例數據來源:知乎招股說明書,知乎官網,方正證券研究所26圖表:知乎熱門細分話題電影電影法法律律教育教育心心理理學學互聯網互聯網時尚時尚動漫動漫金融金融問答專欄視頻想法Live講座圓桌討論知乎百科付費咨詢鹽選內容熱榜34%32%31%21%22%22%21%23%21%0%10%20%30%40%50%60%70%80%90%100%2019年2020年2021年消費品大眾科學娛樂教育技術與互聯網商業與金融其他投資、金融數據中臺、產品體驗孩子、美國留學動漫、樂華娛樂物理、諾貝爾獎服裝、食用油UGCUGC中心中心專業內容專業內容入口分類入口

28、分類推薦3.5 知乎:高質量文本素材,消費、科學、娛樂為主目錄一大開源背景下,訓練數據質量的比拼是關鍵二高質量數據之代碼庫:開源平臺供給豐富資源三高質量數據之權威文本:期刊圖書資料有獲取壁壘四建議關注高質量數據產業鏈參與方五投資建議六風險提示27中國最大的綜合性科技出版機構中國最大的綜合性科技出版機構。年出版新書規模達年出版新書規模達46004600多種多種(20162016)。國家文化產業發展專項資金項目:1010 項(入選項目數量位列全國出版社第一位入選項目數量位列全國出版社第一位)國家出版基金項目:2323 項(入選數量和資助金額位列全國出版社第一位入選數量和資助金額位列全國出版社第一位

29、)國家科學技術學術著作出版基金項目近 800800 項(每年獲資助項目數占總資助項目數的一半左右每年獲資助項目數占總資助項目數的一半左右)“十二五”國家圖書重點出版規劃項目:9090 個“十三五”國家圖書重點出版規劃項目(第一批):4343 個(入選數量在全國出版社中位列第一入選數量在全國出版社中位列第一)華夏英才基金項目:379379 項 國家社科基金后期資助項目:4343 項 國家哲學社會科學成果文庫項目:1919 項(是唯一一家入選國家哲學社科文庫推薦出版單位的科技出版社)中國科學院科學出版基金項目:517517 項出版物進口期刊284.1 權威文本資料稀缺標的:中國科傳數據來源:中國科

30、傳官網,方正證券研究所圖書類數字平臺29圖表:中國科傳收入及歸母凈利情況4.1.1 公司期刊等出版物資源豐厚數據來源:Wind,公司財報,方正證券研究所圖表:中國科傳收入構成47.7%46.4%46.4%46.9%46.4%47.1%44.5%44.2%0%10%20%30%40%50%60%70%80%90%100%2018A2019A2020A2021A出版物進口圖書類期刊類其他主營業務其他業務424.52465.1465.29486.350%5%10%15%20%25%0500100015002000250030002018A2019A2020A2021A營業收入(百萬元)歸母凈利潤(百

31、萬元)營業收入yoy-右軸歸母凈利率-右軸20202020-20212021年受疫情影響增速較低,但利年受疫情影響增速較低,但利潤率基本穩定。潤率基本穩定。出版物進口與圖書類是最主要的收入來源,截至2021年分別占比47%和44%。期刊業務期刊業務收入占比較低,但出版物積累豐收入占比較低,但出版物積累豐厚。厚。截至2021年底,公司出版科技期刊522中;進口方面,英文科技期刊 244 種,約占中國英文科技期刊總數的 1/3。0%5%10%15%20%25%30%35%050100150200250300英文科技期刊SCI收錄期刊Q1區EI收錄數量(種)占國內比例-右軸圖表:中國科傳出版期刊種類

32、數及在國內占比30圖表:中國科傳主要業務收入及增速數據來源:Wind,公司財報,方正證券研究所圖表:中國科傳分業務毛利潤(單位:百萬元)2121年受疫情影響增速較低,但利潤率基本穩定。年受疫情影響增速較低,但利潤率基本穩定。目前公司利潤來源主要是高毛利的圖書業務:目前公司利潤來源主要是高毛利的圖書業務:出版物進口低毛利率,在毛利端貢獻極低,但是海外期刊在國內的重要入口;期刊類毛利較高,但由于收入體量限制,當前利潤貢獻不高;圖書類毛利在50%以上,疊加44%以上的收入貢獻,毛利端占據絕對主導地位。每年利潤穩定,新場景有望實現利潤增速和估值錨突破。每年利潤穩定,新場景有望實現利潤增速和估值錨突破。

33、4.1.2 每年利潤穩定,新場景有望實現利潤增速和估值錨突破9.6%0.6%5.4%14.3%-4.8%3.5%43.7%51.5%5.6%-10%0%10%20%30%40%50%60%0500100015002000250030002018A2019A2020A2021A出版物進口收入(百萬元)圖書類收入(百萬元)期刊類收入(百萬元)其他主營業務收入(百萬元)其他業務收入(百萬元)出版物進口YOY-右軸圖書類YOY-右軸期刊類YOY-右軸0%10%20%30%40%50%60%01002003004005006007008009002018A2019A2020A2021A出版物進口(百萬元

34、)圖書類(百萬元)期刊類(百萬元)其他主營業務(百萬元)其他業務(百萬元)出版物進口毛利率-右軸圖書類毛利率-右軸期刊類毛利率-右軸4.2 海天瑞聲:高質量數據供應商數據來源:公司財報,方正證券研究所31數據采集服務語音識別數據采集、語音合成數據采集、文本采集、圖像及視頻采集數據標注服務ASR標注服務、TTS標注服務、CV標注服務、OCR標注服務、NLP標注服務數據評測服務MOS評測、偏好性評測、前端評測方案設計服務自動駕駛數據方案、數字人數據方案、跨模態檢索數據方案、聲納認證數據方案等人工智能技術戰略運營優化數據深度挖掘銷售廣告推廣主要應用領域三大盈利模式定制服務根據客戶需求定制訓練數據集并

35、收取服務費標準化產品銷售自主開發訓練集獲得讓渡資產使用權收入訓練數據相關應用提供算法模型及其訓練服務,獲得讓渡資產與技術服務收入技術優勢塑造優秀產品生態鏈,市場占有率達12.9%,全中國基礎數據服務行業第二名,合作客戶超過740家。圖表:海天瑞聲主營業務與應用領域圖表:海天瑞聲盈利模式及經營規模數據來源:WIND,公司年報,方正證券研究所32圖表:海天瑞聲客戶構成(截至2021.12.31)累計客戶695695家家智能駕駛社交科技互聯網截至2021年12月31日教育科研4.2.1 收入構成:語言類貢獻主要收入,科技類客戶為主圖表:海天瑞聲收入與歸母凈利潤走勢圖表:海天瑞聲收入構成159.081

36、91.2181.08 149.35-50%0%50%100%150%200%0501001502002502018201920202021應用服務收入(百萬元)自然語言收入(百萬元)計算機視覺收入(百萬元)智能語音類產品收入(百萬元)智能語音類產品收入yoy-右軸計算機視覺收入yoy-右軸自然語言收入yoy-右軸41%62%23%-2%-12%27%19.0%27.2%32.2%32.1%31.3%10.2%3.9%68.01%72.26%64.77%70.25%67.70%64.01%-20%0%20%40%60%80%050100150200250300201620172018201920

37、2020212022營業收入(百萬元)扣非歸母凈利潤(百萬元)營收yoy-右軸凈利率-右軸毛利率-右軸圖表:2018-2020年海天瑞聲各類型客戶貢獻營收占比數據來源:海天瑞聲招股書,公司財報,方正證券研究所3373.65%71.58%69.36%24.09%25.47%27.88%0%10%20%30%40%50%60%70%80%90%100%201820192020大型科技公司人工智能企業科研機構圖表:2018-2021年前五大客戶貢獻營收走勢(萬元)圖表:海天瑞聲不同目標客戶類型(截至2020.12.31)目標客戶類型目標客戶類型客戶數量客戶數量客戶示例客戶示例大型科技公司大型科技公司

38、24 個品牌、80 個客戶主體人工智能企業人工智能企業301 個品牌、394 個客戶主體科研機構科研機構66 個品牌、76 個客戶主體01000200030004000500060002018A2019A2020A2021A阿里巴巴三星騰訊微軟百度亞馬遜字節跳動中國科學技術大學4.2.2 客戶微觀結構:大型科技公司為主,騰訊持續增加采購目錄一大開源背景下,訓練數據質量的比拼是關鍵二高質量數據之代碼庫:開源平臺供給豐富資源三高質量數據之權威文本:期刊圖書資料有獲取壁壘四建議關注高質量數據產業鏈參與方五投資建議六風險提示34建議關注文本數據資料相關投資機會:一、高質量數據相關公司:一、高質量數據相

39、關公司:1)權威資料及數據供應商,中國科傳中國科傳(萬方數據庫)、海天瑞聲(AI訓練數據供應商);2)低估值專業出版公司,如中南傳媒中南傳媒、鳳凰傳媒鳳凰傳媒;二、大模型開發公司:二、大模型開發公司:昆侖萬維(昆侖天工)、三六零、百度集團(“文心一言”)、騰訊控股(混元大模型)、阿里巴巴(通義大模型)5.投資建議數據來源:Wind,方正證券研究所3535細分類型細分類型代碼代碼證券簡稱證券簡稱市值市值(億元)(億元)營業收入(百萬元)營業收入(百萬元)歸母凈利潤(百萬元)歸母凈利潤(百萬元)PEPEPSPS202220222023E2023E2024E2024E202220222023E202

40、3E2024E2024E2023202320232023期刊601858.SH中國科傳1522,620 2,810 2,951 479 528 567 28.85.4標注數據688787.SH海天瑞聲110263 399 578 30 54 116 205.827.7出版物601098.SH中南傳媒21312,617 13,424 14,224 1,392 1,770 1,910 12.01.6出版物601928.SH鳳凰傳媒27213,420 14,341 15,153 1,831 1,971 2,089 13.81.9大模型300418.SZ昆侖萬維4474,737 5,489 6,143

41、 1,165 1,304 1,487 34.28.1大模型601360.SH三六零1,1769,495 11,706 14,187-2,464 518 1,137 227.310.0大模型9888.HK百度集團-SW3,800123,675 136,974 149,332 7,559 15,249 17,268 24.92.8大模型0700.HK騰訊控股32,258554,552 621,787 695,242 188,243 140,257 161,962 23.05.2大模型9988.HK阿里巴巴-SW17,545879,244 917,615 1,066,308 79,403 112,0

42、83 131,341 15.71.9圖表:相關公司盈利預測與估值表(預測數據來自Wind一致預期,時間截至2023.3.29)目錄一大開源背景下,訓練數據質量的比拼是關鍵二高質量數據之代碼庫:開源平臺供給豐富資源三高質量數據之權威文本:期刊圖書資料有獲取壁壘四建議關注高質量數據產業鏈參與方五投資建議六風險提示36 開源大模型開發不及預期 AI大模型應用不及預期 數據使用政策發生變化風險提示37分析師聲明作者具有中國證券業協會授予的證券投資咨詢執業資格,保證報告所采用的數據和信息均來自公開合規渠道,分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任

43、何第三方的授意或影響。研究報告對所涉及的證券或發行人的評價是分析師本人通過財務分析預測、數量化方法、或行業比較分析所得出的結論,但使用以上信息和分析方法存在局限性。特此聲明。免責聲明本研究報告由方正證券制作及在中國(香港和澳門特別行政區、臺灣省除外)發布。根據證券期貨投資者適當性管理辦法,本報告內容僅供我公司適當性評級為C3及以上等級的投資者使用,本公司不會因接收人收到本報告而視其為本公司的當然客戶。若您并非前述等級的投資者,為保證服務質量、控制風險,請勿訂閱本報告中的信息,本資料難以設置訪問權限,若給您造成不便,敬請諒解。在任何情況下,本報告的內容不構成對任何人的投資建議,也沒有考慮到個別客

44、戶特殊的投資目標、財務狀況或需求,方正證券不對任何人因使用本報告所載任何內容所引致的任何損失負任何責任,投資者需自行承擔風險。38本報告版權僅為方正證券所有,本公司對本報告保留一切法律權利。未經本公司事先書面授權,任何機構或個人不得以任何形式復制、轉發或公開傳播本報告的全部或部分內容,不得將報告內容作為訴訟、仲裁、傳媒所引用之證明或依據,不得用于營利或用于未經允許的其它用途。如需引用、刊發或轉載本報告,需注明出處且不得進行任何有悖原意的引用、刪節和修改。公司投資評級的說明強烈推薦:分析師預測未來半年公司股價有20%以上的漲幅;推薦:分析師預測未來半年公司股價有10%以上的漲幅;中性:分析師預測未來半年公司股價在-10%和10%之間波動;減持:分析師預測未來半年公司股價有10%以上的跌幅。行業投資評級的說明推薦:分析師預測未來半年行業表現強于滬深300指數;中性:分析師預測未來半年行業表現與滬深300指數持平;減持:分析師預測未來半年行業表現弱于滬深300指數。39THANKS聯系人:楊昊郵箱:專注專心專業方正證券研究所北京市 西城區展覽路48號新聯寫字樓6層上海市 靜安區延平路71號延平大廈2樓深圳市 福田區竹子林紫竹七道光大銀行大廈31層廣州市 天河區興盛路12號樓 雋峰苑2期3層方正證券長沙市 天心區湘江中路二段36號華遠國際中心37層

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(互聯網傳媒行業大模型“安卓時刻”:高質量數據為“勝負手”-230331(40頁).pdf)為本站 (面朝大海) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站