《計算機行業專題報告:大模型進展2.0-240507(21頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業專題報告:大模型進展2.0-240507(21頁).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、請務必閱讀正文之后的免責聲明及其項下所有內容2024年年5月月7日日證券研究報告證券研究報告|大模型進展大模型進展2.0行業研究行業研究 專題報告專題報告 投資評級:投資評級:超配(維持評級)超配(維持評級)請務必閱讀正文之后的免責聲明及其項下所有內容報告摘要 AI大模型市場表現與競爭格局發生變化,Kimi成為國產大模型曙光。市場上的大模型層出不窮,以Kimi為代表的產品憑借其在長文本處理領域的卓越能力,迅速成為用戶訪問量最高的產品,打破了現有競爭格局。Kimi在中文領域對GPT-4、Claude等國際大模型展現出明顯優勢,并通過不斷的技術迭代和用戶體驗優化,實現了用戶流量的激增和市場的快速擴
2、張。公司認為,Kimi的AI-Native產品核心價值在于提供個性化交互,其長文本上下文處理能力(Long Context)能大幅減少模型定制成本,解決90%的模型定制問題。2024年3月下旬,Kimi進一步將上下文處理能力提升至200萬漢字,隨著用戶流量的激增,服務連續進行了5次擴容。公司在C端致力于將Kimi打造成超級應用,成為AI原生交互的入口;在B端,通過Moonshot AI開放平臺提供與OpenAI兼容的API,內測期間已有法律、游戲閱讀等領域應用進行測試,反饋良好。隨著Kimi應用訪問量的持續增長,預計將再次拉動算力需求的快速增長,推動AI行業的算力基礎設施發展。隨著AI大模型技
3、術的發展和應用場景的拓展,全球算力需求正面臨重估。Meta等科技巨頭對AI算力的需求超出預期,預計到2024年底將擁有接近60萬顆H100 GPU的等效算力。Sora模型的發布標志著AI視頻生成領域的新突破,進一步推動了多模態大模型的發展,預示著未來對算力需求的大幅提升。同時,美國政府的限制措施可能促使中國等國家的企業自行購買算力卡或租賃國產AI算力,推動國產AI產業鏈的革新和發展。在此背景下,Kimi等國產大模型的成功,不僅帶動了產業鏈的革新,還為內容創作、游戲互動、AI陪伴等領域帶來了新的應用場景和創新機遇。此外,Step系列通用大模型的發布和Pixverse在AI視頻生成領域的領先地位,
4、進一步展示了國產AI技術的競爭力和市場潛力。投資建議:1)多模態大模型拉動全球算力需求快速增長,疊加美國將限制云廠商對華客戶提供AI云服務,國產AI算力迎來發展機會;2)隨著AI大模型成本下降與技術發展,AI應用產業將快速進步,建議關注AI應用相關個股。建議關注金山辦公、科大訊飛、同花順、海光信息。維持計算機行業超配評級。風險提示:宏觀經濟波動;下游需求不及預期;AI倫理風險;技術發展不及預期。XUiYuUjWiYfYgVeYlV9YpO9PaObRoMnNsQsOeRnNtOkPoOwPaQpOoPvPqNtQxNpNtQ請務必閱讀正文之后的免責聲明及其項下所有內容大模型群雄并起,Kimi打
5、破競爭格局01目錄目錄大模型引領全球AI算力需求重估02請務必閱讀正文之后的免責聲明及其項下所有內容月之暗面發布月之暗面發布Kimi,長文本成為破局關鍵,長文本成為破局關鍵月之暗面成為國產大模型新星。月之暗面成為國產大模型新星。2023 年10 月,清華大學楊植麟及其AI 團隊“月之暗面”發布了Kimi,擁有優秀的長文本處理能力,可處理20萬漢字輸入。同時,利用Long Context 可以大幅減少 fine-tune 的成本,實現模型應用的“多、快、好、省”。例如可以先用5萬字定制一個模型的能力,剩余還有大量文字窗口,也足夠日常交互使用。而fine-tune需要構造數據并訓練,時間較長且需要
6、較高的復雜度,單位token的成本也更高。公司選擇用Long Context方式來解決 90%的問題,更好向前向后兼容,也成為公司最高優先級的技術突破方向?!按蠛漆槾蠛漆槨睖y試驗證了測試驗證了 Kimi 長文本能力。長文本能力。長文本能力是實現人類與AI之間無損理解的基礎,它使 AI 可以更準確地理解人類的復雜、感性思維,從而在多種應用場景中更有效地服務于人類。根據近一年全球各個大模型迭代方向,上下文窗口的“長文本”再持續升級。其中,在文本持續變長過程中,大型是否會忽略掉部分細節內容的問題一直是“長文本”能力的關鍵。因此有開發者進行了一項名為“大海撈針”的大模型長文本性能測試,即在文本中加
7、入一句與該文本內容不相關的句子,測試大模型是否能通過Prompt把這句話準確提取出來。月之暗面的工程師在2023年12月也進行了測試,選取模型為Kimi chat(支持20萬漢字輸入),GPT-4 Turbo(支持128K上下文窗口),Claude 2.1(支持200K上下文窗口)。根據測試結果,Kimi chat在“大海撈針”中的表現明顯好于GPT-4Turbo和Claude 2.1.圖:Kimi“大海撈針”實驗表現資料來源:Moonshot AI,國信證券經濟研究所整理圖:GPT-4 Turbo“大海撈針”實驗表現資料來源:Moonshot AI,國信證券經濟研究所整理請務必閱讀正文之后的
8、免責聲明及其項下所有內容聯合技術及服務壁壘,聯合技術及服務壁壘,Kimi有望重塑競爭格局有望重塑競爭格局Kimi通過以下幾個核心策略實現了區別于市場的獨特定位和快速增長:通過以下幾個核心策略實現了區別于市場的獨特定位和快速增長:用戶體驗中心化:Kimi把用戶體驗作為產品開發和優化的核心,通過細致了解用戶需求,提供流暢、直觀的使用體驗,提升用戶滿意度和忠誠度;數據驅動的優化:利用用戶行為數據,Kimi采用數據驅動的方法持續迭代產品功能,快速適應市場變化,保持技術和服務的領先優勢;創新的分享機制:引入分享功能增強用戶互動,同時利用用戶生成的數據和反饋優化模型,形成正向的數據循環,提高模型性能和用戶
9、體驗。專注核心功能優化:專注于提升核心功能如視頻高清化等,滿足用戶特定需求,通過AI技術與用戶體驗的結合,打造差異化競爭優勢。避免過度擴張:Kimi選擇專注于現有產品的持續優化,避免過度擴張產品線以確保產品和服務的高質量標準。國產大模型在算力受限的背景下能表現如此優秀,主要是因為國產大模型在算力受限的背景下能表現如此優秀,主要是因為Kimi實現了實現了AI產品發展中三個關鍵的產品發展中三個關鍵的scaling要素:模型、人才和用戶。要素:模型、人才和用戶。模型Scaling:Kimi通過持續優化其A1模型,不斷增強模型的處理能力和應用范圍,成功地提升了產品的核心競爭力。這種模型的scaling
10、不僅涉及到算法的改進和優化,還包括對大數據的處理能力和學習效率的提升,確保模型能夠處理更復雜的任務,滿足更廣泛的用戶需求。人才Scaling:注重人才的招聘和培養,擴展人才密度,這對快速推出產品至關重要。用戶Scaling:Kimi選擇專注于c端市場,致力于開發能夠覆蓋廣大用戶需求的通用產品,而不是局限于某個B端的垂直領域。這種策略使Kimi能夠吸引到足夠大的用戶規模,通過規?;挠脩舴答佭M一步優化產品,形成了良好的用戶增長和產品改進的正向循環。圖:Kimi 可以兩分鐘讀完500份簡歷,篩選員工資料來源:國信證券經濟研究所整理圖:Kimi 可以讀取英偉達報告,并分析財報歷史資料來源:國信證券經
11、濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容Kimi 打破競爭格局,帶動產業鏈發展打破競爭格局,帶動產業鏈發展Kimi 優秀的性能可以帶動多個產業的發展。優秀的性能可以帶動多個產業的發展。閱讀和劇本創作中的應用:Kimi 的長文本處理能力在閱讀和劇本創作領域展現出了深化內容與創新的潛力。它能夠為小說和劇本等提供全書總結、劇本評估等高質量服務,這樣不僅大幅提升了內容制作的效率,也極大豐富了用戶的閱讀體驗。游戲行業的互動升級:Kimi的長文本能力可用于生成復雜劇情和長篇人機對話極大豐富了游戲的互動性和沉浸感。此外,Kimi 的長文本技術突破使得其應用場景從長文章分析擴展至AI陪伴和 A
12、I Agent,如扮演小說中的角色或完成專業領域的特定任務。這一變化為 AI在娛樂教育、專業服務等領域的深入應用開辟了新的可能性。Kimi 的發展吸引了多方企業的合作,涉及內容審核、數據訓練和行業應用等多個環節。這些合作促進了 AI技術的實際應用,同時為各合作方帶來了增值機會。圖:接入Moonshot AI 開放平臺內測的應用資料來源:國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容Sora 開創開創AI 視頻生成新紀元視頻生成新紀元OpenAI發布發布Sora大模型,通過大模型,通過Patches和和Scaling Transformers革新視頻生成技術。革新視頻生成技術
13、。多模態融合與多模態融合與Patches技術:技術:Open Al通過將視覺數據轉換為Patches的方法,仿照語言模型中token的應用,實現了文本多模態的統一,涵蓋了代碼、數學和自然語言等多種形式。Patches作為一種高效且可擴展的表示方法,在生成視頻和圖像的模型訓練中展現了其獨特價值。通過時空通過時空Patches高效生成視頻:高效生成視頻:OpenAl創新性地開發了一套減少視覺數據維度的網絡技術,這項技術可以把原始視頻變成一個既在時間上也在空間上被壓縮的潛在格式。Sora模型正是在這個壓縮后的潛在空間中接受訓練,從而能夠生成新視頻。為了將這些潛在的視頻表示重新轉化為清晰的圖像,Ope
14、nAl還專門訓練了一個解碼器模型。通過對輸入視頻進行壓縮并將其分解為一系列的時空Patches,這些 Patches 便成了Transformer 模型的輸入單位。這種方法使得Sora模型能夠處理不同分辨率,持續時間和寬高比的視覺內容。在生成視頻時,OpenAl能夠通過在特定的網格中排列這些隨機初始化的 Patches,從而有效控制生成視頻的大小和形狀。這一策略同樣適用于圖像處理,因為可以將圖像看作是靜態的單幀視頻。Sora采用采用 Scaling Transformer 提升模型效率:提升模型效率:OpenAl 通過應用Scaling Transformers的技術,成功地擴展了視頻生成模型
15、的能力。Scaling Transformers是指一系列旨在提高 Transformer 模型規模和效率的技術和方法,以便處理更大的數據集、更復雜的任務或在更大規模上運行,同時提高性能。在使用固定的初始條件(種子)和輸入數據進行視頻樣本的訓練過程中,OpenAl展示了通過增加訓練過程中的計算量(例如,使用更多的計算資源或進行更多次的訓練迭代)可以顯著提高生成的視頻樣本的質量。圖:Sora 根據提示詞生成視頻資料來源:OpenAI,國信證券經濟研究所整理圖:Sora 根據提示詞生成視頻資料來源:OpenAI,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容Sora 核心優勢:
16、強大的語言理解能力和一致性核心優勢:強大的語言理解能力和一致性Sora 核心優勢在于強大的語言理解能力和一致性核心優勢在于強大的語言理解能力和一致性。強大的語言理解:強大的語言理解:Sora引入了先進的字幕生成技術,借鑒 DALLE3的重字幕(re-captioning)方法,為視頻自動生成富有描述性的字幕。這一步驟不僅提升了視頻與文字之間的匹配度,還極大改善了視頻的整體品質。此外,通過 GPT將簡短的用戶指令 prompt 轉化為詳盡的描述,Sora能夠精確地按照用戶的需求創造視頻,顯著提高了生成視頻的準確度和質量。以圖像和視頻作為提示生成視頻:以圖像和視頻作為提示生成視頻:Sora的功能不
17、限于將文字提示轉換成視頻它還能夠處理圖像或已有視頻等多種類型的輸入。這種能力讓 Sora 成為一個應用廣泛的編輯工具,能夠輕松完成包括制作無縫循環視頻、將靜止圖片變為生動動畫,以及對視頻進行前后時間軸的擴展等多項任務。0penAl 通過展示基于 DALLE2 和 DALLE3技術生成的示例視頻,展現了Sora 在圖像和視頻編輯方面的強大能力和廣闊應用前景。靈活的視頻擴展技術:靈活的視頻擴展技術:Sora 使用了基于Transformer 架構的擴散模型,可處理多種類型的輸入數據,并能夠在視頻時間線上添加或修改內容。Sora能利用如SDEdit 這樣的技術,在沒有任何預設樣本的情況下,改變視頻中
18、的風格或背景環境。這意味著用戶可以更自由地定制他們的視頻內容,不僅限于內容的創建,還包括對視頻風格和環境的個性化調整,增強了視頻編輯的靈活性和創造性。出色的適應能力:出色的適應能力:Sora擁有強大的視頻生成和調整能力,能夠應對不同分辨率和屏幕比例的需求。無論是寬屏格式(1920 x1080像素)還是豎屏格式(1080 x1920 像素),Sora都能夠自如地處理,確保生成的視頻內容能夠完美匹配不同設備的顯示需求。此外,在進行高清視頻內容創作前,Sora 能夠迅速制作出低分辨率的視頻原型,這一點對于加速創作過程和優化內容設計來說非常有用。簡而言之,Sora使得視頻制作變得更加靈活和高效,可以根
19、據不同的顯示設備和內容需求靈活調整視頻規格。場景和物體的一致性和連續性:場景和物體的一致性和連續性:Sora能制作出視角多變的視頻,使得角色和場景的三維移動看起來更自然。它還能有效解決物體被遮擋的問題。傳統模型在追蹤視野外物體時常常遇到困難,但 Sora 通過同時預測多幀內容,可以保證即使主體暫時消失在畫面中也不會影響其一致性。請務必閱讀正文之后的免責聲明及其項下所有內容OpenAI新一代模型能力有望大幅提升新一代模型能力有望大幅提升Sam Altman透露新一代大模型相關進展,模型能力大幅提升透露新一代大模型相關進展,模型能力大幅提升。2024年1月,OpenAI首席執行官Sam Altma
20、n先后受邀參加了Unconfuse Me、達沃斯經濟論壇,透露新一代大模型相關進展:1)大模型進展:目前OpenAI首要任務是推出下一代大模型,可能不命名為GPT-5,展望未來兩年,人工智能有望在推理能力和可靠性、多模態(語音輸入/輸出、圖像、視頻)、可定制化和個性化三個領域大幅提升,其認為至少在未來5-10年內,AI大模型技術將處于一個非常陡峭的成長曲線上。2)新一代大模型架構和能力提升:OpenAI新一代模型將是一個多模態大模型,支撐語音、圖像、代碼和視頻,并在個性化和定制化方面實現重大更新,具備更強的推理能力和更高的準確性;Sam Altman認為如果GPT-4解決了人類任務的10%,則
21、新一代大模型有望解決人類任務的15%或20%;同時,AI大模型的幻覺問題有望在新一代大模型中解決。3)通往AGI之路:大模型能力提升不在于解決具體的問題,而是廣泛意義的通用性在逐步增強。圖:Sam Altman透露GPT-5相關進展資料來源:達沃斯經濟論壇,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容PixVerse 定位全球視頻多模態應用,引領定位全球視頻多模態應用,引領AI 創新潮流創新潮流愛詩科技有限公司成立于2023年,是一家迅速崛起的AI視頻生成大模型及應用企業。2024年1月,公司推出海外產品Pixverse,具備文生視頻、圖生視頻等多種功能,目前已在海外AI
22、視頻生成領域占據一席之地,成為全球用戶量最大的國產AI視頻生成產品。To創作者和創作者和To消費者的雙重策略,目標在消費者的雙重策略,目標在2024年底做到大規模的年底做到大規模的C端應用落地。端應用落地。公司認為AI視頻生成產品的第一階段是To創作者,理解創作者動機;第二階段將直面消費者。公司希望打通To C市場的AI視頻生成全鏈路,持續推進國內外產品迭代,目標在24年底實現大規模C端應用。訪問量快速增長,訪問量快速增長,PixVerse成國產成國產AI視頻之光。視頻之光。目前PixVerse已初步搭建了穩定的創作者生態,并根據用戶反饋進行模型迭代,在未來有望成為現象級、端到端的Al Nat
23、ive應用。據Similarweb統計,PixVerse在24年2月用戶訪問量已突破124萬次,環比增長120%;2月訪問量增速超越海外競爭對手Pika、Runway等,躋身全球AI視頻生成工具第一梯隊。圖:Pixverse 視頻生成界面資料來源:愛詩科技,國信證券經濟研究所整理圖:Pixverse 日訪問量資料來源:Similarweb,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容大模型群雄并起,Kimi打破競爭格局01目錄目錄大模型引領全球AI算力需求重估02請務必閱讀正文之后的免責聲明及其項下所有內容Kimi 火爆拉動算力需求增長火爆拉動算力需求增長Kimi大模型推
24、理算力測算推理過程:主要包括分詞(Tokenize)、嵌入(Embedding)、位置編碼(PositionalEncoding)、Transformer 層、Softmax。推理主要計算量在Transfomer解碼層,對于每個token、每個模型參數,需要進行2x1Flops=2次浮點運算,則單詞推理算力消耗為 模型參數量 x(提問 Tokens+回答 Tokens)x 2。推理算力計算假設及結果:模型參數量:模型參數量:如上文所述,假設Kimi大模型參數量為2000億。推理單次推理單次 Token量:量:正常用戶對話通常在1000 Token左右,假設推理單次 Token量為 1000。推
25、理算力需求:推理算力需求:根據 AI 大模型推理算力公式,單次Kimi大模型推理所需算力=2*Kimi 大模型參數量*(提問Tokens+回答Tokens)=2*(2000 億)*(1000)=8.014Flops=800 TFlops。假設Kimi 日活為10萬,單日活用戶每天調用Kimi頻率為30次,則Kimi單日推理調用總次數為300萬次,則單日推理算力需求為2.4eTFlops。所需推理卡數及時間:考慮英偉達 A10卡目前國內儲備量較大、成本較低,假設使用英偉達 A10卡進行Kimi模型推理,英偉達A10卡在FP16精度下算力為125TFlops,假設芯片利用率為 30%,同時考慮自天
26、高并發因素(即夜間用戶并不會使用 Kimi),所以假設 Kimi 推理算力需求會集中在一天12個小時內,則2.4 9TFlops/(125 TFLOPs x 30%x 3600s x 12h/天)=1481張A10,即滿足10萬日活用戶推理需求,需要1481張A10算力芯片作為支撐。圖:Kimi推理算力測算資料來源:英偉達,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容Meta算力需求超預期,算力需求超預期,算力卡采購數量大幅增長算力卡采購數量大幅增長Meta將于將于24年底擁有接近年底擁有接近60萬顆萬顆H100 GPU的等效算力的等效算力。2024年1月19日,Meta
27、董事長兼CEO扎克伯格在Facebook上發表視頻,詳細介紹了Meta在人工智能領域的最新進展和未來規劃,聚焦于Meta通用人工智能(AGI)的追求,以及Meta做出了相關戰略調整。從硬件側,Meta正在積極部署英偉達H100 GPU,計劃至24年底部署接近35萬顆H100 GPU,疊加英偉達A100和其他AI芯片,將擁有接近60萬顆H100 GPU的等效算力,以支撐下一代AI大模型LIama 3的訓練;從組織架構側,Meta將其兩大AI研究團隊(FAIR和GenAI)合并,共同致力于通用人工智能(AGI)的構建;從智能產品側,提到了Ray-Ban Meta智能眼鏡,關注元宇宙未來的發展。圖:
28、扎克伯格介紹Meta在AI領域的最新進展和規劃資料來源:Meta,國信證券經濟研究所整理24年年Meta算力卡采購數量同比大幅增長,算力需求超預期。算力卡采購數量同比大幅增長,算力需求超預期。根據Omdia Research統計數據,23年全球大廠紛紛采購H100 GPU,其中Meta和微軟采購15萬顆,位居第一;其次,谷歌、亞馬遜、Oracle、騰訊采購5萬顆,主要用于AI云業務的建設以及自研AI大模型的訓練需要。根據扎克伯格公布的24年算力卡采購預期:H100 GPU:23年公司采購15萬顆,24年預計采購20萬顆,同比+33.33%,合計24年底在手35萬顆H100 GPU,對應增量資本
29、支出12.5億美金(假設單科H100 GPU 2.5萬美金,增量為5萬顆);其他等效H100 GPU:24年底等效H100 GPU數量達到25萬顆,包括A100以及將要出貨的英偉達H200、AMD MI300X等AI芯片,由于H100 GPU的性價比優于A100,23年全年Meta A100采購數量相對較少,若24年底達到25萬顆的等效H100算力,我們認為Meta將大量采購英偉達H200、AMD MI300X等高性價比芯片。圖:3年全年Meta采購15萬顆H100 GPU資料來源:Omdia Research,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容多模態大模型拉動
30、多模態大模型拉動AI訓練、推理算力需求增長訓練、推理算力需求增長大模型訓練算力測算:大模型訓練算力測算:訓練過程可分前向傳播(Forward Pass)和反向傳播(Backward Pass)。前向傳播:輸入數據(例如圖像、文本等)通過神經網絡的各層進行傳遞,以得到輸出結果,包含輸入數據與權重矩陣相乘、應用激活函數等操作,目的為將計算網絡預測輸出,并將其與實際目標值比較,計算損失函數(Loss Function)的值。反向傳播:一種高效計算梯度算法,從輸出層開始,沿著網絡層次結構向輸入層反向傳播,計算每個權重的梯度(注:梯度表示權重對損失函數貢獻的大?。?;同時,在計算出所有權重的梯度后,使用優
31、化算法更新權重,達到減小損失函數值的目的。計算次數:一次前向傳播需要一次計算,一次反向傳播需要兩次計算(計算梯度+權重更新),則完成一次神經網絡迭代需要對所有輸入的數據和模型參數進行3次計算;每一次計算就是矩陣運算,對于一次矩陣運算需要進行一次乘法及加法(共計2次浮點運算),即對于每個Token、每個模型參數,需要進行2 3 Flops=6次浮點運算。以GPT-3大模型訓練為例,模型參數量為175B,訓練Token數量為300B,采用稠密(Dense)模型,其需要的訓練總算力為175B 300B 6=3.1523 FLOPs。所需算力卡數量及時間:假設使用業內FLOPS最大的利用率來測算(此處
32、取46.2%),單卡A100 FP16精度下算力為312 TFLOPS,則3.15 23 FLOPs/(312 TFLOPs 46.2%3600s 24h/天)=2.53萬張A100/天,即若使用1000張A100,大約訓練一遍GPT-3需要25.3天。表:芯片利用率情況資料來源:Aakanksha Chowdhery等著-PaLM:Scaling Language Modeling with Pathways-arXiv(2022)-P9,國信證券經濟研究所整理ModelModel#of Parameters#of Parameters(in billions)(in billions)Ac
33、celerator ChipsAccelerator ChipsModel FLOPS Model FLOPS UtilizationUtilizationGPT-3175BV10021.3%Gopher280B4096 TPU v332.5%Megatron-Turing NLG530B2240 A10030.2%PaLM540B6144 TPU v446.2%大模型推理算力測算:大模型推理算力測算:推理過程主要包括分詞(Tokenize)、嵌入(Embedding)、位置編碼(Positional Encoding)、Transformer層、Softmax。推理主要計算量在Transfo
34、mer解碼層,對于每個token、每個模型參數,需要進行2 1 Flops=2次浮點運算,則單詞推理算力消耗為模型參數量 (提問Tokens+回答Tokens)2。以GPT-3單次推理為例,假設用戶每次提問20 Tokens,ChatGPT回答300 Tokens,模型參數量為175B,則單次推理算力需求為175B (20 Tokens+300 Tokens)2=1.1214 FLOPs,若使用單張A100 GPU進行推理,假設芯片利用率為46.2%,則完成單次所需時間為1.12 14 FLOPs/(312 TFLOPs 46.2%)=0.78s圖:公開模型的算力數據資料來源:騰訊云,國信證券
35、經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容圖像模態拉動圖像模態拉動AI算力需求增長算力需求增長圖像訓練數據大幅提升訓練圖像訓練數據大幅提升訓練Token量。量。以BEIT方法為例,單一圖片訓練素材可以有兩種表達形式,即Image Patches和Visual Tokens。Image Patches:將圖片分成N=HW/P2個展平的2D塊,每個image patches會被展平成向量,并對其進行線性變換操作,進而得到一系列展平的2D塊的序列;隨后使用類BERT的子監督訓練方式(Masked Image Modeling),即隨機隱藏部分Image Patches,讓模型對隱藏的
36、部分進行預期,進而不斷計算預測的Patches和真實的Patches之間的差異,并將該差異作為Loss函數進行反向傳播來更新參數。Visual Tokens:BEIT通過DVAE(Discrete Variational Autoencoder,核心原理是試圖構建一個從隱變量Z生成目標數據X的模型)中的Image Tokenizer,將單一圖片訓練素材轉化為離散的Tokens(即隱變量),再通過生成器(Decoder)重建原圖。圖片對訓練數據量的提升圖片對訓練數據量的提升:以Image Patches方法為例,1張圖片可以分割為N=HW/P2個2D塊(即視為輸入的Tokens),其中(H,W)
37、為輸入圖片的分辨率,(P,P)是2D塊的大小,在BEIT:BERT Pre-Training of Image Transformers實際操作中,有1張224*224大小的圖片分割成16*16大小的2D小塊,即單一圖片相當于(224*224)/(16*16)=196個Tokens。而在純文本訓練素材中,單一單詞約為4/3個Token,則1張圖片(分辨率224*224)約等于147個單詞。根據上文所述,AI訓練算力需求=模型參數量 訓練Token量 6,圖片訓練素材的加入,拉動訓練Token量的大幅增長,進而大幅提升AI訓練算力需求。增量測算:增量測算:a)數據量:根據Will we run
38、out of data?An analysis of the limits of scaling datasets in Machine Learning(Pablo等著,2022年)披露數據,2022年全球圖片數量在510-211個,我們取中間值(即1 11個),選取常用圖片分辨率(1024768),則單張圖片對應(1024*768)/(16*16)=3072個Tokens,則全部圖片對應3.072 14個Tokens。b)算力需求:假設使用這些圖片數據對一個5000億參數模型進行訓練,則對應的AI訓練算力需求=500B 3.072 14 6=9.216e26 FLOPs。c)訓練卡需求:以
39、英偉達H100為例,在FP16精度下算力為1979 TFLOPS,仍假設芯片利用率為46.2%,則9.216 26 FLOPs/(1979 TFLOPs 46.2%3600s 24h/天 30天/月)=38.89萬張H100/月,即完成對圖片數據的訓練需使用38.89萬張H100訓練一個月(針對單一模型),假設全球有5家廠商使用圖片素材進行自研大模型訓練,則需要194.45萬張H100訓練一個月。請務必閱讀正文之后的免責聲明及其項下所有內容視頻模態拉動視頻模態拉動AI算力需求增長算力需求增長視頻訓練數據大幅提升訓練視頻訓練數據大幅提升訓練Token量。量。以字節跳動最新提出MagicVideo
40、-V2:Multi-Stage High-Aesthetic Video Generation方法為例,該模型是一個多階段端到端視頻生成模型,具體可分為以下4個關鍵模塊:Text-to-Image模塊(文本到圖像):從給定的文本提示,生成概括所描述場景的高分辨率圖像(分辨率為1024*1024);Image-to-Video模塊(圖像到視頻):通過文本提示和生成的圖像創建關鍵幀(32幀),使得靜態圖像動態化(分辨率為600*600);Video-to-Video模塊(視頻到視頻):增強并細化視頻幀的內容,并拓展至更高的分辨率(分辨率為1048*1048);Video Frame Interpo
41、lation(VFI,幀插值)模塊:在關鍵幀之間插入幀以平滑視頻運動(94幀),確保動作流暢和時間一致性。其中,Text-to-Image模塊(文本到圖像)的訓練同前文圖像模態訓練相似,除了BEIT方法外,OFA等方法亦可得到不錯的Text-to-Image模型。圖:MagicVideo-V2模型結構資料來源:Wang等著-MagicVideo-V2:Multi-Stage High-Aesthetic Video Generation-arXiv(2024)-p2國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容Image-to-Video模塊需要視頻數據進行訓練。根據Ze
42、Liu等著Video Swin Transformer(2021),輸入一個尺寸為THW3的視頻(此處T選取32,代表從視頻中采樣得到32幀,采樣方法可自行選擇,通常為等間隔采樣,視頻長度通常約10s;每幀包含HW3個像素),通過3D Patch Partition可以得到(T/2)*(H/4)*(W/4)個3D Patch(尺寸為2*4*4*3),即為Tokens,之后再經過Video Swin Transformer和Patch Merging獲得多幀數據的高維特征,完成視頻數據訓練。根據Will we run out of data?An analysis of the limits o
43、f scaling datasets in Machine Learning(Pablo等著,2022年)披露數據,Youtube每分鐘大約上傳500小時視頻,則我們可以得到Youtube一年增量視頻數據為500360024365=157.68億秒。通常分類任務視頻為10s左右,對應采樣幀數為32,假設每幀圖片分辨率為1024768,則10s視頻對應的Token數量為(32/2)*(1024/4)*(768/4)=78.64萬個Tokens,則Youtube一年增量視頻數據為1.24 15個Tokens,假設使用Youtube一年增量視頻數據對5000億大模型完成一遍訓練對應的算力需求為500
44、B 1.24e15 6=3.72 27 FLOPs。以英偉達H100為例,在FP16精度下算力為1979 TFLOPS,仍假設芯片利用率為46.2%,則3.72 27 FLOPs/(1979 TFLOPs 46.2%3600s 24h/天 30天/月)=156.98萬張H100/月,即完成對視頻數據的訓練需使用156.98萬張H100訓練一個月(針對單一模型,僅計算Youtube一年增量視頻數據);且后續Video-to-Video模塊(視頻到視頻)、Video Frame Interpolation(VFI,幀插值)模塊仍需要算力支撐。圖:對視頻素材劃分3D Patch Partition資
45、料來源:Ze Liu等著-Video Swin Transformer-arXiv(2021)-p3,國信證券經濟研究所整理視頻模態拉動視頻模態拉動AI算力需求增長算力需求增長請務必閱讀正文之后的免責聲明及其項下所有內容圖:美國BIS文件資料來源:BIS,國信證券經濟研究所整理美國限制對華云服務,看好國產算力需求提升美國限制對華云服務,看好國產算力需求提升美國將限制云廠商對華客戶提供美國將限制云廠商對華客戶提供AI云服務。云服務。美國商務部部長Gina Raimondo宣布,美國政府正推出一項提案,阻止外國實體,特別是來自中國的實體,使用美國的云計算進行AI大模型的訓練。美方認為這是保障國家安
46、全和美國技術優勢的一項努力。根據2024年1月29日美國BIS部門發布的相關文件,提到“requiring U.S.Infrastructure as a Service(IaaS)providers of IaaS products to verify the identity of their foreign customers,along with procedures for the Secretary to grant exemptions.(要求提供IaaS產品的IaaS廠商確認其外國客戶身份,遵循安全部門豁免程序)”。國內領先大模型廠商影響有限,看好國產算力需求提升。國內領先大模
47、型廠商影響有限,看好國產算力需求提升。國內領先大模型廠商大多自建智算中心,使用自有的AI算力訓練大模型,該政策對國內領先大模型廠商影響有限。國內AI大模型初創公司受制于創業初期資金不足,部分廠商租賃海外云廠商AI算力進行自研AI大模型訓練;同時,國內訓練垂類模型的部分AI應用廠商亦會租賃海外云廠商AI算力進行調優;該政策發布后,部分國內AI大模型初創公司和國內訓練垂類模型的AI應用公司有望自行購買算力卡或租賃國產AI算力進行模型的訓練和后續的推理,看好國產算力需求提升。請務必閱讀正文之后的免責聲明及其項下所有內容風險提示風險提示第一,宏觀經濟下行風險。若宏觀經濟波動,產業變革及新技術的落地節奏
48、或將受到影響,宏觀經濟波動導致下游需求不及預期,可能對 IT 投資產生負面影響,從而導致整體行業增長不及預期。第二,行業競爭加劇。國內各廠商紛紛加大 AI 相關投入,導致產品陷入同質化競爭。第三,國內 AI 大模型、算力等技術發展不及預期,影響AI 在各行業應用進度。第四,相關政策推進不及預期,如生成式 AI 應用需面臨相關政策要求等。19請務必閱讀正文之后的免責聲明及其項下所有內容免責聲明免責聲明分析師承諾分析師承諾作者保證報告所采用的數據均來自合規渠道;分析邏輯基于作者的職業理解,通過合理判斷并得出結論,力求獨立、客觀、公正,結論不受任何第三方的授意或影響;作者在過去、現在或未來未就其研究
49、報告所提供的具體建議或所表述的意見直接或間接收取任何報酬,特此聲明。重要聲明重要聲明本報告由國信證券股份有限公司(已具備中國證監會許可的證券投資咨詢業務資格)制作;報告版權歸國信證券股份有限公司(以下簡稱“我公司”)所有。,本公司不會因接收人收到本報告而視其為客戶。未經書面許可,任何機構和個人不得以任何形式使用、復制或傳播。任何有關本報告的摘要或節選都不代表本報告正式完整的觀點,一切須以我公司向客戶發布的本報告完整版本為準。本報告基于已公開的資料或信息撰寫,但我公司不保證該資料及信息的完整性、準確性。本報告所載的信息、資料、建議及推測僅反映我公司于本報告公開發布當日的判斷,在不同時期,我公司可
50、能撰寫并發布與本報告所載資料、建議及推測不一致的報告。我公司不保證本報告所含信息及資料處于最新狀態;我公司可能隨時補充、更新和修訂有關信息及資料,投資者應當自行關注相關更新和修訂內容。我公司或關聯機構可能會持有本報告中所提到的公司所發行的證券并進行交易,還可能為這些公司提供或爭取提供投資銀行、財務顧問或金融產品等相關服務。本公司的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中意見或建議不一致的投資決策。本報告僅供參考之用,不構成出售或購買證券或其他投資標的要約或邀請。在任何情況下,本報告中的信息和意見均不構成對任何個人的投資建議。任何形式的分享證券投資收益或者分擔證券投資損失
51、的書面或口頭承諾均為無效。投資者應結合自己的投資目標和財務狀況自行判斷是否采用本報告所載內容和信息并自行承擔風險,我公司及雇員對投資者使用本報告及其內容而造成的一切后果不承擔任何法律責任。證券投資咨詢業務的說明證券投資咨詢業務的說明本公司具備中國證監會核準的證券投資咨詢業務資格。證券投資咨詢,是指從事證券投資咨詢業務的機構及其投資咨詢人員以下列形式為證券投資人或者客戶提供證券投資分析、預測或者建議等直接或者間接有償咨詢服務的活動:接受投資人或者客戶委托,提供證券投資咨詢服務;舉辦有關證券投資咨詢的講座、報告會、分析會等;在報刊上發表證券投資咨詢的文章、評論、報告,以及通過電臺、電視臺等公眾傳播
52、媒體提供證券投資咨詢服務;通過電話、傳真、電腦網絡等電信設備系統,提供證券投資咨詢服務;中國證監會認定的其他形式。發布證券研究報告是證券投資咨詢業務的一種基本形式,指證券公司、證券投資咨詢機構對證券及證券相關產品的價值、市場走勢或者相關影響因素進行分析,形成證券估值、投資評級等投資分析意見,制作證券研究報告,并向客戶發布的行為。國信證券投資評級國信證券投資評級投資評級標準投資評級標準類別類別級別級別說明說明報告中投資建議所涉及的評級(如有)分為股票評級和行業評級(另有說明的除外)。評級標準為報告發布日后6到12個月內的相對市場表現,也即報告發布日后的6到12個月內公司股價(或行業指數)相對同期
53、相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數(000300.SH)作為基準;新三板市場以三板成指(899001.CSI)為基準;香港市場以恒生指數(HSI.HI)作為基準;美國市場以標普500指數(SPX.GI)或納斯達克指數(IXIC.GI)為基準。股票投資評級股票投資評級買入 股價表現優于市場代表性指數20%以上增持 股價表現優于市場代表性指數10%-20%之間中性 股價表現介于市場代表性指數10%之間賣出 股價表現弱于市場代表性指數10%以上行業投資評級行業投資評級超配 行業指數表現優于市場代表性指數10%以上中性 行業指數表現介于市場代表性指數10%之間低配 行業指數表現弱于市場代表性指數10%以上請務必閱讀正文之后的免責聲明及其項下所有內容國信證券經濟研究所國信證券經濟研究所深圳深圳深圳市福田區福華一路125號國信金融大廈36層郵編:518046總機:0755-82130833上海上海上海浦東民生路1199弄證大五道口廣場1號樓12樓郵編:200135北京北京北京西城區金融大街興盛街6號國信證券9層郵編:100032