《多模態AI行業深度:市場現狀、產業前景、產業框架及相關公司深度梳理-240301(32頁).pdf》由會員分享,可在線閱讀,更多相關《多模態AI行業深度:市場現狀、產業前景、產業框架及相關公司深度梳理-240301(32頁).pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、 1/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 行業研究報告 慧博智能投研 多模態多模態AI行業深度:行業深度:市場現狀、市場現狀、產業前景、產業前景、產業框架及相關公司深度梳理產業框架及相關公司深度梳理 當前,多模態 AI 大模型有望掀起新一輪產業革命。追蹤當前行業發展,大模型多模態發展進一步深化,有望成為 AI 大模型主流。繼之前文生圖能力快速嵌入各個大模型之后,文生視頻為大模型多模態應用的下一重要方向。近期多家廠商相繼發布相關產品或更新,大幅提升文生視頻效果,實現更高清晰度、更高流暢度、視頻任意修改等功能??梢哉f,多模態是實現通用人工智能的必經之路,
2、必將成為大模型發展的前沿方向。以下我們就以多模態 AI 為視角,深度追蹤這一市場熱點。從相關概念、市場現狀出發,對市場研究方向、技術能力進行梳理。同時,將對多模態 AI 的產業框架、市場應用、相關企業進行分析,并對多模態 AI 發展下的市場機遇、產業前景進行分析,希望對大家了解當下行業現狀及發展趨勢有所啟發。目錄目錄 一、多模態 AI 綜述.1 二、市場現狀.5 三、研究方向.12 四、技術能力.15 五、產業框架.20 六、市場應用.21 七、市場機遇.24 八、相關公司.26 九、產業前景.31 十、參考研報.32 一、多模態一、多模態 AI 綜述綜述 1、AI 模型:必將從單模態走向多模
3、態,實現復雜場景下的智能決策模型:必將從單模態走向多模態,實現復雜場景下的智能決策 2/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 2、多模態或成為多模態或成為 AI 大模型主流大模型主流 多模態模型是指將不同類型的數據(例如圖像、文字、視頻、語音等)結合起來進行分析處理的模型多模態模型是指將不同類型的數據(例如圖像、文字、視頻、語音等)結合起來進行分析處理的模型。其通過不同數據類型的相互關聯和結合,可以大幅提高模型的準確性和魯棒性,應用場景進一步拓展。其次,多模態更接近人類學習的模式,在物理世界中,人類認知一個事物并不是通過單一模態,例如認知一只寵物,可以
4、從視覺(寵物形貌)、聽覺(寵物叫聲)、嗅覺(寵物體味)、觸覺(寵物毛發、寵物體溫等)等多模態全面立體認知,是未來人工智能的發展方向。多模態向通用人工智能(多模態向通用人工智能(AGI)邁前一步)邁前一步。多模態大模型同時處理文本、圖片、音頻以及視頻等多類信息,與現實世界融合度高,有望成為人類智能助手,推動 AI 邁向 AGI:多模態更符合人類接收、處理和表達信息的方式。人類能夠感知多元信息,每一類信息均為一種模態,這些信息往往是相互關聯的。多模態信息使得大模型更為智能。多模態與用戶交互方式更便捷,得益于多模態輸入的支持,用戶可以以更靈活的方式與智能助手進行交互和交流。多模態提升任務解決能力。目
5、前,多模態大模型已成為大模型發展前沿方向目前,多模態大模型已成為大模型發展前沿方向。2022 年及之前,大模型處于單模態預訓練大模型階段,主要探索文本模式的輸入輸出。2017 年,Transformer 模型提出,奠定了當前大模型的主流算法結構;2018 年,基于 Transformer 架構訓練的 BERT 模型問世,參數規模首次突破 3 億;隨后 GPT 系列模型推出,2022 年底至今 ChatGPT 引爆全球大模型創新熱潮。步入 2023 年,大模型發展從文本、圖像等單模態任務逐漸發展為支持多模態的多任務,更為符合人類感知世界的方式。大模型公司的比拼重點轉移為多模態信息整合和數據挖掘,
6、精細化捕捉不同模態信息的關聯。例如,2023 年 9 月,OpenAI推出最新多模態大模型 GPT-4V,增強了視覺提示功能,在處理任意交錯的多模態方面表現突出。VY3U1XEUOZBVSU9PbP8OoMqQpNnRkPrRpMfQpPqMaQnMtQNZoPrQMYtRyQ 3/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 3、多模態是實現通用人工智能的必經之路多模態是實現通用人工智能的必經之路 按照處理的數據類型數量劃分,按照處理的數據類型數量劃分,AI 模型可以劃分為兩類:模型可以劃分為兩類:單模態:只處理 1 種類型數據,如文本等;多模態:處理 2
7、種及以上數據,可類比人腦同時對文本、聲音、圖像等不同類型信息進行處理。多模態是實現通用人工智能的必經之路多模態是實現通用人工智能的必經之路。相比單模態,多模態大模型在輸入輸出端的優勢明顯:輸入端輸入端:提升模型能力:高質量語言數據存量有限,且不同模態包含的信息具有互補性,多元的訓練數據類型有助于提升通用大模型能力;提高用戶體驗:推理側更低的使用門檻和更少的信息損耗。輸出端輸出端:更實用??芍苯由删C合結果,省去多個模型的使用和后期整合;更符合真實世界生產生活需要,從而實現更大商業價值。4/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 4、多模態多模態 AI 以
8、融合為核心,基于以融合為核心,基于 5 大技術環節實現復雜問題解決大技術環節實現復雜問題解決 5、多模態模型厚積薄發,性能實現飛躍多模態模型厚積薄發,性能實現飛躍 多模態模型歷經多個發展階段,模型復雜度和性能持續提升多模態模型歷經多個發展階段,模型復雜度和性能持續提升。多模態模型的發展經歷了五個關鍵階段,分別是行為、計算、交互、深度學習和大模型時代。這一發展歷程始于最初對行為理論和科學研究的探索,如今正逐步轉向多模態技術在產業領域的實際應用。在這一過程中,半導體技術和計算機科學的迅猛發展扮演了重要的推動角色。多模態模型逐漸從簡單模擬人類行為模式轉變為復雜的計算模型,隨著深度學習技術的興起,這些
9、模型獲得了更深層次的理解和學習能力,使得其在圖像、語音、視頻等多種形式數據處理上取得了突破性進展。大模型開啟新時代,多模態技術發展迅速大模型開啟新時代,多模態技術發展迅速。2020 年大模型時代到來,多模態技術的發展得到進一步推進。大模型時代的核心在于構建能夠處理海量數據的大規模模型,從而使得多模態模型在處理復雜任務時展現出了更高的性能和智能。最近,OpenAI 發布的 GPT-4V 已經具備了強大的圖片理解、邏輯推理以及情感感知能力,預計將在各產業得到廣泛應用。5/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 二、二、市場現狀市場現狀 1、國資委鼓勵央企參與
10、國資委鼓勵央企參與 AI 產業產業 產業政策方面,2 月 19 日國務院國資委召開“AI 賦能產業煥新”中央企業人工智能專題推進會。會議提出推動中央企業在人工智能領域實現更好發展、發揮更大作用;加快建設一批智能算力中心;開展 AI+專項行動,加快重點行業賦能,構建一批產業多模態優質數據集,打造從基礎設施、算法工具、智能平臺到解決方案的大模型賦能產業生態。會上,10 家中央企業簽訂倡議書,表示將主動向社會開放人工智能應用場景。2、國外市場、國外市場:Sora 和和 Gemini1.5 推出,開啟多模態大模型新紀元推出,開啟多模態大模型新紀元(1)OpenAI 發布首款文生視頻大模型發布首款文生視
11、頻大模型 Sora,可以快速生成,可以快速生成 60 秒、準確反映用戶提秒、準確反映用戶提示的視頻示的視頻 2024 年 2 月 16 日,OpenAI 發布首款文生視頻大模型 Sora,可以快速生成 60 秒、準確反映用戶提示的視頻,其具有 60 秒超長長度、多角度視頻一致性、對物理世界理解等特性。Sora 可生成可生成 60 秒超長視頻秒超長視頻。相較于 Runway ML Gen-2、Pika 等文生視頻大模型,Sora 可以生成 60秒一鏡到底的視頻,視頻邏輯順暢、主人物及背景的行人均非常穩定,文生視頻大模型能力進一步提升。Sore 多角度視頻一致性多角度視頻一致性。Sore 可以在單
12、個生成視頻中創建多個鏡頭,以準確保留角色和視覺風格。根據 OpenAI 官網發布的 Demo,59 秒的視 頻中,有多角度鏡頭,且主人物保持了完美的一致性。6/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 Sore 在嘗試理解物理世界在嘗試理解物理世界。根據 OpenAI 官網披露,Sore 不僅可以理解用戶 Prompt 的要求,同時亦嘗試理解 Prompt 中的事物在物理世界中的存在方式(即物理規律)。根據 OpenAI 官網 Demo 視頻中,汽車在山路行駛中的顛簸,以及貓踩奶等動作符合物理世界規律,視頻逼真度進一步提升。Sora 技術原理:技術原理:T
13、ransformer+Diffusion。通過已知。通過已知 Patches 推測下一推測下一 Patches。傳統大語言模型通過已知 Tokens 推測下一 Tokens,Sora 同大語言模型類似,將視頻數據切分成不同 Patches(即大語言模型中的 Tokens),通過已知 Patches 推測下一 Patches。通??梢苑譃橐韵聝蓚€步驟:將高緯度視頻數據壓縮成低緯度隱空間(Latent Space):OpenAI 通過訓練視頻壓縮網絡實現該步驟,通常將視頻數據作為輸入(input),后對視頻數據進行時間和空間維度的壓縮,并輸出(output)潛在表示(latent represen
14、tation)。進一步將數據轉化為 Spacetime Patches:提取一系列的 latent Space 作為訓練/推理的 Tokens,完成對模型的訓練。通過通過 Diffusion 還原畫面還原畫面。如前文所述,通過已知 Patches 推測下一 Patches,得到 Latent Patches,OpenAI 通過訓練 Decoder 將得到的 latent Space 映射到像素空間,再通過 Diffusion 模型進一步還原畫面。(2)谷歌推出谷歌推出 Gemini1.5,大模型迭代速度加快,大模型迭代速度加快 7/32 2024 年年 3 月月 1 日日 行業行業|深度深度|
15、研究報告研究報告 最長可支持一百萬最長可支持一百萬 token 超長上下文,超越超長上下文,超越 GPT-4Turbo。谷歌研究人員進行了一項測試,在這個測試中,模型需要在一定的文本范圍內檢索到 100 個不同的特定信息片段。Gemini 1.5 Pro 在較短的文本長度上的性能超過了 GPT-4-Turbo,并且在整個 100 萬 token 的范圍內保持了相對穩定的表現,GPT-4Turbo 的性能則飛速下降,且無法處理超過 128,000token 的文本??蓪Υ罅康男畔⑦M行復雜推理可對大量的信息進行復雜推理。Gemini 1.5 Pro 可以在給定提示內無縫分析、分類和總結大量內容。例
16、如,當給出阿波羅 11 號登月任務的 402 頁記錄時,它可以推理整個文檔中的對話、事件和細節??缒J酵评砗屠斫饽芰υ鰪娍缒J酵评砗屠斫饽芰υ鰪?。Gemini 1.5 Pro 可以針對包括視頻在內的不同模式執行高度復雜的理解和推理任務。例如,當給定一部 44 分鐘的巴斯特 基頓無聲電影時,該模型可以準確分析各種情節點和事件,甚至推理出電影中容易被忽略的小細節。相比上一代性能增強,并具備相比上一代性能增強,并具備“上下文學習上下文學習”能力能力。在涵蓋文本、代碼、圖像、音頻和視頻的綜合性測試中,1.5Pro 在 87%的基準測試上超越了 1.0Pro。與 1.0Ultra 在相同基準測試的比較中
17、,1.5Pro 的表現也相差無幾。此外,Gemini 1.5 Pro 展現了卓越的“上下文學習”能力,能夠僅憑長提示中提供的信息掌握新技能,無需進一步細化調整。這一能力在“從一本書學習機器翻譯(MTOB)”基準測試中得到了驗證,該測試檢驗了模型學習從未接觸過的信息的能力。對于一本關于全球不足 200 人使用的 Kalamang語的語法手冊,模型能夠學會將英語翻譯成 Kalamang,學習效果與人類學習相似。Gemini 首次發布是 2023 年 12 月,僅兩個月之后,Gemini 1.5 的發布已經展現了與其前代相比的顯著性能提升,這一迅速的迭代速度不僅彰顯了大模型技術飛速發展的態勢,同時也
18、反映出了 AI 領域大模型競爭愈發激烈。3、國內國內市場:市場:加速對齊海外龍頭,細分領域或有優勢加速對齊海外龍頭,細分領域或有優勢(1)國內市場加速)國內市場加速對齊海外龍頭,多模態大模型陸續推出對齊海外龍頭,多模態大模型陸續推出 國內科技公司積極研發國產大模型,互聯網大廠在數據積累與算法水平兼具優勢,率先切入多模態大模型賽道,其后不斷涌現大模型科技公司與初創公司,在多模態大模型領域持續投入同時陸續更新大模型能力。例如,百度百度 2023 年 3 月發布文心一言,成為全球大廠中第一個對標 ChatGPT 甚至是 GPT-4 的大模型,同時具備文字生成圖片、音頻(方言)、視頻等多模態能力。其后
19、,阿里巴巴阿里巴巴、騰訊騰訊等互聯網大廠,商湯科技商湯科技等大模型公司以及智源研究院智源研究院、智譜智譜等初創公司或研究所均發布了國產多模態大模型,并通過不斷迭代實現能力突破,逐步縮小與海外大模型差距。8/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 然而,總體而言,由于國產訓練數據集、算力支持和應用場景等與海外大廠仍存在較大差距,國產大模型仍在向海外大廠靠齊過程中。根據 SuperCLUE 測評數據,截至 2023 年 12 月,海外 GPT-4Turbo、GPT-4 依舊為全球性能最優大模型。國內市場在國內市場在細分領域或有優勢細分領域或有優勢。海外龍頭廠
20、商具有示范效應,Meta 等廠商算法開源顯著降低國產大模型學習成本,國產大模型可通過復制海外龍頭廠商先進技術快速成長,通過逐步超越海外龍頭上代產品,并摸索最新技術的方式升級迭代:阿里巴巴最新通義千問可媲美阿里巴巴最新通義千問可媲美 GPT-4V 和和 Gemini。2023 年 8 月,阿里阿里發布 Qwen-VL 模型的第一個版本,并很快對通義千問進行了升級。Qwen-VL 支持以圖像、文本作為輸入,并以文本、圖像、檢測框作為輸出,讓大模型真正具備了看世界的能力。在多模態大模型性能整體榜單 OpenCompass 中,Qwen-VL-Plus 緊隨 Gemini Pro 和 GPT-4V,占
21、據了前三名的位置。2024 年 1 月,阿里巴巴新升級的通義千問視覺語言大模型 Qwen-VL-Max 發布,在多個測評基準上取得較好成績,并實現了強大的圖像理解能力,整體能力達到了媲美 GPT-4V 和 Gemini 的水平,在多模態大模型領域實現了業內領先。9/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 智譜智譜 AI 發布多模態大模型發布多模態大模型 GLM-4,模型性能均達,模型性能均達 GPT-4 九成以上九成以上。作為國內唯一一個產品線全對標OpenAI 的大模型公司,GLM-4 性能相比 GLM-3 提升 60%,逼近 GPT-4(11 月 6
22、 日最新版本效果)。多模態能力方面,GLM-4 則是把原本就有的文生圖(CogView3)、代碼能力做了升級,CogView3 效果超過開源最佳的 Stable Diffusion XL,逼近 DALLE 3。2023 年 12 月,智源研究院智源研究院開源發布新一代多模態基礎模型 Emu2,成為目前最大的開源生成式多模態模型,通過大規模自回歸生成式多模態預訓練,顯著推動多模態上下文學習能力的突破。Emu2 在少樣本多模態理解任務上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模態預訓練大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在
23、內的多項少樣本理解、視覺問答、主體驅動圖像生成等任務上取得最優性能。Emu2-Chat 可以精準理解圖文指令,實現更好的信息感知、意圖理解和決策規劃。Emu2-Gen 可接受圖像、文本、位置交錯的序列作為輸入,實現靈活、可控、高質量的圖像和視頻生成。(2)國產大模型有望憑借獨特生態優勢在細分領域取得差異化競爭優勢)國產大模型有望憑借獨特生態優勢在細分領域取得差異化競爭優勢 百度百度 2023 年 3 月發布的文心一言,其訓練數據包含萬億級網頁數據、數十億的搜索數據和圖片數據、百億級的語音日均調用數據,以及 5500 億事實的知識圖譜等,在搜索領域或具有技術與數據優勢;阿阿里巴巴里巴巴 2023
24、 年 4 月發布的通義千問訓練數據包括大量文本、專業書籍、代碼等,生成的大模型或在電商領域具有較強競爭力??傮w而言,通過向海外技術對齊和利用獨特生態稟賦,國產大模型與海外大廠差距逐步縮小。根據SuperCLUE 測評數據,在 2023 年下半年,國內領軍大模型企業實現了大模型代際追趕的奇跡,從 7 月份與 GPT3.5 的 20 分差距,每個月都有穩定且巨大的提升,到 11 月份測評時已經完成總分上對 GPT3.5的超越。10/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 4、多模態發展路徑逐步清晰,底層技術日臻成熟多模態發展路徑逐步清晰,底層技術日臻成熟 目
25、前,多模態大模型發展路徑逐步清晰目前,多模態大模型發展路徑逐步清晰。發展思路主要有三:利用單模態模型如 LLMs 來調動其他數據類型的功能模塊完成多模態任務,典型代表有 Visual、ChatGPT、HuggingGPT 等;直接利用圖像和文本信息訓練得到多模態大模型,典型代表有 KOSMOS-1 等;將 LLMs 與跨模態編碼器等有機結合,融合 LLMs 的推理檢索能力和編碼器的多模態信息整合能力,典型代表有 Flamingo、BLIP2 等。多模態大模型底層技術日臻成熟,多模態大模型底層技術日臻成熟,支持支持實現多類信息融合與轉換實現多類信息融合與轉換。從技術架構來看,多模態大模型一般包括
26、編碼、對齊、解碼和微調等步驟,逐步整合多模態關聯信息,輸出目標結果。編碼:包括視覺、音頻、文本等模態編碼器,目的是有效處理多個模態信息,轉化為可處理狀態;對齊:解決不同模態編碼器可能不能直接融合的問題,建立共同表示空間,將不同模態的表示統一,實現多個模態信息的有效整合;解碼:編碼的反向過程,把模型的內部表示轉化為物理世界的自然信號,即輸出人類可識別的信息;微調:針對個性化如垂直行業大模型,重新訓練大模型消耗算力成本較高,便可在預訓練模型的基礎上,通過在自有小數據集上的訓練來適應新的任務,更好地提升大模型在下游特定領域能力。11/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究
27、報告研究報告 文生圖為最先成熟的多模態技術領域,其代表技術為 OpenAI 于 2021 年推出的 CLIP 模型。CLIP 使用約 4 億從網頁中爬取的圖像-文本對數據進行對比學習,采用圖像和文本雙編碼器,用于評估給定圖像與給定文本描述的匹配程度,成為連接文本和圖像的橋梁。目前,多模態底層技術不再局限于文本與圖像兩層信息,Meta-Transformer 可同時理解 12 種模態信息。2023 年 7 月,香港中文大學多媒體實驗室聯合上海人工智能實驗室的 OpenGVLAB 研究團隊提出一個統一多模態學習框架 Meta-Transformer,實現骨干網絡的大統一,具有一個模態共享編碼器,并
28、且無需配對數據,即可處理 12 種模態信息,并提供了多模態無邊界融合的新范式。相比 CLIP、BEiT-3、Imagebind,模態數目大幅增加,并且擺脫了多模態訓練過程中對于配對數據的依賴性,為多模態學習提供了新路徑。5、多模態多模態 AI 是機遇也是挑戰是機遇也是挑戰 信息異構,數據升維信息異構,數據升維。人類日常生活中的自然語言、語氣、手勢和眼神,這些不同的表達形式和對方的感知形式,就是不同的模態,這種多模態對齊到“0-1”世界中,就是文字、圖像&視頻、音頻信息甚至物理化學公式,而這些信息之間形成了相似、補充或互斥的關系,這種相互關系會對多模態的表現產生重大影響。多模態多模態 AI 的輸
29、入和輸出超出了單一的文字維度,對的輸入和輸出超出了單一的文字維度,對 AI 既是機遇也是挑戰既是機遇也是挑戰。機遇在于,多模態信息可以幫助 AI 更精確地了解人類世界,在作答時就可以輸出更加貼近現實、符合預期的回答。如同失聰者同時難以說話,AI 獲取的信息若不是多模態,就只能停留在文字數據給予的單一維度認知。不同模態之間的相互作用有多種方式,正反饋例如,若將一張人類跑步的圖片、一段描述“跑步”的文字、力學定律等輸入至 AI,那么 AI 就可以獲得對“跑步”這一行為的增強理解;負反饋例如,在文字訓練數據出現錯誤時,其他模態的數據可以幫助 AI 輔助判斷對錯,從源頭減少 AI“幻覺”的產生。多模態
30、的挑戰集中于數據、算力和調優多模態的挑戰集中于數據、算力和調優。首先是多模態數據的融合(Fusion),進一步增加了算力資源的壓力。例如,一段文字和一張圖片里都包含“1+1=2”的信息,這種情況可以為二者給予相同的訓練權重;如果包含更加復雜的信息,簡單的信息融合將失效,就需要引入張量融合算法,從而占據一部分算 12/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 力資源。其次,數據的對齊(Alignment)對不同模態之間的協調起著關鍵作用。今年 3 月發布的 GPT-4 模型能夠識別搞笑圖片中的笑點所在,就是由于 OpenAI 做好了充分的文字與圖片的數據對齊
31、,因此,訓練數據越優質,模型后續訓練需要的人類反饋學習就越少,從而縮短模型研發周期谷歌谷歌發布Gemini 模型時表示,高性能的 Ultra 版本目前尚在 RLHF 階段,因此推出時間稍晚。多模態多模態 AI 的發展,不僅利于影視創作、游戲制作行業的生產效率提升,同時也有利于逐步打消業界對的發展,不僅利于影視創作、游戲制作行業的生產效率提升,同時也有利于逐步打消業界對AI 能力的懷疑能力的懷疑。Pika1.0、Gemini 的發布提振了用戶的信心Pika 有效解決了多模態大模型生成視頻時幀連續性的問題,輸出結果堪稱驚艷,而 Gemini 原生基于多模態打造,有效解決了多模態數據融合的問題,相當
32、于 AI“新物種”。AI 并未停下腳步,通向 AGI 的星辰大海正在拉開帷幕。三、三、研究研究方向方向 多模態模型五大方向多模態模型五大方向視覺理解、視覺生成、統一視覺、視覺理解、視覺生成、統一視覺、LLM 支持、多模態支持、多模態 Agent。近期,微軟多位研究員聯合撰寫文章,對多模態模型進行了全面的研究和分類,并關注了模型從專業性向通用性轉變的特點。在模型分類中,研究員們將模型研究方向分為兩大類五個主題:目前已成熟、完善的研究主題,包括視覺理解、視覺生成;具備探索性、開放性的前沿研究領域,包括統一視覺模型、受 LLM(大語言模型)支持的多模態大模型以及多模態 agent。方向一:視覺理解方
33、向一:視覺理解。在 AI 領域,視覺理解是指使計算機系統能夠解釋和理解視覺信息的能力。視覺理解的核心問題是通過預訓練使得神經網絡的主干架構 backbone 獲得強大的圖像理解能力。模型訓練方法可根據監督信號的不同分為三類:標簽監督、語言監督和純視覺自監督。其中,純視覺自監督的監督信號來源為圖像本身,相關方法有對比學習、非對比學習和掩碼圖像建模。在這些方法之外,常用的預訓練方法還有多模態融合、區域級和像素級圖像理解等。方向二:視覺生成方向二:視覺生成。這是 AI 圖像生成與理解的核心,不僅包括圖像生成,還包括視頻、3D 點云圖等多種內容的生成。視覺生成不僅可以應用于藝術、設計等內容創作領域,它
34、還在合成訓練數據方面發揮著巨大作用,從而促進多模態內容理解與生成的閉環發展。視覺生成的重點在于如何生成與人類意圖一致的圖像,常見的四類相關研究方向為:有空間可控生成、基于文本再編輯、遵循文本提示生成和生成概念定制(concept customization)。當前研究趨勢和未來短期研究方向是創建通用的文生圖模型,以更好地滿足人類意圖,并提升上述方向的可替代性。13/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 方向三:統一視覺模型。構建統一視覺模型具有多重挑戰方向三:統一視覺模型。構建統一視覺模型具有多重挑戰。在計算機視覺領域,各任務的差異很大,這為建立統一的
35、視覺模型帶來了巨大挑戰:輸入類型不同,輸入內容可包括靜態圖形、動態視頻、純視覺輸入、模糊圖像等;不同的任務需要不同的粒度,如圖像級任務、區域級任務、像素級任務等,因此輸出的空間信息和語義信息也要求不同的格式;在建模之外,數據也有挑戰,比如不同類型的標簽注釋成本差異很大,收集成本比文本數據高,這導致視覺數據的規模通常比文本語料庫小得多。未來統一視覺模型是非常有價值的研究方向。CV 領域對于開發通用、統一的視覺系統具有很高的興趣,實現這一目標的關鍵研究方向包括:從閉集模型到開集模型,可以更好地將文本和視覺匹配;從特定任務到通用能力,減少新模型/垂直細分模型的開發成本;從靜態模型到可提示模型。未來通
36、用視覺模型應具備強大的上下文學習能力,因此 LLM 可以接受不同語言和上下文提示作為輸入,并生成用戶所需的輸出,無需微調。14/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 方向四:方向四:LLM 支持的多模態大模型支持的多模態大模型。該領域的代表作為 OpenAI 的多模態模型 GPT-4V,模型具備較強大的能力:模型具有強大的通用性能力,能夠處理不同輸入模態的任意組合,包括圖像、子圖像、文本、場景文本和視覺指針。經過詳細測試,研究人員發現 GPT-4V 支持 LLM 中的 test-time 技術,如指令跟隨、思維鏈、上下文少樣本學習等。GPT-4V 在多
37、個實驗領域表現接近人類水平的能力,包括開放世界視覺理解、視覺描述、多模態知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等。LLM 支持的多模態模型仍有部分領域需要改進和迭代,包括更多超越視覺和語言的模態(Multitask Instruct with Established Academic Datasets/Tasks)、多模態的上下文學習(MultimodalIn-Context-Learning、參數高效訓練(Parameter-Efficient Training)以及 Benchmark 等內容。方向五:多模態方向五:多模態 Agent。多模態 Agent 是
38、將不同的多模態專家模型同 LLM 聯系起來,進而解決復雜多模態理解問題的辦法,也是目前最前沿的多模態研究方向。大語言模型(LLM)具有對各領域用戶提示的通用性特點,以及利用少量提示快速適應新場景的學習能力。受到這種強大能力的啟發,研究人員正在探索一種新的模型范式,該范式不再是針對解決有限預定義問題的獨立模型,而是通過將多個工具或專家與 LLM 協同來解決復雜的開放性問題。與方向四不同,這樣的系統可以在沒有任何訓練的情況下 15/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 構建,只需使用少量提示訓練 LLM,使其對現有工具進行調用。整體而言,多模態 agent
39、 在多模態理解方面能力較強,并可輕松擴展到潛在的數百萬種工具中。四、技術能力四、技術能力 語音和視覺能力先行,視覺能力為核心語音和視覺能力先行,視覺能力為核心。當前模態主要包括圖像、視頻、音頻、代碼、標準數據庫等,多模態大模型進展主要圍繞語音和視覺任務,其中語音任務和文本任務本質上相通,有成熟開源技術方案,門檻相對較低;而視覺任務主要涵蓋視覺理解和視覺生成,由于信息復雜度高、利用難度較大,并且對模型感知能力和應用開發潛力提升具有重要價值,成為當前多模態大模型發展的核心方向。1、技術基礎技術基礎:AIGC 突破突破 0-1 關卡后,多模態能力快速發展關卡后,多模態能力快速發展 自聊天機器人 Ch
40、atGPT 問世以來,AIGC 技術覆蓋面已由文本拓展至圖片、音頻??梢灾攸c參考 AI 第一梯隊平臺 OpenAI 的技術及產品進程:2023 年 3 月,OpenAI 推出 ChatGPT3.5,該聊天機器人可通過機器學習技術來生成人類類似的文本回復,憑借出色的文本對話和任務完成能力,已獲得大量 C 端付費訂閱及 B 端訂單,據 IT 之家援引 The Information2023 年 10 月報道,該公司預計全年收入超 13 億美元。2023 年年 9 月,月,OpenAI 宣布旗下宣布旗下 ChatGPT 將能看、能聽、能說,從此前的只能文本交互,實將能看、能聽、能說,從此前的只能文本
41、交互,實現多現多模態能力的更新模態能力的更新?!澳B”指的是數據的不同類型或來源,如圖像、音頻、文本等。具備多模態能力后的GPT4,可以進行語音溝通,使用圖片與用戶互動,從而在使用形態上更接近蘋果 Siri 等熱門人工智能助手。2、語音能力:語音能力:STT+TTS+GPT 便捷實現語音對話,優化人機交互體驗便捷實現語音對話,優化人機交互體驗 語音轉文字模型(語音轉文字模型(Speech-To-Text,STT)技術成熟度高,難構成行業壁壘)技術成熟度高,難構成行業壁壘。語音識別技術歷史悠久,最早可以追溯到 1952 年,成熟度相對較高,并已融入各類日常場景。最近幾年技術層面逐步從統計模型走向
42、端到端的深度模型,底層架構逐步從小模型走向大模型。在多模態大模型系統中,STT 模型將語音轉換為特定模式的文本文件,并直接輸入模型。以 OpenAI 推出的 Whisper 模型為代表,模型底層使用 Transformer 的編碼器-解碼器架構,可以將音頻信息直接轉化成包含提示詞的標準化 Token,基于 16/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 68 萬小時的對話學習,較主流小模型可以將錯誤率降低 50%左右。Meta 推出 MMS,谷歌谷歌推出 Audio PaLM 模型,均采用 Transformer 架構實現端到端的 STT 模型。文本轉語音
43、(文本轉語音(Text-To-Speech,TTS)模型是實現大模型語音能力的)模型是實現大模型語音能力的核心技術,差異主要體現在音色核心技術,差異主要體現在音色和情感方面和情感方面。TTS 模型同樣具有悠久技術歷史。過去幾年,TTS 模型和 STT 模型在技術層面同步發展,實現從 HMM-GMM 為基礎的概率統計模型走向 Transformer 基礎的端到端大模型的技術轉變,形成Tacotron2、Fastspeech 等代表模型。技術進展下,TTS 模型語音合成效果有明顯提升,可以模擬真人的語氣、情感和停頓,音色更加貼近真人,可以實現高質量流暢合成。由于模型訓練階段使用的音源在音色、情感、
44、語種等方面存在差異,底層模型設計也不盡相同,當前主流 TTS 模型合成效果存在明顯差異,對于用戶的使用體驗影響較大。STT+TTS+GPT 模式成為實現大模型語音對話的主流,技術門檻相對較低模式成為實現大模型語音對話的主流,技術門檻相對較低。通過構建 STT+TTS+GPT的模式,可以便捷實現基于大語言模型的語言對話,為大模型增加音頻模態。在該模式下,STT、TTS、LLM 模型均為獨立模塊,可以實現低成本替換,因此在應用開發層面可進行靈活組合。當前市面主流對話助手的語音功能均以此方式實現,以 ChatGPT 語音功能為例,采用 Whisper+GPT-4+OpenAI 自研TTS 模型的組合
45、,實現優秀語音對話效果??紤]到 STT 和 TTS 模型均有成熟開源解決方案,大模型實現語音模態兼容技術門檻相對較低。3、視覺能力:形成兩大主流路線,圖文融合帶動應用場景全面擴展視覺能力:形成兩大主流路線,圖文融合帶動應用場景全面擴展 17/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 傳統計算機視覺(傳統計算機視覺(CV)技術儲備有助于構建視覺認知模型)技術儲備有助于構建視覺認知模型。計算機視覺(CV)長期以來是人工智能的核心領域之一,過去十年圍繞卷積神經網絡實現快速發展。近年來部分 CV 模型采用 Transformer 架構,對于大模型時代的視覺系統構建
46、實現技術積累。傳統 CV 模型受限規模等原因,主要解決單一場景問題,具備獨立的視覺信息處理能力。與傳統 CV 模型不同,大模型時代的視覺系統主要圍繞提升模型整體的通用能力,以理解和認知視覺信息為核心,和文本等模態有機結合滿足多模態任務的需求,但底層技術存在共通之處,傳統 CV 領域的 Transformer 技術經驗積累對于構建大模型視覺系統具有重要價值。目前在底層架構設計上主要形成兩大技術路線目前在底層架構設計上主要形成兩大技術路線:模塊化設計模塊化設計:模塊化多模態設計單獨處理視覺信息輸入??紤]到視覺信息和文本信息差距較大,當前大模型千億規模統一處理所有模態信息具有較大難度。因此,設計上可
47、以分別針對文本和模型等模態分別進行模型訓練,并通過系統優化實現各模型的結合。以 GPT-4V(ision)版本為例,其視覺方案以大語言模型 GPT-4 為核心,圖像認知能力上或采用與 OpenAI2021 年發布的 CLIP 模型類似的方案,未來有望基于 DALL E3 模型融合圖像輸出能力,形成完整的視覺多模態系統。模塊化設計提升系統靈活性,帶來更高模型性價比模塊化設計提升系統靈活性,帶來更高模型性價比。視覺認知、視覺生成和大語言模型在模型設計、訓練數據集、目標函數設計等方面差異較大,訓練和推理相對獨立,模塊化設計和分別訓練的模塊在性能、性價比、靈活性上存在優勢。性能上,各個模塊可以針對特定
48、任務單獨優化,更容易在各子任務上實現 18/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 高性能;性價比上,把各模態的需求分割成多模塊,并進行分開訓練的模式,降低了單次訓練的模型規模,顯著降低算力需求;靈活性上,各模塊可進行單獨替換,也可以基于任務需求進行模塊增減,同時大模型系統可以快速接入第三方服務,多維度實現更加靈活的解決方案。一體化(原生多模態)設計一體化(原生多模態)設計:原生多模態設計統一文本和視覺信息輸入。前端利用不同的處理模塊將文本、圖像等信息分別 Token 化,并直接輸入統一的大模型。12 月 6 日,谷歌谷歌發布 Gemini 模型,作為第
49、一款“原生多模態”大模型,文本和視覺等模態在統一架構下預訓練。統一的訓練有望使得各模態之間的結合更加順暢。根據官方技術文檔,模型可以實現圖文結合的理解和推理,目前在數學和物理等領域有所進展,體現了模型的復雜問題拆解能力,對于擴展應用領域以及提升輸出準確性有較大價值。原生多模態設計實現更強圖文結合效果,但模型成本較高原生多模態設計實現更強圖文結合效果,但模型成本較高??梢葬槍D像和文本結合的綜合任務進行端到端的統一訓練和優化,把圖文結合當成一項任務直接進行學習,而不是通過系統層面基于人為規則制定的融合和調優。因此,采用原生多模態設計的大模型可以實現多模態信息的無縫共享、互通和融合,例如谷歌谷歌
50、Gemini 模型演示中就展示了基于模型對于視覺、文本、代碼的融合生成能力。但同時為了容納多模態的處理能力,模型單次參與推理的參數較多,訓練數據的多樣性和規模也相應提升,將顯著提升模型訓練和推理成本。圖像生成模型主要采用擴散模型架構,各產品存在顯著差異圖像生成模型主要采用擴散模型架構,各產品存在顯著差異。潛在擴散模型(Latent Diffusion model)是 Transformer 大模型在圖像領域的特化應用,通過圖片噪點生成的方式學習大量圖片,并通過逆向去噪方式實現圖片生成,成為圖片生成領域的主流技術路徑。與文本生成注重正確性相比,圖片生成需求更加多元,各產品在藝術風格、易用度等方面
51、的差異化競爭更加明顯。目前主流產品可以實現對用戶需求的準確理解,并生成高質量的、具備一定藝術風格的圖像。代表產品有主打低門檻高質量生成的Midjourney,打造開源生態實現工業級定制的 Stable Diffusion,結合 ChatGPT 實現便捷化使用的DALL E3 等。19/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 視頻生成是圖像生成在時間軸上的延續,視頻與圖像生成底層不存在技術壁壘視頻生成是圖像生成在時間軸上的延續,視頻與圖像生成底層不存在技術壁壘。與圖像生成類似,當前視頻生成同樣通過擴散模型實現,根據 RunwayGen1 模型論文(Patr
52、ick Esser,Johnathan Chiu,Parmida Atighehchian 等),在文生視頻流程中,模型首先通過 DALL E、Stable Diffusion 的文生圖模型實現高質量圖片生成,引入帶有時間軸的預訓練圖像模型,并在圖像和視頻上做聯合訓練,從而將擴散模型從圖像擴展到視頻生成領域。因此視頻和圖像生成底層不存在技術壁壘,核心能力在于如何更好的處理視頻的流暢性和藝術表達,提升視頻生成的長度限制。目前視頻模型產品主要功能包括文生視頻、文圖結合生成視頻、視頻智能編輯等功能。根據論文統計,視頻生成領域熱度明顯高于視頻編輯和理解。目前視頻生成代表產品包括 Pika、NeverE
53、nds、Runway 等,參考微信公眾號 AIPioneer 的測試,相關產品在動畫生成上效果出色。4、代碼生成:代碼大模型快速發展,國產廠商位于第一梯隊代碼生成:代碼大模型快速發展,國產廠商位于第一梯隊 通過大語言模型微調構建代碼大模型,正確率和多模態融合能力快速提高通過大語言模型微調構建代碼大模型,正確率和多模態融合能力快速提高。代碼大模型主要將自然語言轉化成可執行代碼,作用于開發領域提升程序員工作效率。由于代碼標準化程度高、容錯低,和自然語言差異較大,普遍采取基于語言模型使用代碼數據進行微調的方式,構建專用的代碼大模型。這樣既可以保留模型對用戶輸入的高理解能力,又可以將輸出嚴格限制為代碼
54、格式。過去幾年,代碼大模型正確率不斷升級,最新基于 GPT-4 構建的代碼大模型在 HumanEval 測試級上單次正確率可以達到 82%。此外,代碼與其他模態的互動與融合也是主要進展方向之一,谷歌谷歌最新 Gemini 模型演示了基于文字和圖像生成代碼的能力,展現相關技術的巨大潛力。國際巨頭加速布局,國廠商位列第一梯隊國際巨頭加速布局,國廠商位列第一梯隊。過去一年全球主要廠商大力投入代碼大模型研發,模型能力屢創新高。3 月,OpenAI 基于 GPT-4 推出代碼模型,官方技術公告顯示模型在 HumanEval 測試集上的正確率為 67%。9 月,Meta 發布基于 Llama2 的開源代碼
55、大模型 Code Llama,在 Hugging Face 平臺測評中一度超越 GPT-4 等主流代碼模型,占據榜首位置。12 月,Google 基于 Gemini 模型推出AlphaCode2,性能超過 85%的人類程序員,將加持 Gemini 模型定制版。國產廠商中,根據論文 A Surveyon Language Models for Code(ZibinZheng,KaiwenNing,YanlinWang 等),螞蟻集團螞蟻集團的開源代碼大模型 CodeFuse 和華為華為代碼大模型 PanGu-Coder2 性能優異,位列行業第一梯隊。20/32 2024 年年 3 月月 1 日日
56、 行業行業|深度深度|研究報告研究報告 五五、產業框架、產業框架 1、多模態大模型框架概覽多模態大模型框架概覽 數據數據:文本、視覺、聲音、觸覺、氣味等。算法算法:通過多模態統一建模,增強模型的跨模態語義對齊能力,打通各模態之間的關系,執行標準化的任務。應用應用:辦公、電商、娛樂、教育等領域。2、數據:高質量多模態數據有限,合成數據發展或能改善數據:高質量多模態數據有限,合成數據發展或能改善 數據存量有限數據存量有限:根據 Epochai,在當前大模型高速發展趨勢下,高質量語言數據可能在 2026 年之前耗盡,而低質量語言/視覺數據存量也可能將在 20302050/20302060 年耗盡。高
57、質量多模態數據集有限:由于不同類型的標注成本差異大,視覺等模態數據的收集成本比文本數據高,導致多模態數據集,尤其是高質量數據集通常比文本數據集少得多。AI 合成數據或有望改善數據枯竭問題合成數據或有望改善數據枯竭問題。與實際數據具有相同的預測特性;合成數據獲取速度更快,為垂直模型的訓練更快定制數據集;適應多模態模型的數據模態組合,能夠擴大所有數據模態存量的組合,有效增加數據存量。3、算法:技術要求更高,算法:技術要求更高,LLM 發展提供突破口發展提供突破口 相比單模態,多模態大模型算法和工程難度更大相比單模態,多模態大模型算法和工程難度更大,在表征、對齊、推理、生成、遷移、量化等環節均面臨更
58、多難點。預訓練為多模態主流訓練方式預訓練為多模態主流訓練方式。由于高質量的多模態標注數據較少,基于 Transformer 結構的多模態預訓練模型逐漸成為主流,通過海量無標注數據進行預訓練,再使用少量有標注數據進行微調。原生多模態大模型是未來發展趨勢,即設計時原生支持多模態,具有處理不同形式數據的能力,但各環節難度會更高。23 年 12 月谷歌 GEMINI 即為原生多模態,一開始就在不同模態上進行預訓練,利用額外的多模態數據進行微調以提升有效性,行業技術取得進一步突破。21/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 這一波大語言模型發展給多模態帶來新突破
59、這一波大語言模型發展給多模態帶來新突破:大語言模型 LLM 可充當大腦,處理各種模態信息,將其它模態信息對齊到 LLM 的語義空間。大語言模型在訓練方式上給多模態模型提供前進方向參考,如自監督、預訓練、上下文學習、指令遵循等。4、算力:需求更大,催化產業新機遇算力:需求更大,催化產業新機遇 多模態大模型對算力的需求高于單模態多模態大模型對算力的需求高于單模態。一般在同樣信息量情況下,文字數據量圖片數據量視頻數據量,多模態大模型需處理的數據量更大,再加上訓練工程上難點更多,對應算力需求更高。參考前深度學習時代向深度學習時代過渡,以及從“大煉模型”進入“煉大模型”切換之后,算力需求均有明顯提升。根
60、據機器之心,谷歌 Gemini 有萬億參數,訓練動用的算力是 GPT-4 的五倍。未來隨著算力需求的進一步提升,芯片制造、提供云服務以及模型微調的企業有望迎來更多發展機會。六六、市場應用、市場應用 1、AI+辦公:以微軟領銜的科技巨頭紛紛布局辦公:以微軟領銜的科技巨頭紛紛布局 自 ChatGPT 掀起大模型浪潮以來,微軟微軟、谷歌谷歌、亞馬遜亞馬遜、Meta 等海外科技巨頭在 AI 領域紛紛發力,大部分巨頭從硬件基礎設施到應用端進行了全產業鏈布局,并在不同的環節各有側重。其中微軟發布的Microsoft 365 Copilot 以及 Azure AI 云服務產品更是進行了多輪迭代,在 AI+辦
61、公垂直領域表現驚艷。當下 AI+辦公軟件主要有兩類,一類是如 Microsoft 365 Copilot 的工具套件,另一類是細分不同用途的單工具應用。22/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 工具套件工具套件:微軟微軟推出 Microsoft 365 Copilot 與 Azure AI,集成了 GPT-4,將大模型(LLM)與Microsoft Graph 的業務數據、Micros Office 365 中各類應用相互結合,并提供 AI 模型、工具和平臺,助力企業自主訓練大模型,是目前 AI+辦公領域的標桿軟件。谷歌谷歌推出 Google Wok
62、space,功能與Microsoft 365 Copilot 類似,集成了多款谷歌自身的 AI 工具。亞馬遜亞馬遜推出 Amazon Q,為企業提供個性化 AI 助手服務。國內金山辦公金山辦公亦推出 WPS AI 與其 WPS Office 服務集成,提高工作效率。單工具應用單工具應用:文本寫作類助手以 Jasper AI 為代表,可協助生成新聞文稿、營銷文案等。圖像制作類以Adobe 為代表,推出 Firefly 軟件,簡化 PS 軟件工作流程?;脽羝谱鞴ぞ?Canva 亦推出 Canva AI,協助制作海報、名片等設計作品。AI 辦公軟件的功能同質化程度高,未來如微軟、谷歌等巨頭的辦公工
63、具套件優勢將逐漸加強辦公軟件的功能同質化程度高,未來如微軟、谷歌等巨頭的辦公工具套件優勢將逐漸加強。在文本寫作和圖像編輯等 AI 工具上,GPT-4 更新后,ChatGPT 支持多模態交互,集文本寫作、圖像生成、PDF 閱讀等多重功能于一身,微軟微軟的 Microsoft 365 Copilot 亦集成了多種軟件工具,因此諸如 Jasper AI 此類單一功能的應用工具將受到一定沖擊,辦公軟件領域頭部效應將加強,如 365 Copilot、Google Wokspace、WPS AI 這類型的工具套件將占據大部分市場。2、AI+創意工具:技術迭代加速,爆款應用頻現創意工具:技術迭代加速,爆款應
64、用頻現 創意工具包括了圖片、視頻、音頻、3D 模型等 AIGC 應用,在多種模態的生成中,現階段最具前景的是圖片和 3D 模型的生成,目前市場上已有許多爆款應用浮現。AI+視頻視頻:美國 Pika Labs 推出 AI 視頻生成平臺 Pika,用戶輸入文本即可生成和編輯各種風格的視頻,一經推出即破圈,獲得超 50 萬人使用。阿里巴巴阿里巴巴亦推出 Animate Anyone,可以從靜態圖像生成動態視頻,可將任意圖像角色動畫化。字節跳動字節跳動推出 Magic Animate,可用于創建動畫效果,它可以幫助用戶輕松地制作各種類型的動畫,包括 2D 和 3D 動畫。Meta 發布的 Emu Vi
65、deo,能夠基于文本和圖像輸入生成視頻剪輯,Runway 的 Gen2 具有 Motion Brush 動態筆刷功能,只需要在圖像中的任意位置一刷,就能使圖像中靜止的物體動起來。同時,Stablility AI 推出 Stable Video Diffusion,可以根據圖像自動生成高品質的視頻剪輯。23/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 AI+圖片圖片:隨著多模態技術融入大模型,ChatGPT、Bing 等聊天機器人軟件可線上實時生成圖片,掀起新一股 AI 生圖風潮。除了比較早期的 AI 生成圖片以外,近期在軟件上迎來了一波 AI 括圖的新風尚。
66、最早一批的圖片生成應用之一 Midjourney 更新了“平移擴圖”功能,可將圖片自由前后平移。國內軟件美圖秀秀美圖秀秀在 7 月 11 日正式上線“AI 括圖”功能;抖音抖音旗下的產品剪映 APP 憑借短視頻的傳播也擁有許多用戶,其采用多元化的視頻模板將成品圖片輸出。AI+音頻音頻:音頻合成在技術和商業化已經比較成熟,近年來大模型和優化算法的成熟能夠基于大量音樂數據集訓練和優化算法來創建 AI 虛擬歌手,更加趨近于真人發聲效果(如:AI 孫燕姿),這一領域的相關應用包括 WaveNet、Deep Voice、Music AutoBot 等。3D 模型模型:3D 模型生成還處于早期,能夠基于
67、2D 圖像中生成 3D 圖像或場景,目前已經成為 3D 模型構建的主流算法,并廣泛應用于游戲、數字人、虛擬現實、增強現實、電子商務等領域,未來具備廣闊應用空間,代表應用包括 Magic3D、Dream Fusion。24/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 創意工具作為 AIGC 的關鍵應用領域,高度依賴于算法、大模型等底層技術的進步,是當下 C 端 AI 應用最有可能的落地方向。目前由于 AIGC 產業格局尚未完全確定,多模態技術仍處于早期,模型和算法的能力決定了應用的競爭力,對于擁有強技術壁壘的科技巨頭而言,這一領域存在領先優勢。3、AI+各垂類
68、行業:在細分領域大放異彩各垂類行業:在細分領域大放異彩 除了辦公軟件與創意工具外,在不同的垂類行業,AI 亦有不同程度的應用。一些主要的行業與相關標桿AI 應用如下:AI+企業服務企業服務:目前生成式 AI 已經與企業服務領域的主要產品 CRM、ERP、財務、HR、OA 實現了不同程度的結合,短期來看 CRM 等營銷側的產品成熟度最高,且已經初步實現商業化。龍頭參與廠商是Salesforce。AI+IT 運維運維:生成式 AI+IT 運維主要結合點在于智能運維(AIops),提升 IT 運維的自動化和智能化水平。目前這一領域的龍頭廠商是 Servicenow。AI+教育教育:目前 AI 的應用
69、根據功能的不同分為語言學習、在線課程、學習工具三個層面,而目前應用最多的是語言學習和學習工具。同時,教育領域的商業化模式較為成熟,AIGC 的技術注入將為其帶來明顯提升。目前國外有多鄰國多鄰國,國內有學而思學而思等廠商參與。AI+金融金融:生成式 AI 技術在金融領域的主要應用為數據分析工具,通過對金融大數據的挖掘來實現知識洞察,典型應用包括證券領域的智能投顧,銀行領域的智能風控等。目前彭博社推出 500 億參數大語言模型 BloombergGPT。AI+醫療醫療:AI+醫療通常應用于醫藥研發、醫院診療、醫療器械等場景。AI+醫療參與者眾多,除了亞馬亞馬遜遜等科技巨頭的加入,還包括 Sense
70、ly 等醫療科技公司。AI+智能制造智能制造:AI 在智能制造領域主要應用于以下方面:預測維護、質量控制、機器人控制、供應鏈管理、設備故障診斷、資源計劃調度、產品設計和數字孿生等。然而由于智能制造數據規模通常較小,質量不佳,無法發揮 AI 最大的優勢。同時由于 AI 本身存在的黑盒問題,在一些制造領域缺乏解釋能力,且大模型訓練規模大,成本高,對中小企業而言亦是挑戰。因此 AI+智能制造目前仍處于商業化的早期階段。當下國外廠商 SIEMENS 已在其生產流程中應用相關 AI 技術。七、市場機遇七、市場機遇 1、模型數據量顯著增加,訓練算力需求激增模型數據量顯著增加,訓練算力需求激增 445 倍倍
71、 多模態大模型訓練階段在數據源、模型結構、計算操作方面更加復雜多模態大模型訓練階段在數據源、模型結構、計算操作方面更加復雜。多模態大模型需要處理多種來源的數據,如文本、圖像和聲音,其輸入數據的復雜性增加。此外,多模態模型的結構自然更復雜,因為它經常包含為不同數據源優化的多個子模塊,如處理文本的 RNN 部分和處理圖像的 CNN 部分。為了在模型中有效地結合多種模態的信息,交互和融合層的引入可能涉及復雜的計算操作,如注意力機制,會進一步增加計算負擔。多模態模型往往需要更大量的訓練數據,進一步增加算力消耗。隨著模型復雜度的提升,算力需求在不斷攀升隨著模型復雜度的提升,算力需求在不斷攀升。研究顯示,
72、2010 年之前,訓練算力的增長率符合摩爾定律,大約每 20 個月翻一番。隨著深度學習和大模型的訓練需求增加,訓練算力的增長率大幅度提升,25/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 對訓練算力的要求提高了 10 到 100 倍。OpenAI 認為自 2012 年以來,大規模 AI 訓練所需的算力呈指數級增長,每 3.4 個月翻一番。2012-2018 期間已增長超過 300,000 倍。當前多模態大模型仍在不斷迭代,訓練階段的算力將保持增長。GPT-4 對于算力的需求在同等訓練時長下相比對于算力的需求在同等訓練時長下相比 GPT-3 增長增長 445
73、倍倍。根據推測,GPT-4 在 120 層中總共包含了 1.8 萬億參數,包含約 13 萬億個 token。而 GPT-3 只有約 1750 億個參數,包含約 300 億個token。根據相關公式可推測 GPT-3 對應計算量 3.15E+23FLOPs,GPT-4 對應計算量 1.40E+26FLOPs。假設 GPU 利用率為 35%,共訓練 90 天,考慮到 A100 的峰值性能為 3.12E+14FLOPs/s,則與訓練GPT-3 需要 371 片 A100,GPT-4 需要 165344 片 A100,增長了大約 445 倍。顯然,這個 GPU 的增長數量在當下算力緊缺的環境下難以滿足
74、,只能延長訓練時間。26/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 2、多場景應用持續落地,多場景應用持續落地,算力或迎來高速擴張,服務器、芯片等廠商有算力或迎來高速擴張,服務器、芯片等廠商有望受益望受益 推理成本受到計算集群的規模、能力、使用效率、批次大小以及集群的管理策略等因素的影響推理成本受到計算集群的規模、能力、使用效率、批次大小以及集群的管理策略等因素的影響。集群的規模和計算能力決定了其處理任務的速度和效率,高性能的計算節點可以更快地完成任務,從而降低單位任務的推理成本。同時,集群的使用效率高意味著計算資源得到了充分利用,從而最大化了每單位時間的
75、計算輸出,減少了推理成本。此外,大批次處理可以更好地利用并行處理能力,進一步提高效率。下游商業模式逐步清晰,大模型終端使用量有望增加下游商業模式逐步清晰,大模型終端使用量有望增加。9 月 21 日,微軟微軟宣布 Microsoft 365 Copilot 將于 11 月 1 日面向企業客戶全面推出,定價為每用戶每月 30 美元。在 Word 中,Copilot 可以為用戶撰寫草稿、添加內容到現有文檔、重寫文本或生成摘要。在 Excel 中,用戶不僅可以通過 Copilot 快速生成公式,還可以使用提示來高亮關鍵數據。在 Outlook 和 Teams 中,Copilot 可以為用戶提供郵件和會
76、議的快速總結,推薦回復方式,并自動跟蹤無法參加的團隊會議。視頻創作平臺視頻創作平臺 WondershareFilmora 全球上線,接入全球上線,接入 OpenAI 相關服務,多模態應用前景廣泛相關服務,多模態應用前景廣泛。該平臺不僅推出了用于生成視頻腳本、文案及社交媒體描述的 AI 文案功能,而且還推出了 AI 繪圖功能,允許用戶簡單快捷地產生所需的圖片素材,創造出與眾不同的藝術作品。此外,RunwayGen-1 和 Gen-2 也已開放使用,Gen-2 不僅可以像 Gen-1 一樣在原視頻的基礎上編輯出符合用戶要求的視頻,還可以從頭生成視頻。從應用趨勢來看,隨著多模態大模型在語音、圖像和視
77、頻等多種輸入輸出方式中的應用,內容創作領域從應用趨勢來看,隨著多模態大模型在語音、圖像和視頻等多種輸入輸出方式中的應用,內容創作領域可能會經歷前所未有的變革可能會經歷前所未有的變革。目前應用較為廣泛的文字交互或僅為 Chatgpt 以及 AIGC 應用場景的冰山一角,語音、圖片、視頻等多形式的輸入輸出,將很可能為內容創作領域帶來革命性變化。而更廣的數據形態、更多的應用場景、更深的用戶體驗,亦將大幅提升支撐人工智能的算力需求,算力或迎來高速擴張時代,服務器、芯片、IDC、光通信等廠商有望核心受益。八、相關公司八、相關公司 1、萬興科技:已實現萬興科技:已實現 AIGC 賦能智能創作賦能智能創作
78、天幕大模型支撐萬興天幕大模型支撐萬興 AIGC 創作能力創作能力。萬興“天幕”是國內首個專注于以視頻創意應用為核心的百億級參數多媒體大模型,由視頻、音頻、圖片、文本大模型組成,支持視覺、音頻、語言多模態 AI 生成及優 27/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 化,具備一鍵成片、AI 美術設計、文生音樂、音頻增強、音效分析、多語言對話等核心能力。萬興于12 月 1 日展示天幕大模型文生視頻能力,生成視頻“人生四季”,視頻已具備較高的清晰度和流暢度。Wondershare Filmora:已實現:已實現 AI 文生視頻文生視頻。萬興海外產品 Wonde
79、rshare Filmora 已實現 AI 文生視頻,同時具備 AI 輔助創作、基于文本編輯視頻等功能。Filmora AI 文生視頻:基于用戶輸入的 prompt 生成視頻;Filmora AI Copilot Editing:AI 輔助創作及編輯,使用 AI 分析用戶視頻并根據用戶需求提供智能建議;基于人工智能的文本編輯:將用戶的視頻轉換為文本,并使用 AI 基于文本的編輯功能像編輯文檔一樣編輯視頻;Filmora AI Thumbnail Creator:通過 AI 幫助用戶創建視頻縮略圖。萬興喵影:多種萬興喵影:多種 AI 功能賦能視頻創作功能賦能視頻創作。萬興喵影是萬興科技旗下的一款
80、視頻剪輯軟件,內含多款 AI 功能,包括 AI 穩定影片、AI 智能補幀、AI 智能遮罩、AI 文字快剪、智能人聲分離等。通過萬興喵影,萬興已實現 AIGC 賦能視頻創作。萬興播爆:腳本萬興播爆:腳本數字人數字人場景,實現智能化視頻營銷場景,實現智能化視頻營銷。萬興播爆為萬興科技的智能化營銷視頻生成工具,現已實現 AI 文生視頻、AI 字幕及配音、3D 數字人等功能,內含 180+專業級模版、120+標準語言聲音、免版權音樂資源庫、海量視頻創作素材,可制作 200+免版權多國籍數字人,輸入關鍵詞即可快速生成 AI 腳本。28/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報
81、告研究報告 2、大華股份:多模態大華股份:多模態+視頻分析,有望在能源等行業率先落地應用視頻分析,有望在能源等行業率先落地應用 多模態持續發展,公司大有可為多模態持續發展,公司大有可為。近年來隨著 vit、swin transformer、mae 等論文推出,transformer在 CV 和多模態等應用增加?;?ViT 和 Swin Transformer 等方法,大模型在 ImageNet 數據集的分類準確率突破了 90%,超過傳統 CNN,展現出較強的應用潛力。上述技術路線已經開源,考慮到公司對AI 前瞻性技術投入、擁有大量高價值視頻數據、具備豐富的落地場景,大模型技術路線的應用,有望
82、助力公司高效滿足海量的客戶需求,并進一步壓縮定制化開發成本。加大研發投入,大華視覺大模型有望在城市治理、電力等行業完成方案驗證加大研發投入,大華視覺大模型有望在城市治理、電力等行業完成方案驗證。根據公司 2023 年半年報后發布會,盡管外部環境壓力,公司依然堅定的加大對 AI、大模型等方面的戰略投入,后續還將適配研發進度,投入更大規模的資源。針對大模型、多模態等一系列技術,公司首要關心的還是行業價值的創造,以及商業上的長期主義。公司基于自身的行業積累和全面的工程化能力,再結合大模型天然的強泛化、理解等特性,打造垂直行業視覺大模型。此外,公司計劃在今年四季度正式推出大華行業視覺大模型,并分別在城
83、市治理、電力等領域完成大模型方案驗證;2024 年,進行方案部署及行業試點,持續做深做寬。與中移動合作持續深化與中移動合作持續深化,期待視覺大模型落地期待視覺大模型落地。8 月 25 日公司公告董事會同意提名袁利華,張曉明為公司非獨立董事,監事會同意提名賈琦為公司非職工監事。以上三人均為移動系高管。預計大華股份憑借在 AI 領域深厚積累,將有效賦能中國移動視聯網及數字化業務建設,同時公司可借用中移動強大的渠道和客戶資源,額外收獲大量 B 端數智化轉型訂單,助力 AI 解決方案應用落地。3、科大訊飛:、科大訊飛:星火大模型將對標星火大模型將對標 GPT4-Turbo 公司實現業績增長并實施穩定利
84、潤分配公司實現業績增長并實施穩定利潤分配。自 2008 年上市至 2023 年底,公司營收增長超 76 倍,市值較發行市值增長超 78 倍,近三年以現金累計分配利潤占近三年年均可分配利潤比例達 118%。未來,公司將重視企業發展業績增長、定期制定未來三年股東回報規劃、強化信息披露與公司治理等,實現長期、穩定、可持續的投資者回報。1 月 29 日,公司發布業績預告,預計 2023 年營收超 200 億元,同比+約 7%;歸母凈利潤 6.45-7.30 億元,同比+15-30%。2023Q4,預計營收超 75 億元,同比+超 20%;毛利超 32 億元,同比+超 25%;單季經營性現金流超 14
85、億元,驗證公司提升經營質量的顯著成效。星火大模型將達到星火大模型將達到 GPT4-Turbo 最好水平,潛在估值空間廣闊最好水平,潛在估值空間廣闊。2024 年 1 月 30 日,公司正式發布的“星火大模型 V3.5”在語言理解、數學能力超過 GPT-4Turbo,代碼達到 GPT-4Turbo96%,多模態理解達到 GPT-4V91%;同時星火語音大模型首次發布,首批 37 個主流語種的語音識別效果超過 OpenAI Whisper V3?!帮w星一號”為支撐萬億參數大模型訓練的國產算力平臺,公司宣布實現訓練效率達 A100的 90%。面向 2024 年,劉慶峰提出訊飛大模型戰略年度四大目標:
86、星火通用大模型國內領先對標 GPT-4;賦能智能硬件終端 1000 萬、獨立軟件用戶數過億;教育/醫療/金融/汽車/央國企/城市行業市場第一;匯聚100 萬大模型開發者打造行業第一生態。2023 年,星火大模型已逼近 GPT-4Turbo 當前水平,預計2024 年上半年達 GPT4-Turbo 當前最好水平。29/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 根據智東西,截至 2023 年底,全球有約 28 家生成式 AI 和大模型相關獨角獸,OpenAI、Anthropic 估值 1000 和 184 億美元、排名前二,中國智譜 AI 估值 15 億美元。
87、訊飛星火大模型基于全國產算力平臺,具技術研發、用戶基礎和開發者生態等優勢,估值潛在空間廣闊。根據地業務經營穩健,訊飛星火賦能強化競爭壁壘根據地業務經營穩健,訊飛星火賦能強化競爭壁壘。2023 年,公司預計開放平臺及消費者業務占總營收約 30%以上,同比顯著增長;智慧金融、智慧醫療業務收入穩健增長,收入占比提升;運營商業務收入占比相對穩定。教育業務占比仍超過 30%,智慧城市業務占比約 20%。其中,預計教育業務 G 端占比 31%,B 端 28%,C 端 41%,C 端占比持續提升,且高端學習機市占率、線上銷售額均保持市場第一。星火大模型賦能根據地業務星火大模型賦能根據地業務:B 端:規模企業
88、私有化解決方案:2023 年 10 月 24 日,公司聯合行業龍頭發布金融/汽車/運營商/工業等十二個行業大模型,星火認知大模型在中國人保/中國太保/中國太平洋保等頭部央國企開始逐步落地;中小開發者 API 經濟:2023 年,訊飛人工智能開放平臺開發者 578.5萬,新增開發者 197.5 萬,超 35 萬大模型開發者,生態規模國內領先。C 端:AI 應用:訊飛星火 APP、星火語伴 APP、訊飛曉醫 APP 大模型 AI 應用。訊飛聽見 6500 萬用戶,訊飛星火純用戶 2400 萬,訊飛輸入法 1.4 億活躍用戶。AI 硬件:推動智能硬件銷售。訊飛學習機、智能辦公本、翻譯機、智能助聽器等
89、產品銷量增長明顯,在 2023 年雙 11 全周期內銷售額同比增長 126%。4、金山辦公:直接對標微軟金山辦公:直接對標微軟 copilot,高價值,高價值 AI 應用入口應用入口 全面擁抱全面擁抱 AI 變革,變革,WPS AI 成為國內率先落地的成為國內率先落地的 AI 辦公應用辦公應用。在 9 月 20 日的 2023 金山辦公技術開放日,公司官方宣布,基于大語言模型的智能辦公助手 WPS AI 已接入金山辦公全線產品。公司定位為大語言模型應用方,錨定 AIGC(內容創作)、Copilot(智慧助手)、Insight(知識洞察)三個戰略方向,WPS AI 已接入 WPS 文字、演示、表
90、格、PDF、金山文檔等產品線。WPS AI 有望助力個人訂閱付費率與有望助力個人訂閱付費率與 ARPU 值再上臺階值再上臺階。根據公司半年報,國內個人訂閱業務上半年收入 12.52 億元,同比增長 33.2%。截至 23Q2 月活設備數 5.84 億,同比增長 2.5%。報告期末累計年度付費個人用戶數 3324 萬人,同比增長 16.4%,付費率進一步提升至 5.69%。公司通過 AI 升級能力,產品體驗及質感得到躍升。在堅持長周期會員策略的同時,將原有會員體系升級,拉動更多用戶成為會員,提升會員客單價。測算金山辦公測算金山辦公 C 端付費空間,遠期有望端付費空間,遠期有望 300 億以上億以
91、上。借助 WPS AI 對辦公軟件的賦能,C 端付費率遠期有望提升至 15%、ARPU 值有望提升至 300 元/年。據此測算,金山辦公 C 端訂閱收入空間可達 300億元/年。30/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 類比微軟類比微軟 copilot 提價邏輯,金山辦公提價邏輯,金山辦公 B 端價值同樣大幅提升端價值同樣大幅提升。根據公司半年報,國內機構訂閱業務上半年收入 4.18 億元,同比增長 40.4%。上半年數字辦公產品新增政企客戶(不含 SaaS)1700 余家。公司已新打造出一系列燈塔項目并廣泛復制。此外公司持續引導客戶使用云和協作應用
92、,報告期內,公有云領域 SaaS 付費企業數同比增長 54%,付費企業續約率超 70%,金額續費率超 100%,帶動公有云領域相關收入同比增長 100%。在 B 端客戶方面,微軟通過與 Visa、通用汽車通用汽車等企業用戶一起探索后,宣布于 11 月 1 日開始上線企業版,價格是每月 30 美元,證明 AI 在企業端的高價值。WPS AI 融入后,有望大幅提升金山辦公在機構訂閱業務的市場空間。5、福昕軟件:面向海外福昕軟件:面向海外 B 端客戶,率先落地端客戶,率先落地 AIGC 能力能力 AIGC 提升產品價值,迭代節奏領先行業提升產品價值,迭代節奏領先行業。4 月,福昕軟件海外云產品 PD
93、F Editor Cloud 率先集成AIGC 技術;5 月發布全新產品線 PDF Editor Suite 和 PDF Editor Suite Pro 并實現提價;8 月在ChatGPT Plugin Store 發布了新插件 Foxit PDF Assistant;9 月,接入百度文心千帆大模型,重磅發布福昕 PDF 中文 AI 助手。公司的 PDF Editor Cloud 現可實現文檔總結、內容改寫、實時問答、文本翻譯、文檔智能解析及增強問答、文本解釋、語法&拼寫糾錯八大功能。更多 AIGC 相關功能將陸續豐富,并同步至 PC 端 PDF Editor 編輯器。公司主要針對高付費能力
94、的海外 B 端客戶,逐步實現 AIGC 在辦公場景落地并提升用戶粘性。年內已實現一輪調價,預計年內已實現一輪調價,預計 AIGC 打開進一步提價空間打開進一步提價空間。根據公司官網,此前 PDFEDITOR 的$79/99/149 美元的三檔年訂閱價格,現已調整為 PDF Editor Suite 的$129/159 美元的兩檔訂閱價格。此輪核心產品體系調整,主要變化在于將 eSign、PDF Editor Cloud 等依托于云端提供的業務作為標配,打包進 PDF Editor Suite 中,實現價格的整體提升。訂閱起步價從此前的 79 美元提升至目前的 129 美元,增幅達 63%。未來
95、隨著 AIGC 能力的不斷完善,訂閱價格或還有進一步向上調整的空間。在在 AIGC 之外,公司訂閱之外,公司訂閱+渠道渠道“雙轉型雙轉型”戰略同樣推進順利,實現自身戰略同樣推進順利,實現自身 成長成長:31/32 2024 年年 3 月月 1 日日 行業行業|深度深度|研究報告研究報告 訂閱轉型成效卓著,核心指標超預期訂閱轉型成效卓著,核心指標超預期。2022-2024 為公司訂閱轉型期,訂閱類相關指標為核心變量。根據公司財報,23Q1/Q2 訂閱收入占比分別為 30%/35%,提升顯著;23Q2 訂閱 ARR 為 1.86 億元,同比+85.6%、訂閱類合同負債為 1.09 億元,同比+89
96、.2%,增速均較 Q1 加速。Editor 產品訂閱續費率環比一季度提升 2pct,達到 93%。分區域看,發達國家市場訂閱增長迅猛,北美/歐洲區域訂閱收入分別同比增長 78.7%/115.7%。以上數據證明公司商業模式正發生根本性升級,且轉型速度超預期。渠道收入同樣加速增長,國內垂直市場順利推進渠道收入同樣加速增長,國內垂直市場順利推進。23Q1/Q2 來自渠道收入分別同比增長 15%/25%,渠道收入占比分別為 30%/34%,渠道收入增幅與占比均較 Q1 明顯提升。公司有望利用渠道觸達大量海外B 端客戶,有效擴大市占率。面向垂直市場,知名老牌船舶企業天海防務天海防務率先使用福昕船舶圖紙管
97、理系統;家裝、證券、醫療、法律、供應鏈、銀行、出版、教育等行業應用同步拓展,高效挖掘國內市場。九九、產業產業前景前景 1、多模態模型快速發展推動應用層加速繁榮多模態模型快速發展推動應用層加速繁榮 大模型多模態發展趨勢顯著,打開廣闊應用場景大模型多模態發展趨勢顯著,打開廣闊應用場景。2023 年 3 月,OpenAI 推出 GPT-4 大模型,支持圖形、文本等不同數據形式的輸入,實現多模態發展,回答準確性相較 GPT-3.5 顯著提升。9 月,正式發布了多模態模型 GPT-4V,新增了語音和圖像的交互功能,向多模態方向持續發力。在關注度更高的圖像交互功能方面,OpenAI 官方案例里,用戶上傳自
98、行車圖片向 ChatGPT 詢問如何調低座椅座位,期間使用繪圖工具圈出特定位置追問細節,最終 ChatGPT 通過理解用戶多輪提問中的文字和圖片內容,給出詳細的操作步驟,展現了 GPT-4V 強大的多模態理解能力。其他國內外科技巨頭也爭相進入多模態領域,包括谷歌谷歌的 PaLM-E、Meta 的 AnyMAL、微軟微軟的 KOSMOS-1、百度百度的文心一言、阿里阿里的 M6 大模型等,大模型多模態化發展趨勢顯著。從模型技術來看,單模態模型主要針對一種數據的輸入,在交互方面具有局限性和不完整性,應用通常也限于單一的數據類型任務。而多模態模型可以同時處理兩種或以上的數據輸入,捕獲跨模態的復雜數據
99、關系,全面理解和分析信息,從而參與到更復雜、更深層次的任務中,具有更廣闊的應用場景。伴隨著多模態模型能力的快速升級,游戲、出版、影視、營銷領域均有望受益伴隨著多模態模型能力的快速升級,游戲、出版、影視、營銷領域均有望受益。應用進展上,目前國內大模型已在金融、辦公、文娛(包括游戲開發、營銷、影視制作等)、教育、醫療、交通等多個領域落地應用。從行業滲透度來看,根據鈦媒體發布的2023AI 大模型應用中美比較研究顯示,大模型在文娛和教育領域的滲透度均超過 50%,分列第三、第四位,僅次于金融和政務應用場景。具體而言,目前基于多模態模型的生成式 AI 技術和傳媒領域應用場景的融合探索主要有兩大發展方向
100、:一方面,AIGC 可以賦能內容生產降本增效,在游戲、出版、影視、廣告營銷等涉及文字、圖片、音頻等相關領域帶來應用體驗的創新。另一方面,在產品方面,有望通過與 AI 技術相結合,開拓軟硬件 AI 產品的商業價值空間,例如目前在付費意愿較強的教育領域已經有相關應用產品落地,包括軟件方面的智慧教育平臺和硬件方面的智能學習機等。伴隨著多模態大模型快速迭代,多模態能力不斷升級下,生成式 AI產業空間有望加速打開,傳媒行業的游戲、出版、影視、營銷領域均有望受益。2、多模態大模型帶來多模態大模型帶來 AI 全新應用場景,市場規模有望快速成長全新應用場景,市場規模有望快速成長 預計預計 2028 年全球大模
101、型市場規模將超過年全球大模型市場規模將超過 1000 億美元億美元。根據大模型之家、鈦媒體數據,預計 2023 年全球大模型市場規模達到 210 億美元,同比增長 94.4%。預計到 2028 年全球大模型市場規模將達到1095 億美元,20222028 年復合增長率約為 47.12%,根據 IDC 預測,全球生成式 AI 計算市場規模將從 2022 年的 8.2 億美元增長至 2026 年的 109.9 億美元,CAGR 約為 91.34%。32/32 2024 年年 3 月月 1 日日行業行業|深度深度|研究報告研究報告 預計至預計至 2028 年我國大模型市場規模接近年我國大模型市場規模
102、接近 1200 億人民幣億人民幣。根據大模型之家、鈦媒體數據,預計 2023年中國大模型市場規模達到 147 億人民幣,同比增長 110.0%。預計到 2028 年中國大模型市場規模將達到 1179 億人民幣,20222028 年復合增長率約為 60.11%,市場規??焖俪砷L。多模態大模型帶來多模態大模型帶來 AI 全新應用場景,多模態內容市場規模有望快速成長全新應用場景,多模態內容市場規模有望快速成長。第一財經數據顯示,預計至2025 年,中國多模態內容市場規模將達到 832.7 億美元,2018-2025 年復合增長率達 65.02%。多模態大模型內容將主要應用于商業定制、醫療、游戲、教育
103、和影視領域。十、參考研報十、參考研報 1.西部證券-AI 行業跟蹤 06 期:多模態技術加速演進,AIGC 應用百花齊放2.中信證券-計算機行業“智能網聯”系列報告 36:大模型,多模態引領新篇章3.東莞證券-傳媒行業 2024 年上半年投資策略:大模型多模態化趨勢顯著,AI 應用側加速繁華4.招商證券-計算機行業 AIGC 系列報告(五):大模型多模態應用深化,AIAgent 為應用普及提速5.華西證券-AGI 通用人工智能行業專題之五:互動游戲、AI 視頻雙現爆款,多模態技術潛力陸續釋放6.國泰君安-計算機行業專題研究:多模態加速燃燒算力7.國信證券-計算機行業 2023 年 10 月投資
104、策略:GPT4V 推動多模態應用,機器人是極佳落地場景8.申萬宏源-計算機行業 AIGC 系列深度之 24:GPT4v 如何實現強大多模態,從文生圖到圖生文9.國信證券-計算機行業多模態 AI 大模型點評:OpenAI 發布首款文生視頻大模型 Sora,訓練算力需求大幅提升10.西部證券-AI 行業跟蹤 14 期:Sora 和 Gemini1.5 推出,開啟多模態大模型新紀元11.華福證券-計算機行業:多模態,AI 大模型新一輪革命12.東吳證券-互聯網傳媒行業深度報告:多模態技術加速,AI 商業宏圖正啟13.浙商證券-人工智能行業深度報告:從 Sora 看多模態大模型發展14.國海證券-科大訊飛-002230-點評報告:“雙提升”方案提振信心,星火大模型將對標GPT4Turbo免責聲明:以上內容僅供學習交流,不構成投資建議。