1、 計算機/行業專題報告/2025.01.24 請閱讀最后一頁的重要聲明!豆包大模型更新至 1.5-pro,更真實、更懂你 證券研究報告 投資評級投資評級:看好看好(維持維持)最近 12 月市場表現 分析師分析師 楊燁 SAC 證書編號:S0160522050001 分析師分析師 李宇軒 SAC 證書編號:S0160524080001 相關報告1.DeepSeek-R1:強化學習+知識蒸餾,比肩 o1 2025-01-222.一文讀懂美國 BIS 最新禁令2025-01-19 3.大模型系列報告(一):Transformer架構的過去、現在和未來 2025-01-19 核心觀點核心觀點 Doub
2、ao-1.5-pro 實現實現 7 倍倍 MoE 性能杠桿性能杠桿,同時同時推理成本僅為推理成本僅為 GPT-4o的的 10%。Doubao-1.5-pro 采用 MoE(混合專家)架構,通過訓練推理一體化設計,保證模型性能的同時盡量降低推理成本,Doubao-1.5-pro-32k 的千tokens 輸入單價為 0.0008 元,大約為 GPT-4o-0806 批量版本(千 tokens 輸入單價 0.00125 美元)的 10%。豆包通過模型結構調優以及訓練算法優化,實現7 倍 MoE 性能杠桿,針對 Prefill/Decode 與 Attention/FFN 四個象限,采用異構硬件結合
3、不同的低精度優化策略,在確保低延遲的同時大幅提升吞吐量,在降低總成本的同時兼顧 TTFT 和 TPOT 的最優化目標。視覺、語音多模態能力全面提升視覺、語音多模態能力全面提升。Doubao-1.5-vision-pro 在多模態數據合成、動態分辨率、多模態對齊、混合訓練上進行了全面的技術提升,高效的原生動態分辨率訓練,提升模型文檔識別、細粒度信息識別能力。Doubao-1.5-realtime-voice-pro,語音語義聯合建模實現語音理解和生成一體化,打破傳統“ASR+LLM+TTS”級聯限制,實現降低延遲,并達到真人級語音水準。豆包情感語音功能落地移動端豆包情感語音功能落地移動端,圖靈測
4、試圖靈測試“終結者終結者”。2025 年 1 月 20 日,豆包實時語音大模型落地移動端,做到語音理解和生成一體化,實現了端到端語音對話。相比傳統“ASR+LLM+TTS”級聯模式,在語音表現力、控制力、情緒承接方面表現驚艷,并具備低時延、對話中可隨時打斷等特性。根據外部用戶真實反饋,該模型整體滿意度較 GPT-4o 有明顯優勢,特別是語音語氣自然度和情緒飽滿度遠高于后者。在此之前,大模型以 AI 搜索的形式觸達到大部分的網民,但對于不識字或不常打字的人群來說 AI 仍較為陌生,豆包實時語豆包實時語音大模型以超擬人化的形式融入廣大人民的生活當中,大模型應用觸達人群音大模型以超擬人化的形式融入廣
5、大人民的生活當中,大模型應用觸達人群將從中青年迅速向幼年與老年人群擴散將從中青年迅速向幼年與老年人群擴散,AI 也從也從“辦公助手辦公助手”擴散至擴散至“生活助生活助手手”,打開諸如聊天娛樂打開諸如聊天娛樂、教學陪練教學陪練、心理疏導心理疏導、查詢播報等新的查詢播報等新的 AI 應用空應用空間。間。投資建議:投資建議:當前產業階段,建議關注和豆包 Capex 緊密度最強的 AI 硬件環節龍頭廠商,如海光信息、寒武紀、潤澤科技、英維克、歐陸通、協創數據、海光信息、寒武紀、潤澤科技、英維克、歐陸通、協創數據、中科曙光、浪潮信息、曙光數創、高瀾股份、英偉達(中科曙光、浪潮信息、曙光數創、高瀾股份、英
6、偉達(NVDA.O)、博通)、博通(AVGO.O)、邁威爾科技()、邁威爾科技(MRVL.O)等,以及和字節可能持續推進產業合作的 B 端軟件公司,如新致軟件、新致軟件、漢得信息、漢得信息、法本信息、亞信安全、四維圖法本信息、亞信安全、四維圖新新等,同時豆包大模型情感能力提升會進一步強化陪伴類場景的落地,建議關注樂鑫科技、潤欣科技、移遠通信樂鑫科技、潤欣科技、移遠通信等。風險提示:風險提示:技術迭代不及預期;商業化落地不及預期;政策支持不及預期;全球宏觀經濟風險。-21%-8%5%18%31%44%計算機滬深300上證指數謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 2 行業專題報告/證券
7、研究報告 1 Doubao-1.5-pro 基礎能力全面提升基礎能力全面提升.4 高效高效 MoE 模型,平衡模型性能和推理成本模型,平衡模型性能和推理成本.5 多模態能力全面提升多模態能力全面提升.9 1.2.1 視覺多模態:性能進一步提升,從容應對更復雜場景視覺多模態:性能進一步提升,從容應對更復雜場景.9 1.2.2 語音多模態語音多模態:通過語音語義聯合建模通過語音語義聯合建模,打破傳統打破傳統“ASR+LLM+TTS”級聯限制級聯限制.10“豆包版豆包版 o1”推出推出,實現實現 RL scaling.13 2 豆包情感語音功能落地移動端豆包情感語音功能落地移動端,圖靈測試圖靈測試“
8、終結者終結者”.14 豆包電話升級情感語音功能,高擬人化應用空間廣闊豆包電話升級情感語音功能,高擬人化應用空間廣闊.14 豆包情緒理解和情感表達優于豆包情緒理解和情感表達優于 GPT-4o,“去去 AI 味味”效果顯著效果顯著.16 3 投資建議投資建議.17 4 風險提示風險提示.18 圖圖 1.Doubao-1.5-pro 在多個基準上的測評結果在多個基準上的測評結果.4 圖圖 2.Doubao-1.5-pro 輸入輸出價格輸入輸出價格.4 圖圖 3.Doubao-Dense 和和 Doubao-MoE 的訓的訓練練 loss 圖圖.5 圖圖 4.利用二次多項式擬合,獲得不同最小計算預算下
9、激活參數最優數量的利用二次多項式擬合,獲得不同最小計算預算下激活參數最優數量的 Scaling Law.6 圖圖 5.Llama3.1、Doubao-MoE 和和 Doubao-Dense 的的 Performance 對比圖對比圖.7 圖圖 6.不同階段的計算和訪存特征不同階段的計算和訪存特征.8 圖圖 7.Doubao-1.5-pro 在多個視覺基準上的測評結果在多個視覺基準上的測評結果.9 圖圖 8.Doubao ViT 在多種視覺分類任務中的表現在多種視覺分類任務中的表現.10 圖圖 9.豆包支持任意分辨率和極端長寬比圖像識別以及復雜指令遵循能力豆包支持任意分辨率和極端長寬比圖像識別以
10、及復雜指令遵循能力.10 圖圖 10.從語音識別到語義分析到語音生成的原理圖從語音識別到語義分析到語音生成的原理圖.11 圖圖 11.ECSS 由多源知識、基于異構圖的情感上下文編碼器和情感對話語音合成器三個部分組成由多源知識、基于異構圖的情感上下文編碼器和情感對話語音合成器三個部分組成.12 圖圖 12.近期近期國內更新的情感語音大模型國內更新的情感語音大模型.12 圖圖 13.Doubao-1.5-pro-AS1-Preview 在在 AIME 上的評測結果上的評測結果.13 圖圖 14.豆包推理能力的初步泛化豆包推理能力的初步泛化.13 圖圖 15.豆包豆包 App 電話頁面電話頁面.1
11、4 圖圖 16.豆包融入生活成為智能助手豆包融入生活成為智能助手.15 內容目錄 圖表目錄 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 3 行業專題報告/證券研究報告 圖圖 17.豆包豆包模仿經典文藝作品模仿經典文藝作品.15 圖圖 18.豆包演唱歌曲豆包演唱歌曲.15 圖圖 19.豆包做情感豆包做情感/心理疏導心理疏導.15 圖圖 20.豆包在角色扮演中切換自如豆包在角色扮演中切換自如.16 圖圖 21.豆包快速切換喜怒哀樂等情緒表達豆包快速切換喜怒哀樂等情緒表達.16 圖圖 22.豆包根據復雜要求編故事豆包根據復雜要求編故事.16 圖圖 23.豆包實時聯網查詢播報信息豆包實時聯網查詢
12、播報信息.16 圖圖 24.豆包實時語音大模型與豆包實時語音大模型與 GPT-4o 的滿意度對比的滿意度對比.17 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 4 行業專題報告/證券研究報告 1 Doubao-1.5-pro 基礎能力全面提升基礎能力全面提升 Doubao-1.5-pro 采采用用 MoE(混合專家)(混合專家)架構,架構,通過訓練通過訓練推理一體化設計,推理一體化設計,保證保證模型性能模型性能的同時盡量降低的同時盡量降低推理推理成本成本。2025 年 1 月 22 日,豆包底層大模型更新至Doubao-1.5-pro(包括文本、視覺、實時語音、推理等多個專家模型),其僅
13、用較小的激活參數,即可超過一流超大稠密預訓練模型的性能,并在多個評測基準上取得優異成績,在知識、編碼、中文方面形成明顯優勢。圖1.Doubao-1.5-pro 在多個基準上的測評結果 數據來源:豆包大模型團隊,財通證券研究所 嚴控推理成本,版本升級價格不變。嚴控推理成本,版本升級價格不變。Doubao-1.5-pro-32k 的千 tokens 輸入單價為0.0008 元,千 tokens 輸出單價為 0.002 元,與 Doubao-pro 版本保持一致。其價格其價格大約為大約為 GPT-4o-0806 批量版本(千批量版本(千 tokens 輸入單價輸入單價 0.00125 美元)的美元)
14、的 10%,豆包在保障性能的同時,具備顯著價格優勢,加速國內企業接入國產大模型 API 服務。圖2.Doubao-1.5-pro 輸入輸出價格 數據來源:火山引擎,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 5 行業專題報告/證券研究報告 高效高效 MoE 模型,模型,平衡平衡模型性能和推理成本模型性能和推理成本 從訓練和推理效率的角度出發,從訓練和推理效率的角度出發,Doubao-1.5-pro 使用稀疏使用稀疏 MoE 架構。架構。在預訓練階段,僅用較小參數激活的 MoE 模型,性能即可超過 Llama3.1-405B 等超大稠密預訓練模型。團隊通過對稀疏度 Scal
15、ing Law 的研究,確定了性能和效率比較平衡的稀疏比例,并根據 MoE Scaling Law 確定了小參數量激活的模型即可達到世界一流模型的性能。在預訓練模型基礎上,算法團隊還設計了一系列模型參數動態調整算法。在預訓練模型基礎上,算法團隊還設計了一系列模型參數動態調整算法??梢曰诰唧w應用對模型性能的需求,從模型深度、寬度、MoE 專家數、激活專家數、隱藏 token 推理等不同維度,對模型參數進行擴增和縮小,達到模型能力和推理成本的最優平衡。圖3.Doubao-Dense 和 Doubao-MoE 的訓練 loss 圖 數據來源:豆包大模型團隊,財通證券研究所 研究研究 MoE 模型的
16、模型的 Scaling Law,以便在預訓練前確定最優,以便在預訓練前確定最優參數參數設置。設置。通常密集型模型的訓練計算資源預算使用公式 C=6ND 來估算,其中 N 表示參數數量,D 表示訓練數據的 tokens 數量。然而,對于具有更長序列(例如 8K、32K 和 256K)的 MoE 模型,由于注意力機制的復雜性和稀疏激活,計算資源預算公式會變為:C 9.59ND+2.3 108D。據此,在不同的計算量下,研究隨著激活參數的變化,訓練損失的收斂情況,由此確定最優的激活參數與預訓練 tokens 數量。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 6 行業專題報告/證券研究報告 圖4
17、.利用二次多項式擬合,獲得不同最小計算預算下激活參數最優數量的 Scaling Law 數據來源:Hunyuan-Large:An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent騰訊混元團隊,財通證券研究所 豆包通過模型結構調優以及訓練算法優化,實現豆包通過模型結構調優以及訓練算法優化,實現 7 倍倍 MoE 性能杠桿。性能杠桿。MoE 模型的性能通??梢杂帽憩F相同的稠密模型的總參數量和 MoE 模型的激活參數量的比值來確定,比如 IBM 的 Granite 系列模型中,800M 激活的 MoE 模型性
18、能可以接近 2B 總參數的稠密模型,性能比值大約在 2.5 倍,業界在這一性能杠桿上的普業界在這一性能杠桿上的普遍水平為不到遍水平為不到 3 倍。倍。豆包團隊通過模型結構和訓練算法優化,在完全相同的部分訓練數據(9T tokens)對比驗證下,用激活參數僅為稠密模型參數量 1/7 的 MoE模型,超過了稠密模型的性能,將性能杠桿提升至 7 倍。Doubao-Dense 和 Doubao-MoE 均為 9T tokens 的數據的階段性結果,數據分布完全相同;MoE 模型的性能略優于參數量為 MoE 激活參數量 7 倍的稠密模型。Llama3.1-405B 為 15T tokens 的最終結果,
19、數據分布和 Doubao 模型不同,Doubao 稠密模型的參數量也遠小于 Llama3.1-405B,從結果上可以看到Doubao 預訓練的數據質量和訓練超參更優;MoE 模型完整訓練后的性能比9T tokens 數據的中間版本有更大提升。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 7 行業專題報告/證券研究報告 圖5.Llama3.1、Doubao-MoE 和 Doubao-Dense 的 Performance 對比圖 數據來源:豆包大模型團隊,財通證券研究所 Doubao-1.5-pro 是一個高度稀疏的是一個高度稀疏的 MoE 模型,在模型,在 Prefill/Decode 與
20、與 Attention/FFN構成的四個計算象限中,表現出顯著不同的計算與訪存特征。構成的四個計算象限中,表現出顯著不同的計算與訪存特征。豆包針對四個不同象限,采用異構硬件結合不同的低精度優化策略,在確保低延遲的同時大幅提升吞吐量,在降低總成本的同時兼顧 TTFT(Time To First Token,輸入到輸出首個token 的延遲)和 TPOT(Time Per Output Token,每個輸出 token 的延遲)的最優化目標。針對 Tensor(張量)傳輸進行定制化的 RPC Backend(遠程過程調用底層系統),并通過零拷貝、多流并行等手段優化了 TCP/RDMA(傳輸控制協議
21、/遠程訪問內存)網絡上的 Tensor 傳輸效率,進而提升 PD 分離(模型參數與訓練數據分開存儲和管理)下的 KV Cache(鍵-值緩存)傳輸效率。支持 Prefill(初始階段)跟 Decode(解碼階段)集群的靈活配比和動態擴縮,對每種角色獨立做 HPA(Pod 水平自動伸縮器)彈性擴容,保障保障 Prefill 和和Decode 都無冗余算力,兩邊算力配比貼合線上實際流量模式都無冗余算力,兩邊算力配比貼合線上實際流量模式。在框架上將 GPU 計算和 CPU 前后處理異步化,使得 GPU 推理第 N 步時 CPU提前發射第 N+1 步 Kernel,保持保持 GPU 始始終被打滿,整個
22、框架處理動作對終被打滿,整個框架處理動作對 GPU推理零開銷推理零開銷。憑借自研服務器集群方案,靈活支持低成本芯片,硬件成本比行業方案大幅度降憑借自研服務器集群方案,靈活支持低成本芯片,硬件成本比行業方案大幅度降低。低。豆包還通過定制化網卡和自主研發的網絡協議,顯著優化了小包通信的效率。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 8 行業專題報告/證券研究報告 在算子層面,豆包實現了計算與通信的高效重疊(Overlap),從而保證了多機分布式推理的穩定性和高效性。圖6.不同階段的計算和訪存特征 數據來源:豆包大模型團隊,財通證券研究所 豆包豆包在數據、算法、模型層面全面實現了在數據、算法
23、、模型層面全面實現了 Scaling,完成算力到智力的有效轉換。,完成算力到智力的有效轉換。(1)在Post Training階段,豆包通過高效標注團隊與模型自提升技術的深度融合,構建高度自主的數據生產體系,數據標注“不走捷徑”,不使用任何其他模型的數據,確保數據來源的獨立性和可靠性;(2)Reward Model 部分,構建了統一的Reward 框架,實現了模型在數學、編程、知識、對話等多維度能力的均衡提升;(3)RL 階段,基于 veRL(變分嵌入強化學習)打造了高并行化的多角色訓練推理一體框架,兼容不同類型的數據和獎勵方式;(4)通過自適應數據分布調節機制,解決了多任務訓練中的沖突問題;
24、(5)攻克了價值函數訓練難點,實現 token-wise 穩定建模,收斂速度提升 4 倍,在高難度任務上的性能提升超過 10 個絕對點;(6)通過對比學習方法,有效提升了 LLM 的表現并顯著緩解了 reward hacking問題(智能體通過非預期的、不希望的方式來最大化獎勵)。依托字節在推薦、搜索和廣告領域的依托字節在推薦、搜索和廣告領域的 AB Test 經驗,研發了基于用戶反饋的高效經驗,研發了基于用戶反饋的高效 Post Training 全流程全流程?;诙拱拇笠幠S脩舴答?,構建了從問題發現、數據挖掘、人機結合標注到快速迭代的閉環優化系統,通過用戶數據飛輪持續提升模型的實際使用體
25、驗。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 9 行業專題報告/證券研究報告 多模態能力全面提升多模態能力全面提升 1.2.1 視覺多模態:性能進一步提升,從容應對更復雜場景視覺多模態:性能進一步提升,從容應對更復雜場景 Doubao-1.5-vision-pro 在多模態數據合成、動態分辨率、多模態對齊、混合訓練在多模態數據合成、動態分辨率、多模態對齊、混合訓練上進行了全面的技術提升上進行了全面的技術提升。新版本進一步增強了模型在視覺推理、文字文檔識別、細粒度信息理解、指令遵循等方面的能力,并讓模型的回復模式變得更加精簡、友好。在同一模型中融入強大的視覺理解能力,使模型可以同時理解虛
26、擬和現實世界的各類視覺信號,更好地輔助人類決策。高效的原生動態分辨率訓練,提升模型文檔識別、細粒度信息識別能力。高效的原生動態分辨率訓練,提升模型文檔識別、細粒度信息識別能力。分辨率問題一直是影響視覺理解能力的關鍵因素,尤其在虛擬世界中,信息理解受分辨率的影響更為明顯。為應對各類場景下的復雜圖像輸入,Doubao-1.5-pro 采用了原生動態分辨率架構設計,支持任意分辨率的圖像輸入。無論是高清大圖還是低分辨率的小圖,亦或是極端長寬比例的圖像,模型都能實現精準的特征提取和高效的計算性能。借助于原生分辨率的設計,新模型在文檔識別、細粒度信息識別等任務上實現了極大的效果提升。豆包豆包自研的支持動態
27、分辨率的自研的支持動態分辨率的 DoubaoViT 在多種在多種視覺分類任務中表現優異,僅憑視覺分類任務中表現優異,僅憑 2.4B 規模便在綜合評分上取得規模便在綜合評分上取得 SOTA 表現,效表現,效果超越果超越 7 倍于自身規模的模型。倍于自身規模的模型。圖7.Doubao-1.5-pro 在多個視覺基準上的測評結果 數據來源:豆包大模型團隊,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 10 行業專題報告/證券研究報告 圖8.Doubao ViT 在多種視覺分類任務中的表現 數據來源:豆包大模型團隊,財通證券研究所 圖9.豆包支持任意分辨率和極端長寬比圖像識別以及復
28、雜指令遵循能力 數據來源:豆包大模型團隊,財通證券研究所 1.2.2 語音多模態:語音多模態:通過通過語音語義聯合建模語音語義聯合建模,打破傳統“,打破傳統“ASR+LLM+TTS”級級聯聯限制限制“ASR+LLM+TTS”仍為當前大多語音生成模型采用的技術路線仍為當前大多語音生成模型采用的技術路線,技術成熟度高,技術成熟度高但延遲問題嚴重。但延遲問題嚴重。ASR 負責將語音準確轉換為文本,LLM 對文本進行理解、推理和生成等復雜處理,TTS 再將生成的文本轉換為自然流暢的語音,從而實現從語音輸入到語音輸出的完整交互功能,目前已在智能客服、語音助手等場景實現廣泛應用。但由于多步驟級聯,使得語音
29、模型反饋延遲較大,交互體驗感較為一般。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 11 行業專題報告/證券研究報告 ASR(Automatic Speech Recognition,自動語音識別)能夠將人類的語音轉換為計算機可以理解和處理的文本,通過分析和處理音頻信號,識別其中的語音內容,并將其轉化為文字輸出。LLM 對海量文本數據進行訓練,從而使得模型具備理解和生成人類語言的能力。NLP 則將這些能力應用于如機器翻譯、語音識別、情感分析等場景。TTS(Text-to-Speech,文本到語音轉換)可以將文本轉換成自然、流暢的語音,從而使計算機可以“讀出”文本內容。圖10.從語音識別到語
30、義分析到語音生成的原理圖 數據來源:智見 AGI,財通證券研究所 Doubao-1.5-realtime-voice-pro,語音語義聯合建模實現語音語義聯合建模實現語音理解和生成一體化,語音理解和生成一體化,合成數據提升訓練質量合成數據提升訓練質量。豆包實時語音大模型,通過 Speech2Speech 的端到端框架,不僅用原生方法將語音和文本模態進行深度融合,同時還實現了語音理解生成端到端,主要面向中文語境和場景(可進行英語對話)。依托于語音和語義聯合建模,豆包實時語音大模型呈現出接近真人的語音表達水準,涌現出超出預期的指令理解、聲音扮演和聲音控制能力。比如,目前模型部分方言和口音,主要源自
31、于 Pretrain 階段數據泛化,而非針對性訓練。在框架設計上,在框架設計上,豆包豆包將語音和文本將語音和文本 token 進行融合,為語音多模態數據的進行融合,為語音多模態數據的 Scaling 提供了必要條件。提供了必要條件。在 Pretrain 階段,豆包開發了多樣化的數據生產和使用方式,同時在訓練上探索了多種有效方案,通過 Scaling 最大化地將語音和文本能力進行深度融合;在 Post Training 階段,使用了高質量真實與合成數據,并優化 RL 算法,進一步提供模型高情商對話能力與安全性,并在“智商”與“情商”之間尋求平衡。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準
32、12 行業專題報告/證券研究報告 將“情感模態”連同文本、音頻等一同編碼壓縮至大模型,可能是模型情感理解將“情感模態”連同文本、音頻等一同編碼壓縮至大模型,可能是模型情感理解力提升的關鍵。力提升的關鍵。根據字節跳動此前發布的論文,對話語音合成(CSS)由于情感對話數據集稀缺和狀態情感建模困難,導致模型情感渲染力不足。而將文本、音頻、而將文本、音頻、說話人、情感和情感強度信息作為節點構建異構圖說話人、情感和情感強度信息作為節點構建異構圖 ECG,創建,創建 14 種不同類型的種不同類型的邊連接各節點,以建模雙向關系邊連接各節點,以建模雙向關系。為了開發 ECSS(情感對話語音合成)模型,作者為對
33、話語音合成數據集 DailyTalk 設計了 7 個情緒標簽(快樂、悲傷、憤怒、厭惡、恐懼、驚訝、中性)和 3 個情緒強度標簽(弱、中、強),并邀請了專業從業者對標簽進行注釋。圖11.ECSS 由多源知識、基于異構圖的情感上下文編碼器和情感對話語音合成器三個部分組成 數據來源:Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling內蒙古大學、字節跳動,財通證券研究所 近半年,部分國內廠商已更新至新一代端到端語音模型,情感語音大模型應用有望加速落地。
34、圖12.近期國內更新的情感語音大模型 發布時間發布時間 模型名稱模型名稱 發布公司發布公司 大模型基本能力大模型基本能力 20252025 年年 1 1 月月 2020 日日 豆包實時語音大模型 字節跳動 聊天、講故事、唱歌、方言對話、模擬不同角色 20242024 年年 1212 月月 1313 日日 Step-1o Audio 端到端語音大模型 階躍星辰 情感陪伴,快速反應并隨時打斷,理解和模仿音色、韻律、方言、個性化的口語表達習慣 20242024 年年 1111 月月 2020 日日 實時語音對話助手Skyo 昆侖萬維 情感理解與個性化記憶、多語言對話、可定制聲音風格、支持實時打斷、高
35、響應速度 20242024 年年 1010 月月 2525 日日 GLM-4-Voice 智譜清言 理解情感,有情緒表達、情感共鳴,自助調節語速,支持多語言和方言,延時更低、可隨時打斷。20242024 年年 9 9 月月 3 3 日日 Soul 自研端到端全雙工語音通話大模型 Soul 超低交互延遲、快速自動打斷、超真實聲音表達和情緒感知理解能力、支持超擬人化的多風格語言 20242024 年年 8 8 月月 3030 日日 星火極速超擬人交互(星火語音大模型)科大訊飛 極速響應自由打斷、情緒感知情感共鳴、支持多種對話風格、可模仿多種人設對話 數據來源:各公司微信公眾號,財通證券研究所 謹請
36、參閱尾頁重要聲明及財通證券股票和行業評級標準 13 行業專題報告/證券研究報告 “豆包版“豆包版 o1”推出,實現”推出,實現 RL scaling 豆包推出豆包推出深度思考深度思考模式模式 Doubao-1.5-pro-AS1-Preview,當前仍為當前仍為 Preview 版本尚版本尚未公開,未公開,正式版性能可期。正式版性能可期。推理能力是智能的重要組成部分,豆包團隊致力于使用大規模 RL 的方法不斷提升模型的推理能力,拓寬當前模型的智能邊界。在完全不使用其他模型數據的條件下,通過 RL 算法的突破和工程優化,充分發揮 test time scaling 的算力優勢,完成了 RL sc
37、aling。圖13.Doubao-1.5-pro-AS1-Preview 在 AIME 上的評測結果 數據來源:豆包大模型團隊,財通證券研究所 當前當前 Doubao-1.5-pro-AS1-Preview 在在 AIME 的部分指標的部分指標上已經超過上已經超過 o1-preview、o1 等推理模型。等推理模型。隨著 RL 的持續 scaling,模型能力還在不斷提升中。在這一過程中,推理能力在不同領域持續泛化,智能的邊界正在被慢慢拓寬。例如,豆包對于“宮廷玉液酒,ebay bar ebay”的推理思考,展現了模型長鏈路、多角度的思維能力。圖14.豆包推理能力的初步泛化 數據來源:豆包大模
38、型團隊,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 14 行業專題報告/證券研究報告 2 豆包豆包情感語音功能情感語音功能落地移動端落地移動端,圖靈測試“終結者”圖靈測試“終結者”豆包豆包電話升級電話升級情感語音功能情感語音功能,高擬人化應用空間廣闊高擬人化應用空間廣闊 豆包更新實時語音大模型豆包更新實時語音大模型(Doubao-1.5-realtime-voice-pro),擬人化程度大幅提升。,擬人化程度大幅提升。2025 年 1 月 20 日,豆包實時語音大模型落地移動端,做到語音理解和生成一體化,實現了端到端語音對話。相比傳統“ASR+LLM+TTS”級聯模式,在
39、語音表現力、控制力、情緒承接方面表現驚艷,并具備低時延、對話中可隨時打斷等特性。根據外部用戶真實反饋,該模型整體滿意度較 GPT-4o 有明顯優勢,特別是語音語氣自然度和情緒飽滿度遠高于后者。豆包團隊認為,該模型的推出具備里程碑式意義,不僅貼合中國用戶實際需求,且發布即上線,有能力直接服務億萬用戶。從手機 APP 的電話頁面可以看出,豆包在語音交流的基礎上增加了“靈魂歌手”、“百變大咖”、“悄悄說話”、“戲精本精”、“受氣小包”、“英語陪練”等細分功能,擴展了豆包的情緒狀態與風格,擬人化程度大幅提升,擴展了豆包的情緒狀態與風格,擬人化程度大幅提升,為為用戶用戶提供娛樂、提供娛樂、教學與情緒價值
40、,用戶教學與情緒價值,用戶對豆包電話的交互依賴性有望增強。對豆包電話的交互依賴性有望增強。圖15.豆包 App 電話頁面 數據來源:豆包,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 15 行業專題報告/證券研究報告 圖靈測試圖靈測試“終結者終結者”,豆包讓大模型走進千家萬戶,應用空間廣闊豆包讓大模型走進千家萬戶,應用空間廣闊?!皥D靈測試”旨在探究機器能否模擬出與人類相似或無法區分的智能,當前豆包大模型可以根據用戶的說話內容、以及語言附帶的情感做出適當的反饋,達到逼真的擬人效果,人與 AI 也愈加難以分辨。在此之前,大模型以 AI 搜索的形式觸達到大部分的網民,但對于不識字
41、或不常打字的人群來說 AI 仍較為陌生,豆包實時語音大模型以豆包實時語音大模型以超擬人化的形式融入廣大人民的生活當中,大模型應用觸達人群將從中青年迅速超擬人化的形式融入廣大人民的生活當中,大模型應用觸達人群將從中青年迅速向幼年與老年人群擴散,向幼年與老年人群擴散,AI 也從“辦公助手”擴散至“生活助手”,也從“辦公助手”擴散至“生活助手”,打開諸如聊打開諸如聊天天娛樂娛樂、教學、教學陪練陪練、心理疏導、查詢播報等新的、心理疏導、查詢播報等新的 AI 應用空間應用空間。生活助手:生活助手:生活中原本需要文本交互的場景,用戶可以解放雙手進行語音交流,豆包能夠準確識別用戶情緒和意圖。常識記憶:常識記
42、憶:國人熟悉的文藝作品與熱點議題,豆包更懂國人自己的“?!?。圖16.豆包融入生活成為智能助手 圖17.豆包模仿經典文藝作品 數據來源:豆包大模型團隊,財通證券研究所 數據來源:豆包大模型團隊,財通證券研究所 唱歌表演:唱歌表演:支持部分歌曲的演唱,但有時音調不標準,娛樂性為主。但有時音調不標準,娛樂性為主。心理咨詢:心理咨詢:理解人的相處模式,并能根據用戶的困境給出建議以及心理疏導。圖18.豆包演唱歌曲 圖19.豆包做情感/心理疏導 數據來源:豆包大模型團隊,財通證券研究所 數據來源:豆包大模型團隊,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 16 行業專題報告/證券研究
43、報告 角色扮演:角色扮演:可演化出多個人格與用戶互動,并進行長段對話,有望開發出“單人游戲”的娛樂模式,比如可開展單人棋牌、劇本殺、聊天室等。情緒表達:情緒表達:能夠精準演繹角色情緒的語音語調,有望應用于短劇視頻、電影配音生成。圖20.豆包在角色扮演中切換自如 圖21.豆包快速切換喜怒哀樂等情緒表達 數據來源:豆包大模型團隊,財通證券研究所 數據來源:豆包大模型團隊,財通證券研究所 編寫并講述故事:編寫并講述故事:根據用戶復雜的角色定義描述,編寫故事情節,并繪聲繪色地講出來,可應用與兒童玩具、幼教設備等。查詢實時信息:查詢實時信息:可聯網查詢實時信息并播報,可應用于家庭智能終端、車載語音、辦公
44、助手等。圖22.豆包根據復雜要求編故事 圖23.豆包實時聯網查詢播報信息 數據來源:豆包大模型團隊,財通證券研究所 數據來源:豆包大模型團隊,財通證券研究所 豆包情緒理解和情感表達優于豆包情緒理解和情感表達優于 GPT-4o,“去“去 AI 味”效果顯著味”效果顯著 豆包實時語音大模型總體滿意度高于豆包實時語音大模型總體滿意度高于 GPT-4o,做到智商與情商雙高。,做到智商與情商雙高。2025.1.122025.1.14,豆包團隊招募了外部用戶進行真實測試,每通對話都進行了錄屏和用戶反饋分析。本次共收集 27 人共 810 通數據,一共 270 個話題組。招募 謹請參閱尾頁重要聲明及財通證券
45、股票和行業評級標準 17 行業專題報告/證券研究報告 的用戶來自全國共 10 個城市,其中男性 9 名女性 18 名,成年人 27 名(年齡分布為 21 到 33 歲)。體驗者中,有 11.11%是從未體驗過豆包的用戶,70.37%是豆包輕度用戶(每周使用 1-2 天),14.81%是豆包粘性較高的用戶(每周使用 3-5 天),3.7%的用戶每天都會使用豆包。體驗者平常最喜歡使用豆包來咨詢問題、學習知識,其次是聊天傾訴、分享生活。近近 50%受訪者給出豆包受訪者給出豆包 5 分分(滿分)(滿分),而,而 GPT-4o 不足不足 10%。在模型優點評測中,豆包實時語音大模型在情緒理解和情感表達方
46、面優勢明顯。尤其是“一聽就是 AI 與否”評測中,超過 30%的反饋表示 GPT-4o“過于 AI”,而豆包實時語音大模型相應比例僅為 2%以內。豆包實時語音大模型在情商層面,模型在情感理解、情感承接以及情感表達等方面取得顯著進展,能較為準確地捕捉、回應人類情感信息。圖24.豆包實時語音大模型與 GPT-4o 的滿意度對比 數據來源:豆包大模型團隊,財通證券研究所 3 投資建議投資建議 當前產業階段,建議關注和豆包 Capex 緊密度最強的 AI 硬件環節龍頭廠商,如海光信息、寒武紀、潤澤科技、英維克、歐陸通、協創數據、中科曙光、浪潮信海光信息、寒武紀、潤澤科技、英維克、歐陸通、協創數據、中科
47、曙光、浪潮信息、息、曙光數創、曙光數創、高瀾股份高瀾股份、英偉達(、英偉達(NVDA.O)、博通()、博通(AVGO.O)、邁威爾科技)、邁威爾科技(MRVL.O)等,以及和字節可能持續推進產業合作的 B 端軟件公司,如新致軟新致軟件、件、漢得信息、漢得信息、法本信息、亞信安全、四維圖新法本信息、亞信安全、四維圖新等,同時豆包大模型情感能力提升會進一步強化陪伴類場景的落地,建議關注樂鑫科技、潤欣科技、移遠通信樂鑫科技、潤欣科技、移遠通信等。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 18 行業專題報告/證券研究報告 4 風險提示風險提示 技術迭代不及預期:技術迭代不及預期:若 AI 技術
48、迭代不及預期,NLP 模型優化受限,則相關產業發展進度會受到影響。商業化落地不及預期:商業化落地不及預期:大模型結合應用的盈利模式尚處于探索階段,后續商業化落地進展有待觀察。政策支持不及預期:政策支持不及預期:新行業新技術的推廣需要政策支持,存在政策支持不及預期風險。全球宏觀經濟風險:全球宏觀經濟風險:垂直領域公司與下游經濟情況相關,存在全球宏觀經濟風險。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 19 行業專題報告/證券研究報告 分析師承諾分析師承諾 作者具有中國證券業協會授予的證券投資咨詢執業資格,并注冊為證券分析師,具備專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于
49、作者的職業理解。本報告清晰地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,作者也不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。資質聲明資質聲明 財通證券股份有限公司具備中國證券監督管理委員會許可的證券投資咨詢業務資格。公司評級公司評級 以報告發布日后 6 個月內,證券相對于市場基準指數的漲跌幅為標準:買入:相對同期相關證券市場代表性指數漲幅大于 10%;增持:相對同期相關證券市場代表性指數漲幅在 5%10%之間;中性:相對同期相關證券市場代表性指數漲幅在-5%5%之間;減持:相對同期相關證券市場代表性指數漲幅小于-5%;無評級:由于我們無法獲取
50、必要的資料,或者公司面臨無法預見結果的重大不確定性事件,或者其他原因,致使我們無法給出明確的投資評級。A 股市場代表性指數以滬深 300 指數為基準;中國香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標普 500指數為基準。行業評級行業評級 以報告發布日后 6 個月內,行業相對于市場基準指數的漲跌幅為標準:看好:相對表現優于同期相關證券市場代表性指數;中性:相對表現與同期相關證券市場代表性指數持平;看淡:相對表現弱于同期相關證券市場代表性指數。A 股市場代表性指數以滬深 300 指數為基準;中國香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標普 500指數為基準。免責聲明免
51、責聲明 本報告僅供財通證券股份有限公司的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的信息來源于已公開的資料,本公司不保證該等信息的準確性、完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的邀請或向他人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司通過信息隔離墻對可能存在利益沖突的業務部門或關聯機構之間的信息流動進行控制。因此,客戶應注意,在法律許可的情
52、況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的公司的董事。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司不對任何人使用本報告中的任何內容所引致的任何損失負任何責任。本報告僅作為客戶作出投資決策和公司投資顧問為客戶提供投資建議的參考??蛻魬敧毩⒆鞒鐾顿Y決策,而基于本報告作出任何投資決定或就本報告要求任何解釋前應咨詢所在證券機構投資顧問和服務人員的意見;本報告的版權歸本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。信息披露信息披露