《2025字節跳動豆包大模型應用領域、競爭優勢及字節AI商業布局分析報告(39頁).pdf》由會員分享,可在線閱讀,更多相關《2025字節跳動豆包大模型應用領域、競爭優勢及字節AI商業布局分析報告(39頁).pdf(39頁珍藏版)》請在三個皮匠報告上搜索。
1、 2025 年深度行業分析研究報告 目目 錄錄 1.“更強模型”,是豆包大模型的持續追求.5 2.“更低價格”與“更易落地”,讓豆包大模型落地千行百業.18 3.不止豆包,字節 AI 商業布局行以致遠.26 圖目錄圖目錄 圖 1 豆包大模型正式發布時已經被廣泛應用.5 圖 2 剛發布時的豆包大模型家族.6 圖 3 2024 年 6 月的 FlagEval 大模型評測能力榜單(客觀評測).7 圖 4 豆包 視頻生成模型支持多種畫面比例/風格.8 圖 5 2024 年 9 月豆包通用模型 pro 最新版本性能不斷升級.9 圖 6 豆包 視覺理解模型內容識別能力優秀.10 圖 7 豆包 視覺理解模型
2、理解推理能力突出.10 圖 8 豆包 視覺理解模型擁有細膩的視覺描述能力.11 圖 9 Doubao-pro 綜合能力持平 GPT-4o.11 圖 10 豆包通用模型 pro 性能全面升級.12 圖 11 豆包 3D 模型示例.13 圖 12 最新的豆包大模型家族.13 圖 13 Doubao-pro 模型位列 FlagEval 模型評測第一.14 圖 14 火山引擎對話式 AI 實時交互服務方案架構.14 圖 15 豆包 視頻生成模型運用的相關技術.15 圖 16 HybridFlow 能有效減少模型參數在兩個階段之間的重分片和通信開銷.15 圖 17 MLP Layer 和 FAN Lay
3、er 示例.16 圖 18 北京大學-字節跳動“豆包大模型系統軟件聯合實驗室”簽約儀式.16 圖 19 豆包大模型維持“極低”價格水平.18 圖 20 豆包 視覺理解模型定價顯著低于行業水平.19 圖 21 方舟 2.0 擁有優質插件庫.20 圖 22 Prompt 優解功能介紹.21 圖 23 火山引擎提供的 AI 落地方案.22 圖 24 豆包大模型日均 tokens 7 個月時間增速達 33 倍.23 圖 25 火山引擎汽車大模型生態聯盟首批聯盟成員.24 圖 26 豆包大模型在 10-12 月各應用場景調用量增長.24 圖 27 豆包 APP 版示例.26 圖 28 豆包支持一鍵生成帶
4、有指定文字的圖片.28 圖 29 豆包電腦網頁版示例.29 圖 30 豆包排名 2024 年 11 月 AI 產品榜 國內總榜第一.30 圖 31 豆包能滿足日常生活中的多重需求.31 圖 32 豆包能滿足教育領域中的多重需求.31 圖 33 豆包的擬人化形象:可愛女生.32 圖 34 豆包輸入更方便,所以更“快”.33 圖 35 Ola Friend 耳機與豆包 App.34 圖 36 豆包離用戶更近,所以更“快”.35 圖 37 豆包模型能力更強,所以更“快”.35 圖 38 2024 年 6 月豆包 MAU 迅速超過競爭對手.36 圖 39 字節跳動旗下 AI 應用/硬件.37 圖 40
5、 a16z Top 50 生成式 AI Web 應用榜單.38 圖 41 a16z Top 50 生成式 AI 移動應用榜單.38 1.“更強模型更強模型”,是豆包大模型的持續追求,是豆包大模型的持續追求 2023 年,豆包大模型(原名:云雀)在字節跳動內部完成了上線,它也是首批通過大模型服務安全備案的大模型之一。在一年的時間內,豆包大模型在字節跳動內部50 多個業務被大量使用,以進行 AI 創新,包括抖音、頭條等數億 DAU 產品。2024 年 5 月,在 2024 春季火山引擎 FORCE 原動力大會上,字節跳動正式發布了豆包大模型家族。此時,豆包大模型已經能夠日均處理 1200 億 to
6、kens 文本、生成 3000萬張圖片。圖圖1 豆包豆包大模型正式發布時已經被廣泛應用大模型正式發布時已經被廣泛應用 資料來源:火山引擎官微,HTI 在豆包模型發布時,字節對于 AI 的目標是:更強模型:更強模型:大使用量才能打磨出更好模型。豆包大模型已經在字節跳動內部 50 多個業務、多場景應用中落地,經過千億級日 tokens 的持續打磨,模型能力和推理效果得到市場的廣泛認可。更低價格:更低價格:為了讓每一家企業都能用得起大模型,火山引擎大幅度降低大模型應用推理成本。例如本次登榜的豆包通用模型 pro,其 32k 版模型推理輸入價格僅為0.0008 元/千 tokens。更易落地:更易落地
7、:火山引擎 2023 年發布了一站式大模型服務平臺火山方舟,通過模型即服務的理念,幫助企業在高效、安全的環境里應用各類模型。2024 年 5 月,火山引擎對方舟平臺進行了全面升級,升級后的火山方舟 2.0 將大幅提升模型效果、核心插件、系統性能以及平臺體驗,幫助企業推進大模型的價值創造。當時的豆包大模型家族包括:豆包通用模型豆包通用模型 pro:字節跳動自研 LLM 模型專業版,支持 128k 長文本,全系列可精調,具備更強的理解、生成、邏輯等綜合能力,適配問答、總結、創作、分類等豐富場景;豆包通用模型豆包通用模型 lite:字節跳動自研 LLM 模型輕量版,對比專業版提供更低 token 成
8、本、更低延遲,為企業提供靈活經濟的模型選擇;豆包豆包 角色扮演模型:角色扮演模型:個性化的角色創作能力,更強的上下文感知和劇情推動能力,滿足靈活的角色扮演需求;豆包豆包 語音合成模型:語音合成模型:提供自然生動的語音合成能力,善于表達多種情緒,演繹多種場景;豆包豆包 聲音復刻模型:聲音復刻模型:5 秒即可實現聲音 1:1 克隆,對音色相似度和自然度進行高度還原,支持聲音的跨語種遷移;豆包豆包 語音識別模型:語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別;豆包豆包 文生圖模型:文生圖模型:更精準的文字理解能力,圖文匹配更準確,畫面效果更優美,擅長對中國文化元素的創作
9、;豆包豆包 Function call 模型:模型:提供更加準確的功能識別和參數抽取能力,適合復雜工具調用的場景;豆包豆包 向量化模型:向量化模型:聚焦向量檢索的使用場景,為 LLM 知識庫提供核心理解能力,支持多語言。圖圖2 剛發布時剛發布時的豆包大模型家族的豆包大模型家族 資料來源:火山引擎官微,HTI 2024 年 6 月,智源研究院旗下的 FlagEval 大模型評測平臺發布最新評測榜單。榜單顯示,在閉源大模型的“客觀評測”中,豆包大模型(Doubao-Pro-4k)以綜合評分 75.96 分排名第二,僅次于 GPT-4,是得分最高的國產大模型。在“主觀評測”中,豆包大模型同樣排名第二
10、。FlagEval 大模型評測平臺由智源研究院與多個高校團隊共建,以人類認知能力的發展階梯為基準,對齊大模型所能達到的認知水平。FlagEval 構建了大量原創的非公開評測集,確保評測質量和公正性。自 2023 年 6 月上線以來,FlagEval 已完成了 1000 多次覆蓋全球大模型的評測。評測成績顯示,豆包大模型(Doubao-Pro-4k)的數學能力、知識運用、任務解決等多項能力在客觀評測和主觀評測中都有著出色表現。其中,知識運用和數學能力得分排名客觀評測第一、主觀評測前三,任務解決測試得分在主客觀評測中均排名前三。圖圖3 2024 年年 6 月的月的 FlagEval 大模型評測能力
11、榜單(客觀評測)大模型評測能力榜單(客觀評測)資料來源:火山引擎官微,HTI 在隨后的日子里,豆包大模型不斷升級,其家族也不斷壯大。2024 年年 8 月,月,豆包大模型正式支持實時語音通話。豆包大模型正式支持實時語音通話?;鹕揭嫱瞥隽藢υ捠?AI 實時交互解決方案,搭載火山方舟大模型服務平臺,通過火山引擎 RTC 實現語音數據的高效采集、處理和傳輸,并深度整合豆包 語音識別模型和豆包 語音合成模型,簡化語音到文本和文本到語音的轉換過程,提供卓越的智能對話和自然語言處理能力,幫助應用快速實現用戶和云端大模型的實時語音通話。豆包豆包 語音合成模型:語音合成模型:解鎖豆包同款音色,提供自然生動的
12、語音合成能力,善于表達多種情緒,演繹多種場景。豆包豆包 語音識別模型:語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別?;鹕椒街郏夯鹕椒街郏禾峁┠P途{、推理、評測等全方位功能與服務,提供豐富的插件生態和 AI 原生應用開發服務,全方位保障企業級 AI 應用落地。2024 年年 9 月,豆包月,豆包 視頻生成模型正式上線。視頻生成模型正式上線。2024 年 9 月 24 日,2024 火山引擎 AI 創新巡展在深圳舉辦,豆包大模型家族迎來新成員:豆包豆包 視頻生成模型視頻生成模型。豆包 視頻生成模型能遵從復雜 prompt,解鎖時序性多拍動作指令與多個主體間的交互能
13、力。還可以讓視頻在主體的大動態與鏡頭中炫酷切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力,靈活控制視角,帶來真實世界的體驗。此外,豆包視頻生成模型成功攻克多鏡頭切換時一致性的技術挑戰,在一個prompt 內實現多個鏡頭切換,同時保持主體、風格、氛圍的一致性。豆包 視頻生成模型還支持包括黑白、3D 動畫、2D 動畫、國畫等多種風格,包含1:1、3:4、4:3、16:9、9:16、21:9 六個比例,適配于各種終端,以及電影、手機豎屏等不同畫幅。圖圖4 豆包豆包 視頻生成模型視頻生成模型支持多種畫面比例支持多種畫面比例/風格風格 資料來源:火山引擎官微,HTI 在2024年9月的火山引
14、擎AI創新巡展上,豆包豆包 音樂模型、豆包音樂模型、豆包 同聲傳譯模型同期同聲傳譯模型同期面世。面世。豆包 音樂模型能夠讓用戶“實現高品質的音樂創作自由”:(1)歌詞更精準,僅需幾個字,就能生成情感表達精準的歌詞。(2)旋律更多樣,提供 10 余種不同的音樂風格和情緒表達。(3)演唱更真實,基于豆包語音能力,媲美真人演唱效果。(4)創作門檻低,支持圖片成曲、靈感成曲、寫詞成曲多種創作方式。豆包 同聲傳譯模型則讓跨語言溝通“更無障礙”。(1)實時翻譯:超低延時,邊說邊譯,實時翻譯溝通無障礙。(2)精準自然:翻譯流暢自然、準確率高,在辦公、法律、教育等場景接近甚至超越人類同傳水平。(3)支持音色克
15、?。褐С挚缯Z言同音色翻譯,以更強聲音表現力打破溝通壁壘。此外,創新巡展上,豆包大模型團隊宣布豆包通用模型 pro 和文生圖模型、語音合成模型等垂類模型大幅升級。不斷增加的各類模態以及規?;恼{用量讓豆包大模型“更強模型、更低價格、更易落地更強模型、更低價格、更易落地”的優勢持續凸顯。的優勢持續凸顯。其中,主力模型“豆包通用模型pro”最新版本在各維度上國內領先,模型效果持續增強。圖圖5 2024 年年 9 月月豆包通用模型豆包通用模型 pro 最新版本性能不斷升級最新版本性能不斷升級 資料來源:火山引擎官微,HTI 2024 年年 12 月,豆包視覺理解模型正式發布,通用模型能力全面對齊月,豆
16、包視覺理解模型正式發布,通用模型能力全面對齊 GPT-4o。2024 年 12 月 18 日,在火山引擎 Force 原動力大會上,豆包大模型家族公布新成員“豆包 視覺理解模型”。它不僅具備強大的視覺感知能力,還能融合視覺與語言輸入,進行綜合的深度思考和創作。根據圖像信息,豆包 視覺理解模型可以完成諸多復雜的邏輯計算任務,包括解微積分題、分析論文圖表、診斷真實代碼問題等挑戰性任務。通過豆包 視覺理解模型,用戶可以同時輸入文本和圖像相關的問題,模型經綜合理解,可給出準確的回答。這將極大地簡化開發流程,解鎖更多的大模型價值場景。豆包 視覺理解模型提供三大能力:更強的內容識別能力更強的內容識別能力
17、豆包 視覺理解模型有非常強的內容識別能力,不僅可以識別出圖像中的物體類別、形狀、紋理等基本要素,還能理解物體之間的關系、空間布局以及場景的整體含義,甚至背后的文化知識。具體來說,視覺理解模型不僅可以識別現實中的物品,還能根據光影、輪廓、位置等特征,一眼識別出小動物的影子,并“認出”這是一只貓。圖圖6 豆包豆包 視覺理解模型視覺理解模型內容識別能力優秀內容識別能力優秀 資料來源:豆包大模型團隊官微,HTI 更強的理解推理能力更強的理解推理能力 豆包 視覺理解模型也具備出色的理解和推理能力。模型不僅能識別圖文信息,還能進行復雜的邏輯計算。拍下一道需要進行微積分運算的數學題,豆包 視覺理解模型能很好
18、地理解圖片問題,并根據提示詞進行對應的推理計算,給出答題思路。圖圖7 豆包豆包 視覺理解模型視覺理解模型理解推理能力突出理解推理能力突出 資料來源:豆包大模型團隊官微,HTI 更細膩的視覺描述能力更細膩的視覺描述能力 除卻識別與理解推理能力,豆包 視覺理解模型還有著非常細膩的視覺描述和創作能力。當用戶想設計一款文創產品贈送客戶,模型可基于產品的造型或寓意寫一段真摯走心的祝福語。本報告來源于三個皮匠報告站(),由用戶Id:93117下載,文檔Id:187354,下載日期:2025-01-02 圖圖8 豆包豆包 視覺理解模型視覺理解模型擁有細膩的視覺描述能力擁有細膩的視覺描述能力 資料來源:豆包大
19、模型團隊官微,HTI 除發布視覺理解模型之外,2024 年 12 月的火山引擎 Force 原動力大會現場還官宣了豆包語言大模型的升級。相比 2024 年 5 月版本,豆包最強模型 Doubao-pro 能力大幅提升。面向 MMLU_pro評測集,模型綜合能力提升 32%,和 GPT-4o 持平,使用價格僅為 GPT-4o 的八分之一。圖圖9 Doubao-pro 綜合能力持平綜合能力持平 GPT-4o 資料來源:豆包大模型團隊官微,HTI Doubao-pro 指令遵循能力提升 9%,代碼能力提升 58%,GPQA 專業知識方面能力提升 54%,數學能力提升 43%,推理能力提升 13%,全
20、面對齊 GPT-4o 水平。圖圖10 豆包通用模型豆包通用模型 pro 性能性能全面升級全面升級 資料來源:火山引擎官微,HTI 豆包音樂模型和文生圖模型也在火山引擎 Force 原動力大會現場發布了升級。豆包 音樂模型,首次發布于 2024 年 9 月,時隔 3 個月后,已能支持 3 分鐘的完整音樂作品生成,實現包括前奏、主歌、副歌、間奏、過渡段等復雜結構的作品創作。此外,全新版本模型可合理運用旋律、節奏、和聲等信息,使全曲保持在風格、情感等音樂元素上的連貫性。如對生成歌詞不滿意,還可進行局部修改,給原調賦新詞,讓音樂創作更自由靈活。文生圖模型則新增“一鍵 P 圖,一鍵海報”技能?;诙拱?/p>
21、模型團隊成果SeedEdit,豆包文生圖模型2.1版支持通過自然語言對圖像進行“一鍵P圖”,包括換裝、美化、涂抹、風格轉化等任意編輯指令。同時,豆包文生圖模型還支持“一鍵海報”,可實現精準控制的文字圖案生成。通過打通 LLM和DiT構架,豆包文生圖模型構建了高質量文字渲染能力,可大幅提升文字生成準確率。這種原生的文字渲染能力,讓文字與整體畫面的融合更為自然和實用。此外,面向 3D 仿真領域,豆包大模型家族還新發布了 3D 生成模型,該模型采用3D-DiT 架構,可生成高質量 3D 模塊。該模型與火山引擎數字孿生平臺 veOmniverse 結合使用,可以高效完成智能訓練、數據合成和數字資產制作
22、,成為一套支持 AIGC 創作的物理世界仿真模擬器。舉例來說,用戶只需輸入文本,即可實時生成并搭建起一個工廠車間場景。通過快速批量生成并上傳至云空間,布局師可實時調用并完成場景設計,提升創作效率和協作體驗。圖圖11 豆包豆包 3D 模型示例模型示例 資料來源:豆包大模型團隊官微,HTI 自 2024 年 5 月豆包大模型家族正式發布,到 12 月冬季原動力大會,短短 7 個月時間,豆 包 大 模 型 團 隊 發 布 了 Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、SeedEdit、視頻生成模型、視覺理解模型等多項重磅成果,在語言能力、多模態理解與生成、模型推
23、理、代碼生成等方面不斷提升。圖圖12 最新的豆包大模型家族最新的豆包大模型家族 資料來源:火山引擎官網,HTI 注:時間截至 2024 年 12 月 21 日 我們上文提到的 FlagEval 模型評測,截至 2024 年 12 月 21 日的最新結果,在大語言模型總榜的“對話模型”榜單,豆包-pro32k 版本已經位列第一。圖圖13 Doubao-pro 模型模型位列位列 FlagEval 模型評測第一模型評測第一 資料來源:FlagEval 官網,HTI 注:時間截至 2024 年 12 月 21 日 而且,豆包大模型的潛力還不僅僅如此,字節跳動的 AI 團隊一直在積極研究各類AI 前沿技
24、術,這也是豆包大模型能力的基石。舉例來講,在語音領域,字節AI團隊判斷相比于WebSocket,為了提供更流暢自然的用戶體驗,適應大模型向多模態方向的快速發展,AI 實時語音方案采用實時通信(RTC)技術更為合適。于是團隊深耕RTC技術,火山引擎的RTC基于成熟的音頻3A處理技術,針對“雙講”通過傳統回聲消除算法和深度學習算法的結合,不僅有效去除回聲,還能避免用戶語音被過度處理,確保云端語音識別(ASR)能準確捕捉和識別用戶的語音信息。此外,火山引擎 RTC 通過簡化算法提高處理速度,避免因算法復雜性帶來的額外延時。簡單簡單來說,這就使來說,這就使得用戶與得用戶與 AI 的交流能夠像和朋友一樣
25、自然,隨時打斷甚至直接插話。的交流能夠像和朋友一樣自然,隨時打斷甚至直接插話。圖圖14 火山引擎對話式火山引擎對話式 AI 實時交互服務方案架構實時交互服務方案架構 資料來源:火山引擎官微,HTI 正是正是通過這一技術,豆包大模型在通過這一技術,豆包大模型在 2024 年年 8 月月宣布宣布支持實時語音通話。支持實時語音通話。又比如,火山引擎就曾經官方表示:“豆包 視頻生成模型生成強大畫面效果的背后,是字節跳動在視頻大模型技術研發的不斷投入?!眻D圖15 豆包豆包 視頻生成模型運用的相關技術視頻生成模型運用的相關技術 資料來源:火山引擎官微,HTI 而而豆包大模型團隊豆包大模型團隊的的 AI 前
26、沿前沿技術研究從未止步技術研究從未止步,僅僅在,僅僅在 2024 年年 11 月,豆包大模月,豆包大模型團隊就發布了多項技術型團隊就發布了多項技術進展。進展。2024 年 11 月 1 日,豆包大模型團隊豆包大模型團隊宣布宣布與香港大學聯合提出與香港大學聯合提出 HybridFlow(開源項(開源項目名:目名:veRL),一個靈活且高效的),一個靈活且高效的 RL(強化學習)(強化學習)/RLHF(人類反饋強化學習)(人類反饋強化學習)框架??蚣?。該框架采用混合編程模型,融合單控制器(Single-Controller)的靈活性和多控制器(Multi-Controller)的高效性,可更好實現
27、和執行多種 RL 算法,顯著提升訓練吞吐量,降低開發和維護復雜度。實驗結果表明,HybridFlow 在運行各種 RL(HF)算法時,吞吐量相較 SOTA 基線提升了 1.5-20 倍。圖圖16 HybridFlow 能有效減少模型參數在兩個階段之間的重分片和通信開銷能有效減少模型參數在兩個階段之間的重分片和通信開銷 資料來源:豆包大模型團隊官微,HTI 2024年 11月 20日,豆包大模型團隊包大模型團隊宣布宣布提出提出 SuperClass,一個簡單且高效的預訓,一個簡單且高效的預訓練方法。練方法。該方法首次舍棄文本編碼器,直接使用原始文本的分詞作為多分類標簽,無需額外的文本過濾或篩選,
28、比 CLIP(可謂 AI 大模型中的“眼睛”。該模型通過將圖像與文本對齊,實現了圖像與語言之間的理解與關聯。近些年來,CLIP 被廣泛應用于視覺理解、圖像問答、機器人/具身智能等多個領域)具有更高的訓練效率。2024年 11月 22日,豆包大模型團隊宣布與北京大學聯合提出 FAN:Fourier Analysis Networks,一種新型神經網絡架構,彌補了,一種新型神經網絡架構,彌補了 Transformer 缺陷。缺陷。FAN 通過引入傅里葉原理,將周期性信息顯式嵌入到網絡結構中,使模型更自然地捕捉和理解數據中的周期性特征,并且可用更少參數量和 FLOPs 無縫替換傳統 MLP 層。圖圖
29、17 MLP Layer 和和 FAN Layer 示例示例 資料來源:豆包大模型團隊官微,HTI 實驗表明,FAN 不僅在周期性建模上表現顯著優于現有模型,而且在符號公式表示、時間序列預測、語言建模、圖像識別等實際任務中,同樣表現超過了 Transformer等主流模型,尤其在域外測試數據上,表現出色。團隊認為,團隊認為,FAN 提供了一種全新范提供了一種全新范式,可有效地對周期性建模,無縫替換傳統式,可有效地對周期性建模,無縫替換傳統 MLP,同時減少參數量和計算量,填補了,同時減少參數量和計算量,填補了當前基礎模型在周期性建模方面缺陷,并展示出廣泛應用潛力。當前基礎模型在周期性建模方面缺
30、陷,并展示出廣泛應用潛力。2024年12月12日,字節跳動更是聯合北京大學共同成立了北京大學字節跳動更是聯合北京大學共同成立了北京大學-字節跳動字節跳動“豆豆包大模型系統軟件聯合實驗室包大模型系統軟件聯合實驗室”,這一實驗室將立足北京大學計算機學院在系統軟件領域的研究積累,依托字節跳動在大模型應用和系統方面的實踐優勢,聚焦人工智能大模型系統軟件研發。團隊多名成員曾在 SIGCOMM、NSDI 等國際頂級會議發表成果,在訓練和推理系統方面,有過豐富的大規模生產環境成功部署經驗,為團隊技術創新奠定了堅實基礎。圖圖18 北京大學北京大學-字節跳動字節跳動“豆包大模型系統軟件聯合實驗室豆包大模型系統軟
31、件聯合實驗室”簽約儀式簽約儀式 資料來源:豆包大模型團隊官微,HTI 正如我們上文所提到的,豆包大模型團隊一直在積極研究各類 AI 前沿技術,這也是豆包大模型能力的基石,部分技術雖然還未落地,但是可以預期的前景十分廣闊。以 HybridFlow 為例,從 ChatGPT 到 o1 等各種大語言模型,強化學習(RL)算法在提升模型性能和適應性方面起著至關重要的作用。在大模型后訓練(Post-Training)階段引入 RL 方法,已成為提升模型質量和對齊人類偏好的重要手段。我們認為,我們認為,HybridFlow作為一個靈活且高效的作為一個靈活且高效的RL/RLHF框架,在可以預期的未來,能夠為
32、字節的??蚣?,在可以預期的未來,能夠為字節的模型訓練帶來重要助力。型訓練帶來重要助力。我們認為,在我們認為,在短短短短 6 個月的時間里,豆包個月的時間里,豆包大模型不斷升級迭代,性能持續提升,大模型不斷升級迭代,性能持續提升,已經成為字節已經成為字節 AI 發展的重要基石,豆包大模型發展的重要基石,豆包大模型從從 FlagEval 模型評測的模型評測的“第二第二”邁向邁向“第第一一”,這這背后代表背后代表的是字節孜孜不倦的技術投入的是字節孜孜不倦的技術投入,這些投入不僅推動了模型能力的持續這些投入不僅推動了模型能力的持續擴展,也擴展,也有效地拓展了豆包大模型的應用邊界,客觀上加速推動了有效地
33、拓展了豆包大模型的應用邊界,客觀上加速推動了 AI 大模型應用的普大模型應用的普及與落地,此外,豆包大模型團隊對及與落地,此外,豆包大模型團隊對 AI 前沿技術的積極研究,更加奠定了未來豆包大前沿技術的積極研究,更加奠定了未來豆包大模型長期發展的基礎,未來豆包大模型的領先優勢有望持續擴大模型長期發展的基礎,未來豆包大模型的領先優勢有望持續擴大,“更強模型更強模型”也有望也有望不斷實現不斷實現。2.“更低價格更低價格”與與“更易落地更易落地”,讓豆包大模型落地千行百業,讓豆包大模型落地千行百業 上文我們提到了字節對于 AI 發展的目標:更強模型:更強模型:大使用量才能打磨出更好模型。豆包大模型目
34、前已經在字節跳動內部50 多個業務、多場景應用中落地,經過千億級日 tokens 的持續打磨,模型能力和推理效果得到市場的廣泛認可。更低價格:更低價格:為了讓每一家企業都能用得起大模型,火山引擎大幅度降低大模型應用推理成本。例如本次登榜的豆包通用模型 pro,其 32k 版模型推理輸入價格僅為0.0008 元/千 tokens。更易落地:更易落地:火山引擎 2023 年發布了一站式大模型服務平臺火山方舟,通過模型即服務的理念,幫助企業在高效、安全的環境里應用各類模型。2024 年 5 月,火山引擎對方舟平臺進行了全面升級,升級后的火山方舟 2.0 將大幅提升模型效果、核心插件、系統性能以及平臺
35、體驗,幫助企業推進大模型的價值創造。其中,更低價格和更易落地,都是為了其中,更低價格和更易落地,都是為了 AI 應用的應用的落地落地和和發展。發展。2024 年 5 月,豆包大模型剛發布的時候,豆包主力模型在企業市場的定價只有0.0008 元/千 tokens,0.8 厘就能處理 1500 多個漢字,比行業便宜 99.3%。以豆包通用模型 pro-32k 版為例,模型推理輸入價格僅為 0.0008 元/千 tokens。而市面上同規格模型的定價一般為 0.12 元/千 tokens,是豆包模型價格的 150 倍。大模型價格,進入“厘時代”。圖圖19 豆包大模型維持豆包大模型維持“極低極低”價格
36、水平價格水平 資料來源:火山引擎官網,HTI 此后,豆包大模型家族維持了“極低”的定價體系,例如新發布的豆包 視覺理解的輸入價格為每千 tokens 0.003 元,比行業平均價格降低 85%,相當于一塊錢可以處理284 張 720P 的圖片,視覺理解模型也正式走進厘時代。圖圖20 豆包豆包 視覺理解模型定價顯著低于行業水平視覺理解模型定價顯著低于行業水平 資料來源:火山引擎官微,HTI 我們認為,我們認為,“極低極低”的的定價定價能夠助力企業以更低成本加速業務創新,讓企業在同等能夠助力企業以更低成本加速業務創新,讓企業在同等甚至稍差的技術水平下更愿意去使用豆包模型,這也帶動了豆包各類應用的廣
37、泛落甚至稍差的技術水平下更愿意去使用豆包模型,這也帶動了豆包各類應用的廣泛落地。地。此外,豆包還積極開發各類開發者工具,助力 AI 應用的落地。2023 年,火山引擎發布了一站式大模型服務平臺火山方舟,希望通過模型即服務的理念,幫助企業在高效、安全的環境里應用各類模型。2024 年 5 月,豆包大模型首次發布時,火山引擎對方舟平臺進行了全面升級,升級后的火山方舟 2.0 將大幅提升模型效果、核心插件、系統性能以及平臺體驗,幫助企業推進大模型的價值創造。在插件和工具鏈上,方舟 2.0 升級了聯網插件,提供頭條抖音同款搜索能力,實時連接海量優質數據,同時使用文本、圖像、語音等多模態交互方式,并通過
38、業內領先的意圖識別能力,大幅提升模型的信息獲取能力;升級內容插件,提供頭條抖音同源海量內容,支持多模態交互,提供基于意圖的垂類內容信息檢索,內容時效檢索更強,幫助大模型深入理解、檢索和生成內容;升級知識庫插件,提供毫秒級百億規模的高性能檢索,秒級流式知識庫索引更新,內嵌豆包向量化模型,提高搜索的相關性和準確性。圖圖21 方舟方舟 2.0 擁有優質插件庫擁有優質插件庫 資料來源:火山引擎官微,HTI 除以上核心插件升級之外,火山方舟 2.0 也全面升級了系統承載能力、安全防護能力和算法服務能力。在系統承載力上,提供充沛的 GPU 算力資源,分鐘級千卡擴縮容的超強彈性,保障業務穩定和成本可控;在安
39、全防護上,通過安全沙箱構建可信的執行環境,多維度的安全架構,保障數據安全;此外,火山引擎提供專業的算法團隊服務,幫助客戶釋放獨有數據價值,讓企業大模型應用輕松落地。此外,火山引擎還正式發布了扣子專業版??圩樱–oze)作為字節跳動推出的新一代 AI 應用開發平臺,具備低門檻、個性化、實時性、多模態等優勢,并集合海量的 AI資源、豐富的發布渠道、一鍵自定義 API服務,幫助填補大模型到用戶場景的最后一公里?;鹕揭嬲桨l布了扣子專業版??圩訉I版在扣子可視化靈活編排智能體的能力基礎上,進一步提供企業級 SLA 和多種高級特性,使 AI 應用更易落地,讓企業更專注于通過智能體創新,驅動業務增長。2
40、024 年 7 月,火山方舟進一步升級了核心插件和智能體能力,以及全周期數據安全可信方案,其中,頭條抖音同款三大插件聯網插件、內容插件和 RAG 知識庫插件能力再次升級,還新增了網頁解析插件和計算器插件,進一步擴寬模型能力的邊界,支持企業多樣的應用需求。智能體是大模型落地有效路徑。為幫助企業“低門檻”開發智能體,火山引擎提供扣子專業版,支持低代碼構建契合企業業務場景的專家型“AIBot”,并通過專業級 SLA 和多種高級特性保障 AI 應用在企業中高效落地?;鹕揭孢€打造了HiAgent企業專屬AI應用創新平臺,幫助企業打通擁抱大模型的最后一公里。HiAgent 能夠從速度、密度、厚度三個維度
41、全方位賦能企業 AI 應用的快速落地與持續優化:速度:HiAgent 將模型應用開發方式從代碼進化到自然語言,業務人員可以利用提示詞、知識庫、插件等工具,像搭積木一樣低代碼搭建智能體,提升應用創新的“速度”。密度:增強的企業級知識庫 RAG,讓知識沉淀萃取成智慧,在企業流程中體現知識的“密度”。厚度:HiAgent 豐富的專屬企業級特性,允許企業自定義新 AI 中臺,并支持混合部署,積累 AI 資產,讓 AI 能力有“厚度”。此外,火山引擎 AI 全棧云依托字節跳動的海量資源共池,支持多芯、多云架構,擁有超大規模算力,支持萬卡集群組網、萬億參數 MoE 大模型;提供超高性能網絡,支持 3.2T
42、bps RDMA 網絡,全球網絡 POP 覆蓋廣,時延優化最高達 75%;提供優質的存儲性能,文件存儲 vePFS 支持 2TB/s 吞吐并行存儲、3000 萬 IOPS;提供毫秒級性能監控,智能 GPU 自愈能力,保障計算資源的穩定運行;提供靈活的資源使用和計費方式,自研 mGPU 容器共享方案,GPU 利用率提升 100%+,為生成式 AI 工作負載提供更高性價比的算力資源;強大的彈性調度能力,支持分鐘級創建千臺實例;提供一站式資源服務和全鏈路數據管理能力,助力企業高效、彈性構建 AI 訓練或推理業務,加速企業實現 AI 應用落地。2024 年 12 月,火山方舟、扣子平臺以及 HiAge
43、nt 等平臺進一步升級,加速了大模型落地,為企業和開發者提供高效的工具?;鹕椒街圩鳛橐徽臼酱竽P头掌脚_,火山方舟憑借 Cache、離線推理模式等產品與升級,以及全新發布的 Prompt 優解,加速大模型能力落地。大模型落地過程中,prompt(提示詞)的編寫,往往是橫在面前的第一道門檻,大模型能力越強,對指示詞、指令的遵循程度也就越高?;鹕揭姘l布 Prompt優解,可以通過“自動+互動”方式協助用戶編寫提示詞,讓用戶在互動中表達需求,快速上手。用機器實現類似人類的反思、類比、錯誤總結能力,全自動優化 prompt,助力企業低成本高效率獲得高質量 prompt。圖圖22 Prompt 優解功
44、能介紹優解功能介紹 資料來源:火山引擎官微,HTI 在價格方面,火山引擎始終把更低、更好的成本和價格放在首位。為進一步踐行“人人用得起,才是好模型”理念,火山引擎發布離線批量推理方案和上下文緩存,幫助用戶實現更為精細化和低成本的運營。以上下文緩存為例,針對有大量聊天、客服對話的連續型客戶需求場景,火山引擎推出 context 上下文緩存記憶方案,無需重復對話就可以保持上下文,可將多輪對話延遲減少 50%,極大改善客戶體驗。同時在命中上下文緩存部分,降低企業使用成本80%。全新扣子 1.5 和 HiAgent 1.5 也在 2024 年 12 月發布??圩涌圩?1.5:(1)開發者生態逐漸完善,
45、超過 100 萬活躍開發者,發布超過 200 萬個智能體。(2)全新的 AI 應用開發環境,支持 GUI 搭建界面,并且可以一鍵發布為小程序、H5、API 等多種應用形態。(3)更強的多模態能力,提供音視頻對話能力,端到端延遲響應低至 1 秒低成本SDK 快速接入各類硬件。(4)海量的精品模板,涵蓋多業務場景,一鍵復制使用。HiAgent 1.5:(1)更懂 AI 轉型:提供觀測&評測體系,保障效果生產可用;提供 100+行業應用模板,企業可開箱即用;提供配套 AI 咨詢,幫助企業找到 AI 落地路徑。(2)更深業務適配:提供豐富的企業級插件、靈活的應用集成機制;GraphRAG 構建知識圖譜
46、,提供細粒度的知識資產管理;生成式畫布融合 CUI 和 GUI,打造智能交互引擎。(3)更強安全保障:支持 RAG 知識庫和大模型全棧私有化部署。此外,豆包大模型最新發布的豆包 視覺理解模型、豆包 文生圖模型 2.1 和豆包 音樂模型,都可以在扣子通過插件的方式體驗,將有助于更多多模態 AI 應用在扣子誕生。圖圖23 火山引擎提供的火山引擎提供的 AI 落地方案落地方案 資料來源:火山引擎官微,HTI 可以看出,除了認真打磨技術,讓模型更強以外,字節一直努力在踐行著“更低價更低價格格”和和“更易落地更易落地”,這也使得字節的大模型,真正的在各行各業遍地開花。早在2024年5月豆包大模型剛發布時
47、,豆包大模型和火山方舟2.0就已經在金融、汽車、智能終端、電商零售、教育科研等多個行業實踐落地。招商銀行、海底撈火鍋、超級猩猩、攜程旅游、飛常準、獵聘等企業也已經在扣子上搭建了智能體。復旦大學、浙江大學等名校也為課程和實驗搭建了“AI 助教”。以招商銀行為例,作為金融行業 AI 轉型的踐行者,招商銀行正在智能外呼、數字人、智能數據助理等上百個 AI 服務場景探索和投入。招商銀行數字金融發展辦公室主任高旭磊就表示,大模型將為銀行全鏈條業務帶來改造和升級。攜手火山引擎,雙方將共建大模型應用場景及高性能基礎設施,改造現有系統和產品,催生大量以 AI 為核心的智能體應用。蒙牛集團也與火山引擎合作夯實技
48、術底座,并構建了 AI 營養專家、AI 育嬰師、AI數據分析師、產品創新助手、熱點創意助手等智能體矩陣,提升前端消費者體驗,助力后端運營人員決策。2024 年 7 月,豆包大模型日均 tokens 使用量超過 5000 億,自 2024 年 5 月 15 日豆包大模型發布的 2 個月內,平均每家企業客戶日均 tokens 使用量增長了 22 倍?,F如今,不少前沿技術已應用于豆包 APP、即夢等 C 端產品,并通過火山引擎服務眾多行業的企業客戶。2024 年 12 月豆包大模型日均 tokens 調用量突破 4 萬億,7 個月增長幅度達 33 倍。尤其在汽車、手機、智能終端等新興行業,豆包大模型
49、調用量增長了 50 倍以上。圖圖24 豆包大模型日均豆包大模型日均 tokens 7 個月時間增速達個月時間增速達 33 倍倍 資料來源:火山引擎官微,HTI 此外,字節還高度重視生態建設,早在豆包大模型正式發布的 2024 年 5 月的 2024春季火山引擎 FORCE 原動力大會上,火山引擎還與 OPPO、vivo、榮耀、小米、三星、華碩宣布成立智能終端大模型聯盟。OPPO 小布助手、榮耀 MagicBook 的 YOYO 助理、小米“小愛同學”、華碩筆記本電腦的豆叮 AI 助手等應用,均已接入火山引擎的大模型服務。此外,字節還組織了火山引擎汽車行業大模型生態聯盟。2024 年 5 月的時
50、候,聯盟已聚合中國電動車百人會、廣汽集團、北汽集團、一汽奔騰、上汽大通、長城汽車、捷途汽車、智己汽車、哪吒汽車、吉祥汽車、東軟睿馳、美行科技、大搜車等眾多汽車產業上下游企業,共同打造汽車大模型生態。當時字節的宣傳語就是:當時字節的宣傳語就是:“大模型大模型定價低于行業價格定價低于行業價格 99%,火山引擎助力車企加速駛入,火山引擎助力車企加速駛入AI 時代時代”。圖圖25 火山引擎汽車大模型生態聯盟首批聯盟成員火山引擎汽車大模型生態聯盟首批聯盟成員 資料來源:火山引擎官微,HTI 汽車大模型生態聯盟也在不斷擴容,在 2024 年 8 月又迎來了領克汽車、吉利銀河、幾何汽車、上汽榮威、上汽名爵、
51、雄獅科技、大圣科技等多位新成員。而在這基礎上,豆包大模型在汽車行業的拓展一騎絕塵,正如上文介紹的,豆包大模型豆包大模型 2024 年年5 月發布到月發布到 2024 年年 12 月,在汽車行業的調用量增長了月,在汽車行業的調用量增長了 50 倍以上,遠超平均值。倍以上,遠超平均值。2024 年 8 月,火山引擎還攜手多點 DMALL 成立零售大模型生態聯盟,通過融合豆包大模型與 AI 能力,讓零售企業能夠以極低的試錯成本將大模型技術應用到業務場景中,推動零售行業的智能化升級,提升行業的整體效能和創新能力,以適應不斷變化的市場需求和消費者行為,加速零售行業的創新步伐。零售聯盟首批成員就包括物美集
52、團、抖音電商、抖音生活服務、百勝、麥當勞、中國飛鶴、海底撈、居然之家、南7-11、重慶百貨、百果園、波司登、天虹、三得利、絕味、名創優品、NielsenIQ、電通等 18 家。我們認為,對生態的重視,也使得豆包大模型能夠更便利的進入不同的行業,并在我們認為,對生態的重視,也使得豆包大模型能夠更便利的進入不同的行業,并在各企業端落地。各企業端落地。而且,值得注意的是,tokens 調用規?;鲩L的同時,豆包大模型在不同場景中都在快速增長、全面開花。我們認為,這說明不同領域企業對于豆包模型不同需求場景下的使用正在不斷深化。圖圖26 豆包大模型在豆包大模型在 10-12 月各應用場景調用量增長月各應
53、用場景調用量增長 資料來源:火山引擎官微,HTI 我們認為,我們認為,“極低極低”的定價能夠助力企業以更低成本加速業務創新,讓企業在同等的定價能夠助力企業以更低成本加速業務創新,讓企業在同等的技術水平下更愿意去使用豆包模型,這也帶動了豆包各類應用的廣泛落地的技術水平下更愿意去使用豆包模型,這也帶動了豆包各類應用的廣泛落地,而不斷,而不斷增加的增加的 tokens 調用量,疊加越來越多的場景覆蓋嗎,使得豆包大模型能力越來越全調用量,疊加越來越多的場景覆蓋嗎,使得豆包大模型能力越來越全面,這就進一步推動豆包大模型變得面,這就進一步推動豆包大模型變得“更強更強”,使得,使得“更強模型更強模型”這一目
54、標能夠進一步實這一目標能夠進一步實現,從而帶動了多個良性循環:現,從而帶動了多個良性循環:模型能力層面:低價模型能力層面:低價+易落地易落地+好模型,使得豆包大模型用戶數持續提升,用戶越好模型,使得豆包大模型用戶數持續提升,用戶越多多,tokens 調用量越大,場景覆蓋越多,從而使得豆包模型能力越來越全面,模型越調用量越大,場景覆蓋越多,從而使得豆包模型能力越來越全面,模型越強,用戶模型使用意愿越強,強,用戶模型使用意愿越強,最終推動最終推動模型能力持續迭代。模型能力持續迭代。而且而且 tokens 調用量越大,字節算力規模越大,算力單位成本越低,模型價格調用量越大,字節算力規模越大,算力單位
55、成本越低,模型價格就能就能進一步下降進一步下降,從而使得用戶模型使用意愿進一步增強,從而使得,從而使得用戶模型使用意愿進一步增強,從而使得 tokens 調用量進一步調用量進一步提升提升,使得算力單位成本進一步下降,最終推動模型價格持續下降使得算力單位成本進一步下降,最終推動模型價格持續下降。展望未來,字節展望未來,字節 AI 的目標:的目標:“更強模型更強模型”、“更低價格更低價格”、“更易落地更易落地”正在推動字節正在推動字節AI 更加高速的落地千行百業,更加高速的落地千行百業,AI 應用爆發的前夜也正離我們越來越近應用爆發的前夜也正離我們越來越近。3.不止豆包,字不止豆包,字節節 AI
56、商業商業布局行以致遠布局行以致遠 2023 年 8 月豆包 APP(由于豆包 AI 應用/豆包 AI 大模型名稱相同,下文如僅用“豆包”二字,則專指豆包 AI 應用,“豆包 xx 模型/大模型”則指代各類豆包 AI 大模型)正式上線。圖圖27 豆包豆包 APP 版示例版示例 資料來源:豆包官微,HTI 伴隨時間的推移,豆包 APP 的應用功能也不斷深化。2024 年 7 月 16 日,豆包瀏覽器插件推出播客總結功能,并不斷優化視頻總結功能,不僅可以總結視頻內容,還能增加多級目錄和思維導圖,方便用戶觀看和消化超長視頻。2024 年 7 月 17 日,三星電子面向中國市場發布新一代 Galaxy
57、Z 系列產品。會上,三星電子與火山引擎官宣合作,為 Galaxy Z Fold6、Galaxy Z Flip6 手機的 Bixby 語音助手和 AI 視覺接入豆包大模型,提升手機的智能應用體驗。2024年8月8日,豆包音樂生成功能上線。用戶在豆包“音樂生成”中輸入主題或歌詞,設定音樂風格、情緒及音色,便能快速生成一首約 1 分鐘的詞曲。2024年9月6日,豆包旗下教育品牌“豆包愛學”完成升級,應用推出作業批改、拍照答疑、作文創作等多項實用功能,以適配家庭教育各類場景。此外,豆包愛學還提供知識問答、AI 搜知識、與歷史名人對話、故事創作等功能,旨在提升用戶綜合素養。2024 年 10 月,豆包
58、App 和電腦版完成多項功能更新。豆包 App 支持上傳附件支持多種音頻文件格式,用戶可快速總結會議錄音、課程記錄等內容。豆包電腦版上線 語音通話功能,支持回復實時信息。2024 年 11 月 11 日,豆包電腦版上線了一項新功能,讓用戶不懂 P 圖也能實現輕松修圖。在豆包電腦版,用戶選擇“圖片生成”,生成圖片后,選擇“繼續編輯”,輸入一句簡單的指令,就能實現一鍵 P 圖。此外,用戶也可以通過“參考圖”入口上傳圖片進行二次加工。2024 年 12 月 5 日,豆包正式支持一鍵生成帶有指定文字的圖片。圖圖28 豆包支持一鍵生成帶有指定文字的圖片豆包支持一鍵生成帶有指定文字的圖片 資料來源:豆包官
59、微,HTI 2024 年 12 月 10 日,豆包電腦版視頻生成功能開啟內測使用,用戶內測申請通過后,在豆包電腦版選擇“視頻生成”,上傳一張圖片輸入提示詞,并添加運鏡、分鏡信息,即可生成一段視頻。不難發現,伴隨豆包大模型的不斷升級迭代,豆包的功能也在不斷更新。舉例來說,2024 年 8 月 9 日,火山引擎宣布豆包大模型支持實時語音通話功能。該功能通過實時通信(RTC)技術,提高了語音數據的傳輸效率和流暢度,適用于 AI 社交陪伴、口語學習、游戲NPC及呼叫中心等場景。而在2024年10月,豆包電腦版就上線語音通話功能。又比如,2024 年 9月 24日,在火山引擎 AI 創新巡展深圳站活動上
60、,豆包視頻生成模型PixelDance與Seaweed正式發布,支持多鏡頭一致性切換及多拍動作與主體復雜交互。在 2024 年 12 月 10 日,豆包電腦版視頻生成功能就開啟了內測使用。圖圖29 豆包豆包電腦電腦網頁版示例網頁版示例 資料來源:豆包官網,HTI 在豆包上線后很長一段時間內,字節官方并沒有進行大量公開宣傳,豆包的官微都是在 2024 年 6 月才發布了第一篇官方文章,但是豆包的流量卻快速提升。2024 年 5 月,豆包大模型正式發布的時候,基于豆包 APP 在蘋果 APP Store 和各大安卓應用市場的表現,豆包豆包 APP 的下載量在的下載量在 AIGC 類應用中已經排名第
61、一。類應用中已經排名第一。2024 年 11 月,根據 AI 產品榜 應用榜(APP),豆包豆包 11 月上榜應用月上榜應用 APP MAU 高達高達5998 萬,對比第二名文小言萬,對比第二名文小言 1299 萬的數據在國內處于斷崖領先的位置。萬的數據在國內處于斷崖領先的位置。在全球范圍內,豆包的豆包的 11 月上榜應用月上榜應用 APP MAU 也能排到第二的位置,僅次于也能排到第二的位置,僅次于 ChatGPT。圖圖30 豆包豆包排名排名 2024 年年 11 月月 AI 產品榜產品榜 國內總榜第一國內總榜第一 資料來源:AI 產品榜官網,HTI 那么究竟是什么帶給了豆包如此強大的流量?
62、我們認為,我們認為,從表面來看,從表面來看,豆包豆包首先首先是一個是一個“好用好用”的的 AI 助手,助手,能滿足能滿足用戶在用戶在多種使多種使用場景下的不同需求用場景下的不同需求。作為一款通用型 AI 產品,豆包致力于去滿足不同用戶具體且真實的需求,讓用戶像開口問身邊的朋友一樣快捷方便地和豆包溝通,真正做到什么都問問豆包。日常生活里各種知識和經驗問答,豆包總能快速為用戶答疑解惑。例如最近上海到了銀杏季節,用戶問豆包“上海哪里可以看銀杏?”,豆包很快就列出了市中心和郊區的觀賞地及特點,并配上了銀杏樹的照片和路線視頻攻略,非常方便。圖圖31 豆包豆包能滿足日常生活中的能滿足日常生活中的多重多重需
63、求需求 資料來源:豆包官微,HTI 在教育學習領域,豆包也能很快很好的滿足學習和教育的各種需求。比如解答奧數題,豆包可以給用戶進行解答。豆包能提供詳盡的解題步驟,引導用戶理解題目解法。如果用戶對某類題目掌握的不太牢固,豆包還可以繼續給用戶出幾道同類知識點題目鞏固練習。英語口語練習也是重要的教育場景。根據用戶反饋,豆包的發音、詞匯量、句型都遠遠超過普通用戶水平。通過豆包實時語音通話功能,用戶可以實現和豆包一來一回練英語,毫不尷尬,也節約了請老師輔導的開銷。此外,生成的英語對話還配有字幕,用戶退出后還可以復習。圖圖32 豆包能滿足豆包能滿足教育領域教育領域中的中的多重多重需求需求 資料來源:豆包官
64、微,HTI 在工作場景中,豆包也能滿足眾多使用場景。以論文這一“問問豆包”的高頻場景為例,用戶不僅可以讓豆包總結,劃詞解釋專業名詞,還可以多追問,不論是圖片還是實驗數據,都可以截圖問問豆包,它都能給出清晰的圖表解釋和實驗含義。此外,文字、圖片、音樂、視頻的創作上,用戶也都會問問豆包。我們認為,豆包的我們認為,豆包的“好用好用”只是其廣受歡迎的最表面,在深層,豆包團隊做出了大只是其廣受歡迎的最表面,在深層,豆包團隊做出了大量的努力。量的努力。首先,豆包團隊努力讓豆包首先,豆包團隊努力讓豆包“接地氣接地氣”、“擬人化擬人化”。在豆包團隊看來,“擬人化”是大模型產品的新特性。AI 除了帶來了新的能力
65、,也帶來了新的交互方式,用和人類對齊的交互體驗,降低使用門檻,也讓用戶在使用產品時感覺到產品有類似人的溫度。為了體現這種擬人的感受,豆包團隊希望產品的名字,就像用戶對一個親密朋友日常稱呼的昵稱。在簡單、好讀、好記的通用原則下。最終,團隊在有點隨意,甚至字節跳動產品與戰略副總裁朱駿都曾表示:“(選中豆包后團隊認為)反正以后如果有更好的名字也還可以改嘛”的情況下,選擇了“豆包”這一親切又有點可愛的名字。豆包上線后,名字的起源引起了眾多用戶的猜測和討論,湊巧的吸引了普通用戶的關注,而且是用戶主動幫豆包想出了兩個有趣的解釋:(1)豆包=抖音的官方 bot,“抖 bot”諧音就是豆包;(2)說豆包=“都
66、包了”,工作生活學習的需求都包了,寓意是通用助手的產品愿景。這兩個解釋最終也都得到了豆包官方團隊的認可。我們認為,豆包的我們認為,豆包的“接地氣接地氣”和和“擬人化擬人化”使得其發布最初,就得到了一波使得其發布最初,就得到了一波“自來水自來水”,同時,也讓其更易于被普通用戶所接受。同時,也讓其更易于被普通用戶所接受。圖圖33 豆包的擬人化形象:可愛女生豆包的擬人化形象:可愛女生 資料來源:豆包官微,HTI 此外此外,豆包團隊,豆包團隊不斷不斷通過各種手段讓豆包更易用、更通過各種手段讓豆包更易用、更“快快”。(1)豆包輸入更方便,所以更豆包輸入更方便,所以更“快快”在產品設計上,豆包團隊一直努力
67、讓用戶的輸入更快更方便。豆包團隊非常注重多模態的輸入和打磨,尤其是語音輸入。輸入速度上來說,普通人的打字速度大概是每分鐘 60 到 80 個字,而普通人的語速每分鐘可以到 250 至 300 字。所以一般情況下,語音輸入效率至少是鍵盤輸入的3倍以上。語音的效率天然更高,更快。同時,豆包的語音能準確轉錄各種語音信號,識別不同語言、方言、口音。豆包對于人名、生詞,也能結合上下文做出準確分析。圖圖34 豆包輸入更方便,所以更豆包輸入更方便,所以更“快快”資料來源:豆包官微,HTI 語音以外,豆包也上線了視覺識別模型。無論是讀心電圖、還是拍奧數題,都依靠視覺輸入。人和世界的溝通中,視覺是很重要的一環。
68、相比用語言描述心電圖上的復雜信息,直接拍下來問問豆包,會更快更方便。(2)豆包離用戶更近,所以更豆包離用戶更近,所以更“快快”2024 年 10 月,豆包團隊發布了 Ola Friend 智能體耳機,其宣傳語即為:“讓豆包,成為隨時隨地陪伴在你耳邊的朋友”。Ola Friend 耳機與豆包 APP 深度結合。在官網和官方宣傳片中,豆包強調了 Ola Friend 能夠在信息查詢、旅游出行、英語學習及情感交流等場景為用戶提供幫助。圖圖35 Ola Friend 耳機與豆包耳機與豆包 App 資料來源:Ola Friend 官網,HTI Ola Friend 耳機這樣輕便的可穿戴設備,讓豆包能夠成
69、為用戶耳邊伴隨的朋友,在路上隨時和豆包對話,最快。運動,逛街,旅行時,用戶無需再拿出手機或其他設備,直接通過耳機就能和豆包對話,快速獲取信息。這種無縫連接的交互方式,讓豆包真正成為了用戶身邊的智能伙伴,陪伴用戶度過每一個需要知識和幫助的時刻。此外,豆包團隊在 2024 年還重點建設了豆包電腦版。用戶可以把電腦版當成瀏覽器,直接打開網頁。在瀏覽中遇到需要提問、翻譯或總結時,直接點擊“問問豆包”,就能輕松喚起,獲得幫助。豆包還即將上線“文檔編輯器”功能,采取全新的交互方式,生成文檔后,用戶可以在畫布中自由編輯,讓 AI 針對特定詞語和段落優化改寫,也可以一鍵全文潤色、調整長度,全網搜圖等,讓創作更
70、輕松。圖圖36 豆包離用戶更近,所以更豆包離用戶更近,所以更“快快”資料來源:豆包官微,HTI (3)豆包模型能力更強,所以更豆包模型能力更強,所以更“快快”豆包的快,究其根本,是背后的豆包大模型幫助用戶做了意圖識別、信息收集、處理、整合和分析。圖圖37 豆包模型能力更強,所以更豆包模型能力更強,所以更“快快”資料來源:豆包官微,HTI 當用戶提出較為復雜的搜索或寫作需求時,豆包快速識別用戶意圖,推理并拆解內容,再進行多步驟分析和推理,并調度搜索,呈現總結后的結果。同時,豆包還能將搜索到的文本信息與視頻內容相結合,為用戶提供更加豐富和直觀的體驗。此外此外,字節還投入了大量資源為豆包引流。字節還
71、投入了大量資源為豆包引流。根據第一財經雜志官方百家號援引廣告情報分析平臺 AppGrowing 統計,豆包智能助手 2024 年 4 月、5 月的投放金額接近1800 萬元,等到 2024 年 6 月上旬,投放金額飆升至 1.24 億元。2024 年年 6月開啟大規模月開啟大規模買量投流后,豆包月活躍用戶(買量投流后,豆包月活躍用戶(MAU)迅速超過競爭對手)迅速超過競爭對手。與此同時,字節還限制了豆。與此同時,字節還限制了豆包的競對產品在抖音平臺的包的競對產品在抖音平臺的廣告投放。廣告投放。圖圖38 2024 年年 6 月豆包月豆包 MAU 迅速超過競爭對手迅速超過競爭對手 資料來源:第一財
72、經雜志官方百家號,HTI 我們認為,我們認為,總結來講,豆包的功能發展全面,并且多端覆蓋,使用門檻又低,日總結來講,豆包的功能發展全面,并且多端覆蓋,使用門檻又低,日常場景夠用,再疊加字節強大的常場景夠用,再疊加字節強大的廣告投放和廣告投放和流量流量效應,豆包的關注度持續提升也就是效應,豆包的關注度持續提升也就是情理之中的事情了。情理之中的事情了。而豆包而豆包也也遠遠不是字節不是字節在在 AI 應用唯一的布局。應用唯一的布局。根據第一財經雜志官方百家號,字節字節目前還在正常運營的目前還在正常運營的 AI應用大約應用大約 20款,其中款,其中絕大部分是在絕大部分是在 2024 年以后發布的。年以
73、后發布的。圖圖39 字節跳動旗下字節跳動旗下 AI 應用應用/硬件硬件 研發團隊研發團隊類型類型產品產品智能助手豆包CiCi(海外)工具集小悟空ChitChop(已停止運營)社交貓箱AnyDoor(海外)圖像星繪PicPic(海外)教育豆包愛學Gauth(海外)圖片/視頻生成即夢AIDreamina(海外)視頻剪輯剪映Capcut(海外)抖音TikTok數字人抖音AI分身(KOL內測)TikTok Al網紅巨量引擎抖音電商內容生成即創智能體開發平臺扣子Coze(海外)編程助手豆包MarsCodeMarsCode(海外)模型分享社區爐米Lumi其他音樂生成海綿音樂Oladance+Flow智能體
74、耳機Ola Friend大力教育智能臺燈大力智能學習燈火山引擎智能玩偶顯眼包Flow剪映硬件硬件應用應用字節跳動開發者服務團隊 資料來源:第一財經雜志官方百家號,HTI 字節的字節的 AI 應用不僅在數量上突出,在市場認可度上也擁有領先地位。應用不僅在數量上突出,在市場認可度上也擁有領先地位。硅谷知名投資機構 a16z,其每 6 個月會深入挖掘數據,分別評選出 50 款領先的生成式 AI Web 應用和 50 款領先的生成式 AI 移動應用,豆包在豆包在 2024 年年 8 月份的最新榜單月份的最新榜單中同時出現在了中同時出現在了 AI Web 應用和應用和 AI移動應用兩個榜單中。移動應用兩
75、個榜單中。此外,字節跳動此外,字節跳動旗下旗下還有還有 4個個應用上榜。應用上榜。在生成式 AI Web 應用榜單,除豆包外,AI 智能體開發平臺 Coze(海外版的“扣子”)、教育類 AI 應用 Gauth 上榜。圖圖40 a16z Top 50 生成式生成式 AI Web 應用榜單應用榜單 資料來源:a16z 官網,HTI 在生成式 AI App 應用榜單,除豆包外,豆包海外版 Cici、圖片編輯類的 AI 應用Hypic 上榜。圖圖41 a16z Top 50 生成式生成式 AI 移動應用榜單移動應用榜單 資料來源:a16z 官網,HTI 根據新浪財經,根據新浪財經,NeurIPS 20
76、24 大會上,前大會上,前 OpenAI 聯合創始人、聯合創始人、SSI 創始人創始人 Ilya Sutskever 發表演講時表示,預訓練作為發表演講時表示,預訓練作為 AI 模型開發的第一階段即將結束。模型開發的第一階段即將結束。在此,我們在此,我們不評價不評價 Ilya 言論正確與否,言論正確與否,我們認為,我們認為,從海內外從海內外 AI 大模型發展速度來看,大模型發展速度來看,客觀上,客觀上,AI技術逐漸從陡峭進入到平緩區間技術逐漸從陡峭進入到平緩區間,AI 商業化落地已經成為事實上商業化落地已經成為事實上 AI 發展的下一階段。發展的下一階段。我們認為,我們認為,過去幾個月來,字節
77、通過成熟的產品技術,親民的產品定位,龐大的過去幾個月來,字節通過成熟的產品技術,親民的產品定位,龐大的流量投入打造了豆包這一目前國內用戶量最大的流量投入打造了豆包這一目前國內用戶量最大的 AI 應用,這使得字節已經走出了一條應用,這使得字節已經走出了一條AI 應用發展的成功道路,獲得了領先于其他競爭對手的獨特的應用發展的成功道路,獲得了領先于其他競爭對手的獨特的 AI 應用落地經驗。應用落地經驗??紤]到字節強大的資本體量和對考慮到字節強大的資本體量和對 AI 商業化商業化的高度重視,字節目前的高度重視,字節目前 20 余款余款 AI 應用應用也許只是個開始,字節已經成為了事實上的中國也許只是個開始,字節已經成為了事實上的中國 AI 商業化旗手,正在商業化旗手,正在 AI 發展的道路上發展的道路上行以致遠。行以致遠。