1、 請務必閱讀正文之后的信息披露和法律聲明 Table_MainInfo 行業研究/信息服務 證券研究報告 行業專題報告行業專題報告 2024 年 05 月 17 日 Table_InvestInfo 投資評級 優于大市優于大市 維持維持 從從 Kimi 展望國產大模型展望國產大模型和應用和應用,“月之暗月之暗面面”的背后是星辰大海的背后是星辰大海 Table_Summary 投資要點:投資要點:緊抓痛點緊抓痛點+局部技術領先,帶來局部技術領先,帶來 Kimi 的高速增長的高速增長。2023 年 10 月 10 日,月之暗面發布了首個支持輸入 20 萬漢字的智能助手產品 Kimi Chat。根據
2、月之暗面官微的口徑,20 萬漢字是當時(2023 年 10 月 10 日)全球市場上能夠產品化使用的大模型服務中所能支持的最長上下文輸入長度,標志著月之暗面在“長文本”這一重要技術上取得了世界領先水平。2024 年 3 月 18 日,月之暗面宣布 Kimi 智能助手在長上下文窗口技術上再次取得突破,無損上下文長度提升了一個數量級到 200 萬字。月之暗面相信,大模型無損上下文長度的數量級提升,也會進一步幫助大家打開對 AI 應用場景的想象力,包括完整代碼庫的分析理解、可以自主幫人類完成多步驟復雜任務的智能體 Agent、不會遺忘關鍵信息的終身助理、真正統一架構的多模態模型等等。根據 AI 產品
3、榜統計,Kimi 的 2 月上榜訪問量達到 305 萬,僅次于阿里通義千問的 365 萬和百度文心一言的 1006 萬,排名國內總榜第三,月之暗面工程副總裁許欣然更是表示,目前 Kimi 平均每個月可能都有 100%以上的增速。我們認為,Kimi 在長文本的技術突破,標志著國內大模型在理解和處理長文內容邁出了重要的一步,為實現大模型更深層次的智能化應用和創新提供了技術支持,加速了 AI 應用的商業落地。國產大模型持續發展,性能逐漸接近世界第一梯隊國產大模型持續發展,性能逐漸接近世界第一梯隊。我們認為,好的 AI 應用與好的 AI 大模型是分不開的,除了 Kimi 背后的月之暗面自研大模型,國內
4、其他大模型目前也正在緊追海外的步伐,部分領軍者已經基本達到了世界一流的水平。2024 年 1 月 30 日,訊飛星火認知大模型 V3.5 正式發布,其其各項能力越來越逼各項能力越來越逼近現在全球最好的近現在全球最好的 GPT-4 Turbo 水平,并且已在語言理解、數學能水平,并且已在語言理解、數學能力上超過了力上超過了GPT-4 Turbo;2023 年 10 月 17 日,百度發布文心大模型 4.0,李彥宏在宣布文心大模型 4.0 發布時表示,其其綜合能力綜合能力“與與 GPT-4 相比毫不遜色相比毫不遜色”;2024 年 01 月 16日,智譜 AI 也推出新一代基座大模型 GLM-4,
5、其整體性能相比上一代大幅提升,十余項指標逼近或達到十余項指標逼近或達到 GPT-4;阿里也在 2023 年 10 月 31 日發布了千億級參數大模型通義千問 2.0。在 10 個權威測評中,通義千問 2.0 綜合性能超過綜合性能超過 GPT-3.5,正在加速追趕正在加速追趕GPT-4;此外,2024年2月2日,商湯發布了“日日新SenseNova 4.0”,多維度全面升級大模型體系,日日新 商量大語言模型-通用版本(SenseChat V4),支持 128K 語境窗口長度,綜合整體評測成績水平比肩綜合整體評測成績水平比肩 GPT-4,相較,相較 GPT-3.5 已已經實現全面超越經實現全面超越
6、。從從 Kimi 展望國產大模型和應用,展望國產大模型和應用,“月之暗面月之暗面”的背后是星辰大海的背后是星辰大海。我們判斷,伴隨著大模型長文本處理能力提升,金融領域、法律領域、教育領域、醫療領域等多個行業有望成為 AI 技術升級的核心受益者,我們認為,除了上述幾個行業意外,其實對于基本所有存在事務性工作的行業,都有可能在這波 AI 升級的浪潮中受益,大模型能夠在短時間內快速分析和總結大量工作文件,如合同、報告、會議記錄等,幫助員工提取關鍵信息,減少人工閱讀時間,提高決策效率,從而持續提升各行業運轉效率,我們認為,伴隨國產大模型的持續升級,2024年有望成為國產大模型全面商業落地的元年,先進的
7、大模型能力也將逐漸轉化為落地實際場景的產品應用,從而帶動大模型在金融、教育、法律、醫療等眾多垂直行業的持續落地,AI2B 與 AI2C 的需求天花板也有望全面打開,在這個過程中,AI 的投資也從映射和跟隨,變為引領。我們相信,從我們相信,從 Kimi 展望國產大模展望國產大模型和應型和應用,用,“月之暗面月之暗面”的背后是星辰大海。的背后是星辰大海。建議關注建議關注。金山辦公、福昕軟件、華宇軟件、通達海、科大訊飛、衛寧健康、創業慧康、久遠銀海、嘉和美康、恒生電子。風險提示風險提示。AI 技術的發展不及預期,AI 商業落地不及預期,市場競爭加劇的風險。行業研究信息服務行業 請務必閱讀正文之后的信
8、息披露和法律聲明 2 目目 錄錄 1.緊抓痛點+局部技術領先,帶來 Kimi 的高速增長.4 2.國產大模型持續發展,性能逐漸接近世界第一梯隊.14 3.從 Kimi 展望國產大模型和應用,“月之暗面”的背后是星辰大海.23 4.建議關注與風險提示.25 9W8XaYfVaVeZdXaY8O9R7NoMmMsQrNjMoOmRjMtRrRbRrRuNxNtOqMMYpPmO 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 3 圖目錄圖目錄 圖 1 月之暗面定位為“尋求將能源轉化為智能的最優解”.4 圖 2 Kimi 官網示例.5 圖 3 利用 Kimi 分析英偉達 Q2 2024
9、 的財報和電話會議.7 圖 4 Kimi 在 AI 產品榜統計的 2 月國內總榜中排名第三.9 圖 5 Kimi 在 AI 產品榜統計的 2 月全球增速榜中排名第一.10 圖 6 Kimi 智能助手啟動 200 萬字無損上下文內測.11 圖 7 星火認知大模型 V3.5 七大能力全面提升.14 圖 8 人民數據AI 大模型綜合能力測評報告測評整體情況一覽表.15 圖 9 文心 4.0 具備更強的理解、生成、邏輯和記憶能力.16 圖 10 GLM-4 大模型各能力測評結果.17 圖 11 GLM-4 網頁瀏覽功能示例.18 圖 12 通義千問 2.0 綜合性能超過 GPT-3.5,正在加速追趕
10、GPT-4.19 圖 13 InternLM-123B 在主要評測集上的表現及與國際其他領先模型的比較.20 圖 14 日日新 商量大語言模型 SenseChat V4 綜合評測成績比肩 GPT-4.21 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 4 1.緊抓痛點緊抓痛點+局部技術領先,帶來局部技術領先,帶來 Kimi 的高速增長的高速增長 月之暗面(Moonshot AI)創立于 2023 年 3 月,致力于尋求將能源轉化為智能的最優解,通過產品與用戶共創智能,2023 年 10 月推出全球首個支持輸入 20 萬漢字的智能助手產品 Kimi。創始團隊核心成員參與了 Goo
11、gle Gemini、Google Bard、盤古 NLP、悟道等多個大模型的研發,多項核心技術被 Google PaLM、Meta LLaMa、Stable Diffusion 等主流產品采用。圖圖1 月之暗面月之暗面定位為定位為“尋求將能源轉化為智能的最優解尋求將能源轉化為智能的最優解”資料來源:月之暗面官網,HTI 根據21世紀經濟報道官方百家號,月之暗面團隊成立不到2個月就獲得了紅杉中國、今日資本、真格基金、礪思資本等知名 VC 投資,目前團隊人數已超 80 人。創始人楊植麟被多家頭部 VC 寄予厚望飽受期待。楊植麟是 Transformer-XL 與 XLNet 等熱門論文的第一作者
12、,兩者均為大語言模型領域的核心技術。同時也是中國 35歲以下 NLP 領域引用最高的研究者;另外兩位聯合創始人周昕宇和吳育昕,則有超過10000+的 Google Scholar 引用。根據月之暗面官微,Monolith 礪思資本創始合伙人曹曦表示:“楊植麟是全球大模型領域里最被認可的華人技術專家,其團隊在人工智能技術,特別是大語言模型 LLM 領域擁有深厚的技術積累,并已在國際上獲得了廣泛認可”。真格基金合伙人戴雨森也表示:“楊植麟作為 XLNet 等多項知名科研工作的第一作者,具備相當豐富的科研和實踐經驗,多年來他一直堅信通過大模型實現對高維數據的壓縮是人工智能發展的必經之路,也團結了一支
13、人才密度超高,配合默契,又充滿挑戰巨頭搖滾精神的創業團隊?!痹轮得嬖诙嗄B相關技術上多有儲備,團隊成員曾發明了包括基于對比學習的視 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 5 覺預訓練范式 MoCo、最高效的視覺網絡結構之一 ShuffleNet 等,也有團隊成員主導開發了 detectron2,后者是一個被廣泛使用的視覺開源項目,曾被集成到 Meta 全線 VR/AR產品中。創始人楊植麟畢業于清華大學,師從唐杰教授;之后獲得卡內基梅隆大學計算機博士學位,師從蘋果公司人工智能負責人 Ruslan Salakhutdinov?!霸轮得妗边@個名字,來源于搖滾樂隊 Pink
14、Floyd 的著名專輯The Dark Side of the Moon(月之暗面)。據創始人楊植麟介紹,這個名字象征著神秘與未知,與公司在人工智能領域的探索精神相契合,此外公司成立的日期正好是這張專輯發行的 50 周年。根據鈦媒體 AGI 官微,融資方面,成立不到一年內,月之暗面就已完成兩筆融資,總額超過 13 億美元,投資方包括紅杉中國、真格基金、小紅書、美團、阿里等。2024年 2 月的一筆融資成為國內 AI 大模型公司迄今獲得的單輪最大金額融資。兩輪投資后,目前,月之暗面公司估值或達 25 億美元。技術產品層面,成立至今,月之暗面已完成從通用大模型到上層應用的布局。技術產品層面,成立至
15、今,月之暗面已完成從通用大模型到上層應用的布局。其中,大模型基礎層,月之暗面已訓練千億級別的自研通用大模型,并獲得了國內大模型備案大模型基礎層,月之暗面已訓練千億級別的自研通用大模型,并獲得了國內大模型備案審批審批。而在應用層,而在應用層,2023 年年 10 月月 10 日,日,月之暗面月之暗面發布了首個支持輸入發布了首個支持輸入 20 萬漢字的智能萬漢字的智能助手產品助手產品 Kimi Chat。(注:Kimi Chat 后改名為 Kimi 智能助手,下文 Kimi Chat、Kimi、Kimi 智能助手均指同一產品)圖圖2 Kimi 官網官網示例示例 資料來源:Kimi 官網,HTI 根
16、據月之暗面官微的口徑,20 萬漢字是當時(2023 年 10 月 10 日)全球市場上能夠產品化使用的大模型服務中所能支持的最長上下文輸入長度,標志著標志著月之暗面月之暗面在在“長文長文本本”這一重要技術上取得了世界領先水平。這一重要技術上取得了世界領先水平。從技術視角看,參數量決定了大模型支持多復雜的“計算”,而能夠接收多少文本輸入(即長文本技術)則決定了大模型有多大的“內存”,兩者共同決定模型的應用效果。支持更長的上下文意味著大模型擁有更大的“內存”,從而使得大模型的應用更加深入和廣泛:比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多 行業研究信息服務行業 請務必閱讀
17、正文之后的信息披露和法律聲明 6 個網頁的關鍵信息、基于長篇小說設定進行角色扮演等等,都可以在超長文本技術的加持下,成為人們工作和生活的一部分。相比當前市面上以英文為基礎訓練的大模型服務,Kimi Chat 具備較強的多語言能力。例如,Kimi Chat 在中文上具備顯著優勢,實際使用效果能夠支持約 20 萬漢字的上下文,2.5 倍于倍于 Anthropic 公司的公司的 Claude-100k(實測約(實測約 8 萬字),萬字),8 倍于倍于 OpenAI 公司公司的的 GPT-4-32k(實測約(實測約 2.5 萬字)。萬字)。同時,Kimi Chat 通過創新的網絡結構和工程優化,在千億
18、參數下實現了無損的長程注意力機制,不依賴于滑動窗口、降采樣、小模型等對性能損害較大的“捷徑”方案。在月之暗面公司看來,當前大模型輸入長度普遍較低的現狀對其技術落地產生了很大制約。例如:目前大火的虛擬角色場景中,由于長文本能力不足,虛擬角色會輕易忘記重要信息,例如在 Character AI 的社區中用戶經常抱怨“因為角色在多輪對話后忘記了自己的身份,所以不得不重新開啟新的對話”。對于大模型開發者來說,輸入 prompt 長度的限制約束了大模型應用的場景和能力的發揮,比如基于大模型開發劇本殺類游戲時,往往需要將數萬字甚至超過十萬字的劇情設定以及游戲規則作為 prompt 加入應用,如果模型輸入長
19、度不夠,則只能削減規則和設定,從而無法達到預期游戲效果。在另一個大模型應用的主要方向Agent 中,由于 Agent 運行需要自動進行多輪規劃和決策,且每次行動都需要參考歷史記憶信息才能完成,這會帶來了模型輸入的快速增加,同時也意味著不能處理更長上下文的模型將因為無法全面準確的基于歷史信息進行新的規劃和決策從而降低 Agent 運行成功的概率。在使用大模型作為工作助理完成任務的過程中,幾乎每個深度用戶都遇到過輸入長度超出限制的情況。尤其是律師、分析師、咨詢師等職業的用戶,由于常常需要分析處理較長的文本內容,使用大模型時受挫的情況發生頻率很高。而上述所有的問題在大模型擁有足夠長的上下文輸入后都將
20、會迎刃而解。Kimi 可以快速總結分析公眾號長文;Kimi 可以快速完成上市公司財報關鍵信息分析;Kimi 可以快速整理多份發票中所需要的信息;發現了新的算法論文時,Kimi 能夠直接幫你根據論文復現代碼;Kimi 可以理解網頁內容;Kimi 還可以快速閱讀理解整本圖書。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 7 圖圖3 利用利用 Kimi 分析英偉達分析英偉達 Q2 2024 的財報和電話會議的財報和電話會議 資料來源:月之暗面官微,HTI 當模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場景,真正在人們的工作、生活、學習中發揮作用,而且由于可以直接基于
21、全文理解進行問答和信息處理,大模型生成的“幻覺”問題也可以得到很大程度的解決。其實長文本技術的開發,存在一些對效果損害很大的“捷徑”,主要包含以下幾個方面:“金魚金魚”模型,特點是容易模型,特點是容易“健忘健忘”。通過滑動窗口等方式主動拋棄上文,只保留對最新輸入的注意力機制。模型無法對全文進行完整理解,無法處理跨文檔的比較和長文本的綜合理解(例如,無法從一篇 10 萬字的用戶訪談錄音轉寫中提取最有價值的 10 個觀點)?!懊鄯涿鄯洹蹦P?,特點是只關注局部,忽略整體。模型,特點是只關注局部,忽略整體。通過對上下文的降采樣或者 RAG(檢索增強的生成),只保留對部分輸入的注意力機制。模型同樣無法對
22、全文進行完整理解(例如,無法從 50 個簡歷中對候選人的畫像進行歸納和總結)?!膀蝌津蝌健蹦P?,特點是模型能力尚未發育完整。模型,特點是模型能力尚未發育完整。通過減少參數量(例如減少到百億參數)來提升上下文長度,這種方法會降低模型本身的能力,雖然能支持更長上下文,但是大量任務無法勝任。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 8 月之暗面公司認為,走這些捷徑無法達到理想的產品化效果。為了真正做出可用、好用的產品,就應該直面挑戰。具體來看。訓練層面,想訓練得到一個支持足夠長上下文能力的模型,不可避免地要面對如下困難:如何讓模型能在幾十萬的上下文窗口中,準確的 Attend 到
23、所需要的內容,不降低其原有的基礎能力?已有的類似滑動窗口和長度外推等技術對模型性能的損害比較大,在很多場景下無法實現真正的上下文。在千億參數級別訓練長上下文模型,帶來了更高的算力需求和嚴重的顯存壓力,傳統的 3D 并行方案已經難以無法滿足訓練需求。缺乏充足的高質量長序列數據,如何提供更多的有效數據給模型訓練?推理層面,在獲得了支持超長上下文的模型后,如何讓模型能服務眾多用戶,同樣要面臨艱巨挑戰:Transformer 模型中自注意力機制(Self Attention)的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加 32 倍時,計算量實際會增長 1000 倍,這意味著如果只是用樸素的
24、方式實現,用戶需要等待相當長的時間才能獲得反饋。超長上下文導致顯存需求進一步增長:以 1750 億參數的 GPT-3 為例,目前最高單機配置(80 GiB*8)最多只能支持 64k 上下文長度的推理,超長文本對顯存的要求可見一斑。顯著的顯存帶寬壓力:英偉達 A800 或 H800 的顯存帶寬高達 2-3 TiB/s,但面對如此長的上下文,樸素方法的生成速度只能達到 25 tokens/s,使用的體驗相當卡頓。在過去 Kimi 發布前半年多的時間里,月之暗面月之暗面的技術團隊進行了極致的算法和工程的技術團隊進行了極致的算法和工程優化,克服上述重重困難,終于完成了大內存模型的產品化,帶來了首個支持
25、優化,克服上述重重困難,終于完成了大內存模型的產品化,帶來了首個支持 20 萬字萬字輸入的千億參數輸入的千億參數 LLM 產品。產品。月之暗面創始人楊植麟此前在接受采訪時曾表示,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。無損壓縮的進展曾深度依賴參數為王模式,該模式下壓縮比直接與參數量相關,這大大增加了模型的訓練成本和應用門檻,而月之暗面認為:大模型的能力上限(即無大模型的能力上限(即無損壓縮比)是由單步能力和執行的步驟數共同決定的。單步能力與參數量正相關,而執損壓縮比)是由單步能力和執行的步驟數共同決定的。單步能力與參數量正相關,而執行步驟數即上下文長度。行步驟數即上
26、下文長度。月之暗面相信,更長的上下文長度可以為大模型應用帶來全新的篇章,促使大模型從 LLM 時代進入 Long LLM(LLLM)時代:每個人都可以擁有一個具備終身記憶的虛擬伴侶,它可以在生命的長河中記住與你交互的所有細節,建立長期的情感連接。每個人都可以擁有一個在工作環境與你共生(co-inhabit)的助手,它知曉公域(互聯網)和私域(企業內部文檔)的所有知識,并基于此幫助你完成 OKR。每個人都可以擁有一個無所不知的學習向導,不僅能夠準確的給你提供知識,更能夠引導你跨越學科間的壁壘,更加自由的探索與創新。當然,更長的上下文長度只是月之暗面在下一代大模型技術上邁出的第一步。月之暗面計劃憑
27、借該領域的領先技術,加速大模型技術的創新和應用落地,不斷取得更多突破。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 9 Kimi 智能助手初次亮相后,憑借約 20 萬漢字的無損上下文能力,幫助用戶解鎖了很多新的使用場景,包括專業學術論文的翻譯和理解、輔助分析法律問題、一次性整理幾十張發票、快速理解 API 開發文檔等,獲得了良好的用戶口碑和用戶量的快速增長。根據 AI 產品榜統計,Kimi 的 2 月上榜訪問量已經達到 305 萬,僅次于阿里通義千問的 365 萬和百度文心一言的 1006 萬,排名國內總榜第三。圖圖4 Kimi 在在 AI 產品榜統計的產品榜統計的 2 月國內
28、總榜中排名第三月國內總榜中排名第三 資料來源:AI 產品榜官網,HTI 與此同時,Kimi 訪問量增速也在國內超百萬月上榜訪問量的 AI 產品中位居第一,2月達到 107.60%的環比增速,遠超同級別產品。而在全球增速榜中,Kimi 的上榜訪問量增速依然排名第一。根據鈦媒體 AGI 官微,月之暗面工程副總裁許欣然更是表示,目前 Kimi 平均每個月可能都有 100%以上的增速。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 10 圖圖5 Kimi 在在 AI 產品榜統計的產品榜統計的 2 月全球增速榜中排名第一月全球增速榜中排名第一 資料來源:AI 產品榜官網,HTI 2024
29、年 3 月 18 日,月之暗面宣布 Kimi 智能助手在長上下文窗口技術上再次取得突破,無損上下文長度提升了一個數量級到 200 萬字。與此同時,支持 200 萬字上下文的 Kimi 已啟動“內測”。對大模型超長無損上下文能力有需求的用戶,可到 Kimi 智能助手網頁版 kimi.ai 首頁申請搶先體驗。從 20 萬字到 200 萬字,由于沒有采用常規的漸進式提升路線,月之暗面團隊遇到的技術難度也是指數級增加的。為了達到更好的長窗口無損壓縮性能,月之暗面的研發和技術團隊從模型預訓練到對齊、推理環節均進行了原生的重新設計和開發,不走“滑動窗口”、“降采樣”等技術捷徑,攻克了很多底層技術難點。行業
30、研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 11 圖圖6 Kimi 智能助手啟動智能助手啟動 200 萬字無損上下文內測萬字無損上下文內測 資料來源:月之暗面官微,HTI 月之暗面相信,大模型無損上下文長度的數量級提升,也會進一步幫助大家打開對AI 應用場景的想象力,包括完整代碼庫的分析理解、可以自主幫人類完成多步驟復雜任務的智能體 Agent、不會遺忘關鍵信息的終身助理、真正統一架構的多模態模型等等。月之暗面也放出了幾個超長無損上下文的使用場景示例:用戶上傳幾十萬字的經典德州撲克長篇教程后,讓 Kimi 扮演德撲專家為自己提供出牌策略的指導;上傳一份完整的近百萬字中醫診療手冊,
31、讓 Kimi 針對用戶的問題給出診療建議;上傳英偉達過去幾年的完整財報,讓 Kimi 成為英偉達財務研究專家,幫用戶分析總結英偉達歷史上的重要發展節點;上傳一個代碼倉庫里的源代碼,可以詢問 Kimi 關于代碼庫的所有細節,即便是毫無注釋的陳年老代碼也能幫助你快速梳理出代碼的結構。根據月之暗面的口徑,過去要過去要 10000 小時才能成為專家的領域,現在只需要小時才能成為專家的領域,現在只需要 10 分分鐘,鐘,Kimi 就能接近任何一個新領域的初級專家水平。用戶可以跟就能接近任何一個新領域的初級專家水平。用戶可以跟 Kimi 探討這個領域探討這個領域的問題,讓的問題,讓 Kimi 幫助自己練習
32、專業技能,或者啟發新的想法。有了支持幫助自己練習專業技能,或者啟發新的想法。有了支持 200 萬字無萬字無損上下文的損上下文的 Kimi,快速學習任何一個新領域都會變得更加輕松。,快速學習任何一個新領域都會變得更加輕松??焖僬泶罅康馁Y料是很多用戶在工作中經常遇到的挑戰??焖僬泶罅康馁Y料是很多用戶在工作中經常遇到的挑戰?,F在 Kimi 能夠一口氣精讀 500 個,甚至更多數量的文件,幫助用戶快速分析所有文件的內容,并且支持通過自然語言進行信息查詢和篩選,大大提高了信息處理效率。例如,公司 HR 可以基于業務需求,快速從最近的 500 份簡歷中,讓 Kimi 快速找出有某個行業從業經歷,同時從
33、計算機類專業畢業的求職者,更加高效地篩選和識別合適的候選人。從長篇小說、故事或劇本中,重新發現值得玩味的蛛絲馬跡,進行深層細節的挖掘,從長篇小說、故事或劇本中,重新發現值得玩味的蛛絲馬跡,進行深層細節的挖掘,是很多影視娛樂是很多影視娛樂 IP 的愛好者熱衷的事情。的愛好者熱衷的事情。如果將甄嬛傳全集幾十萬字的劇本傳給 Kimi,Kimi 能在不同時間段、各個場景的故事情節中,深入挖掘甄嬛、果郡王的情感線以及和他們孩子的真相?!巴ㄍㄓ萌斯ぶ悄埽ˋGI)的話,無損的長上下文將會是一個很關鍵的基礎技術。從 word2vec 到 RNN、LSTM,再到 Transformer,歷史上所有的模型架構演
34、進,本質上都是在提升有效的、無損的上下文長度?!痹轮得鎰撌既藯钪谗氩┦看饲霸诮邮懿稍L時表示,“上下文長度可能存在摩爾定律,但需要同時優化長度和無損壓縮水平兩個指 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 12 標,才是有意義的規?;??!睆暮芏?Kimi 智能助手用戶的反饋來看,20 萬字的無損長上下文幫助他們打開了新的 AI 應用世界,帶來了更大的價值,但隨著他們嘗試更復雜的任務、解讀更長的文檔,依然會遇到對話長度超出限制的情況。這也是大模型產品的無損上下文長度需要繼續提升的一個直接原因。此外,Kimi 智能助手的智能搜索,同樣離不開大模型的無損長上下文能力。Kimi 主
35、動搜索得到的多篇資料,會作為上下文的一部分交給模型去推理。正是因為 Kimi 大模型支持的上下文窗口足夠長,窗口內的信息損失足夠低,Kimi 智能助手才能輸出高質量的結果,為用戶帶來截然不同的搜索體驗。Kimi 可以根據用戶的問題,主動去互聯網上搜索、分析和總結最相關的多個頁面,生成更直接、更準確的答案。例如,用戶可以讓 Kimi 主動去搜索和對比兩家同領域上市公司的最新財報數據,直接生成對比表格,節省大量的資料查找時間。而傳統的搜索引擎通常只能根據用戶的問題,返回一些參雜著廣告信息網頁鏈接。另一項與大模型的無損上下文能力息息相關的指標是指令遵循(Instruction Following)能
36、力。指令遵循能力主要體現在兩個方面:第一,模型在多輪對話中是否能夠始終遵循用戶的指令,理解用戶的需求;第二,模型是否能夠遵循復雜指令,有時候復雜指令可能長達幾千、上萬字。從產品推出以來的用戶反饋來看,Kimi 智能助手的多輪交互和超長指令遵循能力,也是產品的一項核心優勢。根據鈦媒體 AGI 官微,月之暗面方面表示,從很多 Kimi 智能助手用戶的反饋來看,20 萬字的無損長上下文幫助他們打開了新的 AI 應用世界,帶來了更大的價值,但隨著他們嘗試更復雜的任務、解讀更長的文檔,依然會遇到對話長度超出限制的情況。這也是大模型產品的無損上下文長度需要繼續提升的一個直接原因。此外,Kimi 智能助手的
37、智能搜索,更是離不開大模型的無損長上下文能力。月之暗面指出,正是因為用戶對 Kimi 發出的指令越來越復雜,因此團隊也一直致力于提升 Kimi 能遵循的指令的復雜度、信息檢索能力。同時由于用戶的使用場景從工作逐漸擴展到生活的方方面面,團隊在網頁端之外補齊了微信小程序、iOS 端以及安卓端等。月之暗面工程副總裁許欣然透露,Kimi 充分發揮其作為“硅基生命”的優勢,夜間也在持續不斷地自我進化中。月之暗面聯合創始人周昕宇強調,出于用戶共創的考慮,Kimi的定位比起“聊天機器人”更像一個“智能助手”,因為普通對話對大模型自身迭代的幫助有限。周昕宇表示,對于呼聲很高的提示詞教程,目前已經在準備當中,預
38、計在四月左右發布;同時,多模態模型也在不斷研發,而音頻處理能力同時,多模態模型也在不斷研發,而音頻處理能力、海外版同樣在需求池內。、海外版同樣在需求池內。月之暗面工程副總裁許欣然向鈦媒體 App 表示,月之暗面的 AI Infra(基礎設施)團隊也在持續提升能效比,均是采用自研技術。比起剛發布時,Kimi 在完全相同的硬件條件下響應速度提升了 3 倍。目前,Kimi 智能助手仍完全免費。但隨著用戶群體的擴大和使用量的增長,難免會出現算力不足的情況。月之暗面工程副總裁許欣然透露,2024 年上半年預計開啟商業化模式 除了持續發展 Kimi,根據界面新聞官方百家號,月之暗面聯合創始人周昕宇表示,在
39、在 Sora 發布之前月之暗面就已經有多模態方面的研發,目前發布之前月之暗面就已經有多模態方面的研發,目前正在按照固有節奏推進,正在按照固有節奏推進,預計在預計在 2024 年將會有相關產品發布年將會有相關產品發布。我們認為,月之暗面代表著中國 AI 另一種可能性,即初創公司在某個大模型的細分領域帶來的世界級領先,在 2023 年 10 月,月之暗面就在“長文本”這一重要技術上取得了世界領先水平,而伴隨“200 萬字”級別 Kimi 的發布,月之暗面的領先也有望持續擴大。而 Kimi 則是抓住了某個細分領域的“痛點”的產品,即長文本的分析,這種實際的需求,疊加月之暗面自研的大模型在這個領域的領
40、先技術,共同創造出了 Kimi。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 13 月之暗面創始人兼 CEO 楊植麟在接受騰訊新聞潛望專訪中提到:“我肯定要做我肯定要做AGI 嘛,這是接下來十年唯一有意義的事。嘛,這是接下來十年唯一有意義的事。但不是說我們不做應用?;蛘?,不應該把它定義成一個應用。應用聽起來好像你有一個技術,你想把它用在什么地方,有商業化閉環。但應用不是準確的詞。它跟 AGI 是相輔相成的。它本身是實現 AGI 的手段,也是實現 AGI 的目的。反過來,你如果只關注應用,不關注模型能力迭代,不關注反過來,你如果只關注應用,不關注模型能力迭代,不關注 AGI,貢,
41、貢獻也有限獻也有限?!蔽覀冋J為,伴隨月之暗面在未來持續深耕 AGI,其大模型的技術迭代和應用的落地有望同步推進,共同促進國產 AI 的發展。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 14 2.國產大模型持續發展,國產大模型持續發展,性能逐漸接近世界第一性能逐漸接近世界第一梯隊梯隊 我們認為,好的 AI 應用與好的 AI 大模型是分不開的,除了 Kimi 背后的月之暗面自研大模型,國內其他大模型目前也正在緊追海外的步伐,部分領軍者已經基本達到了世部分領軍者已經基本達到了世界一流的水平。界一流的水平。2024 年 1 月 30 日,訊飛星火認知大模型訊飛星火認知大模型 V3.5
42、 正式發布,正式發布,訊飛星火 V3.5 實現了文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力等七大能力的全面提升。根據與長三角人工智能產業鏈聯盟、中國科學院人工智能產學研創新聯盟等科研機構以及企業共同形成的通用認知智能大模型測評體系的 481 個維度,科大訊飛采用科學測評方法和隨機動態數據對比檢測,訊飛星火訊飛星火 V3.5 的各項能力越來越逼近現在全球最好的各項能力越來越逼近現在全球最好的的 GPT-4 Turbo 水平,并且水平,并且訊飛星火訊飛星火 V3.5 已在語言理解、數學能力上超過了已在語言理解、數學能力上超過了 GPT-4 Turbo。在代碼功能上,訊飛
43、星火訊飛星火 V3.5 已經達到了 GPT-4 Turbo 的 96%。在科研最常用的Python 語言領域,不僅在 HumanEval 的測試集上,而且在真實的測試集上,訊飛星火訊飛星火V3.5 技術測試效果已經實現超過(GPT-4 Turbo)。另外在多模態的理解上,訊飛星火 V3.5達到了 GPT-4V 的 91%,其中語音的多模態能力已經超過 GPT-4 了。在要素抽取和問題生成方面,訊飛星火 V3.5 已經實現超越 GPT-4 Turbo,在概念理解、知識推理和圖文生成方面還有差距,但也在迎頭趕上,像概念理解這些關鍵的能力與GPT-4 Turbo 相比已經差距很小。時空推理和邏輯推理
44、方面,訊飛星火 V3.5 相比 V3.0 已經有了顯著提升,盡管與 GPT-4 Turbo 相比還存在一些差距,但差距并不是很大。如果將其限定在特定領域,并提供專業領域的知識進行學習和訓練,當訊飛星火 V3.5 了解相對明確的應用場景后,其評分可能從 40-50 分提高到 90 多分,甚至在部分應用場景中可以保證萬無一失??偟膩碇v,訊飛星火訊飛星火 V3.5 在各個維度的能力都有提升,對標國際最先進水平。在各個維度的能力都有提升,對標國際最先進水平。數學能力已經超過了 GPT-4 Turbo,代碼能力在 Python 上超過了 GPT-4 Turbo,多模態能力相當于 GPT-4V 的 91%
45、水平。圖圖7 星火認知大模型星火認知大模型 V3.5 七大能力全面提升七大能力全面提升 資料來源:科大訊飛官微,HTI 百度則早在 2023 年 3 月 16 日發布知識增強大語言模型文心一言。文心一言從數萬億數據和數千億知識中融合學習,得到預訓練大模型,在此基礎上采用有監督精調、人 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 15 類反饋強化學習、提示等技術,具備知識增強、檢索增強和對話增強的技術優勢。文心一言的基礎模型 2023 年 5 月升級至文心大模型 3.5,在基礎模型升級、精調技術創新、知識點增強、邏輯推理增強、插件機制等方面創新突破,取得效果和效率的提升。根據百
46、度官微援引人民數據發布的AI 大模型綜合能力測評報告顯示,文心一言不僅綜合評分超越 ChatGPT,位居全球第一,更在內容生態、數據認知、知識問答三大維度評分超越 ChatGPT,且六大維度評分均位列國內大模型榜首。同時,文心一言近 20項細分測評指標排名全球第一,遙遙領先其他國產大模型。多個公開測評顯示,文心大多個公開測評顯示,文心大模型模型 3.5 版支持下的文心一言中文能力突出,甚至有超出版支持下的文心一言中文能力突出,甚至有超出 GPT-4 的表現;綜合能力在評的表現;綜合能力在評測中超測中超過過 ChatGPT,遙遙領先于其他大模型。,遙遙領先于其他大模型。例如,全球領先的 IT 市
47、場研究和咨詢公司IDC 最新發布的AI 大模型技術能力評估報告,2023顯示,根據百度官微援引百度文心大模型 3.5 拿下 12 項指標的 7 個滿分,得到“綜合評分第一,算法模型第一,行業覆蓋第一”三個絕對第一;根據百度官微援引新華網的國內 LLM 產品測試報告中,百度文心一言整體領先,在內容安全、閱讀理解、常識問答,數學運算等維度得分遠超ChatGPT3.5、訊飛星火和 ChatGLM。圖圖8 人民數據人民數據AI 大模型綜合能力測評報告測評整體情況一覽表大模型綜合能力測評報告測評整體情況一覽表 資料來源:百度官微援引人民數據AI 大模型綜合能力測評報告,HTI 2023 年 10 月 1
48、7 日,百度發布文心大模型 4.0,相比 3.5 版本,理解、生成、邏輯、記憶四大能力都有顯著提升。其中理解和生成能力的提升幅度相近,而邏輯和記憶能力的提升則更大,邏輯的提升幅度達到理解的近 3 倍,記憶的提升幅度也達到了理解的 2倍多。百度基于文心大模型研制了智能代碼助手 Comate,從內部應用效果來看,整體的代碼采納率達到 40%,高頻用戶的代碼采納率達到 60%。文心大模型 4.0 在 2023 年 9 月已開始小流量上線,2023 年 9 月-2023 年 10 月一個多月間,效果又提升了近 30%。訓練算法效率自 2023 年 3 月以來已累計提升 3.6 倍,周均的訓練有效率超過
49、 98%。文心大模型 4.0 基本技術架構與 3.0 和 3.5 版本一脈相承,并在多個關鍵技術方向上進一步創新突破。此外,文心大模型 4.0 在輸入和輸出階段都進行知識點增強。一方面,對用戶輸入的問題進行理解,并拆解出回答問題所需的知識點,然后在搜索引擎、知識圖譜、數據庫中查找準確知識,最后把這些找到的知識組裝進 Prompt 送入大模型,準確率好,效率也高;另一方面,對大模型的輸出進行反思,從生成結果中拆解出知識點,然后再利用搜索引擎、知識圖譜、數據庫,以及大模型本身進行確認,進而對有差錯的點進行修正。李彥宏在宣布文心大模型李彥宏在宣布文心大模型 4.0 發布時表示,這是迄今為止最強大的文
50、心大模型,實現了發布時表示,這是迄今為止最強大的文心大模型,實現了基礎模型的全面升級,在理解、生成、邏輯和記憶能力上都有著顯著提升,綜合能力基礎模型的全面升級,在理解、生成、邏輯和記憶能力上都有著顯著提升,綜合能力“與與GPT-4 相比毫不遜色相比毫不遜色”。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 16 圖圖9 文心文心 4.0 具備更強的理解、生成、邏輯和記憶能力具備更強的理解、生成、邏輯和記憶能力 資料來源:百度官微,HTI 2024 年 01 月 16 日,智譜 AI 也推出新一代基座大模型 GLM-4。GLM-4 支持更長上下文;更強的多模態;支持更快推理速度,更
51、多并發,大大降低推理成本;同時 GLM-4 增強了智能體能力?;A能力(英文):GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等數據集上,分別達到分別達到 GPT-4 94%、95%、91%、99%、90%、100%的水平。的水平。指令跟隨能力:GLM-4 在 IFEval 的 prompt 級別上中、英分別達到英分別達到 GPT-4 的的 88%、85%的水平,在的水平,在 Instruction 級別上中、英分別達到級別上中、英分別達到 GPT-4 的的 90%、89%的水平。的水平。對齊能力:GLM-4 在中文對齊能力上整在中文對齊能力上
52、整體超過體超過 GPT-4。長文本能力:在 LongBench(128K)測試集上對多個模型進行評測,GLM-4 性能超過 Claude 2.1;在大海撈針(128K)實驗中,GLM-4 的測試結果為 128K 以內全綠,做到 100%精準召回。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 17 圖圖10 GLM-4 大模型各大模型各能力能力測評結果測評結果 資料來源:智譜 AI 官網,HTI GLM-4 實現自主根據用戶意圖,自動理解、規劃復雜指令,自由調用網頁瀏覽器、Code Interpreter 代碼解釋器和多模態文生圖大模型,以完成復雜任務。簡單來講,即只需一個指令,
53、GLM-4 會自動分析指令,結合上下文選擇決定調用合適的工具。All Tools-文生圖:GLM-4 能夠結合上下文進行 AI 繪畫創作(CogView3,其在文生圖多個評測指標上,相比 DALLE3 約在 91.4%99.3%的水平之間。),如下圖所示,大模型能夠遵循人的指令來不斷修改生成圖片的結果。All Tools-代碼解釋器:GLM-4 能夠通過自動調用 python 解釋器,進行復雜計算(例如復雜方程、微積分等),在 GSM8K、MATH、Math23K 等多個評測集上都取得了接近或同等 GPT-4 All Tools 的水平。同樣 GLM-4 也可以完成文件處理、數據分析、圖表繪制
54、等復雜任務,支持處理 Excel、PDF、PPT 等格式文件。All Tools-網頁瀏覽:GLM-4 能夠自行規劃檢索任務、自行選擇信息源、自行與信息源交互,在準確率上能夠達到 78.08,是 GPT-4 All Tools 的 116%。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 18 圖圖11 GLM-4 網頁瀏覽網頁瀏覽功能功能示例示例 資料來源:智譜 AI 官網,HTI All Tools-Function Call:GLM-4 能夠根據用戶提供的 Function 描述,自動選擇所需 Function 并生成參數,以及根據 Function 的返回值生成回復;同時
55、也支持一次輸入進行多次 Function 調用,支持包含中文及特殊符號的 Function 名字。這一方面 GLM-4 All Tools 與 GPT-4 Turbo 相當。All Tools-多工具自動調用:除了以上單項工具自動調用外,GLM-4 同樣能夠實現多工具自動調用,例如結合 網頁瀏覽、CogView3、代碼解釋器等的調用方式??傮w來講,總體來講,GLM-4 的整體性能相比上一代大幅提升,的整體性能相比上一代大幅提升,十余項指標逼近或達到十余項指標逼近或達到 GPT-4。而阿里也在 2023 年 10 月 31 日發布了千億級參數大模型通義千問千億級參數大模型通義千問 2.0。在。在
56、 10 個權個權威測評中,通義千問威測評中,通義千問 2.0 綜合性能超過綜合性能超過 GPT-3.5,正在加速追趕,正在加速追趕 GPT-4。通義千問 2.0 在性能上取得巨大飛躍,相比 2023 年 4 月發布的 1.0 版本,通義千問2.0 在復雜指令理解、文學創作、通用數學、知識記憶、幻覺抵御等能力上均有顯著提升。通義千問的綜合性能已經超過通義千問的綜合性能已經超過 GPT-3.5,加速追趕,加速追趕 GPT-4。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 19 圖圖12 通義千問通義千問 2.0 綜合性能超過綜合性能超過 GPT-3.5,正在加速追趕,正在加速追趕
57、GPT-4 資料來源:阿里云官微,HTI 在 MMLU、C-Eval、GSM8K、HumanEval、MATH 等 10 個主流 Benchmark 測評集上,通義千問 2.0 的得分整體超越 Meta 的 Llama-2-70B,相比 OpenAI 的 Chat-3.5 是九勝一負,相比 GPT-4 則是四勝六負,與 GPT-4 的差距進一步縮小。中英文理解能力是大語言模型的基本功。英語任務方面,通義千問 2.0 在 MMLU 基準的得分是 82.5,僅次于 GPT-4,通過大幅增加參數量,通義千問 2.0 能更好地理解和處理復雜的語言結構和概念;中文任務方面,通義千問 2.0 以明顯優勢在
58、 C-Eval 基準獲得最高得分,這是由于模型在訓練中學習了更多中文語料,進一步強化了中文理解和表達能力。在數學推理、代碼理解等領域,通義千問 2.0 進步明顯。在推理基準測試 GSM8K 中,通義千問排名第二,展示了強大的計算和邏輯推理能力;在 HumanEval 測試中,通義千問得分緊跟 GPT-4 和 GPT-3.5,該測試主要衡量大模型理解和執行代碼片段的能力,這一能力是大模型應用于編程輔助、自動代碼修復等場景的基礎。2024 年 3 月 14 日,阿里通義千問還推出了免費的文檔解析功能,可解析網頁、文網頁、文檔、論文、圖書檔、論文、圖書,突破當前大模型長文檔處理的天花板。針對單個文檔
59、,通義千問能夠針對單個文檔,通義千問能夠處理超萬頁的處理超萬頁的超超長資料,換算成中文篇幅約長資料,換算成中文篇幅約 1000 萬字;針對多個文檔,可一萬字;針對多個文檔,可一鍵速讀鍵速讀 100份不同格式的資料;還可解析在線網頁。份不同格式的資料;還可解析在線網頁。此外,商湯更是早在 2023 年 6 月便聯合多家國內頂尖科研機構發布了預訓練大語言模型 InternLM,成為國內首個超越成為國內首個超越 GPT-3.5-turbo 性能的基模型。性能的基模型。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 20 圖圖13 InternLM-123B 在主要評測集上的表現及與國際
60、其他領先模型的比較在主要評測集上的表現及與國際其他領先模型的比較 資料來源:商湯集團 2023 半年報,HTI 2024 年 2 月 2 日,商湯發布了“日日新日日新 SenseNova 4.0”,多維度全面升級大模型體系?!叭杖招?SenseNova 4.0”擁有更全面的知識覆蓋、更可靠的推理能力,更優越的長文本理解力及更穩定的數字推理能和更強的代碼生成能力,并支持跨模態交互。日日新 商量大語言模型-通用版本(SenseChat V4),支持 128K 語境窗口長度,綜合整體評測成績水綜合整體評測成績水平比肩平比肩 GPT-4,相較,相較 GPT-3.5 已經實現全已經實現全面面超越。超越。
61、行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 21 圖圖14 日日新日日新 商量大語言模型商量大語言模型 SenseChat V4 綜合評測成績比肩綜合評測成績比肩 GPT-4 資料來源:商湯集團官微,HTI 在大模型發展的背景下,各大科技公司也高度重視 AI 應用的發展與落地?!按竽P痛竽P桶l展,應用才是硬道理發展,應用才是硬道理?!笨拼笥嶏w董事長劉慶峰強調。訊飛星火自 2023 年 5 月誕生以來,不斷迭代升級其大模型能力,深耕千行百業的應用剛需。星火賦能個人應用打造,目前基于訊飛聽見、訊飛星火 APP、訊飛輸入法等應用,已累計賦能億萬用戶。為加速企業大模型應用價值落地,訊
62、飛星火 V3.5 將提供全棧自主可控的優化套件?;谌珖a化算力打造的訊飛星火 V3.5 支持異構算力調度,可實現行業大模型訓練提效 90%,支持23 個企業應用場景的敏捷優化。截止 2024 年 1 月,星火開發者超 35 萬,生態增長迅猛,打造個人應用賦能億萬用戶。訊飛星火賦能千行百業,攜手保險、銀行、能源、汽車、通信等領域龍頭企業,打造大模型賦能的應用標桿。此外,深度適配國產算力的訊飛星火開源大模型“星火開源-13B”首次發布,場景應用效果領先,昇思開源社區聯合首發上線。百度創始人、董事長兼首席執行官李彥宏也表示:“我們一定要去卷我們一定要去卷 AI 原生應用,原生應用,要把這個東西做出
63、來要把這個東西做出來,模型才有價值。模型才有價值?!?023 年 10 月 17 日,百度發布了國內首家一站式交易的 AI 原生應用商店百度智能云千帆 AI 原生應用商店。千帆 AI 原生應用商店上線百天時,累計上線 AI 原生應用超 100 款,涵蓋文案智能創作、AI 作畫、代碼生成、數字人等應用場景,應用數量指數級增長中。一個個新生的 AI 原生應用在這里實現商業化,月活躍用戶超 40 萬,應用周訂單量超 300%增長,部分優質應用購買轉化率達 15%以上。商湯也將先進的大模型能力轉化為落地實際場景的產品應用,基于最新發布的日日新 商量大語言模型 Function call&Assista
64、nts API 版本,完成開發并發布數據分析工具“辦 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 22 公小浣熊”。通過自然語言輸入,辦公小浣熊結合商湯大模型體系的意圖識別、邏輯理解、代碼生成能力,自動將數據轉化為有意義的分析結果和可視化圖表。未來,商湯“日日新SenseNova”大模型體系及相關產品和工具將為實現通用人工智能(AGI)提供精準著力點,助力全場景、多產業實現“大模型+”,拓寬大模型應用邊界。我們認為,2023 年是國產大模型快速發展的元年,在過去一年多的發展時間中,部分領先的國產大模型目前已經實現了對 GPT-3.5 的超越,正在接近世界第一梯隊 GPT-4的
65、水平。國產大模型目前仍在持續發展的過程中,例如科大訊飛董事長劉慶峰就表示:“星火認知大模型2024年將繼續保持快速升級,預計上半年達到GPT-4 Turbo當前最好水平”,而國產大模型在發展中對于算力、數據的需求仍將不斷擴大,而伴隨大模型的升級迭代,應用的落地也有望全面鋪開。行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 23 3.從從 Kimi 展望國產大模型和應用,展望國產大模型和應用,“月之暗面月之暗面”的背后是星的背后是星辰大海辰大海 我們認為,通過針對長文本的快速學習,大模型在某些細分領域能夠起到較為突出的輔助作用,正如月之暗面官微中的介紹:“過去要過去要 10000
66、小時才能成為專家的領域,小時才能成為專家的領域,現在只需要現在只需要 10 分鐘,分鐘,Kimi 就能接近任何一個新領域的初級專家水平。就能接近任何一個新領域的初級專家水平。用戶可以跟 Kimi 探討這個領域的問題,讓 Kimi 幫助自己練習專業技能,或者啟發新的想法。有了支持 200 萬字無損上下文的 Kimi,快速學習任何一個新領域都會變得更加輕松?!蔽覀兣袛?,伴隨著大模型長文本處理能力提升,以下多個行業有望成為 AI 技術升級的核心受益者:1、金融領域:根據新華網轉載的經濟日報的大模型技術對金融業意味著什么一文,從匹配度上看,金融業是典型的數據密集型產業,而大模型技術的一大特征就是具有強
67、大的數據洞察理解能力,可以縮短數據間發生連接與被計算的時間,提高數據創造價值的效率。如果把大模型的能力放在金融業中去處理原有的一些任務,會對很多工作產生提質增效的效果。我們認為,在金融行業日常的工作中,信息處理是一項無可避免的流程,以投研領域為例,分析師往往需要處理大量的信息,包括公司公告、行業新聞、市場交易數據等等,而許多信息都相當繁雜,例如金山辦公 2023 年年報就長達 305 頁,完整細讀將會消耗大量的時間,即使是選取年報中重點領域進行有針對性的研究總結,在一份年報所花費的時間也是以小時計的,這些基礎工作將會給分析師帶來繁重的負擔。而伴隨著大模型長文本處理能力提升,金融領域信息整理歸納
68、的效率也有望迅速提升,舉例來說,Kimi 智能助手目前處理能力上限高達 200w 字,我們簡單做一個假設,一篇年報為 10 萬字,則我們可以一次性讓 Kimi 分析 20 份年報,而通義千問目前能夠處理超萬頁的超長資料,換算成中文篇幅約 1000 萬字,即在我們的假設下其可以同時分析超過 200 份年報,這將大大提升分析師信息整理歸納的效率,從而最終提升整體工作效率。而且,根據月之暗面官微,過去要 10000 小時才能成為專家的領域,現在只需要 10 分鐘,Kimi 就能接近任何一個新領域的初級專家水平。我們認為,這對于需要提供大量 C 端用戶服務的金融領域將帶來全面的革新,以保險領域為例,A
69、I 應用能夠讀取和分析冗長的保險條款、索賠文件等,快速幫助保險人員快速確定保險責任和賠償范圍,簡化理賠流程,提升客戶滿意度,可以說,伴隨長文本處理能力的升級,未來 AI 能夠在短時間內學習更大量的知識,從而成為部分細分業務領域的“初級專家”,從而減少許多過去許多人類進行的工作量。我們認為,金融業作為數據密集型行業,在長期業務發展中,金融機構積累了海量的數據基礎,而且金融業良好的數據資源稟賦與下沉到 C 端用戶服務的特征決定了其很可能是大模型技術率先滲透的領域之一。此外,由于金融相關文檔通常包含大量的專業術語和復雜的數據,對文本處理的準確性和理解能力提出了較高要求,伴隨著大模型長文本處理能力提升
70、,金融行業有望持續受益。2、法律領域 我們認為,由于法律的規范化程序和強制性規定,不可避免地產生很多事務性的工作,例如涉案人員信息的記錄、合同的審查、案件的處理順序、證據的概括、案件卷宗的整理歸檔等等。但是這背后帶來的是海量的卷宗,舉例來說,司法部官網提及的山西李增虎案,僅僅這個案件中,專案組就完成了 1500 余冊卷宗的審查,形成 13000 余頁、650 萬字的辦案材料。這就使得法律行業各參與者在“閱卷”這一必要程序中需要花費巨 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 24 大的時間和精力。根據中共瑞安市委辦公室法治瑞安官微轉載的李杰(江蘇省泰州市中級人民法院)所撰寫
71、的論刑事案件法官心證的形成基于庭審實質化視角下說服責任的考察一文,閱卷在審理過程中是相當重要的一步。一些法官在發表的訪談和撰寫的審判經驗文章里都會明確強調庭前閱卷的重要性,詳細的閱卷是庭前做好充分庭審準備的必備功課,更是法官形成、驗證心證的基本依賴和主要來源。但是閱卷往往需要花費大量的時間,李杰調取了部分樣本案件的開庭時間,如果將法定審限劃分為“前中后”三段來看,開庭時間多集中在審限的中后段,占比高達 92.86%。審限的大量時間用于閱限的大量時間用于閱卷和撰寫文書,真正的庭審時間并不太長,庭審的定案功能被虛化,這與庭審實質化的卷和撰寫文書,真正的庭審時間并不太長,庭審的定案功能被虛化,這與庭
72、審實質化的要求相背離。要求相背離。我們認為,小數量的文本信息可以通過人工來處理,但是面對成千上萬的海量文件,如何進行歸納整理,快速提取文件中的信息,這是現今法律行業面臨的巨大困擾。而伴隨著大模型長文本處理能力提升,對海量數據的快速整理歸納卻成為了可能,舉例來說,通義千問目前能夠處理超萬頁的長資料,換算成中文篇幅約 1000 萬字,上文提到的辦案材料高達 13000 余頁、650 萬字的山西李增虎案能夠一次性被通義千問處理完畢,并在短時間內給出歸納總結。而且,我國司法部門也認識到了人工智能在法律界的重要意義,根據最高人民法院在 2022 年 12 月發布的 最高人民法院關于規范和加強人工智能司法
73、應用的意見(以下簡稱意見),總體目標就是到 2025 年,基本建成較為完備的司法人工智能技術應用年,基本建成較為完備的司法人工智能技術應用體系,為司法為民、公正司法提供全方位智能輔助支持,顯著減輕法官事務性工作負擔體系,為司法為民、公正司法提供全方位智能輔助支持,顯著減輕法官事務性工作負擔,有效保障廉潔司法,提高司法管理水平,創新服務社會治理。到 2030 年,建成具有規則引領和應用示范效應的司法人工智能技術應用和理論體系,為司法為民、公正司法提供全流程高水平智能輔助支持,應用規范原則得到社會普遍認可,大幅減輕法官事務性工大幅減輕法官事務性工作負擔作負擔,高效保障廉潔司法,精準服務社會治理,應
74、用效能充分彰顯。并且意見在應用范圍中專門談到“加強人工智能輔助事務性工作。加強人工智能輔助事務性工作。支持電子卷宗自動分類歸目、案件信息自動回填、案件繁簡分流、送達地址及方式自動推薦、司法活動筆錄自動生成、執行財產查控輔助、電子卷宗自動歸檔等智能化應用,降低各類人員工作負擔,提高司法效率?!蔽覀冋J為,對于天然需要在海量文件中快速進行歸納整理、信息提取的法律行業,大模型長文本處理能力的提升恰恰直擊了行業痛點,有望持續提升行業各類從業者的工作效率,從而帶動整個行業良性發展。3、教育領域:我們認為,伴隨著大模型長文本處理能力提升,大模型有望在教育領域承擔多個細分任務。從學生的角度來看,我們認為,伴隨
75、教育層次的不斷提升,學生往往也需要接觸大量的學習資料,以醫學生為例,根據大連醫科大學官微,生理學有 122 萬字,外科學有 227.5 萬字,而內科學更是有 248.3 萬字,過去大模型很難一次性整理、理解這些資料和內容,但是伴隨著大模型長文本處理能力提升,例如 Kimi 就可以通過一次性讀完生理學這本課本,通義千問更是可以一次性讀完上述三本課本,并且在短時間內完成重點的整理歸納,從而提升學生的學習效率。根據阿里云官微,考試復習人群還可以把大模型當做學習助手,做摘要、劃重點,進行有的放矢的問答學習。從教師的角度來看,我們認為,大模型現在可以同時分析多份資料,能夠幫助教師短時間內通過日常作業分析
76、來識別出不同學生的學習狀況,進行學情分析,而且大模型在學習了海量資料后,還能夠成為“初級專家”,輔助老師合學生學習現狀和學習表現對教學內容及活動進行個性化定制,此外,在考完試后,大模型也能夠同時分析多份試卷,匯總各群體考試結果,生成考試的相關情況說明并歸結錯因用于輔助老師的精準教學。我們認為,伴隨著大模型長文本處理能力提升,AI 與教育的結合有望更加緊密,各 行業研究信息服務行業 請務必閱讀正文之后的信息披露和法律聲明 25 類 AI 輔助類的教育應用效果也有望進一步提升,從而持續提升 AI 在教育行業各細分領域的滲透率。4、醫療領域:根據田偉院士等發表在中國工程科學2023 年第 25 卷第
77、 5 期的人工智能與機器人輔助醫學發展研究,醫學 AI 的獨特之處在于,通過 AI 算法處理并分析大量的醫療數據(如醫學圖像、病歷記錄、基因組學數據),可以輔助醫生快速且準確地作出診斷和治療決策;也可依托自然語言處理、機器學習等技術,從海量的醫學文獻中快速提取有價值的信息,為醫生提供前沿進展與治療方案建議。隨著 AI 技術的加速發展,醫學AI 應用更為豐富,甚至變革了疾病的檢測、診斷、治療模式,成為居民健康的增量保障。我們認為,伴隨著大模型長文本處理能力提升,各類 AI 應用能夠通過同時處理多份醫療檢測報告、病歷記錄等長文本資料,達到輔助醫生快速理解多個不同患者的健康狀況的效果,從而進一步為診
78、斷和治療提供參考,提高醫療服務的效率和質量。上文我們提到的只是部分有望在大模型長文本處理能力提升背景下受益的行業,我們認為,其實對于基本所有存在事務性工作的行業,都有可能在這波 AI 升級的浪潮中受益,大模型能夠在短時間內快速分析和總結大量工作文件,如合同、報告、會議記錄等,幫助員工提取關鍵信息,減少人工閱讀時間,提高決策效率,從而持續提升各行業運轉效率。我們認為,伴隨國產大模型的持續升級,2024 年有望成為國產大模型全面商業落地的元年,先進的大模型能力也將逐漸轉化為落地實際場景的產品應用,從而帶動大模型在金融、教育、法律、醫療等眾多垂直行業的持續落地,AI2B 與 AI2C 的需求天花板也有望全面打開,在這個過程中,AI 的投資也從映射和跟隨,變為引領。我們相信,從我們相信,從 Kimi 展望國產大模型和應用,展望國產大模型和應用,“月之暗面月之暗面”的背后是星辰大海。的背后是星辰大海。4.建議關注與風險提示建議關注與風險提示 建議關注:建議關注:金山辦公、福昕軟件、華宇軟件、通達海、科大訊飛、衛寧健康、創業慧康、久遠銀海、嘉和美康、恒生電子。風險提示:風險提示:AI 技術的發展不及預期,AI 商業落地不及預期,市場競爭加劇的風險。