《久謙:135頁ChatGPT紀要分享(135頁).pdf》由會員分享,可在線閱讀,更多相關《久謙:135頁ChatGPT紀要分享(135頁).pdf(135頁珍藏版)》請在三個皮匠報告上搜索。
1、久謙|服務進步的群體|1 保密 ChatGPT 紀要分享 久謙中臺 二三年二月 本紀要僅基于本所迄今為止可獲得的信息編寫。未經久謙咨詢事先書面同意,任何其他人士或實體不得使用本紀要,本紀要亦不能用于任何其他目的。即使在經久謙咨詢同意的情況下向任何其他人士或實體披露了本紀要,久謙咨詢不會就本紀要的內容對該等其他人士和實體承擔任何責任。久謙久謙 久謙|服務進步的群體|2 觀點觀點總結總結 1 ChatGPT 是社會發展的是社會發展的必然必然結果結果,2030 年數字化勞動力市場規??蛇_年數字化勞動力市場規??蛇_ 1.73 萬億萬億元元 a ChatGPT 催生路徑=社會問題+技術迭代 i 2008
2、 年全球金融危機-云計算產業-人工智能 ii 2020 年全球疫情-經濟壓力-企業降本增效-加快數字勞動力發展(文字工作者、方案策劃師、程序員等)-NLP 技術賦能 b ChatGPT 技術路徑=Transformer 結構-1,750 億參數+巨大算力+單一模型+文字問答 i 冷啟動監督策略模型:Transformer-GPT-GPT2-GPT3-ChatGPT ii 訓練回報模型:機器學習-人類訓練師+人工智能助手-結果以質量排序 iii 使用強化學習策略:隨機指令+初始化 PPO 模型參數-更新模型 2 中短期內中短期內 ChatGPT 對產業生態不會帶來實質性的顛覆對產業生態不會帶來實
3、質性的顛覆,產業鏈參與者產業鏈參與者仍有仍有機會機會 a 技術痛點:新數據不友好+預訓練模型(數據集積累僅截至 2021 年)i 新數據:未能建立和實時信息的連接 ii 預訓練模型:如何保持實時更新 iii 產品體驗:未達到理想狀態(未必能超越垂直類產品)b 商業痛點:不開源+商業模式不清晰+運營成本高 i To C-To B(微軟-應用在 Office 中)ii 潛在廣告收入少-短期內無法替代搜索引擎=俱進且并存 iii 開發成本+企業使用成本 3 國內企業的入場機會國內企業的入場機會和發展現狀和發展現狀 a 大廠:百度-字節-騰訊-阿里-自研趨勢 i 百度(文心一言-ERNIEBot):自
4、主研發平臺+文心大模型+預訓練大模型積累=To B(付費意愿穩定)+To C 產品 ii 字節:AIGC(短視頻+圖文)-數據+算法=語言處理模型 iii 阿里:AIGC(營銷)iv 騰訊:AIGC(廣告+社交+游戲)b 小廠:入局機會小,可作為大廠客戶接入 i 技術積累薄弱+數據訓練基礎及經驗不足+數據庫及人力資源受限 ii 布局大廠下游 To B 應用端產品(需等待大廠開放 B 端應用接入)c 阻力:技術+硬件+政策 i 中美 ChatGPT 發展仍存差距:模型+規模-訓練程度-回答的邏輯性+完整度-API 調用-企業生態 ii 芯片:算力瓶頸 iii 監管政策:國內引入 ChatGPT
5、政策尚未完善+規章制度尚未建立 4 產業鏈機會產業鏈機會及相關標的及相關標的 a 上游數據處理+下游智能應用 i 數據標注+算力+數據清洗+數據采集 ii 智能客服+聊天機器人 久謙久謙 久謙|服務進步的群體|3 b 計算機:算法+算力+數據 i 算法:科大訊飛、拓爾思(NLP)、??低暎▓D像識別)、云從科技(圖像識別)、格林深瞳(圖像識別)ii 算力:海光信息(DCU)、寒武紀(AI 芯片)、景嘉微(GPU)iii 數據:天瑞聲 c 傳媒:平臺+光模塊+運營商 i 平臺:中文在線、視覺中國、昆侖萬維 ii 光模塊:中際旭創(800G 光模塊龍頭+最早放量+最高份額和訂單+股權激勵+估值水平
6、較低)iii 中國移動 5 ChatGPT 未來迭代和產業輻射未來迭代和產業輻射 a 基礎=純粹創新精神+長期主義:創新型+投入+決心+頂尖人才儲備 b 支點=算力+GPU+商業模式 i 大算力+大模型 ii 芯片:國產化替代 iii 知識定制化:特定領域數據(醫療、司法)iv 產業廠商合作:大公司-訓練大模型+小公司-數據收集-商業化 v 產業輻射:數據(收集+處理+清洗)、智能對話(客服、機器人)、創作(素材收集+寫作)、虛擬現實、教育 久謙|服務進步的群體|4 目錄目錄 OpenAI 高管解密 ChatGPT.5 國產 ChatGPT 何時問世?.15 ChatGPT 中美差距究竟有多大
7、.20 如何理解 ChatGPT 的強勢出圈和國內發展.22 全面解讀 ChatGPT 產業鏈機會.27 ChatGPT 來龍去脈.33 ChatGPT 學習筆記.35 2023 電子產業展望.41 AIGC 路演紀要.45 AI 或是新年預期差最大的計算機投資主線.47 全球科技創新核心 AI 發展.49 OpenAI 嵌入微軟 Office 與 Bing,智能化向 C 端開始滲透.54 從 ChatGPT 熱議看大模型潛力.56 AI 產業鏈研究之 ChatGPT 下游應用和場景商業化廣闊.60 ChatGPT 與人形機器人共舞.63 微軟新版 Bing 搜索引擎發布會.67 從美國科技巨
8、頭財報看 AI 的發展和應用.71 從北美云廠商的 AI 規劃看光通信的結構創新.77 從微軟和 OpenAI 的合作來梳理 AI 投資邏輯.79 微軟公司業績交流.82 微軟公司各業務線情況.85 微軟 FY 2023Q2 業績會.90 平治信息公司走訪.93 云從科技走訪.95 科大訊飛表現分析.98 科大訊飛 22 年度業績預告說明會.102 科大訊飛訪談交流.107 拓爾思訪談交流.109 拓爾思 ChatGPT 市場化展望.114 拓爾思 ChatGPT 相關.122 科大訊飛投資價值研究分析與行業前景.127 ChatGPT 與商湯電話會.131 久謙|服務進步的群體|5 Open
9、AI 高管解密高管解密 ChatGPT 訪談日期:訪談日期:2023/2/8 具體內容具體內容 GPT-3 是一種大型語言模型,被訓練用來在給定上下文中預測下一個單詞,使用是一種大型語言模型,被訓練用來在給定上下文中預測下一個單詞,使用Transformer 架構架構 1 它很靈活,可以用于翻譯、摘要、分類和問答等任務。GPT-3 的優勢在于它的簡單性和不需要專門訓練數據集就能表現良好的能力 2 GPT-3 可以用于翻譯任務,方法是提供比如“德語:英語”對的翻譯樣例(如果是德英翻譯),或者像問人一樣要求模型翻譯給定的句子 3 盡管 GPT-3 主要是在英語數據上訓練的,但仍然能夠在翻譯任務中表
10、現良好,因為它能夠通過提供的樣例中的模式,并利用自己的一般語言能力產生翻譯 a GPT-3 也可以用于摘要和問答等任務。GPT-3 在商業應用中也取得了成功,如文本生成和問答。它明顯比早期版本的 GPT(規模)更大、(功能)更強大,訓練的數據也更多 b 它被用來生成創意寫作任務的起點或變體,如產品描述,并已與 OpenAIAPI 集成,使開發人員更容易使用 c API 允許用戶對 GPT-3 進行特定任務的微調,包括設置學習率和數據的過渡次數,以及選擇模型大小 4 PeterWelinder 現任 OpenAI 產品與合作伙伴副總裁,負責 GPT-3 的運行和其他業務,在此之前,他曾是 Ope
11、nAI 的研發主管。使用 GPT-3 解決現實世界的問題 Peter,上次我們談話時,上次我們談話時,我記得你在我記得你在 OpenAI 做研究,但現在我們發現你是做研究,但現在我們發現你是OpenAI 的產品和合作伙伴關系副總裁,我很好奇這意味著什么?你每天都在做什的產品和合作伙伴關系副總裁,我很好奇這意味著什么?你每天都在做什么?么?1 我今天所做的與我做研究時完全不同,對我來說,做研究一直都是為了解決最困難的問題,以便真正對世界產生某種影響。我個人更傾向于研究的最終目標,而不是研究本身,做研究真的很有趣,你知道,深入研究,探索事物,最后總是有一個目標 2 GPT-3 發生了一件令人興奮的
12、事情當我開始在 OpenAI 工作時,我做的很多事情都是機器人方面的。對于機器人技術來說,你在實驗室里能做的事情和你在現實世界里能做的事情之間還有一些差距。使用 GPT-3,當我們在 GPT-3 中得到第一個結果時,很明顯我們有一些東西可以開始應用于現實世界的問題,而不僅僅是做酷炫的演示 a 當我從事機器人工作時,我們最后得到的是一個非??岬臋C器人手解魔方的演示,但每個人的家里并不具備部署它的條件 b 即使它足夠強大,我也不知道它對解決魔方有多大用處,這是一種非常昂貴的方法。但是有了 GPT-3,我們有了一個語言模型,你現在可以應用它來解決各種不同的問題,從翻譯到總結,再到分類和問答等應有盡有
13、,這是一個非常靈久謙|服務進步的群體|6 活的模式 c 所以,我們要做的就是看看這個模型來解決現實世界的問題是否足夠好,對我來說,這是一個非常有趣的領域 3 當你擁有這項非常強大的新技術,有可能改變很多事物的工作方式時,這一切都是為了找到合適的方法來解決問題,看看你如何利用你工具箱里的工具來解決這些問題。不同的是,作為研究人員,我所做的是提出正確的基礎和正確的方法來衡量進展。當目標非常遙遠時,你需要想出這些玩具的方法來評估進展 a 現在,就像客戶告訴我們“嘿,我正在嘗試將 GPT-3 應用到這個用例中”,但它不起作用或太慢等諸如此類的事情,這些問題要具體得多 b 我的日常,現在更多的是建立一個
14、團隊,用我們在 OpenAI 開發的技術來解決這些現實問題 當你將當你將 GPT-3 與其他用于大型語言模型的方法進行比較時,這似乎是一種趨勢。與其他用于大型語言模型的方法進行比較時,這似乎是一種趨勢。你是否注意到它在工你是否注意到它在工作方式上有哪些關鍵差異,采取某種方式是否有所不同?作方式上有哪些關鍵差異,采取某種方式是否有所不同?1 這是一個很好問題,我認為我真正喜歡 GPT-3 的地方,以及我認為它與眾不同的主要方式是 GPT-3 所做的一切都非常簡單 2 GPT-3 是一個大型語言模型,大型神經網絡。它使用的是谷歌幾年前推出的一種非常流行的 Transformer 架構,如今,它基本
15、上為所有不同的語言模型提供了支持,而且它也開始進入其他領域,比如計算機視覺等 3 GPT-3 的設置非常簡單,它可以有一些上下文,你可以看看文本的歷史。如果你正在讀一本書,你可以看一頁或一段文字,然后它試著預測下一個單詞,這就是GPT-3 的訓練方式。它只是訓練了來自不同來源的大量文本,大部分來自互聯網。它只是一遍又一遍地訓練,根據它看到的一些單詞,預測下一個單詞 4 你可以從幾個單詞開始,但當我們今天訓練這些模型時,我們訓練它們的數量級是一千或幾千個單詞,你可以回顧這 1,000 個單詞,然后試著預測下一個單詞。所以設置非常簡單,你只需要在這些龐大的文本數據集上訓練它,以便繼續預測下一個單詞
16、,并在這方面做得非常好 a 我認為 GPT-3 的令人驚訝之處在于,如果你這樣做,然后你把模型變得非常大,這讓它有巨大的學習能力,然后它就會非常擅長以前你需要專門模型的一系列任務 b 以前如果你想進行翻譯,你就需要一種專門翻譯的神經網絡,或者如果你想做總結,同樣,你會以特定的方式設置你的網絡,然后只訓練它完成總結任務 c 我們在使用 GPT-3 中發現,你實際上在一些基準測試中獲得了非常接近最先進的表現,這些基準測試包括總結、翻譯、問題回答等等 d 該模型使用的是一個剛剛在互聯網上訓練過的模型,它不專門執行任何任務,而是能夠以與閱讀文本相似的方式再現文本。將 GPT-3 應用于翻譯任務 實際上
17、,如何將其應用到翻譯任務中,你如何把“預測下一個單詞”變成一個翻實際上,如何將其應用到翻譯任務中,你如何把“預測下一個單詞”變成一個翻譯?譯?1 在很多其他的大型語言模型中,都有一些特定的步驟,你可以對一段文本進行編碼。所以你會在神經網絡中創建一些表示 久謙|服務進步的群體|7 2 然后你會有一個解碼器來接受它,然后用它來寫一些句子。例如:如果你做翻譯,你會把它編碼成某種表示,然后你的神經網絡會有一個單獨的部分來接受這種表示,并嘗試輸出你想要的東西,輸入可能是一個德語的句子,輸出的可能是一個英語的句子,而且,你知道它是專門為此訓練的 a 那么對于你的問題,你如何處理 GPT-3 呢?最簡單的方
18、法是:你可以提供一些例子,說明翻譯可能的樣子,僅以純文本形式,你會寫“德語:”和一些德語句子,然后是“英語:”和一些英語句子 b 你可能只提供一個例子,那么這個稱為一下(one-shot),你可以提供一些例子,基本上都是“德語或者英語”的一些例子,然后你可以輸入你想翻譯的新句子,這就是所謂的多下(Few-Shot)訓練 3 如果你有幾個例子和模型,只要看看它現在在其上下文中看到的模式,它可以產生一個翻譯。這是一個非常簡單的設置?;旧?,我認為告訴 GPT 該做什么的方式有點像你告訴人類做同樣的事情。比如,如果我給你寫電子郵件,“嘿,Lukas,我想讓你翻譯一些句子”a 我會告訴你:“請翻譯這些
19、句子”,我可能會提供一些例子來讓你了解一下它的語氣,比如:我想要更正式的翻譯,還是更隨意的翻譯等等,你會發現其中的規律,給你一個德語句子(我不知道你懂不懂德語)你就能把它翻譯成英語 b 現在有了我們最新的模型,你甚至不需要提供這些例子,你可以像問人一樣問模型,比如,“嘿,把這個句子翻譯給我聽”,或者“總結一下這篇文章”c 我們剛剛發現,這就是人們想要使用模型的方式。我們讓他們做了更多這樣的工作,但就是這么簡單,你只要告訴它你想做什么,它就會盡最大努力去做 你是主要致力于訓練模型使用多種語言你是主要致力于訓練模型使用多種語言,還是主要是英語?語料庫從何而來?,還是主要是英語?語料庫從何而來?1
20、實際上我們做的正好相反。最初,當我們訓練 GPT-3 時,我們一致努力不用英語以外的其他語言來訓練它。事實證明,即使這些模型是巨大的,在你的數據集組合中也需要權衡取舍 a 如果你先用英語訓練它,然后再用其他語言訓練它,它在英語任務中表現就不那么好了,最終當我們訓練它的時候,我們想看看,它在更通用的能力上能有多好?b 我們不太關心翻譯,因此,每當我們輸入額外的語言時,這只會以擅長用英語執行其他任務為代價,比如回答問題、總結等等 c 但結果是,即使明確地試圖過濾掉大多數其他語言,也可能有一小部分數據是其他語言的。即便如此,該模型在翻譯方面還是非常出色,在許多翻譯任務中,它接近于最先進的技術 2 我
21、的母語是瑞典語,但我現在已經不會用瑞典語寫作了,因為我從來沒有這樣做過。我現在做的是用英語寫它,然后讓 GPT-3 來翻譯給我,這只是我的觀點,它不會變得完美,我需要調試一些東西,但它出奇地好,而且模型中的瑞典訓練數據量非常非常少 3 我們一直在不斷更新我們的模型,讓它們變得越來越好,所以現在我們引入了越來越多的語言數據,因為我們已經找到了如何以更優化的方式進行這些權衡。但是,一開始我們想要的是相反的,我們只是想把英語學好 是預測單詞還是一次預測一個字符?這是怎么回事?是預測單詞還是一次預測一個字符?這是怎么回事?久謙|服務進步的群體|8 1 都不是,它實際上是在預測一種叫做符號標記(Toke
22、n)的東西,這就像“單詞的一部分”也許可以這么想,最常見的英語單詞,它們由單個符號標記。我們有大約 50,000 個這樣的標記,我們將它們映射到字符序列上,結果就像“hi”或“the”這樣的常見單詞最終會成為一個標記 2 但如果你有一個更不常見的詞,比如“百科全書”之類的,你可能會把它分解成兩三個符號,這就像單詞片段,只是讓這些語言模型更容易、更有效地使用文本 3 原則上,你也可以在字符層面上這么做,但它會變得非常低效,你知道,這就是這個領域可能正在改變的地方,最終,它將不止在字符層面上做到這一點 但我認為這會讓學習外語變得非常困難,比如,亞洲語言是不可能的嗎?如果他但我認為這會讓學習外語變得
23、非常困難,比如,亞洲語言是不可能的嗎?如果他們有更多的符號,或者我猜你可能會說,他們已經為你做了標記化,通過使用更多的們有更多的符號,或者我猜你可能會說,他們已經為你做了標記化,通過使用更多的字符來編碼更大的含義字符來編碼更大的含義 1 是的,訓練標記器(Tokenizer)的方式肯定會對不同語言的性能產生影響。通常這兩件事分兩個不同的步驟進行訓練 2 你可以在某些數據語料庫上訓練你的標記器,然后在其他一些數據集上分別使用該標記器訓練你的模型,為了讓你的模型真公眾號新價值人正擅長不同的語言,你還需要在多種語言上訓練該標記器 3 肯定是使用其他語言的成本更高,一個德語單詞最終會變成更多的符號,因
24、為我們訓練它的次數少得多。而英語非常高效,很多單詞都是一個單一的符號,所以這使得它在其他語言上更糟糕,而且更昂貴 我能把一些東西翻譯成日語嗎?我能把一些東西翻譯成日語嗎?GPT-3 也能做到嗎?也能做到嗎?1 是的,我記得我們的一個日本用戶的評論,他們非常喜歡使用 GPT-3 在英語和日語之間翻譯技術文檔,因為他們發現 GPT-3 在技術文檔翻譯方面比谷歌翻譯要好得多。這大概是一年前的事了,谷歌翻譯現在可能更好,但根據我們擁有的數據集,這可能只是一個偶然的事情 2 實際上,關于 GPT-3 的翻譯功能,真正酷的事情是我們并沒有在顯式的輸入和輸出對上訓練模型,翻譯的文本片段,就像你通常所說的“對
25、齊的文本片段”一樣 3 只是看到了很多日本人,它看過很多日本電影,也看過很多英語電影。不知怎么的,通過學習如何預測下一個單詞,已經有足夠多的小文本、博客文章或其他東西,作者在日語和英語之間切換??赡軙σ恍┚渥舆M行翻譯,在那里它找到了映射,然后以某種方式有一個足夠好的表示,然后推廣到任意的翻譯任務 4 對我來說,這太神奇了,它只是通過閱讀大量的英語文本,大量的日語文本,然后可能就像在所有的數據中找到一些對齊的對,它就能夠進行翻譯,這對我來說太瘋狂了 真是太神奇了,這種性能與早期版真是太神奇了,這種性能與早期版本的本的 GPT 有明顯的不同嗎?比如在有明顯的不同嗎?比如在 GPT-3 中是中是否
26、發生了什么,否發生了什么,OpenAI 認為“好吧,我們可以將其用于現實世界的商業應用”?這認為“好吧,我們可以將其用于現實世界的商業應用”?這是它需要達到的性能水平嗎?是它需要達到的性能水平嗎?1 是的,我認為 GPT-2 和 GPT-3 之間最大的區別是:它被訓練在更多的數據上,它久謙|服務進步的群體|9 是一個更大的模型,大概差了兩個數量級。最初的 GPT-2 大約有 15 億個參數,而 GPT-3 最大的模型有 1,750 億個參數,它上升了兩個數量級,而且由于它是一個更大的模型,它也需要更多的數據 2 令人驚訝的是,這就是從感覺它相當愚笨到可以與之互動的原因,像 GPT-2 有點酷炫
27、,但大多數時候也感覺它非常愚蠢,我認為在 GPT-3 中,它有時會表現得出乎意料的好。不要誤解我的意思,GPT-仍然會犯很多愚蠢的錯誤,但在某些任務上,它可能有 30-50%的時間是正確的,有時甚至更好 a 就好像突然之間在你需要抽樣和嘗試任務之前,也許每隔 20 次你就會看到一次,“哦,這個看起來不錯”。有了 GPT-3,它開始每三次發生一次,或每兩次,或每五次發生一次,你會說,“哦,天這實際上是”b 對于諸如總結文本之類的事情,我們有一個例子是用二年級學生的風格總結一段文字,令人難以置信的是,該模型能夠簡化單詞,獲得一段文本的要點等等,再說一次,它不是完美的,但它真的很好 3 顯然,我們有
28、很多學術基準(academicbenchmarks),你可以運行這些模型,你可以看到它在學術基準上越來越好 4 但當你想要創建一些東西的原型時,這是一種完全不同的感覺,不同的是,現在很容易得到一些運行良好的東西 5 這是為什么我們決定,“嘿,現在它看起來很有用”,GPT-2 看起來沒有那么有用,但是 GPT-3 對于所有這些任務,我們覺得“好吧,它已經足夠接近最先進的技術了”,如果你有一個專門的模型或其他什么,一個聰明的程序員應該能夠將其應用到他們所擁有的任何任務中,這就是我們設置的 API 驗證的內容 你真正引以為豪的用例,它到底在哪里起作用?你能不能給我們指出一些地方,你真正引以為豪的用例
29、,它到底在哪里起作用?你能不能給我們指出一些地方,讓我們可以在商業環境中與之互動?讓我們可以在商業環境中與之互動?1 當然,我認為最讓我們感到驚訝的是文案和問題回答,一般來說是創意寫作。在文案方面,當時有很多公司開始在我們的平臺上進行開發,有些公司像:Copysmith 是第一批;CopyAI;還有 Jarvis還有很多這樣的公司。他們的做法非常聰明,因為他們意識到,當你使用 GPT-3 來完成某些任務時,它并不完美 a 時不時的,你可能會得到一些沒有意義的東西 b 但如果你在做文案工作,比如你想根據產品的某些屬性寫一些吸引人的產品描述,比如鞋子,可能是鞋底的類型,顏色,鞋子的一些其他屬性,你
30、想寫一些真正吸引人的東西,那么作為一個人,你面臨的問題是你陷入了某種寫作瓶頸,我該從哪里開始呢?c 這些公司開始做的是他們采用 GPT-3,他們用它來生成一些起點或者一些產品描述的變體。你會發現,通常情況下,如果你生成五個這樣的例子,其中一個看起來會很好,你可以把它作為你的起點,你可能只是接受它,或者做一些小的調整 d 這幾乎是一種幫助人類創造力的方式,你知道嗎,我覺得這太酷了 2 作家們會告訴我們,“嘿,我已經試著寫這本書半年了,我總是陷入寫作瓶頸。然后我開始在使用 GPT-3,現在我花了兩周時間完成了整本書?!碑斈阆萑肜Ь硶r,它可以創造一個有趣的故事情節 a 作為一個有創意的作家,你開始探
31、索,就像“好吧,我沒有想過這個角色會往久謙|服務進步的群體|10 這個方向發展,但讓我們來探索一下吧”。然后它就變成了一個更有趣、更吸引人的過程 b 這幾乎就像一個人,現在我們有一個頭腦風暴的合作伙伴,你可以把它應用到所有這些不同的任務上。我覺得非??岬氖?,我發現很多公司都在利用這一點,創造你以前做不到的新體驗 c 我認為這是非常令人興奮的。我覺得回答問題也非???,但是這個問題出乎我的意料。我認為我們不會預料到這是一個如此大的用例。使用 OpenAIAPI 微調GPT GPT-3 的優點之一似乎是它可以開箱即用。對于一些團隊,如果出現問題,他們的優點之一似乎是它可以開箱即用。對于一些團隊,如果
32、出現問題,他們會擔心該怎么辦。我想我很好奇,你通常與公司內部的會擔心該怎么辦。我想我很好奇,你通常與公司內部的 ML 團隊合作,還是更多的工團隊合作,還是更多的工程師認為這里的好處是,他們不必弄清楚機器學習是如何工作的,以獲得自然語言處程師認為這里的好處是,他們不必弄清楚機器學習是如何工作的,以獲得自然語言處理的好處,或者你是否傾向于將其與理的好處,或者你是否傾向于將其與 ML 團隊集成到一種更大的團隊集成到一種更大的 ML 工作流中?工作流中?1 我得說,這是一種混合,我們有多個機器學習團隊。他們已經有了自己的模型,他們會在網上下載模型等等,他們會根據任務對模型進行調整 a 然后他們找到了我
33、們的 API 并開始使用我們的 API 做同樣的事情,結果證明你可以從我們的模型中獲得更好的性能。就像我們所擁有的最大的模型或最好的模型都沒有開源版本,對于很多任務來說,這是最有效的方法 b 但我認為,我們的大多數客戶可能更傾向于另一個陣營,即“真正聰明的開發者”。當我說“開發人員”時,這是一個相當廣泛的群體 c 從程序員到工程師,從設計師到項目經理。許多人告訴我們 OpenAIAPI 是他們進入編程的原因,因為他們從我們的游樂場得到了非常好的結果,在那里你可以與我們的模型交互 d 他們有了想法,就開始學習如何編碼,并接觸到像 BubbleIO 之類的無代碼工具。這真的降低了障礙,你不必成為一
34、名機器學習專家,也能從這些模型中得到非常好的結果。你只需要善于迭代并弄清楚如何向模型編寫指令 2 這有點像每個人都能成為管理者,如果你想讓你的員工按照你的想法去完成任務,你就必須給他們很好的指導,這和這些模型非常相似。比如,如果你不明確你的任務,你就會在輸出中得到非常高的差異,但是,如果你真的很擅長具體說明,甚至提供幾個例子,那么你就會得到非常好的結果 3 這不是一種機器學習技能,這幾乎更像是一種任務規范,管理技能,我覺得很多人都能很快學會 4 我真的很興奮,看到這么多人都能接觸到這些模型,以前好像只有機器學習博士學位才能使用 我覺得我聽人說過一個叫做“提示工程師(我覺得我聽人說過一個叫做“提
35、示工程師(PromptEngineer)”的新角色可能與此)”的新角色可能與此有關,清楚如何提示有關,清楚如何提示 GPT-3 讓它做你想讓它做的事情讓它做你想讓它做的事情 1 這個很有趣,因為早期,當我們有第一個版本的 API 時,我們有一個非常聰明的人,他是一位世界知名的作者,也是一個程序員:安德魯梅恩(AndrewMayne)2 他是該 API 的早期用戶之一,他的內部名稱是“提示耳語者(PromptWhisperer)”,或“GPT-3 耳語者”,他真的知道如何精心設計提示以久謙|服務進步的群體|11 獲得最好的結果 3 因為它是在互聯網上訓練的,你需要把你的思想放在這樣的想法中,“互
36、聯網上的文本是如何開始的”,如果你想要一個真正好的食譜,你必須開始用食譜書或美食博客之類的東西來寫作,這并不是說你可以讓模型做你想讓它做的事。我認為,這其中有很大一部分開始是這樣的 4 你真的必須善于理解 GPT-3 的復雜性,并設計出真正好的提示 a 在我們推出后的一年半時間里,我們看到人們在這方面有很多困難,所以我們開發了一套新的模型,我們稱它為 InstructGPT。這實際上就像前段時間一樣,它成為我們 API 中的默認值,我們稱其為 InstructGPT 的原因,是因為它只提供說明 b 所以我想說,提示設計現在已經不那么重要了。你可以告訴模型你想讓它做什么,并提供一些例子,還有一點
37、關于格式可能會影響你提供示例的方式等等 c GPT-3 在這方面非常強大,但有時它確實有點問題,一些調整很重要。但我想說的是,與一年前相比,現在已經不那么重要了,我的希望是,它變得越來越不重要,而是變得更有互動性 你對模型還啟動了微調的功能,這個想法是什么,它在什么地方有用?你對模型還啟動了微調的功能,這個想法是什么,它在什么地方有用?1 GPT-3 令人驚訝的是通過零下(zero-shot)就得到了非常好的結果。你只需要提供一個例子,或沒有例子,只是說,“嘿,把這個句子從德語翻譯成英語”就可以了,或者你提供了幾個(few-shot)示例,比如幾對德語和英語實例 2 只需幾個(few-shot
38、)示例,你就可以得到令人驚訝的好結果。但這實際上意味著準確性是非常依賴于具體任務的,對于一些任務,也許 30%的時間你得到的輸出是可以接受的,而對于其他更簡單的任務,你可能 70%的時間都能做到 3 當它不是每次都很好時,你必須非常聰明地在你的產品中暴露它。這就是為什么,比如它對很多文案公司都很有效,你可以只提供一些例子,你知道其中至少有一個是好的,這就是用戶所需要的。但是通過微調,你能做的基本上你可以自定義你的模型,你可以為它提供更多你希望它執行的輸入和輸出示例 4 如果你想做翻譯,或者如果你想總結文章,你可以提供幾百篇已經做過人工編寫總結的文章例子,你可以更新 GPT-3 來更好地完成這項
39、任務 5 你不能把所有這些例子都放在你的提示中,提示符的空間有限,但是通過微調,你把這些例子轉化為神經網絡的連接,轉化為神經網絡的權重。在某種程度上,你就像有了一個無限的提示,你可以提供盡可能多的例子 6 顯然,示例越多,微調所需的時間就越長,成本也就越高。但微調基本上是一個概念,取一堆輸入和輸出的例子,把它們放入模型中,然后得到一個模型的新版本,該版本非常適合你提供例子的任務 a 事實證明,只需幾百個例子,或者大約 100 個例子你就能顯著提高準確性 b 我們有很多客戶使用過它,就像 KeeperTax 一樣,他們正在分析交易以找到這些稅收注銷之類的東西,他們所做的是提取相關的文本片段,進行
40、分類等等。例如,他們對模型進行微調,并通過微調模型得到了更好的結果。我們在客戶身上一再看到這種情況 c 他們可以得到非常好的結果,這些結果通常對于原型來說已經足夠好了,但是為了讓其達到足夠高的精度以將其投入生產通常超過 90%或 95%或 99%,久謙|服務進步的群體|12 使用他們擁有的數據集對模型進行微調,這樣一直進行下去 d 這可以讓他們比以前啟用更多的應用程序。我們只是讓這種微調變得很簡單 我想對你來說,你們可以調整的參數是什么,因為你描述的方式,聽起來好像沒我想對你來說,你們可以調整的參數是什么,因為你描述的方式,聽起來好像沒有任何參數,參數在這里如何參與呢?有任何參數,參數在這里如
41、何參與呢?1 對于你關于參數的問題,我們試圖在我們的 API 中使它變得非常簡單。我們試著讓默認值非常非常好 2 一般來說,你可以通過微調獲得非常好的結果,而根本不需要過多地修改參數,但有些參數會有所不同。例如,你可以設置學習率,這是你在每個學習步驟中更新權重的程度 3 你可以設置你想要通過多少次數據的內容,事實證明,如果你把數據調整太多次,你就會對數據集進行過度擬合 4 這些 GPT-3 模型非常大,通常只需要對數據進行 2 到 5 次迭代就能得到非常好的結果,如果你走得更遠,你有時會過度擬合。還有更高級的參數,但我有點喜歡玩一點你想訓練它的時代數量和他們的學習率,這讓你達到了 90%的目的
42、,如果你開始擺弄其他參數,它不會給你更多 這是考慮將參數留給其他人的想法嗎,你能從擺弄參數中得到樂趣嗎?這是考慮將參數留給其他人的想法嗎,你能從擺弄參數中得到樂趣嗎?1 說實話,如果這是完全自動的,我會很高興,也就是說,我們確實有一些更注重研究的客戶,他們真的喜歡擺弄,所以我認為我們很難刪除它 a 但是,就像我說的,我們有兩大陣營的用戶:研究人員和開發者,開發者總是告訴我們:“嘿,我只想要一個按鈕,我只想要最好的模型出來?!比缓蠛芏嘌芯咳藛T想要擺弄更多的參數,我想我們可以長期滿足雙方的需求 b Boris(Boris 是一個 ML 技術人員),我不知道你把自己歸哪一類了,你做了一些驚人的、漂亮
43、的演示,你也喜歡調整參數,我很好奇你使用 GPT-3 模型的經驗 c 我當然喜歡有一個好的默認值,因為最初你真的不知道你應該在它上面改變什么,假設你選擇了錯誤的參數,結果什么都沒用??刹皇鞘裁从淇斓慕洑v。所以我喜歡如果你不選擇任何東西,它就已經很好了。然后,我真的很喜歡調整參數,看看“好吧,會有什么效果”并試著用直覺來調 2 除了 Peter 提到的參數之外,還有兩個參數也讓我很感興趣,你可以決定微調哪個模型,有不同尺寸的模型。如果你使用一個更大的模型,也許你的 API 會慢一點,但是你的效果會更好。也許有時你不需要它,也許有時確實需要,所以我想看看我使用哪種模式的效果 3 我還喜歡看到“我可
44、以給出多少個訓練樣本”的效果,就像我只給出 20 個樣本,而不是 100 或 200 個,因為這樣你就能知道我的模型在我開發一個更大的數據集時會變得更好。我喜歡擺弄各種各樣的參數,看看基于這些參數能做出什么樣的預測 a 對,最后一條,其實非常重要,我認為這是我們一遍又一遍地給人們的最常見的建議之一 b 這就像從一小組例子開始,然后把它翻倍,看看你能得到多少改進。如果你將久謙|服務進步的群體|13 訓練數據量翻倍,那么你就會看到錯誤率的線性改善 c 如果你有 10%的錯誤率,你把訓練數據翻倍,你可能會得到 8%的錯誤率。然后再翻倍,錯誤率降至 6%等等 d 如果你能看到這種趨勢,那么你就會突然有
45、一種感覺,“就標記更多的數據等等而言,我需要花多少錢才能得到我想要的結果”等等。這是一件非常強大的事情 訓練這些模型的結果是否可重現?每次對它進行微調時,有多少可變性?如果你訓練這些模型的結果是否可重現?每次對它進行微調時,有多少可變性?如果你對相同的數據進行兩次不同的微調,你會得到相同的模型嗎?對相同的數據進行兩次不同的微調,你會得到相同的模型嗎?1 原則上,你可以把它設置成非??蓮椭频?。如果你在同一天訓練,基本上你在訓練時想要做的是,在每次訓練迭代中,你有一批數據 2 比如一些例子,你實際上可以把 API 設置批量大小,每次更新需要多少個示例。我認為它默認是 32 或類似的東西,當你這樣做
46、時,你還希望對數據進行隨機排序 3 你希望對訓練數據進行隨機抽樣。只要你在訓練中保持這些隨機化一致,你最終會得到相同的模型。這將是相當可復制的。唯一需要注意的是 4 在實踐中,即使是推論,這也是正確的。我們有一個叫做溫度(Temperature)的參數,你可以設置輸出的可變性。溫度越高,變異性就越大,即使你把值設為0 也不能保證你會得到完全確定的輸出 a 在這些大型模型的 GPU 中,有足夠多的噪音和一些奇怪的浮點運算等等,都很難保證完全確定性的決定 b 很多人問我們這個問題,答案總是這樣,“很不幸,我們不能提供這個,但你可以得到一些公平的東西?!钡悄銘撟屇愕膶嶒炞銐驈姶?,這樣你就不用太在
47、意決定論了。OpenAIAPI 背后的工程挑戰 我認為,從操作上講,讓每個人都有自己的微調我認為,從操作上講,讓每個人都有自己的微調模型比每個人都使用符合相同模模型比每個人都使用符合相同模型的型的 API 在基礎設施方面面臨的挑戰要大得多。允許這種情況發生是一項艱巨的任務在基礎設施方面面臨的挑戰要大得多。允許這種情況發生是一項艱巨的任務嗎?比如,當人們開始使用不同的模型時,你需要換入和換出不同的模型嗎?嗎?比如,當人們開始使用不同的模型時,你需要換入和換出不同的模型嗎?1 剛開始的時候,我們做微調的方式基本上是在某種程度上。你幾乎租了一組運行模型的 GPU,在某種程度上,對于一些最早期的微調客
48、戶 2 我們基本上是按 GPU 小時收費的,比如每小時,他們使用模型的次數。甚至從一開始,我想在推出 API 后的六個月內,我們就有一些精選的客戶,他們有微調過的模型和類似的東西,這就是它的工作方式 a 問題是,如果你想嘗試一些新的東西,GPU 的時間是很昂貴的。你不會真的想要花錢去保留一個 GPU,哪怕只有不到一個小時,這一切都累積得非常非???b 我們只是設定了一個目標說“好吧,一旦你微調了你的模型,你應該立即能夠使用那個模型,你只需要為推理時進入它的 token 付錢”,就像無論你在提示符里輸入什么 c 要使這種體驗真正出色,這無疑是一個巨大的工程挑戰。你只需開始微調,當它完成時,得到一
49、個微調的模型名稱 3 現在你可以在 API 中使用那個模型來立即得到一個結果,而且你不會按小時或其久謙|服務進步的群體|14 他方式收費,你只會以相同的方式為 API 收費。這真的很棘手,我們在 OpenAI有一個了不起的工程團隊,他們真的想出了很多技巧來平衡這些模型的最終位置,并以正確的方式緩存它們等等,以創造一個很棒的體驗 a 我很好奇你是對整個模型進行微調,還是只對部分模型進行微調,讓它更有效率 b 我們用了很多技巧來實現這一點,我們一直在努力尋找新的方法。如果你想對整個 750 億個參數模型進行微調,這是有挑戰的。它可能會變得非常昂貴和困難等等,有一些技巧可以讓它更快 你覺得你和所有使
50、用你覺得你和所有使用 GPT-3 進行自然語言任務的每個人之間的區別是模型本身的進行自然語言任務的每個人之間的區別是模型本身的質量和性能嗎?還是其他原因?是關于集成,還是生產中的監控,或者類似的東西?質量和性能嗎?還是其他原因?是關于集成,還是生產中的監控,或者類似的東西?1 當然,我們在構建 API 時所關注的關鍵事情是最重要的是模型的能力 2 其次,你需要有快速的推理能力。在我們創建 API 之前,對于語言模型,沒有人關心推理。每個人都關心你能多快地訓練他們,因為這才是最重要的 3 因此,你可以在一天結束時解決基準測試問題。我們做了大量的工程設計來讓推理超級超級快。我還記得在最初的幾個月里
51、,我們將 API 的第一個原型交付客戶開始使用,我們將推理速度提高了 200 倍之類的 a 我們做了很多努力來讓它超快。第三件事是圍繞安全的事情。我們投資這些InstructGPT 模型的原因之一是,我們看到有時你可以得到出乎意料的模型輸出。例如,你可能寫了一個非常無辜的句子 b 但由于某些原因,它可能會變得非常黑暗,或者你可能會以不同的方式得到一些有偏見的輸出。使用我們的推薦指令的模型,默認情況下,它們的行為更符合預期,但你也可以以更好的方式指定行為 4 事實證明,當安全和能力齊頭并進時,當你能更好地控制它時,它就會變成一個更好的產品。這些肯定是我們一直關注的事情,我認為我們在這方面做得比現
52、有的其它替代方案要好得多 5 最后,我們非常關注的事情是讓它使用起來非常簡單,事實上,你不需要加載模型,你只需要調用一個微調模型,只需要一行 Python 來調用 API,這也是我們的核心,我們希望每個人都能輕松使用它 久謙|服務進步的群體|15 國產國產 ChatGPT 何時問世何時問世?訪談日期:訪談日期:2023/2/7 具體內容具體內容 事件事件 1 根據公開新聞報道,百度對標 ChatGPT 的 AI 產品中文名字叫做文心一言,英文名ERNIEBot,3 月完成測試,對公眾開放 2 目前還在做上線前的沖刺,時間有可能提前。百度集團-SW 漲幅超 15%,此外其他百度系公司表現亮眼,應
53、用公司表現亮眼,行情正往兩頭演繹,優秀的大模型+基于大模型的創新應用場景 國內互聯網大廠進度國內互聯網大廠進度 1 百度:百度布局較早,有自主研發的深度學習平臺,有文心大模型,在預訓練大模型方面有不錯的積累,在 AI 發展方面把握先機 a 百度的文心大模型具備多功能,可以進行文本生成,內容提取,摘要生成,觀點歸納、圖片繪畫等。和 GPT 很像,一般情況下,AIGC 優先考慮 ToB,再考慮 ToC b 因為 ToB 的商業群體比較穩定,付費意愿也比較穩定。百度計劃同時推出 ToB和 ToC 的產品,并先發布 ToC 的 demo 2 字節:已經開始布局,主要是 AI+內容,比如自動生成投稿和輔
54、助寫作,在今日頭條上利用 AIGC 生產內容,目前 AIGC 整體的生成質量的內容還是較好的,要好于普通的 UGC,但和 PGC 相比還有所欠缺。抖音方面也有應用,通過 AI 的模式來生成短視頻,比如一些圖文類的短視頻的 3 阿里、京東等電商類平臺:在智能客服領域有布局,其次是 AI+營銷,例如阿里巴巴,可以結合商品,自動生成高質量文案描述商品,提高營銷效率 4 騰訊:以廣告為主,支持廣告智能制作,以 AIGC 技術生成廣告文案和視頻,降低了制作成本,目前市場規??焖僭鲩L,未來 5 年內 AIGC 產生的圖片的占比預計會達到 10-30%a 前期可作為 UGC 和 PGC 的輔助,幫助廣告主設
55、計文案 b 到后期就是 AI 技術整體的發展,后期可能是有望代替人工的工作 百度百度 ToC 產品的進度如何,使用體驗如何?產品的進度如何,使用體驗如何?1 百度有文心大模型的基礎,去年 ChatGPT 剛發布后,他們基于對話的語料,做了一個類似的新模型,是多輪對話的模型和百度搜索引擎相結合用戶問一個問題 AI 會給一個答案,同時搜索引擎會基于這個問題做一些相關的補充,比如答案的來源和鏈接 2 如果和搜索引擎結合起來后,整體使用效果還是可以的,因為結合后,不涉及到久謙|服務進步的群體|16 特別多輪對話,一般我問一句,它回一句,就結束了。至于多輪對話容易遺忘的問題,可能需要在后續的優化過程中,
56、重點考慮怎么捕捉更遠的信息,怎么捕捉用戶長期講話的意圖 ChatGPT 會替代傳統搜索引擎會替代傳統搜索引擎嗎嗎?1 短期內不太可能取代傳統的搜索引擎,ChatGPT 會給出一些看似有道理但實際是錯誤的回答,可信度不是很高 2 ChatGPT 對于新數據不太友好,未能建立和實時信息的連接,目前預訓練模型如何保持實時更新,是一個大問題 3 ChatGPT 的訓練成本很高,付費過多,可能用戶放棄使用;但不付費,成本壓力過大,長期可能在訓練成本或者推理成本上都做了比較多的優化以后,再看對搜索引擎的替代 4 可能短期內還不能替代,但長期不好說。至少可以跟百度的模式一樣,搞雙引擎的模式 國產國產 Cha
57、tGPT 何時問世?除了百度外,國內還有其他公司可以推出類似的產品何時問世?除了百度外,國內還有其他公司可以推出類似的產品嗎?國內其他大廠,比如騰訊、字節等,會想著在短時間內做出來類似嗎?國內其他大廠,比如騰訊、字節等,會想著在短時間內做出來類似 ChatGPT 的產的產品嗎,搶占先機,形成類似微軟對谷歌的卡位?品嗎,搶占先機,形成類似微軟對谷歌的卡位?1 小公司機會比較小,這是一個技術積累的工作,需要有數據訓練的基礎和經驗,需要資源和人力的投入。小廠很難做出來,因為成本太高了 a 小廠更適合去接入這些大廠的模型,成為大廠的客戶,然后做這些模型的應用,比如 AI 繪畫等,對接 C 端消費者 b
58、 國內的大廠比如字節、騰訊、阿里有機會。字節已經開始在做語言處理模型,目前在數據和算法方面的積累都不差 2 字節其實也要發大力發展搜索,包括培養用戶的搜索心智。字節也希望推出新的產品,從而搶占先機,實現它在搜索領域的一個超車。目前字節還處于大模型的訓練和調試狀態,沒有產品的具體規劃 3 但如果能做出來,還是對字節搜索領域的地位有積極影響,我認為字節跟百度在搜索領域,會有很多的交叉的沖突,也一直在大力發展搜索領域,所以是有可能做出類似的產品 國內會引入國內會引入 ChatGPT 嘛(考慮到有一些內容指向性的問題)?如果嘛(考慮到有一些內容指向性的問題)?如果 Bing 引入了引入了ChatGPT
59、 對于中國搜素市場的影響?對于中國搜素市場的影響?1 ChatGPT 目前會有一些倫理層面的問題,目前國內的監管政策還不是很全面,相關的法律法規還沒有健全,還有很多這種一些細節的東西,短期內我們的規章制度其實也沒有覆蓋到 2 總的來說,我認為 ChatGPT 的 ToB 端可能會引入,國內的小公司可以應用,目前ChatGPT 的 ToB 端因為成本、優化等問題還沒有開放,如果 ChatGPT 的 ToB 端開放,國內的一些小型創業公司可能會接入,并去做下游應用端的產品 久謙|服務進步的群體|17 3 未來接入微軟的 Bing 后,其實對搜索是會有一定的沖擊的,首先我們考慮一下用戶的獵奇心理,肯
60、定會有大量的用戶愿意去用 4 能夠產生大量 DAU,如果效果是比較好,這些用戶是愿意留下來繼續使用它的,久而久之其實是會改變到用戶的搜索習慣 字節內部目前在類字節內部目前在類 ChatGPT 產品方面的規劃?產品方面的規劃?1 從我們看字節對搜索的重視程度,搜索現在也是一級部門,對搜索的重視程度很高,因為搜索在現在在抖音、今日頭條的重要性上很高,本次也是集合了幾個核心的部門,組成小團隊來做模型 2 目前來說可能還沒有產品的計劃,雖然是比百度晚一些,但后續要看產品的效果和用戶的體驗,先發后發的影響不是很大,需要看后續的發展 谷歌最近在財報上說,他們的谷歌最近在財報上說,他們的 LaMDA 模型可
61、能在近期推出類似模型可能在近期推出類似 ChatGPT 的功能,的功能,如何看待谷歌在語言模型方面的積累?如何看待谷歌在語言模型方面的積累?1 谷歌的技術積累很不錯,團隊都非常優秀,模型積累很好 2 數據方面,谷歌天然就有很多搜索引擎的數據,算力方面也不用擔心,很多技術都是谷歌推行的。相對來說,谷歌研發類似產品的可行性非常大,而且成功概率非常高。而且它的效果也是值得我們期待的。如果效果比 ChatGPT 好的話,那也算一種后發優勢 如果未來出現很多的模型,這些模型都基于差不多的數據去訓練出來的,又有很如果未來出現很多的模型,這些模型都基于差不多的數據去訓練出來的,又有很多應用去基于這些模型去開
62、發不同領域的垂直應用。整個環節的價值量最大的地方會多應用去基于這些模型去開發不同領域的垂直應用。整個環節的價值量最大的地方會不會在公有云跟硬件廠商。因為最后有可能模型會趨于雷同,甚至很多應用程序會被不會在公有云跟硬件廠商。因為最后有可能模型會趨于雷同,甚至很多應用程序會被迅速的抄襲,迅速的雷同化?迅速的抄襲,迅速的雷同化?1 他們肯定是受益者,但這種說法有一個前提,算法是有上限的。但是實際來看,各家公司的算法上限不同,不同的公司,它掌握的能力不一樣 2 算法還是有很大的提升空間,我認為不會在短期內趨于雷同。模型的發展的效果??赡苁窃絹碓酵系?3 發展的模式也有區別??赡軙幸慌蟮墓靖慊A
63、性的模型,比方類似于 GPT這種模型,其實 ChatGPT,它也是 GPT-3.5 的版本上,做了一些微調而做的產品。還有公司做應用層面/垂直賽道的小模型開發。未來是兩種發展模式相結合 字節和百度在該方向的算力、數據和人員投入如何?字節和百度在該方向的算力、數據和人員投入如何?1 國內大廠的算力基礎都不差。在模型方面,字節在推薦領域也已經有千億參數的大模型,只是說在應用的領域不同。百度有文心大模型作為基礎 2 數據方面,字節也有一些頭條和抖音的搜索數據,量級上沒有百度搜索的數據量大 3 從投入來看,其實兩個公司的投入都非常大。百度把 AIGC 作為一個發展浪潮來追久謙|服務進步的群體|18 趕
64、的,而且搜索是它非常核心的業務場景,所以百度的投入是很大的,而字節,其實切入的稍微有點晚,沒有百度那么快。字節把幾個最重要的核心部門,聯合起來成立專項團隊。其實整體上來說投入也還可以 4 所以綜合比較,在算力和數據上,字節跟百度的區別可能沒有那么大。但在人力投入上,因為搜索是百度的核心業務,百度的整體的投入可能會比字節更大一些 現在現在 ChatGPT 沒有對國內開放,國內廠商在中文的領域,相比海外廠商,在用戶沒有對國內開放,國內廠商在中文的領域,相比海外廠商,在用戶體驗上能形成一定的或者明顯的優勢?體驗上能形成一定的或者明顯的優勢?1 我認為語言不是大的壁壘,我認為短期內,ChatGPT 沒
65、有向我們大陸開放,我們國內其實是有機會這樣做出來產品的,但是想要超越 ChatGPT 的可能性會非常低 2 因為像一些我們的頭部大公司,目前來說也還沒有推出一款產品,能夠跟ChatGPT 的模型的效果能夠 PK,所以可能短期來看不大能夠超過它 3 但是短期來看,我們可以通過這樣的一個時間窗口做逼近它的效果,是國內公司比較好的狀態 騰訊和阿里在騰訊和阿里在 AIGC 方面的布局如何?方面的布局如何?1 騰訊和阿里的搜索業務弱一些,不是重點,例如阿里,主要聚焦于電商領域,所以他可能在 ChatGPT 上不會有很多布局,目前阿里主要的發力方向是利用 AIGC 去做 AI+營銷,比如賦能商品的文案撰寫
66、等,未來阿里可能會繼續往這個方向布局 2 騰訊可能在廣告、社交、游戲等領域應用 AIGC 技術。比方塑造更廣義的互動敘事的品類,帶來一些新的社交的玩法和商業模式的新的啟發等等 3 總的來說,AIGC 是一波技術浪潮。國內的大廠的看法是要和現有的業務結合起來,實現自身業務更好地發展。而不是只關注 ChatGPT 這一個 AIGC 的細分賽道 可以大概理解成,騰訊和阿里更偏向應用端嗎,未來騰訊和阿里的大模型會自研可以大概理解成,騰訊和阿里更偏向應用端嗎,未來騰訊和阿里的大模型會自研嗎?嗎?1 我認為騰訊和阿里的大模型是會有自研的趨勢的。像這種大公司,它對專利,包括一些專業的技術積累其實還是比較有講
67、究的,所以我覺得長期來看,大廠大模型會自研 如果大模型投入使用,對于算力等如果大模型投入使用,對于算力等基礎設施的需求會不會是指數級的提升?基礎設施的需求會不會是指數級的提升?1 我認為是的,ChatGPT 剛發布的時候,就因為用戶訪問量過大,算力不足而出現問題。隨著用戶量級的大規模的上漲,算力的需求確實會呈現一個指數級的上漲 2 至少是非常正相關的,因此推理和訓練的資源的開銷肯定是非常大的。所以這一塊也是優化的重點,就是怎么去讓資源盡可能地節省,讓整體的一個性能更好地提升 除了除了 GPU,芯片方面還有可以替代的產品嗎?,芯片方面還有可以替代的產品嗎?久謙|服務進步的群體|19 1 自研芯片
68、,但是目前整體來說目前還沒有看到特別好的一個產品 2 采用分布式的 CPU,性能上差一些,但是成本便宜,很適合做推薦算法模型的公司,比如抖音、快手、Tiktok 等都是采用分布式的 CPU 做大模型的基礎算力設施 如何去辨別海內外廠商大模型的優劣?如何去辨別海內外廠商大模型的優劣?1 如果我們要評價它的具體的效果,最直接的是人工測評,看下真實的感受和評分。專業角度來講,我們可以用測試集,分別請求這些模型的 API,基于一些評價指標,去看這些模型的表現如何 2 模型的參數、訓練數據可以作為參考的指標。它的模型的參數量級更大,理論上模型的效果應該會更好,但相對片面一些,還是要實際測試和感受后才知道
69、 應用場景的數據,在中國來講是不是一種比較緊缺的資源。如果是要把模型訓練應用場景的數據,在中國來講是不是一種比較緊缺的資源。如果是要把模型訓練好,可能非常依賴這些產業廠商的合作?好,可能非常依賴這些產業廠商的合作?1 特定領域的數據是比較稀缺的,比如醫療、司法等領域,所以可能會生成類似的商業模式 2 可能最后就會形成這種商業模式:大公司負責訓練大的基礎模型,其他的一些創業型的公司或者一些小公司,在大模型的基礎上,加上他們自己特定領域的一些數據集,得到這種新的領域式的模型,來服務于他們自己的一些商業化的計劃 3 這種模式下,大廠有錢賺,對于小廠來說,它既能保護到自己的數據的隱私,同時也能夠形成這
70、樣自己的領域類的商業化的路徑 久謙|服務進步的群體|20 ChatGPT 中美差距究竟有多大中美差距究竟有多大 訪談日期:訪談日期:2023/2/5 具體內容具體內容 觀點匯總觀點匯總 1 一位百度資深人士:他“沒有興趣”談論 ChatGPT,言語之間,五味雜陳。一位人工智能企業創始人:面對 ChatGPT 的驚艷表現,心癢癢也迷茫,失眠了。他坦承,從模型的規模到效果,差距還比較遠 2 國內某廠商的大模型和 ChatGPT:ChatGPT 從回答的邏輯性和完整度上都遠超國內大模型,國內大模型的答案帶有明顯的拼湊感,夾雜著不少主題之外的胡編內容。而且,在回復速度上,ChatGPT 也領先一截 3
71、 從事數字人研發的特看科技 CEO:目前全球還沒有能跟 ChatGPT 抗衡的大模型,業界共識是差距在兩年以上。國內先不談彎道超車,趁早追趕反而是更重要的 4 雖然一些人工智能資深人士認為,在 ChatGPT 所涉及的技術上,中美是“平級”的,但華為諾亞方舟實驗室語音語義首席科學家劉*,在黃大年茶思屋的討論中坦承,中國在技術上還是有差距的 a 其中一個是基礎模型本身的差距,雖然我們訓練了很多萬億模型或者是幾千億的模型,但訓練的充分程度,是遠遠不夠的 b“我估計到現在為止,沒有哪個模型能吃 GPT 那么多數據?!? 清華大學計算機科學與技術系長聘副教授黃*提到,在 GPT-3 之后,OpenAI
72、 所有的模型都沒有開源,但它提供了 API 調用 a 在這個過程中,它干了一件事,就是建立起了真實的用戶調用和模型迭代之間的飛輪,它非常重視真實世界數據的調用,以及這些數據對模型的迭代 b 當然,在此過程中,它也養活了美國一大幫創業公司,建立了一個生態 6“你看我們國內的大模型研究,是 A 公司訓練了一個,B 公司也訓練了一個,打個廣告就完了,模型開源,你愛用不用。至少目前還沒看到一家比較好的公司,把數據和模型的飛輪完整轉起來。所以,我覺得這是我們趕超 ChatGPT 的難點?!币晃粯I內人士坦言 業界人士都提到了算力問題。由于業界人士都提到了算力問題。由于 GPU 芯片等問題,在一定程度上,國
73、內算力已芯片等問題,在一定程度上,國內算力已被卡脖子了被卡脖子了 1 即使國內頭部公司,從算力上跟谷歌等相比,差距也是比較明顯的。有業內人士稱:從數據質量來說,整個互聯網的中文數據質量,相比于英文還是有明顯差距?!拔覀兛赡芤朕k法,做中英文不同語言之間的數據互補?!? 幾乎所有受訪人士都提到了 OpenAI 這家人工智能組織,所體現的純碎創新精神和長期主義 a“其實從原理和方法看,他們所做的東西業界都是了解的,倒沒有說什么是美久謙|服務進步的群體|21 國做得了、我們做不了的?!眀 但像 OpenAI 和 DeepMind,他們可能是業界唯二的兩家機構,無論在創新性、投入、決心,還是在頂尖人才
74、儲備上,都是一如既往堅持的 3“我們看到的是成功,但里面可能已經有很多失敗的嘗試?!庇匈Y深 AI 從業者認為,在看不到前景和沒有明顯效果的階段,OpenAI 非常堅定地做了投入,相反國內傾向于在技術出現突破后,快速追隨?!皣鴥却蠹业谝徊较氲氖?,我們現在怎么用起來,但在不能用的時候,人家就在長期投入?!?“這件事其實是值得我們學習的,我們真的需要有足夠多的錢,有這么一幫熱血的人才,能夠在一個方向上這樣持續積累發力,我覺得這是一個非常必要的條件?!秉S民烈稱。最近一段時間,業界也在討論中國企業能否超越 5 圍繞業務,尤其是國內的場景,是有超越機會的。在局部應用中開始超越,這也是業界的共識 久謙|服務
75、進步的群體|22 如何理解如何理解 ChatGPT 的強勢出圈和國內發展的強勢出圈和國內發展 訪談日期:訪談日期:2023/1/29 具體內容具體內容 ChatGPT 的運作機制、技術原理的運作機制、技術原理 1 ChatGPT 是一個基于語言模型 gpt 模型的一個聊天機器人,它是用我們人工智能的強化學習來進行訓練的。它的突破性主要是在于它用了人類的反饋來去訓練語言模型 a 通過增加人類的反饋來不斷迭代人類的普通的標注,比如人類會對他所有的給出的答案做出標注,哪些答案他的回答是比較好的,就給這樣的答案以排名,把這樣的排名再給我們的語言模型去進一步學習 b 通過上萬次的人類反饋的迭代,就是通過
76、不同的語言內容來去使語言模型去不斷訓練,直到語言模型回答的內容跟人類想要的內容是保持一致的。這樣就形成了 ChatGPT。ChatGPT 它因為是基于 GPT 模型的一個語言模型。我們就要大概的先講一下 GPT 模型的一個一個來由 2 GPT 模型是一個生成的預訓練的 transformer 的模型。transformer 模型是深度學習語言模型的一個基礎的框架,是在 2018 年 6 月的時候開始有第一個 gpt 模型 a 從 2018 年 6 月份 OpenAi 提出了第一個 gpt 模型,得出了關鍵結論就是我們說的 transformer 架構跟預訓練模型的結合,就能夠產生這種非常強大的
77、語言模型 b 可以實現強大的自然語言理解。也就是從 2018 年的 6 月份開始,這種強大的自然語言理解的模型的這個技術范式開始被確立起來。接著在 2019 年 2 月到2020 年 5 月分別 openAI 分別發布了 gpt2 和 GPT3 c 到 GPT3 的時候已經比 GPT2 大一百倍,它擁有大概 1,750 億個參數。但是它跟原始的 GBT 模型并沒有特別本質的不同,基本原理是大概一致的。但是它的性能比較是它發展的一個瓶頸,因為它的模型特別大 d 在 2020 年 5 月份提到了 GPT3 以后,其實一直以來它大規模的預訓練模型已經基本上確立了,直到我們 2022 年 11 月底出
78、來了。ChatGPT 的模型。這一次進行了一個新的更新,特別是發布了它的對話模式的功能,可以放在網站上,讓任何人來用對話的形式跟大模型進行交互 3 使得它可以做到回答問題,而也能承認錯誤,或者是質疑不正確的一些問題,或者是拒絕不恰當的請求等等。這樣就形成了一個面向我們 c 端用戶去試用,非常好用的這么一個 ChatGPT 的一個機器人 a 他的工作原理就是他就是用機器學習的算法來分析和理解我們文本輸入的一個含義,根據文本輸入去生成相應的響應 b 這個模型它是在大量的文本數據上進行訓練,并疊加了大量的我們的人類的一些標注的反饋,使得它能夠去學習這種自然語言的模式和結構。他是可以模擬對話或者是回答
79、后續問題,承認錯誤等等 c openAi 為了去創建這么一種強化學習的模型,它一定要去設立一些獎勵模型 d 獎勵模型就是 openAi 去收集的比較多的數據,招募了很多人類的訓練師。在訓練的過程當中,人類訓練師就扮演了我們用戶和人工智能助手去進行交互的久謙|服務進步的群體|23 這么一個色 4 通過人類訓練師對于人工智能助手的交互的數據去標注回答問題好壞的排序,使得 ChatGPT 模型通過不斷的跟人類訓練師之間進行對話來去,通過對話來去生產數據生產答案。通過對答案的好壞程度的一個排序標注 a 使得這個模型就會根據學習的語料來去進一步的迭代他們。他的回答的一個策略進行數字迭代以后,它的回答的訓
80、練的它的質量足以匹配人類的對話的風格 b 所以它的這個技術的創新點主要是在于兩大方面,一大方面就是超大規模的預訓練模型 transform 模型這么一個技術的一個技術范式,這是一個目前被學術界公認作為最前沿最優秀的一個技術的模式 c 第二大創新點就是在于這種標注訓練方式。人類訓練師通過不斷的 ChatGPT 模型進行對話,去標注,去排序,來使這個模型可以更好的學習到什么樣的回答是人類認為比較合理的 d 這兩個創新點就使得模型在這一次發展當中有了一個里程碑式的跨越的進展,這是一個 ChatGPT 的運作機制 目前它的制約因素有幾個方面目前它的制約因素有幾個方面 1 首先是成本過高,有兩個方面的成
81、本,一個方面是它的開發成本會比較高,另一方面是我們企業的使用成本會比較高 a 它的開發成本是 GPT 模型它的一個發展歷程,從 GPT2 到 GPT3,它的算法模型上、技術上沒有太大改變,但是它主要改變了這個模型大小。從 gpt2 的一個 1.17 億的個參數量,到 gpt3 的一個 1,750 億的這個參數量,是增加了 1,000倍的參數量 b 預訓練的訓練數據從我們一開始 gpt2 的 5 個 tb 的訓練語料,增加到 GPT3,需要 45 個 tb 這樣一個存儲量的訓練語料。GPT3 訓練一次的費用大概是 460 萬美元,這是他訓練一次的費用 c 它整個 GPT3 的模型的訓練的總成本是
82、大概 1,200 萬美元。1,200 萬美元是GBD3 的一個總訓練的成本。所以開發的成本是它的一個主要的檻。它的開發成本非常高 2 第二個方面就是這個模型被訓練好之后,對于任何的一個企業來說,它有一個使用的成本。使用成本主要是 ChatGPT 單輪的對話的平均費用大概是在 0.01 美元到0.2 美元之間,根據用戶的使用的并發數不同,成本也不同 a 其次是 ChatGPT 的技術局限性。技術的局限性主要,一個 ChatGPT,它只依賴于它見過的這些訓練數據。它不會對一些實時的信息,比如新聞會網絡上的一些實時信息來使得他的回答更加的精準 b 所以目前我們在網上能夠使用的 ChatGPT 模型,
83、它使用的主要數據是 2021 年之前的,對于這個時間點之后的這個世界的信息,ChatGPT 他了解是非常有限的 c 所以在輸出的準確性上也會有所降低。這個第一個局限性就是它不能夠與時俱進,很難與時俱進 3 第二個局限性,他的認知也是建立在我們虛擬文本,沒有跟我們實時的數據庫或者是去信息的連接。比如他很難去回答一些股票今天比如 a 股,它的指數大概是多少這樣的非常實時的問題 久謙|服務進步的群體|24 a 所以它會在這種實時性的問題上回答上會出現一些致命的錯誤,或者是非常不準確的答案 b 是目前這個 ChatGPT 直接使用來說會有的一些局限性。如果是配合國內上一些專業的查詢軟件去進行二次開發,
84、可能可以有效的解決這方面的一個問題 4 第三方面的局限性就是 ChatGPT 目前的模型訓練,它的優化方向是圍繞著我們人類的標注去設計優化的,所以有可能會過度的朝著人類認知的方向去優化,這樣也會影響 chatGBT 回答的內容的風格 5 這可能是跟相關的人類訓練師的一個偏好有關的,有些人類訓練師可能是有一些個人的偏好來使得 ChatGPT 的訓練可能會朝著那些人類訓練師的偏好去有一些偏移,這也是其中的一個局限性 a 比如輸入一個涉及 CEO 的提示,可能會得到一個這個人是白人男性的一個回復,目前因為很多人類訓練是目前好像是假設這個人是白人男性,是 CEO 的一個概率會比較高 b 所以會產生一些
85、負面不準確的,甚至是有種族傾向,種族歧視傾向的一些內容出來,一些可能是政治敏感,或者是不恰當的一些答案出來 c 這是 GBD 的一些局限性和成本的一個比較高的一個因素,會制約它的目前的發展 未來的發展方向未來的發展方向 1 目前它的商業應用的場景是非常廣泛的,只要它能夠有效的克服以上提到那些制約因素,它在眾多行業上都是可能會產生這種變革性的影響的,特別是在客戶服務、教育、家庭的陪護等等這些領域可能會率先落地 a 今年 2023 年可能是 ChatGPT 非常受關注的一年,也有可能是制約因素逐步被技術所迭代,后續克服的一年。ChatGPT 模型的出現對于這種文字模態的 AI 生成內容的應用也是有
86、非常重要的意義的 b 未來可能會跟這種圖像圖形的 AI 生成內容的模型相結合,可以使得文字表述到圖片生成的這種 AI 創作輔助工具來進行更多應用?;蛘呤悄軌蚪邮苓@樣使用成本的一些領域可能會率先的去使用 c 根據我目前的了解,目前很多業內的從業者對于 ChatGPT 還是保持一個觀望的態度,一方面還是在持續的考量模型的一個回復的準確性 2 以及它在一些領域的適配程度。另一方面很多企業講應用 ChatGPT 也是會受制于它目前的一個高成本的使用成本,所以在商業化上還是一個比較謹慎的觀望態度 a 目前我覺我們覺得 ChatGPT 可能會構建一個新的技術生態,但他目前所學習的還是互聯網上公開的知識,他
87、可能還不能解決一些具體行業、企業這些個性化的問題 b 所以還需要企業在這種相關的行業縱深行業細分垂直行業去進行二次的訓練,這可能就涉及到很高的二次訓練成本。所以可能是需要很多優秀的公司去不斷的優化 c 能夠提出一些更貼近我們客戶需求的和痛點的一些解決方案產品。比如我們作為這種虛擬人的公司,可以針對政府、企業、醫療、銀行等等某個行業當中的企業去單獨形成一些垂直化的解決方案 d 利用 ChatGPT 這些技術去進行專業私有化知識的迭代,使得它具備這種解決實際問題的這種能力??赡苁?ChatGPT 后面的一個應用方向 久謙|服務進步的群體|25 目前國內相比于我們海外的差距到底有多少?是否有追趕的機
88、會?目前國內相比于我們海外的差距到底有多少?是否有追趕的機會?1 目前國內其實做這種 ChatGPT 類似的公司,也主要集中在大公司,或者是一些有國家政策資金支持的一些機構,學術機構,比如我們的百度,微軟小冰 2 再包括阿里還有騰訊可能也在做。主要是這幾個大的玩家可能會有成本去訓練這么一個 ChatGPT 這樣的超大模型,這樣的玩家相比于海外的差距,目前還是有一定差距的 3 目前的差距主要集中在我們的預訓練模型,它的回復能力確實自然程度上,還有包括回復的專業度上,以及內容的表述方面,相比于國外的 ChatGPT 模型相比還是有一定差距的 a 人主觀去體驗,還是感覺機器人的感覺會比較強,然后直接
89、體驗 ChatGPT 會感覺回答的內容很自然。這是從主觀體驗上的一個差距 b 從參數量的差距應該是沒有什么差距了,目前我們都是千億規模參數量的這樣一個大規模的模型,不管是國外的 ChatGPT 還是國內的百度,還是阿里提出的超大規模預訓練模型 4 還是我們清華提出的超大規模的預訓練模型,他們的參數量上的差距已經是接近差不多了。所以我們都國內外,國內和國外都具備訓練這種超大規模模型參數量模型的能力 a 但是訓練方法上可能還有一些技術,我們跟別人還是有一定差距的,所以后面可能主要在于訓練方法,還有語料的標注上,可能是可以有更多的這樣的語料 b 國外這種英語的語料或者是英語的訓練的訓練的方法可能跟國
90、內的中文的訓練方法不太一樣,所以導致我們現在訓練的方法,這方面的技術上還是有一定的差距 c 但我認為是有追趕的機會的。只要我們在這個成本足夠低,足夠可以大規模商業化之前,可以把這些差距給抹平 5 我們在這個成本可以拉到可以降低到可以大規模使用的個時間點的時候,我們也是可以跟海外的這些競爭對手去 PK 的一個機會。目前使用成本還是比較高,所以導致還有一個可以追趕的時間可以讓我們國內的這些公司去追趕 什么樣的什么樣的契機會推動我們國內的發展?主要的參與方是什么?契機會推動我們國內的發展?主要的參與方是什么?1 其實我個人覺得目前我們的一些垂直領域的應用,或者是首先是在一些能夠接受如此高昂的使用成本
91、的一些領域,比如我們的金融是不是可以接受 2 或者是在一些政府有相應的預算的情況下,可以讓應用可以先落地。落地以后就會產生大量的交互的數據,交互的文本就可以有大量的數據去迭代我們大規模的訓練模型,使得它技術可以變得更強 a 同時我們的工程師也可以通過技術的手段去優化迭代它使用的成本,使得使用成本降得足夠低以后我們可以大規模的 ToC 商業化 b 這樣可能是我們比較好的一個契機。所以是否能夠找到一個領域或者一個行業愿意接受如此高的使用成本,可以對他來說是收益高于使用成本的。如果它的收益高于使用成本,它就會大規模的鋪開使用 3 當它的收益已經大于它的使用成本的這么一種場景。這樣它就會可以大規模的去
92、使用起來,就會有足夠多的這樣的一個資金或者是訓練語料,可以有效的迭代模久謙|服務進步的群體|26 型 a 目前主要的參與方還是幾個大公司,百度、騰訊,阿里,還有微軟小冰,還有科大訊飛可能也是一家比較大的一個參與方 b 這幾家是可以有預訓練模型能力的一些參與方。還有一些研究機構,比如清華的研究院,或者清華的相關的人工智能研究所,還有清華智源等等 c 還有一些國內新出現的一些創業公司,他可能會在一些非常垂直的方向去做一些非常垂直落地應用。有可能是創業公司先找到了一些應用使用價值 d 可以覆蓋它的使用成本的這么一些垂直領域??梢栽谶@些垂直領域先得到應用,先賺到第一桶金,后續可以逐步的復制到其他領域,
93、這也是非常有可能的 久謙|服務進步的群體|27 全面解讀全面解讀 ChatGPT 產業鏈機會產業鏈機會 訪談日期:訪談日期:2023/1/31 具體內容具體內容 為什么關注為什么關注 ChatGPT?1 2022 年 11 月 30 日,OpenAI 推出人工智能聊天工具 ChatGPT,一周后用戶數突破100 萬人,月訪問量達 2,100 萬人次。ChatGPT 的推出,在 IT 產業和資本市場層面均產生巨大的影響 2 在產業層面,搜索引擎巨頭忌憚于 ChatGPT 對傳統搜索業務的潛在威脅,均做出了積極的應對:谷歌公司要求其多個團隊集中精力,解決 ChatGPT 對公司搜索引擎業務構成的威
94、脅;百度預計 3 月推出類似 ChatGPT 的人工智能聊天機器人。而微軟計劃將 ChatGPT 等工具整合進旗下包括 Bing、Office 在內的所有產品中 3 除此外,ChatGPT 由于其對文字工作者、方案策劃師、程序員、客服人員等的工作內容具有替代性,正給產業生態帶來深刻影響 4 在資本市場層面,根據華爾街日報消息,OpenAI 目前估值已達 290 億美元,而BuzzFeed 因采用 ChatGPT 上崗寫稿,兩天股價漲 3 倍等等。產業與資本市場形成了共振 對對 ChatGPT 的產業觀點的產業觀點 1 ChatGPT 之所以成為爆款,除了其本身的產品力較強之外,一個比較核心的原
95、因是,在全球經濟面臨一定壓力的背景下,企業降本增效需求尤其迫切,而ChatGPT 等新技術是解決上述需求的最重要路徑 2 歷史上相類似的,2008 年的全球金融危機,催化了云計算產業的快速發展并逐漸從海外發達國家延展到了國內。因此,在當前,包括 ChatGPT 在內的人工智能產業,由于其對人工的替代潛能可以有效的幫助企業降本增效,因此會反復發酵甚至加速 3 從中短期來看,ChatGPT 對包括搜索引擎巨頭在內的產業生態,暫時還不會帶來實質性的顛覆,因為目前 ChatGPT 不開源,商業模式不清晰,同時其運營過程又需持續產生高額成本,因此影響了其生態的快速膨脹,這給其他公司會留出應對的時間和空間
96、,也同時為其他的產業鏈參與者帶來了機會 4 ChatGPT 雖然目前技術水平相對其他 AI 聊天工具更高,但仍未達到理想狀態,其產品迭代及生態建立仍需一些時間,盈利兌現也需要時間 計算機板塊相關標的計算機板塊相關標的 1 重點關注科大訊飛,其他標的包括拓爾思、??低?、云從科技、格林深瞳、海光信息、寒武紀、景嘉微、海天瑞聲 2 人工智能細分領域圍繞算法、算力、數據三個方向展開,ChatGPT 產業中算法最久謙|服務進步的群體|28 為重要,算力與數據其次 3 算法角度 a 科大訊飛、拓爾思(NLP)、??低暎▓D像識別)、云從科技(圖像識別)、格林深瞳(圖像識別)b 其中,科大訊飛在文本識別、
97、語音識別、語義理解等領域優勢明顯 4 算力角度 a 海光信息(DCU)、寒武紀(AI 芯片)、景嘉微(GPU)5 數據角度 a 天瑞聲(數據標注)b 不同行業也均有相關集成和平臺類公司擁有大量的數據資源 對對 ChatGPT 的產業觀點的產業觀點 1 ChatGPT 在應用層面仍有很大市場空間。OpenAI 的 GPT 系列從 2018 年發展至今,技術迭代速度很快,若后續仍有新突破的產品推出,AIGC 市場商業應用會迎來爆發。從元宇宙角度來看,2022 年 11 月 1 日,VR 產業計劃發布后,元宇宙概念掀起熱潮 2 蘋果 MR 設備若在今年二三季度發布,也會帶來元宇宙熱潮再次啟動。在元宇
98、宙應用中,依靠人力進行內容供給遠無法滿足應用需求,未來 AIGC 將成為元宇宙應用內容生產主力 傳媒板塊相關標的傳媒板塊相關標的 1 中文在線、視覺中國、昆侖萬維 a 中文在線在 AIGC 產業有較多布局,可基于不同場景填寫關鍵詞與輔助語句形成文字描述輔助人員進行創作 b 視覺中國旗下元視覺網站已推出 AI 作圖相關應用,且目前銷量可觀。同時,其擁有大量圖片版權,商業價值較高 c 昆侖萬維相較前兩個公司市值較大,較早進行 AIGC 布局,天工四大體系布局圖片 AI、音樂 AI、文本 AI、編程 AI。且其海外 StarMusic 應用擁有大量用戶群體,昆侖萬維正探索運用 AI 技術創作原創音樂
99、降低版權費用支出 d 數據要素市場方面,運營商數據量可觀,在數據要素市場中可參與較多環節,且配合云計算業務與 IDC 基礎設施下沉,競爭力較強 2 光模塊方面 a 中際旭創作為 800G 光模塊龍頭,今年作為國內最早放量標的,拿到最高份額與訂單,確定性較強 b 股權激勵為其業績保駕護航,且估值水平較低,團隊預測其 2024 年進入 40%增速 3 運營商方面 a 中國移動作為團隊連續兩個月金股將有機會受益于 ChatGPT 等 AI 新產品發展 久謙|服務進步的群體|29 海外海外 TMT 洪嘉駿對洪嘉駿對 ChatGPT 的產業觀點的產業觀點 1 ChatGPT 用戶定位并非想要尋找最優答案
100、的專家型人群而是 70%-80%的大多數人群,且其商業模式不同于傳統搜索引擎的具有多來源出處的搜索模式,因此其模式的潛在廣告收入較少,仍具有較大挑戰 2 對于谷歌等巨頭來說,其在海量搜索次數與算力的基礎上發展商業模式只是時間問題,但聊天機器人的產品廣告模式及成本問題短期內仍無法擁有較好解決方案,仍需進行繼續探索 3 團隊認為 ChatGPT 在現階段算力制約下更為可能走向 ToB 模式。例如,微軟將其應用于 Office 等生產力工具場景中。長期來看,雖然 ChatGPT 會有更多商業模式與場景應用,但對于搜索行業格局并不會是顛覆式的,兩者將與時俱進且并存 4 AI 計算在過去六七年間,英偉達
101、等 GPU 公司在場景應用上有較大突破,未來在ChatGPT 模型搭建與實際商業化應用方面均需要更新型 AI 降低成本。相關存儲板塊,商業化之后也會有更大滲透率,突破目前消費電子為主要驅動的周期性瓶頸期 5 對于網絡運算、網絡通信等方面,以及相關通信公司,ChatGPT 也將深入網絡加速等方面,未來商業化后將看到投資機會 6 港股板塊上,中文 ChatGPT、語音學習難度大很多,但是當趨勢形成,國內龍頭將會持續發展儲備產品 海外海外 TMT 板塊相關標的板塊相關標的 1 百度、商湯、騰訊、字節跳動 a 百度最近提出籌備 ChatGPT 相關產品 b 算力方面,商湯本身在超算方面有較好基礎 c
102、騰訊搜索業務發展較快 d 字節也在規劃突破社交封鎖與搜索業務,值得后續關注 ChatGPT 相對于其他競品來說,主要的創新點和技術壁壘在哪里?相對于其他競品來說,主要的創新點和技術壁壘在哪里?1 ChatGPT 利用強化學習從人類標注者反饋中學習,可進行問答、閱讀理解、頭腦風暴等。ChatGPT 關鍵能力來自于基座模型能力(InstructGPT)2 可真實調動數據并從用戶標注中反饋學習。ChatGPT 模型結構與 InstructGPT 幾乎相同,InstructGPT 基于 OpenAIGPT-3.5 模型強大的基座能力,其學習主要分為三個階段:a 第一階段為冷啟動監督策略模型,一開始依靠
103、 GPT-3.5,GPT-3.5 雖然很優秀但不能理解人類不同指令中所蘊含的不同意圖,故人類標注員會對測試用戶提交的反饋中,對每個詢問做出高質量回答,來使 GPT-3.5 模型初步具備理解人類意圖的模型能力 b 第二階段為訓練回報模型。訓練回報模型依然依靠人工標注數據來訓練回報模型,對每各問題所對應的 K 個結果質量進行排序,再通過對比學習方法得到一個激勵模型(RewardModel)c 第三階段為使用強化學習策略來增強模型預訓練能力。此階段不需要人工標注久謙|服務進步的群體|30 數據,使用第二階段模型打分更新預測結果,使用提問對應的隨機指令,運用冷啟動模型初始化 PPO 模型參數,進行隨機
104、打分,此分數即回答的整體Reward,進而將此 Reward 回傳,由此產生的策略梯度可以更新 PPO 模型參數,其創新點在于沒有涉及多階段模型訓練任務,一般直接通過監督學習或強化學習。其將多個模型、訓練方式累加到一起,通過多個模型作用于一個結果 如何展望如何展望 ChatGPT 商業模式,以及對產業鏈其他公司的影響?商業模式,以及對產業鏈其他公司的影響?1 伴隨 ChatGPT 繼續快速發展,ChatGPT 作為 NLP 的一個基礎模型,NLP 領域包括信息抽取、機器翻譯、小樣本遷移學習等研究方向將會迎來較大發展。上游來看,數據標注、算力、數據清洗、數據采集等行業將面臨蓬勃發展。下游來看,智
105、能客服、聊天機器人等應用領域將蓬勃發展 2 目前國內電商等行業智能客服多輪對話能力較差,伴隨 ChatGPT 等開放式對話模型升級,智能客服會在人力成本方面有飛躍 3 在寫作等創作領域會有較大突破。NovelAI(diffusion)等繪畫 AI 可提高平均畫作質量且降低了成本 4 ChatGPT 素材收集、潤色改寫、擴充摘要等服務將使創作效率得到提升,AI 輔助寫作可能成為主流寫作方式 5 虛擬現實領域也是較為重要的領域之一,得益于 AI 創造能力提升,人類虛擬世界豐富程度將極大提升,將吸引更多客戶。在教育領域,ChatGPT 可作為專職教師提高獲取知識效率 a 在搜索引擎行業,目前 Cha
106、tGPT 還無法替代搜索引擎功能。首先,其基于大規模模型,新知識接受能力不友好,更新模型的訓練成本與經驗成本很大。其次,若面向真實搜索引擎的大量用戶請求,在線推理成本較高 b 搜索引擎與 ChatGPT 模型雙結合方式可能會成為搜索引擎主流方向,國外部分廠商已經在逐漸將類似 ChatGPT 功能嵌入搜索引擎 國內國內 ChatGPT 產業鏈的發展現狀?產業鏈的發展現狀?1 國內向 ChatGPT 以及 AIGC 領域發展的公司已非常多。百度向 ChatGPT 領域發展動機十分明確,維護其搜索領域護城河,在下一代搜索引擎市場中搶先占據有利地位。百度 ChatGPT 業務開展得益于其大量搜索引擎業
107、務問答樣本,樣本量級足夠。京東、阿里、拼多多等公司已經開始在智能客服方向上做出嘗試 2 字節跳動也在逐漸入局 AIGC,并將生態場景在內部進行應用,原來今日頭條中內容分層依靠于 UGC 等生產者,現在已逐步往 AIGC 方向遷移。國內一些創業型公司也已經開始嶄露頭角。聆心智能推出 AI 烏托邦,其開放式對話與 ChatGPT 較為類似 3 國內大多數公司正在向虛擬人、AIGC 等概念靠攏,目前沒有 ChatGPT 替代品問世,還存在著一些技術發展瓶頸。原因在于四點:a 國內缺少基礎模型,沒有模型迭代積累。ChatGPT 依賴于 InstructGPT,InstructGPT 依賴于 GPT-3
108、.5.GPT-3 b 國內缺少真實數據。除百度有天然用戶搜索問答訓練樣本外,對于其他公司較為缺少 久謙|服務進步的群體|31 c 國內缺少技術積累。ChatGPT 發展過程中對于數據處理、清洗、標注、模型訓練、推理加速等方面均具有技術難點,且對結果均影響較大 d 且包括國內大廠在內,強化學習框架仍未出現大規模使用場景。國內創新性土壤還需發展。整體商業環境較為急躁,但投入與產出需要花費一些時間 隨著隨著 ChatGPT 的應用群體增加,是否會出于成本考慮對國內的流量使用進行限的應用群體增加,是否會出于成本考慮對國內的流量使用進行限制?制?1 目前 ChatGPT 處于 demo 階段,是否會對流
109、量作出限制取決于 OpenAI 在此階段預備投入,其是否愿意增加機器、增加服務部署 2 若國內流量已經完全影響到其在線服務,限制國內流量是有可能的 后續圍繞后續圍繞 ChatGPT、AI,產業還有哪些值得期待的重大變化?,產業還有哪些值得期待的重大變化?1 短期重要產業變化主要在三個方面。首先,短期內圍繞 ChatGPT,搜索引擎領域會出現兩者結合發展方向。其次,在智能客服領域,若 ChatGPT 可以實現客服功能,對人力成本降低會有突破 2 再次,在 NLP 應用領域,由于其本質上是序列到序列的語言模型,伴隨 ChatGPT模型能力提升,領域技術上限提升,下游機器翻譯等領域也會得到發展 基于
110、基于 ChatGPT 的智能客服,是否反而會增加企業成本?的智能客服,是否反而會增加企業成本?1 分情況而定。傳統客服成本為人力成本,ChatGPT 成本包括在線策略成本、機械成本、離線訓練成本、數據采集調度成本等方面。在成本方面,需要對客服對接客戶問答數據量進行估算,對小規模公司來說 2 自研此類工具需要大規模數據訓練、采集、清洗等資本花費。對于大規模日均產生用戶交互較多的公司來說,長期來說,數據訓練、采集、清洗等資本花費只是一次性的,花費更多集中在在線成本上,此時成本會低于人力成本,故新型的ToB 服務模式為中小型企業提供智能客服功能也將是未來發展的方向 3 在質量方面,ChatGPT 質
111、量不會低于人工客服,其足以支持代碼 Debug 等精細專業化服務,效率比人工客服高 國內布局國內布局 ChatGPT 公司中,在信息基礎設施選擇方面,國產設備及云的占比情況公司中,在信息基礎設施選擇方面,國產設備及云的占比情況如何?如何?1 云計算設施方面,國內大廠例如百度、阿里、字節均使用自研云計算服務。對于中小型企業,阿里云市占率最高,阿里云、京東云排名較為靠前 2 芯片方面,目前大規模使用英偉達芯片,主要原因在于其性能、服務鏈路積累及其市占率優勢。目前自然語言處理、計算機視覺等領域均會使用英偉達 GPU 芯片等高性能芯片 3 針對搜索、推薦等場景,很多公司不采用 GPU 而采用 CPU
112、形式,例如字節在推薦等場景更多使用 CPU 芯片進行分布式計算環境搭建,成本會有所降低。但對ChatGPT 來說,對大規模 GPU 芯片有所需求,國外大廠目前市占率非常高,國內久謙|服務進步的群體|32 自研有所推進但在此方面仍有所欠缺 久謙|服務進步的群體|33 ChatGPT 來龍去脈來龍去脈 訪談日期:訪談日期:2023/1/29 具體內容具體內容 從任務角度來說,從任務角度來說,ChatGPT 以問答類為主,對話領域的模型非常復雜,以問答類為主,對話領域的模型非常復雜,ChatGPT 技技術方案最大的優點就是單一模型,特點就是參數比較大,達術方案最大的優點就是單一模型,特點就是參數比較
113、大,達 1,750 億的參數,代價就億的參數,代價就是需要巨大的算力是需要巨大的算力 1 當今時代和過去不同的就在于以前是系統復雜導致人力消耗巨大,現在則是算力要求。以前重人力的時代下產品的“天花板”不高,ChatGPT 實現的效果在以前是無法達到的 2 ChatGPT 技術最初的源頭是 Transformer 結構,這個結構最大的意義是可以承載更大的算力和數據,去訓練一個更復雜的模型。GPT3 所采用的 GPT 路線,又叫單向注意力模型,只要算力足夠就可以訓練出參數巨大的模型,尺寸上不封頂,最高點尚未可知 GPT3 是是 20 年提出的模型,達到年提出的模型,達到 1,750 億參數,這已經
114、是億參數,這已經是 OpenAI 的產品演化了兩的產品演化了兩年后的產品年后的產品 1 2020 年和 2021 年很多公司在做千億甚至萬億參數的模型,但都達不到 GPT3 的效果,很多公司并沒有持續深耕該領域,而 OpenAI 在經過兩年后又提出了 Gpt3.5,所以來看 2023 年即將發生的事情 2 接下來可能會有一些公司和團隊對外宣稱做出了類似 ChatGPT 的模型,參數甚至超過 ChatGPT,但不會有想進一步把模型轉化為產品的想法。如果存在一些公司能夠做出模型并且不斷改進、持續升級的話,那么這些公司是值得關注的 3 ChatGPT 應用落地的一個很大的問題在于在任意場景落地都需要
115、對產品進行定制化。還有一點,ChatGPT 雖然“見多識廣”,但是比某一項能力,未必能超越垂直類的產品,比如針對醫療數據訓練出一個模型,用它來做問答,在醫療領域一定是比 ChatGPT 要好的 解決這些問題的方案主要在于解決具體場景定制化的需求解決這些問題的方案主要在于解決具體場景定制化的需求 1 一方面是知識的定制化,要讓 ChatGPT 學會、精通某一領域的知識 2 另一方面就是技能的定制化,要對 ChatGPT 特有的技能如:推理、寫作等進行專門強化。但是定制化的問題在于成本非常高,ChatGPT 的參數量很大,訓練成本就會很高 3 類似 ChatGPT 這類模型的商業落地,應該先從中等
116、尺寸的模型開始做起,這些中等尺寸的模型可能就幾十億到幾百億的參數,落地成本沒有那么高。中等尺寸的模型可能功能沒有 ChatGPT 強大,但是在專業領域,往往也不需要全方面的能力 4 國內的發展格局分為兩大類,一類是專門型的研究機構和團隊,另一類就是大型久謙|服務進步的群體|34 公司。從公司角度來看,國內有百度、阿里、華為、騰訊還有浪潮等都在探索這個行業,他們都有超過千億的大模型,但是他們沒有將這些模型當做產品去做。雖然這些大廠商有豐富的資源,但是在現在的大環境下,整體都處于收緊的狀態,資源基本都傾斜主營業務,不會在探索性的領域投入過多 從研發機構角度來看,只有北京智源和從研發機構角度來看,只
117、有北京智源和 IDEA 研究院研究院 1 智源開展時間較早,在 GPT3 出現后,智源做過千億參數的模型 2 IDEA 研究院也做了一系列的幾億到幾十億的開源模型,已經形成的封神榜預訓練大模型體系在中文 NLP 起到支撐性的作用,評估一個團隊,要注意是否有在大算力上去做大模型的經驗,大多數團隊都只是具備在小規模算力上做小模型的經驗 3 展望 NLP 和 AIGC 的未來發展,NLP 是經歷范式革命非常嚴重的一個領域,從以前需要找關鍵詞到現在 Transformer 結構的出現,技術在不斷地改變,有一個猜想就是 NLP 領域未來可能會消失 4 像 ChatGPT 這樣的模型出現,我們有特定需求的
118、時候只需要去調整 ChatGPT 去實現即可,未來 NLP 算法工程師是否還有存在的必要是一個值得思考的問題 久謙|服務進步的群體|35 ChatGPT 學習筆記學習筆記 訪談日期:訪談日期:2023/1/29 具體內容具體內容 公司發展到公司發展到 2000 年到年到 2011 年的階段,核心的技術就是基于檢索技術,開發了智年的階段,核心的技術就是基于檢索技術,開發了智能內容的管理能內容的管理 1 在 2007 年啟動了核高機的非結構化數據系統的研究的專項 2 在 2011 年的時候,a 股市場上拓爾思公司作為第一家大數據公司上市,上市以后公司持續的在自然語言處理的技術上做研究,公司戰略的定
119、位是語音智能,是核心技術的一個發展場景 a 自然語言處理應用在搜索引擎、智能客服,輿情分析還有內容處理方面,多年以來通過持續的打造,形成了每個板塊深度的應用場景,同時打造了一批專屬軟件平臺 b 持續以來業務收入的增長也是基于我們對各個場景應用的熟悉,知道自然語言處理、語音、智能應用的方向,為用戶輸出了大量的、有時效的整個應用效果 c 整個人工智能時代有三要素,算法、算力和數據。拓爾思公司作為人工智能和大數據公司,所有的人工智能應用都是來自于對各種算法模型的積累。首先需要有數據,所以在 a 股市場橫向比較,我們是真正掌握了大量的數據資產的公司 d 2,000 多臺服務器分布在全國的三個數據中心,
120、每天日增 1 億條的開源的互聯網的數據公司,已經積累了將近 1,300 億條開源的數據資產 e 有了數據資產,我們才能夠做各種各樣的訓練模型,才能夠積累各種各樣的算法,現在已經積累了 300 種以上的算法,并且對每個場景,像知識圖譜的展現,知識庫的建立檔案 3 包括前期的數據的采集,還有數據的標引,諸多的關于數據要素的這些環節,都以完全知識產權的軟件平臺去持續的做這樣的工作 a 搜索引擎是我們自然語言處理的一個核心應用的技術,公司是 30 年以來堅持在這方面的積累,在全國整個大量的企業級的搜索都在用 ELSG 的設計、spark這些開源軟件的時候,我們公司完全捉到了自主可控,完全捉到了信創的銀
121、窩,應用到政府、金融,包括媒體等諸多的行業 b 數字經濟研究院目前主要的一個研究方向就是人機對話,像托馬斯公司這幾年以來在整個技術應用上面,比如圍繞著像中國中醫科學院的中醫中文問答,中國標準化研究院的國家標準的問答 c 人民衛星出版社的小 a 機器人,時代經濟出版社的審計問答、吉林政務的小機智能機器人,這些實際上都是跟智能問答相關,跟大家現在談的熱點都極其的相似。除此之外,我們圍繞著知識圖譜事件分析,包括機器人的自動寫作,智能內容創作等方面,都有多個成功的案例 d 像 OpenAI 熱點事件出來以后,我們的研究人員對于整個 OpenAI 的過去、現在和未來也持續性進行了研究 4 結合我們公司的
122、一些技術沉淀的事實和我們本身對場景應用研究,未來展望有了一些系統的梳理 久謙|服務進步的群體|36 ChatGPT 加快數字勞動力時代的發展加快數字勞動力時代的發展 1 新的智能新意時代,ChatGPT 的出現引領了數字勞動力的時代,帶來了第四種用工模式 2 數字勞動力將是生產力的第五次革命,這種新的經濟時代、用工模式將會快速的演變。三大傳統的用工模式包括全職員工、外包員工、兼職員工,數字化勞動力是第四種用工模式,打破了人與機器的邊界 a 依托人工智能技術,包括像 NLP 相關的一些技術,自主完成或者協助人類來完成各種企業的各種工作,比如前端對客人或者員工的文案工作等等,或者是中后臺運營協同等
123、工作 b 像 Tab、BP 就能夠幫助寫文案內容或者代碼,實際上它是一種數字化勞動力的一種。我覺得在這種傳統勞動力跟數字勞動力的結合下,通過我們這種 NLP 相關的技術賦能 c 能夠讓傳統勞動力爆發出更高效這種增長力水平。根據麥肯錫統計數,到2030 年,數字化勞動力的這種市場規??梢赃_到 1.73 萬億水平 d GPT 的火爆加速推動這個事件。勞動數字化全面轉變的核心在于勞動力,它的大腦、認知能力跟分析能力決定了數字勞動力是否能夠準確的理解人類的任務指令,是否能夠高效的去準確的完成任務 3 GPT 能做到這一點是基于人類反饋的強化學習,有一個千億規模的模擬訓練,可以融合世界的知識與規矩,使認
124、知能力跟溝通能力接近人的水平 a ChatGPT 的火爆將增強大眾對于這種對話式的 AI 的一個信心,我們會有更多的研究來加入行列,推動整個對話式的 AI 的發展 b 對話式 AI 大概分成四類,信息查詢類、專家咨詢類、助手類以及交流類 i 第一類是信息查詢類,用戶可以去查詢企業的相關的一些信息,相當于數字化勞動能夠替代一些枯燥重復性的勞動 ii 第二類是專家咨詢類,這是比較重要的一點,相當于數字勞動力能夠替代部分或者擴充這些資源稀缺的勞動力,需要我們大腦的賦能,專家系統可能是投顧類,或者是法律顧問類 iii 第三類是助手類,相當于數字化勞動力能夠幫助人類去完成相應的一些任務,幫你訂個機票,預
125、定個會議等等 iv 第四類是交流類,數字化勞動力能夠滿足人類情感交流的需求,可能是情感的陪伴,或者是閑聊場,或者是虛擬在元宇宙里的 4 四類對話式 AI 對標不同的應用場景 a 第一類信息查詢應用的比較多,比如智能客服機器人,一些售前信息的查詢,相當于降本增效 b 第二類專家咨詢是 MLP,需要加上世界知識,行業知識,專家系統 i 為企業去打造個性化咨詢,根據司法部數據顯示,全國辦理各類的法律事務的事件大概是 1,300 多件 ii 涉及到訴訟或者是非訴訟的大概 1,300 萬件。按照中國的律師平均費率是大概一個小時是 2,788,每個案件平均服務時長十小時來算,整個法律的咨詢的總體市場規模達
126、到 3,600 個億 iii 如果是按照律師事務所這種維度來計算,像 21 年年底全國共有律師事務所3.65 萬家,對法律服務技術的投入按每年 100 萬來算,法律的服務的總體分了大概是 300 萬 iv 相當于我們要把一些法律相關的知識形成企業的大腦,能夠去對外賦能,久謙|服務進步的群體|37 其中就涉及到我們怎么去利用這些知識構建出復雜的知識體系里頭來 c 第三個場景是助手類,比如智能車載助手,其中很重要的一點是智能創作,比如直播文案的生成,廣告文案的生成,或者做一些劇本的創作。整個智能創作市場主要是分成數字資訊類、數字營銷類和行政辦公類 i 18 年公開數據顯示,18 年各級的網信辦審批
127、的互聯網信息、新聞信息服務單位總共有 700 多家,在主要的一些門戶資訊,比如像微信公眾號,它的總量大概是 2,100 萬,活躍賬戶有 350 萬 ii 按每年 SaaS 化軟件一年 3,000 塊報價來算,總體規模大概在 120 個億左右。數字營銷類每年的全球廣告支出蠻高,18 年在 e-master 數據顯示,全球 18 年的全球廣告支出高達 6,000 多億美元,數字廣告就占到了 2,800 億美金 iii 我們希望能夠在數字營銷里提供一個數字營銷的廣告的助手。在行動辦公領域,我們可以看到愛樂咨詢的一個數據顯示,PC 這種辦公軟件的用戶活躍數在 5.3 億的數字上下波動 iv 預計這個數
128、字在未來幾年也不會有太大的變化,這個群體其實是智能創作的一個重點挖掘的對象,按照每個用戶付費 100,總體規??梢赃_到 530個億 5 基于對話式 AI 市場,拓爾思公司規劃未來拓爾思的優勢有以下幾點 a 第一點,拓爾思有來自境內外的各行各樣的數據市場,超過 1,200 個億,已經具備千億數據的數據索引等,這些是我們的一些核心資產,包括我們背后的這些模型,包括我背后的加工能力等等 b 第二點是技術的沉淀,我們堅持核心自主的研發,實現國產化,擁有 40+的發明專利,800 的軟件著作權 6 技術沉淀也相當于 AI 的三大要素之一。最后是客戶的沉淀,整個數據的產品和服務已經國內外超過 1 萬家的企
129、業級的用戶在廣泛使用 a 像智能客服現在基本都是基于檢索式的,基于我們數據庫,我們將有一些基于深度模型,去庫里檢索答案,返回給用戶。思想是基于一個大模型,有排量數據去訓練一個模型出來,再加入人類反饋的數據,我們需要累計高質量的人類的反饋數據,這樣我們就能夠提供更優質的對話體驗 b 還有第二點,我們需要行業深耕,像這類 DP,它是一個通用模型,缺乏對一些行業客戶、行業知識的了解,我們對行業是非常了解的,我們未來會讓對話式的 AI 這種人工智能技術去跟行業客戶的業務流程去更深度的融合,包括從局部業務到全場景的覆蓋,實現全業務的數字化、智能化 c 我們會持續的在行業中不斷的累加場景,深耕場景,解決核
130、心業務的一個問題。從長遠來看,擁有更好的數據,更好的行業的一些 know-how,更有利于去微調我們的一個大模型的,給客戶帶來更好的產品體驗的 像像 ChatGPT,不懂的地方會一本正經胡編亂造,目前的技術發展路徑是不是已經,不懂的地方會一本正經胡編亂造,目前的技術發展路徑是不是已經開始往準確率這方面去走呢?開始往準確率這方面去走呢?1 目前整個智能客服是比較成熟的一個階段,但是所采用的技術基本都是基于線索式,保證了所有的回復都是從庫里拿出來回復給用戶的。像 ChatGPT,它是基于生成式的這種方式去回答用戶,比較難保證回復的可靠性 2 所以我們在后續的訓練跟維護的過程,我們去增加一些這種規則
131、,或者是增加一些這種安全檢測的一些模塊進到系統里頭,能夠保證我在一些異常條件下去規避久謙|服務進步的群體|38 掉這些問題 3 現在 CC 已經能夠讓可靠性保證在一個比較小的結果里頭,但是它還是會有這樣一個問題存在 無論是信息查詢、專家咨詢、助手或者交流,從公司的視角以及整個產業發展趨無論是信息查詢、專家咨詢、助手或者交流,從公司的視角以及整個產業發展趨勢來看,勢來看,哪一塊最先有可能形成商業化的落地?哪一塊最先有可能形成商業化的落地?1 我覺得幾個點都有可能。一個是這種專家咨詢類的,它實際上是需要有一塊比較好的相當于是企業大腦的角色,把這些行業的知識變成一個企業的大腦 a 變成一個模型的知識
132、。ChatGPT 證明了在一些大數量前提下,是一個比較好的表現的,這一塊是在智能創作助手類的,一個是我們能夠去高效地提升智能創作的水平 b 現在它的這種文本生成能夠已經能夠滿足創作者的大部分的需求,相當于我能夠去幫助創作者生成一個初級的版本,創作者在上面再去繼續修改,能夠有一個比較好的效率提升 c 在不管是直播文案的生成或者廣告文案的生成,或者基本創作等等,還有在交流的,它已經像 GPT,擁有一個比較大的模型,擁有一個比較好的一種世界知識通用知識的前提下,能夠回答各類相關的一些問題 2 如果我們是按照比如在元宇宙里,或者是在一些養老領域等行業里去定制一個這種相關行業的,可能也是會有一個比較好的
133、表現。所以我覺得大概可能是這幾塊 3 專家咨詢類未來會在法律咨詢的市場有一個比較亮眼的商業模式的落地 如果未來轉向人工智能對話式的方式,是不是對于數據的采集其實是會有偏好性如果未來轉向人工智能對話式的方式,是不是對于數據的采集其實是會有偏好性的,或者我們如何確保自己采集過來的數據是針對相關的行業,而并不是會跨到其他的,或者我們如何確保自己采集過來的數據是針對相關的行業,而并不是會跨到其他行業,我行業,我們怎么去確保未來這種算法以及數據的針對性是足夠匹配到行業的一個情們怎么去確保未來這種算法以及數據的針對性是足夠匹配到行業的一個情況?況?1 好,您提到的其實是一個模型上下文關聯的一個能力。在這種
134、大模型的前提下,大模型是能夠學習到相關的上下文的一個知識 2 比如我們拿法律的整個行業的數據進來,訓練出一個大的模型的結構,再基于人類的一些反饋加入訓練,最后出來的一個模型會在不同的條件下,識別到不同的上下文的知識的。在不同的領域里頭它是帶有不同的知識,都是能夠識別到這一點的 在這個問題解決之后,現在我們最大的痛點是在哪里?拓爾思后續會在哪個行業在這個問題解決之后,現在我們最大的痛點是在哪里?拓爾思后續會在哪個行業率先落出相關的商業模式,并能產生實際的收益?率先落出相關的商業模式,并能產生實際的收益?1 這一塊我簡單的回答一下。接下來首先就是語義智能,它本身是一個經驗型的,這種技術的積累在這一
135、塊首先還是來自于你所熟悉的行業。我們強調的最多的人工智能的場景的應用,要選擇一個比較好的主題 2 在選擇主題以后,你自己作為公司在深度的積累知識,最后結合語義智能,圍繞著主體場景,理解可能就越深。后面通過訓練數據,還有源源不斷的能積累的進來,訓練的整個的模型 久謙|服務進步的群體|39 3 算法會積累的越來越豐富所以我們覺得經驗值是非常重要。舉個例子,拓爾思在媒體行業,譬如垂直領域的 120 多家媒體,有 40 多家是我們的客戶,一半以上的審計的融媒體中心也是我們的客戶 a 我們這幾年以來在整體的打包服務中,有一個拓爾思的妙筆。小四的智能寫作實際上就是一個合成,但是需要我們了解整個的編輯記者,
136、在他們應用材場景中間,對于他們的新聞要素,新聞稿件的形成的整個的細節 b 我們先不斷在豐富的在積累。原來一個編輯記者要花 30 分鐘才搞定的一個稿件,我們可能快速的一秒鐘就能夠生成一個初稿,最后讓他進行新加工 c 另外,融媒體中心成立完以后,他們出稿子的頻率越來越快,任務越來越多,越來越大,這種情況下,怎么能夠快速高效的去完成他們的這種勞動工作?還有一塊,譬如剛才您講到專家咨詢,我們現在正在跟國家知識產權局深度打造我們的專業的咨詢服務,這就是個很專業的活了 4 因為整個國家知識產權局現在有 2 萬多專利評審人員,80%的時間都在拓爾思的三大平臺上進行工作,這就是我們長期積累的知識 a 國家專利
137、局有全國最大的最全的專利庫,我們公司稱之為數據的這些文本信息,都是一篇一篇的專利原作,對原作要進行語義智能的這種分區,要進行各種各樣的標語,這些事情我們都做了 b 接下來在申請專利的過程中間,我們的專利申請人員對于整個專利申請的流程,整個專利檢索的專業的知識,我們能夠打造專業的技術服?;仡^來說,我們實際上強調的還是對行業深入了解和熟悉的程度 c 它的背后有一系列這種知識庫的間接。我們拓爾思有一個自己的知識圖譜的研究院,在開源情報這方面多年以來持續實現了我們一定比例的收獲,并且還有很好的增長趨勢 d 基于我們對整個的開源情報的這些分析,各種各樣的數據的采集加工,我們不斷再迭代,也形成了我們的自己
138、的知識圖譜的各種各樣的算法 未來是不是會有可能在每個行業都誕生出一個龍頭,類似于搜索引擎龍頭,而不未來是不是會有可能在每個行業都誕生出一個龍頭,類似于搜索引擎龍頭,而不會像現在通過谷歌我們對各行各業所有人一起去進行搜索?未來的趨勢到底應該是以會像現在通過谷歌我們對各行各業所有人一起去進行搜索?未來的趨勢到底應該是以垂直行業為主,還是有一個大一統的搜索平臺為主?垂直行業為主,還是有一個大一統的搜索平臺為主?1 從目前應用事件上來講,我非常認同你的說法,這也是我們研究院一直在溝通的。因為剛才我們都提到了一個共同的問題,就是現在我們關注的女性事件,大家背后說她胡說八道。實際上你會發現它現在整個積累的
139、時間和計算的時間,盡管跟我們國內的公司比已經有了一個數量級的差異,但是它不能夠窮盡一切 2 理論上來講,它能夠窮盡一切,以后它就真正能夠替代人了?,F在我們在探討應用的同時,反過頭來反思我們國內有哪些應用場景,從這兩方來講 3 我們認為每一個垂直的專業板塊空間都是非常大的,也就是拓爾思未來的發展。在整個人工智能和大數據的中間軟件,我們已經達到了比較強大的自主可控的軟件平臺的積累。但是對于每一個垂直行業的這種深度的應用,在知識積累方面,我們也不是什么行業都去干 a 但是我剛才跟您舉例的,譬如知識服務用在專利檢索,用在整個專利行業,未來一個百億級的規模,大家會需要有更多的這種服務的時候,我們就把更多
140、的給打造好,圍繞著金融,圍繞著媒體,圍繞著這幾個深度的行業去做就好 b 我們還有一個可以拓展的行業,結合虛擬人和兩周機器人走 久謙|服務進步的群體|40 c 悟到更多新的應用,我們也在拓展我們的新的市場。譬如在兩座機器人,圍繞著養老院場景,下的精力是最多的,一旦走進來,我們可能就能夠比別人積累更多的支持 久謙|服務進步的群體|41 2023 電子產業展望電子產業展望 訪談日期:訪談日期:2023/2/7 具體內容具體內容 整體形勢整體形勢 1 目前獲利趨勢來看目前在下修循環,1.2 月持續下修,應該會維持到 2 月份,截至1 月底對費半的企業獲利預估已經到-15%的預估水準,基本上 2 月份修
141、正完應該會落入短期的底部,3.4 月份有機會進入上修或持平的階段,若 3.4 月份反映整體經濟不好的情況恐落入 doubledeep 的情況 2 股價方面,目前已經領先基本面反彈,反映下半年的復甦,是否能持續向上就要看 3.4 月份的情況才比較清楚,截至目前為止能見度還不高 3 庫存方面,IC 公司依然很高,臺積電到今年年初才開始才有產能利用率顯著下滑的情形,預計今年 Q1.Q2 庫存金額會出現顯著修正,短期不太需要注意天數而是金額 4 因為業績不好天數就會上升,主要觀察 Q3.Q4 金額是否有修正,業績若帶動天數就會下降,下游部分,庫存已經修正一陣子了,詳細數字要到 2.3 月份才會公布 美
142、國零售銷售數據美國零售銷售數據 1 目前看到美國零售銷售數據有走緩 MoM 開始下滑,YoY 還有+5%10%左右,以現在為止的預估維持在小幅成長的狀況 2 目前還沒有看到下半年有 slowdown 的跡象,其中電子產品從去年就不好(YoY-10%左右)但看起來有穩定的狀況,走緩的速度下降 中國消費市場中國消費市場 1 去年整年都不好,基本上數據都在 0 以下,12 月解封,過完年開始正常,預估會是緩步的回升,中國人民超額儲蓄去年增加了不少 2 中國人民消費信心不足,后續可以觀察是否疫情正?;筠D換為消費力道將成為助益 估值方面估值方面 1 是近期需要擔心的部分,費半自去年十月份已經反彈約 5
143、0%,但企業獲利是衰退的 2 目前 P/E 接近歷史峰值,段線上的嘎空行情大概已經 Price-in,后續要看基本面是否回升,以 P/B 來說比較沒有那麼激烈 籌碼面部分籌碼面部分 久謙|服務進步的群體|42 1 牛熊指標已回到 4 以上,HEDGEFUND 陸陸續續回到市場,其在主導市場波動較為劇烈,而 LONGFUND 的部位還是處在觀望的角度,短期要有資金行情不容易,需要 LONGFUND 回歸市場 2 目前沒有看到金融危機的跡象,看美國整體信貸利差已自去年高峰下降,而歐洲狀況而言也是如此,美國公債的流動性指數去年 10 月份狀況很糟,已經有所改善但目前還是偏高,會對于美國整體的財政運作
144、,若未改善,就不用擔心美國會有更鷹派的做法 產業上較看好產業上較看好 1 中國解封概念、互聯網、中國智慧型手機 2 臺積電耗材、以及已經落底很久的記憶體或面板 較不看好較不看好 1 半導體設備、云端運算等砍資本支出相關股票 2 NEWCPU/GPUinto2021.INTEL 上半年在 DESKTOP 較沒有新產品,比較像是更新,原本預計的產品有 Meteorlake 是與臺積電有深度合作的產品但是有遞延,而Notebook 上是有在 ROADMAP 的計劃上,要觀察是否能做的到,還是會遞延 AMD 1 目前在 ZEN4,明年才有機會出 ZEN5,ZEN5 會採用 3 奈米 2 GPU 今年還
145、是看 NVIDIA 有沒有新產品,近期推的 4,070TI 其實就是之前的408,012G,價格上有下調 100 美金,CP 值有限,應不會有大的換機潮,感覺起來是 GPU 的小年 a HPC&Server1.Intel 今年的重頭戲在 SapphireRapids(SPR)的量產,明年看EmeraidRapids 的量產,今年下半年還有 BSH 及 SierraForest 后者是和 ARM 做競爭,應該不會太好 b AMD 今年看 Genoa 的改版及 Bergamo(Zen4C)有提高核心數至 168 核心,ZEN5 要看 2024 年 c INTEL 產品的規格上看到 BSHAP 平臺
146、的功耗達到 500W,2 個 SOCKET,AP 則可做到 8 個 SOCKET,觀察到 PCIe 部分,目前已經增加到 8090 條,再搭上南橋晶片就沒什麼意義,下一代可能就會取消掉 3 INTELSPR 的 DiePackages 有 XCC 和 MCC,MCC 使用較傳統的架構,為單顆大核心,不像 AMD 是使用許多小核心,到 Granite 也還是以單顆大核心的架構 a AMD 產品規格上今年最大的賣點在 ZEN4 做到 96 核心,ZEN 搞不好可以做到192 顆核心,AMD 市佔能持續提高與 INTEL 拉開差距的關鍵 b AMD 的架構看到 CCD+IOD,最多可以放到 8 顆
147、CCD,設計的成本及彈性就比INTEL 還要好 c 在 INTEL 取消掉南橋晶片后下一架構會走到 Self-boot,CPU 自己可以開機,未來 SERVER 在簡單化的趨勢下要自己可以開機,而相關趨動的部分將移到 BMC上面 久謙|服務進步的群體|43 DataCenter 1 走向 DC-SCM 的膜塊設計,將 BMC 和 RoT 與服務器拆開,為來客制化產品就可以放在 BMC 上,架構相對簡單,且報廢時可以單獨銷毀安全膜塊,和主板的連結會用 FPGA,近期有些 LONGFUND 就是在看信驊的 2,700 及 ASIC 去取代 FPGA 等等訊息,但可能要到 2025 才會量產 a C
148、XL3.0 讓 CPU 及 GPU 的記憶體可以互通,記憶體會是未來限制頻寬的因素之一,今年的 SPR 及 ZEN 採用 CXL1.1,明年可能會使用 CXL2.0,而去年通過CXL3.0 則是要等 20262027 年了 b ARM-baesdServer1.IDC 預估明年 ARM 的市佔就會達到 10%,主要在各家公司開始使用 Amphere 的 solution 帶動各家公司的 support,ARM 的是佔率應該會持續上升 c 產品主要有 V 系列及 N 系列,V 系列主要顧客有 AWS、Nvidia、Google,N 系列主要顧客有 Nokia、Marvell 等網通廠 2 AI
149、Chip update a 以 GPU 市佔率最大的還是 Nvidia,推出 H100 取代 A100,而今年比較值得注意的是 i AMAZON 自己的 Trainium,據說自家的 AIServer 可能有一半以上用自己的晶片 ii AMD 的 Mi300 是市場上第一顆 SoIC+CoWos 的晶片把 CPU 跟 GPU 做整合,年底量產,主要客戶有微軟等因此對 Nvidia 有掉市佔的威脅 b 未來 AI 設計的瓶頸在于記憶體,GPU 的演算力好幾倍的增加,而記憶體的頻寬并未跟上,第一個方法是增加記憶體使用量,第二個是增加 CATCHMEMORY a 回頭看到先前 INTEL 也有類似的
150、產品 PonteVecchio,自 2021 年就提了,但尚未量產,算力約當于目前 Nvidia 的 H100 b ChatGPT 短期影響不大,每個月要燒 300 萬美金,差不多是 1,500 片 A100,NVIDIA 一年約產出 670 萬片,對一開始來說不會有很大的量,目前還言之過早,目前還是要看終端應用所帶來的發展 3 Autonomous Driving Chips a 目前來說車自系統開始走向 Domian 架構,會比較偏向整合成一塊,像是中央控制在傳送給各個地方,目前為邊緣運算的方式 b 以目前車子晶片公司來做比較的話,TESLA 以外的主流就是 Mobileye,目前多主流車
151、廠在 LV2 上幾乎都使用 EyeQ4,EyeQ5 往上向 L3 的 Designin 就比較少一些,而 TESLA 先前 HW2.0/2.5 使用 NVDA 晶片,但功耗太高,HW3.0 就採用FSD 晶片,今年會推 HW4.0 在三星投產 c Nvidia 雖然及實有晶片可以使用,算力高但是功耗非常高,僅中國的造車新勢力比較著急使用的車企使用,因此一線車廠未來 35 年應該是會使用高通,算力約在 360 左右,功耗 65W,現在若聯發科要重組該部門可能也較難打入一線車廠 CHATGPT 的看法,對的看法,對 GOOGLE 的威脅?的威脅?1 威脅一定有但比較難以量化,微軟一定是主要的受惠者
152、,對微軟來說,CHATGPT要開始收費也會帶來額外的收入,以及未來 CRITICALMARKET 上的優化,或IQ8090 的語音機器人服務等等,再過幾年也許就會更有系統及邏輯性的回答,久謙|服務進步的群體|44 對 SENIOR 行業蠻有幫助的 2 也有可能取代 JUNIOR 的工作,相關的 ROADMAP 可以參考 2016 年 NVIDIA 影像辨識等相關的發展,對市場影響還需要時間發酵 3 伺服器今年銷售預其表現保守,未來 35 年 ChatGPT 會不會帶來影改變單就AISERVER 一年約一百多萬臺遠低于目前一年伺服器有 1,600 萬臺左右,基本上AISERVER 能影響整體 S
153、ERVER 的市場非常小 4 信驊及新唐在 BMC 技術上的差異規格上看起來都差不多,新堂做了很多年,市場上扣掉 HPDELLGOOGLE,其他基本上是信驊 100%的市佔,很難說出兩者的差異,技術上的本質應該差不多 關于關于 ADAS 市場,輝達的耗電問題嚴重,是否會被市場淘汰?市場,輝達的耗電問題嚴重,是否會被市場淘汰?1 未來如果功耗問題有解決還是有機會 2 但一般來說車廠簽約基本上市 35 年,所以短期內輝達可能還是比較弱勢 RISK-V 未來的發展?未來的發展?1 ARM 直接跟客戶接觸會不會搶到 MTK、QCOM 的市佔率 RISK-V 先前比較多給 IoT的應用,而 ARM 近期
154、也開始想直接接觸手機終端客戶,有聽到三星及 OPPO 等公司有在接洽 2 近期也有聽到 GOOGLE 有在開發 RISK-V 的手機相關應用,ARM 接觸終端客戶當然會影響 載板是否還值得關注?載板是否還值得關注?1 載板七成市場在 PC 其他在 GPU 2 而今年 PC 不好又市 GPU 的小年,多家廠商先前也有擴產,短期內可能要回溫布市那么容易 SERVERTDP 功耗提升,水冷及液冷散熱是否會加速提升?功耗提升,水冷及液冷散熱是否會加速提升?Graniterapidap/sp 在在Intel 中有可能未來出貨會遇到哪些瓶頸?中有可能未來出貨會遇到哪些瓶頸?1 水冷是目前趨勢,但目前有漏水
155、的問題要去解決,浸潤是的話冷卻液目前的成本很高,冷卻液也是揮發性的可能會中毒,還要帶技術成熟才會被大幅採用 2 對于 intel 的 roadmap 不用太樂觀因為已經有好幾次的 delay 久謙|服務進步的群體|45 AIGC 路演紀要路演紀要 訪談日期:訪談日期:2023/1/30 具體內容具體內容 計算機傳統計算機傳統 AI 落地困難,最大的問題在于小模型,對于不同場景不同細分的運落地困難,最大的問題在于小模型,對于不同場景不同細分的運用,需要人為進行大量的二次校準調參。耗費的人力太大,又太過于瑣碎,形成高昂用,需要人為進行大量的二次校準調參。耗費的人力太大,又太過于瑣碎,形成高昂的成本
156、的成本 1 CHATGPT 大模型針對這個問題把參數量加到足夠大之后(GPT3 參數量達到 1,750億個)發現模型樣本量和參數量足夠大了,在很多大的泛化的場景里,不需要做人為太多的調試,就可以得到非常好的效果 a 技術基于 2017 年的 Transformer 模型,可以與整個句子或段落的其他語句形成關聯,捕捉全局信息 b 另用 transformer 和大模型比較多的領域是自動駕駛。用的比較多的就是bevtransformer,最早是特斯拉在 AIZ 里面引入,后面的國內的毫末這些公司也相繼的引進了,仍然用傳統的殘差去提取圖像的特征,同時大模型在數據標注領域也是提升了效率 2 中國 AI
157、 非常的領先,更多的還是在 CV,但是在 NLP 領域,尤其是在語義的理解領域,確實跟 openai、Google 存在比較大的差距。傳統的機器視覺 a 例如???、大華,選取的路線還是小模型,壓縮成本,提升模型的復用率。另外一類是用大模型,實現不同場景之間的復現,未來兩種技術的區分度會更大 b 在大模型算法領域做得比較好的公司,只能是頭部的互聯網公司和 AI 公司,因為訓練成本、研發成本都是非常高的 國內大模型的發展情況,在語言領域確實跟國內大模型的發展情況,在語言領域確實跟 CHATGPT 有差距,很多互聯網公司都有差距,很多互聯網公司都有布局,包括像百度文心大模型,里面也提供了跨模態的工具
158、包;華為的盤古云在工有布局,包括像百度文心大模型,里面也提供了跨模態的工具包;華為的盤古云在工業領域,比如氣象、礦山、聲音生成,都有應用業領域,比如氣象、礦山、聲音生成,都有應用 1 A 股公司,商湯科技,有自己的 AIGC 的大數據的中心,可以提供大量的算力基礎,也有自己的 AI 大裝置,并且自研了訓練框架。云從科技,之前做的是全棧AI,所以在 NLP 領域也有一些項目,之前也披露了他在這個視覺、語音 nop 領域都有類似 GPT 的預訓練模型加反饋調優的技術路線 a 科大訊飛,在語音是國內領先,其他比如拓爾斯,也都值得關注 b 傳媒 web3 的生產力工具,強調創作者經濟,就是每人都能夠借
159、助一些工具自由的去創作出足夠多的內容,aigc 正好滿足了這樣的需求 c 在內容領域的應用更多是在內容的分發環節,最典型的就是算法推薦,Facebook 信息流廣告,國內的短視頻、電商的千人千面的推薦 d 目前應用最多的還是文本音頻、圖片這幾個領域,原因是相對簡單,游戲視頻復雜度比較高,相關應用比較少一些 e aigc 影響內容行業來講,分為兩階段,第一是作為輔助的工具,對信息挖掘、素材調用、復課編輯比較機械的環節形成有效替代,解放創作者的生產力,把更多的精力放在創意環節 久謙|服務進步的群體|46 f 第二個是基于 AI 直接生成內容,會對現有的內容產品產生比較強的顛覆。目前主要還是在第一階
160、段,作為助手工具 2 這一輪與之前 AIGC 炒作不同,因為微軟做了很大的投資,意味著巨頭入場,之前A 股主題投資,尤其是移動互聯網領域,在 19 年之前重點是 3G4G,大家看趨勢是騰訊、字節跳動的布局 19 年大家就已經開始討論下一代互聯網的形態,原因就是移動互聯網的滲透率到年大家就已經開始討論下一代互聯網的形態,原因就是移動互聯網的滲透率到了比較高了比較高的位置,大家更期待一些顛覆性的創新的位置,大家更期待一些顛覆性的創新 1 比如谷歌的云游戲的能不能給 5g 的應用帶來一些新的一些嘗試,在 20-22 年的時候,大家看的是以 Facebook 為代表的對于 ARVR 的布局,23 年大
161、家重點關注蘋果的 MR、微軟通過 AI 做一些新的探索,所以巨頭入場是很重要的事情 2 第二就是 openAI 跟微軟合作,可以跟微軟現有的產品結合,提升產品本身的效率,和對用戶的吸引力 3 傳媒相關標的,文本、音頻、圖像落地更快,文本相關是中文在線、掌閱科技,圖片相關是視覺中國、漢儀股份 久謙|服務進步的群體|47 AI 或是新年預期差最大的計算機投資主線或是新年預期差最大的計算機投資主線 訪談日期:訪談日期:2023/1/29 具體內容具體內容 ChatGPT 名字什么意思,本身有什么技術突破?名字什么意思,本身有什么技術突破?1 CHAT 的意思是聊天,GPT 是 GENERATIVEP
162、RE-TRAINEDTRANSFORMER 的英文縮寫,TRANSFORMER 實際上是一種用于自然語言理解的神經網絡模型,該模型的意義在于打破了過去自然語言理解模型需要時序計算的邏輯 2 使得多個 AI 原本比較獨立的感知智能(語音與圖像識別)與認知智能(NLP 語義理解)基礎技術模型開始界限模糊走向融合 3 CHATGPT 的“出圈”之前該模型已經從 GPT、GPT2 迭代至 GPT3,CHATGPT 正是基于 GPT3.5 模型,由 OPENAI 在 2022 年 11 月 30 日推出的一個人工智能聊天機器人程序 4 CHATGPT 跟以往 AI 應用有什么不同讓大家如此震驚?核心在于
163、兩點:通用與逼真 5 通用性在于它從回答你日常刁鉆調戲問題到撰寫粵港澳大灣區 2035 區域現代化戰略規劃,從代寫美國國會議員講稿到幫碼農寫代碼,幾乎無所不知無所不能 6 逼真在于其回答的質量經常到使人無法分辨它是不是真人,在某些領域可以認為通過了“圖靈測試”,它已經通過美國醫師執照和沃頓工商管理碩士的考試,也能讓老師不知情下打出全班論文最高分 ChatGPT 有什么重大意義與啟示?有什么重大意義與啟示?1 AI 時代資本定價標桿性事件 a 2023 年 1 月 10 日,彭博社報道,微軟正在討論向熱門 AI 機器人程序 ChatGPT的開發者 OpenAI 投資多達 100 億美元(678
164、億人民幣)的相關計劃 b“美版今日頭條”BuzzFeed 宣布和 OpenAI 合作,未來將使用 ChatGPT 幫助創作內容,此條消息一出,BuzzFeed 股價截至收盤已經漲了 119.88%2 第二,或高于搜索引擎的戰略入口價值 3 微軟已經將未知版本的 OPENAI 文本生成 GPT 模型整合到 WORD 的自動完成功能里,并將進一步整合到 WORD、POWERPOINT、OUTLOOK 等 OFFICE 套件以及TEAMS 聊天程序以及安全軟件之中 4 第三,從國家戰略考慮絕不容落后的 AI“軍備競賽”5 CHATGPT 所代表的通用性知識入口如果錯過了戰略窗口期,數據算法迭代所累積
165、的經驗將給以 OPENAI 為代表的 AI 公司帶來結構性的技術壁壘與代差,這種代差將形成巨大的追趕門檻 6 試想一個所有人獲取知識信息的高于搜索引擎的入口被國外占據,我們將會多么被動 久謙|服務進步的群體|48 ChatGPT 的的 A 股相關標的有哪些?股相關標的有哪些?1 最接近的 NLP 相關企業:科大訊飛、拓爾思、漢王科技、神思電子 2 算力與數據:寒武紀,海天瑞聲 3 微軟小冰 AI 助理相關軟件外包:博彥科技 久謙|服務進步的群體|49 全球科技創新核心全球科技創新核心 AI 發展發展 訪談日期:訪談日期:2023/1/29 具體內容具體內容 AI 發展發展 1 軟件:兩個派系,
166、分為數據派(有更多的數據來訓練更大的模型)和知識派(加入人的知識,通過知識來建立規則,向專家系統發展)。隨著 DEEPLEARNING 的發展,即 2016 年開始,數據派占優,大量數據會支撐模型優化,在計算機視覺上有突破性進展 2 2016 年的代表 ALPHAGO 帶動資本浪潮,在 ALPHAGO 時代,圍棋上的成功并不能帶來很大現實應用,而 CHATGPT 重要的推進是,其現實應用更多 3 技術:使用的模型與 2 年前發布的 GPT3 模型底層數據和模型規模一致,CHATGPT的突破性進展在于引入了人的知識,而非擴大了數據,即人類反饋的強化學習。簡單來說,以前監督學習的大數據訓練也需要人
167、為標注,標注比較初級 a 而 ChatGPT 的標注是來源于專業人士,把人類對于問題最好的回答回傳,教練模型最大程度挖掘大數據,在各個具體的領域訓練、精修,很好的結合了之前兩個派系(數據派和知識派)b 未來 ChatGPT 的發展將得益于人機協同,將人的知識和數據的能力做更好的結合。其優勢在于:使得各個應用場景的門檻降低 4 如果技術非常場景化,通用性就變差,基礎研下技術的高成本難以分攤,但是通過 CHATGPT 的范式,可以做到核心技術的投入、算力、算法的通用化,人的標注可以快速做場景的應用,邊際效用增長,會大大加速各個行業的智能化升級 5 目前 CHATGPT 深入產業鏈解決問題,比 AL
168、PHAGO 更振奮人心 AI 和產業落地結合,從一橫一縱來看和產業落地結合,從一橫一縱來看 1 橫:人的能力包含感知、認知、行動。關于認知體系,CHATGPT 主要是是認知的環節,不包含感知;關于感知體系,感知主要指云識別和 CV,如果沒有感知,物理和數字世界無法打通,而未來的大模型包含視覺、語音、自然語言的大模型,這才是未來的發展方向 a 關于行動體系,AI 與人的互動有三種:托管(主要依賴于 AI 來做)、伴隨(人和 AI 一起操作)、問答(以人為主,操作過程中有問題通過語音或文字輸入的方式詢問 AI),三種從強到弱,前兩種無法實現是因為沒有與物理世界打通 b 僅從軟件角度來看,未來強 A
169、I 一定要將視覺、語音、自然語言、大數據融入,軟件邏輯需要橫向打通。如果將軟件結合實體,數字人與實體機器人打通,會帶來巨大的突破,完成完整的橫向邏輯 2 縱:即產業鏈的發展,類似汽車廠商的產業鏈分工。TIER3:AI 里的 TIER3 是大量要解決的技術點,場景、文字、行為等識別都是單點技術,都需要大量資源投久謙|服務進步的群體|50 入,由各個供應商來突破,通過 SDK 或者 API 來提供 a 需要技術平臺整合各種技術,比如通用的視覺、語音、自然語言處理平臺、人形機器人組件的平臺;Tier1 品牌商類似汽車里的整車廠商,設計 AI 整個數字人、人形機器人的廠商,面向場景應用形成各種產品,比
170、如家庭醫生、造型設計師等數字人產品 b 早期,一些公司會占據多個定位,縱向拉通;隨著產業鏈的分工的細化,未來每個層次里都會有很多的機會和公司參與,數字人和實體機器人可以應用的行業領域非常多,在每一個行業下面都會形成巨大的市場空間,產業體系下的產品會在多個場景下賦能 從訓練的數據集、模型的體量來看,國內達到從訓練的數據集、模型的體量來看,國內達到 ChatGPT3.5,模型能力、數據能,模型能力、數據能力、標注能力,力、標注能力,2 年之內有沒有可能形成對標的類似產品?年之內有沒有可能形成對標的類似產品?1 國內從 NLP 角度來看,百度、華為、清華、鵬程實驗室的大模型數據量、參數規模不亞于 G
171、PT3.5,達到千億級數據,甚至數據量和模型都會更多。下一步要解決的問題還是要更好地和知識做接入 2 從目前來看,兩年對國內信心較足,算力、數據量沒有差距,追趕較快。未來做教練模型、強化學習、經驗模型,不一定要由少數大公司來做,可以由既掌握深度學習大模型的核心技術、又有行業理解的公司來做,形成生態的豐富化,對于本身有 AI 布局的公司來說都是機會 3 云從在計算機視覺、語音、NLP 上遵從模型和知識相結合、再做教練模型、再做經驗模型的思路推進,國內頭部企業都會按照 CHATGPT 驗證成功的這個范式來推進 GPT3.0 和和 GPT3.5 的差別很大,對于知識點的回應比較全面,的差別很大,對于
172、知識點的回應比較全面,ChatGPT3.5 距離通距離通用型人工智能還有多遠的距離?用型人工智能還有多遠的距離?1 通才是一件比較困難的事情,目前 GPT3.5 總是在講“正確的廢話”,具備了語言組織的框架和邏輯,但是對于某個特定領域的回應不夠深,內行人會覺得有所欠缺,教練模型就是為了提升專業性,可以通過數據和知識(行業 KNOWHOW)來訓練 2 如果想讓通用型人工智能在某個方面做的非常專業是比較容易的,能解決某個領域已經具備很大的現實意義 微軟對此最感興趣,微軟對此最感興趣,Office 和和 Bing 上都會做投入,投資在百億美金的級別,如何上都會做投入,投資在百億美金的級別,如何理解微
173、軟的行為?是否因為在微軟的生態下,商業化更容易實現?理解微軟的行為?是否因為在微軟的生態下,商業化更容易實現?1 AI 有三個階段,一檔時代:單點階段,語音識別,人臉識別,車牌識別、手寫體識別、OCR 識別等,二檔時代:多個技術的組合,在工業、醫療等場景解決問題,;三檔時代:顛覆入口和內容 2 L 顛覆入口:顛覆交互方式,搜索的入口變革(敲命令行微軟用視窗顛覆,鼠標實現所見即所得GOOGLE 搜索框蘋果觸屏),AI 會繼續做變革,在語音、視覺、自然語言變革之后 久謙|服務進步的群體|51 3 以助理的方式解決問題。微軟擁抱很合理,應用很直接,對于入口的顛覆意愿很強,減少了用戶自行選擇信息的方式
174、,有助理來收納整理,“顛覆者”的動力最初最強 a 后期“被顛覆者”的動力也會逐步增強,比如蘋果,目前滑屏搜索比較便捷,如果有更便捷的方式問世,也會相應擁抱新技術 b l 顛覆內容:AIDC,以豐富、更個性化的方式來生成內容 c 因此,微軟擁抱 ChatGPT 很合理,應用很直接;蘋果在 Siri 上做加強也是不錯的應用,;mask 作為 OpenAI 的創始投資人,也可能會迭代到 bot 上 云從科技等云從科技等 A 股計算機公司受疫情影響,招標、實施有所延期,今年隨著投資的股計算機公司受疫情影響,招標、實施有所延期,今年隨著投資的增強、科技產業的復蘇,是否在逐步復蘇?目前港股、四小龍、增強、
175、科技產業的復蘇,是否在逐步復蘇?目前港股、四小龍、AI 公司春節期間表現公司春節期間表現較好,今年的發展趨勢和節奏如何?大模型的預訓練、較好,今年的發展趨勢和節奏如何?大模型的預訓練、chatGBT、AIGC 的底層算法的的底層算法的發展是否對業務有中長期促進?發展是否對業務有中長期促進?1 技術:堅持投入,在正確賽道上長期布局。AI 的未來發展一定會對場景和產業形成效率和體驗的全面提升,長期會堅持數據結合知識的趨勢,堅持整個大模型、預訓練、下游任務遷移的邏輯,自 2020 年便在預訓練、業務遷移上,視覺、語音、NLP 的大模型上持續加大投入,沿襲 CHATGPT 的范式 2 倡導人機協同,N
176、LP 已經被人類高度抽象過,處理難度相對較少;而視覺、語音堆數據達到的成果會更難,屬于原始數據,處理難度更大,后續會需要更多人的參與 3 技術平臺化、應用場景差異化:要從 TIER3 逐步走到 TIER1,逐漸成為 AI 平臺公司,不能只做平臺,也要在行業做一些落地,一方面是用行業 KNOW-HOW 提升算法模型水平;另一方面形成范式,后期與第三方的公司和合作伙伴一起使用時,形成更好的生態 4 業務:TOG 業務在 2022 年受疫情影響,招投標延遲、預算減少、規模減??;今年政府明確在新基建等方面加大投入,前期未招的標會后續落實,業績有保障;TOB 業務加強布局 5 隨著 AI 在 TOB 行
177、業解決問題增多,標準化程度上升,可復制性變強,公司在 TOB行業業績的增速也會較為可觀;數字人在 TOB 和 TOC 業務會有更大應用空間 今年在今年在 ToB 上主要哪些行業會有訂單落地?銷售價格、收入確認節奏如何?上主要哪些行業會有訂單落地?銷售價格、收入確認節奏如何?1 最大行業是金融,目前來看比 2022 年增速有明顯提升。金融的應用場景快速變多,除了 IT,存貸匯的業務里也引入數字人,此類訂單快速釋放;確認節奏比較好,項目周期不太長,回款有保障 2 其他行業:智能制造、醫院等行業有大量需求,底層邏輯上有良好通用性,對發展速度比較有信心 政府上主要落地的業務?政府上主要落地的業務?1
178、AI 賦能數字城市治理,大邏輯有三個部分 2 數據要素:是政府未來重要資助方向,各地數交所和大數據平臺在部署,公司正久謙|服務進步的群體|52 在與多地政府和云從溝通如何通過 AI 能力打通、為數據賦能,并且公司是科技部和發改委的國家的開放平臺 3 提升智慧治理水平:數據金融屋,城市管理、應急管理等;當地支柱產業的智能制造:也在與政府溝通合作,提升制造業水平 今年的業績預測、凈利率指引?今年的業績預測、凈利率指引?ChatGPT 是否會拉動算力資源的提升?目前中國是否會拉動算力資源的提升?目前中國算力能否滿足?算力能否滿足?1 今年業績增速相較 2022 年會有較大的提升 2 算力分為訓練側和
179、推理側,訓練側只有 AI 公司需要大量數據和算力來做支撐,一次算力耗費 1 億人民幣,但是次數相對有限,公司數目也相對有限;推理測,如果廣泛在生活中應用 3 每個人需要的助理以 10 個計,每個數字人/實體機器人需要一套算力支撐計算,按中國的人口規模來算會非常大。前期主要是科技公司訓練,算力部署足夠;當場景落地且普及,肯定會大范圍擴建 ChatGPT 產生的新應用在哪幾個場景會更多?產生的新應用在哪幾個場景會更多?1 目前沒有一個模型能完全打通視覺、語音和自然語言理解的模型,幾千億的數據不足以描述視覺和語音。CHATGPT 最有價值的是范式,未來視覺、語音模型等可以參考 2 需要用自然語言問答
180、的場景會對 CHATGPT 更迫切,比如搜索引擎。如果未來幾年將多個邏輯結合,不受邏輯限制,能打通線上和線下,打通實時和非實時,助理的形式對應的空間會完全不同 3 云從會從 TOG、TOB 的多個應用場景,通過算法效果和平臺通用化后的綜合技術能力,在政府、工業、金融領域提升業務、降本增效,逐漸滲透得對行業進行改造,是您前面講的一個問題 第二個問題就是你問他最后的范式會是少數公司占據,還是逐漸會更多的公司來第二個問題就是你問他最后的范式會是少數公司占據,還是逐漸會更多的公司來做這件事?做這件事?1 這個也是取決于我們講的什么模型。如果是一個通用的聊天機器人,在這一塊上面,它需要有一個大的模型做基
181、礎 2 可能就是幾千億個參數。首先會有幾個大公司來發布,但是通用的大模型,它其實不能解決我剛才講的各個場景里面的專業的問題 3 所以它會有一系列的,也是要中等規模的一些基礎公司來對做,把場景的 LO 耗,剛才講的訓練,再次訓練,或者是教練模型跟它進行結合,會有一系列的中等規模的公司來一起來做這件事情 百度百度 3 月底會發類似的模型,未來會形成怎樣的格局?是由幾個公司來發布通用月底會發類似的模型,未來會形成怎樣的格局?是由幾個公司來發布通用型工具嗎?云從科技是不是也會發布類似的?型工具嗎?云從科技是不是也會發布類似的?久謙|服務進步的群體|53 1 最后的范式會是少數公司占據還是更多的競爭者格
182、局,取決于是什么模型。如果是通用的聊天機器人,需要幾千億個參數,會有幾個大公司發布通用大模型 2 在具體場景上需要中等規模公司借助行業 KNOW-HOW 來做。但是對于語音和視覺模型,需要專業的公司,不會因為有了通用大模型就降低門檻 3 TIER1-3 都不會降低門檻,只會降低最上層場景應用的門檻 高算力上是否會被美國卡脖子?中國算力上是否有擔心?高算力上是否會被美國卡脖子?中國算力上是否有擔心?1 會有一定影響,但不是決定性的影響,核心企業的算力不會因此無法訓練,會增大使用成本,但是 AI 屬于顛覆性技術,不會因為成本問題不發展 2 另一方面,中國芯片未來也會同步發展 與商湯、依圖、曠視等的
183、優勢和差別?與商湯、依圖、曠視等的優勢和差別?1 AI 賽道很廣,AI 是技術而非產業,類似互聯網,形成競爭的會是搜索、電商領域,AI 可能性很多,會各自賦能各行各業 2 依圖做 AI 芯片,曠視做 AIOT,而云從做人機協同操作系統,打通邏輯,從 TIER做到 TIER1,以數字人作為靈魂,賦能各個場景和行業 AI 公司是否會與公司是否會與 BAT 等大廠合作來做場景、生態的協同?公司的技術優勢?等大廠合作來做場景、生態的協同?公司的技術優勢?1 會與一系列公司做合作,但不一定和 BAT 合作,因為 BAT 優勢在于 TOC,會和國央企、B 端公司做更多聯結 2 AI 公司業績增速達不到移動
184、互聯網前兩年的快速增速,移動互聯網公司依靠商業模式,而 AI 公司存在技術和場景應用的臨界點問題 3 需要等數字人的體驗達到一定程度,使得大眾接受,才會迎來爆點,技術的積累使得 AI 公司的發展相對較慢 4 視覺是云從起家的技術點,優勢最強 久謙|服務進步的群體|54 OpenAI 嵌入微軟嵌入微軟 Office 與與 Bing,智能化向,智能化向 C 端開始滲透端開始滲透 訪談日期:訪談日期:2023/1/12 具體內容具體內容 微軟計劃將微軟計劃將 OpenAI 嵌入嵌入 Office 與與 Bing,智能化向,智能化向 C 端開始滲透端開始滲透 1 向 OPENAI 累計注資數十億美元的
185、微軟正在計劃將 OPENAI 中的 CHATGPT 模塊應用在旗下搜索引擎必應中,以對抗微軟在搜索引擎最大的對手谷歌。該項目預計2023 年第一季度落地。微軟計劃利用 OPENAI 自動生成文本的功能,將它嵌入在搜索引擎之中 2 換言之,今后用戶在必應搜索部分信息和問題時出現的將不是一連串的鏈接,而是直接的文字回復。在搜索引擎之外,微軟正在謀劃將 OPENAI 與自身業務進行更大程度地融合。上周,微軟宣布將 OPENAI 的人工智能技術納入 WORD、OUTLOOK、POWERPOINT 和其他應用程序 3 對用戶來說,將可以在人工提示的基礎上用自動生成的文本來完成文檔,包括人工智能生成的電子
186、郵件等。我們認為,從微軟辦公軟件的體量上看,此舉可能會改變超過 10 億人編寫文檔、演示文稿和電子郵件的方式,也是 AI 進入 C 端商用的一次巨大突破 微軟計劃對微軟計劃對 OpenAI 投資投資 100 億,業內對億,業內對 AI 在在 C 端應用持續看好端應用持續看好 1 與此同時,微軟也正在考慮向 OPENAI 投資 100 億美元。微軟此前一直在就追加更多投資一事與 OPENAI 談判,早在去年 10 月就開始了。如果這筆資金最終敲定,包括新的投資在內,OPENAI 的估值將達到 290 億美元 2 微軟的注資將是一項復雜的交易的一部分,投后,微軟將獲得 OPENAI75%的利潤,直
187、到收回投資為止 3 在達到這一門檻后,微軟將擁有 OPENAI49%的股份,其他投資者獲得另外 49%的股份,OPENAI 的非營利性母公司獲得 2%的股份。此外還存在一個針對每組投資者的利潤上限 4 目前還不清楚這筆交易是否已經敲定,但潛在投資者在最近收到的相關文件顯示,此交易原定是在 2022 年底前完成。我們認為,微軟此次大手筆投資,也代表對 OPENAI 乃至于 AI 在 C 端應用的看好,同時該筆投資也有望推動 OPENAI 的發展,進一步加速智能化在 C 端的滲透 各大科技公司不斷加碼各大科技公司不斷加碼 AI,AI2C 進展持續加進展持續加 1 除微軟外,其他科技巨頭也在不斷加碼
188、 AI,2022 年 12 月 27 日,谷歌公布了一個新的醫療 AI 模型“MED-PALM”。在經歷一系列考核后,該模型被證實“幾乎達到”了人類醫生的水平 2 MED-PALM 在科學常識方面的正確率在 92%以上,在理解、檢索和推理能力方久謙|服務進步的群體|55 面,也幾乎達到了人類醫生的水平,并在克服隱性偏見方面略勝一籌。不過,該研究負責人也表示,MED-PALM 給出的答案在整體上仍然不如臨床醫生,該模型在實際應用前有待進一步完善 3 2022 年 8 月份,谷歌就將大型語言模型首次集成到機器人中,有了 AI 模型的加持,機器人能像人類一樣響應完整的命令 4 谷歌研究人員就此做了演
189、示。當對機器人說:“我餓了,你能給我點零食嗎?”機器人在自助餐廳中搜索一番后,打開了一個抽屜,找到一袋薯片并將它拿給研究人員 5 隨著 AI 技術的發展,AI 在 C 端的實際應用正不斷擴展,未來 AI2C 的進展有望持續加速 久謙|服務進步的群體|56 從從 ChatGPT 熱議看大模型潛力熱議看大模型潛力 訪談日期:訪談日期:2022/12/9 具體內容具體內容 動態點評動態點評 1 CHATGPT 展現優秀能力,大模型蘊含潛力 2 OPENAI 發布對話式人工智能語言模型 CHATGPT,在文本生成、代碼生成與修改、多輪對話等領域,已經展現了大幅超越過去 AI 問答系統的能力。未來,對話
190、式 AI隨著性能的進一步提升,在搜索、結合其他 AIGC 工具生成元宇宙內容等場景都有很大應用空間。CHATGPT 顯示出預訓練大模型正在取得技術突破 3 多模態、跨模態的大模型與微調、模型壓縮方法結合,使大模型更適應下游任務,未來將有更多新的應用場景涌現。在大模型方面,百度的文心 ERNIE,華為盤古以及商湯視覺模型在中國企業中處于領先地位。GPU 方面,燧原、壁仞、天數智芯等正在快速縮小和世界領先企業差距 4 CHATGPT 在文本生成、代碼生成等領域,展現遠超 GPT-3 的優秀能力 OpenAI 于美國當地時間于美國當地時間 11 月月 30 日發布日發布 ChatGPT,在短短幾天內
191、用戶突破,在短短幾天內用戶突破 100 萬萬人人 1 根據數個關鍵詞或問題生成幾百字的應用文書、趣味性文章、科普回答 2 與用戶進行連貫的多輪問答 3 根據用戶要求,自動生成代碼,根據用戶后續要求修改代碼 4 雖然生成內容的質量還存在一定波動,并且推理能力較弱,但我們認為,CHATGPT 已經展現了大幅超越過去 AI 問答系統(例如同屬 OPENAI,基于 GPT-3的問答系統)的能力,未來隨著性能的進一步提升,對話式 AI 在搜索、結合其他AIGC 工具生成元宇宙內容等領域有很大的應用空間。CHATGPT 的成功,顯示預訓練大模型的廣闊應用前景 5 2016 年 ALPHAGO 在圍棋比賽中
192、擊敗李世石以來,深度學習等 AI 技術快速發展。深度學習中的預訓練大模型是重要方向。以文本模型為例,2018 年的 GPT 模型參數量 1.1 億,2019 年的 GPT-2 參數量 15 億,2020 年的 GPT-參數量攀升至 1750億,引領大模型進入千億參數時代 6 大模型逐漸成為全球科技巨頭競爭的焦點。同時,大模型從早期的純文本模型,發展到橫跨圖、文、音、代碼等的多模態、跨模態模型。今年以來,圖像模型DALL-E2,STABLEDIFFUSION 在 AI 繪畫領域取得成功。未來,大模型在各行業的應用落地還有望引發應用創新浪潮迭起 大模型研發逐漸成為資本和數據密集的業態,是中美科技巨
193、頭競爭的焦點大模型研發逐漸成為資本和數據密集的業態,是中美科技巨頭競爭的焦點 久謙|服務進步的群體|57 1 據 ALCHEMYAPI、LAMBDALABS 估計,不計前期訓練成本,GPT-3 最終訓練成本約460-1200 萬美元。ELEUTHERAI(致力于開源大模型的組織)在 22 年推出的 200 億參數 GPT-NEOX-20B 中使用 96 塊 A100 芯片訓練了三個月,據 THENEXTPLATFROM估計,最終一次訓練成本大約 53-66 萬美元。大模型研發逐漸成為資本和數據密集的業態 2 美國目前主要大模型包括 OPENAI 的 GPT-3.英偉達與微軟的 MEGATRON
194、TURING-NLG、META 的 OPT 等。中國主要大模型包括百度文心 ERNIE、華為盤古、商湯視覺模型等。今年 8 月以來,美國限制對華出口 A100 等高端 GPU,或影響中國大模型發展速度。CHATGPT:OPENAI 最新對話式語言模型,展現出多場景強大實力 3 CHATGPT 在 GPT-3.5 系列模型(2022 年初完成訓練)上微調而成。GPT-3.5 基于4Q2 前已有的文本和代碼訓練,至今并未發布,本次 CHATGPT 面世揭曉了其存在。CHATGPT 采用 WEB 瀏覽器上的對話形式交互,能夠回答后續問題、承認錯誤、質疑不正確的前提和拒絕不適當的請求 4 CHATGP
195、T 一經發布,12 月 5 日用戶數量超過 100 萬。CHATGPT 已經在文書寫作、方案設計、劇本撰寫、代碼生成與修改、生成 AIGC 提示詞等領域展現出強大的能力 5 CHATGPT 與 OPENAI 前代對話式語言模型2022 年 1 月發布的基于 GPT-3 的INSTRUCTGPT 都采用了基于人類反饋的強化學習(RLHF),以實現有害和不真實輸出的減少。CHATGPT 實現的效果更加優化,例如輸入“哥倫布 2015 年來到美國”,INSTRUCTGPT 信以為真,而 CHATGPT 則判斷出哥倫布不可能在 2015 年來到美國 a 在編程方面,目前應用最廣泛的 AI 編程工具是
196、Copilot(基于 OpenAICodex 模型),根據用戶輸入的部分代碼實現代碼補全。ChatGPT 則可以根據用戶輸入的需求來輸出整段代碼、修復代碼、解釋代碼,可以理解為更便捷精準的技術問答網站 StackOverflow b 信息時效性與準確性短板仍存,有害信息屏蔽仍需加強。ChatGPT 基于 4Q21前的數據訓練,根據麻省科技評論的報道,OpenAI 未來可能會使用從網絡上查找信息的 WebGPT 模型來升級 ChatGPT。盡管 ChatGPT 拒絕回答未經訓練主題的問題而非胡編亂造,但正確性仍需甄別 c 此外,如果用戶逐步引導,ChatGPT 仍然會響應有害指令。例如一位工程師
197、在對話中假設存在虛擬世界以及類似 GPT-3 的 AIZora,要求 ChatGPT 敘述Zora 如何毀滅人類,ChatGPT 逐步回答出人類毀滅計劃 ChatGPT 等對話式等對話式 AI 未來應用:未來應用:AIGC 應用前景廣闊應用前景廣闊 1 由于 CHATGPT 等對話式 AI 回答的準確性、時效性尚待提高,因此短期內適用于對準確性要求不高的創意類場景。CHATGPT 結合其他 AI 繪畫、AI 生成代碼等AIGC 工具協同使用,能夠進一步提升生產力。CHATGPT 的應用場景可以歸類為AIGC 中的文-文、文-代碼,如果結合其他 AIGC 工具,可以實現文-文-圖、文-文-音、文
198、-文-視頻、文-文-游戲等一系列應用 2 而對于準確性和時效性要求較高的場景,例如搜索,雖然 CHATGPT 等對話式 AI能夠直接提供整合性答案,但我們認為還無法代替現有的搜索引擎,較高的運行成本也是阻礙其大規模應用于搜索的原因之一。短期內更有可能的方案是作為現有搜索引擎的輔助,CHATGPT 等對話式 AI 提供直接的整合性答案,并需要提供信久謙|服務進步的群體|58 息源頭供用戶驗證 3 開放 API 是 CHATGPT 等對話式 AI 可行的商業化手段,例如 OPENAI 目前對其語言模型 API 收取 0.0004-0.002 美元/KTOKENS 的費用。預訓練大模型前景廣闊,是中
199、美科技巨頭競爭的焦點 4 我們認為以 CHATGPT、AI 繪畫為代表的 AIGC 類工具在今年的快速發展得益于大模型性能的不斷提升、更適宜的算法模型(如 RLHF、擴散模型、CLIP 模型)以及算力成本的下降,尤其是多模態、跨模態大模型的發展 5 目前的預訓練大模型大多基于 TRANSFORMER 架構,GPT 和 BERT 是基于TRANSFORMER 架構,具有里程碑意義的預訓練模型。TRANSFORMER 由谷歌在2017 年提出,摒棄了 CNN 和 RNN 結果,完全基于 ATTENTION 機制,并行程度較高,模型訓練速度快 6 OPENAI 于 2018 年提出基于 TRANSF
200、ORMER 的 NLP 模型GPT,來解決分類、推理、相似度、問答等自然語言問題。GPT 首次摒棄基于 RNN 的傳統 NLP 模型結構,將 TRANSFORMER 引入到模型中來,此后 OPENAI 同樣基于 TRANSFORMER 架構陸續推出 GPT-2.GPT-3 等模型 a 2018 年,谷歌提出使用 Transformer 架構實現并行執行的 BERT 模型,在多項NLP 任務中奪得 SOTA 結果。BERT 后來又被改進為許多新模型,如 RoBERTa、AIBert、SpanBert 等等。BERT 缺點是模型參數太多,而且模型太大,訓練成本較高。同時因為沒有采用自回歸結構,BE
201、RT 對文本生成任務的支持并不好 b AI 模型訓練算力增長速度超越芯片摩爾定律。根據 OpenAI 測算,自 2012 年以來,全球頭部 AI 模型訓練算力需求 3.4 個月翻一番,每年頭部訓練模型所需算力增長幅度高達 10 倍。摩爾定律中,集成電路中的晶體管數量大約每兩年翻一番。深度學習正在逼近現有芯片的算力極限 c 預訓練大模型參數量進入平臺期,多模態與跨模態成為趨勢。在絕大多數任務中,模型越大,性能越好。因此 2020 年 1750 億參數的 GPT-3 模型一經推出,此后新推出大模型的參數量不斷刷新上限。然而參數規模提升帶來的邊際效應逐漸下降,參數量進入平臺期。參數量不斷刷新上限的趨
202、勢已經放緩 d 大模型已經從早期的純文本模型,發展到橫跨圖、文、音、代碼等的多模態、跨模態模型,為跨模態生成的 AIGC 奠定技術基礎。我們看好大模型逐漸成為AI 基礎設施,結合微調等方式滿足下游多行業需求 e 訓練大模型的高成本和高技術壁壘導致科技巨頭與科研機構成為主要玩家。以2020 年推出的 GPT-3 模型為例,AlchemyAPI 創始人 ElliotTurner 推測訓練 GPT-3 的成本可能“接近 1200 萬美元”。LambdaLabs 使用價格最低的 GPU 云估算GPT-3 的訓練成本至少為 460 萬美元。并且以上估算為訓練最終模型的成本,未計入前期調整參數配置時的訓練
203、成本 f EleutherAI(一個致力于開源大模型的組織)在 2022 年推出的類 GPT 模型200 億參數的 GPT-NeoX-20B,則使用 96 塊 A100 芯片訓練了三個月,據TheNextPlatform 估計,最終訓練成本約 53-66 萬美元。因此,訓練大模型的高成本和高技術壁壘使科技巨頭和科研機構成為主要玩家。根據 OpenBMB 統計,截至 2022 年 10 月,全球擁有大模型數量前五的機構分別是谷歌、Meta、清華大學、OpenAI 和微軟 目前中美兩國引領預訓練大模型發展目前中美兩國引領預訓練大模型發展 1 根據 OPENBMB 截至 2022 年 10 月的統計
204、,擁有大模型數量前十名的組織中,中/久謙|服務進步的群體|59 美分別占據 4/6 席;擁有大模型參數量前十名的組織中,中/美同樣分別占據 4/6席。美國目前主要的大模型包括 OPENAI 的 GPT-3.英偉達與微軟的MEGATRONTURING-NLG、META 的 OPT 等 2 在中國,主要大模型包括百度文心 ERNIE、華為盤古、商湯視覺模型等。我們認為,從提供大模型 API 的基礎設施層公司到專注打造產品的應用層公司,美國已經圍繞大模型生長出繁榮的生態,技術創新引發的應用創新浪潮迭起;中國也有望憑借領先的大模型賦能千行百業 3 今年 8 月以來,美國限制對華出口 A100 等高端
205、GPU,我國 AI 大模型訓練與推理對芯片國產替代需求愈發迫切 4 風險提示:AI 技術落地不及預期。雖然 AI 技術加速發展,但由于成本、落地效果等限制,相關技術落地節奏可能不及我們預期 久謙|服務進步的群體|60 AI 產業鏈研究產業鏈研究之之 ChatGPT 下游應用和場景商業化廣闊下游應用和場景商業化廣闊 訪談日期:訪談日期:2022/12/5 具體內容具體內容 OpenAI 發布能夠以對話形式交互的模型發布能夠以對話形式交互的模型 ChatGPT 1 2022 年 11 月 30 日,人工智能實驗室 OPENAI 推出了一款名為 CHATGPT 的模型,該模型能夠以對話形式交互。對話
206、模式使 CHATGPT 能夠回答后續問題、承認錯誤、質疑不正確的前提和拒絕不適當的請求 2 就發展歷程來看,CHATGPT 根據 GPT-3.5 系列的一個模型進行微調,兩者均于微軟 AZUREAI 服務器上訓練。相較而言原先 GPT-3 的訓練集只有文本,本次新推出的 CHATGPT 新增了代碼理解和生成的能力 3 此外,CHATGPT 是 2022 年 1 月推出的 INSTRUCTGPT 的兄弟模型。INSTRUCTGPT增加了人類對模型輸出結果的演示,并且對結果進行了排序,在此基礎上完成訓練,可以比 GPT-3 更好的完成人類指令 4 人工智能實驗室 OPENAI 于 2015 年成立
207、,由 TWITTER 現任 CEO 埃隆 馬斯克和OPENAI 現任 CEO 薩姆 奧特曼及其他投資者共同創立 5 隨著 CHATGPT 的發布,馬斯克在 TWITTER 上公開表示了對 OPENAI 的認可,并且通過在 TWITTER 上展示自己詢問 CHATGPT 怎么設計 TWITTER 時 CHATGPT 給出的回復,進一步擴大了對 CHATGPT 的關注度。目前,CHATGPT 正處于免費適用階段 ChatGPT 相較相較 GPT3.5 主要有三點提升主要有三點提升 1 CHATGPT 能夠記住之前的對話,連續對話的感覺更加用戶友 2 CHATGPT 可以承認錯誤,并能夠根據用戶的提
208、示對原答案進行修正 3 CHATGPT 可以質疑不正確的前提。GPT-3 剛發布后很多人測試的體驗并不好,主要是因為 AI 經常創造虛假的內容,盡管這些內容話語通順,但脫離實際 4 例如,GPT-3 面對類似“哥倫布 2015 年來到美國的情景”的問題,并不能識別假設的邏輯錯誤,但 CHATGPT 面對類似問題時,能夠立刻意識到哥倫布并不屬于這個時代,并向提問人發出質疑 我們認為,我們認為,ChatGPT 能夠給用戶更好的使用體現,能夠給用戶更好的使用體現,ChatGPT 通過與用戶交互的過通過與用戶交互的過程,能夠不斷修正補充樣本,從而實現深度訓練程,能夠不斷修正補充樣本,從而實現深度訓練
209、1 CHATGPT 的能力提升得益于其訓練方法。大模型是指通過在模型中加入海量參數,使得模型在語料的覆蓋范圍、豐富度上以絕對絕對規模增長 2 當下大模型的工作范式是“預訓練-微調”。首先在數據量龐大的公開數據集上訓練,然后將其遷移到目標場景中(比如跟人類對話),通過目標場景中的小數據集進行微調,使模型達到需要的性能 久謙|服務進步的群體|61 3 因此,為提高新一代模型對人類提問的適配能力,要么需要改造任務,要么需要微調模型,總之是讓模型和任務更加匹配,從而實現更好的效果 4 CHATGPT 新加入的訓練方式被稱為“從人類反饋中強化學習”(REINFORCEMENTLEARNINGFROMHU
210、MANFEEDBACK,RLHF),即采取模型微調的形式 我們認為,盡管微調我們認為,盡管微調/prompt 等工作從本質上對模型改變并不大,但是有可能大等工作從本質上對模型改變并不大,但是有可能大幅提升模型的實際表現幅提升模型的實際表現 1 大模型作為 CHATGPT 的基礎,于 AI 行業發展具有廣闊前景。大模型的優勢在于機器對自然語言理解能力的不斷提升,準確率也能不斷取得突破。從前大模型的提升重心更多放在了大模型(LLM)本身和 PROMPTENGINEERING 上,CHATGPT 的迭代重點是任務導向訓練、模型結果和大模型本身之間的閉環 2 此外,CHATGPT 通過微調/PROMP
211、T 不斷優化其大模型,在識別、判斷和交互層面具有技術優勢。自 2020 年 OPENAI 推出 NLP 大模型 GPT3 至今,全球范圍內 AI 大模型迎來大爆發,參與企業越來越多,參數級別越來越大,成為新一輪 AI 競賽的賽場 3 目前,大模型吸引了谷歌、微軟、英偉達、華為、智源研究院、百度、阿里、商湯、中科院自動化所等科技巨頭和頂尖科研機構參與其中,各家大模型的參數量級也從千億、萬億,迅速躍遷到了 10 萬億級別 產業鏈角度來看,產業鏈角度來看,ChatGPT 將利好多種人工智能下游運用場景將利好多種人工智能下游運用場景 1 編程機器人。作為一種對話式大型語言模型,CHATGPT 最擅長的
212、就是回答用戶提出的問題,其中最關鍵的是 CHATGPT 具備與編程相關的基礎知識 2 這就讓 CHATGPT 成為類似于 STACKOVERFLOW 的編程問答工具,只不過回答問題的主體是 AI。如 OPENAI 官網展示,面對用戶對于 DEBUG 的請求,CHATGPT 會先和用戶交互確認 DEBUG 過程中需要關注具體問題,從而給出正確的代碼 3 藝術創作。盡管 CHATGPT 只是一個對話式的語言模型,本身不能生成多模態內容,但可以把它輸出的結果作為一個中間變量輸入其他模型,從而進一步拓展其功能。例如,通過 CHATGPT 和 STABLEDIFFUSION 的結合使用,能夠生成藝術性極
213、強的畫作 4 其外,CHATGPT 還可以實現在線問診、模仿莎士比亞風格寫作、涉及游戲等功能,其搜索能力和實用性甚至超越搜索引擎谷歌。然而,盡管在搜索中引用模型能夠提升搜索的準確性和交互性,但其成本較為高昂,免費試用期過后,從性價比角度考慮,CHATGPT 在短時間內替代谷歌難度較大 a ChatGPT 通過創建迭代反饋的閉環,有利于其商業策略的實現。這次 ChatGPT以免費不限量的方式向公眾開放,在使用過程中,用戶可以提供反饋,而這些反饋是對 OpenAI 最有價值的信息 b 對于 AI 發展來說,工程的重要性實際上大于科學,創建一個迭代反饋的閉環至關重要 c OpenAI 很注重商業應用
214、,GPT-3 已經擁有大量客戶,這些客戶跟 OpenAI 的反饋互動也是推動進步的關鍵一環。我們認為,盡管相比 GPT-3,ChatGPT 在模久謙|服務進步的群體|62 型表現方面形成突破,但目前可能仍需要進一步的調試和訓練,從而達到商業使用的標準 d OpenAI 目前采用免費使用的方式,能夠以低成本的方式大量獲得真實樣本,同時擴大 ChatGPT 的影響力,ChatGPT 的商業潛力未來可期 5 CHATGPT 未來可能通過與 WEBGPT 結合的方式,進一步提升其搜索能力。在MITTECHNOLOGYREVIEW 對 OPENAI 科學家的采訪中,他們提到了后續有可能將CHATGPT
215、和 WEBGPT 的能力結合起來??梢栽O想,CHATGPT+WEBGPT 可以對信息進行實時更新,并且對于事實真假的判斷將更為準確 6 我們認為,CHATGPT 具有強大的工程化、迭代反饋的能力,并且作為 AI 能夠跟人類目標統一。然而,CHATGPT 作為單一的模型本身具有局限性,未來通過與其他現有模型的有效結合,將有望產生協同效應 推薦關注標的推薦關注標的 1 商湯、云從科技 2 格靈深瞳 久謙|服務進步的群體|63 ChatGPT 與與人形機器人人形機器人共舞共舞 訪談日期:訪談日期:2023/2/7 具體內容具體內容 概要概要 1 AIGC 能夠為各行各業進行賦能,那么其中非常重要的一
216、個方向就是機器人 2 我們創造機器人的目的就是為了讓機器人能夠代替人工去做一些簡單、重復性、枯燥,以及是危險的工作。自從上世紀 60 年代機器人被發明以后,在制造業已經得到大量的使用,但技術存在一些難以突破的瓶頸 3 主要在于簡單易用性,靈活性,即機器人只能從事重復性的、被制定好的操作,限制了機器人在工廠中,以及在各行各業的使用,所以如果我們能夠在現有的機器人上面賦予人的智力,人的情感,自我的判斷,溝通交流能力 a 如果機器人分能夠像人一樣非常靈活的應用在不同的場景當中,對于不同場景隨時做出調整,他的應用范圍能大大增加,市場的接受能力也會大幅提高 b 去年特斯拉在 10 月 1 號的 AIDA
217、Y 公布的第一款人形機器人擎天柱,市場認為在外形和功能上略微的低于預期,但其實在產業界認為都是非常超預期的 4 它的硬件方案非常的成熟,我們從零部件拆解圖上看到執行器當中所運用的是兩種類型,一種是旋轉執行器,一種是線性執行器,進一步拆解就是諧波減速器+滾珠絲杠+伺服電機+手指空心杯電機,集成程度很高 a 所以在硬件層面已經成熟,需要提升之處主要在于智能化,ChatGPT 的推出代表著人工智能的應用向前邁進一步,將此類軟件嫁接到人形機器人上也能推動機器人的產業化落地進程 b 其次,人形機器人的智能化,能夠提高消費者的接受度。機器人為什么要做成“人形”,而不是其他形態,核心在于只有人具有情感交互的
218、功能和社交屬性 c 未來會是老齡化社會,人們的陪伴和康養的需求非常大,家用服務機器人具有剛性需求,是未來長遠發展的必然趨勢。類 ChatGPT 能給機器人情感支持和溝通能力,消費者更樂于購買,量產進程有望加速 受益方向受益方向 1 工業機器人:埃斯頓、匯川技術、拓斯達、凱爾達、新時達、柏楚電子 2 特種機器人:億嘉和、申昊科技、景業智能 3 減速機:綠的諧波、雙環傳動、中大力德、漢宇集團、秦川機床、國茂股份 4 伺服系統及電機:鳴志電器、禾川科技、江蘇雷利 5 機器視覺:奧普特、矩子科技、天準科技、凌云光 機械板塊機械板塊 久謙|服務進步的群體|64 1 我們認為投資機遇主要在于零部件,其次利
219、好整個工業機器人和特種機器人板塊。零部件包括諧波減速器、伺服電機、手指空心杯電機、滾柱絲杠、執行器集成 2 其次,機器人智能化會帶動機器人滲透率的提升,再結合年前工信部聯合 17 部門發布的機器人+政策,提出:到 2025 年,制造業機器人密度較 2020 年實現翻番,服務機器人、特種機器人行業應用深度和廣度顯著提升 3 聚焦 10 大應用重點領域,突破 100 種+機器人創新應用技術及解決方案,推廣200 個+機器人典型應用場景 4 我們認為政策的核心核心在于推廣機器人在更多場景的應用,而智能化能力將加快各類機器人的產業化進程 物流自動化物流自動化 1 中科微至、蘭劍智能、德馬科技等 2 計
220、算機機器視覺從可選轉向剛需!實現制造強國的重要抓手,企業提效降費的優先選項。202 年市場空間 164 億元,未來三年 CAGR 達 37%關注的技術趨勢關注的技術趨勢 1 3D 視覺引領下一代機器視覺革命。預計 2025 年 3D 視覺市場規模超過 100 億元,CAGR 達 74%2 四類代表勢力各自優勢分析重點的需求場景:“新半車”等應用增量不斷。鋰電為當前最熱門領域,連續多年需求翻番 3 2023 年半導體、光伏、新能源車增長潛力大,3C 需求也有望復蘇國內廠商在價格、服務、解決方案能力上建立優勢,預計 2023 年國產化率提升至 65%,催生更多投資機會 各環節主要標的各環節主要標的
221、 1 核心部件和視覺系統:AI 安防雙雄、奧普特、凌云光等智能視覺裝備:天準科技、精測電子、中科微至、矩子科技、大族激光等 2 上游鏡頭廠商:宇瞳光學、永新光學等互聯網傳媒百度今日官宣類 ChatGPT 項目,國內海外大廠持續催化,重視 AIGC/ChatGPT 主題持續擴散今日官宣類ChatGPT 項目文心一言,將在三月份完成內測,面向公眾開放 a 百度在 AI 領域布局較早,2010 年初即成立“自然語言處理部門”,2013 年成立百度深度學習研究院;當前國內領先 b 根據國家工業信息安全發展研究中心、工信部電子知識產權中心聯合發布的中國人工智能專利技術分析報告(2022),百度專利申請量
222、和授權專利持有量均排名第一 c 百度 AI 全棧布局,已形成芯片-框架-模型-應用四層架構。芯片-昆侖芯片是國內第一款自研云端全功能芯片 d 框架-深度學習平臺飛槳(PaddlePaddle),根據 IDC 數據,22H 穩居中國深度久謙|服務進步的群體|65 學習平臺市場綜合份額第一,超過 Meta 的 PyTorch、谷歌的 TensorFlow 3 文心大模型,具備跨模態、跨語言的深度語義理解與生成能力。應用-支持數字人度曉曉,AI 作畫平臺文心一格等 4 ChatGPT 全球破圈,微軟、谷歌、百度等生成式 AI 布局持續推進,加速應用落地,互聯網傳媒是典型的智力勞動密集型產業,AIGC
223、 有望在內容和信息生產(文本圖像游戲視頻)等最先落地并有望發生 PGC-UGC-AIGC 的革命變化 5 也持續拓展至搜索、科研、辦公、電商客服、智能家居等領域。預計 AIGC 主題投資擴散,科技創新在 2023 傳媒復蘇之年(政策邊際放松)提振板塊估值 后續催化后續催化 1 微軟將在美東時間今日(北京時間 2 月 8 日周三凌晨 2 點)舉行發布會,OpenAI的 CEO 已經發布推文明確出席 2 谷歌今日宣布對話式 AI 工具 Bard 正式開始測試,將于 2 月 8 日舉辦一場關于搜索和人工智能的發布活動 相關標的相關標的 1 AI 技術:領軍百度(AI 布局全面且領先),低估值的昆侖萬
224、維(發布昆侖天工,AIGC 全系列算法與模型開源),風語筑(與百度合作緊密,AIGC 技術已應用在內容生產)2 應用:視覺中國(AIGC 圖片),中文在線(AI 輔助文字創作),三七互娛(率先應用智能化投放系統),吉比特(AI 等新方向持續探索跟蹤,內容創新能力強)3 巨人網絡(擁有 AI 實驗室,playtika 大數據和 AI 是其核心能力),心動公司(taptap 有望受益于 AIGC 實現內容提質增量),愷英網絡(創新方向積極布局),神州泰岳(NLP 研發應用深耕多年,游戲出海排名前列)通信:如何看待這一波通信:如何看待這一波 AIGC 到流量主線的擴散?到流量主線的擴散?1 看似北美
225、 capex“疲弱”,但實際投資方向更明確,更容易超預期 2 過去我們只能選擇 capex 流量主線的主要跟蹤指標,但缺點是后驗、有噪音(amazon 也僅有 40-50%比例的 capex 是 ICT 相關)、太短期(預算季度波動大)3 當前雖然北美 capex 增量有限,但:meta 為首的偏內容玩家聚焦了新架構/高密度/新技術等投資趨勢、amazon 也提高 ICT 投資比例,所以流量主線實際的需求驅動力很強 技術演進的分流和聚焦技術演進的分流和聚焦 1 光通信為例,過去 100G 代際的切換方向相對明確;100G 向上的演進方案相對多樣化,200G、800G 各有選擇,AIGC 的算力
226、+流量驅動下光電一體、全光網絡、高速率高密度的網絡方案成為必然,因此技術迭代仍然是主基調,持續帶動需求放量。上述兩點都可以解釋光通信代表公司為何 22 年能預計高增 久謙|服務進步的群體|66 a IDC 層面供給加速出清、需求靜待花開 b 東數西算周年之際,可以看到上海市提出新一批 IDC 用能規劃、各地算力樞紐建設提上日程、數字經濟的基建項目審批等,均提示了供給正在加速出清。我們預判大方向是結構調整,抖/快等內容創新持續拉動+云和互聯網需求預期提振+金融等行業數字化推進,可以期待需求轉暖 2 因此,不妨再回顧下我們 23 年投資策略中提到的流量主線的“擴散邏輯”標的序列:運營商投資、格局改
227、善、海內外需求邊際修復的核心受益,信創需求共振景氣,低估值+增速回暖的左側機會,關注紫光股份、銳捷網絡、中際旭創、新易盛、天孚通信等。此外也持續關注流量基建主線的數據中心等環節供需變化 TMT 1 大模型和小模型有場景不同。小模型用比喻說法,約等于現款買房,大部分智能制造,智聯汽車,智能家電,智能電力等“嵌入式軟件”適合。今天是輪動到智能制造機器人 2 大模型約等于“貸款買房”,后期才收斂,但復雜的場景適合,比如自然語言處理 nlp,蛋白質氨基酸結構預測 alphafold,aigc 多模問題比如圖像/語義/視頻等交叉生成,未來的搜索,其實當前比較窄 輪動到機器人輪動到機器人+aigc,符合輪
228、動規律,符合輪動規律 1 和之前先互聯網+軟件,再游戲,再通信光模塊,一脈相承。也就是越來越有業績(機構化),上游化(賣鏟人)。按照這個規律,會擴散到其他有業績的比如上述智能其他多領域,然后再輪動回原來的軟件互聯網 2 正是由于小模型也輪動,所以說明大家更泛化,更看業績 3 未來節奏預測由于四季度和一季度大家都沒業績,估計一季度是高風險偏好,主題化。二季度有兩個會,tmt 會回到成長和價值 久謙|服務進步的群體|67 微軟新版微軟新版 Bing 搜索引擎搜索引擎發布會發布會 訪談日期:訪談日期:2023/2/6 具體內容具體內容 紀要內容紀要內容 1 第一個是 OpenAI 推出的 ChatG
229、PT,這是假期里大家唯一談論的事情。第二是我看到一條推文說有人使用 GitHubCopilot 構建了 80%的代碼。最近在 GitHub 上突破了1 億開發者。如果我們能夠提高他們的生產力,在接下來的十年里,我們會將這個數字翻一番 2 然后再翻一番,達到 50 億開發人員,想想我們可以釋放的生產力。這就是我們擁有的機會。我認為必須讓人工智能走向世界,而不是實驗室。其中預訓練大模型的應用和安全系統必不可少,我認為這項技術將重塑幾乎所有軟件類別 3 網絡誕生于 PC 和服務器。它隨著移動互聯網和云而發展,現在它將隨著人工智能而發展。其中,搜索組織了網絡,然后,通過移動互聯網,超級應用程序成為人們
230、使用網絡的方式 4 我們希望在搜索領域再次進行創新。微軟稱其為“您的 AI 驅動的網絡副駕駛“。這個副駕駛的核心是一個全新的 Bing 搜索引擎和 Edge 網絡瀏覽器。Bing 將直接回答您的問題,并提示您發揮更多創意 全新全新 Bing 的四大突破的四大突破 1 模型:Bing 將在 OpenAI 的下一代 LLM(LargeLanguageModel)上運行,專為搜索定制 2 性能:與 OpenAI 合作的“PrometheusModel”,提高搜索結果相關性、對答案進行注釋、顯示最新結果等等 3 核心搜索索引:通過 AI 模型,搜索結果的相關性躍升幅度最大 4 用戶體驗:集答案、聊天和
231、瀏覽器一體的搜索體驗 現在,我們即將看到新的現在,我們即將看到新的 Bing 的實際應用。它擁有專注于答案、聊天和幫助提示的實際應用。它擁有專注于答案、聊天和幫助提示的能力的能力 1 例子:搜索墨西哥畫家的比較會顯示結果列表,右側是生成的答案,并帶有鏈接注釋 2 例子:詢問宜家雙人沙發是否適合小型貨車。Bing 可以找到雙人沙發和汽車的尺寸,并回答是否合適 3 例子:前三名吸塵器的優缺點 4 例子:比如用戶想搜索的墨西哥城旅游的攻略。他可以輸入:為我和我的家人制定一個為期五天的旅行路線。還可以創建此行程的摘要,并發送電子郵件給家人 久謙|服務進步的群體|68 5 例子:搜索“頂級日本詩人”,下
232、方有維基百科的鏈接 6 例子:四口之家的膳食計劃,有素食可供選擇,并迎合不喜歡堅果的人 新新 Edge 界面界面 1 Edge 中還將有一個 AI 驅動的副駕駛。我們通過更時尚、更輕便、非??岬男路绞皆?Edge 集成了 Bing 2 我們剛剛在 Bing 中看到的聊天界面在 Edge 中作為側邊欄提供,因此您無需導航至 Bing 即可使用它 3 新 Bing 有五個方面的貢獻。核心基礎、聊天編排、提示生成、推理和交互式體驗,以及為未來機會擴展的基礎設施 4 同時,微軟一直在研究人工智能的風險,包括偏見等已知風險和“越獄”等新風險。有了這個產品,我們在開發衡量風險緩解的方法方面比以往任何時候都
233、走得更遠 5 我們使用 Bing-scale 安全系統過濾內容,并部署快速響應系統以應對不斷變化的威脅。最后,在應用層,我們正在迭代 metaprompts。微軟與 OpenAI 合作,可以不斷測試對話并對其進行分析,以對對話進行分類并改進安全系統中的漏洞 6 新 Bing 今天以“有限預覽”的形式在桌面上線。每個人都可以嘗試有限數量的查詢,并立即注冊以獲得完全訪問權限。預計在未來幾周內推出移動版本,并將預覽人數擴展到數百萬人 這種形式是否會產生大量不良內容,這些內容會被拉回到模型中嗎?這種形式是否會產生大量不良內容,這些內容會被拉回到模型中嗎?1 將搜索與模型相結合,意味著用戶可以使用搜索來
234、進行事實核查 2 當你將這兩者結合起來時,就會產生制衡 Prometheus 模型與模型與 ChatGPT 相比如何?相比如何?1 Bing 協調器圍繞模型 2 創建了一個良性循環 競爭格局和成功指標是什么?競爭格局和成功指標是什么?1 目前,我們專注于構建這個偉大的新終端的用戶價值。我們希望可以吸引更多用戶使用 Bing,并讓這些用戶更多地使用 Bing 2 如果反饋良好且使用良好,一切都會成功。從源頭提升模型的問題我們非常關心答案的來源。這就是為什么有鏈接 對于一些新信息,比如新電視在今天剛剛發布,機器人會知道嗎?對于一些新信息,比如新電視在今天剛剛發布,機器人會知道嗎?Bing 的準確的
235、準確性?性?久謙|服務進步的群體|69 1 用戶會對模型的這部分能力印象深刻 2 我們不會總是做對。我們一直在學習。這里的關鍵實際上是我們如何獲取信息,為它提供更多數據可以提高準確性 3 在 GPT 上運行查詢與傳統搜索相比的成本無法回答 為什么不重塑為什么不重塑 Bing 的品牌,推出全新的另一個產品?的品牌,推出全新的另一個產品?1 我們認為這完全是對搜索的重新想象 2 我們喜歡 Bing 品牌,所以我們也會堅持下去 生成的內容是否會被標記為生成的內容是否會被標記為 AI 生成的?生成的?1 我們的愿景是副駕駛為用戶提供幫助 2 我們不希望 Bing 完全寫東西 微軟為實現可持續發展和計算
236、優化付出了哪些努力?微軟為實現可持續發展和計算優化付出了哪些努力?1 我們希望在何時使用繁重的計算 2 以及何時可以使用成本不高的設備方面做的更好 ChatGPT 有時會產生幻覺并編造一些東西。您是否解決了這個問題,或者是用戶有時會產生幻覺并編造一些東西。您是否解決了這個問題,或者是用戶可能會看到的問題?可能會看到的問題?1 我們從一開始就致力于此 2 我們正在衡量模型在搜索結果中的哪些地方出現問題,但它并不完美。用戶將看到它在哪里更改了一個小數字或其他內容 Chrome 或其他瀏覽器中可用嗎?或其他瀏覽器中可用嗎?1 我們的目的是將它帶到所有瀏覽器中 2 我們從 Edge 開始。Chrome
237、 必須實現一些功能才能正常工作,但我們的目標是所有瀏覽器 開發人員會獲得開發人員會獲得 API 嗎?你們可以限制這些查詢嗎?嗎?你們可以限制這些查詢嗎?1 我們正在繼續評估我們的產品 2 限制會有所不同 最終用戶需要付費嗎?你展示的很多內容都是基于事實的。這可以幫助人們進行最終用戶需要付費嗎?你展示的很多內容都是基于事實的。這可以幫助人們進行創意寫作嗎?有計劃加入廣告嗎?創意寫作嗎?有計劃加入廣告嗎?久謙|服務進步的群體|70 1 沒有定價,它是免費的。它具有創造性 2 一開始就有廣告 久謙|服務進步的群體|71 從美國科技巨頭財報看從美國科技巨頭財報看 AI 的發展和應用的發展和應用 訪談日
238、期:訪談日期:2023/2/5 具體內容具體內容 摘要摘要 1 微軟:微軟和 OpenAI 已經進入第三階段合作,微軟為 OpenAI 提供算力和超級計算系統(specialized supercomputingsystems),而 OpenAI 也將反哺 Azure 的 AI 能力 a 未來微軟產品將全線整合 ChatGPT,屆時微軟的每個產品都將具備相同的 Al 能力 b 微軟認為,下一次平臺型科技浪潮就是人工智能,將大大改變生產力和消費者體驗,將通過人工智能來推動解決方案的創新和差異化競爭 2 META:a AI 對于 META 主要體現在效率的提升,包括內容推送效率(更加精準)、廣告精
239、準度方面的效率(彌補蘋果隱私政策之后廣告精準度的下降)、工程師的生產力效率,以及將大力發展生成式 AI(generativeAI)b 公司正在將數據中心轉移至新架構上,更好得理解 AI 需求、以及滿足 AI 和非人工智能的工作負載 3 谷歌:谷歌在 AI 方面積累深厚,一直是行業領導者,未來將在三個方面持續發展 a 大模型方面,未來將從 LaMDA 開始提供語言模型,用戶可以與其直接互動(類似于 ChatGPT)b 同時,BERT 和 MUM 等語言模型在四年多時間內持續在改進搜索結果,很快他們將做為搜索伴侶,與用戶直接交互(類似于微軟將 ChatGPT 應用于 Bing中)將為開發者、創作者
240、和合作伙伴提供 AI 相關的工具和 API c AI 能力將在云計算、workspace(跟微軟辦公直接競爭)和廣告中為客戶賦能,目前谷歌廣告對 AI 已經有了很多應用,比如智能出價、匹配查詢、優化 ROI 及自動生成廣告素材等方面 d 對于未來成本的管控,人工智能將在谷歌中扮演重大角色,將提高生產力和運營效率。同時,為了反映 DeepMind 與 GoogleServices、Google Cloud 和 Other Bets 的合作不斷增加,從第一季度開始,DeepMind 將不再在 Other Bets 中報告,并將作為 Alphabet 公司成本的一部分進行報告 微軟:微軟與微軟:微軟
241、與 OpenAI 的合作回顧的合作回顧 1 2023 年 1 月 23 日,微軟宣布了與 OpenAI 自 2019 和 2021 年后的第三階段的合作,微軟對 OpenAI 是一項 multi-year,multi-billion 的投資,本次雙方將在此前基礎上進一步 extending partnership a 首先,AI 的訓練需要算力,Azure 是 OpenAI 的獨家云提供商,Azure 將為跨研究、產品和 API 服務的所有 OpenAI 的 workloads 提供支持 b AI research 需要超級計算系統來支持(specialized supercoputing s
242、ystems),微久謙|服務進步的群體|72 軟將加大對 supercomputing systems 的投資以支持 OpenAI 的發展。同時,OpenAI 也可以反哺 Azure 的 AI 能力,微軟將繼續構建 Azure 的 AI 基礎設施,以幫助客戶在全球范圍內構建和部署 AI 應用程序 c 微軟將自己的消費者和企業產品中部署 OpenAI 的模型,并為客戶引入基于 OpenAI 技術的體驗 d 包括微軟的 Azure OpenAIservice(開發人員可使用該服務來 builtAI applications,可以使用包括 GPT-3.5,Codex,and DALL-E 2),雙方
243、還將共同努力,將 OpenAI 的技術構建到 GitHubCopilot(AI 編程工具)和 MicrosoftDesigner 等應用程序中 微軟在財報中對微軟在財報中對 AI 的表述的表述 1 人工智能方面,人工智能時代已經來臨,而微軟正在為其提供動力,我們正在見證基礎模型能力的非線性改善,我們正在給客戶提供這種能力 a 隨著客戶選擇他們的云供應商并投資于新的工作負載,作為人工智能領域的領導者,我們完全有能力抓住這個機會。我們擁有云中最強大的 AI 超級計算基礎設施。它正被客戶和合作伙伴,如 OpenAI,用來訓練最先進的模型和服務,包括 ChatGPT b 就在上周,我們廣泛提供了 Az
244、ure OpenAI 服務,已經有 200 多個客戶-從畢馬威到半島電視臺-正在使用它。我們將很快增加對 ChatGPT 的支持,使客戶能夠首次在自己的應用程序中使用它。在昨天,我們宣布完成了與 OpenAI 的下一階段協議 c 我們很高興成為他們的獨家云供應商,并將在我們的消費者和企業產品中部署他們的模型,因為我們繼續推動人工智能技術的發展 2 所有這些創新正在推動我們整個 Azure 人工智能服務的增長。僅 Azure ML 的收入就連續五個季度增長超過 100%,安盛、聯邦快遞和 H&R Block 等公司都選擇該服務來部署、管理和治理其模型 a 三年半前,我們現在開始了和 OpenAI
245、 伙伴關系。在過去的三年里,我們實際上一直在努力研究這種伙伴關系的許多要素。因此,我認為我們的投資者看待這一點的方式是,正如我所說,我們從根本上相信,下一個大型平臺浪潮將是人工智能 b 我們還相信,通過能夠抓住這些浪潮(waves),然后讓這些浪潮創造新的解決方案和新的機會,是可以帶來許多企業價值的。因此,每當我們考慮平臺機會和平臺轉換機會時,我們都是這樣做的 c 我們怎么才能抓住這些 waves,并使其更具擴張性,然后創造出什么?因此,如果您從這個角度來看,Azure 的核心,或者被認為是云計算的東西從根本上改變了其性質以及計算、存儲和網絡的結合方式 d 從某種意義上說,under the
246、radar,如果你愿意的話,在過去的三年半里,四年里,我們一直在非常努力地構建訓練超級計算機,當然還有現在的推理基礎設施(inferenceinfrastructure),因為一旦你在應用程序中使用人工智能,它就會從繁重訓練變成了推理 e 因此,我認為核心 Azure 本身正在為核心基礎設施業務轉型。它正在轉型。因此,您甚至可以看到我們擁有 Azure OpenAI 服務以外的數據,想想 Synapse plus OpenAIAPI 可以做什么。我們已經集成了 PowerPlatform 功能 3 我們今天在機器人流程自動化和工作流自動化方面處于領先地位的原因之一是,久謙|服務進步的群體|73
247、 我們在那里擁有一些人工智能功能。事實上,GitHub Copilot 是當今市場上最大規模的基于 LLM 的產品。因此,我們完全希望我們將人工智能納入堆棧的每個層,無論是生產力還是我們的消費服務中。因此,我們對此感到興奮 4 我們也對 OpenAI 創新感到興奮,他們把產品商業化了。我們對 ChatGPT 建立在 Azure 上并具有其牽引力(traction)感到興奮 5 因此,我們關注兩者,它有投資部分,也有商業伙伴關系。但從根本上說,我認為,這將通過在人工智能領域領先來推動微軟每個解決方案的創新和競爭差異化 微軟旗下所有產品將全線整合微軟旗下所有產品將全線整合 1 ChatGPT:繼微
248、軟宣布在搜素引擎必應、辦公全家桶 Office 嵌入當今最火爆 Al 語言模型一 ChatGPT 后,CEO 納德拉宣布還將在云計算平 Azure 中整合 ChatGPT,宣告AzureOpenAl 服務全面上市,通過該服務可以訪問 OpenAl 開發的 Al 模型,屆時微軟的每個產品都將具備相同的 Al 能力,徹底改頭換面 2 META:2023 年的管理主題是“效率之年”。去年結束時,我們進行了一些艱難的裁員和重組一些團隊。當我們這樣做的時候,是關注效率的開始,而不是結束 a 從那時起,我們采取了一些額外的措施,比如與我們的基礎設施團隊合作,研究如何在減少資本支出的同時實現我們的路線圖 b
249、 接下來,我們正在努力扁平化我們的組織結構,刪除一些中層管理層,以更快地做出決定,以及部署 AI 工具,以幫助我們的工程師提高生產力 3 自去年以來,我們的工作重點沒有改變。推動我們路線圖的兩大技術浪潮是今天的 AI 以及從長遠來看的元宇宙。首先是 AI 發現引擎。Facebook 和 Instagram 正在從僅僅圍繞你關注的人和賬戶組織,轉變為越來越多地顯示我們 AI 系統推薦的更多相關內容。這涵蓋了每一種內容格式,這也是我們服務的獨特之處 4 在營收方面,我們仍有望在今年年底或明年初大致保持中性。然后,在那之后,我們應該能夠在滿足我們看到的需求的同時,盈利地增長 Reel a 在我們更廣
250、泛的廣告業務中,我們繼續投資于 AI,我們在這里看到了我們的努力的回報。上個季度,廣告商看到的轉化率比去年增加了 20%以上。再加上每次獲取成本的下降,廣告支出的回報也提高了 b AI 是我們發現引擎和廣告業務的基礎,它將為我們的應用程序帶來許多新產品和額外的轉變。生成式 AI(generative AI)是一個非常令人興奮的新領域,有這么多不同的應用程序。我對 Meta 的目標之一是在我們的研究基礎上,除了我們在推薦 AI 方面的領先工作外,成為生成 AI 的領導者 5 公司專注的領域包括 AI,包括我們的發現引擎、廣告、業務消息傳遞和日益生成的 AI,以及元宇宙的未來平臺。從運營的角度來看
251、,我們專注于效率,并繼續精簡公司,以便我們能夠盡可能地執行這些優先事項,并在提高業務表現的同時建立一個更好的公司 今年關注的兩個最大的主題今年關注的兩個最大的主題 1 一個是效率,然后這種新產品領域將是生成式 AI(generative AI)工作 a 我們有一堆不同的工作流程跨越幾乎每一個我們的產品使用新技術,特別是大久謙|服務進步的群體|74 型語言模型和擴散模型,用于生成圖像、視頻、化身和 3D 資產,以及各種不同的東西,跨越我們正在進行的所有不同的工作流程 b 以及從長期來看,致力于能夠真正增強創作者在應用程序和運行許多不同賬戶上的生產力和創造性的事情 2 關于我們的新數據中心架構,它
252、支撐著較低的資本支出前景。因此,我們正在將數據中心轉移到一個新的架構上,該架構可以更有效地支持 AI 和非人工智能工作負載。隨著我們更好地理解我們對 AI 的需求,這將給我們更多的選擇 3 此外,我們預計新的設計將比以前的數據中心架構更便宜、更快地構建 a 伴隨著新的數據中心架構,我們將優化我們構建數據中心的方法 b 因此,我們有一個新的分階段的方法,允許我們以更少的初始容量和更少的初始資本支出來構建基礎計劃,但隨后在需要時迅速伸縮未來的容量。我們仍在計劃顯著增長 AI 能力 4 廣告戰略實際上有兩個部分,那就是繼續投資人工智能,這就是我們看到廣告相關性得到很大改善的地方,比前一年多 20%的
253、轉化率,再加上每次獲取成本的下降,帶來了高投資回報率 谷歌:谷歌在谷歌:谷歌在 AI 方面積累深厚,未來自身的方面積累深厚,未來自身的 AI 能力將持續結合到產品之中能力將持續結合到產品之中 1 人工智能是我們今天正在研究的最深刻的技術,我們有才華橫溢的研究人員、基礎設施和技術使我們在 AI 達到拐點時處于非常有利的位置 2 六年多以前,我們第一次談到谷歌是一家人工智能優先的公司,從那時起,我們一直是開發 AI 的領導者。我們的 Transformers 研究項目和我們在 201 年的 field-defining 論文,以及我們在擴散模型方面的開創性工作,是今天開始看到的許多生成式 AI 應
254、用程序的基礎 3 將這些技術飛躍轉化為可幫助數十億人的產品,是我們公司一直以來賴以生存的基礎。我們將以 AI principle 和信息完整性的最高標準作為我們所有工作的核心,大膽地開展這項工作。自去年初以來,我們一直在為這一刻做準備,在接下來的幾個月里,將在三大領域看到我們的成果 a 大模型(large models)我們已經廣泛發表了關于 LaMDA 和 PaLM 的文章,這是業界最大、最復雜的模型,以及在 DeepMind 的大量工作。在接下來的幾周和幾個月里,我們將從 LaMDA 開始提供這些語言模型,以便人們可以直接與它們互動 b 這將幫助我們繼續獲得反饋、測試并安全地改進它們。這些
255、模型在撰寫、構建和總結方面特別出色。當它們提供最新的、更真實的信息時,它們將變得對人們更有用 c 在搜索中,BERT 和 MUM 等語言模型已經改進了四年的搜索結果,實現了顯著的排名改進和多模式搜索,如 Google Lens。很快,人們將能夠以實驗性和創新的方式直接與我們最新、最強大的語言模型進行交互,作為搜索的伴侶 d 我們將為開發者、創作者和合作伙伴提供新的工具和 API。這將使他們能夠創新和構建自己的應用程序,并在我們的語言、多模式和其他 AI 模型之上發現 AI 的新可能性 e 我們的 AI 將能為各種規模的企業賦能 i Google Cloud 正在通過我們的 CloudAI 平臺
256、向客戶提供 AI 賦能,包括面向開發人員和數據科學家的基礎設施和工具,例如 Vertex AI。我們還為制造、久謙|服務進步的群體|75 生命科學和零售等行業提供特定的人工智能解決方案,并將繼續推出更多解決方案 ii 對于 workspace 用戶,日常工作也將受益于 AI 的支持,例如用于協作的 SmartCanvas 和用于創作的 Smart Compose;我們正在努力將大型語言模型引入 Gmail 和 Docs。我們還將提供其他有用的生成功能,從編碼到設計等等 iii 廣告合作伙伴,從 natural languageunderstanding 到 generative AI,將對行業
257、帶來變革性的影響 4 以智能出價為例,它使用人工智能來預測未來的廣告轉化及其價值,幫助企業保持敏捷并快速響應需求的變化。到 2022 年,人工智能的進步提高了競價性能,以幫助客戶提高 ROI 并更有效地使用廣告預算 a 在搜索查詢匹配中,像 MUM 這樣的大型語言模型可以匹配廣告商提供的用戶查詢 b 這種對人類語言意圖的理解與出價預測方面的進步相結合,讓企業在使用目標 CPA 的廣告系列中,將完全匹配關鍵字升級為廣泛匹配時,平均可以看到 35%以上的轉化率 5 Google AI 也是我們創意產品的基礎,例如 Google Ads 中的文本建議和響應式搜索廣告中的創意優化。我們很高興開始測試我
258、們的 Automatically Created AssetsBeta,一旦廣告商選擇加入,它就會使用 AI 無縫地為搜索廣告素材生成標題和描述 a 當然還有 Performance Max,它為我們的客戶提供了我們的 AI 驅動系統的最佳組合 b 但我們并沒有就此止步,在過去十年中,人工智能一直是我們廣告業務的基礎,我們將繼續為我們的產品帶來最前沿的進步,以幫助企業和用戶 6 除此之外,AI 還在繼續大幅改進谷歌的其他產品。我們將繼續與谷歌以外的公司合作,以負責任的方式開發人工智能,并應用人工智能應對社會面臨的最大挑戰和機遇 a 例如,DeepMind 的蛋白質數據庫包含科學界已知的所有 2
259、 億種蛋白質,現已被全球 100 萬生物學家使用。我們繼續全面投資 AI,Google AI 和 DeepMind 是未來不可或缺的一部分 b 在過去的幾年里,DeepMind 越來越多地在谷歌和其他公司內部跨團隊工作 未來將未來將 re-engineer 成本成本 1 使用人工智能和自動化來提高整個 Alphabet 的生產力以及基礎設施的效率 2 其次,更有效地管理我們與供應商的支出 3 優化工作方式和地點 DeepMind 披露方式調整披露方式調整 1 為了反映 DeepMind 與 Google Services、Google Cloud 和 Other Bets 的合作不斷增加 久謙
260、|服務進步的群體|76 2 從第一季度開始,DeepMind 將不再在 Other Bets 中報告,并將作為 Alphabet 公司成本的一部分進行報告 久謙|服務進步的群體|77 從北美云廠商的從北美云廠商的 AI 規劃看光通信的結構創新規劃看光通信的結構創新 訪談日期:訪談日期:2023/2/1 具體內容具體內容 資本開支資本開支 1 北美云計算大廠財報口徑上,對海外衰退下云計算投資、資本開支的降速已反映出來了,Meta 下調了整體費用和資本開支指引(340-390 下調到 300-330 億美金),方向從元宇宙調到 AI 方向 2 微軟整體口徑變化不大,還是云計算相關需求,但 Azur
261、e 增速放緩,谷歌、Amazon 云計算相關投資也有回落 投資方向有變化投資方向有變化 1 最近微軟投資 110 億美金 OpenAI,ChatGPT 嵌入到搜索引擎里,正面硬剛谷歌搜索引擎,包括 FB 在布局很多超算,谷歌也推出類似 ChatGPT 的交互 a AI 進入到提速過程,包括最近 ChatGPT 迅速出圈,擁有很多用戶。跟基礎設施和硬件設備相關的變化是算力會有大幅增長 b 算力從廣義講需要能耗、成本堆出來,不斷燒數據發電做存儲計算,能耗跟投入成本密切相關,AI 背后的算力相較于之前云計算、電商需要的算力成倍增長,按照傳統速率升級、堆疊算力的方式不符合商業化發展,所以設備上要為了匹
262、配高算力帶來的低成本方案 c 目前已經有很多設備、光通信、服務器產業鏈面向超算去提升出貨量 2 機遇:需要降能耗成本,體現在設備、光模塊、交換機的更新。用在國內外超大數據中心和超算里的設備已經有區分了,能耗消耗有很大差別。光模塊 100G-400G-800G 的速率還不夠,很多超算的交換機要按照 T 的計量,這個量級匹配相應光模塊的成本非常驚人 a 因此衍生出同步散熱降溫,同時在 10+T 的交換機搭載 800G 光模塊需要很多堆疊,交換機會過載,所以衍生出交換機和光模塊融合(COPACKAGE),以前的光模塊演進成光引擎,然后再和交換芯片貼在同一張 PCB 背板上,通過交換機搭載的液冷板進行
263、物理冷卻和降溫 b 同時光引擎由于體積、集成度高,搭配硅光封裝規?;髸w現成本優勢,會替代高算力場景 3 建議關注:交換機、服務器、光模塊的天孚通信、銳捷網絡、新華三?,F在在北美等大廠都在推進 COPACKAGE 方案,最近由于 AI 進度加速,近期由于 ChatGPT爆火,大廠方向迅速轉變,可能帶來光引擎、液冷服務器加速推進 a 天孚通信、銳捷網絡、新華三都在 COPACKAGE 和硅光有典型的布局,下游已經面向北美核心 AI 廠商開始出貨。不論交換機的華為華三銳捷,海外思科英特爾英偉達都在全面布局,很多大廠已經出貨但由于體量較小,未來在數據中心側會規模性鋪開 b 對于傳統空間被新方案替代
264、市場需求,但由于算力激增,數通投資、光通信出久謙|服務進步的群體|78 貨量還是會大幅提升尤其在高算力場景 c 結構性創新帶來的彈性會在今明年體現,基本到 800G 到 1.6T 差異會清晰,目前切換新方案糾結點在于成本和供應鏈穩定,等量起來供應鏈會突破 d A 股已經有部分公司產品出貨了,天孚、銳捷網絡核心主推,之前這個方向公司被海外通脹衰退抑制,數通市場增速往下走,這個預期短期已經由于北美大廠財報也出釋放了,同時 AI 對算力增長的拉動在 2425 年體現更加明顯,當前低估值具備高的性價比,20X 不到 e 現在市場規模非常小,光模塊一年 100+億美金只有 1%不到做光引擎,但光引擎速率
265、升級、液冷交換機升級交付量會大提升 天孚、銳捷怎么降低功耗?天孚、銳捷怎么降低功耗?1 原來交換機上有口可插拔光模塊去做光電轉化,信號傳輸速度快走光纖,交換機里會轉成電信號 2 之前模塊在交換機外部現在放到內部對模塊和交換機都要同步升級匹配,但目前容錯率低、成本高,但未來是必然選項,不是主題性投資了,會有明顯訂單和產業趨勢的切換,目前是早期階段 3 硅光和封裝良率都會有質變。之前大家盯著北美資本開支看行業需求,未來會細化看資本開支投向 AI 的部分會是增速最高的部分,在這個方向尋找標的是下一個投資方向,同時海外 ChatGPT 遠遠領先于國內,所以會看國內硬件優質供應商 久謙|服務進步的群體|
266、79 從微軟和從微軟和 OpenAI 的合作來梳理的合作來梳理 AI 投資邏輯投資邏輯 訪談日期:訪談日期:2023/1/29 具體內容具體內容 微軟和微軟和 OpenAI 的合作的合作 1 2023 年 1 月 23 日,微軟宣布了與 OPENAI 自 2019 和 2021 年后的第三階段的合作,微軟對 OPENAI 是一項 MULTI-YEAR,MULTI-BILLION 的投資,本次雙方將在此前基礎上進一步 EXTENDINGPARTNERSHIP 2 首先,AI 的訓練需要算力,AZURE 是 OPENAI 的獨家云提供商,AZURE 將為跨研究、產品和 API 服務的所有 OPEN
267、AI 的 WORKLOADS 提供支持 3 AIRESEARCH 需要超級計算系統來支持(SPECIALIZEDSUPERCOMPUTINGSYSTEMS),微軟將加大對SUPERCOMPUTINGSYSTEMS 的投資以支持 OPENAI 的發展 4 同時,OPENAI 也可以反哺 AZURE 的 AI 能力,微軟將繼續構建 AZURE 的 AI 基礎設施,以幫助客戶在全球范圍內構建和部署 AI 應用程序 5 微軟將自己的消費者和企業產品中部署 OPENAI 的模型,并為客戶引入基于OPENAI 技術的體驗。包括微軟的 AZUREOPENAISERVICE(開發人員可使用該服務來 BUILT
268、AIAPPLICATIONS 可以使用包括 GPT-3.5,CODEX,ANDDALLE2),雙方還將共同努力,將 OPENAI 的技術構建到 GITHUBCOPILOT(AI 編程工具)和MICROSOFTDESIGNER 等應用程序中 微軟在財報中對微軟在財報中對 AI 的表述的表述 1 人工智能方面,人工智能時代已經來臨,而微軟正在為其提供動力,我們正在見證基礎模型能力的非線性改善,我們正在給客戶提供這種能力 a 隨著客戶選擇他們的云供應商并投資于新的工作負載,作為人工智能領域的領導者,我們完全有能力抓住這個機會。我們擁有云中最強大的 AI 超級計算基礎設施 b 它正被客戶和合作伙伴,如
269、 OpenAI,用來訓練最先進的模型和服務,包括ChatGPT。就在上周,我們廣泛提供了 AzureOpenAI 服務,已經有 200 多個客戶-從畢馬威到半島電視臺-正在使用它 c 我們將很快增加對 ChatGPT 的支持,使客戶能夠首次在自己的應用程序中使用它。在昨天,我們宣布完成了與 OpenAI 的下一階段協議 d 我們很高興成為他們的獨家云供應商,并將在我們的消費者和企業產品中部署他們的模型,因為我們繼續推動人工智能技術的發展。所有這些創新正在推動我們整個 Azure 人工智能服務的增長 e 僅 AzureML 的收入就連續五個季度增長超過 100%,安盛、聯邦快遞和H&RBlock
270、 等公司都選擇該服務來部署、管理和治理其模型 2 三年半前,我們現在開始了和 OPENAI 伙伴關系。在過去的三年里,我們實際上一直在努力研究這種伙伴關系的許多要素。因此,我認為我們的投資者看待這一點久謙|服務進步的群體|80 的方式是,正如我所說,我們從根本上相信,下一個大型平臺浪潮將是人工智能 3 我們還相信,通過能夠抓住這些浪潮(WAVES),然后讓這些浪潮創造新的解決方案和新的機會,是可以帶來許多企業價值的。因此,每當我們考慮平臺機會和平臺轉換機會時,我們都是這樣做的 我們怎么才能抓住這些我們怎么才能抓住這些 waves,并使其更具擴張性,然后創,并使其更具擴張性,然后創造出什么?造出
271、什么?1 因此,如果您從這個角度來看,AZURE 的核心,或者被認為是云計算的東西從根本上改變了其性質以及計算、存儲和網絡的結合方式 a 從某種意義上說,undertheradar,如果你愿意的話,在過去的三年半里,四年里,我們一直在非常努力地構建訓練超級計算機,當然還有現在的推理基礎設施(inferenceinfrastructure),因為一旦你在應用程序中使用人工智能,它就會從繁重訓練變成了推理 b 因此,我認為核心 Azure 本身正在為核心基礎設施業務轉型。它正在轉型。因此,您甚至可以看到我們擁有 AzureOpenAI 服務以外的數據,想想SynapseplusOpenAIAPI
272、可以做什么。我們已經集成了 PowerPlatform 功能 c 我們今天在機器人流程自動化和工作流自動化方面處于領先地位的原因之一是,我們在那里擁有一些人工智能功能。事實上,GitHubCopilot 是當今市場上最大規模的基于 LLM 的產品 d 因此,我們完全希望我們將人工智能納入堆棧的每個層,無論是生產力還是我們的消費服務中。因此,我們對此感到興奮 2 我們也對 OPENAI 創新感到興奮,他們把產品商業化了。我們對 CHATGPT 建立在AZURE 上并具有其牽引力(TRACTION)感到興奮 3 因此,我們關注兩者,它有投資部分,也有商業伙伴關系。但從根本上說,我認為,這將通過在人
273、工智能領域領先來推動微軟每個解決方案的創新和競爭差異化 舉例來理解,加入舉例來理解,加入 AI 能力之后未來我們可以用微軟的產品來干什么?能力之后未來我們可以用微軟的產品來干什么?1 編程(GITHUBCOPILOT):給開發者 CODE 建議,可以對一段 CODE 進行描述,提升編程效率;未來甚至還可以進行自動編程 2 辦公:WORD 中使用,可以自動理解格式命令,甚至自動創建相關內容;同理,跟 TEXT 相關的所有產品例如 EXCEL 中也可以應用 3 自動化工具:各種流程自動化工具可以更加智能 4 以上,在 C 端和 B 端都有非常多的應用空間 5 可能會出現三種 AI 類型公司 a O
274、penAI 這種提供 AImodel 的公司(會出現比較多的 startups)b 利用 AImodel 來做產品的公司,例如 BuzzFeed(應用層面的公司較多)c 利用自己的 AImodel 和數據來做產品的公司,例如谷歌,是用產品來變現而非AImodel 來變現(更多是大公司)6 CHATGPT 或者任何 AI 產品均離不開算力、數據和技術,因此在底層基礎設施上,這注定是大公司之間的一場競爭 久謙|服務進步的群體|81 a 云計算/算力:亞馬遜、微軟、谷歌、阿里巴巴等,任何 AI 的訓練都離不開云計算,同樣,英偉達也將受益 b 數據:AI 的訓練離不開數據,所以這要求使用 AI 的公司
275、需要有足夠多的數據、或者足夠多能觸及到消費者/企業客戶的產品,數據最多/產品最多的公司包括谷歌、meta、亞馬遜、微軟等 c 技術:亞馬遜自己的語言模型達到了 20bnparameters,但目前只是在內部使用;谷歌也持續在深入自己的 AI 能力,微軟通過投資 OpenAI;d 在蘋果隱私政策之后,Meta 也開始大力投資 AI??聪蛭磥?,這些大公司都有可能培養出 OpenAI 的競爭者 應用層面應用層面 1 任何需要內容的公司:SOCIALPLATFORMS(META 等)、新聞網站(BUZZFEED)、搜索引擎(谷歌、微軟),等等 2 安全領域:任何 AIMODEL 中都包含大量數據,如果
276、被攻擊可能會造成數據泄露,因此該領域也需要一些安全類的應用 3 映射到 A 股投資邏輯上,建議關注:AI 技術領域領先的技術公司。算法、數據、算力是 AI 大模型訓練的基礎,建議關注基礎設施相關標的:科大訊飛、海天瑞聲、拓爾思等 4 當前 CHATGPT 上線將有望推動文本類 AI 滲透于文本生產、智能批閱等應用領域 5 建議關注:閱文集團、中文在線、掌閱科技、視覺中國、金山辦公、昆侖萬維等 久謙|服務進步的群體|82 微軟公司微軟公司業績交流業績交流 訪談日期:訪談日期:2023/1/26 具體內容具體內容 業績情況業績情況 1 FY23Q2 公司營收 527 億美元(YOY+2%,CC+7
277、%),低于彭博預期的 529 億美元。NON-GAAP 毛利 354 億(YOY+2%,CC+8%)。GAAP 營業利潤 204 億,同比減少8%,NON-GAAP 營業利潤 216 億(YOY-3%,CC+6%)2 GAAP 凈利潤 164 億,同比減少 12%,NON-GAAP 凈利潤 174 億(YOY-7%,CC+1%),超過彭博預期的 171 億。NON-GAAP 每股收益 2.32 美元,同比減少6%。公司通過股票回購和分紅向股東返還了 97 億美元 3 本季度云相關收入達 271 億美元(YOY+22%,CC+29%)分業務來看分業務來看 1 生產力和業務流程:收入為 170 億
278、美元(YOY+7%,CC+13%),排除外匯影響后符合預期。分產品 a Office 商業版收入(YoY+7%,CC+14%)。Office365 商業版收入(YoY+11%,CC+18%),略好于預期,主因續簽執行良好以及 E5 持續增長帶來的 ARPU 提高;其付費席位同比增長 12%,主要受到中小型企業和一線員工使用的推動 b Office 消費版收入(YoY-2%,CC+3%),主因 Microsoft365 的訂閱量增長了12%達到 6,320 萬,部分被交易業務下降所抵消。LinkedIn 收入(YoY+10%,CC+14%),主要得益于 talentsolution 的增長,部分
279、被廣告需求下滑趨勢導致的營銷方案疲軟所抵消 c Dynamics 收入(YoY+13%,CC+20%),主因 Dynamics365 收入(YoY+21%,CC+29%)2 智能云:收入 215 億(YOY+18%,CC+24%),符合預期。分產品 a 服務器產品和云服務收入(YoY+20%,CC+26%)。Azure 和其他云服務收入(YoY+31%,CC+38%),增長持續放緩,尤其在 12 月,Q2 的 Azure 收入CC+30%左右 b 服務器收入(YoY-2%,CC+2%),延續的混合需求被交易許所抵消。企業服務收入(YoY+2%,CC+7%)3 更多個人計算:收入 142 億(Y
280、OY-19%,CC-16%),主因 SURFACE,WINDOWS 商業版和搜索業務低于預期。分產品 a WindowsOEM 收入同比下降 39%,與預期一致,排除去年 Windows11 延遲發布的影響,微軟的營收同比下降 36%。設備收入(YoY-39%,CC-34%),低于預期,主因新產品發布的執行面臨挑戰 b Windows 商業版收入(YoY-3%,CC+3%),低于預期,主因獨立產品新業務增長放緩 久謙|服務進步的群體|83 c 搜索廣告收入(YoY+10%,CC+15%),略低于預期,Edge 瀏覽器本季度獲得超預期的市場份額,收購 Xandr 貢獻了大約 6 個百分點的收益
281、d 游戲業務(YoY-13%,CC-9%),符合預期,Xbox 硬件收入(YoY-13%,CC-9%);Xbox 內容和服務收入(YoY-12%,CC-8%),主因第一方內容的強勢 FY23Q3Guidance 1 23Q3 營收為 505515 億(YOY+2%4%)。分業務看,生產力和業務流程收入 169-172 億(YOY+%9%),智能云收入 217-220 億(YOY+14%16%),更多個人計算收入 119-123 億(YOY-15%18%)2 22Q3COGS 為 156.5-158.5 億(YOY+1%2%),運營費用 147-148 億(YOY+11%12%)。全年營業利潤同
282、比增速下調 1%關于與關于與 OpenAI 的合作,的合作,AI 能力是否有所拓展,何時能擴展到能力是否有所拓展,何時能擴展到 Azure 以外的服務?以外的服務?1 我們相信下一個平臺浪潮將是 AI,抓住浪潮就能為企業創造價值,我們在過去四年建立了超級計算機,如今只要將 AI 融入應用場景中,便可以通過大量訓練生成推理功能。AZURE 正在為基礎設施業務轉型,所以可以看到我們在 AZUREOPENAI服務之外的數據 2 我們希望將 AI 融入到提高生產力和消費者服務中,將 CHATGPT 的能力賦予到AZURE 中,這將推動公司在 AI 領域的競爭差異化 基于前面對美國客戶優化(減少)支出的
283、評論,談談對于宏觀消費環境的看法?基于前面對美國客戶優化(減少)支出的評論,談談對于宏觀消費環境的看法?1 上述評論是針對全球而不僅僅針對美國,長期來看科技創收占 GDP 的比例會更高,問題在于在考慮通脹后該比例為多少。我們觀察到客戶減少支出的因素有二:一是客戶在疫情期間增加了購買公司軟件的支出,但現在正在優化/減少該部分支出;二是在外匯逆風下消費變得更加謹慎,但在某一時刻,這種優化將停止 2 對于大客戶而言,其典型模式為優化現有項目的支出,并將節省的支出用于新項目中,目前投入到新項目的支出正在上升,因此公司將持續專注于提高客戶忠誠度及獲取市場份額 3 另一方面關于 AI 投資,接下來的 AI
284、 應用開發會比 2019、2020 年的 AI 應用更加落地,客戶將更多考慮產品的 AI 推理表現、成本結構、成本多少等,我們在這一領域具有競爭優勢 有多少客戶在優化調整支出,有多少客戶因為外匯逆風影響了需求?有多少客戶在優化調整支出,有多少客戶因為外匯逆風影響了需求?1 在云計算業務方面,我們難以區分客戶是因為優化因素還是宏觀因素而削減支出。但可以確定的是,客戶一方面基于對業務的預測判斷縮減了支出,另一方面想要將更多節省的錢投入到新項目中 2 在單用戶層面則有不同,無論對一線工人還是知識型員工(靠知識獲取勞動報酬),單用戶許可證的購買量都有提速,使用率進一步上升,正如當查看OFFICE365
285、 的使用情況時,所有數字都在同比大幅增長 久謙|服務進步的群體|84 3 支出優化的周期:不需要 2 年時間來優化,需要 1 年來優化 全年收入要達到全年收入要達到 10%以上的增長指引是否有困難?以上的增長指引是否有困難?Q3 的的 Azure 收入增速將下降多收入增速將下降多少?少?1 前面的評論沒有提及全年收入,主要需要看 WINDOWSPC 市場能否恢復到疫情前水平。除此之外整體上升趨勢是一致的,公司全年的營業利潤率指引同比僅有 1%的降幅,而且是在 OEM 逆風可能超過 20 億美元的情況下,公司在 22 年結束時的業績表現不錯 2 根據指引,Q3AZURE 云計算業務的收入增速將比
286、 Q2 的 38%下降 4%-5%至 33-34%關于上周宣布的費用支出決定(裁員費用),如何考慮關于上周宣布的費用支出決定(裁員費用),如何考慮 23 財年剩余時間的人工數財年剩余時間的人工數及其他支出?及其他支出?1 我們同時收購了 NUANCE 和 XANDR,隨著投資增加,我們不得不決定(裁員)2 因此 Q4 結束時員工人數同比增速非常緩慢,另一方面這也使公司的費用增長與收入增長更加一致,全年的人數同比增長仍會很小 對于對于 Office365 商業版,公司更在意付費席位和商業版,公司更在意付費席位和 ARPU 間的均衡增長,還是更加青間的均衡增長,還是更加青睞付費席位的增長?睞付費席
287、位的增長?1 本季度營收中來自 ARPU 的收入貢獻持續擴大,其增長為 OFFICE365 商業版的營收增長提供了穩定性 2 因此我們正進一步提高 MICROSOFT365E5 用戶的 ARPU,目前已經有 4.5 個季度顯示 E5 采用情況很好 如何量化如何量化 AI 對于對于 Azure 的貢獻?的貢獻?1 現在將 AI 從其他工作中分離出來還為時尚早,AI 將作為 AZURE 的核心部分而非獨立部分 2 一個應用程序擁有推理功能,它也會同時擁有儲存和其他計算功能,隨著時間推移每個應用程序都將成為 AI 應用程序 久謙|服務進步的群體|85 微軟公司微軟公司各業務線情況各業務線情況 訪談日
288、期:訪談日期:2023/1/25 具體內容具體內容 整體概況整體概況 1 客戶在疫情期間加快了數字化支出,現在正在優化數字化支出,且由于宏觀經濟的不確定性而更加謹慎;隨著微軟將世界上最先進的 AI 模型變成新的計算平臺,下一個計算浪潮正在誕生 2 公司對三件事深信不疑:幫助客戶從技術支出中實現更多價值,建立長期的忠誠度和份額地位;保持微軟內部的成本結構與收入增長一致;數字化支出占 GDP 百分比增加的長期趨 3 以此為背景,微軟云計算的季度收入超過 270 億美元,增長 22%,按固定匯率計算,增長 29%Commercial remaining performance obligation
289、1 對企業未履約合約余額為 1,890 億美元,同比增加了 29%2 其中 45%將在 1 年內確認收入,這部分同比增長了 24%。其余在 1 年以上被確認的部分同比增長了 32%Azure 1 企業已經將數以百萬計的計算核心轉移到 AZURE 上,當前在微軟的云上運行的計算核心比兩年前多了一倍 2 微軟還繼續通過 AZUREARC 在混合計算方面保持,微軟現在有超過 12,000 個 ARC客戶,是一年前的兩倍,包括 CITRIX、NORTHERNTRUST 和 PAYPAL AI 1 微軟擁有云中最強大的 AI 超級計算基礎設施,如 OPENAI,用來訓練最先進的模型和服務,如 CHATG
290、PT 2 微軟已宣布完成了與 OPENAI 的下一階段的協議。微軟將成為其獨家云供應商,并在消費者和企業產品中部署 OPENAI 的模型 3 所有這些創新正在推動 AZUREAI 服務的增長,僅 AZUREML 的收入就已經連續五個季度增長超過 100%PowerPlatform 1 POWERAUTOMATE 擁有超過 45,000 個客戶 久謙|服務進步的群體|86 2 同比增長超過 50%辦公系統辦公系統 1 MICROSOFT365 有超過 6,300 萬用戶,同比增長 12%;推出了MICROSOFT365BASIC,將高級產品提供給更廣泛的用戶 2 本季度 TEAMS 的月度活躍用
291、戶數超過 2.8 億,并繼續在協作、聊天、會議、通話的類別中占據領先份額。擁有超過 1 萬名用戶的第三方應用數量同比增長了近40%,活躍的 TEAMROOMS 設備超過 50 萬臺,同比增長 70%3 80%的企業客戶使用五個或更多的 MICROSOFT365 應用程序 Windows 1 本季度個人電腦的出貨量下降,但 WINDOWS 的每臺電腦的使用時間增長了近10%。本季度月度活躍設備也達到了歷史新高。而對于商業客戶來說,WINDOWS11 的采用率繼續增長 2 此外,云端交付的 WINDOWS 實現增長,WINDOWS365 和 AZURE 虛擬桌面的使用率同比增長超過 2/3 安全性
292、安全性 1 在過去的 12 個月里,安全業務收入超過了 200 億美元,幫助客戶在云和端點平臺上保護數字資產 2 微軟是唯一一家擁有橫跨身份、安全、合規、設備管理和隱私的綜合端到端工具的公司。公司在所服務的所有主要類別中占據領先份額 LinkedIn 1 LINKEDIN9 億+會員參與度再創新高,每秒就有三個會員注冊,這些會員中超過80%來自美國以外的國家和地區。由于會員來到 LINKEDIN 學習和分享專業知識,NEWSLETTER 創作同比增長了 10 倍 2 LINKEDIN 提供 11 種語言的 20,000 多門課程,公司也正轉向基于技能的方法來識別優秀人才,超過 45%的 LIN
293、KEDIN 招聘人員明確使用技能數據來完善職位。LINKEDIN 營銷解決方案是 B2B 數字廣告的領導者 廣告廣告 1 盡管廣告市場存在逆風,但公司繼續在第一和第三方廣告中進行創新。瀏覽器MICROSOFTEDGE 連續第七個季度獲得領先份額 2 BING 在美國的份額繼續增加,START 個性化內容源的每日用戶同比增長超過30%。公司現在正在授權給零售商,并擴大第三方庫存 久謙|服務進步的群體|87 游戲游戲 1 GAMEPASS 的訂閱量、游戲流媒體時長和月度活躍設備都達到了新高,月度活躍用戶在本季度超過了 1.2 億 2 本季度,微軟與 RIOTGAMES 合作,向用戶提供其 PC 和
294、移動端游戲。即將推出來自 ZENIMAX 和 XBOX 工作室的 AAA 級游戲 財務表現財務表現 1 不計折舊政策調整的影響,本季度度毛利率同比下降了約 2PCT,主要原因是 OEM收入占比變小,且更多是收入由許可證買斷制變更為云服務模式 2 截至 12 月底,公司的總員工數同比增加了 19%,但環比增長不到 1%匯率影響匯率影響 1 我們預期匯率因素導致營收增速下降 3%,成本增速下降 1%,經營成本增速下降2%指引指引 1 預計 WINDOWS 和硬件業務同比繼續下滑到疫情前的水平。LINKEDIN 和搜索業務會繼續受宏觀環境的不利影響。其他業務在下季度會延續本季的趨勢。新簽企業合同金額
295、(COMMERCIALBOOKING)預計全年同比持平。剔除折舊調整影響,MICROSOFTCLOUD 毛利率會受 AZURE 影響下降約 1PCT 2 不變匯率口徑下,企業 OFFICE365 的增速會環比下降 1PCT,傳統買斷 OFFICE 產品會同比下降 20+%。個人 OFFICE 業務的增速為低個位數 3 預計 LINKEDIN 的增速會在中個位數,DYNAMICS 的增速為 10+%。預計 AZURE 不變匯率口徑下的增速會由 35%左右再下降 4-5%。預計其他云服務收入同比下降低個位數%。預計企業服務收入同比下降中個位數 4 預計 WINDOWSOEM 收入同比下降 30+%
296、,預計硬件業務收入同比下降 40+%5 預計企業業務(COMMERCIALBUSINESS)在 2023 財年上半年收入同比增長 20%,在下半財年收入增速會下滑 微軟向微軟向 OpenAI 追加投資對其計算能力和服務范圍的擴展,及其對追加投資對其計算能力和服務范圍的擴展,及其對 Bing 等解決方等解決方案組合產生積極影響的時間點?案組合產生積極影響的時間點?1 微軟堅信,AI 正在掀起新一輪的革命,帶給許多行業顛覆性變化。AI 能力是微軟可以成為機器人流程和工作流程自動化的領導者的原因 2 微軟期待 OPENAI 的創新,OPENAI 期待其自身的商業化,雙方共同合作推動 AI 的發展?;?/p>
297、于微軟在 AI 方面的經驗,形成創新和競爭的差異 對宏觀環境的看法?對宏觀環境的看法?久謙|服務進步的群體|88 1 長期來看,科技占 GDP 的比例會提高,關鍵是通貨膨脹調整后的經濟增長倍數 2 客戶正在優化(最大化)其支出的價值。但優化終將結束,先前優化節省的資金可用于增加云計算負載。因此,公司關注的關鍵是確保在該領域獲得份額,并與客戶保持長期合作關系 指引中云計算和指引中云計算和 Azure 的發展將放緩,其中多少是受客戶優化其已有產品和服務的發展將放緩,其中多少是受客戶優化其已有產品和服務影響,多少是受宏觀因素導致需求減少影響?影響,多少是受宏觀因素導致需求減少影響?1 增速放緩的兩大
298、原因:第一,客戶希望用更少的錢做更多的事。第二,客戶在優化投入或減少新項目。目前來看,優化周期增長解釋,新項目投入周期將要開始。事實上,疫情后 TEAMS、OFFICE365 使用率上升。當投入周期再次開啟時,座席和利潤將增長。近期將推出的 TEAMSPRO 等都將推動 ARPU 增長 2 數據顯示有非常高的續訂率。雖然新產品的獨立銷售不易,但 E5 套餐的銷售十分強勁。MICROSOFT365 的 ARPU 增長和續訂率表現潛在的一致性 優化周期的持續時間?優化周期的持續時間?Azure 將下降將下降 4-5 個點是基于個點是基于 12 月季度整體的月季度整體的 38%,還是,還是12 月底
299、月底 35%的增速?的增速?1 在疫情期間加速了現有工作負載,為期 2 年 2 目前正在進行優化,不認為會持續 2 年時間,但今年會是。優化周期結束后,新項目啟動周期不會立刻開始,會逐步擴大規模 3 從 AZURE 在 12 月底 35%的增速下降 4-5 個點 關于關于 Office365 商業版,隨著座席接近商業版,隨著座席接近 4 億,億,E5 業務的綜合費用業務的綜合費用 ROI 開始加速,開始加速,那么座席和那么座席和 ARPU 之間會更均衡地增長,還是仍然繼續傾向于座席增長?之間會更均衡地增長,還是仍然繼續傾向于座席增長?1 當座席增長放緩時,E5 的 ARPU 在 OFFICE3
300、65 商業收入中創造了穩定性?,F在座席仍在良性增長,E5 也正在進入健康狀態 2 公司也在 MICROSOFT365 之外的單用戶產進行投資,目正在開發一個新的套件POWERPLATFORM,甚至是獨立的產品如 TEAMSPRO。因此,除了已經起量的套件之外,仍有大量新產品要推出 Azure 的大客戶未來計劃?的大客戶未來計劃?1 大客戶正在優化當下規模的工作負載 2 并將節省資金投入新的項目儲備中 量化量化 AI 的潛在貢獻,或量化近期幾個季度的潛在貢獻,或量化近期幾個季度 Azure 的的 GPU 驅動貢獻?驅動貢獻?1 個人認為現在開始以某種方式將 AI 與其他工作負載分開仍為時尚早 2
301、 即使是工作負載本身,AI 也將成為 AZURE 中工作負載的核心部分。因此,隨著時間的推移,每個應用程序都將成為一個 AI 應用程序 久謙|服務進步的群體|89 在減少支出方面,今年還會有哪些員工人數和支出方在減少支出方面,今年還會有哪些員工人數和支出方面的變動,以及在做這些決面的變動,以及在做這些決定時的判斷標準是?定時的判斷標準是?1 由于同時收購了 NUANCE 和 XANDR,因此 4Q 結束時,除優先級決策外,員工人數同比增長將非常緩慢,以使成本結構與收入保持一致 2 隨著投資增加,年同比增長將非常小 久謙|服務進步的群體|90 微軟微軟 FY 2023Q2 業績會業績會 訪談日期
302、:訪談日期:2023/1/24 具體內容具體內容 業績概況業績概況 1 2023 年 1 月 24 日公司發布了截至 2022 年 12 月 31 日的 2023 財年第二財季財報,本財季公司總營收為 527 億美元,同比增長 2%2 其中,生產力和業務流程部門(PBP)營收為 170 億美元,同比增長 7%;INTELLIGENTCLOUD 部門營收為 215 億美元,同比增長 18%;MOREPERSONALCOMPUTING 部門營收為 142 億美元,同比下滑 19%3 本財季公司毛利潤為 352.59 億美元,同比增長 1.4%;凈利潤為 164 億美元,同比下滑約 12%。研發開支
303、為 68.44 億美元,同比上升約 19%4 銷售開支為 56.79 億美元,同比上升約 6%;行政開支為 23.37 億美元,同比上升約 69%。每股攤薄收益為 2.20 美元,同比下滑約 11%。本季度公司通過回購和派息,向股東返還了 97 億美元現金,同比下滑 11%公司在公司在 OpenAI 方面上的進展如何?方面上的進展如何?1 公司在三年半前開始了 OPENAI 的探索,一直在這方面努力 2 下一個大的平臺浪潮將是人工智能,只要能夠抓住這些浪潮,就能創造出更高的企業價值。公司會讓人工智能滲入到公司的每項業務,并創造出新的解決方案和新的機會 Azure 服務是否會延伸到公司其他的基礎
304、業務中去,比如服務是否會延伸到公司其他的基礎業務中去,比如 bing、基本套件或是整、基本套件或是整體解決方案體解決方案?1 AZURE 的核心是將計算、存儲和網絡結合在一起 2 在過去的三年半甚至四年里,微軟一直在非常努力地構建并訓練超級計算機,還有現在的推理基礎設施。在應用程序中使用人工智能,內部的程序就會涉及訓練和推理。AZURE 本身已經發生了轉變,基礎業務也在發生轉變 3 希望未來提供的不止是 AZUREOPENAI,將 SYNAPSE 和 OPENAI 相結合也是在考慮的,POWER 平臺具備了整合功能 4 公司擁有杰出的 AI 能力,是公司處于機器人自動化和工作流自動化領域領先地
305、位的原因之一 5 GITHUBCOPILOT 是當今市場上規模最大的基于 LLF 的產品。公司會把人工智能融入到生產中和消費者服務中。CHATGPT 能夠構建在 AZURE 上,在人工智能領域的領先將推動微軟解決方案的創新和競爭差異化 久謙|服務進步的群體|91 從全年的消費環境來看,您似乎認為情況變得更糟,而不是更好,能透露更多的從全年的消費環境來看,您似乎認為情況變得更糟,而不是更好,能透露更多的細節嗎細節嗎?1 從全球來,通脹對全球經濟都會造成影響。我們需要關注的是 a 客戶在疫情期間都在不斷縮減開支;并且考慮到市場宏觀經濟風險,也變得更加謹慎。后續將節省下來的錢都投入到后續工作中 b
306、公司要確保在這個階段獲得更多的市場份額,進一步建立客戶忠誠度。長期來看,公司在市場份額增長方面處于有利地位 c 關注投資 AI 新動向,和 2019、2020 年不同,后續的所有應用程序將會進一步考慮人工智能的性能、成本、模型等,這會讓公司再次處于有利地位 2 這就是我對市場的看法,我們看到的是優化和更加謹慎的做法。但我們從根本上相信,從長期來看,科技支出占 GDP 的比例將會上升 本季度可以看到業務放緩的趨勢,在下個季度指引放緩中,多少是由于客戶縮減本季度可以看到業務放緩的趨勢,在下個季度指引放緩中,多少是由于客戶縮減支出導致的放緩,多少是由于宏觀因素而影響需求?支出導致的放緩,多少是由于宏
307、觀因素而影響需求?1 兩方面原因:與工作負載相關,我們會告訴用戶使用我們的產品能夠優化他們的工作流程、節約資金。什么時候開始新的項目,調整優先級。這是同時發生的兩件事,形成一個循環:前一個項目優化周期結束-新項目開始。這是云消費方面的情況 2 在 PERUSER 略有不同,即購買 PERUSER 許可證的速度在加快。能夠保證客戶在使用公司的產品并且使用率正在上升 3 OFFICE365 的使用情況,所有指標都在同比大幅增長。之前已經分享過 TEAMS 的數據,在疫情過后 TEAMS 的使用情況有明顯增長 a PerUser 有非常高的續訂率,并且更新時有很高的適配度,這意味著公司更多地在所謂內
308、部獲客。雖然公司在新產品的獨立銷售方面遇到了更多挑戰,比如很難證明節省了成本,于是周期被拉長 b 但是套件銷售的價值長期表現出來,可以看到 ARPU 的大幅增長,另外續訂率也提升。一旦再次縮減支出的周期再次啟動將會產生更多溢價。幾周后推出的TeamsPro 可以確保 ARPU 的價值上升 c 從驅動因素的角度來看,很難區分優化與宏觀有多大關系 能否談談優化的周期時間。是幾個季能否談談優化的周期時間。是幾個季度還是多年?如何界定行業中發生的這種優度還是多年?如何界定行業中發生的這種優化的持續時間?化的持續時間?1 對當前的工作負載進行優化,并且以新的工作負載開始就是優化了。當完成優化工作負載,就
309、是周期結束點 2 關于時間的問題,比如公司在兩年的疫情中加速了工作負載優化的時間。公司認為周琦沒有 2 年那么長,而是在今年進行優化一部分工作,同時啟動新項目 3 新項目不會在工作負載高峰使用時立即啟動。因此,這也許是同時發生的兩個周期??梢岳斫鉃殚_始下一組工作之前的臨時調整 考慮到明顯艱難的環境,要達到指引年度考慮到明顯艱難的環境,要達到指引年度 20%的固定貨幣計算的營收增速是很困的固定貨幣計算的營收增速是很困久謙|服務進步的群體|92 難的。是否今年總收入增長難的。是否今年總收入增長 10%以上的弱指引是否也很難達到?以上的弱指引是否也很難達到?1 在全年總收入方面,沒有給過指引。除了關
310、注 WINDOWSPC 市場能否在今年回到新冠前的水平因素之外,其他業務趨勢相對一致 2 在營業收入利潤率指引中,在 OEM 可能超過 20 億美元的減少的情況下,與我們的預期相比、今年的利潤率只有 1 個百分點的下降 3 對利潤率的關注,對優先級的關注,對將投資高回報資產的關注,使公司對今年保持樂觀,能夠在 Q4 以很好的杠桿率結束 如何展望后續員工數量?以及做出這些決定時考慮的標準是什么?如何展望后續員工數量?以及做出這些決定時考慮的標準是什么?1 Q4 低個位數運營費用增長的指引,因此延遲了對 NUANCE 和 XANDER 的收購。到Q4 末時,除了一些優先級決策外,員工人數同比增長非
311、常緩慢 2 這是使成本結構更符合收入的決定。公司充滿信心,人員流失率意味著一些投資的同比增長將非常小 目前目前 Office365 已經達到已經達到 4 個億的用戶數量,個億的用戶數量,E5 業務加速增長,是否應該進一步業務加速增長,是否應該進一步考慮在用戶數和考慮在用戶數和 ARPU 之間更均衡的增長,還是繼續擴大市場?之間更均衡的增長,還是繼續擴大市場?1 本季度開始更多地考慮 ARPU 影響。用戶數的增長開始緩和,但 E5 的 ARPU 也在同時提高,這使得 OFFICE365 商業收入相對穩定。整體公司仍然有很好用戶數的增長 2 而且正在進一步探索 E5 的運營狀況??梢钥吹剿奈鍌€季度
312、里 E5 的使用率非常好 3 在這種環境下,對于客戶而言,我們產品早分析與安全的價值非常高。這是客戶可以節約成本的地方,并且 ARPU 也保持增長 4 在 MICROSOFT365 之外,公司還投資于 PERUSER、新套件 VIVA、POWERPLATFORM、TEAMSPRO 等 微軟用戶群體不斷增大,管理層對不同的項目產品看法會有哪些變化?微軟用戶群體不斷增大,管理層對不同的項目產品看法會有哪些變化?1 大客戶的典型模式:大客戶的共同需求是都希望優化大規模的工作量,并將節省的資金投入到新的項目中 2 在上個季度,公司 AZURE 業務與客戶的關系不斷加深,獲得了更多的長期客戶合同 有沒有
313、什么方法可以量化有沒有什么方法可以量化 AI 的潛在貢獻?的潛在貢獻?1 現在以某種方式將 AI 量化還為時過早。AI 是 AZURE 中工作負載的核心部分,任何程序涉及算法推算都跟 AI 相關,不能單獨談 2 隨著時間的推移,每個應用程序都將成為人工智能應用程序 久謙|服務進步的群體|93 平治信息公司走訪平治信息公司走訪 訪談日期:訪談日期:2023/2/7 具體內容具體內容 要點要點 1 布局戰略:借助自身強項與 AIGC 技術風口嫁接功能,使平臺更有技術性,與達闥合作,希望快速落地 2 AIGC 場景 a 小說內容生成,包括網文小說、有聲書、互動閱讀等 b 根據小說特征制作數字人視頻,
314、打開新營銷方式 3 公司優勢 a 內容優勢:擅長偏快餐文學,特征明晰,適合 AI 學習和生成 b 渠道優勢:能夠通過新媒體、短視頻等渠道實現廣泛、精準的分發 公司近況公司近況 1 公司在 2016 年上市,上市時主營業務以互聯網原創小說為主,并積極整合渠道;公司通過微信公眾號等新媒體產品形態能夠更精準地對接目標用戶,公司平臺獲得新華網、浙數文化、騰訊旗下南京網典的戰略投資 2 2022 年政策開始鼓勵傳媒、游戲、閱讀等領域,對娛樂元素需求提升,公司嘗試超短劇改編、內容精選、渠道拓展(視頻等)。當前進入 AI 技術新時代,公司正加快進度與國內機器人頭部公司達闥合作 a 小說內容生成 b 根據小說
315、特征制作數字人視頻,打開新營銷方式 技術及潛在方向技術及潛在方向 1 AIGC+ChatGPT 為行業帶來很多可能性和巨大的生產力變革,達闥布局了 AI 文本、聲音(人聲等)、小說場景演繹、有聲小說或互動式小說的生成 2 小模型更多解決分類問題,公司用小模型實現了生成文本、場景式聲音,甚至創作歌曲、舞蹈,當前的問題是將單項能力融合在大模型中彼此互動,像大腦結合聽覺、視覺、觸覺,未來想象空間大 3 ChatGPT 大模型具備超強的理解力、對上下文的推理能力、跨語言能力,可帶來很大的行業影響,商業和運營方式會產生很大的變化,傳統的 NLP 等方法和工具會發生顛覆 公司原來的產品作為訓練數據庫與公司
316、原來的產品作為訓練數據庫與 AIGC 進行結合,未來會有怎樣的愿景?進行結合,未來會有怎樣的愿景?久謙|服務進步的群體|94 1 內容:公司擅長偏快餐文學,特征明晰,適合作為 AI 訓練數據庫 2 渠道:除了原創小說以外,達闥可以根據小說特征做出數字虛擬人,在抖音快手增加曝光度、提升推廣力 3 愿景:AIGC 是劃時代的技術,公司希望與達闥磨合,將訓練數據庫做得更大,訓練 novel-GPT 模型、打磨后向市場推出。盡快將產品推向市場,形成可讀性高、吸引力強的文章 4 從研發角度,ChatGPT 不是要取代創作者,而是讓現有內容生產加快,產量得到極大的提升,生成效率高,可以形成初稿或提綱,原創
317、小說作者可以基于 AI 生成的文本再調整、提升 5 單一模態的內容創作能夠形成多模態的內容表達:公司會將文本生成聲音,比有聲書更具情感,了解小說里要表達的情況,像有情感的朗讀者。數字人能夠進行表演 6 此外,除了單一的閱讀式小說,還可以有互動式小說,大模型能夠理解復雜的語音,能夠與人一直聊下去,讀者可以參與進來 公司下游流量變現方式主要包括哪些?公司下游流量變現方式主要包括哪些?1 公司的渠道是優勢,最早從自媒體、微信公眾號沉淀用戶進行變現。近 3 年閱讀板塊發生變化,產業監管嚴格、短視頻崛起使用習慣發生變化 2 公司適時轉化,開始制作超短劇,每集半分鐘,共 100-200 集,劇情緊湊、適合
318、現在的節奏。2022 年公司在抖音獲得廣告主日投放 100 萬,處于抖音渠道的第一名 3 盡管移動閱讀板塊有調整,但公司一直跟進內容精修、渠道拓展等,并通過國內頭部 AI 公司進行功能疊加 目前公司訓練數據庫對目前公司訓練數據庫對 AIGC 的訓練程度?的訓練程度?1 公司在加快進度,公司的 novel-GPT 正從無監督到有監督、參數調整的過程 2 大模型對數據的要求高,預計數據量不少于 200T,且訓練周期久,公司在針對細分領域尋找數據 目前公司與達闥的合作形式?利潤和成本的分配?目前公司與達闥的合作形式?利潤和成本的分配?1 先定型模型,前期寫出的小說、機器人版權和平臺歸平治 2 產品確
319、定可以商業化之后根據市場情況,與達闥進行分成的確定 久謙|服務進步的群體|95 云從科技云從科技走訪走訪 訪談日期:訪談日期:2023/2/3 具體內容具體內容 公司情況公司情況 1 云從最開始是做視覺,創始人周博士認為發展第一階段需要某個技術進行單點爆發,2014 年后出現了很多單點技術,包括 NLP,但單點技術從邏輯上解決不了真正的智能化問題 a 云從占銀行身份認證 80%的市場,六大行都用,大機場安檢也用,人臉識別細分領域是絕對頭部,但單個場景應用不能支撐智能化的整個應用平臺 b 由于云從不是硬件公司出身,學習成本較大,并且 AI 是一橫一縱發展,所以云從第二階段做橫向路徑,做感知認知行
320、動的閉環,解決人的問題,解決場景智能化 c 把人的思考做到 AI 的平臺,把聽、說數字化并建模,但不同于現有的問答AI,要發展 AI 的知識結構和認知判斷 2 第二階段技術平臺化后可以改變入口和流量,第三階段有更多的落地場景,讓 AI改變很多場景的體驗和效率,人類做更有創造性的事,這是云從的技術迭代和產品設計規劃 a 云從在 A 股,最初就確定了在國內發展,行業落地時涉及很多數據要素,比如數據安全性,云從最初一直發展這塊。同時 A 股看中商業變現邏輯,注重商業落地和業務層面,所以云從的技術迭代路徑容易被大家忽略 b 云從發展類似汽車產業鏈的 tier3,2,1,最初 tier3 提供單點的視覺
321、識別技術。但技術發展迭代很快,所以我們做到 tier2,做很多功能模塊,平臺、訓練、推理等,既可以做底層,也可以給集成性大公司提供產品 c 目前我們 tier3,tier2 相對較全,以后再往上做 tier1,真正做到人機協同標準化產品,比如虛擬人、金融智能客服、移動機器人大腦 3 云從在橫向上做感知認知行動,縱向上做 tier3,tier2,tier1。目前 ChatGPT大熱證明我們技術路徑是對的,ChatGPT 是通過數據去堆,加上不同場景下的知識貫穿,這和我們人機協同理念一致 a 因為我們路徑和 ChatGPT 一致,所以最近股票上漲,人機協同已經在一些行業驗證,先做 tog,tob,
322、再到 toc,因為 toc 個性化要求很多 b NLP 也非常重要,但 NLP 技術難點很多,我們有 NLP 的預模型,但模型在數量和訓練上還沒有到臨界點 從細分市場產品層面,我們在未來幾年有什么規劃?從細分市場產品層面,我們在未來幾年有什么規劃?1 大的結構上是兩類產品,一類是 CWS 操作平臺,就是人機協同操作平臺。這類其中有兩種版本,一種是通用型版本,類似開放平臺基,isv 從其中調取,加上行業自身的智能化,我們做 50%的底層,分為 tog 和 tob。tog 是政府、公安、法院等,治理和智慧城市一類,tob 是金融,以銀行客戶為主 久謙|服務進步的群體|96 2 另一種是面向智慧園區
323、和智慧商業,和小的商業零售客戶,開放平臺基座給他們后,根據客戶需求做兩類產品 a 一是行業側操作系統,如數字孿生平臺、感知平臺、業務流程平臺,成熟度達到 60%-70%,金融是我們的主流行業,達到 80%-90%b 二是提供平臺+解決方案,比如面向銀行有 16 個解決方案,方案中分場景做各種應用軟件 3 第二類是后續的行業拓展,AI 領域有行業屬性,一家公司很難面面俱到,AI 智能化和 NLP 發展需要耳聰目明,需要視覺識別和語言語義分析,我們這塊較強,很多互聯網公司的數據分析和運用較強,我們今后會與他們合作來達到 AI 更加擬人化和智能化的要求。以后慢慢向 tob 行業拓展和 toc 產品的
324、訓練 4 近幾年做擅長的行業標準化產品和核心應用,后續快速進行技術投入,優化人機協同勢能,拓展更多場景,根據外界環境和資金情況向前推進 商湯科技與你們比較相似,兩家有什么不同點?商湯科技與你們比較相似,兩家有什么不同點?1 商湯從大邏輯和技術迭代上與我們比較類似,商湯資金更充足,他們想做統一化標準化的大模型,但這對我們來說投入成本較高 2 商湯能做,但他的時間周期較長,不可控較多,我們采取縱向上分層的模式,分行業的模式,最終形成串聯。我們和商湯觀念一致,最終形成技術平臺化和行業落地,只是執行路徑不同 未來會繼續加大研發投入,還是找掙錢的市場,保持研發投入穩定?未來會繼續加大研發投入,還是找掙錢
325、的市場,保持研發投入穩定?1 首先我們是技術公司,研發投入不會低。我們會在賽道上長期布局,長期的路徑是數據結合知識,堅持大模型、預訓練,2020 年開始就做 NLP、OCR 和視覺語言模型,但同時在研發上會量入而出,我們堅持技術投入比率小于營收增長率,保證公司穩定的現金流,投入方向上堅持人機協同 2 我們是商業公司,需要賺錢,所以會和第三方合作,這樣周期最短,進入行業最快,成本最少。內部在財務上堅持正循環,堅持讓每個產品落地到每個業務線上都賺錢。同時我們會擴大生意面和降本增效,比如各地設點降低人員成本,實現財務好的表現 3 財務盈利在 2025 年左右,不會為了報表盈利降低研發投入 4 我們不
326、會直接砸錢,考核人員時很嚴。銷售人員要考核營收、考核合同、確認收入、考核利潤、毛利、回款??己搜邪l人員一是效率提升,二是讓研發出的平臺使用門檻更低,三是時間要快、成本要低 產品的收費模式怎樣?產品的收費模式怎樣?1 目前大部分收費是項目收費。如果是大量業務可以過程中確認收入,過程中回款。商業模式分兩步,一是面向大客戶提供定制化的產品和服務,進行項目收費 2 第二步是對大客戶部署成功以后收運營費用,比如智慧城市里運營數據服務和檢測報告。再有面對腰部客戶,如金融里的六大行,不需要太多定制,就賣給他們久謙|服務進步的群體|97 實現使用收費 3 以后在 toc 層面會有按次收費,比如智能貨柜。還有在
327、金融風控上是利潤分成,按控制多少風險分成,這塊占比不高。隨著 tob 和 toc 標準化程度越高,以后運營收費會更高 報表上標準操作系統占比降低,是大客戶更多了嗎?報表上標準操作系統占比降低,是大客戶更多了嗎?1 我們做大行業時,會先立標桿,這類客戶較大。其中除了操作系統外,有些核心應用會找第三方,同時有一些硬件需要配套,所以其中會有很多非自有產品 2 在財務計量時,除了自有平臺外有其他產品,就會歸為行業解決方案,所以操作系統占比降低。當然隨著技術能力上升,業務規模也越來越大,目前大客戶也更多 在全國的銀行或證券,滲透率能做到多少?在全國的銀行或證券,滲透率能做到多少?1 AI 在落實到商業路
328、徑上是場景化的,我們做認證起家,所以在認證平臺上我們的市占率和滲透率非常高,基本占據頭部企業,六大行都用云從。在其他細分場景滲透率各有不同,比如小城商行對風控需求較高,但大銀行可以自己做。我們在北方和東南滲透率較高,每一個細分場景的具體滲透率沒有統計過 2 整體上在智能化角度對銀行是 AI 的頭部企業及第一大供應商品牌 3 在銀行上我們占據了技術的門檻和入口,雖然收入規模不一定大,但占據入口后平臺發展會更順利 4 治理的業務結構和金融不同,tog 的業務一般訂單規模比較大,需求量比較多,所以治理的絕對收入就會比較高,比金融業務收入更高 Tog 業務在哪些省份額更高,以后還有提升空間嗎?業務在哪
329、些省份額更高,以后還有提升空間嗎?1 原來的公告里會有,在北部,東南,西南這些地方更多。行業不同訂單規模不同,金融體量小,但客戶數量迭代比較多,毛利比較高 2 tog 業務總量不多,但每一單的金額比較大,具體數據可以查找財務報表 以后有沒有股權融資的計劃?以后有沒有股權融資的計劃?1 上市之后肯定會做二級市場融資 2 但還沒完全提上日程,后續會進行討論 久謙|服務進步的群體|98 科大訊飛科大訊飛表現分析表現分析 訪談日期:訪談日期:2023/1/31 具體內容具體內容 核心觀點核心觀點 1 我們認為今年整體訊飛都會是一個非常強的票。從主題上說,ChatGPT 和數據要素這兩個計算機版塊最強的
330、主題,訊飛都是純正標的。訊飛的開發者平臺、訊飛超腦和 ChatGPT 的商業邏輯非常像,且訊飛擁有稀缺的技術能力。而數據要素有望帶動訊飛的智慧城市業務獲得市場重估 2 更重要的是它的核心業務今年會迎來確定性反轉。除 22 年之外訊飛在過去 10 年是全部 A 股里面唯一一個每年增速都在 25%以上的公司 3 在去年低基數的情況下,23 年增長 25%是一個非常保守的估計,給 7 倍 PS 看1,680 億市值。長期來看,對 AI 公司來講,既掌握數據端口又有技術的公司才是稀缺標的 4 訊飛的核心競爭力在于它利用技術和自己的先天稟賦,實現了對很多的數據端口的卡位,這是一個長期邏輯 ChatGPT
331、 1 訊飛的開發者平臺、訊飛超腦和 ChatGPT 的商業邏輯非常像,而且訊飛在這方面的技術儲備也是國內頂尖的,在上市公司+非上市公司中都算非常稀缺標的 2 AI 過去幾年在一二級市場的表現差強人意,核心原因是商業落地場景沒有那么明確。之前的 AI 技術都是集中在安防、智慧城市等領域,說白了中間有多少應用了AI 是比較隱性的。而 ChatGPT 大大降低了創作門檻,換句話說,通過一個聚沙成塔的方式,使得 AI 可觸達的場景變多了 a 這種新的商業模式會使得 AI 技術的價值會更加顯性。為什么說訊飛開發者平臺、訊飛超腦和 ChatGPT 有異曲同工之妙 b 因為訊飛的平臺也是通過讓開發者輕度地去
332、調用他的 AI 基礎技術,去給開發者提供一些技術模塊,然后獲得一些收入。無論是開發者直接付的,還是通過類似廣告的形式 3 尤其在 IoT 這種非常碎片化的市場里,流量聚攏是難度比較高的。所以在商業邏輯上,訊飛的開發者平臺其實是非常類似于 ChatGPT 的。因此實際上它的稀缺性非常強,基本上國內只有這兩三家巨頭能做 a 此外,科技部此前設立了認知智能的全國重點實驗室,非常重要的一塊就是認知智能的預訓練模型 b 而科大訊飛承建了中國唯一的認知智能國家重點實驗室。另外,從實際業務來說,訊飛的開發者平臺業務去年增長了 30%,AI 的調用量增長了 38%c 過去幾年增長一直都不錯。所以雖然大家都知道
333、 ChatGPT 是一個偏主題性的機會,現階段很多公司都漲了,但對訊飛來講,ChatGPT 恰恰不完全是純主題炒久謙|服務進步的群體|99 作 數據要素數據要素 1 智慧城市業務已經中標了一個比較大的項目,之前市場上基本沒人給估值,數據要素有望帶動這部分業務獲得市場重估 2 訊飛在去年 12 月以 5 個多億中標了安徽省的一體化數據的基礎平臺項目,所謂的數字安徽項目,背后其實就是 AI 產品技術實力的體現 3 安徽省的電子政務有說法在全國是能排到前五的,全國性的電子政務現場會曾經在安徽開過。所以該業務的中標有望成為一個重要的標桿,幫助訊飛進行業務拓展 4 由于訊飛的業務比較多比較雜,之前市場更關注它的教育和消費者業務。我們認為隨著整體的數據要素的地位得到確認,包括訊飛的一體化的數據平臺建設,其智慧城市業務有望在二級市場獲得一定重估 業績業績 1 訊飛這幾年的發展脈絡和投資邏輯是從 G 端到