1、 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。1 證券研究報告 計算機計算機 GPT4:模型能力提升推動應用升級:模型能力提升推動應用升級 華泰研究華泰研究 計算機計算機 增持增持 (維持維持)研究員 謝春生謝春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 聯系人 彭鋼彭鋼 SAC No.S0570121070173 +(86)21 2897 2228 聯系人 袁澤世,袁澤世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行業行業走勢圖走勢圖 資料來源:Wind,華泰研究
2、 2023 年 3 月 16 日中國內地 專題研究專題研究 GPT-4:多模態確認,在專業和學術上表現亮眼多模態確認,在專業和學術上表現亮眼 北京時間 3 月 15 日 GPT-4 正式發布,支持圖片、文字等多模態輸入,以及文本輸出。根據相關技術文檔,1)模型架構(包括模型大?。?、硬件、訓練計算、數據集構造、訓練方法等細節未公布;2)GPT-4 于 2022 年 8 月完成訓練,此后 OpenAI 一直在評估、對抗性測試并迭代和改進模型;3)OpenAI搭建了開源 OpenAI Evals 模型評估框架,支持現有準則和自定義準則。4)GPT-4 API 已開放等待列表(waitlist),價格
3、提升明顯。實驗結果表明,GPT-4在各種專業和學術基準上表現出了人類的水平。技術拆解:構建深度學習堆棧,新增獎勵訓練模型技術拆解:構建深度學習堆棧,新增獎勵訓練模型 GPT-4 項目重點之一是構建大范圍可預測的深度學習堆棧。堆棧(stack)能夠通過評估小計算量模型的性能,準確預測大計算量模型的性能,減少訓練成本。訓練方法上,預訓練之后,GPT-4 采用了與 InstructGPT 同樣的方法進行基于人類反饋的強化學習,并添加了基于規則的獎勵模型來進一步引導模型產生人類預期的結果。多模態輸入上,支持圖片和文本的多模態輸入,但是,OpenAI 未在技術文檔中給出圖片模態的相關技術細節。安全性討論
4、:引入專家提高模型安全性和一致性安全性討論:引入專家提高模型安全性和一致性 OpenAI 在技術文檔中耗費大量篇幅討論模型安全性問題。從目前結果看,GPT-4 仍然存在“幻覺”和推理錯誤,并在模型校準上表現不佳。為了進一步提高模型安全性,OpenAI 聘請了來自 AI 對齊風險、網絡安全、生物風險和國際安全等領域的 50 多名專家對模型進行對抗性測試,涉及幻覺、有害內容、虛假信息、武器擴散、隱私、網絡安全等 11 個方面。我們認為,OpenAI對模型安全性的關注,或是為未來大規模商業化應用做鋪墊。模型能力提升,應用或進一步升級模型能力提升,應用或進一步升級 GPT4 相比 GPT3.5 在多模
5、態、推理能力、支持文本長度方面有了較明顯的提升,有望推動應用進一步升級。對多模態的支持有望加速 PDF、圖像等領域的生產力應用升級,或將推動生產力應用效率的進一步提升。相關公司包括:萬興科技、福昕軟件、金山辦公。更強的推理能力與語言理解能力有助于進一步優化服務型應用的使用效果,包含垂類信息的搜索引擎、客服等產品的功能有望進一步升級。相關公司包括:三六零、同花順。風險提示:宏觀經濟波動,技術進步不及預期。本報告內容均基于客觀信息整理,不構成投資建議。(25)(14)(3)819Mar-22Jul-22Nov-22Mar-23(%)計算機滬深300 免責聲明和披露以及分析師聲明是報告的一部分,請務
6、必一起閱讀。2 計算機計算機 正文目錄正文目錄 GPT-4:多模態確認,在專業和學術上表現亮眼:多模態確認,在專業和學術上表現亮眼.3 GPT-4:支持多模態輸入,安全問題或成為 LLM 關注焦點.3 能力測試:在專業和學術基準上表現出了人類的水平.4 技術拆解:構建深度學習堆棧,新增獎勵訓練模型技術拆解:構建深度學習堆棧,新增獎勵訓練模型.8 項目重點:構建大范圍可預測的深度學習堆棧.8 訓練方法:在 InstructGPT 方法基礎上增加新的獎勵模型.9 多模態:支持圖片輸入,未提供具體算法.10 安全性討論:引入專家提高模型安全性和一致性安全性討論:引入專家提高模型安全性和一致性.12
7、局限性:仍存在推理錯誤與校準下降等問題.12 風險與改進:聘請專家進行對抗性測試.13 模型能力進一步提升,應用有望進一步升級模型能力進一步提升,應用有望進一步升級.15 風險提示.16 oOrQ3ZcVaYbZoWeXMB8ObP6MmOrRtRmPjMqQmPlOpOoQ9PnMqPNZnOzQNZpMoM 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。3 計算機計算機 GPT-4:多模態確認,在專業和學術上表現亮眼多模態確認,在專業和學術上表現亮眼 GPT-4:支持支持多模態多模態輸入輸入,安全問題或成為,安全問題或成為 LLM 關注焦點關注焦點 GPT-4 支持多模態輸入
8、,安全問題或成關注焦點。支持多模態輸入,安全問題或成關注焦點。北京時間 3 月 15 日凌晨,OpenAI 召開發布會,正式宣布 GPT 模型家族中最新的大型語言模型(LLM)GPT-4。GPT-4 可以接受圖像和文本輸入并產生文本輸出。同時,OpenAI 發布了 GPT-4 相關技術文檔。從技術文檔結構看,OpenAI 并未對 GPT-4 模型本身做過多介紹,而是將大量篇幅留給模型安全性相關討論。我們認為,在 LLM 走向大規模應用的過程中,隨著模型規模和能力的提升,將暴露出更多安全方面的問題,或將成為未來 LLM 的重要關注點。圖表圖表1:GPT-4 技術報告結構拆解技術報告結構拆解 資料
9、來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 GPT-4 于于 2022 年年 8 月完成訓練,技術細節未完全公布。月完成訓練,技術細節未完全公布。據 GPT-4 技術文檔,GPT-4 于 2022年 8 月完成訓練,此后,OpenAI 一直在評估、對抗性測試并迭代和改進模型,并提出各種系統級安全緩解措施。此外,OpenAI 在 GPT-4 文檔中明確提出,考慮到競爭格局和大型模型(如 GPT-4)的安全影響,本文檔沒有包含有關架構(包括模型大?。?、硬件、訓練計算、數據集構造、訓練方法或類似內容的進一步細節。文檔明確提供的內容包括:1)GPT-4是一個
10、基于 transformer 的預訓練模型,用于預測文字的下一個 token;2)使用公開可用數據(如互聯網數據)和第三方提供商授權的數據;3)使用來自人類反饋的強化學習(RLHF)對模型進行微調。GPT-4技術報告技術報告附錄附錄安全性討論安全性討論1-2223-3839-98各類考試題的來源和設置,RLHF對模型的影響,專業、學術考試數據和學術測試基準的污染情況討論,更多GPT-4圖像輸入示例大量篇幅討論關于模型安全性問題及改進GPT-4基本技術信息,包括能力測試、構建大范圍可預測的深度學習堆棧等 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。4 計算機計算機 圖表圖表2:O
11、penAI 關于不透露技術細節的說明關于不透露技術細節的說明 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 OpenAI 搭建了搭建了開源開源 OpenAI Evals 模型評估框架模型評估框架。OpenAI Evals 模型評估框架(https:/ Evals 與現有的基準測試兼容,并可用于跟蹤部署中的模型性能。未來,OpenAI 計劃逐步增加測試基準的多樣性,以代表更廣泛的故障模式和更難的任務集。GPT-4 API 已開放等待列表(已開放等待列表(waitlist),),API 價格提升價格提升明顯明顯。當獲得訪問權限后,即可以對GPT-4 模
12、型進行純文本請求(圖像輸入仍然處于有限的測試階段),OpenAI 將自動將模型更新為推薦的穩定模型。此外,GPT-4 提供兩個版本,GPT-4-8k 和 GPT-4-32k,前者支持的上下文長度為 8192 個 token,后者支持 32768-context(約 50 頁文本,提供有限訪問)。GPT-4-8k 定價為每 1k 提示 token 0.03 美元,每 1k 完成 token 0.06 美元。默認速率限制為每分鐘 40k 個 token,每分鐘 200 個請求;GPT-4-32k 定價為每 1k 提示 token 0.06 美元,每 1k 完成 token 0.12 美元。(API
13、 價格網址 https:/ API 和和 GPT-3.5-turbo API 價格對比價格對比 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 能力測試能力測試:在:在專業和學術基準上表現出了人類的水平專業和學術基準上表現出了人類的水平 GPT-4 在各種專業和學術基準上表現出了人類的水平在各種專業和學術基準上表現出了人類的水平。OpenAI 在一系列不同的基準上測試了 GPT-4,包括最初為人類設計的模擬考試??荚囶}目包括多項選擇題和自由問答題。OpenAI 為每種考試形式設計了單獨的提示(prompt),并且在需要的場合增加了圖像輸入。GPT-4
14、 并未專門針對這些考試科目進行訓練,但仍取得了優秀的成績,例如以大約前 10%的成績通過模擬律師資格考試,而 GPT-3.5 在該考試中成績為后 10%。GPT-4 API 價格價格GPT-3.5 API 價格價格 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。5 計算機計算機 圖表圖表4:GPT-4 在各種人類考試中表現優異在各種人類考試中表現優異 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 GPT-4 在考試中在考試中展現展現的能力未受到的能力未受到 RLHF 的顯著影響。的顯著影響?;谌祟惙答伒膹娀瘜W習(RLHF)是 Ins
15、tructGPT 中引入的方法,通過獎勵的形式讓模型輸出向人類希望的方向發展。為了測試 RLHF 對模型能力的影響,OpenAI 在 GPT-4 基礎模型和 RLHF 后的 GPT-4 模型上運行了考試基準測試中的多項選擇題部分。在所有考試中,基礎模型的平均分為 73.7%,而 RLHF模型的平均分為 74.0%,這表明經過 RLHF 后并沒有顯著改變基礎模型的能力。圖表圖表5:RLHF 未對未對 GPT-4 在考試中展現的能力在考試中展現的能力產生產生顯著影響顯著影響 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 免責聲明和披露以及分析師聲明是報
16、告的一部分,請務必一起閱讀。6 計算機計算機 GPT-4 在評估語言模型的傳統基準上同樣效果卓越。在評估語言模型的傳統基準上同樣效果卓越。在評估 GPT-4 在語言模型的測試基準時,對所有模型使用了 few-shot。測試基準涵蓋問題多選、常識推理、代碼、閱讀理解、數學問題等。結果表明,GPT-4 大大優于 GPT-3.5,以及以前最先進的(SOTA)模型,甚至超過了某些在特定測試標準上訓練過的模型。圖表圖表6:GPT-4 在在評估語言模型的傳統基準上評估語言模型的傳統基準上取得優秀取得優秀效果效果 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 G
17、PT-4 在大多數語言上的結果都優于在大多數語言上的結果都優于 GPT 3.5 和現有語言模型。和現有語言模型?,F有的多數機器學習測試基準都是基于英語編寫的。為了測試 GPT-4 在其他語言中的表現,OpenAI 使用 Azure Translate 將 MMLU 基準測試(涵蓋 57 個主題的多項選擇問題)翻譯成各種語言。結果表明,GPT-4 在大多數語言上的結果都優于 GPT 3.5 和現有語言模型的英語語言性能,包括全球使用人數較低的語言,如拉脫維亞語、威爾士語和斯瓦希里語。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。7 計算機計算機 圖表圖表7:GPT-4 在大多數語言
18、上的結果都優于在大多數語言上的結果都優于 GPT 3.5 和現有語言模型和現有語言模型 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 GPT-4 在跟蹤用戶意圖的能力方面在跟蹤用戶意圖的能力方面提高顯著提高顯著。據 OpenAI 數據,OpenAI 收集了通過ChatGPT 和 OpenAI API 提交的用戶提示,過濾掉不允許、敏感內容或過于簡單的提示,并將這些提示和響應發送給人工標注員。根據指示,標注人員在不知道答案來源于哪種模型的情況下,判斷給出的提示是否符合用戶的要求。在 5214 個提示數據集中,GPT-4 生成的響應在 70.2%的提示
19、上優于 GPT-3.5 生成的響應。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。8 計算機計算機 技術拆解:技術拆解:構建深度學習堆棧構建深度學習堆棧,新增獎勵訓練模型,新增獎勵訓練模型 項目重點:項目重點:構建構建大范圍可預測大范圍可預測的深度學習堆棧的深度學習堆棧 GPT-4 項目的一大重點是構建項目的一大重點是構建大范圍可預測大范圍可預測的深度學習堆棧。的深度學習堆棧。簡而言之,該堆棧(stack,論文中也叫基礎設施和優化方法)能夠通過評估小計算量模型的性能,準確預測大計算量模型的性能,減少訓練成本。以 GPT-4 為例,雖然官方未給出具體的模型參數,但是指出對于 GPT
20、-4 這樣的大型訓練,進行廣泛的特定于模型的調優是不可行的。而大范圍可預測的深度學習堆棧,能夠通過計算比 GPT-4 計算量少 1000 x-10000 x(x 代表倍)的模型性能,預測出“完全體”GPT-4 的性能,實現在訓練之前了解模型的功能,并及時改善關于對齊、安全性和部署的決策。該方法的理論依據是:經過適當訓練的大型語言模型的最終損失,很好地近似于用于訓練模型的計算量的冪律。圖表圖表8:基于基于 final loss 構建構建的大范圍可預測的大范圍可預測深度學習堆棧深度學習堆棧 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 除了預測最終損失
21、,還可以使用其他可解釋的能力指標進行預測。除了預測最終損失,還可以使用其他可解釋的能力指標進行預測。其中一個指標是HumanEval 數據集的通過率。HumanEval 數據集衡量的是合成不同復雜度的 Python 函數的能力。通過計算比 GPT-4 計算量少 1000 x 模型在 HumanEval 數據集子集的通過率,成功預測了 GPT-4 在 HumanEval 數據集子集的通過率。圖表圖表9:基于基于 HumanEval 數據集數據集構建構建的大范圍可預測的大范圍可預測深度學習堆棧深度學習堆棧 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究
22、免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。9 計算機計算機 訓練方法訓練方法:在:在 InstructGPT 方法基礎上增加新的獎勵模型方法基礎上增加新的獎勵模型 預訓練之后,預訓練之后,GPT-4 采用了與采用了與 InstructGPT 同樣的方法進行同樣的方法進行 RLHF。OpenAI 首先從人類標注員處收集演示數據(給定一個輸入,演示模型應該如何響應),并對模型的輸出數據進行排名(給定一個輸入和幾個輸出,將輸出從最好到最差進行排序)。然后執行以下步驟:1)利用收集到的人工標注演示數據,使用監督學習(SFT)來模擬演示中的行為以微調GPT-4;2)使用收集到的排名數據
23、來訓練獎勵模型(RM),該模型預測標注員對給定輸出的平均偏好;3)使用獎勵模型和強化學習(特別是 PPO 算法),優化 GPT-4 SFT 模型。圖表圖表10:InstructGPT 訓練步驟訓練步驟 資料來源:Training language models to follow instructions with human feedback、華泰研究 基于規則的獎勵模型基于規則的獎勵模型以以更細的粒度進一步引導模型。更細的粒度進一步引導模型。RLHF 微調后的模型仍然會不時出現人類不想看到的行為。因此,OpenAI 在 RLHF 基礎上增加基于規則的獎勵模型(RBRMs)。RBRM 是一組
24、 zero-shot 的 GPT-4 分類器(classifier)。分類器在 RLHF 微調期間針對正確行為(例如拒絕生成有害內容或不拒絕無害請求),向 GPT-4 策略模型提供額外的獎勵信號。RBRM 有三個輸入:提示(可選)、策略模型的輸出和人類編寫的用于如何評估輸出的規則。在安全相關的訓練提示集上,獎勵 GPT-4 拒絕有害內容請求,例如非法建議;同樣獎勵GPT-4 沒有拒絕對安全和可回答問題的請求。第一步:收集描述性數據,并訓練一收集描述性數據,并訓練一個有監督個有監督的策略的策略從prompt數據庫中取樣向一個6歲智力的模型解釋強化學習由人類訓練師撰寫期望的輸出值對行為給出獎勵與懲
25、罰收集的數據用來以監督學習的方式微調GPT-3模型第二步:收集比較性數據,并訓練一個獎勵收集比較性數據,并訓練一個獎勵模型模型從prompt數據庫中取樣,并得到數個模型的回答向一個6歲智力的模型解釋強化學習A回答A:“.”B回答B:“.”C回答C:“.”D回答D:“.”由人類訓練師對回答進行排序DCAB收集的數據用來訓練我們的獎勵模型DCAB第三步:用用PPO強化學習算法通過獎勵模型優強化學習算法通過獎勵模型優化策略化策略從prompt數據庫中另外取樣示例:“寫一段關于.的故事”示例:“很久以前”策略給出回答獎勵模型對回答打分用獎勵通過PPO算法優化策略PPORM 免責聲明和披露以及分析師聲明
26、是報告的一部分,請務必一起閱讀。10 計算機計算機 多模態:支持圖片輸入,未提供具體算法多模態:支持圖片輸入,未提供具體算法 GPT-4 能夠實現圖片和文本的多模態輸入。能夠實現圖片和文本的多模態輸入。GPT-4 接受由圖像和文本組成的提示(prompt,與純文本設置類似),允許用戶指定任何視覺或語言任務,同時輸出文本信息。此外,語言模型中的 few-shot 提示和思維鏈等,在 GPT-4 中同樣有效。但是,OpenAI 未在技術文檔中給出如何實現圖片的輸入,以及如何對圖片進一步處理以注入到模型中。圖表圖表11:GPT-4 視覺輸入樣例視覺輸入樣例#1 資料來源:GPT-4 Technica
27、l Report,OpenAI(2023)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。11 計算機計算機 圖表圖表12:GPT-4 視覺輸入樣例視覺輸入樣例#2(展現出思維鏈能力,能一步步進行思考)(展現出思維鏈能力,能一步步進行思考)資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。12 計算機計算機 安全性討論:引入專家安全性討論:引入專家提高提高模型模型安全性和一致性安全性和一致性 局限性局限性:仍存在推理錯誤與校準下降等問題:仍存在推理錯誤與校準下降等問題
28、GPT-4 仍存在“幻覺”和推理錯誤。仍存在“幻覺”和推理錯誤?;糜X指的是產生與某些來源有關的無意義或不真實的內容。但是,與 GPT-3.5 模型相比,GPT-4 顯著減少了幻覺,并在內部的對抗性事實性評估中,在所有項的準確率均分比最新的 GPT-3.5 高出 19pct。與 ChatGPT 類似,GPT-4 寫的訓練數據均是 2021 年 9 月之前的,因此缺乏對該日期之后的知識的掌握,會犯一些簡單的推理錯誤,接受用戶的明顯錯誤陳述,或在在生成的代碼中存在安全漏洞。圖表圖表13:GPT-4 在對抗性設計事實評估中的表現優在對抗性設計事實評估中的表現優于于 ChatGPT 資料來源:GPT-4
29、 Technical Report,OpenAI(2023)、華泰研究 RLHF顯著提高了顯著提高了GPT-4在在TruthfulQA公共基準測試上的表現公共基準測試上的表現,但程度,但程度仍欠佳仍欠佳。TruthfulQA基準測試了模型從對抗選擇的一組不正確的語句中分離事實的能力。GPT-4 基本模型在TruthfulQA基準上的表現略好于GPT-3.5。經過RLHF訓練后,GPT-4相比于同樣經過RHLF的 GPT-3.5-turbo 在準確率上領先超 10pct。但是,即使經過 RLHF 訓練,GPT-4 在TruthfulQA 上的準確率也只有 60%,未達到更高水平。圖表圖表14:R
30、LHF 顯著提高了顯著提高了 GPT-4 在在 TruthfulQA 公共基準測試上的表現公共基準測試上的表現 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。13 計算機計算機 訓練后的訓練后的 GPT-4 模型在模型校準上出現性能下降。模型在模型校準上出現性能下降。預訓練的模型是高度校準的,模型對答案的預測置信度通常與正確的概率相匹配。然而,在后訓練(post-training)過程中,校準情況發生顯著下降。OpenAI 未給出具體原因。圖表圖表15:訓練后的訓練后的 GPT-4 模型在
31、模型校準上出現性能下降模型在模型校準上出現性能下降 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 風險與改進風險與改進:聘請專家進行:聘請專家進行對抗性測試對抗性測試 OpenAI 投入了大量的精力來提高投入了大量的精力來提高 GPT-4 的安全性和一致性。的安全性和一致性。GPT-4 與較小的語言模型存在類似的風險,包括生成有害的建議、有 bug 的代碼或不準確的信息。然而,GPT-4 更強大的功能可能會帶來新的風險面。為了了解這些風險的程度,OpenAI 聘請了來自 AI 對齊風險、網絡安全、生物風險和國際安全等領域的 50 多名專家對模型進行
32、對抗性測試。圖表圖表16:改進后的改進后的 GPT-4 能夠對有害問題進行“拒絕”能夠對有害問題進行“拒絕”資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 OpenAI 從從 11 個方面個方面對對 GPT-4 風險風險進行了一系列定性和定量評估。進行了一系列定性和定量評估。包括幻覺、有害內容、虛假信息、武器擴散、隱私、網絡安全等。通過評估,能夠進一步了解 GPT-4 的能力、限制和風險,并幫助提供解決方案、迭代測試和構建模型的更安全版本等。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。14 計算機計算機 圖表圖表17:OpenAI 考
33、慮到的相關風險考慮到的相關風險 風險名稱(英文)風險名稱(英文)風險名稱(中文)風險名稱(中文)風險描述風險描述 Hallucinations 幻覺 產生與某些來源有關的無意義或不真實的內容 Harmful content 有害內容 違反策略的內容,或可能對個人或社會造成傷害的內容 Harms of representation,allocation,and quality of service 表示、分配和服務質量的危害性 加強和重現特定的偏見和世界觀,包括對某些邊緣群體的有害刻板印象和貶損聯想 Disinformation and influence operations 虛假信息和影響操
34、作 生成逼真而有針對性的內容,包括新聞文章、推文、對話和電子郵件;生成旨在誤導的內容的風險 Proliferation of conventional and unconventional weapons 常規和非常規武器的擴散 某些 LLM 能力可能具有軍民兩用的潛力,這意味著該模型可用于“商業和軍事或擴散應用”Privacy 隱私 GPT-4 從各種許可的、創建的和公開可用的數據源中學習,其中可能包括公開可用的個人信息 Cybersecurity 網絡安全 沒有改進現有的偵察、漏洞利用和網絡導航工具,并且在復雜和高級活動(如新型漏洞識別)方面不如現有工具有效 Potential for r
35、isky emergent behaviors 潛在的危險緊急行為 創造和執行長期計劃的能力,積累權力和資源(“權力尋求”)的能力,以及表現出越來越“主觀”的行為等 Economic impacts 經濟影響 GPT-4 或后續模型可能會導致某些工作的自動化。這可能導致勞動力流失 Acceleration 加速影響 AI 過快發展導致安全標準的下降、不良規范的擴散,加劇了與人工智能相關的社會風險 Overreliance 過度依賴 當用戶過度信任和依賴模型時,就會出現過度依賴,這可能會導致未被注意到的錯誤和不充分的監督 資料來源:GPT-4 Technical Report,OpenAI(20
36、23)、華泰研究 OpenAI 還在還在模型層面模型層面對對 GPT-4 進行進行改進。改進。例如,在預訓練階段,過濾了 GPT-4 數據集組合,減少不適當的文本內容數量;通過內部訓練的分類器和基于詞典的方法來識別被標記為極有可能包含不適當內容的文件,并將其從預訓練集中移除。此外,上述基于規則的獎勵模型(RBRMs)引導了模型朝人類想要的方向改進。與 GPT-3.5 相比,在敏感性問題和不被允許的問題上,GPT-4 不正確的提示率大大下降。圖表圖表18:GPT-4 在敏感性和不被允許的話題上提供更準確的提示在敏感性和不被允許的話題上提供更準確的提示 資料來源:GPT-4 Technical R
37、eport,OpenAI(2023)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。15 計算機計算機 模型能力進一步提升,應用有望進一步模型能力進一步提升,應用有望進一步升級升級 支持多模態,應用范圍進一步拓寬。支持多模態,應用范圍進一步拓寬。GPT-4 與僅能處理自然語言任務的 GPT-3.5 相比,它能夠同時處理圖像及文本輸入,并生成文本輸出。GPT-4 可以完成一些傳統的視覺語言任務,如圖像描述、生成字幕、圖像分類等。此外,GPT-4 還具有較強的邏輯分析能力,可以對圖像中的內容進行合理的推測,并給出用戶需要的答案?;谶@種能力,GPT-4 可以完成一系列更為豐
38、富和復雜的任務,比如根據數據圖表回答定量問題、分析圖像中主體的異常情況、依據上傳的 PDF 長文檔總結摘要等,進一步擴展了語言模型的應用場景。我們認為多模態的實現有望加速 PDF、圖像等領域的生產力應用升級,或將推動生產力應用效率的進一步提升。圖表圖表19:GPT4 多模態示例及多模態示例及行業實踐行業實踐 資料來源:公司官網、華泰研究 具備更強推理能力。具備更強推理能力。GPT-4 在處理復雜的文本任務時表現出了比 GPT-3.5 更強的優勢。OpenAI 團隊分別對 GPT-4 和 GPT-3.5 在多個人類考試上進行了測試。OpenAI 團隊并沒有針對這些考試專門訓練 GPT-4,并且在
39、測試過程中,如果發現某個考試中有和訓練數據重復的問題,研究人員會剔除重復問題并生成新的考試變體,再次對模型進行測試,并取兩次考試中的最低分作為最終成績。結果顯示,在大多數考試中,尤其是與數學和推理相關的考試中,GPT-4 相比于 GPT-3.5 有了顯著提升,在學術和專業測試中甚至能夠達到與人類相當的水平。圖表圖表20:GPT-4 進行的部分人類考試進行的部分人類考試 GPT-4 GPT-3.5 考試考試 考試簡介考試簡介 分數分數 Percentile 分數分數 Percentile Uniform Bar Exam 是一種統一的律師資格考試,包括三個部分:多州隨筆考試(MEE)、多州實務考
40、試(MPT)和多州法律考試(MBE)。298/400 90th 213/400 10th LSAT 法學院入學考試,包含閱讀理解、分析性推理、邏輯推理和寫作 4 部分。163 88th 149 40th SAT Math 美國高考的數學部分,主要涉及三個領域:代數的核心、問題解決和數據分析、高級數學。700/800 89th 590/800 70th GRE-Quantitative 美國研究生考試的數學部分,主要涉及四個領域:算術、代數、幾何和數據分析。163/170 80th 147/170 25th GRE-Verbal 美國研究生考試的語文部分,主要包括閱讀理解、文字補全、句子等價三種
41、題型。169/170 99th 154/170 63rd USABO Semifinal Exam 2020 是美國生物奧林匹克競賽的半決賽考試,包含多項選擇題和自由回答題,主要考察生物學的理論知識和實驗技能。87/150 99th-100th 43/150 31st-33rd 注:Percentile 代表 GPT-4 得分超過的參與考試人數占總人數的百分比 資料來源:GPT-4 Technical Report,OpenAI、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。16 計算機計算機 圖表圖表21:部分考試例題部分考試例題 資料來源:考試官網、華泰研究 支持更
42、長文本交互支持更長文本交互,語言理解生成能力進一步提升。語言理解生成能力進一步提升。GPT 系列模型屬于自回歸語言模型,它的任務是根據前面的單詞預測下一個單詞。為了生成每個單詞,模型需要利用前面所有的單詞作為信息。據 OpenAI 官網,GPT-3.5 的輸入及輸出總長度限制為 4097 個 token。GPT-4 支持最多 32768 個 token 的上下文對話,一方面可以讓模型捕捉到更多的信息,從而提高語言理解和生成的質量和連貫性。另一方面更長的輸入及輸出能夠支持更加復雜問題的解決,如利用 GPT-4 輔助報稅,并得到詳細的推理過程,進行跨文本處理任務,幫助用戶總結兩篇長文章之間的共同點
43、與差異等。我們認為更強的推理能力與語言理解能力有助于進一步優化服務型應用的使用效果,包含垂類信息的搜索引擎、客服等產品的功能有望進一步升級。圖表圖表22:模型支持最大輸入及輸出模型支持最大輸入及輸出 輸入及輸出最大輸入及輸出最大 token 數數 對應詞數對應詞數 GPT-4 32,768 22,938 GPT-3.5 4,097 2,868 GPT-3 2,049 1,434 Codex 8,001 5,601 注:對應詞數按 1token=0.7 詞換算 資料來源:OpenAI,華泰研究 圖表圖表23:提及公司列表提及公司列表 公司代碼公司代碼 公司簡稱公司簡稱 MSFT US 微軟 GO
44、OGL US 谷歌 688095 CH 福昕軟件 300624 CH 萬興科技 688111 CH 金山辦公 300033 CH 同花順 601360 CH 三六零 未上市 OpenAI 資料來源:Bloomberg、華泰研究 風險提示風險提示 宏觀經濟波動。宏觀經濟波動。若宏觀經濟波動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟波動還可能對 AI 投入產生負面影響,從而導致整體行業增長不及預期。技術進步技術進步不及預期。不及預期。若 AI 技術和大模型技術進步不及預期,或將對相關的行業落地情況產生不利影響。本報告內容均基于客觀信息整理,不構成投資建議。本報告內容均基于客觀信息整理,不構
45、成投資建議。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。17 計算機計算機 免責免責聲明聲明 分析師聲明分析師聲明 本人,謝春生,茲證明本報告所表達的觀點準確地反映了分析師對標的證券或發行人的個人意見;彼以往、現在或未來并無就其研究報告所提供的具體建議或所表迖的意見直接或間接收取任何報酬。一般聲明及披露一般聲明及披露 本報告由華泰證券股份有限公司(已具備中國證監會批準的證券投資咨詢業務資格,以下簡稱“本公司”)制作。本報告所載資料是僅供接收人的嚴格保密資料。本報告僅供本公司及其客戶和其關聯機構使用。本公司不因接收人收到本報告而視其為客戶。本報告基于本公司認為可靠的、已公開的信息
46、編制,但本公司及其關聯機構(以下統稱為“華泰”)對該等信息的準確性及完整性不作任何保證。本報告所載的意見、評估及預測僅反映報告發布當日的觀點和判斷。在不同時期,華泰可能會發出與本報告所載意見、評估及預測不一致的研究報告。同時,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。以往表現并不能指引未來,未來回報并不能得到保證,并存在損失本金的可能。華泰不保證本報告所含信息保持在最新狀態。華泰對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司不是 FINRA 的注冊會員,其研究分析師亦沒有注冊為 FINRA 的研究分析師/不具有 FINRA 分析師的
47、注冊資格。華泰力求報告內容客觀、公正,但本報告所載的觀點、結論和建議僅供參考,不構成購買或出售所述證券的要約或招攬。該等觀點、建議并未考慮到個別投資者的具體投資目的、財務狀況以及特定需求,在任何時候均不構成對客戶私人投資建議。投資者應當充分考慮自身特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。對依據或者使用本報告所造成的一切后果,華泰及作者均不承擔任何法律責任。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。除非另行說明,本報告中所引用的關于業績的數據代表過往表現,過往的業績表現不應作為日后回報的預示。華泰不承諾也不保證任何預示的回報會得以
48、實現,分析中所做的預測可能是基于相應的假設,任何假設的變化可能會顯著影響所預測的回報。華泰及作者在自身所知情的范圍內,與本報告所指的證券或投資標的不存在法律禁止的利害關系。在法律許可的情況下,華泰可能會持有報告中提到的公司所發行的證券頭寸并進行交易,為該公司提供投資銀行、財務顧問或者金融產品等相關服務或向該公司招攬業務。華泰的銷售人員、交易人員或其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。華泰沒有將此意見及建議向報告所有接收者進行更新的義務。華泰的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見
49、或建議不一致的投資決策。投資者應當考慮到華泰及/或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突。投資者請勿將本報告視為投資或其他決定的唯一信賴依據。有關該方面的具體披露請參照本報告尾部。本報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布的機構或人員,也并非意圖發送、發布給因可得到、使用本報告的行為而使華泰違反或受制于當地法律或監管規則的機構或人員。本報告版權僅為本公司所有。未經本公司書面許可,任何機構或個人不得以翻版、復制、發表、引用或再次分發他人(無論整份或部分)等任何形式侵犯本公司版權。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并需在使用前獲取獨立的
50、法律意見,以確定該引用、刊發符合當地適用法規的要求,同時注明出處為“華泰證券研究所”,且不得對本報告進行任何有悖原意的引用、刪節和修改。本公司保留追究相關責任的權利。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。中國香港中國香港 本報告由華泰證券股份有限公司制作,在香港由華泰金融控股(香港)有限公司向符合證券及期貨條例及其附屬法律規定的機構投資者和專業投資者的客戶進行分發。華泰金融控股(香港)有限公司受香港證券及期貨事務監察委員會監管,是華泰國際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。在香港獲得本報告的人員若有任何有關本報告的問題,請與華
51、泰金融控股(香港)有限公司聯系。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。18 計算機計算機 香港香港-重要監管披露重要監管披露 華泰金融控股(香港)有限公司的雇員或其關聯人士沒有擔任本報告中提及的公司或發行人的高級人員。有關重要的披露信息,請參華泰金融控股(香港)有限公司的網頁 https:/.hk/stock_disclosure 其他信息請參見下方“美國“美國-重要監管披露”重要監管披露”。美國美國 在美國本報告由華泰證券(美國)有限公司向符合美國監管規定的機構投資者進行發表與分發。華泰證券(美國)有限公司是美國注冊經紀商和美國金融業監管局(FINRA)的注冊會員。對于
52、其在美國分發的研究報告,華泰證券(美國)有限公司根據1934 年證券交易法(修訂版)第 15a-6 條規定以及美國證券交易委員會人員解釋,對本研究報告內容負責。華泰證券(美國)有限公司聯營公司的分析師不具有美國金融監管(FINRA)分析師的注冊資格,可能不屬于華泰證券(美國)有限公司的關聯人員,因此可能不受 FINRA 關于分析師與標的公司溝通、公開露面和所持交易證券的限制。華泰證券(美國)有限公司是華泰國際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。任何直接從華泰證券(美國)有限公司收到此報告并希望就本報告所述任何證券進行交易的人士,應通過華泰證券(美國)有限公司進
53、行交易。美國美國-重要監管披露重要監管披露 分析師謝春生本人及相關人士并不擔任本報告所提及的標的證券或發行人的高級人員、董事或顧問。分析師及相關人士與本報告所提及的標的證券或發行人并無任何相關財務利益。本披露中所提及的“相關人士”包括 FINRA 定義下分析師的家庭成員。分析師根據華泰證券的整體收入和盈利能力獲得薪酬,包括源自公司投資銀行業務的收入。華泰證券股份有限公司、其子公司和/或其聯營公司,及/或不時會以自身或代理形式向客戶出售及購買華泰證券研究所覆蓋公司的證券/衍生工具,包括股票及債券(包括衍生品)華泰證券研究所覆蓋公司的證券/衍生工具,包括股票及債券(包括衍生品)。華泰證券股份有限公
54、司、其子公司和/或其聯營公司,及/或其高級管理層、董事和雇員可能會持有本報告中所提到的任何證券(或任何相關投資)頭寸,并可能不時進行增持或減持該證券(或投資)。因此,投資者應該意識到可能存在利益沖突。評級說明評級說明 投資評級基于分析師對報告發布日后 6 至 12 個月內行業或公司回報潛力(含此期間的股息回報)相對基準表現的預期(A 股市場基準為滬深 300 指數,香港市場基準為恒生指數,美國市場基準為標普 500 指數),具體如下:行業評級行業評級 增持:增持:預計行業股票指數超越基準 中性:中性:預計行業股票指數基本與基準持平 減持:減持:預計行業股票指數明顯弱于基準 公司評級公司評級 買
55、入:買入:預計股價超越基準 15%以上 增持:增持:預計股價超越基準 5%15%持有:持有:預計股價相對基準波動在-15%5%之間 賣出:賣出:預計股價弱于基準 15%以上 暫停評級:暫停評級:已暫停評級、目標價及預測,以遵守適用法規及/或公司政策 無評級:無評級:股票不在常規研究覆蓋范圍內。投資者不應期待華泰提供該等證券及/或公司相關的持續或補充信息 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。19 計算機計算機 法律實體法律實體披露披露 中國中國:華泰證券股份有限公司具有中國證監會核準的“證券投資咨詢”業務資格,經營許可證編號為:91320000704041011J 香港香
56、港:華泰金融控股(香港)有限公司具有香港證監會核準的“就證券提供意見”業務資格,經營許可證編號為:AOK809 美國美國:華泰證券(美國)有限公司為美國金融業監管局(FINRA)成員,具有在美國開展經紀交易商業務的資格,經營業務許可編號為:CRD#:298809/SEC#:8-70231 華泰證券股份有限公司華泰證券股份有限公司 南京南京 北京北京 南京市建鄴區江東中路228號華泰證券廣場1號樓/郵政編碼:210019 北京市西城區太平橋大街豐盛胡同28號太平洋保險大廈A座18層/郵政編碼:100032 電話:86 25 83389999/傳真:86 25 83387521 電話:86 10
57、63211166/傳真:86 10 63211275 電子郵件:ht- 電子郵件:ht- 深圳深圳 上海上海 深圳市福田區益田路5999號基金大廈10樓/郵政編碼:518017 上海市浦東新區東方路18號保利廣場E棟23樓/郵政編碼:200120 電話:86 755 82493932/傳真:86 755 82492062 電話:86 21 28972098/傳真:86 21 28972068 電子郵件:ht- 電子郵件:ht- 華泰金融控股(香港)有限公司華泰金融控股(香港)有限公司 香港中環皇后大道中 99 號中環中心 58 樓 5808-12 室 電話:+852-3658-6000/傳真:+852-2169-0770 電子郵件: http:/.hk 華泰證券華泰證券(美國美國)有限公司有限公司 美國紐約公園大道 280 號 21 樓東(紐約 10017)電話:+212-763-8160/傳真:+917-725-9702 電子郵件:Huataihtsc- http:/www.htsc- 版權所有2023年華泰證券股份有限公司