《哈爾濱工業大學:ChatGPT的過去、現在與未來(2023)(74頁).pdf》由會員分享,可在線閱讀,更多相關《哈爾濱工業大學:ChatGPT的過去、現在與未來(2023)(74頁).pdf(74頁珍藏版)》請在三個皮匠報告上搜索。
1、ChatGPT的過去、現在與未來報告人:馮驍騁哈爾濱工業大學/社會計算與信息檢索研究中心(SCIR)2023年02月15日ChatGPT的出現行業報告新聞報道熱烈討論頻繁熱搜國外大廠國內大廠ChatGPTCCF SPP將會改變世界的對話式通用人工智能模型ChatGPT微軟聯合創始人比爾蓋茨:像ChatGPT這樣的AI聊天機器人將變得與個人電腦或互聯網同樣重要。三體:拯救派 降臨派SpaceX、特斯拉公司總裁 埃隆馬斯克:ChatGPT好得嚇人,我們離危險的強人工智能不遠了。Meta首席科學家、圖靈獎得主楊立昆:就底層技術而言,ChatGPT并不是多么了不得的創新。雖然在公眾眼中,它是革命性的,
2、但是我們知道,它就是一個組合得很好的產品,僅此而已。美國作家、Robust.AI公司創始人加里馬庫斯:生成式人工智能 將對社會結構產生切實的、迫在眉睫的威脅。英偉達總裁黃仁勛:ChatGPT是AI領域iPhone,是更偉大事物的開始。CCF SPPChatGPT 的定義pChatGPT 是2022年11月美國人工智能公司OpenAI所推出的生成式對話預訓練模型。它通過對話的形式進行交互,對話的形式使得其能夠回答后續問題,承認自己的錯誤,質疑不正確的前提,并拒絕不適當的請求。CCF SPPChatGPT 的定義pChatGPT 是2022年11月美國人工智能公司OpenAI所推出的生成式對話預訓
3、練模型。它通過對話的形式進行交互,對話的形式使得其能夠回答后續問題,承認自己的錯誤,質疑不正確的前提,并拒絕不適當的請求。ChatGPT將加速通用人工智能的實現對人工智能技術的顛覆性影響CCF SPP什么是智能?“智能行為包括知覺、推理、學習、交流和在復雜環境中的行為?!蹦釥栠d(美國斯坦福大學)人類、動物經過億萬年自然進化形成的智慧和能力聽、說、讀、寫、看移動、飛翔、搬運、操作感覺、知覺、理解、聯想、推理、規劃學習、決策、記憶、回憶、創造、頓悟CCF SPP什么是人工智能?p人工智能,簡稱AI p英文:Artificial Intelligencep人工智能是人工制造出來的機器,用以對人的意識
4、、思維、認知功能進行模擬的一門學科.人造的機器或系統“人工”通常指人類自身的智能(類人智能)感知與識別、認知智能(決策與優化、學習與推理)、運動智能 也包括其他人造系統的智能“大狗”機器人:四足運動“大鳥”機器人:雙翅飛行“智能”CCF SPP科幻電影中的人工智能哆啦A夢機器姬超能陸戰隊機器人總動員終結者終結者CCF SPP實際生活中的人工智能跳舞機器人掃地機器人餐廳服務機器人SiriCCF SPP弱人工智能、強人工智能、超級人工智能強人工智能(AGI,General)通用人工智能 機器具有真正的推理和解決問題的能力,與人類一樣擁有進行所有工作的可能 可能會對人類生存產生威脅 暫時沒有實現的可
5、能弱人工智能(ANI,Narrow)完成特定任務的人工智能 表現出像是有智能的樣子 不具有自我意識 不會威脅到人類生存 目前,已經實現了越來越多的弱人工智能超級人工智能(ASI,Super)超級人工智能是指具有自我意識,包括獨立自主的價值觀、世界觀等 在幾乎所有領域都比最聰明的人類大腦都聰明很多,包括科學創新、通識和社交技能“弱人工智能”的集合“強人工智能”同時解決所有的自然語言處理任務刷爆了100余個數據集CCF SPP什么是自然語言處理?p自然語言指的是人類語言,特指文本符號,而非語音信號p自然語言處理(Natural Language Processing,NLP)p用計算機來理解和生成
6、自然語言的各種理論和方法p語言是更高級的一種認知智能p需要更強的抽象和推理能力運算智能能存會算感知智能能聽會說,能看會認認知智能能理解會思考CCF SPP自然語言處理的難點與特點語言歧義性抽象性組合性進化性非規范性主觀性知識性難遷移性p優勢p存在大量可以利用的先驗知識p難點p研究問題紛繁復雜,難以被單一模型處理p難以獲得大量標注數據p難度大,觸及常識、推理等認知能力p部分課題評測難度高p通用性弱,與行業關聯性強刷爆了100余個數據集CCF SPP自然語言處理發展歷史p自然語言處理范式變遷規則搭配詞典Examples from Xiao and Zhu,SMT-Book小規模專家知識195019
7、90淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?CCF SPP自然語言處理發展歷史p自然語言處理范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?語料特征概率Examples from Xiao and Zhu,SMT-BookCCF SPP自然語言處理發展歷史p自然語言處理范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?向量參數學習模型詞匯表示平行句對美麗是哈爾濱一座城市Enco
8、derDecoderAttentionaHarbinEOSisBeautifulCityaHarbinisBeautifulCCF SPP自然語言處理發展歷史p自然語言處理范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?向量參數學習模型詞匯表示平行句對CCF SPP自然語言處理發展歷史p自然語言處理范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?預訓練+精調=自然語言處理新范式未標注文本語料庫模型訓練數據標注模型預訓練模型精調F
9、ine-tune預訓練Pre-trainCCF SPP自然語言處理發展歷史p自然語言處理范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?p利用語言天然的順序性p我 喜歡 吃 土豆 燉XXp兩種任務類型p語言模型p 通過歷史詞序列預測下一個詞p完形填空p 通過周圍的詞預測中間的詞?CCF SPP自然語言處理發展歷史p自然語言處理范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型20182023?雙向掩碼模型(2018)單向自回歸生成模型(2018)編
10、碼器解碼器架構(2019)CCF SPP預訓練模型p模型規模與表現正相關,因此不停追求越來越大的規模p隨著模型規模越來越大,“涌現”出了令人驚訝的“智能”預訓練語言模型成為自然語言處理領域全新的技術范式Large Language Models:A New Moores Law?-Hugging FaceCCF SPP2018202020192022.112023?2022.3發展歷程GPT-1:Improving Language Understanding by Generative Pre-TrainingKeyword:unsupervised pre-training,supervi
11、sed fine-tuning,auxiliary objectiveGPT-2:Language Models are Unsupervised Multitask LearnersGPT-3:Language Models are Few-Shot LearnersKeyword:multi-taskKeyword:few-shot,one-shot,zero-shotGPT-4ChatGPT is a sibling model to InstructGPTInstructGPT:Training language models to follow instructionswith hu
12、man feedbackKeyword:instruct learning,labeler-written prompts,reinforcement learning from humanfeedbackChatGPT:OptimizingLanguage Models for Dialogue過去現在未來CCF SPP目 錄C O N T E N T SGPT的相關背景1GPT系列介紹2哈爾濱工業大學社會計算與信息檢索研究中心Instruct GPT與ChatGPT3GPT4及相關猜想4CCF SPPChatGPT的過去哈爾濱工業大學社會計算與信息檢索研究中心GPT-1/2/3!#$CCF
13、 SPP模型規模GPTdmodel=768,context_size=512,layer_num=12,attention_num=12GPT-2dmodel=1600,context_size=1024,layer_num=48,attention_num=12,param=1.5B,size=774MGPT-3dmodel=12288,context_size=2048,layer_num=96,attention_num=96,param=175B,size=70G模型結構與規模十倍百倍CCF SPP訓練數據GPT-1 BookCorpus 大約7000本書尚未出版GPT-2 WebTe
14、xt 具有來自800萬個文檔的40GB文本數據GPT-3 Common Crawl WebText2 Books1 Books2 Wikipedia 一共570G數據CCF SPPGPT-1哈爾濱工業大學社會計算與信息檢索研究中心Improving Language Understanding by Generative Pre-TrainingCCF SPPGPT-1使用方法GPT usage:pre-training+fine-tuningGPT Keyword:unsupervised pre-training,supervised fine-tuning,auxiliary objec
15、tiveCCF SPP實驗表現p在比較模型的12個任務中(如問題解答,模式解析,情感分析等),GPT-1在9個任務上的表現要優于經過專門訓練的有監督最新模型pGPT-1的一個重要成就是其在各種理解任務上的具有較為出色的zero-shot性能pGPT-1證明語言模型是有效的預訓練目標,可以幫助模型很好地推廣p模型層數變化和參數對實驗結果的影響大模型大數據CCF SPPGPT-2哈爾濱工業大學社會計算與信息檢索研究中心Language Models are Unsupervised Multitask LearnersCCF SPPGPT使用方法GPT-2 usage:zero shot or o
16、ne shotpZero-shot:以文本摘要為例p輸入:原文+“TL;DR”p輸出:摘要pOne-shot:以機器翻譯為例p輸入:“English sentence1=French sentence1”+“English sentence2=”p輸出:“French sentence2”GPT2 Keyword:multi-task(Generation)CCF SPP實驗表現pGPT-2在多個下游任務數據集上進行了評估,例如閱讀理解、摘要、翻譯以及問題解答等pGPT-2在zero-shot設置下改進了8種語言建模數據集中7種state-of-the-art水平p在閱讀理解任務中,GPT-2
17、在zero-shot設置下勝過4個基準模型中的3個p在法語到英語的翻譯任務中,GPT-2在zero-shot設置下的表現優于大多數無監督模型,但沒有超越最新的無監督模型構建更大的語言模型將減少困惑度,并使語言模型更好理解自然語言CCF SPPGPT-3哈爾濱工業大學社會計算與信息檢索研究中心Language Models are Few-Shot LearnersCCF SPP模型架構pGPT3=GPT2+Sparse Attentionp傳統(稠密)注意力機制:p局部注意力機制:p膨脹(帶狀)注意力機制:p稀疏注意力機制是局部和膨脹注意力機制的結合:CCF SPP使用方法pGPT3 Keyw
18、ord:In-context Learning(few-shot,one-shot,zero-shot)p架構笨重,缺乏可解釋性p缺少常識,對模型所產生的結果缺乏可解釋性p數據偏見問題pGPT-3生成的文本具有其所訓練語言的偏見GPT-3 Beta 測試樣例Qusetion:Which is heavier,a toaster or pencil?GPT-3:A pencil is heavier than a toaster.Qusetion:How many eye does a giraffe have?GPT-3:A giraffe has two eyes.Qusetion:How
19、many eye does my foot have?GPT-3:Your foot has two eyes.GPT-3花了24個月實現用戶破百萬(ChatGPT5天)Instruct Learning(zero-shot/prompts)zero-shotone-shotfew-shotCCF SPPChatGPT的現在哈爾濱工業大學社會計算與信息檢索研究中心Instruct GPT/ChatGPTCCF SPPChatGPT/InstructGPT的成功之處情景學習思維鏈指令學習大模型的涌現能力改變傳統學習范式大模型的涌現能力打破模型參數約束人在環路增強對齊人類意圖ChatGPT的三個關
20、鍵能力Credits:Xipeng QiuCCF SPPInstructGPT演進路徑(已知=未知)InstructGPT 的進化樹已知未知未知未知未知https:/ SPPInstructGPT演進路徑(能力猜測)InstructGPT 的進化樹https:/ Tuningp將任務用Prompt形式統一p精調語言模型(Instruction Tuning)p模型能夠處理未見任務p思維鏈能力:在代碼上進行繼續預訓練p代碼分步驟、模塊解決問題p涌現出逐步推理能力(COT)p和人類對齊能力:RLHFp結果更符合人類的預期(多樣性、安全性)p利用真實用戶的反饋(AI正循環、飛輪)CCF SPP指令微
21、調(Instruction Tuning)Credits:https:/docs.cohere.ai/docs/prompt-engineeringCCF SPP指令微調(Instruction Tuning)Credits:https:/docs.cohere.ai/docs/prompt-engineeringCCF SPP情景學習(In-Context Learning)Credits:https:/docs.cohere.ai/docs/prompt-engineeringCCF SPP情景學習(In-Context Learning)This is a movie review se
22、ntiment classifier.Review:I loved this movie!This review is positive.Review:I dont know,it was ok I guess.This review is neutral.Review:What a waste of time,would not recommend this movie.This review is negative.Review:I really enjoyed this movie!This review isCredits:https:/docs.cohere.ai/docs/prom
23、pt-engineeringCCF SPPWei.et.al.2022.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models思維鏈(Chain-of-Thought,COT)p思維鏈表示一系列中間推理步驟,相當于在求解問題過程中將解題步驟也寫出來CCF SPPCode-aided ReasoningPAL:Program-aided Language ModelsCCF SPPWei.et.al.2022.Chain-of-Thought Prompting Elicits Reasoning in Larg
24、e Language Models思維鏈(Chain-of-Thought,COT)p思維鏈表示一系列中間推理步驟,相當于在求解問題過程中將解題步驟也寫出來打破Scaling Law的關鍵CCF SPPReinforcement Learning from Human Feedback(RLHF)!#$%&()*+,-./012GPT-334!5346789:;?,()A34BCA34,DEFGHIJPPOKL534MN()OProximal Policy OptimizationPCCF SPP過去 Token-level RL 為什么沒有成功pToken-level 太稀疏,rollout
25、 太慢pReward model 太小,容易學到 reward 的弱點Minlie HuangCCF SPP第一步:有監督微調(SFT)-1p訓練 InstructGPT-beta 版本pSFT(Supervised fine-tuning):在人工書寫的示例上進行有監督微調,該方式得到的模型有 davinci-instruct-betap標注人員手寫 promptspPlain:標注人員提出任意一個任務,同時保證任務的多樣性pFew-shot:要求標注人員提出一個指令,以及在該指令下的多輪“查詢-回復”pUser-based:根據用戶在 OpenAI API 各種應用程序中提交過的用例(涵蓋
26、GPT3 API)CCF SPPp數據樣例數據集的構建:用戶 prompts 數據樣例CCF SPP第一步:有監督微調(FeedME)-2https:/ SPP第一步:有監督微調(FeedME)-2pFeedME(Feedback Made Easy):在人工書寫的示例以及標注者選擇的模型最佳輸出上進行有監督微調,該方式得到的模型有 text-davinci-001,text-davinci-002p標注人員手寫 prompts,為labelerp通過開源text-davinci-001收集了更多的prompts,customerpFeedME(Feedback Made Easy):選擇模型
27、最佳輸出,無需標注,7/7(具體細節未知)https:/ SPP數據質量+多樣性CCF SPP第二步:訓練獎勵模型p收集排序數據,訓練獎勵模型p采樣出一條 prompt 以及第一步模型的多條輸出p標注人員對模型的輸出進行由好到壞的排序p獎勵模型由參數量為6B的SFT模型初始化,輸入prompt以及第一階段模型的回復,輸出是0-1之間的分數。利用排序好的數據,根據Pairwise Ranking Loss優化獎勵模型來模擬標注人員的偏好CCF SPP第二步:訓練獎勵模型pPairwise Ranking LosspLoss =!,$#,$&log(,(,)p只提供了標注人員標注的排序數據,需要轉
28、化為reward模型打分的損失p利用 pairwise ranking loss,最大化兩個排序數據之間的打分差距pPairwise 能夠有效地增加訓練數據p如果將每個*+候選pair當作一個獨立的訓練樣本,會導致過擬合p每個樣本pair會進行 K-1 次梯度更新,導致過擬合p將!個兩兩排序的候選pair放在同一個 batch 中進行梯度下降,一方面防止過擬合,另一方面能夠帶來計算代價上的優化CCF SPP數據質量+多樣性CCF SPP第三步:強化學習p使用強化學習PPO算法優化policyp從數據集中采樣出一條新的promptpPolicy模型首先利用第一階段微調得到的SFT模型初始化,然后
29、根據prompt生成對應的模型輸出p第二步訓練得到的獎勵模型對該輸出計算reward,并利用該reward通過proximal policy optimization(PPO)算法優化Policy CCF SPP第三步:強化學習p優化目標中的正則項約束p =,$&%&(,log(,-./01(|)+&)*+,*-./log(,-.()p當利用RLHF對Policy進行更新后,RL Policy的輸出會和訓練獎勵模型時用的SFT模型輸出不同,會導致獎勵模型的reward估計效果變差p加入KL散度懲罰項,使得Policy模型的輸出和SFT模型的輸出別相差太遠p僅僅通過模擬人類偏好來優化模型會使得模
30、型在很多NLP任務上性能退化p加入一個額外的語言模型在預訓練數據上的優化目標CCF SPP第四步:飛輪優化123飛輪優化CCF SPPInstructGPT 和 ChatGPT 的區別pChatGPT 能夠生成更加翔實的回復:可能來源于訓練獎勵模型過程中標注人員對“更加翔實的回復”的偏好=偏好冗長pChatGPT 更加擅長多輪對話的內容形式:可能來源于指令微調過程中標注人員標注的多輪對話數據pChatGPT 能夠更好地捕獲多輪對話中的COT和長程依賴:可能來源于 ChatGPT 的初始化模型GPT3.5 在代碼上的預訓練,InstructGPT 論文沒有CCF SPPChatGPT的未來哈爾濱
31、工業大學社會計算與信息檢索研究中心GPT-4%&()CCF SPPGPT-4 模型的謠言p發布時間在最近的一次訪談活動中,OpenAI 的CEO Sam Altman 被問及 GPT-4 是否會像許多人預期的那樣在第一季度或今年上半年推出。他沒有給出具體的時間,只是說:“在我們有信心它可以安全且負責任地運行時,它自然就會出現?!盋CF SPPGPT-4 模型的謠言p模型參數規模Altman 還被問及 GPT-4 的參數規模是否會像網上廣為流傳的一樣,將達到驚人的100萬億參數,Altman 稱其為“一派胡言”CCF SPPGPT-4 模型的謠言p多模態多模態大模型是一項極具挑戰性的任務。雖然O
32、penAI 稱深度學習的未來是多模態模型,但是Altman 在采訪中稱GPT 4會和前三代一樣仍然是純文本模型。CCF SPPGPT-4 應具備的優化策略猜測p詞表優化模型大小和訓練數據規模應該匹配。DeepMind通過實驗表明,參數量為 70B 的Chinchilla模型,在使用1.4Trillion tokens 訓練后,在多個下 游 任 務 上 的 性 能 都 超 過 了 在300Billion tokens 上訓練的 280B參數量的Gopher模型。GPT4 Facts&Reasonable ExpectationsCCF SPPGPT-4 應具備的優化策略猜測p計算優化考慮到 GP
33、T-4 的參數比 GPT-3 略大,根據DeepMind的發現,讓其達到最優計算水平所需要的訓練 token 量應該在 5 萬億左右,這要比當前數據集高出一個量級。按照DeepMind Gopher 模型的算力消耗,達成最小訓練損失所需要的算力總量則相當于 GPT-3 的約 10 至 20 倍。GPT4 Facts&Reasonable ExpectationsCCF SPPGPT-4 應具備的優化策略猜測p延續 RLHF 的訓練策略,進一步增強與人類對齊的能力在 OpenAI 的 InstructGPT 論文中,使用 RLHF 訓練策略優化的1.3B參數規模的 InstructGPT 模型,
34、要顯著優于175B參數規模的 GPT-3 模型。GPT4 Facts&Reasonable ExpectationsCCF SPPGPT-4 應具備的優化策略猜測p最優參數化微軟和 OpenAI 發現了一種新的參數化方法(P),這是一種優化大型神經網絡訓練的方法。簡而言之,P 可用于在不同模型大小之間傳輸超參數,從而減少了在為給定模型尋找最佳超參數時反復試驗的需要。微軟和 OpenAI已經證明只要用最佳超參數訓練模型,GPT-3能夠借此實現性能飛躍。GPT4 Facts&Reasonable ExpectationsCCF SPP自然語言處理還會走多遠?更大的模型、更多的數據、更多領域?小規模
35、專家知識19501990淺層機器學習算法19902010深度學習算法20102017大規模預訓練模型2018GPT-4CCF SPP點亮更多的技能ChatGPT將加速通用人工智能的實現。Credits:Duan NanCCF SPP擴大交互范圍p模型將繼續沿著“同質化”和“規?;钡牡缆钒l展p拓展除語言之外的認知能力,尋找新的“知識”來源p規則 算法 數據 體驗(Experience)pBisk等人(2020)將其稱為“世界范圍”(World Scope,WS)WS5社會:與人類社會互動WS4具身:與物理世界互動用戶WS3多模態:聽覺、視覺WS2網絡文本數據WS1小規模語料庫現階段未來早期非交互式交互式CCF SPP安全使用,科技向善GPT-全家桶我們如何應對ChatGPT的挑戰?p自主可控p聯合企業或超算中心,訓練自己的大模型p以開源大模型(OPT、BLOOM等)為基礎繼續預訓練謝謝!馮驍騁哈工大-社會計算與信息檢索研究中心