《元語AI:ChatGPT技術、國產化嘗試和開源模型(2023)(20頁).pdf》由會員分享,可在線閱讀,更多相關《元語AI:ChatGPT技術、國產化嘗試和開源模型(2023)(20頁).pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、ChatGPT技術、國產化嘗試和開源模型元語AI 徐亮自然語言大模型Model-as-a-Service服務商 概覽背景1.ChatGPT技術1)技術演進:GPT-InstructGPT-ChatGPT2)存在什么樣的問題?3)學習三階段4)數據組織和效果評估2.國產化1)背景與問題 2)解決思路3)效果與實踐3.開源模型1)中文開源模型2)基于自有數據訓練出本地模型3)可能的問題、差距和如何進一步提升效果fZvWaVkXaQ8QaQoMpPnPtQkPrRnRlOnMxObRmOnMxNnNqOvPmQxP背景 ChatGPT:通用功能型助手 2022年12月5日,OpenAI首席執行官Sa
2、m Altman在社交媒體上發文稱,ChatGPT推出五天,已突破100萬用戶 AI聊天機器人ChatGPT爆火出圈!微軟正洽談100億美元增持股份背景為什么這么受歡迎:1)更好的理解用戶意圖與生成能力-更好的效果;2)便利的使用形式(對話機器人)-人人都能使用ChatGPT技術:模型演進ChatGPT技術:之前的模型存在什么樣的問題?對齊對齊問題:大模型生成的響應不符合用戶意圖用戶意圖 原因:語言模型訓練的訓練目標是預測下一個詞,而不是按照用戶意圖來生成 怎么解決:加入基于人類反饋的強化學習(RLHF)ChatGPT技術:三步走1.真實用戶輸入的監督學習2.獎勵函數,評價模型的生成效果3.基
3、于人類反饋的強化學習,生成更符合人類需要的內容參考:InstructGPT,Training language models to follow instructions with human feedbackChatGPT技術:數據組織數據組織和效果評估 冷啟動:冷啟動:1)現有系統用戶prompt;2)標注相似的prompt;3)標注人員自己想的prompt 三部分數據(三部分數據(77K77K真實數據):真實數據):1.基于真實用戶prompt的監督學習數據(用戶prompt,模型response,13k)2.用于獎勵模型訓練的數據(一個prompt多個response的排序,33k)3
4、.基于獎勵模型使用強化學習進行訓練(用戶的prompt,31k)ChatGPT技術:數據組織和效果評估效果評估ChatGPT國產化:背景與問題 背景與問題:1、ChatGPT效果雖好,但本身不對中國大陸服務2、本地化問題:可能不能滿足國內企業級客戶的需求,包括無法提供本地化技術支持與服務3、價格問題:以歐美為主要市場的美元計價國內多數用戶可能承受不了。ChatGPT國產化:解決思路 分步走:1)百億參數的中文模型的預訓練;2)億級別任務數據上的監督學習(Prompt多任務學習);3)對話化-再,引入獎勵模型和RLHF用戶反饋的強化學習ChatGPT國產化:Prompt多任務學習全中文任務支持零
5、樣本學習模型(PromptCLUE)1.三大統一:統一模型、統一數據形式、統一使用方式;2.1000億中文字詞級別token無監督學習,億級下游任務數據,累積學習1.5萬億中文字詞級別token3.支持20多種任務上的零樣本使用(文本理解類、抽取類、生成累任務)相關工作:google flan-t5,meta opt-imlChatGPT國產化:對話化 移除了文本理解類和抽取類任務 加強了問答、對話和生成類問答、對話和生成類任務的學習 上下文上下文能力加強:針對多輪對話容易受到上下文的干擾,加入了抗干擾數據使得模型可以在必要時忽略無關的上下文;更好理解用戶意圖用戶意圖:加入了用戶反饋數據的學習
6、ChatGPT國產化:實踐與效果與ChatGPT相比,我們還需要1-2年時間開源模型:功能型對話中文大模型(ChatYuan)1.ChatYuanChatYuan:元語功能型對話大模型(開源版,7.7億參數):項目地址:https:/ 2.ChatYuanChatYuan:通用功能型對話中文大模型(百億參數,線上版)ModelSHuggingfaceGithub開源模型:本地使用開源模型:基于自有數據訓練出本地模型數據組織將數據組織成統一的格式,由兩部分構成:輸入(Input)和輸出(Output)。針對單輪問答單輪問答或生成:輸入(Input):任務描述+輸入文本(如:“用戶:你好n小元:”
7、)輸出(Output):系統需要預測的文本,如下圖中小元后的內容。(如:“您好!我是元語AI.”)針對多輪對話多輪對話:輸入(Input):任務描述+上文+輸入文本輸出(Output):系統需要預測的文本,如下圖中小元后的內容。開源模型:基于自有數據訓練出本地模型微調模型(colab,見chatguan的github項目)。pcluepclue數據示例:數據示例:input:參考下面的段落,回答下列問題:段落:因吊鐘的花朵通常在農歷新年前后開花,故英文又名為Chinese New Year Flower,意即中國新年花。土壤肥沃含腐殖質及排水良好的土壤??梢允褂貌シN、扦插法及壓條法繁殖。問題:
8、吊鐘花如何進行繁殖?答案:,target:播種、扦插法及壓條法,type:mrc開源模型:差距、可能的問題和進一步提升效果 差距:差距:與ChatGPT差距還挺大,包括模型大小、學習到的數據量、基于真實用戶反饋的強化學習 可能的問題:可能的問題:開源模型,生成的效果和長短(輸入格式是否正確、采樣與否sample、輸出長度的控制max_length)進一步提升效果:進一步提升效果:1)結合行業數據進行進一步訓練(無監督預訓練;有監督學習-大量高質量的數據);2)真實用戶反饋數據的學習(彌補分布差異)3)強化學習的引入(對齊用戶意圖)4)更大的模型(更強能力)結尾ChatGPT帶來的新的技術和使用,讓人們看到的AI的巨大潛力,具有廣闊的發展空間元語智能大模型Model-as-a-Service服務商