當前位置：首頁 > 報告詳情

1-6 大模型與小模型聯動及落地.pdf

上傳人：云閑編號：102329 2021-01-01 PDF PDF 44頁 9.53MB

該報告所屬合集： DataFunSummit：2022NLP峰會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/44

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《1-6 大模型與小模型聯動及落地.pdf》由會員分享，可在線閱讀，更多相關《1-6 大模型與小模型聯動及落地.pdf（44頁珍藏版）》請在三個皮匠報告上搜索。

1、模型模型聯動及落地劉佳祥百度資深研發程師|模型是提升效果的可靠途徑參數量越來越Human效果也越來越好圖1:參數趨勢圖圖2:權威榜單 SuperGLUE 效果趨勢圖|隨之來的問題是模型的落地困難、迭代周期久4千萬參數模型15 億模型（10億級模型常規尺）15億模型為例，模型落地成本就要翻 37 倍直接落地成本QPS045901351800.140.180.220.6591.13.31530100Model parameters(in billions)!速度慢隨著模型規模的增，推理速度在迅速下降，實際落地價值，挑戰更推理速度慢模型產價值需要考慮成本|模型模型聯動|模型模型聯動1.1 蒸餾的

2、基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|1.1 模型蒸餾的基本概念蒸餾（Knowledge Distillation）Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogit

3、s|1.1 模型蒸餾的基本概念蒸餾（Knowledge Distillation）Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogitsDistillationLoss|1.1 模型蒸餾的基本概念蒸餾（Knowledge Distillation）TeacherStudentDataLogitsLogitsDistillationLoss預訓練遷移范式標注數據預訓練模型任務數據集微調模型|1.1 模型蒸餾的基本概

4、念標注數據任務數據集預訓練模型微調模型在微調階段加Step1:微調模型得到教師Step2:教師指導模型蒸餾|1.1 模型蒸餾的基本概念標注數據任務數據集預訓練模型微調模型在微調階段加Step1:微調模型得到教師Step2:教師指導模型蒸餾優勢：效果較好劣勢：步驟多,每個數據集都要重復次蒸餾步驟|1.1 模型蒸餾的基本概念標注數據任務數據集預訓練模型微調模型在預訓練階段加蒸餾1.預訓練模型作為教師模型指導模型預訓練優勢：學模型應到下游任務時，需微調教師劣勢：下游效果差于任務相關蒸餾|1.1 模型蒸餾的基本概念預訓練+蒸餾=任務關蒸餾微調+蒸餾=任務相關蒸餾優勢：學模型應到下游任務時，需微調教師劣

5、勢：下游效果差于任務相關蒸餾優勢：效果較好劣勢：步驟多,每個數據集都要重復次蒸餾步驟|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|1.2 基于任務相關的蒸餾動機：將模型的能極致的傳授給模型，可否將監督數據加進來？|1.2 基于任務相關的蒸餾動機：將模型的能極致的傳授給模型，可否將監督數據加進來？微調+蒸餾=任務相關蒸餾優勢：效果較好劣勢：步驟多,每個數據集都要重復次蒸餾步驟|1.2 基于任務相關的蒸餾動機：將模型的能極致的傳授給模型，可否將監督數據加進來？微調+蒸餾=任務相關蒸餾數據

6、量少|1.2 基于任務相關的蒸餾動機：將模型的能極致的傳授給模型，可否將監督數據加進來？微調+蒸餾=任務相關蒸餾數據量少有沒有辦法完美的將規模監督數據加進來|1.2 基于任務相關的蒸餾動機：將模型的能極致的傳授給模型，可否將監督數據加進來？|動機：將模型的能極致的傳授給模型，可否將監督數據加進來？1.2 基于任務相關的蒸餾|動機：將模型的能極致的傳授給模型，可否將監督數據加進來？1.2 基于任務相關的蒸餾|動機：將模型的能極致的傳授給模型，可否將監督數據加進來？1.2 基于任務相關的蒸餾|實驗結果1.2 基于任務相關的蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷

7、Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|1.3 基于任務關的模型蒸餾動機：預訓練階段蒸餾，減少微調教師模型的成本預訓練+蒸餾=任務關蒸餾微調+蒸餾=任務相關蒸餾使便優勢：學模型應到下游任務時，需微調教師劣勢：下游效果差于任務相關蒸餾|1.3 基于任務關的模型蒸餾動機：預訓練階段蒸餾，減少微調教師模型的成本預訓練+蒸餾=任務關蒸餾微調+蒸餾=任務相關蒸餾使便有沒有辦法更便、效果更好？優勢：學模型應到下游任務時，需微調教師劣勢：下游效果差于任務相關蒸餾|動機：次蒸餾，產出多個版本模型，進步降低蒸餾成本Wang,Shuohuan,et al.Ernie

8、3.0 titan:Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.1.3 基于任務關的模型蒸餾更便：多學模型蒸餾效果更好：ALD(Auxiliary Layer Distillation)|動機：預訓練階段蒸餾，減少微調教師模型的成本Wang,Wenhui,et al.Minilm:Deep self-attention distillation for task-agnostic compression of pre-trained transf

9、ormers.1.3 基于任務關的模型蒸餾|動機：預訓練階段蒸餾，減少微調教師模型的成本Wang,Wenhui,et al.Minilm:Deep self-attention distillation for task-agnostic compression of pre-trained transformers.1.3 基于任務關的模型蒸餾MHA沒有學習|動機：次蒸餾，產出多個版本模型，進步降低蒸餾成本Wang,Shuohuan,et al.Ernie 3.0 titan:Exploring larger-scale knowledge enhanced pre-training for

10、 language understanding and generation.1.3 基于任務關的模型蒸餾更便：多學模型蒸餾效果更好：ALD(Auxiliary Layer Distillation)ALD：蒸餾N+1層，下游產出N層模型|動機：次蒸餾，產出多個版本模型，進步降低蒸餾成本Wang,Shuohuan,et al.Ernie 3.0 titan:Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.1.3 基于任務關的模型蒸餾|動機：次蒸餾，產

11、出多個版本模型，進步降低蒸餾成本https:/ 基于任務關的模型蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|2.1 模型也能指導模型教：反向蒸餾*動機在模型的訓練前期，可以將模型作為教師為模型引路，讓模型快速進狀態Qin,Yujia,et al.Knowledge inheritance for pre-trained la

12、nguage models.arXiv preprint arXiv:2105.13880(2021).|2.1 模型也能指導模型教：反向蒸餾*Large ModelSmallModelDataLogitsLogitsDistillationLossQin,Yujia,et al.Knowledge inheritance for pre-trained language models.arXiv preprint arXiv:2105.13880(2021).動機在模型的訓練前期，可以將模型作為教師為模型引路，讓模型快速進狀態|2.1 模型也能指導模型匹配模型上的反向蒸餾13x 13x數據集

13、1數據集2：利使模型提升模型迭代效率 13xPassageQueryPassageQuery反向蒸餾0.055B1.3B實驗配置實驗結果|模型模型聯動1.1 蒸餾的基本概念Part 11.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾2.1 反向蒸餾2.2 樣本價值判斷Part 2|2.2 模型做樣本價值判斷加速模型收斂從樣本的度來說：-每條樣本的價值相同嗎？-每條樣本都需要訓練嗎？-學習過的樣本還需要再學嗎？幫：樣本價值判斷*Mindermann S,Brauner J M,Razzak M T,et al.Prioritized Training on Points that ar

14、e Learnable,Worth Learning,and Not Yet Learnt|幫：樣本價值判斷*2.2 模型做樣本價值判斷加速模型收斂Step1:準備模型下游數據集，訓練個模型Dft樣本價值判斷模型|(,)h;|;hTopK全量訓練集(x,y)Dt:finetune sample:post-train sample:forward:backforwardBackward選擇 TopK 樣本Step2:訓練模型樣本價值判斷模型預訓練模型Online Batch Selection幫：樣本價值判斷*2.2 模型做樣本價值判斷加速模型收斂Step1:準備模型樣本價值判斷模型下游數據

15、集，訓練個模型Dft|幫：樣本價值判斷*實驗結果2.2 模型做樣本價值判斷加速模型收斂(,)h;|;hTopK全量訓練集(x,y)Dt:finetune sample:post-train sample:forward:backforwardBackward選擇 TopK 樣本Step2:訓練模型樣本價值判斷模型預訓練模型Online Batch SelectionStep1:準備模型樣本價值判斷模型下游數據集，訓練個模型Dft|總結1.模型的能可以通過蒸餾釋放到模型上，滿性能需求;2.極致的蒸餾可以使 ERNIE-Tiny 漸進式蒸餾案，提升下游效果;3.便捷的蒸餾可以使 ERNIE-Tiny 任務關蒸餾案，或者使當前開源的ERNIE-Tiny 模型1.模型可以反向蒸餾模型，加速收斂;2.模型可以做樣本價值判斷，提升模型的學習效果常感謝您的觀看|

相關圖表

本文主要探討了模型蒸餾的方法及其在實際應用中的挑戰和解決方案。模型蒸餾是一種通過將大型模型的知識傳遞給小型模型來降低計算資源和時間成本的方法。文中提到了一些核心數據：例如，15億參數的模型相比于4千萬參數的模型，在SuperGLUE基準上的效果趨勢圖顯示，隨著參數數量的增加，效果也越來越好。然而，這也帶來了落地困難、迭代周期長的問題。為了解決這些問題，文中提出了多種方法，如反向蒸餾、基于任務相關和任務無關的模型蒸餾、以及使用小模型進行樣本價值判斷等。此外，還提到了一些實驗結果，如使用小模型指導大模型可以加速大模型的收斂，以及使用ERNIE-Tiny模型進行蒸餾可以提升下游效果等?？偟膩碚f，本文提供了一種通過模型蒸餾技術優化深度學習模型的方法，并在多個任務中取得了良好的效果。

"大模型蒸餾如何實現小模型聯動？" "小模型如何通過反向蒸餾加速大模型訓練？" 如何讓小模型在大模型訓練中發揮更大作用？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站