《1-6 大模型與小模型聯動及落地.pdf》由會員分享,可在線閱讀,更多相關《1-6 大模型與小模型聯動及落地.pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、模型模型聯動及落地劉佳祥 百度 資深研發程師|模型是提升效果的可靠途徑參數量越來越Human效果也越來越好圖1:參數趨勢圖圖2:權威榜單 SuperGLUE 效果趨勢圖|隨之來的問題是模型的落地困難、迭代周期久4千萬參數模型15 億模型(10億級模型常規尺)15億模型為例,模型落地成本就要翻 37 倍直接落地成本QPS045901351800.140.180.220.6591.13.31530100Model parameters(in billions)!速度慢隨著模型規模的增,推理速度在迅速下降,實際落地價值,挑戰更推理速度慢模型產價值需要考慮成本|模型模型聯動|模型模型聯動1.1 蒸餾的
2、基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|1.1 模型蒸餾的基本概念蒸餾(Knowledge Distillation)Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogit
3、s|1.1 模型蒸餾的基本概念蒸餾(Knowledge Distillation)Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogitsDistillationLoss|1.1 模型蒸餾的基本概念蒸餾(Knowledge Distillation)TeacherStudentDataLogitsLogitsDistillationLoss預訓練遷移范式標注數據預訓練模型任務數據集微調模型|1.1 模型蒸餾的基本概
4、念標注數據任務數據集預訓練模型微調模型在微調階段加Step1:微調模型得到教師Step2:教師指導模型蒸餾|1.1 模型蒸餾的基本概念標注數據任務數據集預訓練模型微調模型在微調階段加Step1:微調模型得到教師Step2:教師指導模型蒸餾優勢:效果較好劣勢:步驟多,每個數據集都要重復次蒸餾步驟|1.1 模型蒸餾的基本概念標注數據任務數據集預訓練模型微調模型在預訓練階段加蒸餾1.預訓練模型作為教師模型指導模型預訓練優勢:學模型應到下游任務時,需微調教師劣勢:下游效果差于任務相關蒸餾|1.1 模型蒸餾的基本概念預訓練+蒸餾=任務關蒸餾微調+蒸餾=任務相關蒸餾優勢:學模型應到下游任務時,需微調教師劣
5、勢:下游效果差于任務相關蒸餾優勢:效果較好劣勢:步驟多,每個數據集都要重復次蒸餾步驟|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|1.2 基于任務相關的蒸餾動機:將模型的能極致的傳授給模型,可否將監督數據加進來?|1.2 基于任務相關的蒸餾動機:將模型的能極致的傳授給模型,可否將監督數據加進來?微調+蒸餾=任務相關蒸餾優勢:效果較好劣勢:步驟多,每個數據集都要重復次蒸餾步驟|1.2 基于任務相關的蒸餾動機:將模型的能極致的傳授給模型,可否將監督數據加進來?微調+蒸餾=任務相關蒸餾數據
6、量少|1.2 基于任務相關的蒸餾動機:將模型的能極致的傳授給模型,可否將監督數據加進來?微調+蒸餾=任務相關蒸餾數據量少有沒有辦法完美的將規模監督數據加進來|1.2 基于任務相關的蒸餾動機:將模型的能極致的傳授給模型,可否將監督數據加進來?|動機:將模型的能極致的傳授給模型,可否將監督數據加進來?1.2 基于任務相關的蒸餾|動機:將模型的能極致的傳授給模型,可否將監督數據加進來?1.2 基于任務相關的蒸餾|動機:將模型的能極致的傳授給模型,可否將監督數據加進來?1.2 基于任務相關的蒸餾|實驗結果1.2 基于任務相關的蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷
7、Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|1.3 基于任務關的模型蒸餾動機:預訓練階段蒸餾,減少微調教師模型的成本預訓練+蒸餾=任務關蒸餾微調+蒸餾=任務相關蒸餾使便優勢:學模型應到下游任務時,需微調教師劣勢:下游效果差于任務相關蒸餾|1.3 基于任務關的模型蒸餾動機:預訓練階段蒸餾,減少微調教師模型的成本預訓練+蒸餾=任務關蒸餾微調+蒸餾=任務相關蒸餾使便有沒有辦法更便、效果更好?優勢:學模型應到下游任務時,需微調教師劣勢:下游效果差于任務相關蒸餾|動機:次蒸餾,產出多個版本模型,進步降低蒸餾成本Wang,Shuohuan,et al.Ernie
8、3.0 titan:Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.1.3 基于任務關的模型蒸餾更便:多學模型蒸餾效果更好:ALD(Auxiliary Layer Distillation)|動機:預訓練階段蒸餾,減少微調教師模型的成本Wang,Wenhui,et al.Minilm:Deep self-attention distillation for task-agnostic compression of pre-trained transf
9、ormers.1.3 基于任務關的模型蒸餾|動機:預訓練階段蒸餾,減少微調教師模型的成本Wang,Wenhui,et al.Minilm:Deep self-attention distillation for task-agnostic compression of pre-trained transformers.1.3 基于任務關的模型蒸餾MHA沒有學習|動機:次蒸餾,產出多個版本模型,進步降低蒸餾成本Wang,Shuohuan,et al.Ernie 3.0 titan:Exploring larger-scale knowledge enhanced pre-training for
10、 language understanding and generation.1.3 基于任務關的模型蒸餾更便:多學模型蒸餾效果更好:ALD(Auxiliary Layer Distillation)ALD:蒸餾N+1層,下游產出N層模型|動機:次蒸餾,產出多個版本模型,進步降低蒸餾成本Wang,Shuohuan,et al.Ernie 3.0 titan:Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.1.3 基于任務關的模型蒸餾|動機:次蒸餾,產
11、出多個版本模型,進步降低蒸餾成本https:/ 基于任務關的模型蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|模型模型聯動1.1 蒸餾的基本概念2.1 反向蒸餾2.2 樣本價值判斷Part 1Part 2 1.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾|2.1 模型也能指導模型教:反向蒸餾*動機在模型的訓練前期,可以將模型作為教師為模型引路,讓模型快速進狀態Qin,Yujia,et al.Knowledge inheritance for pre-trained la
12、nguage models.arXiv preprint arXiv:2105.13880(2021).|2.1 模型也能指導模型教:反向蒸餾*Large ModelSmallModelDataLogitsLogitsDistillationLossQin,Yujia,et al.Knowledge inheritance for pre-trained language models.arXiv preprint arXiv:2105.13880(2021).動機在模型的訓練前期,可以將模型作為教師為模型引路,讓模型快速進狀態|2.1 模型也能指導模型匹配模型上的反向蒸餾13x 13x數據集
13、1數據集2:利使模型提升模型迭代效率 13xPassageQueryPassageQuery反向蒸餾0.055B1.3B實驗配置實驗結果|模型模型聯動1.1 蒸餾的基本概念Part 11.2 基于任務相關的模型蒸餾1.3 基于任務關的模型蒸餾2.1 反向蒸餾2.2 樣本價值判斷Part 2|2.2 模型做樣本價值判斷加速模型收斂從樣本的度來說:-每條樣本的價值相同嗎?-每條樣本都需要訓練嗎?-學習過的樣本還需要再學嗎?幫:樣本價值判斷*Mindermann S,Brauner J M,Razzak M T,et al.Prioritized Training on Points that ar
14、e Learnable,Worth Learning,and Not Yet Learnt|幫:樣本價值判斷*2.2 模型做樣本價值判斷加速模型收斂Step1:準備模型 下游數據集,訓練個模型Dft樣本價值判斷模型|(,)h;|;hTopK全量訓練集(x,y)Dt:finetune sample:post-train sample:forward:backforwardBackward選擇 TopK 樣本Step2:訓練模型樣本價值判斷模型預訓練模型Online Batch Selection幫:樣本價值判斷*2.2 模型做樣本價值判斷加速模型收斂Step1:準備模型 樣本價值判斷模型下游數據
15、集,訓練個模型Dft|幫:樣本價值判斷*實驗結果2.2 模型做樣本價值判斷加速模型收斂(,)h;|;hTopK全量訓練集(x,y)Dt:finetune sample:post-train sample:forward:backforwardBackward選擇 TopK 樣本Step2:訓練模型樣本價值判斷模型預訓練模型Online Batch SelectionStep1:準備模型 樣本價值判斷模型下游數據集,訓練個模型Dft|總結1.模型的能可以通過蒸餾釋放到模型上,滿性能需求;2.極致的蒸餾可以使 ERNIE-Tiny 漸進式蒸餾案,提升下游效果;3.便捷的蒸餾可以使 ERNIE-Tiny 任務關蒸餾案,或者使當前開源的ERNIE-Tiny 模型1.模型可以反向蒸餾模型,加速收斂;2.模型可以做樣本價值判斷,提升模型的學習效果常感謝您的觀看|