《1-5 預訓練語言模型壓縮及美團落地實踐.pdf》由會員分享,可在線閱讀,更多相關《1-5 預訓練語言模型壓縮及美團落地實踐.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、1|2022年7月|預訓練語言模型壓縮及美團落地實踐美團 算法專家 楊揚2|大模型落地應用挑戰 面向高壓縮比需求的模型壓縮方法及應用 面向語義匹配場景的雙塔蒸餾方法及應用目錄3|大模型落地應用挑戰4|預訓練語言模型已經成為NLP任務基石全球范圍內,預訓練模型的參數規模不斷被刷新,模型效果持續提升。5|美團NLP場景概覽內容社區搜索、推薦、廣告查詢理解、召排、推薦理由智能客服/助理商家助手售前、售中、售后客服生產、審核、治理、分發企業辦公IT、財務、HR、行政等員工服務咨詢服務、簡歷理解美團/點評/頻道內搜索,點評feeds,猜你喜歡,到店廣告外賣、優選、住宿等180+客服機器人外賣、閃購、酒店
2、、醫美、悠閑娛樂問大家,美團/點評評論,筆記,醫美案例,團單7|一次搜索背后的NLP技術8|一次搜索背后的NLP技術意圖識別成分分析類目預測9|一次搜索背后的NLP技術意圖識別成分分析類目預測信息抽取情感分析語義匹配10|一次搜索背后的NLP技術意圖識別成分分析類目預測信息抽取情感分析語義匹配11|一次搜索背后的NLP技術意圖識別成分分析類目預測信息抽取情感分析語義匹配FAQ匹配KBQA文本摘要12|一次搜索背后的NLP技術意圖識別成分分析類目預測信息抽取情感分析語義匹配FAQ匹配KBQA文本摘要13|預訓練模型已經在美團廣泛應用美團預訓練平臺多尺寸多結構多任務多模態業務場景通用預訓練客服語料
3、搜索日志電商語料評論/筆記客服推薦廣告搜索配送外賣領域預訓練預訓練模型下游任務單句分類句間關系序列標注閱讀理解文本生成任務精調基于預訓練技術,為美團開發者提供一站式自然語言處理解決方案,上線以來,支持美團60+業務部門2萬+預訓練實驗。14|預訓練模型落地“最后一公里”大模型推理時間長,上線部署困難26s11s160ms32msGLM-10BBert-LargeBert-BaseBert-Medium不同模型推理耗時/s搜索相關性場景,上線標準40ms 增加線上GPU資源,可擴展性差 模型壓縮,實現模型效果和推理性能的平衡15|知識蒸餾(Knowledge Distillation)大模型知識
4、遷移到小模型 TinyBERT,DistillBERT,MiniLM,etc.模型剪枝(Model Pruning)基于既定規則裁剪冗余參數 LayerDrop,DynaBERT,Block Pruning,CoFi Pruning,etc.模型量化(Model Quantization)大模型權重和激活的表示精度降低 QBERT,TenaryBERT,BinaryBERT,etc.預訓練模型壓縮技術16|面向高壓縮比需求的模型壓縮方法及應用17|高壓縮比下的預訓練模型壓縮語言模型蒸餾在壓縮比例較大時候難以達到預期效果,單步蒸餾效果較差,引入助教模型可以改進壓縮效果。蒸餾蒸餾Mirzadeh,
5、Seyed Iman,et al.Improved knowledge distillation via teacher assistant.AAAI 2020.0.750.80.850.90.952416128642BERT-large蒸餾效果(MRPC)學生教師19|AutoDisc自動助教尋優的預訓練模型壓縮方法自動搜索最優助教最優助教:以盡量少的參數最大限度地保留教師性能手動嘗試最優助教費時費力,自動搜索最優助教定義優化目標-tradeoff,用于評估助教優劣,且與學生表現正相關,-tradeoff只需要知道助教表現和助教大小就可以估計。以12 層BERT模型為Teacher,使用不同
6、大小的助教,蒸餾1層BERT模型20|AutoDisc自動助教尋優的預訓練模型壓縮方法Chen Zhang,et al.AUTODISC:Automatic Distillation Schedule for Large Language Model Compression.助教訓練優化提出助教參數共享和優化下采樣算法,從而不用枚舉訓練每個候選助教,減少訓練成本。助教候選1助教候選2助教候選3助教候選4助教候選1助教候選2助教候選3助教候選4助教候選1助教候選3助教候選4參數共享優化下采樣助教候選3選擇最優助教候選集優化算法選擇算法通過-Tradeoff來選擇一個規模小但效果盡可能優秀的助教,
7、最后再通過助教蒸餾得到最終的學生模型。21|高壓縮比實驗效果GLUE benchmark實驗效果模型FLOPsGLUE Score模型FLOPsGLUE ScoreBERT-base10.9G86.7EncT51.5b155.9G92.4BERT-base15%(w/o TA)1.6G82.8EncT510%(w/o TA)15.6G85.9BERT-base15%ManDisc1.6G83.2EncT510%ManDisc15.6G86.8BERT-base15%AutoDisc1.6G83.3EncT510%AutoDisc15.6G86.9BERT-base5%(w/o TA)0.5G7
8、8.7EncT55%(w/o TA)7.8G81.9BERT-base5%ManDisc0.5G79.6EncT55%ManDisc7.8G83.7BERT-base5%AutoDisc0.5G80.1EncT55%AutoDisc7.8G84.422|多教師策略,進一步提升效果學生模型教師模型學生模型教師模型助教1助教2教師模型助教1助教2a.單步蒸餾b.迭代蒸餾學生模型c.多教師蒸餾學生模型教師模型助教1助教2d.迭代式多教師蒸餾23|迭代式多教師蒸餾.教師模型.Golden labelSoft label下游業務語料(有監督)StudentBetter Student精調階段 任務型蒸餾
9、助教N助教1.教師模型.預訓練語料(無監督)助教N助教1Golden labelSoft labelStudent預訓練階段 通用型蒸餾24|悟道百億GLM模型壓縮及應用 GLM(General Language Model)是一個全新的預訓練框架,打破BERT和GPT的瓶頸。單一GLM模型在語言理解和生成任務方面取得了最佳結果,并且超過同等數據量訓練的常見預訓練模型,目前已開源110M 10B 多種尺寸的中文模型。經過美團NLP中心和悟道GLM團隊合作,通過AutoDisc、迭代式多教師蒸餾方案將百億GLM模型壓縮為面向不同需求的小模型,并在美團搜索廣告、酒店智能助理和評論情感分析等業務場景
10、中落地。Du,Zhengxiao,et al.GLM:General Language Model Pretraining with Autoregressive Blank Infilling.ACL 2022.25|美團搜索廣告用戶Query文本相關性模型排序模型1.泰式按摩2.少兒舞蹈1.樂老大耳道(丹東店),中式按摩,按摩60分鐘,可視采耳,采耳洗耳,耳朵,采耳,頭部按摩,調理,頭部撥筋,眼部按摩2.貝卡舞蹈,少兒舞蹈,舞蹈課,舞蹈體驗課,街舞課,爵士舞體驗課,街舞體驗課商戶文本1.不相關2.相關相關性特征26|GLM用于搜索廣告相關性判斷模型AUC備注BERT-Medium93.30
11、%RoBERTa-Large模型蒸餾得到BERT-Medium模型BERT-Base93.55%美團語料訓練的BERT-Base模型RoBERTa-Large94.29%美團語料訓練的RoBERTa-Large模型GLM95.09%GLM 單步蒸餾94.27%直接將GLM模型蒸餾到BERT-Medium模型。GLM 迭代蒸餾94.92%在GLM蒸餾到BERT-Medium的過程中,引入RoBERTa-Large和BERT-Base作為助教。迭代蒸餾過程:GLM-RoBERTa-Large-BERT-Base-BERT-Medium。GLM 多教師迭代蒸餾95.30%將GLM迭代蒸餾中所有助教模
12、型都作為教師模型,蒸餾得到學生模型。廣告收入日均提升2.7%。27|智能助理-酒店問一問信息查找信息查找觀點問答觀點問答為用戶為商家為平臺提升信息查找與決策效率降低人工客服成本促成更多交易28|GLM用于酒店問一問的意圖識別任務模型F1備注3層BERT小模型69.30%采用BERT-base的1,5,9層,并且經過領域適配與任務適配預訓練RoBERTa-Large79.64%GLM80.41%GLM 單步蒸餾78.68%GLM 多教師迭代蒸餾79.34%GLM、RoBERTa Large都作為教師,進行蒸餾日均幫助商家多回答5200+用戶咨詢,滿足用戶對酒店詳情頁內信息的快速查找需求,幫助商家
13、節省人力的同時提升用戶體驗。31|面向語義匹配場景的雙塔蒸餾方法及應用32|背景搜索廣告業務架構及不同模型耗時廣告觸發(召回)粗排精排召回輸入:候選廣告集合召回輸出:10#粗排輸入:10#粗排輸出:10$精排輸入:10$精排輸出:10%332.681.25.19.70.8050100150200250300350BER T-baseDeFormerDiPairPoly-encoderSiamese BERT不同模型推理耗時/ms后交互模型單塔(交互)模型雙塔模型語義匹配場景,候選數據量大,單塔模型推理耗時高,優先使用雙塔模型33|語義匹配模型結構對比Dan Li,Yang Yang,Hongy
14、in Tang,Jingang Wang,Tong Xu,Wei Wu,Enhong Chen.VIRT:Improving Representation-based Models for Text Matching through Virtual Interaction.https:/arxiv.org/abs/2112.04195引入虛擬交互蒸餾損失,訓練階段將單塔模型知識遷移到雙塔模型中實現效果和推理時效的折中可以與現有后交互方法結合使用,進一步提升效果34|VIRT引入虛擬交互的雙塔模型蒸餾VIRT loss:VIRT-adapted interaction:35|VIRT 公開數據集
15、實驗效果模型MNLIRTEQQPBoolQInference LatencyBERT-base 84.166.090.674.1332.6ms(1.0 x)Siamese BERT 60.253.380.170.50.8ms(389x)DeFormer71.155.088.570.981.2ms(4.1x)DiPair71.355.188.671.35.1ms(66.5x)Poly-encoders74.557.288.570.99.7ms(34.3x)VIRT-encoder 78.660.590.473.112.0ms(27.7x)w/o VIRT loss76.658.888.871.7-w/o VIRT-adapted Interaction75.957.790.172.7-36|VIRT在搜索廣告場景中應用美團到店搜索廣告的語義相關性優化效果:基于【340M BERT-Large交互模型】蒸餾得到【21M BERT-Medium雙塔小模型】。小模型保留原模型96.2%離線效果的同時推理速度提升56倍。37|模型壓縮解決大模型落地“最后一公里”挑戰 面向高壓縮比需求的模型壓縮方法AutoDisc和迭代式多教師蒸餾策略 面向語義匹配場景的雙塔蒸餾方法VIRT及在美團業務應用實踐總結38|39|Q&A