《2020年終大會-推薦算法:3-5.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-推薦算法:3-5.pdf(22頁珍藏版)》請在三個皮匠報告上搜索。
1、名快手多目標排序在快手短視頻推薦中的實踐鄭東快手社區科學部年終大會2020DATAFUNTALK#page#分享大綱快手短視頻推薦場景介紹多目標精排:從手工融合到LearnToRank復雜多目標:EnsembleSort和在線自動調參重排序:Listwise、強化學習和端上重排序總結和展望年終大會名快手|2020DATAFUNTALK#page#快手短視頻推薦場景介紹年終大會名快手|2020DATAFUNTALK#page#關于快手P4)中國領先的短視頻和直播社區,日活3億+價值觀:真實、多元、美好、有用發現頁:看見更大的世界有品雙列:選擇權單列:沉浸式關注頁:半熟人半陌生人社區,私域流量同城
2、頁:身邊觸手可及的生活8O口首頁推薦算法在快手的流量分發和同城頁用戶體驗中起核心主導作用雙列發現頁單列精選頁關注頁年終大會2020名快手DATAFUNTALK#page#提升使用時長/正向反饋,減少負向RankStrategy排序目標反饋,最終提高用戶留存留存的累積效應實驗組DAU漲幅時間RankModel顯式正反饋隱式負反饋收藏+短播放下載Rankin終止Session進入個人頁關注顯式負反饋點贊不感興趣正向評論負向評論觀看評論舉報原聲點擊MMoE標簽點擊O分享年終大會名快手|2020DATAFUNTALK#page#多目標精排從手工融合到LearnToRank年終大會名快手|2020DAT
3、AFUNTALK#page#手工融合和簡單模型融合pevtr0.3多任務學習獲得的個性化預估值多目標排序快手推薦追求時長、點贊、關注、分享等多種目標通過合適的排序目標和機制設計,獲得多目標的協同提升pltr0.2Stage1:手動公式融合VV5Wa*pEvtr+b*pLtr+.+g*f(pWatchTime)缺點,過于依賴規則設計過于依賴人工調參,維護成本高rulek-1rulekrulelrule4,固定權重,缺少個性化、場景化rule2rule3TreeNTree1Stage2:樹模型規則Ensemble融合等價于將葉子結點轉換為打分規則,得到打分的Ensemble,也叫RuleFit使用
4、GBDT模型,引入pxtr、畫像和統計類特征,擬合組合缺點:表達能力有限,無法onlinelearninglabel:w=a*effective_view+b*like+.+h*f(watch_time)采用加權LogLoss,L=wlog(p)+log(1-p:)上線效果:同城頁短視頻時長提升4.5%上下滑無負樣本,通過拷貝正樣本實現對目標無偏估計年終大會名快手|2020DATAFUNTALK#page#超參LearnToRankItr_benefit:A*effectiveView+B*like +.+H*f(watch_time)DNN學習打分函數:使用A*pEvtr+B*pltr+.來
5、擬合組合收益label:w=a*effectiveView+b*like+.photo_top(dim=24)user_top(dim=24)為可解釋性,采用內積形式,用戶側特征學習超參user layer 2w.conca采用加權LogLoss,L=wlog(p:)+log(1-pi)user layer 1輕量級用戶特征表征:64bit表示用戶對item的pEvtr:有效播放率embdding_layerpLtr:點贊率action, isEffectiveView /isLike/isFollow/pWtr:關注率praasndevice_idstatus_iminstatus_2hpl
6、ayTimeFromNow / videoDuration /pFtr:分享率videoPlayingTimePlayTimeWatchTimeDurationCWatchTimePlayTimePlayTimeWatchTimeDurationWatchTime,分別對1min/5min/./2h范圍內的action聚合為PlayTimeDuration動態行為狀態變化對pXtr偏好的影響status_list年終大會2020名快手上線效果:App時長提升0.29DATAFUNTALK#page#端到端LearnToRank=a*effectiveView+b*like+.+h*f(watc
7、h_time)Pointwise形式reward端到端學習,use_id和行為序列ID都使用原pEvtr:有效播放率始輸入Layer3pLtr:點贊率融入pxtr特征,與精排模型結合pWtr:關注率支持更復雜特征抽取和網絡結構pFtr:分享率Layer2上線效果:App時長提升0.6%,互動提升2Layer1Pairwise形式樣本構造:在一次請求的6個視頻之間,對EmbeddingpXtrEmbeddings每種目標都構造各自的偏序對網絡結構:同Pointwise形式,學習對單itempEvtrpFtruser_iduser profilevideo id video featurescon
8、text featurespLtrpWtr的打分函數s;損失函數:每種目標計算logloss,不同目標Su=a(Si-S之間loss加權求和loss=ylog(s)+(1-o)log(l-s)效果上,類似優化加權AUC,但可導loss=a*losSeffectiv年終大會上線效果:App時長持平,頁面互動提升2%名快手|2020DATAFUNTALK#page#復雜多目標EnsembleSort和在線自動調參年終大會名快手|2020DATAFUNTALK#page#Ensemble Sort常規融合:線性加權復雜業務,多種不同打分邏輯Score=a*scoreA +b*scoreB+c*Sco
9、reC+.+m* ScoreMScoreA:互動和時長的多目標線性加權公式ScoreB:觀看時長收益O,300s)存在問題Scorec:觀看完成度收益O,1不同Score之間含義、量級和分布差異較大ScoreD:點贊概率*點贊的用戶效用顯式反饋如點贊率等在不同用戶間差異巨大,難以適應統一權重依賴模型預估值絕對大小,預估值分布變化時需重新調節或校準ScoreE:關注概率*關注的用戶效用ScoreF:分享概率*(分享的用戶效用+外部效用)ScoreG:進入原聲頁概率*(原聲收藏概率*收藏優化方法的用戶效用+原聲拍攝概率*作品價值各子項分內做Normalize,如轉換為序的函數,與GAUC目標一致S
10、corec:= f(rank of ScoreC)ScoreL:Pointwise Learn2Rank排序分可兼容含義差異巨大的子項分,各子項目分權重可在同一量級調節隱式反饋權重在不同用戶上做到了某種自適應調節ScoreM:PairwiseLearn2Rank排序分上線效果,App時長提升0.6%,頁面互動提升年終大會名快手|2020DATAFUNTALK#page#在線自動調參離線學習方法舉例:離線根據用戶反饋的組合的label來學習手動調參Learn2Rank:見前session優點優點簡單輕量,可解釋性好非梯度優化算法:優化a*pEvtr+b*pltr可看作of-policy,數據利用
11、率高(100%)缺點+h*f(watch_time)中的超參數(a,b模型自由度高,可訓練千億參數規模效率低h),使得評估目標AAUC_click+B缺點依賴工程師經驗AUC_like+.+H*AUC_watchTime最大無法直接對標業務指標參數變多后,很難全局調優如PSO(粒子群算法)、ES(進化策略)等處理能力有限,難以個性化、場景化難以考慮到線上復雜多模塊的完整影響存在訓練數據和在線數據不一致性調參算法在線自動調參Reward統計生成N組參數CEM/ES/BayesOpt優點直接優化線上指標且靈活度高,反饋迅速黑盒化不關心細節可多場景聯合優化,不限于ranking推薦系統缺點日志收集線
12、上拿出一部分探索流量,用戶有感知,會影響少部分用戶體驗數據比較稀疏,受噪聲影響較大,特別是對稀疏label差異化推薦自由度較低,參數量不能太大(1000)結果行為反饋8年終大會其付代育品快手|2020DATAFUNTALK#page#在線自動調參探索與利用5%線上流量探索,每次探索N組參數基線組每輪收集固定數量樣本,探索組和基線組同始終Reward設計每組參數時長和互動相比基線的相對漲跌幅來衡量收益項:視頻觀看時長/個人頁時長/評論區時長約束項:互動,如播放/點贊/關注/分享/.,使用非線性約束間值內,線性弱衰減超出間值,指數強衰減調參算法Cross-Entropy MethodEvoluti
13、onary StrategyBayes OptimizationGaussian-Process RegressionCEM算法優點簡潔、高效,超參很少CEM算法流程示意0階方法,Topk選取只依賴reward的序,不需要對reward的數值進行建模,對噪聲更加魯棒年終大會名快手|2020參數通過高斯分布擾動探索,線上指標相對平穩DATAFUNTALK#page#在線自動調參噪聲來源數據稀缺:5%探索流量分100組,每3.5092.50%組參數僅僅相當于線上1/2000的流量pV稀疏label:越稀疏的label噪聲越大2.00%指標隨時間周期變化2.50%1.50M降噪方法1.50%增加探索
14、組流量、減小分桶數增加單次探索累計的樣本量050按PV粒度取代UV粒度分桶200多場景聯合調參考慮人群和上下文的個性化調參相比離線組合label優化,可以用在個性化排序外場景類似ContextualBandit可以在線多場景聯合調參,精細尋找系統最優可引入畫像特征、上下文特征來刻畫參數的變化待調節參數變為特征的權重參數召回源配額分配粗排權重參數精排權重參數上線效果:在排序權重參數優化場景,提升App時長0重排多樣性參數EnsembleSort參數年終大會名快手|2020DATAFUNTALK#page#重排序Listwise、強化學習和端上Rerank年終大會名快手|2020DATAFUNTA
15、LK#page#Listwise Rerank方案設計CandidateevaluationTop6Rerank:對一個PageSize(6)的候選視頻使用layer(評估層)Transformer進行建模,刻畫視頻間相互影響e1e4e5采用WeightedLogloss,學習目標類似Learn2Rank前序視頻對后序視頻觀看有影響,前后組合決定總收益Add &normFeed forwardEncoderLayerEncoderLayer離線效果評估Add&norm收益主要來自建模Context影響,與DNN基線對比各Position學的AUCele2e485e6diffPositionDn
16、n-aucTransform-aucFeature extraction0.75940-0.012%10.75931layer(候選抽取層)20.762320.76357+0.164%X1X2X3X4X5Input featureX630.764410.76630+0.247%40.767720.76952+0.234%50.770170.77233+0.280%上線效果:App時長+0.3%,互動持平或上漲60.769560.77364+0.530%年終大會名快手|2020DATAFUNTALKRef:“Personaliized Re-ranking for Recommendation”
17、 Changhua Pei,RecSys2019#page#強化學習Rerank精排后結果Top50選10Soimax動作概率分布省序列決策過程DNN狀態期望價值Cand LayeValue廠用戶狀態UserinfeUserinfoMlM.vMb.VcVal排序結果DNNCandidateMa.v.vcVVa.Vc.vaVa.vdVa候選視頻1011=2t=3待排序候選視頻集序列決策過程,從前向后依次貪心的選擇動作概率最大的視頻用戶興趣上下文建模reward=f相關性,多樣性,約束)通過LSTM建模前序視頻對后續視頻的影響每個位置選擇時對候選視頻都做一遍預估策略梯度9=EA(S,)Vologm
18、o(a|s)一個DNN網絡同時輸出Policy和Value其中A“(S,at)是Advantage函數,可以進一步使用GAE降低偏差新設備次留上線效果:App時長提升0.4%GAE(,A)=年終大會(7x)(-V(s+1)+V(s:+1+1)名快手|2020DATAFUNTALK=#page#強化學習RerankRL-Agent分布式Actor-排序策略Critic算法視頻反饋仿真器高線日志好的策路電酒構建仿真器,好處:On-Policy模式相比Off-Policy模式訓練更穩定基于仿真器進行探索學習優化更高效基于仿真器進行離線評估上線更安全不同用戶樣本天生無關聯,無需做experience-
19、上線效果:App時長提升0.4%新設備次留reply,起到A3C中分布式異步的效果年終大會名快手|2020DATAFUNTALK#page#端上Rerank方案EndpoinCloud用戶一次請求下發更多視頻到客戶端,如從6提升到20端上部署模型,根據用戶最新行為反饋,每一滑實時從剩余候選集中選擇最佳的優勢ReportSamjle Log用戶對當前視頻的反饋,可以立刻影響Next-One推薦,不DNN Inference EngineParameter Server必等到PageSize(=6)再去服務端刷新Deploy上下滑場景替換后序視頻后,用戶無感知Dense letworkCandid
20、atContext可以利用端上豐富的特征,包括一些數據量大、隱私等Meta/ParameterFeatureFeatureUpdateSparseFoature Embedding不便于上傳到云端的特征端上實現了實時推薦,所以Pagesize可以變大,降低對服務端的請求壓力和資源消耗UscrRecommendFeedbackRecommend ServerCandidatesAsync UpdateDatabase設計Feeds CandidatesFeature Embedding端上模型網絡結構專為tflite格式,客戶端啟動時一次性拉取SparseFeatureEmbedding存儲在服
21、務端PS,返回每頁結果是一同下發至客戶端上線效果,App時長+1%,服務端QPS-13%互動指標也提升年終大會Ref:EdgeRec:Recor名快手|2020DATAFUNTALK#page#總結和展望,多任務學習訓練中解決不同目標差異導致的梯度沖突問題帕累托最優的權重設計、隨著訓練過程中實時的難易程度動態調節等MMoE升級:Task-specificExpert,PLE等在線自動調參對稀疏reward更好的處理方式,對噪聲更好的抗性嘗試去優化留存等更挑戰的目標從o階方法升級到1階方法重排序使用Beam-Search取代貪心檢索,控制線上耗時更好的融合相關性和多樣性在建模上文對下文影響外,考慮上下文協同的整體收益的最大,如讓用戶能貢獻更多的VV端上Rerank做更好的實時行為建模、端上更豐富特征的引入、云和端的更好結合等年終大會名快手|2020DATAFUNTALK#page#名快手THANKS !歡迎加入我們鄭東年終大會2020DATAFUNTALK