《徐傳宇—推薦級聯全鏈路去偏.pdf》由會員分享,可在線閱讀,更多相關《徐傳宇—推薦級聯全鏈路去偏.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、推薦級聯全鏈路去偏徐傳宇-阿里巴巴-推薦算法DataFunSummitDataFunSummit#20242024Attention!淘天集團-1688事業部-搜索推薦算法團隊,誠聘搜索推薦nlp算法人才,真大量hc業務增速快,技術氛圍濃,團隊過往績效好,未來空間大簡歷投遞郵箱:,歡迎咨詢!背景介紹精排樣本選擇偏差粗排樣本選擇偏差重排流行度偏差目錄 CONTENTDataFunSummitDataFunSummit#2024202401背景介紹底池召回粗排精排曝光點擊成交模型數據1.1.選擇偏差選擇偏差(Selection Bias)Selection Bias):線上打分空間與模型離線訓的樣
2、本空間不一致練?,F有的粗排和精排存在樣本選擇偏差。2.2.流行性偏差流行性偏差(Popularity Bias)Popularity Bias):重排使用精排pointwise的打分結果,會使得用戶的曝光商品類目不斷縮小聚集,熱門商品流量不斷放大,最終影響用戶逛買體驗。1.背景DataFunSummitDataFunSummit#2024202402粗排樣本選擇偏差底池召回粗排精排曝光點擊成交模型數據線上打分空間離線訓練空間曝光點擊曝光未點擊進粗排樣本是否精排topK/曝光 新樣本原有樣本3.1 粗排樣本空間1.1.全鏈路樣本全鏈路樣本粗排目前的訓練樣本使用了曝光樣本曝光樣本,未使用粗排候選集
3、合,導致存在SSB問題。從item id來看,樣本前后的itemid數量翻了一倍。這一部分對整體的貢獻在60%左右。2.2.模型模型LossLoss優化優化粗排更關注提升腰部hitrate800而不是頭部的排序能力,通過引入Pairwise loss,在保持模型準度的基礎上提升模型排序能力模型排序能力,這一部分對整體的貢獻在20%左右。其中,代表模型預估樣本i比j更“相關”的概率,即兩條樣本模型pointwise輸出logit的差值。3.3.模型結構優化模型結構優化粗排因為性能問題,無法使用target attention。使用用戶歷史序列N-1個商品與第N個商品作attention,使模型學
4、習用戶近期興趣。這一部分對整體的貢獻在20%左右。3.2 粗排整體優化1.1.評估指標。評估指標。AUC 評估排序能力。但對粗排而言,任務是篩選進入精排的topK商品集合,所以使用hitrate來評價模型更合理。計算場景內點擊hitrate和粗排精排一致性hitrate,具體定義如下。3.3 指標解讀效果:效果:實驗桶場景內一致性hitrate10+0.4,hitrate50+0.5,hitrate100+0.62 2.其它數據指標其它數據指標DataFunSummitDataFunSummit#2024202403精排樣本選擇偏差底池召回粗排精排曝光點擊成交模型數據線上打分空間離線訓練空間曝
5、光成交曝光未成交未曝光成交未曝光未成交新增樣本原有樣本2.精排樣本空間2.1方案方案一:方案一:ctr模型中粗排返回落打點日志,與全網成交join生成正負樣本。離線無提升方案二:方案二:樣本同上,loss中加入Rank_loss,區分首猜成交&全域成交,讓首猜的cvr預測值全域Rank_loss=-p,:pointwise差值樣本樣本featurfeatureses首猜成交首猜成交labellabel全域成交全域成交labellabel是否成交是否成交首猜曝光1/01/0粗排返回(未曝光)11粗排返回(未曝光)00新增樣本思考:不是要去分首猜成交和全域成交。需要區分全域成交,哪些在首猜中曝光更
6、容易被成交(場景消偏)Ref:Entire Space Learning Framework:Unbias Conversion Rate Prediction in Full Stages of Recommender System.Shanshan Lyu and Qiwei Chen etl.DLP-KDD 2022首猜ctcvr模型曝光序列全網成交模型首猜成交排最前未考慮全網成交全網成交排前面未區分是否適合首猜成交首猜成交全網成交全網未成交首猜成交全網成交全網未成交全域學習模型適合首猜成交全網成交全網未成交場域成交模型P(首猜成交|粗排返回)=P(全網成交|粗排返回)*P(首猜成交|全
7、網成交)全域無偏模型全網成交模型場域成交模型優化概率空間緩解數據稀疏篩選樣本2.2全域無偏模型2.3 全網成交模型P(payallnet|rank)模型的訓練結構與cvr基準模型保持一致多目標學習框架,引入反饋任務輔助訓練統計類特征:用戶側、商品側、上下文特征、用戶和商品交叉特征序列特征:實時點擊序列、長周期點擊序列loss仍然為交叉熵損失函數 2.4 場域成交模型場域成交模型:建立全網到場域的成交概率模型來完成篩選,區分哪些樣本不適合首猜曝光,從而使得排序模型的最終建模目標為本場景成交。場域成交模型與全網成交模型模型結構相同,只是樣本與label不同。樣本為全網成交的正樣本,label為是否
8、在首猜成交。用戶在精排打分空間上的首猜成交概率將通過如下漏斗模型的方式來完成預估其中 P(payallnet|rank)是全網成交模型的輸出,表示粗排返回結果到全網成交正樣本的概率。P(paygul|payallnet)是場域成交模型的輸出,表示全網成交正樣本到本場景成交正樣本的概率2.5 全域無偏模型2.6 總結效果:人均點擊商品數略漲,uvl2o大幅上漲(1)(1)優化了概率空間優化了概率空間,將粗排返回結果到場景正樣本的概率拆分成粗排返回結果到全網正樣本的概率與全網正樣本到本場景正樣本概率的乘積。(2)全網成交模型中引入了全網行為,正樣本+7倍,有效的緩解了數據稀疏數據稀疏問題。同時新增
9、虛曝光樣本,緩解樣本選擇偏差問題。(3)場域成交模型選擇選擇適合本場景的樣本,使得最終建模的目標適合本場景。方法概述:方法概述:傳統方法我們方法DataFunSummitDataFunSummit#2024202404重排流行度偏差4.1.問題定義精排生成Top N商品的序列,這樣的序列只考慮了精準性,會增加熱門商品的曝光,加劇推薦系統的馬太效應,引發流行度偏差引發流行度偏差,進而影響用戶的長期體驗。所以,對重排來說,為了消除流行度偏差,提升推薦系統的發現性,需要同時解決以下諸多問題:1)內容打散。包括品類不扎堆。2)流量調控。比如商品或內容冷啟動,內容卡片流量分配,心智貨盤加權等。3)商品上
10、下文信息。4)多目標融合。包括:效率類目標(ctr,cvr,停留時長)、體驗類指標(負反饋)、長期收益指標(DAU)等。5)兼顧推薦短期收益與長期收益。4.2現有方案總結第一類算法也可看作打散算法,主要在于多樣性和準確性的平衡,沒有復雜的模型結構,落地復雜度較低;第二類算法的label是可觀測信號,通過listwise損失函數來建模序列物品之間的關系;第三類算法引入評估器構造反事實信號,以兩階段生成后評價的方式輸出最優序列,復雜度較高。受以上工作的啟發,結合1688推薦算法現狀和落地難度,分別嘗試或提出了三類算法中的DPP算法、兩階段兩階段Evaluator-GeneratorEvaluato
11、r-Generator算法算法、Session-based離線強化學習算法。行列式點過程(Determinantal Point Process DPP)是一種性能較高的概率模型,它通過將復雜的概率計算轉換成行列式計算,來進行加速計算4.3 DPP目標是選出k個物品集合S,使得()最大化這是個組合優化問題,從n個物品中選出k個。使用一種貪心算法求解。用 S表示已選中的物品,用 R表示未選中的物品。算法的每一步求解這樣一個問題:算法總時間復雜度為 O(n2*d+n*k2)。隨著集合S逐漸變大,其中必然會包含很多相似的物品,這會導致行列式 det(A)會坍縮到0,它的對數會接近負無窮。實踐中用滑動
12、窗口方法解決上述問題。同時,通過滑動窗口的方式,降低總時間復雜度,優化后時間復雜度為O(n2*d+n*k*w)。4.4 Listwise兩階段重排為了解決訓練的label僅來自于可觀測信號(曝光商品序列)的問題,將重排模塊劃分為序列生成和序列評估兩個模塊。序列生成序列生成環節的目標是從精排后的Top N個候選商品中生成包含K個商品的序列1.Beam search序列生成4.4 Listwise兩階段重排利用貪心思想進行每一步探索,只考慮當前最優解,以較低的計算代價產生接近全局最優的策略在考慮序列價值時,利用了商品預估點擊率、商品預估轉化率、位置曝光概率和序列相似度等信息,希望能平衡多樣性和效率
13、指標。其中,alpha 為多樣性和效率指標的平衡系數,為商品在位置j的曝光概率,Sim(i)為待選擇商品和已選擇序列的相似度分。Pexpoj2.LR輕量化序列生成由于線上RT和資源問題,序列生成部分無法嘗試帶Self-Attention結構的深度學習序列生成器,采用LR模型+人工上下文特征的方式,替代self-attention等序列建模方式3.多模板序列生成設計了多種點擊、轉化和下滑瀏覽目標交替插入的模板,不同模板對點擊、轉化和下滑的傾向性不同。根據不同人群的user側特征,隱式建模人群潛在點擊和成交的偏好,選擇最優模板序列。4.5 序列評估在序列評估環節,需要對序列生成環節產生的若干組候選
14、序列進行統一的價值評估,選擇其中價值最高的序列進進行曝光實驗平均曝光葉子類目平均曝光一級類目UV-CTRUV-CVR人均ipv輕量化序列生成/+1.94%-1.16%+0.03%多模板序列生成+評價器/+0.77%-0.69%+0.31%Beam Search序列生成+評價器+6.99%+1.28%+0.34%+2.74%+1.69%4.6 總結1.1.實驗效果實驗效果AB實驗上線后,從效率指標和多樣性指標兩個角度對各模塊進行觀察,相比DPP算法2.未來方向序列生成方法迭代:序列生成方法迭代:序列生成決定了模塊的下限后續將繼續探索更多的序列生成方法,嘗試在線上RT允許的范圍內提高序列的下限。重排目標擴充:重排目標擴充:重排層作為商品側推薦最后一步,需要考慮效率指標和體驗指標。針對這些用戶體驗指標,后續考慮單獨建模,與現有目標分進行融合。感謝觀看