《1-2 個性化強化學習技術在京東新品流量分發系統中的實踐與應用.pdf》由會員分享,可在線閱讀,更多相關《1-2 個性化強化學習技術在京東新品流量分發系統中的實踐與應用.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、個性化強化學習技術在京東新品系統中的實踐與思考趙宇京東零售-搜索算法部2022年9月Datafun決策智能在線峰會-強化學習論壇趙宇京東零售-搜索算法部北京大學博士,加州大學洛杉磯分校訪問學者?,F任京東零售-搜索算法部工程師,流量調控技術&流量探測技術負責人,設計研發了京東搜索大促流量調控系統、選測養系統、新品激勵系統、營銷聯動激勵系統等,帶來顯著業務價值。曾就職于阿里媽媽精準定向團隊,負責轉化率預估校準、點擊合約工作。發表高水平論文3篇,申報發明專利14項。個人介紹目錄一、電商搜索概述二、電商新品問題三、強化學習問題建模四、新品流量分發系統一、電商搜索概述業務場景主搜店鋪內搜索列表頁Coup
2、on圖搜業務渠道京東主站國際站下沉全渠道業品京東健康主搜xx%店鋪內搜xx%券搜xx%其他xx%APP GMV占比xxxxxxxxxxxxDAU搜索量點擊量GMVAPP主搜大盤APP主搜大盤挑戰1.搜索類型多,關鍵詞、列表、券、圖像2.技術棧,NLP、CV、檢索、推薦、強化學習3.站點類型多:主站垂站、C站B站、國內國際機遇1.京東最的流量場2.流量紅利消失,效率成為增長的驅動3.搜推站到了牽引意的C位一、電商搜索概述搜索商品xx億級,用戶xx千萬+/日,搜索量xx億/日,GMVxx億/日,訂單行xx百萬+/日。召回粗排搜索詞展示結果搜索架構:主搜APP/PC渠道:提升搜索效率和GMV全渠道等
3、業務場景:打通多場景線上線下購物微信京喜渠道:配合用戶下沉,帶來新的用戶增長精排重排調控搜索流量調控業務,就是通過算法/策略/系統的設計和優化,構建考慮平臺意志和長期價值的的流量分發系統:促進平臺商家健康活躍發展,提升平臺用戶和商家價值;精準的搜索流量預估和快速的流量分配機制,將優質的流量個性化/定量分發地分發給匹配的用戶和商家;對預售、上新、品類日、大促等商家/商品活動,設計激勵兼容的策略的算法/策略并持續優化;統一調權大促流量調控選測養系統新品流量分發 概述:確定性流量調控,在sku合集粒度提升商品集合的pv相對值 技術點:PID模型、sku合集粒度pv預估 概述:確定性流量調控,在sku
4、合集粒度提升商品集合的click相對值/click絕對值/gmv絕對值 技術點:強化學習DQN模型、sku合集click/gmv預估、效率止損、目標動態調整 概述:非確定性流量探測,在單品粒度提升商品集合的轉化率 技術點:強化學習CEM模型、單品gmv預估、止損算法、熔斷賦權、選品算法 概述:確定性流量調控,在query粒度提升商品集合的點擊率 技術點:強化學習DQN模型、PID模型、query粒度pv預估、止損算法、熔斷賦權一、電商搜索概述:流量調控字典服務平臺支撐實時流用戶畫像QP數據平臺訓練平臺基礎能力保召回熔斷能力賦權能力止損能力效率控制能力(出池)流量預估能力單品粒度流量控制能力cl
5、ick預估gmv預估query粒度sku集合粒度pv預估確定性調控PID模型非確定性調控相對值調控絕對值調控流量控制目標考慮轉化效率的PID模型強化學習DQN模型強化學習Multi-head分層多目標模型強化學習CEM模型強化學習考慮先驗概率的CEM模型流量控制模型輔助模塊目標天級調整目標小時級調整反饋效率計算上層業務平時調控選測養系統新品流量分發大促調控選品能力(入池)基于預估銷量選品基于流量反饋選品升級升級升級效率判斷人工熔品人工干預Boss指令業務意志交互人工提報入池人工提報出池止損狀態目標完成度數據看板大盤/類目可視化效率監控人群洞察分析Query建議備貨指導庫存指導定制指導一、電商搜
6、索概述:流量調控技術框架一、電商搜索概述:流量調控技術演進2020Q3統一調權上線大促調控模型v1上線大促調控模型v2上線大促調控模型v3立項選測養系統立項大促調控模型v3上線選測養系統上線新品調控系統上線新品調控系統立項業務進展PID模型相對值調控調控技術增量預估技術流量摸高技術預估技術天級熔斷模型效率控制技術選品技術2020Q42021Q22021Q32021Q4預估CVR優化PID模型基于預估P值的止損策略強化學習DQN模型絕對值調控目標動態調整sku合集粒度click預估技術sku合集粒度gmv預估技術基于預估uv價值的止損策略DQN新品在線流量分配模型基于流量反饋選品基于預估銷量選品
7、單品粒度銷量預估技術query粒度pv預估技術潛爆品預估模型基于Lookalike天級熔斷模型基于反饋效率的實時降權策略強化學習CEM模型非確定性目標調控新品離線流量分配模型營銷聯動激勵模型立項營銷聯動激勵模型上線2022Q1單品確定性調控模型單品粒度pv預估概率熔斷模型延遲反饋建模立項目錄一、電商搜索概述二、電商新品問題三、強化學習問題建模四、新品流量分發系統二、電商新品問題新品的特點:較短的上架周期弱用戶認知、弱系統認知 較高的商業價值強用戶需求、強運營需求應對策略:分層流量扶持撬動運營投入(流量調控)新品探測加速潛在價值挖掘(探索利用)新品成長的必要條件:足夠的曝光機會私域運營、自然流量
8、場E&E、新品流量場域合理的運營投入新品運營中心、流量確定性激勵準確的系統認知新品潛力分、新品偏好人群、新品分層不完全依賴排序舉例:搜索“秋裝”,新品排序位置通常較為靠后二、電商新品問題流量側解決方案:探索利用(E&E)機制保證高效新品曝光機會AB級新品流量激勵,鼓勵新品運營投入導致的晉升晉升新品流量確定性保障,保證商家體感針對新品的預估和校準,提升系統認知精度跨場域聯動策略機制,縮短成長周期搜索新品流量分發系統:流量確定性層保證晉升流量增量效率競爭層追求流量分發效率離線流量分配:兼顧品效和目標完成率在線流量調控:精準完成目標的同時最大化保證調控效率熔斷止損:基于實時反饋,禁止品效過低的商品參
9、與流量調控,保護搜索核心指標小魔方、搜索、推薦搜推頻道+資源+內容推薦(包括頻道Feed流)+事業部營銷+內容私域+廣告私域+廣告公域新品流量確定性增強私域/廣告(站外)冷啟流量擴大新品分層晉級與成長體系業務決策:每月支持xx億pv,承擔GMV折損成本xx億,激勵新品加速成長目錄一、電商搜索概述二、電商新品問題三、強化學習問題建模四、新品流量分發系統搜索query排序結果Action EnvironmentRankerAgent()State 點擊下單Reward State#userAgentEnvironmentStateRewardActionState#Environment -用戶
10、State -用戶狀態 Action -排序動作(商品打分)Reward-用戶反饋 Agent -排序策略強化學習在搜索場景的建模有監督學習 vs.強化學習狀態設計 強化學習的建模過程和目標 靜態 vs.交互 即時 vs.長期背景 強化學習建模用戶和系統交互,整體上優化長期累積收益 平衡人、貨、場三方收益三、強化學習建模三、強化學習建模圖1:搜索結果展示頁問題抽象1:商品集合達到特定的GMV目標,通過調整商品的展示位置來實現。問題抽象2:平臺關注整個頁面的GMV,而非單品的銷量,所以商品展示位置的調整,需要滿足效率約束(GMV/UV不降)圖2:流量與展示位置關系圖問題抽象3:商品集合的實時銷量
11、、和目標銷量之間,可以抽象為一個“反饋-控制”問題PID算法:實現部署簡易,維護成本低,引入特征少,模型潛力不足;RL算法:模型更為先進,后期可引入多維度特征,但訓練部署難度大,特別是冷啟階段;三、強化學習建模從0到1構建基于強化學習的流量分發系統,分為三個部分:第一部分:強化學習算法第二部分:在線流量分配第三部分:離線流量回放圖:流量中央控制模塊三、強化學習建模:DQN算法,TimeTimeFeatureFeatureTrafficTrafficFeatureFeatureEfficiencyEfficiencyFeatureFeatureActionAction實時日志實時曝光/點擊/訂單
12、實時特征實時點擊率/轉化率實時大盤/類目UV價值靜態特征目標類目離線流量回放(s,a,r,s)樣本池trainmodel用戶搜索自然排序調控商品展示離線模型在線調控 State設計時間維度特征:當前時間,調控次數,流量目標特征:流量完成情況,流量分發情況,類目下流量分布,搜索效率特征:實時cvr(ctr),整體cvr(ctr),類目/大盤UV價值diff,Action設計調控因子離散化,調控因子變化在-20%,+20%范圍內,步長為5%。Reward設計=!三、Reward函數的設計與思考設計思考:在CbC_0時,ReLU項作為懲罰項,意義是平臺不希望超額完成目標,超額完成目標對于平臺沒有額外
13、收益。b的設計應略大于1,比如取1.05,這是考慮到若b=1,則C就在下方來回震蕩,使得plan維度的目標完成率略小于100%,不符合平臺期望。Reward函數設計:C是累積完成值,C_0是累積目標值,參數a,b1。假設方案1.假設和始終為1,!在當日調控中保持不變。2.假設調序前后個性化轉化率與商品有關,個性化點擊率與位置相關。1.根據假設1,2以及調序公式,計算pvid下所有活動商品的位置改變量。2.位置沖突解決:原排序位置更高的商品優先級更高,優先級較低的商品向后遞推。3.計算位置改變后pvid下所有活動商品的新pctr累積和作為點擊數的估計。4.在pvid維度下進行模擬,以一定步長在!
14、定義域范圍進行枚舉,直至所有pvid累計點擊數和,恰好大于點擊流量目標。5是為平衡活動間差異而設計,也是模型的冷啟參數。是強化學習中控輸出,升高表明該活動下的sku排序要提高。表示商品的期望GMV。5的設計考慮到自然排序下的原始位置,不同原始位置下調序空間不同。由止損模塊輸出,0,1,=1時大盤-類目無損。調控因子如何作用于線上排序?冷啟參數如何獲???調控效果三、線上流量調控的核心調序公式背景/問題在線獲取樣本需要承擔一定的成本和風險。樣本積累速度慢,實驗周期長。方案前期利用離線模擬構造數據。中期使用真實數據+模擬數據組合的方式構造數據集。后期使用真實數據構造數據集。假設效果pctr只與展示位
15、置有關。點擊率與展示位置呈明顯的單調遞減趨勢。pcvr只與商品本身有關。能否成單主要還是取決于商品本身。線上校準后的pctr,pcvr接近于真實指標,商品點擊/訂單可以利用pctr和pcvr進行估計。樣本獲取容易,快速積累樣本數據,縮短模型上線周期??蓴U展性強,除支持登月強化學習調控,還可支持其他類型的流量分發、探測等系統。離線流量回放機制流程圖三、離線流量模擬系統:解決RL訓練冷啟問題三、離線流量模擬系統:生產流程和部署方式部署方式:使用100%模擬數據訓練模型模型上線,開始積累真實樣本使用90%模擬數據+10%真實數據訓練模型繼續積累真實數據,逐步提高真實數據在訓練集中的占比6_,數據集7
16、89:#6:#76978:#6:#7調整前調整后離線日志計算初始狀態根據動作調整計算新狀態計算反饋離線模擬數據生產流程:目錄一、電商搜索概述二、電商新品問題三、強化學習問題建模四、新品流量分發系統四、新品流量分發系統n 新品項目:強化學習調控從0到1(1/3)state設計時間維度信息:【當前時間,調控次數,】query流量信息:【新品曝光(點擊/訂單),整體曝光(點擊/訂單),】query轉化信息:【新品ctr(cvr),整體ctr(cvr),】搜索效率信息:【高相關類目實時UV價值/UCVR,】action設計調控因子離散化,調控因子變化在【-20%,+20%】范圍內,步長為10%rewa
17、rd設計融合reward的方式實現流量與效率兼顧解決方案Q s,aV sA s,aTimeFeatureTrafficFeatureEfficiencyFeatureAction強化學習模型結構reward=CC,C 1+b CctrCTR#,C 1 a C,1+b CCCctrCTR#,C 1 a C融合reward設計調控因子如何作用于線上排序?rk=!pctrpcvrlog rk!強化學習調控平衡量綱的冷啟參數商品轉化效率止損參數考慮原始位置賦予個性化調序空間表示模型冷啟參數,為平衡量綱設計。表示強化學習action輸出。pctrpcvr表示商品的轉化效率。log rk的設計考慮到自然排
18、序下的原始位置,不同原始位置下調序空間不同。由止損模塊輸出,0,1,=1時大盤-類目無損。四、新品流量分發系統存在問題融合reward很難表征各目標的獨立收益,且無法調整目標的偏好考慮更多目標/目標切換時融合reward設計困難,不利于迭代優化解決方案 多目標強化學習Multi-head RL多業務目標:曝光、點擊轉化、訂單轉化,以不同的業務目標為一路輸出,得到其收益 決策融合以線性融合方式獲取整體收益 動作選擇 不同的決策空間以不同的方式作用于線上排序多目標強化學習方案效果收益g;s,again sw;g;s,a=max?Again a|sxx個二級類目全量。搜索效率基本持平,UCVR+xx
19、%(P=xxxx),UV價值+xx%(P=xxxx)A層新品CTR提升+xx%,曝光CVR提升+xx%。B層新品CTR提升+xx%,曝光CVR提升+xx%沉淀專利1篇:一種基于強化學習的搜索新品流量分發方法雙目標強化學習實現示例n 新品項目:強化學習方案優化(2/3)四、新品流量分發系統存在問題缺乏對用戶個性化偏好調控圖1:有點擊(下單)行為用戶與無行為用戶在曝光件次提升上基本持平,在曝光位置提升上前者低于后者圖2:更多流量給到中尾部的新品偏好用戶解決方案 個性化強化學習類似雙塔的網絡結構,一方面是否為候選商品帶來提升主要受用戶影響,另一方面同一個商品對不同用戶展示位置不同(千人千面)stat
20、e引入用戶的歷史行為序列建模用戶行為偏好action包括兩部分:候選商品和位置個性化強化學習模型結構效果收益新品xx個類目已決策全量新品CTR整體提升+xx%,曝光CVR整體提升+xx%搜索效率:UCVR+xx%(P=xxxx),UV價值+xx%(P=xxxx),UCTR+xx%(P=xxxx)圖1 調控在有無新品點擊/訂單用戶上的表現圖2 調控在新品偏好分層用戶人群上的表現n 新品項目:強化學習算法優化(3/3)四、新品流量分發系統1.撬動新品占比提升:同比去年新品曝光占比絕對+xx%(xx%xx%)、GMV占比絕對+xx%(xx%xx%)。清晰的成長路徑帶動新品GMV提升,對比去年、搜索大盤新品GMV增加xx億/年。2.新品轉化效率明顯提升:新品CTR提升xx%,CVR提升xx%;3.算法策略給新品帶來額外增量:折合增加曝光xx億/年,點擊xx億/年業務收益:感謝您的時間THANKS