《2020年終大會-推薦算法:3-7.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-推薦算法:3-7.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、讓生活簡單美好多業務融合推薦場景下的深度學習實踐58同城高級算法架構師,羅景#page#好場景介紹:多業務融合推薦北京家減80元推薦部落視頻熱議家鄉面下你的自拍照,尋找你的有緣人學院路六道口富潤家園東王莊林業大學附近靜淑苑一居58APP首頁猜你喜歡1室1廳-60-靜淇商小區新上精修配齊全5500元大規模場景:UV千萬量級;帖子候選集億級別;模(月付)清華同方基金委(清華型訓練樣本10億級別;科技園)圣八號(中公教-林大家屬區多業務融合:覆蓋租房,招聘,二手房,二手車,本地生活,新房,新車等5500元多目標優化:涉及連接效率/商業收入用戶體驗10萬買輛三手別克是位子行為?打開后備箱朋友份/用戶留
2、存/運營活動等多目標平衡?。耗阈∽淤嵈罅嗽孪萝嚲┠蠘s盛新盤低首付低月供通透二居外地可買可貸京維0#page#讓生活簡單美好面臨挑戰:多業務融合召回策略:各個召回通道的業務適配重排策略:多業務之間的流量均衡分配展示樣式:不同業務展示元素與樣式的適配排序模型:特征對齊與特征工程復雜業務差異帶來的特征對齊困難帖子屬性信息差異用戶興趣業務差異樣本中帖子特征與用戶興趣特征維度上無法對齊反饋特征也由于業務差異,實際效果并不理想多業務特征工程流程/邏輯復雜部分特征需要針對不同業務維護特有的數據流程(e.g.用戶興趣構建)維護代價大存在業務特定的特征工程邏輯(e.g.匹配交叉特征)復雜度高#page#讓生活簡
3、單美好雙通道:行為序列興趣模型驗證動機:以用戶行為序列作為模型的核心輸入=優秀興趣建模能力,解決特征對齊困難,降低特征工程代價序列模型選型用戶行為序列構建DIN:注意力興趣序列構成:用戶點擊/轉化行為序列表征:帖子ID,類目,地域等DIEN:序列性,興趣抽取與演化,動關鍵屬性態興趣Transformer:自注意力&多頭,位置Embedding序列長度:基于業務周期結論:純序列興趣模型的效果并不能超越已有特征工程做得比較完善的XGB模型#page#讓生活簡單美好雙通道:定制化通道引入常通過特征工程模塊構建特征,然后將這部分特征作常規做法怎么把XGB模型中基于業務場景理解的高級特為數據合并入樣本,
4、進行模型訓練征(e.g.匹配交叉特征)與最佳實踐引入進來工程流程與邏輯仍比較復雜模型中引入特征交叉定制化結構把特征工程邏輯,引入到模型中來,通過對模型結構的定制來替代特定的特征工程邏輯,拼接Concat Layer層Customized Cross Layer交叉定制化通道CMutiplyLcosneCDNN層向量化層Embedding Layer(One-Hot/ Mult-Hot/ Pre-train)用戶用戶最用戶最站子用戶特征帖子站子貼子用戶最近近點擊近轉化關鍵興趣8S首圖18S標題搜索帖子關層帖子關標簽標簽詞鍵標簽鍵標簽#page#讓生活簡單美好雙通道:模型架構MLP定制化通道:序列
5、化通道:基于各特征維利用序列化度的向量化表建模組件,示,允許根據基于用戶行業務特點進行為序列自動定制化特征交叉層定制化交叉,抽取用戶興提供了業務與趣,提供了場景的可定制深度模型對化適配能力,用戶興趣的支持融入工程抽象表征與師們對業務場交又能力ContextUser景的理解與思Embdding考,進一步強化模型工程,向量化構建/預訓練Infoid/Cateid/Loca弱化特征工程推薦快選用戶行為序列上下文候選帖子用戶行為序列#page#讓生活簡單美好雙通道:回顧效果實現對基線最優模型的穩定超越:點擊率提升了3%,曝光轉化率提升5%顯著降低特征工程復雜度:通過在定制化通道引入特征交叉能力,以及基
6、于用戶行為序列的建模方式,使得特征工程流程數大幅減少,復雜度也明顯降低建立了序列化興趣模型線上線下的工程架構基礎:解決離線在線性能問題,成為主流排序模型進一步優化的基礎:后續的多通道模型升級以及多場景適配探索都是以雙通道模型為基礎#page#讓生活簡單美好多通道:探索方向深度:結合業務特點,在單行為序列上的深度優化DSIN(深度會話興趣模型):基于行為序列的會話切分對用戶興趣進行結構化建模MIMN(長序列用戶行為模型):以NTM(神經圖靈機)為基礎進行長用戶行為序列建模SIM(基于搜索的終身行為序列建模):采用兩階段方式,先選取相關行為,在精細化建模怎么更精準的刻畫用戶興趣基于用戶行為低頻/需
7、求聚焦這樣的一個業務特點,我們嘗試在廣度上引寬度入多種異構用戶行為序列,以實現對用戶興趣更全面立體化的刻畫#page#讓生活簡單美好多通道模型:用戶興趣的全面立體化刻畫MLF融合層拼接層定制興趣基礎興趣表達興趣核心興趣輔助興趣定制化通道搜索行為通道點擊行為通道轉化行為通道內容行為通道建立用戶最近行為/上基于點擊行為,與待根據用戶的進一步轉根據用戶在文章內容建立主動搜索行為與興趣抽取下文與待推薦帖子之推薦帖子進行自注意化行為,與待推薦帖上的瀏覽行為,與待待推薦帖子的關聯間的向量化交叉力交叉子進行自注意力交叉推薦帖子關聯層定制通道提供了基于利用序列化建模組件,提供了對用戶興趣的深度抽象表達能力業務
8、與場景的定制化從多個維度上實現了對用戶興趣的立體化刻畫興趣建模能力輸入層上下文用戶轉化行為序列候選帖子用戶點擊行為序列按索行為序列內容行為序列#page#讓生活簡單美好轉化行為通道:強化核心興趣優化點:單個行為的表征方式上,采用聚類ID代替帖子ID點擊行為表征轉化行為表征帖子聚類D類目類目地域地域ID聚類D聚類ID在泛化能力與區分度上能取得較好的平衡具體操作上,以每個帖子的關鍵業務屬性組合來進行聚類,相應的關鍵業務屬性組合值為聚類ID#page#讓生活簡單美好內容行為通道:興趣發現與補充業務模型:建立用戶與內容體系:用戶留存,忠誠度,輔助用戶決策與業務引流分類信息/服務的連接10萬買輛三手別克
9、是假子行為?打開后備箱朋友銹學院路六道口富潤家園東玉?。耗阈∽淤嵈罅饲f林業大學附近靜淑苑一居1廳60m最溫提小區長工瑞景配雪齊全5500元將用戶內容瀏覽行為應用于業務推薦,可以輔助發現與補充用戶興趣常規做法:構建用戶興趣標簽現有做法:語義空間映射新思路:行為窗口協同表征將文本內容進行關鍵詞與類目提根據用戶內容瀏覽行為,提取用取,然后采用與搜索行為通道類戶在業務上的偏好,然后將其應似的方式,在語義空間上進行交用于業務貼的推薦還在驗證又局限:需要進行內容理解,并將局限:語義相關性弱,內容多媒其映射到業務屬性上來體化#page#讓生活簡單美好多通道:回顧點擊行為通道:每個行為采用帖子的關鍵屬性與帖子
10、ID來進行表征行為表征是關鍵轉化行為通道:根據行為的稀疏程度,權衡表征特征的泛化能力與信號強度,采用聚類ID與關鍵屬性進行表征搜索行為通道:基于詞向量將搜索詞與帖子文本片段表征到統一的語義空間內容行為通道:采用詞向量表征是一種可選方式,但是存在比較大的局限性,行為窗口協同表征是后續探索的一個方向#page#讓生活簡單美好多場景適配:遷移能力探索多業務融合推薦單業務內推薦(租房為例)少無結果推薦租房列表頁少無結果推薦場景場景場景適配詳情頁相關推租房詳情頁相關推薦場景薦場景個性化業務首頁猜你喜歡場景:推薦場租房大類頁個性化推薦場景多通道深度興趣模型適配景#page#讓生活簡單美好多場景適配:場景適
11、配層引入-ML融合層場景表征通道興趣拼接層基礎興趣輔助興趣定制興趣核心興趣表達興趣倉公XXX場景適AdaptNetCAdaptNetAdaptNet配層場景表征點擊行為表征定制興趣基礎興趣表達興趣核心興趣輔助興趣定制化通追點擊行為通道搜索行為通道轉化行為通道內容行為通道興趣抽取層詳均行根據用戶在文章內容指白熱化交叉點擊行為表征輸入層行為#page#豐富定制化交叉適配網絡場景表征點擊行為表征交叉待推帖子標題最近query天地域交叉通道興趣場景表征最近點擊待推帖子點擊行為表征交叉T基于場景表征,通過注意力機用戶Top興趣待推帖子制對定制興趣/基礎興趣/表達興趣進行場景注意力適配通過在點擊行為序列通
12、道中為點擊適配網絡通過拼接通道興趣與在定制化通道中豐富場景定行為引入場景ID作為表征組成部分場景表征進行交叉學習,最終制交叉從而學習到場景的向量化表示輸出適配系數#page#讓生活簡單美好實踐落地:工程化訓練性能優化:訓TfRecord格式并行化采樣機制練時間(5天5樣本分塊存儲特征處理前置小時)線上性能優化:超時請求batch大小優化模型解耦上線率(10%-0.3%數據壓縮用戶數據Batch內共用以內)帖子ID關鍵屬性行為表征優化:效果協同表征提升起到關鍵聚類ID詞向量語義表征#page#讓生活簡單美好數據流:用戶行為序列時效對齊曝光時間expt現象:離線訓練效果顯著優于基線模型,上線后效果
13、卻并不理想小線樣本問題:診斷發現用戶行為序列,在訓練階段與預測階段時間上未在續能對齊-、離線在線數據分布不預測一致前時間往前及當前時間currt方案:90%以上的行為日志回流時延在2分鐘以內,訓練樣本中用戶行為序列從爆光時間往前推兩分鐘臺tatal分:otalkotal標站子直擊實時日志回流時延分布#page#讓生活簡單美好實踐:模型工程下的特征工程行為序列中用戶的一次點擊/轉化行為地域類目(.關鍵組合屬性(聚類ID)帖子ID信號強度(區分度)泛化能力整租酒仙橋電子城小區精裝修兩居室業務線關鍵組合屬性近新華科技898東風藝術區將臺站二手房類型+地域+價格+戶型+面積7300元月一付三(佛金:3
14、5%月租全)二手車類型+品牌+價格安遞已通過保真驗證59保障免費領整租房地域+房價+戶型合租房地域+價格+是否中介2室1廳1衛96m中128層短租房類型+位置+價格樓層超向房出新具商鋪租售地域+分類+供求+行業+類型貨車類型+價格+車系全職招聘類目+薪資+地域關鍵組合屬性(聚類ID)類目+地域兼職招聘酒仙橋_6000-8000二室一廳#page#讓生活簡單美好關鍵驅動因素:業務結合用戶行為追物料時效性用戶需求集中物料結構化程度用戶頻次周期度湘度特點電商可發散性,逛逛閉環中(結構化信息與生命期通常較中頻,長期長買點別的非結構化信)引流資訊低(以非結構的文高頻,長期興趣偏好寬泛,更新速度較快有意思
15、就好本圖像視頻)聚焦,就是來租低頻,活躍周期半閉環高(核心信息是結業務周期生活服務房/求職構化好的)#page#十模型架構多通道深度興趣模型業務形態用戶行為表征:關鍵組合屬性(聚類ID)需求明確程度:高/關鍵屬性/標題/帖子ID優化目標確定:轉化率為主日標,重排上業務閉環程度:半輔以流量調配+質量治理多通道序列化模型內容挖掘理解:根據業務提取核心表征信內容結構化程度:高總行為序列周期:根據業務生命周期確定內容時效性:業務多業務多場景適配多行為序列:用戶頻次低,使用過程聚焦精準刻畫尤為重要用戶使用頻次:低業務多樣,場景豐富#page#讓生活簡單美好展望:后續工作多通道深度興趣模型內容行為序列優化
16、:基于窗口協同的方式負反饋為序列引入:曝光未點擊行為引入場景業務適配:在單業務場景落地(租房)多目標優化多目標定義:連接效率主目標/閉環目標(成交/收入)/多樣性/用戶留存/用戶體驗多目標學習:多任務學習,強化學習探索#page#讓生活簡單美好總結:首頁猜你喜歡首頁猜你喜歡場景,過去一年半時間里,大盤效果,曝光轉化率提升50+%排序召回展示特色召回通道引入再營銷召回,冷啟動模型架構優化:雙通樣式對齊:無圖業務召回優化,場景化召打散:規則打散道多通道深度興口引入特色展示元素基于相似度的柔性打趣模型多場景適向量化召回:W2V散策略推薦解釋:引入推薦配(探索中)解釋,策略優化(生雙塔模型流量分配:基于用戶多目標優化:現有模成策略,密度控制,興趣集中度的流量分召回配置化:手工配型架構基礎上,采用維度優選)配機制置數據驅動(半ESSM多目標模型訓練閉環)自動調節(探索中)#page#讓生活簡單美好謝謝!