《圖機器學習在京東內容推薦中的應用-京東-姚翔宇.pdf》由會員分享,可在線閱讀,更多相關《圖機器學習在京東內容推薦中的應用-京東-姚翔宇.pdf(42頁珍藏版)》請在三個皮匠報告上搜索。
1、圖機器學習在京東內容推薦中的應用姚翔宇京東-搜推內容算法組2024-1-27目錄1/背景2/圖基礎能力打造3/視頻召回中的圖算法4/總結目錄1/背景2/圖基礎能力打造3/視頻召回中的圖算法4/總結背景視頻/直播+電商,迅速崛起并蓬勃發展京東視頻及直播電商場景淘寶抖音直播內容背景視頻/直播電商的價值用戶:沉浸式內容更容易種草、產生信任,縮短決策時間,激發新興趣,提升購物體驗平臺:有效提升平臺的停留時長,帶來更多的用戶轉化機會,提升轉化效率商家:優質內容可以為商家帶來更多流量和成單,為商家提供內容化的流量運營抓手首頁為你推薦信息流視頻落地頁信息流京東視頻電商示例背景工業界推薦系統鏈路:用戶交互用戶
2、交互算法鏈路算法鏈路視頻直播背景推薦系統與圖機器學習的聯系用戶-商品圖上的鏈路預測=推薦節點表示=用戶興趣電商異質圖實際電商場景相對復雜,包含多種類型節點及其復雜交互用戶交互語義語義豐富豐富交互復雜交互復雜大規模異質圖背景圖神經網絡(GNN)針對圖結構數據設計的神經網絡(一種鄰居信息-一種節點表示)異質圖神經網絡(HGN)GNN的泛化版本,能處理復雜圖結構與豐富語義(多種鄰居信息-多種節點表示-表示融合)圖神經網絡異質圖神經網絡背景圖卷積圖池化搜推場域背景圖召回架構圖全域多模圖神經網絡(圖卷積、圖池化、圖匹配、子圖篩選、圖預訓練大模型)視頻外頁-交互圖召回算法層數據層業務層視頻內頁-子圖召回全
3、域數據 多模數據公域內容域廣告場域私域商品域視頻圖片文本圖索引召回目錄1/背景2/圖基礎能力打造3/視頻召回中的圖算法4/總結搜推場域圖基礎能力打造圖召回架構圖全域多模圖神經網絡(圖預訓練大模型)算法層數據層業務層全域數據 多模數據公域內容域廣告場域私域商品域視頻圖片文本圖基礎能力打造已有方法:傳統建模比較依賴用戶行為序列,受到用戶行為session限制挑戰&方案 如何對億級圖數據進行高效建模 如何對復雜的異構多源數據融合挑戰:圖節點表示能力有限在圖模型設計上考慮數據(大且豐富)和模型(大且通用)2個維度方案:全域多模圖預訓練大模型全域多模圖M5-Graph1.Multi-Domain:搜索,
4、推薦,廣告等2.Multi-Material:商品,視頻,直播等3.Multi-Position:首頁,商詳,內頁等4.Multi-Relation:點擊,觀看,轉發等5.Multi-Modal:圖片模態,文本模態等全域數據內容域廣告場域私域商品域搜推場域公域圖基礎能力打造圖基礎能力打造預訓練模型M5-GPT 節點類型轉換:鄰居的重要性:節點級別聚合:圖基礎能力打造具體方案模型訓練:模型訓練:通過用戶是否點擊的訓練任務,來指導模型學習用戶和視頻的表示推斷:推斷:輸出預訓練的視頻側Video embedding線上服務線上服務:通過向量化檢索的方式得到video2video詞表通過載入預訓練em
5、b的方式升級召回,排序的模型圖基礎能力打造實驗效果 離線AUC等指標提升,在線效率和生態指標都顯著提升,已完成全量實驗圖基礎能力打造實驗效果 實時觸發召回圖基礎能力打造實驗效果圖基礎能力打造詞表生成與上線視頻表示的基礎上,利用向量化檢索包 faiss生成video2video(v2v)詞表詞表用戶對視頻的行為(包括點擊、完播、評論等)作為觸發,召回候選視頻圖基礎能力打造應用場景目錄1/背景2/圖基礎能力打造3/視頻召回中的圖算法4/總結搜推場域視頻外頁-交互圖召回 圖召回架構圖視頻外頁-交互圖召回算法層數據層業務層全域數據 多模數據公域內容域廣告場域私域商品域視頻圖片文本視頻外頁-交互圖召回業
6、務特點新興素材面臨更嚴重的數據稀疏:用戶量和交互量偏低用戶點擊過的視頻和商品有一定的相關性用戶-商品交互量用戶-視頻交互量 視頻外頁-交互圖召回已有方法:僅考慮單域的行為與興趣,缺乏用戶在不同域行為興趣的潛在聯系的刻畫挑戰&方案 1.統一描述用戶在不同域的異構行為 2.建立不同域行為興趣偏好的聯系挑戰:不同域行為興趣的聯系建模構建雙域圖在圖上建模交互并學習表示方案:多域交互圖召回視頻域、商品域:基礎邊、異構邊節點表示初始化單圖內部交互多圖外部交互用戶雙域行為和興趣的對齊和互補興趣表示抽取、多域表示融合視頻外頁-交互圖召回具體方案雙域圖的構建在雙域圖上建模交互并學習表示單圖內部交互多圖外部交互用
7、戶雙域行為和興趣的對齊和互補興趣表示抽取多域表示融合視頻外頁-交互圖召回具體方案在雙域圖上建模交互并學習表示視頻外頁-交互圖召回 Case搜推場域視頻內頁-子圖召回 圖召回架構圖算法層數據層業務層視頻內頁-子圖召回全域數據 多模數據公域內容域廣告場域私域商品域視頻圖片文本視頻內頁-子圖召回業務特色用戶在主頁點擊引流素材后跳轉到內頁(引流素材=即時興趣)引流相關性 v.s.用戶個性化視頻內頁-子圖召回已有方法:目前內頁召回考慮因素單一:用戶/引流視頻/簡單拼接;建模粒度過粗,缺乏精細化建模挑戰&方案 召回結果與用戶即時興趣的相關性保證 用戶長期興趣和即時興趣的有機融合挑戰:基于引流信息的內頁特色
8、召回興趣子圖劃分與表示即時興趣篩選與融合方案:即時興趣子圖的向量召回視頻內頁-子圖召回子圖劃分即時興趣子圖搜索興趣表示興趣融合即時興趣子圖召回方法視頻內頁-子圖召回 CaseUser1(偏好平板)User2(偏好自行車配件)搜推場域圖索引召回圖召回架構圖算法層數據層業務層全域數據 多模數據公域內容域廣告場域私域商品域視頻圖片文本圖索引召回圖索引召回召回在耗時約束下,如何提升大規模候選視頻打分的精度?“物以類聚,人以群分”分層聚類分層聚類視頻分層測評視頻電子測評首飾測評家電測評手機測評電腦測評冰箱測評空調測評圖索引召回已有方法:通過雙塔模型大規模內積近鄰檢索來完成 Topk 查詢,模型能力受到了
9、較強的限制挑戰&方案 1.缺少用戶行為與候選結果的交互 2.索引結構與模型訓練的強耦合挑戰:傳統召回模型能力有限采用hnsw檢索圖構建候選item索引通過檢索算子進行高效檢索方案:hnsw圖索引召回圖索引召回具體方案共享embedding層獲取輸入特征embedding將target item與用戶行為進行targetattention,對行為序列加權求和來建模用戶 行 為 序 列 與 目 標 i t e m 的 關 聯 程 度將用戶畫像特征、加權求和后的行為embedding,目標item embedding拼接,通過深度打分模型輸出一個概率值,表示用戶對目標item 的偏好程度算法流程索引
10、構建圖索引召回hnsw檢索圖流程1.選擇最大層:選擇最大層:每個節點都被隨機分配一個整數l,表示該節點可以出現在圖中的最大層數l=ln(uniform(0,1)!2.插入新節點:插入新節點:a.從頂層開始,貪婪地尋找最近鄰節點,找到下一層的入口節點b.從第l層開始,向每一層插入這個新節點,貪心搜索K個節點作為候選集,并從K個鄰居中選擇M個節點構建邊圖索引召回hnsw檢索圖流程為防止出現圖不連通情況,從K個鄰居中選擇M個節點時采用啟發式策略選擇第一個最近鄰的節點并將它和節點X進行連邊當這個節點到X的距離小于所有該節點到已連接X的節點距離時,才將它和X連邊.接著,算法繼續對下一個最近鄰進行判斷,直到構建 M 條邊.目錄1/背景2/圖基礎能力打造3/視頻召回中的圖算法4/總結總結總結內容電商(視頻+直播)成為近年電商發展新趨勢和動力圖基礎能力打造框架構建圖預訓練視頻召回中的圖算法視頻外頁:融合視頻域、商品域等信息的多域交互圖召回視頻內頁:基于引流信息的即時興趣子圖召回圖索引召回:召回步驟加速Thanks!