《240127騰訊游戲大規模圖學習研究與落地 .pdf》由會員分享,可在線閱讀,更多相關《240127騰訊游戲大規模圖學習研究與落地 .pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、姚亮 騰訊 高級研究員2024.1.27騰訊游戲大規模圖學習研究與落地騰訊游戲大規模圖學習研究與落地01.背景介紹02.千億規模圖計算框架PB-GNN03.鏈路預測算法的研究與應用落地 04.圖預訓練算法的研究與落地05.總結目錄目錄01.背景介紹01.騰訊游戲大規模復雜網絡大規模網絡 千千億億關系鏈關系鏈&互互動動&對局對局;復雜網絡 關系鏈關系鏈、互動互動、對局對局強社交玩家的活躍和付費意愿更強;陌生人社交,豐富游戲畫像維持穩定社交是游戲的運營目標之一通過好友關系提升活躍、促進付費意愿游戲畫像,直接支持游戲業務網絡規模大規模大 計算效率真實場景標簽少標簽少 預訓練技術02.千億規模圖計算框
2、架PB-GNN挑戰:跑通千億規模大圖02.大規模GCN框架選取GraphSAGE(NIPS17)FastGCN(ICLR18)ClusterGCN(KDD19)FastGCN(ICLR18)ClusterGCN(KDD19)圖分割圖分割 +子圖全量子圖全量GCNGCN:時空復雜度最低!時空復雜度最低!需要進一步完善!需要進一步完善!大規模GCN對比02.我們的大規模GCN框架 Partition-based Graph Neural Networks(PB-GNN)圖分割方法 第一版本方案:分布式Metis隨機切割大圖,再對子圖運行Metis 第二版本方案:LPMetis標簽傳播(lp)做社區
3、發現將社區看作點,對社區組成的圖做單機圖分割 對比:分布式Metis vs.LPMetis運行效率:提升60.7%81.8%信息損失:減少220.6%02.Part:圖分割Label Propagation with METIS(LPMetis)圖分割方法圖分割方法優點優點缺點缺點結論結論Metis(C語言)單機效率較高不能支持千億邊的圖不可用fastunfolding(Spark)速度較快易形成超級社區(1000萬點)不可用標簽傳播(Spark)速度較快易形成超級社區(1000萬點)不可用wMetis(Spark)子圖分布均勻仍需提速可用,需提速LPMetisLPMetisMetisMeti
4、sLabel Label PropagationPropagation第二版方案:LPMetis LPMetis效果能跑通千億邊大圖(459min)切圖更均勻保留邊更多速度更快同樣切圖,節點分類準確率比metis高02.Part:圖分割Label Propagation with METIS(LPMetis)Metis vs.LPMetis圖分割算法效果對比數據集02.Part:子圖數據增強 特征增強大盤無監督embedding+分類器(PB-GNN)子圖=節點,子圖間被刪邊=邊,生成Node2vec向量(FA)結構增強KOL增強:訓練時刪掉子圖中Pagerank值最低的5%節點(SA-KOL
5、)優于隨機刪邊(SA-Rand)、基于Node2vec相似度增刪邊(SA-N2V)子圖采樣用一部分子圖訓練更多輪次子圖數據增強效果子圖采樣效果02.實際場景線上效果 靈活的選擇有監督:GCN,GAT,GRAND+等無監督:DGI,GraphMAE等 多個場景線上A/B實驗取得顯著效果提升社交推薦(SR):提升8.24%欺詐賬號識別(IFU):提升11.94%游戲廣告投放(UA):提升13.89%離線對比AUC提升1.3%5.2%效率提升18%50%PB-GNN:Partition-based Billion-scale Graph Neural Network Framework.Submit
6、ted.數據集與SOTA的離線效果對比線上A/B實驗效果對比02.鏈路預測算法的研究與應用落地03.Motivation 游戲內有很多排序場景推薦好友推薦道具推薦游戲推薦模式 挑戰如何利用玩家、道具、交互信息如何利用大規模無標簽數據好友召回流程03.問題定義:鏈路預測 傳統方法:規則:歷史交互 節點分類:玩家t是否接受邀請我們提出:將問題定義為鏈路預測(節點之間是否存在邊)玩家二部圖是否存在成功邀請的邊 存在邊:邀請成功 不存在邊:未邀請/未成功 同時考慮玩家玩家h h特征特征,t特征,交互特征,歷史活動信息歷史活動信息 實驗效果:hitsk:前k個實際被召回比例,MR:平均排名,MRR:排名
7、倒數平均 簡單MLP鏈路預測 GNN 規則 XGB 簡單MLP鏈路預測hits3相對XGB提升22.17%數據舉例鏈路預測問題03.傳統鏈路預測算法 啟發式方法 共同鄰居數,最短路徑等 基于embedding的方法 DeepWalk,Node2vec等 MLP/XGB 直接對邊訓練MLP/XGB bilinear =+準確度提升0.5%鏈路預測方法對比03.自研算法:Edge CNN bilinear:=+與,沒有直接關聯(例如:h的付費,r的送金幣)Edge CNN(inspired by ConvKB1)全局信息全局信息,將融合建模融合建模 三個MLP將映射到相同維度:=,3,:13 fi
8、lter 13 3個feature map:=,.,,=(,:+)拼接,MLP得到預測值 線上曝光轉化率相對bilinear提升4.2%1 A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network(Nguyen et al.,NAACL 2018)Edge CNN示例數據舉例03.自研算法:Edge Transformer Edge Transformer Edge CNN特征融合不靈活,不能自由兩兩關聯(h:師徒+付費,r:送花,t:師徒)受NLP和CV啟發,首次首次
9、將Transformer1(注意力機制)用于帶屬性的鏈路預測 position embedding:CLS:0,h:1,r:2,t:3 三個MLP將特征映射到同樣維度 游戲C:6層,游戲D:4層,游戲E:2層 線上曝光轉化率相對Edge CNN提升2.2%1 Attention is all you need(Vaswani et al.,NIPS 2017)數據舉例Edge Transformer 結構圖 03.圖數據增強:特征傳播增強 特征傳播 其他好友的狀態影響玩家邀請/接受 有活躍好友的玩家更容易接受 將好友的特征和自己融合在一起 鏈路預測首次首次使用 新的節點h,t特征=,2,3,:
10、節點原始特征矩陣,A:社交網絡的鄰接矩陣 游戲C實驗:hits1提升0.2%權威圖學習競賽OGB:鏈路預測任務ogbl-collab全球第一第一(2022.04)高階特征傳播ogbl-collab賽道第一名游戲知識圖譜構建:引入BERT特征 游戲圖譜補全 問題描述:預測一個關系事實存在的概率,與好友召回可類比 Edge CNN 圖譜embedding方法 bilinear 引入多模態信息(文本、圖像)預測網絡接入:文本sentence-bert,圖像resnet hits1提升53.5%:可減少人工校正工作量,embedding可用于下游任務!權威圖學習競賽OGB:知識圖譜鏈路預測任務ogbl
11、-wikikg2全球第一第一(2023.01)LLM知識圖譜補全 圖譜補全 三元組分類 關系預測 實體預測Liang Yao,Jiazhen Peng,Chengsheng Mao,and Yuan Luo.Exploring large language models for knowledge graph completion.arXiv preprint arXiv:2308.13916(2023).LLM知識圖譜補全 圖譜補全微調LLaMA,ChatGLM可超過ChatGPT和GPT-4三元組分類,關系分類SOTA效果在游戲圖譜中結論類似LLM知識圖譜補全 圖譜補全微調LLaMA,Ch
12、atGLM可超過ChatGPT和GPT-4三元組分類,關系分類SOTA效果在游戲圖譜中結論類似引入圖結構embedding可繼續提升Yichi Zhang,Zhuo Chen,Wen Zhang,and Huajun Chen.Making Large Language Models Perform Better in Knowledge Graph Completion.arXiv preprint arXiv:2310.06671(2023).03.圖預訓練算法的研究與落地03.自研算法:圖預訓練模型Edge MAE Edge MAE 點擊樣本在活動中只占少數 用大規模無標簽邊大規模無標簽
13、邊(曝光未點擊)預訓練 隨機遮住1/3,Transformer解碼器(1層)恢復原始特征 將預訓練好的Transformer Encoder作為Edge Transformer初始化 首次首次將掩碼預訓練引入圖的鏈路預測 效果:隨著無標簽樣本量增加,離線準確度逐步提升Edge MAE 框架03.Edge MAE更多效果數據 Edge MAE 超過傳統方法&學術界最新方法 TranS(2022),Pairwise Ranking in GraFRank(WWW 2021)統計顯著(p-value 0.05)發表于頂會SIGIR 2023 代碼開源:https:/ Yao Yao,Jiazhen
14、Peng,Shenggong Ji,Qiang Liu,Hongyun Cai,Feng He,and Xu Cheng.Friend Ranking in Online Games via Pre-training Edge Transformers.In SIGIR 2023.Edge MAE 線上效果Edge MAE 與學術界前沿算法對比03.更多應用場景 道具推薦 問題描述:預測玩家購買道具的概率,與好友推薦可類比 效果 游戲D:相對線上base,加入Edge CNN,線上購買率提升3.70%3.70%道具推薦場景數據舉例03.合作算法:圖預訓練探索 Graph Transformer
15、 Pre-Training 從單場景單任務到跨場景多任務 目標是實現跨時間、跨平臺、跨游戲的transfer Method PPR采樣+graph transformer PE:GNN 效果:Ogbn-arxiv數據集準確度提升1%2.7%預訓練+精調框架03.合作算法:圖預訓練探索 Graph Transformer Pre-Training 預訓練目標 自監督學習 節點:feature mask reconstruction loss 邊:cluster structure reconstruction loss Encoder-decoder 1 encoder,2 decoders(n
16、ode&edge)實際應用場景效果 欺詐賬號識別 ppr-transformer準確度提升2%標簽充足時預訓練提升不明顯,標簽越少提升越明顯,標簽只有1%時預訓練提升4.7%跨游戲預訓練目前仍未探索出效果有增益的方法Graph Transformer Pre-Training04.Thanks and Takeaway Notes 圖計算在游戲領域有很多應用場景 真實業務場景的圖通常很大,并且只有有限的標簽 大規模圖計算框架 LPMetis圖分割算法切得更快、更均勻、保留了更多的邊 被切割后的子圖需要采取數據增強手段彌補損失的信息 圖預訓練模型 Pre-train+finetune是利用無標簽數據的有效框架 同一場景無標簽數據預訓練對于最終效果有穩定提升 跨場景預訓練如何適配數據分布差異需要進一步探索