《大模型在推薦系統中的落地實踐.pdf》由會員分享,可在線閱讀,更多相關《大模型在推薦系統中的落地實踐.pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型在推薦系統中的大模型在推薦系統中的落地實踐落地實踐演講人:王皓中國科學技術大學 特任副研究員CONTENTS目 錄01推薦大模型背景02研究現狀03生成式推薦大模型04總結與展望大模型推薦背景推薦系統推薦系統 推薦系統:推薦系統:從用戶歷史歷史行為數據中學習用戶行為模式,預測未來未來用戶行為 亟待解決的問題亟待解決的問題:推薦數據稀疏數據稀疏,存在大量冷啟動冷啟動用戶與物品,模型難以挖掘用戶行為模式協同過濾協同過濾20002000年左右年左右20102010年左右年左右矩陣分解矩陣分解20152015年左右年左右神經網絡神經網絡今天今天?大模型技術大模型技術大模型技術急速發展,正在成為大
2、模型技術急速發展,正在成為AIAI新范式!新范式!大模型技術優勢大模型技術優勢 涌現能力涌現能力:模型參數規模參數規模超過某個閾值時,模型精度劇烈增長基礎:基礎:海量文本的高質量清洗及超大規模語言模型訓練大量認知Prompt任務的有監督訓練代碼、文本數據融合訓練人工反饋下的強化學習:注入了人類偏好注入了人類偏好45TB45TB原始海量文本語料570GB570GB清洗后語料(93%是英文)175GB175GB模型(在GPU顯存)4040個眾包團隊個眾包團隊標注人類反饋數據96%是英文增強增強推理推理激活激活知識知識數萬個任務數萬個任務PromptPrompt,涉及生成、問答、頭腦風暴、閑聊等83
3、0GB830GB代碼數據代碼數據數據來源:InstructGPT官方論文上億活躍用戶持續上億活躍用戶持續提供數據提供數據文本生成文本生成數學能力數學能力知識問答知識問答邏輯推理邏輯推理語言理解語言理解代碼能力代碼能力推薦系統推薦系統+大模型大模型 模型泛化性模型泛化性:推薦系統難以適應新任務與新場景新任務與新場景;而大模型推薦能夠依賴零零/少樣本推理能力少樣本推理能力,快速適應新新的推薦任務的推薦任務,高效跨域泛化跨域泛化 表征建模能力表征建模能力:推薦系統缺乏語義信息語義信息;而大模型推薦能提取高質量的文本表示文本表示,并利用編碼的世界知識世界知識完善物品理解和用戶建模 個性化內容生成個性化
4、內容生成:推薦系統僅能回答用戶對給定候選集給定候選集中物品的偏好;而大模型推薦具備生成能力生成能力,可以生成不受限的個性化內容個性化內容,且具備較好的可解釋性可解釋性大模型推薦大模型推薦 vsvs 純推薦系統純推薦系統可解釋性可解釋性零零/少樣本推理少樣本推理世界知識、常識世界知識、常識生成能力生成能力研究現狀 傳統大模型推薦 生成式推薦大模型傳統大模型推薦傳統大模型推薦 挖掘用戶與物品的深度文本語義關聯文本語義關聯,增強冷啟動場景冷啟動場景的推薦能力,可解釋性強可解釋性強 應用模式:應用模式:目前大語言模型的推薦以發揮大語言模型的文本能力為主,可根據其應用模式分為三類:大模型大模型生成表征生
5、成表征+推薦系統推薦系統、大模型生成文本大模型生成文本+推薦系統推薦系統、大模型生成推薦結果大模型生成推薦結果大語言模型與推薦模型的結合大語言模型與推薦模型的結合1).1).大模型生成表征大模型生成表征+推薦系統推薦系統2).2).大模型生成文本大模型生成文本+推薦系統推薦系統3).3).大模型生成推薦結果大模型生成推薦結果Wu L,Zheng Z,Wu L,Zheng Z,QiuQiu Z,et al.A survey on large language models for recommendationJ.Z,et al.A survey on large language models
6、for recommendationJ.arXivarXiv preprint arXiv:2305.19860,preprint arXiv:2305.19860,2023.2023.傳統大模型推薦傳統大模型推薦1 1:大模型生成表征:大模型生成表征+推薦系統推薦系統研究背景研究背景推薦模型處理文本信息通常依賴文本編碼器:編碼文本信息能力弱:編碼文本信息能力弱:相比小語言模型,大模型自身對文本編碼能力文本編碼能力強大,能提供高質量表征高質量表征 難以深入理解文本信息:難以深入理解文本信息:憑借著豐富的知識與推理能力,大模型能夠引入小語言模型不具有的外部知識外部知識大語言模型的編碼結果與實際上
7、相關的物品更接近大語言模型的編碼結果與實際上相關的物品更接近A A與與B,CB,C無關無關B B與與C C相關相關A A的嵌入的嵌入B B的嵌入的嵌入C C的大模型嵌入的大模型嵌入C C的傳統語言模型的傳統語言模型(BERT)(BERT)嵌入嵌入C C的傳統語言模型的傳統語言模型(Glove)(Glove)嵌入嵌入Bao K,Zhang J,Zhang Y,et al.Bao K,Zhang J,Zhang Y,et al.TallrecTallrec:An effective and efficient tuning framework to align large language mod
8、el with:An effective and efficient tuning framework to align large language model with recommendationC/Proceedings of the 17th ACM Conference on Recommender Systems.2023:1007-1014.recommendationC/Proceedings of the 17th ACM Conference on Recommender Systems.2023:1007-1014.傳統大模型推薦傳統大模型推薦1 1:大模型生成表征:大
9、模型生成表征+推薦系統推薦系統使用判別式模型獲得文本嵌入,提高推薦模型嵌入質量使用判別式模型獲得文本嵌入,提高推薦模型嵌入質量 大模型嵌入替代或添加進推薦模型嵌入大模型嵌入替代或添加進推薦模型嵌入(如如BIGRecBIGRec):利用大模型獲取物品的嵌入,將嵌入替代替代或添加添加進推薦嵌入進行后續推薦 推薦模型與大模型的嵌入對齊推薦模型與大模型的嵌入對齊(如如CTRLCTRL、ClickPromptClickPrompt):將大模型生成的嵌入與推薦嵌入通過對比學習、注意力等方法對齊對齊大模型嵌入與推薦模型嵌入拼接大模型嵌入與推薦模型嵌入拼接嵌入嵌入拼接拼接對比對比學習學習大模型嵌入與推薦模型嵌
10、入使用對學習對齊大模型嵌入與推薦模型嵌入使用對學習對齊Lin J,Chen B,Wang H,et al.Lin J,Chen B,Wang H,et al.ClickPromptClickPrompt:CTR Models are Strong Prompt Generators for Adapting Language Models to:CTR Models are Strong Prompt Generators for Adapting Language Models to CTR PredictionC/Proceedings of the ACM on Web Conferen
11、ce 2024.2024:3319-3330.CTR PredictionC/Proceedings of the ACM on Web Conference 2024.2024:3319-3330.傳統大模型推薦傳統大模型推薦1 1:大模型生成表征:大模型生成表征+推薦系統推薦系統總結與展望總結與展望Bao,Bao,KeqinKeqin,et al.A bi-step grounding paradigm for large language models in recommendation systems.,et al.A bi-step grounding paradigm for la
12、rge language models in recommendation systems.arXivarXiv preprint preprint arXiv:2308.08434(2023).arXiv:2308.08434(2023).訓練與推理時延:訓練與推理時延:LLM模型生成嵌入的速度較慢慢,導致了額外的時間和空間開銷時間和空間開銷 大模型存在編碼對齊困難的問題:大模型存在編碼對齊困難的問題:大模型的極大參數量使得其迭代更新困難,導致了表征結果和推薦模型的差異性,LLM的編碼空間與推薦模型的編碼空間難以對齊編碼空間難以對齊大模型直接嵌入結果的分布與推薦域分布間存在大量偏差大模型直接
13、嵌入結果的分布與推薦域分布間存在大量偏差紫色點表示大模紫色點表示大模型生成的有偏差型生成的有偏差的表征結果的表征結果傳統大模型推薦傳統大模型推薦2 2:大模型生成文本:大模型生成文本+推薦系統推薦系統研究背景研究背景Xi,Xi,YunjiaYunjia,et al.Towards Open-World Recommendation with Knowledge Augmentation from Large Language Models.,et al.Towards Open-World Recommendation with Knowledge Augmentation from Larg
14、e Language Models.arXivarXiv preprint arXiv:2306.10933(2023).preprint arXiv:2306.10933(2023).缺乏開放域背景知識缺乏開放域背景知識:推薦模型無法包含開放域知識開放域知識,而大模型經過大量數據訓練,具備廣泛的背景知識背景知識 無法對輔助信無法對輔助信息推理息推理:推薦模型通常只基于序列或特征建模,而LLM可以結合上下文和輔助信息上下文和輔助信息進行推理推理 受限于信息質量受限于信息質量:相比于直接編碼文本信息,大模型可以通過推理和知識整合推理和知識整合提高信息的準確性和深度傳統推薦模型:傳統推薦模型:模型
15、難以獲得外部知識模型難以獲得外部知識無法加工知識無法加工知識信息質量低信息質量低大模型推薦模型:大模型推薦模型:利用大模型引入外部知識利用大模型引入外部知識基于知識進行推理基于知識進行推理提升知識質量提升知識質量傳統大模型推薦傳統大模型推薦2 2:大模型生成文本:大模型生成文本+推薦系統推薦系統利用外部知識庫和上下文信息來增強推薦輔助信息利用外部知識庫和上下文信息來增強推薦輔助信息Xi,Xi,YunjiaYunjia,et al.Towards Open-World Recommendation with Knowledge Augmentation from Large Language M
16、odels.,et al.Towards Open-World Recommendation with Knowledge Augmentation from Large Language Models.arXivarXiv preprint arXiv:2306.10933(2023).preprint arXiv:2306.10933(2023).提煉和聯想新信息提煉和聯想新信息(如如KAR)KAR):利用LLM從輸入中提煉關鍵信息提煉關鍵信息,并聯想聯想生成新的相關內容以豐富推薦 開放域知識引入開放域知識引入(如如CTRL)CTRL):通過嵌入對齊嵌入對齊,將開放域知識開放域知識無縫集成
17、到推薦中,增強內容多樣性大模型提練大模型提練關鍵信息關鍵信息Li,Xiangyang,et al.CTRL:Connect Tabular and Language Model for CTR Prediction.Li,Xiangyang,et al.CTRL:Connect Tabular and Language Model for CTR Prediction.arXivarXiv preprint arXiv:2306.02841(2023).preprint arXiv:2306.02841(2023).大模型引入大模型引入外部語料信息外部語料信息大模型提升大模型提升文本質量文本質
18、量傳統大模型推薦傳統大模型推薦2 2:大模型生成文本:大模型生成文本+推薦系統推薦系統總結與展望總結與展望Liu,Liu,QijiongQijiong,et al.ONCE:Boosting Content-based Recommendation with Both Open-and Closed-source Large Language,et al.ONCE:Boosting Content-based Recommendation with Both Open-and Closed-source Large Language Models.Models.arXivarXiv prepr
19、int arXiv:2305.06566(2023).preprint arXiv:2305.06566(2023).額外的推理時延:額外的推理時延:模型推理過程可能導致響應時間響應時間增加,影響實時性實時性 生成質量依賴于提示模板:生成質量依賴于提示模板:輸出結果高度依賴于輸入提示的質量提示的質量,需精心設計精心設計以確保生成效果大模型的集成大模型的集成帶來了額外的帶來了額外的時延問題時延問題大模型集成大模型集成到推薦系統中到推薦系統中提示模板需要提示模板需要專門設計專門設計傳統大模型推薦傳統大模型推薦3 3:大模型生成推薦結果:大模型生成推薦結果研究背景研究背景 推薦可解釋性差:推薦可解釋
20、性差:推薦模型難以解釋難以解釋推薦結果,而大型語言模型可以對其對推薦結果生成解釋生成解釋 數據稀疏和冷啟動問題:數據稀疏和冷啟動問題:基于交互的推薦模型難以對冷啟動冷啟動用戶生效,大模型的豐富背景知識背景知識能夠基于文本文本進行冷啟動推理冷啟動推理大模型判斷用戶是否會選取物品大模型判斷用戶是否會選取物品大模型判斷用戶會選取哪個商品大模型判斷用戶會選取哪個商品ZhaiZhai,JianyangJianyang,et al.Knowledge prompt-tuning for sequential recommendation.Proceedings of the 31st ACM Intern
21、ational,et al.Knowledge prompt-tuning for sequential recommendation.Proceedings of the 31st ACM International Conference on Multimedia.2023.Conference on Multimedia.2023.傳統大模型推薦傳統大模型推薦3 3:大模型生成推薦結果:大模型生成推薦結果通過預訓練后的通過預訓練后的LLMLLM與推薦任務的對齊,直接生成推薦結果與推薦任務的對齊,直接生成推薦結果Liao,Liao,JiayiJiayi,et al.,et al.Llara
22、Llara:Aligning large language models with sequential recommenders.:Aligning large language models with sequential recommenders.arXivarXiv preprint arXiv:2312.02445 preprint arXiv:2312.02445(2023).(2023).提示工程提示工程(如如TALLRecTALLRec、KP4SR)KP4SR):通過設計專門的promptprompt,輸入用戶信息、上下文以及候選物品列表作為輔助信息輔助信息,使LLM生成推薦結
23、果 推薦模型嵌入融入(如推薦模型嵌入融入(如LLaRaLLaRa):):將來自推薦模型推薦模型(如協同過濾模型或圖神經網絡)的embeddingembedding融入融入到模型中,結合LLM的語義理解語義理解能力和推薦模型提取協同信息協同信息的能力推薦嵌入推薦嵌入文本嵌入文本嵌入嵌入融合嵌入融合提示模板提示模板輔助信息輔助信息輸入輸入設計設計promptprompt,處理推薦信息,處理推薦信息推薦模型與文本嵌入融合推薦模型與文本嵌入融合傳統大模型推薦傳統大模型推薦3 3:大模型生成推薦結果:大模型生成推薦結果總結與展望總結與展望Bao,Bao,KeqinKeqin,et al.,et al.T
24、allrecTallrec:An effective and efficient tuning framework to align large language model with recommendation.:An effective and efficient tuning framework to align large language model with recommendation.Proceedings of the 17th ACM Conference on Recommender Systems.2023.Proceedings of the 17th ACM Co
25、nference on Recommender Systems.2023.強大的冷啟動能力:強大的冷啟動能力:豐富的背景知識為大模型帶來了強大的冷啟動能力冷啟動能力,遠遠超過了傳統的推薦模型 難以生成可控的生成結果:難以生成可控的生成結果:大模型輸出存在不可控性不可控性,需要以損失通用能力損失通用能力為代價使之與推薦任務對齊冷啟動場景下大模型取得遠超推薦模型的性能冷啟動場景下大模型取得遠超推薦模型的性能GPTGPT的直接輸出不可控的直接輸出不可控ChatGPTChatGPT對對是否推薦物品是否推薦物品的問題總是用的問題總是用“是是”回答回答兩種大模兩種大模型結果型結果傳統推薦傳統推薦模型結果模
26、型結果樣本數樣本數 低低-高高兩種大模兩種大模型結果型結果傳統推薦傳統推薦模型結果模型結果樣本數樣本數 低低-高高傳統大模型推薦挑戰傳統大模型推薦挑戰 數據層面數據層面:通用大模型預訓練階段缺乏推薦相關數據缺乏推薦相關數據,不會推薦任務 模態角度模態角度:通用大模型難以捕獲協同信息協同信息,難以滿足推薦需求傳統大模型表現差,傳統大模型表現差,與隨機猜測與隨機猜測(AUC=0.5AUC=0.5)表現類似表現類似如何借鑒通用大語言模型,如何借鑒通用大語言模型,擴展傳統推薦模型規模擴展傳統推薦模型規模,捕捉用戶行為模式和物品特征,構建真正的,捕捉用戶行為模式和物品特征,構建真正的生成式推薦生成式推薦
27、大模型大模型,實現更精準和個性化的推薦,是一個亟待解決的問題,實現更精準和個性化的推薦,是一個亟待解決的問題Bao,Bao,KeqinKeqin,et al.,et al.TallrecTallrec:An effective and efficient tuning framework to align large language model with recommendation.:An effective and efficient tuning framework to align large language model with recommendation.Proceeding
28、s of the 17th ACM Conference on Recommender Systems.2023.Proceedings of the 17th ACM Conference on Recommender Systems.2023.生成式推薦大模型生成式推薦大模型 具備通用大語言模型的涌現能力涌現能力,更適合推薦任務推薦任務,且能夠深度挖掘用戶與物品的協同關聯協同關聯 研究方向:研究方向:生成式推薦大模型,目前主要在表征表征和優化優化層面進行研究,可以分為對應的兩類:IDID特征的索引特征的索引與建模與建模、高效訓練與推理高效訓練與推理將傳統推薦小模型做大做深,并使其具備將傳統
29、推薦小模型做大做深,并使其具備scalingscaling lawlaw1).ID1).ID特征的索引與建模特征的索引與建模2).2).高效訓練與推理高效訓練與推理Rajput S,Mehta N,Singh A,et al.Recommender systems with generative retrievalJ.Advances in Neural Information Rajput S,Mehta N,Singh A,et al.Recommender systems with generative retrievalJ.Advances in Neural Information
30、Processing Systems,2024,36.Processing Systems,2024,36.生成式推薦大模型生成式推薦大模型1 1:IDID特征的索引與建模特征的索引與建模研究背景研究背景推薦模型通常使用基于ID的表征 高基數流式推薦數據高基數流式推薦數據:推薦系統需要處理數十億數十億級別的動態詞匯表動態詞匯表,基于ID的表征引入大量參數大量參數 表征信息量低表征信息量低:ID無法表示用戶或物品特性,缺乏先驗信息先驗信息帶有先驗信息的碼本,帶有先驗信息的碼本,為碼本維護嵌入,替代每為碼本維護嵌入,替代每個物品維護一個以唯一物個物品維護一個以唯一物品品IDID為標識的嵌入為標識的
31、嵌入Rajput S,Mehta N,Singh A,et al.Recommender systems with generative retrievalJ.Advances in Neural Information Rajput S,Mehta N,Singh A,et al.Recommender systems with generative retrievalJ.Advances in Neural Information Processing Systems,2024,36.Processing Systems,2024,36.生成式推薦大模型生成式推薦大模型1 1:IDID特征
32、的索引與建模特征的索引與建?;谡Z義基于語義embeddingembedding獲取語義獲取語義IDID,用來代替無意義的物品,用來代替無意義的物品IDID進行推薦進行推薦 等貢獻碼本等貢獻碼本:利用預訓練大語言模型獲得物品內容特征內容特征(如文本描述等)的嵌入,再基于矢量量化矢量量化的方式生成碼本作為語義ID,使其具有內容特征帶來的先驗信息 層次化碼本層次化碼本:基于殘差量化殘差量化的方式獲得重要程度逐級遞減的碼本(粗粒度-細粒度),允許更短碼本長度物品文本的預訓練物品文本的預訓練語言模型嵌入語言模型嵌入每層碼本表達意義的每層碼本表達意義的“模長模長”不同不同可以用更短的碼本可以用更短的碼本
33、長度表達同樣豐富長度表達同樣豐富的信息的信息碼本中每個代碼的碼本中每個代碼的重要程度一樣重要程度一樣Rajput S,Mehta N,Singh A,et al.Recommender systems with generative retrievalJ.Advances in Neural Information Rajput S,Mehta N,Singh A,et al.Recommender systems with generative retrievalJ.Advances in Neural Information Processing Systems,2024,36.Proce
34、ssing Systems,2024,36.生成式推薦大模型生成式推薦大模型1 1:IDID特征的索引與建模特征的索引與建??偨Y與展望總結與展望 信息損失信息損失:通過量化方法將密集嵌入轉換為離散語義 ID 的過程,本質上是一種信息的損失信息的損失 協同信息缺失:協同信息缺失:語義ID僅基于物品相關描述信息獲得,不包含交互或序列特征,無法建模協同信息協同信息。盡管工作如ColaRec提出使用預訓練的協同過濾模型獲得的物品表示增強語義ID,它削弱了對冷啟動冷啟動的處理能力量化過程中丟失信息量化過程中丟失信息Singh A,Vu T,Singh A,Vu T,KeshavanKeshavan R,
35、et al.Better Generalization with Semantic IDs:A case study in Ranking for RecommendationsJ.R,et al.Better Generalization with Semantic IDs:A case study in Ranking for RecommendationsJ.arXivarXiv preprint arXiv:2306.08121,2023.preprint arXiv:2306.08121,2023.生成式推薦大模型生成式推薦大模型2 2:高效序列轉換架構高效序列轉換架構研究背景研究背
36、景 異構特征處理異構特征處理:推薦系統中的特征缺乏明確結構明確結構,包括異構特征異構特征如高基數ID、交叉特征、計數器、比率等 高推理成本:高推理成本:詞表規模和候選項數目龐大數目龐大 高計算成本:高計算成本:用戶行為規模巨大,推薦系統需要處理的令牌數量遠大于遠大于語言模型用于訓練深度學習用于訓練深度學習模型的計算量模型的計算量GRsGRs:生成推薦器:生成推薦器DLRMsDLRMs:深度學習推薦模型:深度學習推薦模型ZhaiZhai J,Liao L,Liu X,et al.Actions speak louder than words:Trillion-parameter sequenti
37、al transducers for generative J,Liao L,Liu X,et al.Actions speak louder than words:Trillion-parameter sequential transducers for generative recommendationsJ.recommendationsJ.arXivarXiv preprint arXiv:2402.17152,2024.preprint arXiv:2402.17152,2024.生成式推薦大模型生成式推薦大模型2 2:高效序列轉換架構高效序列轉換架構設計具備設計具備scalingsc
38、aling lawlaw的模型架構,形成生成式推薦新范式的模型架構,形成生成式推薦新范式 推薦任務推薦任務-序列生成任務:序列生成任務:將輸入的各項異構特征異構特征整合和編碼成一個統一的時間序列,并將召回、排序等推薦任務重構為統一的Seq2SeqSeq2Seq序列生成任務序列生成任務,設計基于transformer的架構生成下一個token。效率優化效率優化:使用隨機長度算法隨機長度算法降低attention復雜度,通過算子優化算子優化等方法降低內存使用量,通過成本攤銷成本攤銷擴大推理規模序列序列生成生成任務任務一次推理處一次推理處理多個候選理多個候選物品,增大物品,增大模型吞吐量模型吞吐量Z
39、haiZhai J,Liao L,Liu X,et al.Actions speak louder than words:Trillion-parameter sequential transducers for generative J,Liao L,Liu X,et al.Actions speak louder than words:Trillion-parameter sequential transducers for generative recommendationsJ.recommendationsJ.arXivarXiv preprint arXiv:2402.17152,2
40、024.preprint arXiv:2402.17152,2024.生成式推薦大模型生成式推薦大模型2 2:高效序列轉換架構高效序列轉換架構總結與展望總結與展望 長序列處理長序列處理:當前架構不具備拓展到較長序列長序列的能力 時間復雜度時間復雜度:不涉及對時間復雜度時間復雜度的在模型架構層面的優化,未來工作可以考慮設計類似于線性注意力機制線性注意力機制或最新提出的mambamamba等一次復雜度一次復雜度的架構代替或部分代替二次復雜度的自注意力機制。但對于新架構,如何保持scaling law是一個挑戰線性注意力機制,壓縮計算量線性注意力機制,壓縮計算量引入額外的狀態變量引入額外的狀態變量來
41、降低復雜度來降低復雜度Guo J,Chen X,Tang Y,et al.SLAB:Efficient Transformers with Simplified Linear Attention and Progressive Re-Guo J,Chen X,Tang Y,et al.SLAB:Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch NormalizationJ.parameterized Batch NormalizationJ.arXivar
42、Xiv preprint arXiv:2405.11582,2024.preprint arXiv:2405.11582,2024.生成式推薦大模型 大模型推薦方法的歸納總結 Data-centric大模型研究 推薦scaling law探索 多行為推薦大模型大模型推薦方法的歸納總結大模型推薦方法的歸納總結大模型推薦訓練方式:大模型推薦訓練方式:本綜述根據訓練方式將已有相關方法歸納為判別式大模型推薦判別式大模型推薦和生成式大模型推薦生成式大模型推薦,并進一步系統化梳理系統化梳理并給出未來研究方向未來研究方向訓練方式系統性定義:訓練方式系統性定義:為了便于研究者區分大語言模型推薦中的不同訓練方式
43、訓練方式,本綜述對于每種訓練方式給出了系統性并且清晰的定義系統性并且清晰的定義大模型推薦方法訓練方式歸納與定義大模型推薦方法訓練方式歸納與定義對于不同訓練方式的解釋對于不同訓練方式的解釋大模型推薦訓練方式大模型推薦訓練方式Wu L,Zheng Z,Wu L,Zheng Z,QiuQiu Z,et al.A survey on large language models for recommendationJ.Z,et al.A survey on large language models for recommendationJ.arXivarXiv preprint arXiv:2305.1
44、9860,preprint arXiv:2305.19860,2023.2023.大模型推薦方法的歸納總結大模型推薦方法的歸納總結代表性大模型推薦工作介紹:代表性大模型推薦工作介紹:介紹各個類別中代表性工作代表性工作的研究思路和貢獻,為研究者理清該領域的研究現狀和發展趨勢大模型推薦公開數據集:大模型推薦公開數據集:目前大語言模型推薦能夠使用的一些公開數據集公開數據集大部分還是基于傳統推薦的數據集基于傳統推薦的數據集進行設計和擴充,進一步挖掘大語言模型的潛力仍需文本信息更豐富文本信息更豐富的數據大模型推薦相關工作和數據集梳理與總結大模型推薦相關工作和數據集梳理與總結29相關公開數據集相關公開數據
45、集已有代表性工作已有代表性工作Wu L,Zheng Z,Wu L,Zheng Z,QiuQiu Z,et al.A survey on large language models for recommendationJ.Z,et al.A survey on large language models for recommendationJ.arXivarXiv preprint arXiv:2305.19860,preprint arXiv:2305.19860,2023.2023.Data-centricData-centric大模型研究大模型研究 GPTGPT成功的數據基石成功的數據基石
46、:GPT進化中,模型結構保持相似,訓練數據的規模、質量數據的規模、質量得到極大提升 數據導向的模型應用數據導向的模型應用:當模型足夠強大,僅僅需要修改推理數據僅僅需要修改推理數據(提示工程)便可完成目標任務以數據為中心(以數據為中心(Data-centricData-centric)的人工智能)的人工智能ZhaZha D,Bhat Z P,Lai K H,et al.Data-centric artificial intelligence:A surveyJ.D,Bhat Z P,Lai K H,et al.Data-centric artificial intelligence:A surv
47、eyJ.arXivarXiv preprint arXiv:2303.10158,2023.preprint arXiv:2303.10158,2023.Data-centricData-centric大模型研究:數據重生成大模型研究:數據重生成 傳統方法的缺陷:傳統方法的缺陷:傳統序列推薦方法常忽視數據中潛在的質量問題質量問題和數據缺陷數據缺陷。怎樣獲得一個信息豐富信息豐富且泛泛化性強化性強的訓練數據集,以解決序列推薦系統的訓練數據質量訓練數據質量并提升模型性能提升模型性能 亟待解決的問題:亟待解決的問題:推薦系統旨在從原始數據集 中學習用戶偏好 ,Model-centric范式使不同模型從
48、相同原始數據中學習到的 映射關系映射關系具有不同側重不同側重,而Data-centric范式先從原始數據集 針對不同模型重生成易于學習模式的數據集,使學習映射學習映射 更加簡單直觀簡單直觀面向序列推薦的數據集重生成方法面向序列推薦的數據集重生成方法推薦系統中存在的數據問題推薦系統中存在的數據問題model-centric model-centric 和和 data-centric data-centric 范式對比范式對比Model-centricModel-centric:One dataset,All modelsOne dataset,All modelsData-centric:One
49、 dataset,One modelData-centric:One dataset,One modelYin et al.Dataset Regeneration for Sequential Recommendation(KDD2024)Yin et al.Dataset Regeneration for Sequential Recommendation(KDD2024)Paper:Paper:https:/arxiv.org/pdf/2405.17795;Code:Code:https:/ 模型無關的數據集重生成模型無關的數據集重生成:基于預訓練預訓練的模型無關數據生成預訓練階段預訓練
50、階段(A)(A)學習重生成器學習重生成器:提出滑動窗口策略滑動窗口策略提取“(序列,模式)”對,構建預訓練任務,解決監督信號缺失解決監督信號缺失;提出多樣性增強器多樣性增強器建模序列和模式之間的一對多一對多關系,解決序列模式監督信號的沖突解決序列模式監督信號的沖突推理階段推理階段(B)(B)重生成數據集重生成數據集:提出混合推理策略混合推理策略平衡探索和利用,提高模型發現高階模式發現高階模式的創造性 模型感知的數據集重生成模型感知的數據集重生成:基于損失引導損失引導的模型感知數據生成模型感知階段模型感知階段(C)(C):提出目標模型評估目標模型評估重生成數據樣本的個性化器,采用雙層優化策略雙層
51、優化策略對其進行高效優化DR4SRDR4SR:模型無關和模型感知的序列數據集重生成框架:模型無關和模型感知的序列數據集重生成框架序列到轉換模式的一對多映射序列到轉換模式的一對多映射Yin et al.Dataset Regeneration for Sequential Recommendation(KDD2024)Yin et al.Dataset Regeneration for Sequential Recommendation(KDD2024)Paper:Paper:https:/arxiv.org/pdf/2405.17795;Code:Code:https:/ 5大類大類模型架構下
52、顯著提升性能模型架構下顯著提升性能DR4SRDR4SR只為前兩個數據集提只為前兩個數據集提供了更好的增廣樣本供了更好的增廣樣本原始圖上的表現更好原始圖上的表現更好Yin et al.Dataset Regeneration for Sequential Recommendation(KDD2024)Yin et al.Dataset Regeneration for Sequential Recommendation(KDD2024)Paper:Paper:https:/arxiv.org/pdf/2405.17795;Code:Code:https:/ Entropy L LawawData
53、 centric的研究使我們更加關注數據質量的評估,我們的研究通過以下四個維度四個維度對數據質量進行計算 數據壓縮率數據壓縮率 R R:度量了數據中所蘊含的信息密度信息密度??赏ㄟ^現有的各類數據壓縮算法對文本數據進行壓縮,隨后通過壓縮前后的數據大小計算壓縮率 訓練損失訓練損失 L L:度量了數據被模型記憶的難易程度難易程度??赏ㄟ^觀察LLM訓練的第一個epoch的少數訓練步數便可以得到一個指示性的訓練損失 數據一致性數據一致性 C C:度量了數據之間的組合效應組合效應。反映給定上下文時,預測下一個token的概率分布的信息熵 平均數據質量平均數據質量 Q Q:度量了數據的樣本級別質量樣本級別質
54、量??赏ㄟ^不同的主觀或客觀的評價方式評估數據的平均質量Entropy lawEntropy law:數據壓縮與模型智能的緊密關聯:數據壓縮與模型智能的緊密關聯Data-centricData-centric大模型研究:大模型研究:Entropy Entropy L LawawZIP數據選擇算法 目標目標:受限于計算資源,選擇壓縮率相對較低相對較低的數據子集 算法算法:多階段貪心選擇基于基于Entropy lawEntropy law的數據選擇算法的數據選擇算法 全局選擇:基于數據壓縮率計算,維護一個信息冗余度向量,用于衡量每條樣本加入當前數據集的“信息增益信息增益”根據信息冗余度向量,選擇K1
55、條信息增益最大的樣本 局部粗粒度選擇:重新計算并更新K1條樣本的信息冗余度,進一步選擇其中信息增益最大的K2條樣本 局部細粒度選擇:聚焦于數據間的組合效應組合效應,從K2條樣本中逐一挑選K3條樣本,使得所選擇樣本集合的壓縮率最低Data-centricData-centric大模型研究:大模型研究:Entropy Entropy L LawawEntropyEntropy lawlaw的實驗驗證模型效果的實驗驗證模型效果vsvs壓縮率壓縮率:壓縮率越低,代表了更大的信息總量信息總量,因此模型效果越好。而壓縮率接近的Random,Cluster,Perplexity具有接近的損失及模型效果,符合
56、entropy law的預測模型效果模型效果vsvs訓練損失訓練損失:更低的壓縮率通常伴隨著更大的訓練損失,這是因為數據中信息總量更大,增大了模型的理解難度理解難度Entropy lawEntropy law的實驗驗證的實驗驗證Yin,Yin,MingjiaMingjia,et al.Entropy Law:The Story Behind Data Compression and LLM Performance.,et al.Entropy Law:The Story Behind Data Compression and LLM Performance.arXivarXiv preprin
57、t arXiv:2407.06645(2024).preprint arXiv:2407.06645(2024).Paper:Paper:https:/arxiv.org/abs/2407.06645,Code:Code:https:/ lawscaling law初探初探 通過增大模型和數據規模,推薦模型的效果通常能得到顯著提升,然而對于模型規模注意嘗試成本高,結果成本高,結果迭代慢迭代慢。因此需要研究規律以指導指導推薦大模型的訓練 現有分析的困難與缺陷:現有分析的困難與缺陷:推薦數據集一般詞表規模不定詞表規模不定,數據集之間的結構差異巨大結構差異巨大,現有的推薦scaling law往往只
58、進行了定性定性比較,缺乏定量定量分析語言模型語言模型scaling lawscaling law定量擬合定量擬合現有推薦模型現有推薦模型scaling lawscaling law論文中的論文中的定性定性比較比較研究背景研究背景 Scaling lawScaling law的擬合分析:的擬合分析:對于模型的loss與模型維度作scaling law擬合,初步驗證loss與模型層數,嵌入維度,數據規模成反比反比通用大模型通用大模型scalingscaling lawlaw=1+a 近似擬合公式近似擬合公式H H為模型層數,為模型層數,D D為為嵌入維度嵌入維度擬合擬合a a值(數值(數據參數)與
59、據參數)與截斷的數據截斷的數據規模成反比規模成反比模型模型LossLoss與最大序列長度,與最大序列長度,模型層數,嵌入維度的關系模型層數,嵌入維度的關系推薦推薦scaling lawscaling law初探初探數據規模、模型規模對于數據規模、模型規模對于lossloss的影響的影響簡化推薦推薦scaling lawscaling law初探初探近似熵近似熵,為兩個子序列元素的最大差值,在離散為兩個子序列元素的最大差值,在離散序列中,序列中,r r設置為設置為0 0截斷序列長平均序列長數據規模TokensApEnApen/tokens擬合數據參數2520.725051080.042368.3
60、8633E-080.1941255033.78024930.020762.58694E-080.04352510046.0310585110.00868.12462E-090.014425擬合圖像(2=0.994)研究scaling law中數據項D,數據集之間的結構差異巨大,單純的數據規模無法衡量數據質量結構差異巨大,單純的數據規模無法衡量數據質量 引入近似熵ApEnApEn衡量數據質量,熵值越低,數據質量越高。驗證擬合數據參數與數據規模/近似熵成反比反比數據規模、模型規模對于數據規模、模型規模對于lossloss的影響:基于數據熵的進一步分析的影響:基于數據熵的進一步分析推薦推薦scali
61、ng lawscaling law初探初探Scaling Law只揭示了loss與數據模型的關系,然而在推薦中,我們更關心模型的效果 模型規模影響因素分析:模型規模影響因素分析:給定數據集規模,推薦模型scaling law中最優模型參數正比于模型層數L與嵌入維度D的乘積,即O(LD)O(LD)數據規模影響因素分析:數據規模影響因素分析:隨著數據規模的提高,最優的模型規模大小O(LD)也在提高,因此我們能得出結論:更大規模的數據集應當匹配更大規模的模型更大規模的數據集應當匹配更大規模的模型數據規模、模型規模對于推薦性能的影響數據規模、模型規模對于推薦性能的影響嵌入維度相等時的最優效果層數,對于
62、每行的值做歸一化后所得嵌入維度相等時的最優效果層數,對于每行的值做歸一化后所得Hit Rate10Hit Rate10熱力圖熱力圖數據量增大,數據量增大,LDLD軸線后移軸線后移多行為推薦大模型多行為推薦大模型研究背景研究背景 scaling law 表明,參數量更大的模型需要更多訓練數據更多訓練數據 單行為數據特點單行為數據特點:目標行為難收集、數量少難收集、數量少,行為數據間數量差異數量差異大 IJCAI IJCAIbuypvfavcartCIKMCIKMbuypvfavcart數據集大小與模型損失的關系數據集大小與模型損失的關系數據集行為分布數據集行為分布單行為數據無法滿足大模型數據需求
63、!單行為數據無法滿足大模型數據需求!通過混合多種行為數據,來增大數據規模是否可行?通過混合多種行為數據,來增大數據規模是否可行?購買行為數購買行為數據少,無法據少,無法滿足大模型滿足大模型的數據需求的數據需求多行為推薦大模型多行為推薦大模型混合多個行為數據的影響混合多個行為數據的影響向單行為數據中不斷加入更多行為的數據,作為訓練集 一般來說,行為的數量越多越多,數據量越大越大,推薦性能越好越好 一些情況,數據量與推薦性能成反比反比,單純堆疊行為可能會產生負面影響負面影響在在MRRMRR指標上的結果指標上的結果在在NDCG50NDCG50指標上的結果指標上的結果在在HR50HR50指標上的結果指
64、標上的結果加入更多行為,加入更多行為,數據量增加,數據量增加,效果下降效果下降多行為推薦大模型多行為推薦大模型行為相似度角度的行為堆疊影響分析行為相似度角度的行為堆疊影響分析 CIKM 中,行為buy與行為fav的相關度低,加入相關度低相關度低的數據可能會產生負面影響 通過相似度等方式進行數據選擇數據選擇,是未來一個可行的研究方向行為間相似度行為間相似度低相似度行為,低相似度行為,降低模型性能降低模型性能多行為推薦大模型多行為推薦大模型行為可知的多行為推薦大模型行為可知的多行為推薦大模型在模型輸入中顯示建模行為類型在模型輸入中顯示建模行為類型顯式建模行為類型,在公開數據集、華為數據集上均有穩定
65、的性能提升考慮加入更多的特征可能是可行的方向在在MRRMRR指標上的結果指標上的結果在在NDCG50NDCG50指標上的結果指標上的結果在華為數據集上的結果在華為數據集上的結果總結與展望總結與展望總結與展望大模型成為驅動推薦系統發展的新動力大模型成為驅動推薦系統發展的新動力全面且深入總結了大模型推薦系統具備的優勢及存在的挑戰詳細梳理了大模型推薦系統的發展脈略以數據為中心(以數據為中心(Data-centricData-centric)的人工智能)的人工智能Entropy law:數據壓縮與模型智能的緊密關聯面向序列推薦的數據集重生成推薦大模型發展方向推薦大模型發展方向推薦領域的scaling law,為推薦大模型的發展提供指導考慮多行為數據及多樣特征是一個可行的方向如何提高推薦大模型訓練推理效率是一個亟待解決的方向THANKS智能未來,探索 AI 無限可能Intelligent Future,Exploring the Boundless Possibilities of AI王皓中國科學技術大學