《云上企業級推薦系統實踐 (6).pdf》由會員分享,可在線閱讀,更多相關《云上企業級推薦系統實踐 (6).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、 計算平臺部-鐘靈 2023-4-21云上企業級推薦系統實踐目錄云上企業級推薦系統架構(PAI-REC引擎)推薦算法定制加快特征工程、排序模型的創建推薦系統在線服務的邏輯和性能優化開源算法框架EasyRec介紹和應用案例特征平臺和推薦算法迭代PAI-Rec 推薦系統抽象架構圖l 建模:特征與樣本加工,離線模型的訓練l 推理:離線模型應用,實時引擎推理l 預測:結合用戶交互,預測推薦結果l 實驗:定制推薦方案,迭代推薦效果根據推薦系統設計原理,劃分為建模、推理、預測、實驗等多個模塊。推薦系統客戶用到的阿里云具體產品(以新聞推薦為例)底層基礎數據用戶數據文章元數據數據加工存儲(離線)用戶/文章特征
2、工程數據集成小時周期導入訓練(離線)視頻元數據第三方畫像RDS:MySQLNginx用戶行為日志DatahubFlumeDRDS文章數據MaxComputeDW用戶表文章表ODSDWD/DWSMaxCompute用戶特征文章特征行為特征DW實時計算 FlinkETL行為序列實時特征DatahubPAI-Studio樣本生成召回算法樣本生成PAI-Studio排序算法Hologres用戶/文章推薦列表在線推薦存儲用戶/文章特征用戶向量PAI-EAS模型服務推理服務Hologres向量服務OSS中轉Item向量模型文件推薦服務(在線)分表1:閱讀歷史MaxCompute分表2:閱讀歷史用戶曝光請求
3、推薦模塊多路召回曝光去重過濾排序查詢K個最相似文章物料實時PAI-EASPAI-REC整體框架推薦算法定制加快特征工程、排序模型的創建推薦算法定制下的開發流程配置實驗報表觀察實驗效果實驗后的數據診斷任務商品表AutoFE(自動挖掘新特征)推薦算法定制產出召回、特征、粗排、精排等代碼補數:準備特征和樣本根據業務調整代碼訓練模型、調優AutoML調參數據ETL、產生基礎表PAI-Rec對接召回、排序等數據Designer 部署聯調測試測試特征一致性觀察推薦效果是否符合預期日志埋點數據數據智能診斷分析數據問題和可用特征用戶表用戶行為表DataWorks部署FeatureStore管理特征數據準備離線
4、訓練在線服務算法迭代調整特征和樣本調整模型重新訓練推薦算法定制案例:猜你喜歡(協同召回、向量召回、多目標排序)推薦系統在線服務的邏輯和性能優化LaRec Processor(定義EAS Processor)特征致性和在線推理優化PAI-Studio可視化建模PAI-EAS推理服務Dataworks統計分析特征模板訓練樣本生成配置生成EasyRec.config避免繁瑣手工配置特征工程更新離散化配置Hologres存儲特征存儲I2i存儲向量召回PAI-Rec推薦引擎和A/B服務引擎fg+EasyRec訓練召回和排序模型fg:feature generator特征:tags、行為序列(DIN)、大
5、規模id embeddinga/b 服務可視化建模打分服務fg+tf模型聯合部署Item特征動態更新到內存提高性能特征工程離線和在線一致部署模型打分召回分桶FG:主要生成組合特征(算子化,加快性能)分桶映射EasyRec 模型打分拼裝Batch樣本用于預測Item特征featureStoreCachePAI-EAS Processor(LaRec)Item特征HologresLoad推薦引擎PAI-REC推薦請求:用戶特征、Item上下文特征(可傳遞實時特征)全量模型增量模型OSSLoad精排打分服務EasyRec Processor優化開源算法框架EasyRec的介紹和應用案例EasyRec
6、 算法框架uid:stringage:integerprice:floatIdFeatureRawFeatureSeqFeatureDSSM MINDctrduration自動超參搜索知識蒸餾大規模分布式訓練大規模稀疏特征分布式評估AdamOptimizerAdaGradAdaDeltaDeepFMDINDCNESMMMMoEDBMTL多樣化輸入OSSMaxComputeHDFSKafukFeildDictFeatureGenerate召回模型排序模型多目標模型重排序模型EasyRec算法框架ModelZoooutput組件化模型CrossEntropySmoothL1L2LossAUCAcc
7、uracyMSEOptimizer內部與EasyRec算法框架深度融合,支持20+種行業經典模型。支持多數據源對接,以及大規模分布式訓練、評估,自動超參搜索、知識蒸餾等高級功能。l 建模:特征與樣本加工,離線模型的訓練l 建模:特征與樣本加工,離線模型的訓練l 建模:特征與樣本加工,離線模型的訓練DBMTLDeep Bayesian Multi-Target Learning for Recommender SystemsDBMTL-CMBF:增加了圖像文本特征應用場景:大量用在直播、視頻、內容、電商推薦等各種行業HPO-EasyRec-產品YB數據集:Train:begin(1.8億+)/f
8、inetune(600w+)Validation:600w+實驗時間:用戶成本:37h*5(37h,5組并發),best(7)/early_stopped(31)/all(50)單次實驗:5h,1組 EarlyStop加速:5*50/(37*5)=1.35實驗效果:在線:人均播放時長v4日均提升1.33%離線:begin+1.91%/finetune+2.11%testRun_timeauc_is_commentauc_is_valid_playauc_is_likemean_squared_error_ln_play_timemetric效果Baseline-begin4h55min0.80
9、9312520.872356050.926587160.900153810.87015295Hpo-begin3h40min0.865851100.879657980.931762810.877002350.88923247auc+1.91%Speed:+34.1%Baseline-finetune1h10min0.812004770.875951220.926461180.915280710.87259210Hpo-finetune1h02min0.863260550.888785630.933807870.872311390.89365992auc+2.11%Speed:+7.69%HPO
10、-EasyRec-客戶典型案例介紹算法服務的接入,助力互動率提升50%、用戶駐留時長增長20%。企業算法團隊短期內完成建設、算法自主迭代。1、內容混排集音樂、視頻、K歌、直播等多個業務板塊為一體,在首頁Feed提供內容混排能力。2、直播推薦根據啟播、停播的時間窗,結合用戶興趣,進行實時直播推薦,并提升用戶駐留、打商增長。3、數據建設通過建立完整推薦系統,完善了企業的離線數據、數據建模、實時計算等多維數據能力。4、團隊賦能調優共建,先學習、后上手的模式幫助年輕的團隊降低學習成本,快速掌握自主迭代能力。某音樂App最新版本是一款時尚手機K歌交友軟件,也是全球首款集聽歌、學歌、唱歌、表演和聊天社交為
11、一體的全方位娛樂平臺。用戶可以在里面下載和試聽各種好聽的音樂,唱自己喜歡的歌曲,還能結交朋友。特征平臺和推薦算法迭代FeatureStore(FS)模型訓練item1UserFS sdk讀取特征組裝Batch特征MaxComputecacheItemHologres/Redis/iGraphView和實體數據管理離線和在線數據同步Rank服務User-item行為label數據item2item3user1user2user3user4同步訓練樣本FG之前的數據同步讀取EAS ProcessorOSS:模型TF模型打分Dataworks/PAI-Designeritem4MaxCompute打分請求相關檔:PAI-Rec:https:/