《基于深度學習的個性化推薦系統實時化改造與升級-王華峰.pdf》由會員分享,可在線閱讀,更多相關《基于深度學習的個性化推薦系統實時化改造與升級-王華峰.pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、基于深度學習的個性化推薦系統實時化改造與升級王華峰阿里云計算平臺事業部經典離線推薦系統回顧實時推薦系統演進HSAP(Hybrid Serving/Analytical Processing)理念介紹新型的深度學習個性化推薦系統架構介紹經典離線推薦系統回顧搜推廣業務用戶行為日志離線數倉推理服務特征存儲數據加工用戶/商品特征(T+1)樣本存儲樣本拼接模型中心離線訓練算法模型(T+1)經典離線推薦系統局限性靜態的模型和特征一旦某個用戶被劃分為某個類別,則他將一直處于這個類別,直到被新的模型訓練重新分類,用戶的行為越來越多元化,無法劃分到某個固定類別冷啟動場景,用戶特征不存在,難以精準推薦無法快速迭代
2、模型算法離線=實時實時特征:商品最近5分鐘的點擊量、過去7天的瀏覽量實時樣本&在線訓練離線推薦系統搜推廣業務用戶行為日志離線數倉推理服務特征存儲數據加工用戶/商品特征(T+1)樣本存儲樣本拼接模型中心離線訓練算法模型(T+1)實時推薦系統搜推廣業務用戶行為日志離線數倉推理服務特征存儲離線特征用戶/商品特征消息隊列實時特征計算實時推薦系統搜推廣業務用戶行為日志離線數倉推理服務特征存儲離線特征用戶/商品特征樣本存儲模型中心消息隊列實時特征計算實時樣本拼接在線訓練離線訓練實時推薦系統搜推廣業務用戶行為日志離線數倉推理服務特征存儲離線特征用戶/商品特征樣本存儲模型中心消息隊列實時特征計算實時樣本拼接在
3、線訓練離線訓練實時數倉BI實時推薦系統搜推廣業務用戶行為日志離線數倉推理服務特征存儲離線特征用戶/商品特征樣本存儲模型中心消息隊列實時特征計算實時樣本拼接在線訓練離線訓練實時數倉BIApache Flink簡介高性能低延遲的純流式計算引擎流批一體提供SQL接口,開發簡單Alink:基于Flink的通用算法平臺實時推薦系統搜推廣業務用戶行為日志離線數倉推理服務特征存儲離線特征用戶/商品特征樣本存儲模型中心消息隊列實時特征計算實時樣本拼接在線訓練離線訓練實時數倉BI實時推薦系統搜推廣業務用戶行為日志Hive推理服務Hbase/Redis離線特征用戶/商品特征Hive模型中心Kafka實時特征計算實
4、時樣本拼接在線訓練離線訓練ClickhouseBI實時推薦系統的挑戰樣本數據的一致性(實時ETL作業Failover)樣本Label的一致性(支付行為發生在點擊行為之后很久)高吞吐低延遲實時推薦系統搜推廣業務用戶行為日志離線數倉推理服務?離線特征用戶/商品特征?模型中心Kafka實時特征計算實時樣本拼接在線訓練離線訓練?BI什么是HSAP?Hybrid Serving/Analytical Processing 統一的數據存儲 統一的數據服務接口BatchAnalyticalServingTransactionHSAPHSAP理念的由來KafkaFlinkSubscriptionRealtim
5、e IngestionDim JoinHBaseCassandraDashboardsPoint Lookups 點查HSAP理念的由來KafkaFlinkSubscriptionRealtime IngestionDim JoinClickHouseDruidHBaseCassandraPrestoReportsDashboardsPoint Lookups 點查Realtime Analytics實時OLAP分析HSAP理念的由來KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBase
6、CassandraPrestoReportsDashboardsBatch Processing批處理Point Lookups 點查Realtime Analytics實時OLAP分析HSAP理念的由來KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBaseCassandraDrillPrestoReportsDashboardsBatch Processing批處理Batch Acceleration 離線加速Federated Analytics 聯邦計算Point Lookups
7、點查Realtime Analytics實時OLAP分析HSAP理念的由來KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBaseCassandraDrillPrestoRedisMysqlAPIApplicationsReportsDashboardsResultCachingBatch Processing批處理Batch Acceleration 離線加速Federated Analytics 聯邦計算Point Lookups 點查Realtime Analytics實時OLAP分
8、析結果緩存HSAP理念的由來Lambda架構痛點數據冗余,儲存成本大數據孤島問題嚴重,數據一致性問題難以保證涉及多套存儲、計算系統,運維、學習成本高昂什么是HSAP?Hybrid Serving/Analytical Processing 統一的數據存儲 統一的數據服務接口BatchAnalyticalServingTransactionHSAP引入HSAP后的架構KafkaHiveAPIApplicationsReportsDashboardsHSAPHDFSFlinkUnified Data Storage&ServiceHSAP系統的核心特性Point Query(毫秒級響應,用于API
9、服務,類HBase)OLAP Query(PB級復雜查詢,毫秒級交互式分析,類Clickhouse)統一的實時存儲 支持實時寫入,實時更新(主鍵),低延遲,寫入即可見 工作負載的隔離 標準SQL用戶接口,無縫對接BI HSAP+實時推薦系統?搜推廣業務用戶行為日志離線數倉推理服務Hbase/Redis離線特征用戶/商品特征Hive模型中心Kafka實時特征計算實時樣本拼接在線訓練離線訓練ClickhouseBIHSAP+實時推薦系統搜推廣業務用戶行為日志推理服務HSAP離線特征用戶/商品特征Hive模型中心Kafka實時特征計算實時樣本拼接在線訓練離線訓練ClickhouseBI離線數倉HSA
10、P+實時推薦系統搜推廣業務用戶行為日志推理服務HSAP離線特征用戶/商品特征HSAP模型中心Kafka實時特征計算實時樣本拼接在線訓練離線訓練ClickhouseBI離線數倉HSAP+實時推薦系統搜推廣業務用戶行為日志推理服務HSAP離線特征用戶/商品特征HSAP模型中心Kafka實時特征計算實時樣本拼接在線訓練離線訓練HSAPBI離線數倉HSAP+實時推薦系統搜推廣業務用戶行為日志推理服務HSAP離線特征用戶/商品特征模型中心Kafka實時特征計算實時樣本拼接在線訓練離線訓練BI離線數倉引入HSAP所解決的問題用戶行為日志的一致性:現實中實時ETL作業難免會Failover,使用傳統的HDF
11、S存儲行為日志數據會造成重復數據,需額外運行job進行全局的distinct計算。而我們的HSAP系統支持按照主鍵去重,保證了寫入的冪等性,避免數據重復。引入HSAP所解決的問題樣本Label的一致性:點擊率Join曝光流生成樣本數據,依賴Flink的Retraction機制以及HSAP系統的實時更新能力,進行實時的樣本修正。我們的方案搜推廣業務用戶行為日志推理服務Hologres離線特征用戶/商品特征模型中心Datahub 實時特征計算實時樣本拼接在線訓練離線訓練BIMaxComputeHologres簡介第一個基于HSAP理念實現的實時數倉 兼容PostgreSQL 行存、列存、行列混存云
12、原生,存儲技術分離C+Native執行引擎,SIMD達摩院Proxima向量檢索能力Binlog能力,實時消費數據Changelog推理及實時樣本拼接解決方案搜推廣業務推理服務Hologres用戶/商品特征消息隊列 實時特征更新KeyKeyValueValueK1V1K2V11推理及實時樣本拼接解決方案搜推廣業務推理服務Hologres用戶/商品特征消息隊列 實時特征更新RequestFeaturesReqID,FeatureKey,ItemsItemsRequest推理及實時樣本拼接解決方案搜推廣業務推理服務Hologres用戶/商品特征消息隊列 實時特征更新RequestFeaturesR
13、eqID,FeatureKey,ItemsItems用戶點擊ItemFlink雙流JoinFeatureKey,Feature,timestampReqID,FeatureKey,Item,label,timestamp樣本推理及實時樣本拼接解決方案搜推廣業務推理服務Hologres用戶/商品特征消息隊列 實時特征更新RequestFeaturesReqID,FeatureKey,ItemsItems用戶點擊ItemFlink雙流JoinReqID,FeatureKey,Item,label,timestamp樣本KeyKeyValueValueTimestampTimestampK1V110
14、:00K1V210:30總結將一個基于HSAP(Hybrid Serving/Analytical Processing)理念設計的實時數倉引入至實時推薦系統,再結合Flink的實時處理能力,大大簡化了整個系統的架構,減少了數據的冗余,降低了整個鏈路的運維以及存儲成本。附錄VLDBVLDB Paper:Paper:Alibaba Alibaba HologresHologres:A Cloud-Native Service for Hybrid:A Cloud-Native Service for Hybrid Serving/Analytical Processing Serving/Ana
15、lytical Processing ShardShardCacheHOS SchedulerWorker NodeShardShardCacheHOS SchedulerWorker NodeShardShardCacheHOS SchedulerWorker NodeParser&OptimizerCoordinatorFrontendShardShardShardMCMCShardMCPangu File SystemOSSOSSHiveHiveData LakeShardShardCacheHOS SchedulerWorker NodeStore ManagerResource ManagerClientHologres架構StorageFrontend:認證、解析、優化Worker Node:計算資源HOS:輕量級調度框架Shard:數據分片Cache:分層緩存Resource:容器資源管理Store:元數據管理計算存儲分離Compute(Coming Soon)