快看漫畫個性化推薦探索與實踐(36頁).pdf

報告預覽

快看漫畫個性化推薦探索與實踐(36頁).pdf

編號：15924

PDF 36頁 2.36MB 下載積分：VIP專享

下載報告請您先登錄！

快看漫畫個性化推薦探索與實踐(36頁).pdf

1、快看漫畫個性化推薦探索與實踐夏博 2 0 1 9 年 9 月目錄一、業務介紹二、技術挑戰三、技術探索四、總結與未來規劃目錄一、業務介紹二、技術挑戰三、技術探索四、總結與未來規劃了解快看漫畫 ? 中國新生代內容社區和原創IP平臺 ? 截至2019年7月總用戶量已經突破2億，注冊用戶量突破1億，月活突破4000萬 ? 絕大多數用戶屬于高活躍、高粘性的95后、 00后 ? 被 QuestMobile 等機構評為“最受 00 后歡迎的產品快看漫畫推薦業務 ? 長漫畫 ? 短漫畫 ? 圖文帖子 ? 視頻帖子 ? 人精準匹配內容內容形式推薦業務場景首頁個性推薦ta

2、b 世界頁推薦tab 帖底相關推薦發現頁推薦tab 目錄一、業務介紹二、技術挑戰三、技術探索四、總結與未來規劃內容形式多樣長內容短內容 ? 漫畫、小說等 ? 大塊時間，閱讀周期長 ? 連續性、周期性、多章節多興趣點 ? 短視頻、新聞資訊、用戶帖子等 ? 碎片化時間，閱讀時間短 ? 興趣點通常單一 ? 技術上如何捕捉長內容的連續性、周期性、多興趣點等特點？ ? 快看漫畫既有長內容又有短內容，如何較好的融合兩類內容？挑戰：內容風格獨特圖像文本 ? 漫畫圖像 ? 帖子圖片 ? 帖子內容 ? 彈幕 ? 評論 ? 如何進行漫畫類圖像內容理解？ ? 獨特社區文

3、化，新生代文化“暗語”，給文本內容理解帶來挑戰挑戰：目錄一、業務介紹二、技術挑戰三、技術探索四、總結與未來規劃算法方面的探索系統架構方面的探索推薦算法演進前深度學習時代深度學習時代協同過濾 FM,FFM LR GBDT FNN Wide&Deep DeepFM XGBoost DIEN ? 可解釋 ? 易訓練 ? 易部署 ? 效果更好 ? 算法平臺搭建周期更長 ? 難以解釋和干預快看推薦算法迭代基于內容協同過濾XGBoost深度學習 2019年前2019年上半年2019年到現在未來基于內容的推薦標簽用戶偏好內容理解興趣模型推薦結果 ? 基于已有標簽

4、快速實現推薦功能 ? 可解釋性強優點：閱讀歷史快看漫畫標簽體系 ?作品基礎維度 ?用戶分發維度 ?內容創作維度搞笑日常青春治愈彩色單元劇中性青少年現代青春成長學生兄妹校園陽光逗比用戶興趣模型 ?相關行為 ?行為粒度（作品or章節） ?章節數量 ?興趣衰減 ?作品熱度用戶興趣恐怖0.5 搞笑0.6 玄幻0.4 熱血0.8 懸疑0.6 作品興趣度標簽興趣度閱讀關注點贊評論分享基于內容推薦總結 ? 非常依賴標簽 ? 推薦粒度較粗，召回不足 ? 缺乏新穎性 DAU人均閱讀次數率提升35% 缺點：基于協同過濾 ?基于物品的協同過濾(Item-B

5、ased) ?基于用戶的協同過濾(User-Based) ?基于模型的協同過濾(Model-Based) KNN召回基于用戶的協同算法用戶相似度計算量巨大? ANN（Approximate Nearest Neighbor） nmslib vs. faiss 單機CPU的benchmark 訓練集：1,183,514 維度：200 近鄰數：100 Nmslibfaiss 實現語言C+C+ Python綁定 GPU支持 HNSW算法其他算法 VP-Tree, NAPP, SW-graph LSH IVF(IndexIVFFlat) IVFADC(IndexIVFPQ) , IVFADC-R(

6、IndexIVFPQR) KNN召回 Faiss IndexIVFFlat 訓練&建索引 1.聚類（聚類中心存儲在量化器quantizer中） 2.找到每個向量最近的聚類中心點 3.建立倒排id list 4.建立倒排code list 搜索topK 1.搜出查詢向量最近的n個聚類中心點ID及對應的距離 2.構建k個元素最大堆 3.Id對應的倒排list每個向量計算距離后放入最大堆 4.堆排序 Faiss IndexIVFPQ 更加復雜，計算殘差，通過構建二級索引加速計算基于協同過濾總結 DAU人均閱讀次數提升31% ? 傾向于推薦熱門內容 ? 對新用戶和新內容不友好 ? 相似矩陣的計算量

7、大缺點：召回排序模型 Content-based CTR預估 UserCF ItemCF Items Data Items Items Items Items Items SVD ALS FM Items 召回層排序層常用CTR預估算法 = 1 1 + = 0+ =1 + =1 =+1 , = 0+ =1 + =1 =+1 , , LR FM & FFM DNN GBDT CTR預估算法模型優勢劣勢低階特征表達高階特征表達 LR 1）模型簡單，善于處理離散化特征（包括id類特征）； 2）容易實現分布式，可處理大規模特征和樣本集 1）特征需要離散化； 2）特征之間在模型中是孤立

8、的，需要做大量特征工程來做特征交叉 XGBoost 1）樹模型具有一定的組合特征能力； 2）善于處理連續特征，可進行特征篩選，人工特征工程量少 1）具有很強的記憶行為，不利于挖掘長尾特征； 2）組合特征的能力有限 FM&FFM 1）可以自動進行特征間的組合， 2）通過引入特征隱向量，加速了訓練的復雜度，善于處理稀疏數據 1）工作量接近深度學習，效果不如深度學習 2）FFM計算復雜度高 DNN 1）可直接輸入原始特征，減少交叉特征選擇 2）效果好 1）可解釋性差 2）模型可能較大，調參復雜，需要較大的工程支持 CTR預估算法模型優勢劣勢低階特征表達高階特征表達 LR 1）模

9、型簡單，善于處理離散化特征（包括id類特征）； 2）容易實現分布式，可處理大規模特征和樣本集 1）特征需要離散化； 2）特征之間在模型中是孤立的，需要做大量特征工程來做特征交叉 XGBoost 1）樹模型具有一定的組合特征能力； 2）善于處理連續特征，可進行特征篩選，人工特征工程量少 1）具有很強的記憶行為，不利于挖掘長尾特征； 2）組合特征的能力有限 FM&FFM 1）可以自動進行特征間的組合， 2）通過引入特征隱向量，加速了訓練的復雜度，善于處理稀疏數據 1）工作量接近深度學習，效果不如深度學習 2）FFM計算復雜度高 DNN 1）可直接輸入原始特征，減少交叉特征選擇 2）

10、效果好 1）可解釋性差 2）模型可能較大，調參復雜，需要較大的工程支持召回排序模型總結 DAU人均閱讀次數提升36.6% 現狀和問題： ? 特征還需要進一步挖掘 ? 模型的訓練效率有待提升 ? 探索嘗試新模型提升效果算法方面的探索系統架構方面的探索架構的重要性算法是大腦，架構是骨架，如果沒有好的推薦系統架構，算法很難落地好的推薦系統需要具備的特質： ?實時響應請求 ?及時、準確、全面的記錄用戶反饋 ?優雅降級 ?快速迭代推薦策略、算法經典Netflix推薦系統架構 ?離線層 o 不用實時數據，不提供實時服務 ?近線層（準實時層） o 使用實時數據，不保證實時服務（秒級） o

11、近在線計算的完成是為了響應用戶事件，增量學習算法很適合應用在接近在線計算中 ?在線層 o 使用實時數據，要保證實時服務（毫秒級） o 在線服務的各組件要滿足SLA對可用性和響應時間的要求快看推薦系統架構 IOS/Android/WebIOS/Android/Web 服務端（漫畫，社區）推薦引擎熱度池精品池運營池興趣召回相似召回 PredictorPredictor kNNkNN FlumeFlume KafKafk ka a 標簽索引向量索引數據指標監控服務監控 FlinkFlink SqoopSqoop UserHistoryUserHistory

12、推薦結果追蹤模型訓練 UserProfileUserProfile 特征工程實時用戶畫像歷史用戶畫像動態文檔靜態文檔 SparkSpark DocumentDocument HDFSHDFS 業務庫客戶端算法模型標簽權重調參工具 UserCFUserCF ItemCFItemCF User2UserUser2User 排序召回基礎服務工具在線層近線層離線層其他 AB實驗平臺 ?產品各層級自上而下統一的實驗標識，方便聯動 ?隨機分組方式設備隨機用戶隨機流量隨機 ?通過實驗分層支持正交實驗 ?支持互斥實驗 ?確保流量調整時用戶穩定落在某一分組 12345 12

13、345 12345 20% 4% UI層推薦策略層推薦算法層 1234 1234 X實驗Y實驗正交互斥 AB實驗平臺 ?指標計算可配置的指標類目增長率（相比對照組的）顯著性（增長是否足夠明顯P-Value）有效性（計算結果是否可靠Power) Power功效顯著描述 0.8, 1)SS非常有效 0.5, 0.8)S有效 0，0.5)N無效，建議繼續實驗 P-Value統計顯著描述 0, 0.01SS非常顯著 (0.01, 0.05S顯著 (0.05, 1)N不顯著推薦結果追蹤 ?推薦結果Debug的困難個性化推薦鏈路長、涉及多個端的開發推薦結果提供可解釋性 Bad cas

14、e發生時候的上下文丟失 Bad case引起的原因錯綜復雜 ?如何解決？追蹤工具支持歷史推薦結果查詢支持推薦結果溯源歷史畫像Snapshot 用戶對推薦結果的行為推薦引擎 LogConsumer HBase 客戶端 Monitor Kafka 目錄一、業務介紹二、技術挑戰三、技術探索四、總結與未來規劃總結 ? 介紹快看和快看的推薦業務 ? 從算法和系統兩方面介紹了快看推薦技術在起步階段的一些探索 ? 介紹了大規模K近鄰計算方法、AB實驗平臺搭建等常用技術的落地方案未來規劃 ? 內容理解是推薦業務的基石，目前這塊兒還比較欠缺，未來將探索漫畫領域的圖像和文本內容理解技術 ? 傳統機器學習方法探索充分之后將嘗試深度學習推薦算法，以期更好的推薦效果

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后，可能會被瀏覽器默認打開，此種情況可以點擊瀏覽器菜單，保存網頁到桌面，就可以正常下載了。
3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮，下載后原文更清晰。

本文（快看漫畫個性化推薦探索與實踐(36頁).pdf）為本站（起風了）主動上傳，三個皮匠報告文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對上載內容本身不做任何修改或編輯。若此文所含內容侵犯了您的版權或隱私，請立即通知三個皮匠報告文庫（點擊聯系客服），我們立即給予刪除！

溫馨提示：如果因為網速或其他原因下載失敗請重新下載，重復下載不扣分。

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站