《王曉博-搜推融合時代:UGC 社區信息分發技術升級與創新實踐.pdf》由會員分享,可在線閱讀,更多相關《王曉博-搜推融合時代:UGC 社區信息分發技術升級與創新實踐.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、演講人:王曉博目 錄01構筑社區力02搜索推薦融合03多模態的挑戰04LLM的機會構筑社區力用戶畫像:追求對個人/家庭有實際價值的內容用戶共性特點:購物理性、注重品質、有追求但不盲目垂類品類vv占比:時尚等內容占比最高觸發/使用場景:手機信息時+空閑無聊時間時其他:陌生人互動+分享屬性內容和生活方式持續擴圈,2億人的生活經驗都在小紅書2022經過近11年的累計,小紅書特有的真實、向上、多元的社區氛圍,不斷吸引著越來越多的伙伴,探索著美好生活的更多可能性NOW2020.07探索創建視頻化內容社區,完成從圖文到視頻的轉型,現在視頻已成為小紅書重要內容載體2021小紅書月活躍用戶數已經超過2億,其中
2、70%用戶是90后,并持續快速增長2023董潔直播在小紅書獲得成功,買手電商蓬勃發展。商業大會發布的廣告模式“種草就來小紅書”廣闊而溫暖的世界獨特種草模式生活方式電商社 區電 商廣 告 收藏 評論 彈幕 寫筆記 點擊 閱讀 播放 點贊搜索和推薦關系思考關鍵字搜索語義搜索多模態搜索搜索個性化對話式搜索bot內容協同行為協同深度網絡推薦交互式推薦生成式推薦排序互動生成普通人的視角,過來人的經驗millions of monthly usersmillions of search sessionsmillions of new posts every day有用真實性用戶對小紅書搜索的預期實時性個性
3、化多樣性Growing Content Pool生活方式類查詢多意圖模糊性強“火鍋”附近教程好奇查找附近的餐廳?如何在家吃火鍋?只是好奇,隨便看看?用戶意圖的模糊性FrequencyHeadTail大比例的長尾查詢詞長尾查詢召回的準確度問題長尾效應多種數據格式(標題、文本、標簽、視頻、圖片、音樂、OCR、日志)多種筆記類型(圖文筆記、視頻筆記、商品筆記、直播筆記、音樂筆記)多模態數據User Intent AnalysisCandidate RetrievalCoarse-grained RankingRankingReRankAGGVector RetrievalGraph Retrieva
4、lInverted Index RetrievalLTRRelevanceQualityCTRBERTText CNNQuery Text(Word)Query Text(Word/Char)MLPQuery/User Sparse Feature AttentionUser History Queries Weighted Feature FusionQuery+User TowerText CNNNote Text(Word)Multi-modal Note FeatureNote Text(Word/Char)Note/AuthorSparse FeatureAnchorQuery Te
5、xtWeighted Feature FusionNote TowerTextCNNText CNNText CNNQ1Q2Q3BERTFrozenPretrainedEmbeddingText CNNMLPContrastive Learning(Relevance)Contrastive Learning(Engagement)Hard Negative SamplesClicked vs.Low ranking positionClicked vs.Irrelevant Similar Note MiningCosineContrastive LearningCore-wordAnaly
6、sisContrastive LearningCore word vs.other wordSimilar Note vs.RandomQuery EmbeddingNote Embedding發現頁搜索作者頁其他域SimilarityU2U做興趣探索工業界的多模態OOTD秋季穿搭 毛衣通勤真的太舒服了!秋天除了西裝和衛衣,怎么能少了毛衣搭配呢。毛衣的搭配可以說非常簡單,穿上即可出家門那種。今天的搭配我以簡單為主,并沒搭配配飾,反而一切從簡牛仔褲和百搭的板鞋搭配這種色系的毛衣再合適不過了,皮帶選擇了和包包相近的顏色互相呼應,黑色的皮帶也可以很好的把上下半身在視覺上分段,凸顯腿長-OOTD毛衣:
7、Randomevent褲子:PSO Brand皮帶:Gucci鞋子:Excelsior包包:GROTTO以筆記搜筆記以文本搜筆記Query詞:高達應用Query推薦底紋圖&詞Query推薦底紋詞應用圖文筆記視頻筆記多模態召回多模態召回多模態相關性多模態相關性LLM的機會recall100recall1krecall1wBert0.33800.59730.8549CLIP0.55120.78140.9226NoteLLM0.72740.88840.9448NoteLLM-v20.80250.92310.9672Recallrecall50recall100Bert50.7861.72QueryNoteLLM54.5266.05RelevanceAUC on DCGAUC on RELBert8079QueryNoteLLM83.5382.59Internal Developer Platform工具開箱即用開發框架規范RedServingRedRayArkLVEComponentsToolsDataKnowledgeMaaSQuantizationLoRASFTPretrainLLM 基建智能客服群聊搜搜薯達芬奇THANKS大模型正在重新定義軟件Large Language Model Is Redefining The Software