《2020年終大會-搜索算法:12-3 旅行場景下搜索技術應用與創新.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-搜索算法:12-3 旅行場景下搜索技術應用與創新.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、旅行場景下搜索技術 應用與創新 英卓|阿里飛豬 導購算法 目錄 contents 01豬搜背景 02 03 04 基礎建設 召回策略 思考總結 飛豬搜索 豬搜(全局搜索) 行業小搜(酒店、機票、度假) 旅游決策天然的跨類目需求 手淘引流用戶心智 最速操作路徑 飛豬搜索 豬搜的重要性 豬搜框架 QP 搜索服務 LTP SP HA3 索引查詢 粗排 ctr cvr score item static score match score 加權排序 final sort RTP QP 面臨挑戰 性能限制,提供良好線上服務 體驗 傳統文本理解,提供文本相關 性 Lbs與poi的理解,提供空間相 關性 用
2、戶特征的理解,提供個性化 相關性 目錄 contents 01豬搜背景 02 03 04 基礎建設 召回策略 思考總結 Query tagging Query Tagging是QP中的一個基礎任務 應用層 算法層 數據層 例:北京自由行 目的地意圖 預處理 分詞 詞表預 匹配 規則/ 模型消 歧 tagging result QueryTagging|商品POI挖掘 背景 商品除了Title之外,詳情中也包含大量信息, 例如景點POI,可以用作索引參與召回 但是詳情是非結構化的HTML文本,如何挖掘 POI實體? 經典召回 |商品POI挖掘 x 1 x 2 x 3 x 4 y1y2y3y4 景
3、點SYM玉龍雪山SYM O OPOIPOIO U00:%x-3,0 U01:%x-2,0 U02:%x-1,0 U03:%x0,0 U04:%x1,0 U05:%x2,0 U06:%x3,0 U07:%x-2,0/%x-1,0 U08:%x-1,0/%x0,0 U09:%x0,0/%x1,0 U10:%x1,0/%x2,0 U11:%x- 1,0/%x0,0/%x1,0 標注 人工+詞庫 CRF+ NER模型 特征 Template 詞本身 是否是數字 最后一個字 聚類結果 長度是否為1 效果 準確率為99.3%,召回率為95.2% 建模方式:屬于一個典型的序列標注問題 同義詞挖掘 航旅四種類型同義詞 難點:如何在一個模型 里建模這四種同義關系, 挖掘通用同義詞? 同義詞挖掘 點擊 基于詞向量的同義關系挖掘算法 基于用戶點擊行為,我們拼接query和商品title,使得 query和tit