6-3 基于預訓練模型的行業搜索應用和研究.pdf

編號:102345 PDF 57頁 9.43MB 下載積分:VIP專享
下載報告請您先登錄!

6-3 基于預訓練模型的行業搜索應用和研究.pdf

1、基于預訓練語言模型的行業搜索的應用和研究謝朋峻 阿里巴巴達摩院高級算法專家|01行業搜索的背景02相關技術研究03行業搜索應用目錄CONTENT|01行業搜索的背景達摩院自然語言智能大圖政務搜索、電力搜索、教育搜題、企業內搜索、司法搜索、古文搜索。l 賦能阿里集團l 賦能產業淘寶搜索、AE搜索、優酷搜索、神馬搜索、閑魚搜索、飛豬搜索。|行業搜索information repositoryInformation needSearch engine|行業搜索information repositoryInformation needSearch engine查詢理解文檔分析檢索排序 queryaj

2、1北卡蘭新款球鞋 分詞aj1 北卡藍 新款 球鞋 糾錯aj1北卡藍藍新款球鞋 命名實體系列 顏色 營銷 產品詞 詞權重0.80.80.21 同義改寫aj1-(airjordan 1)or(air jordan 1)類目預測運動鞋/籃球鞋NLP分析質量分析效率分析相關性匹配效率優化運營管控 相似改寫喬丹1北卡藍潮鞋|行業搜索鏈路范式sparse retrieval倒排索引、查詢理解(分詞、tagging/term weighting、糾錯、改寫等)、文本相關性等等dense retrieval單塔/雙塔模型、向量引擎|行業搜索鏈路生產鏈路召回粗排精排重排*N|行業搜索鏈路生產鏈路召回粗排精排重排

3、*N關鍵詞向量個性化|行業搜索鏈路生產鏈路1.檢索效果&工程效率的tradeoff2.復雜模型前置模型復雜度變高處理Doc數變多召回粗排精排重排*N|搜索效果評估l 召回recallN、無結果率l 排序相關性:NDCGN、MRRN等轉化效率:CTR、CVR、收藏率、完播率、時長等等搜索效果好,是指什么好|消費互聯網和產業互聯網的搜索消費互聯網搜索產業互聯網搜索用戶群體和UV互聯網用戶,UV量級大政企內部員工,UV量級?。呈谐鞘写竽XNO.1的應用-智能搜索,日均UV 千級別)搜索追求指標搜得到,搜得準,轉化高-召回和相關性,CTR、CVR搜得到,搜得準-召回和相關性工程系統要求高QPS、低RT

4、;實時日志行為鏈路、實時模型訓練QPS和RT要求低算法方向offline/nearline/online下海量用戶行為分析建模內容理解(NLP、視覺等);low resource、transfer learning等|02行業搜索技術研究|行業搜索技術架構AliceMind體系|分詞 定制預訓練PMILRE121MLM LossMLMMSE LossBA(c).Boundary-Aware BERT LearningInput SentenceRaw CorpusN-gram Statistical DictionaryContextual N-gram SetsN-gram Set of N

5、-gram Set of+1+11/2+/2+1+2+11+1N-gram Set 1of 1Pre-Trained Language ModelRepresentation Composition(b).Boundary-Aware BERT Representation(a).Boundary Information ExtractorGram1PMI1;LE1;RE1Gram2PMI2;LE2;RE2GramPMI;LE;RE+LE RepPMI RepRE RepUnsupervisedInformation Mining-th BERT Layer-th BERT Layer1-th

6、 BERT LayerUnsupervised Boundary-Aware預訓練模型模型實驗結果對比針對中文詞法任務設計的預訓練語言模型底座BA-BERT、BA-StructBERT引入無監督統計邊界信息提升中文詞法任務的準確率CWS/POS公開學術數據集(5/6 SOTA)AVG實驗結果:BAStructBERT StructBERT NEZHA ERNIE-Gram BERT-wwm BERT|分詞 輕量化跨領域l 問題痛點l 解決思路1.OOV(未登錄詞)2.2.領域間數據分布差異大Coupling Distant Annotation and Adversarial Training

7、 for Cross-Domain Chinese Word Segmentation ACL2020通用領域分詞器在細分領域分詞效果下降目標領域缺乏人工標注數據分詞領域遷移存在兩大挑戰:?BERT-CRF?遠程監督領域分詞模型領域詞典 領域詞匯挖掘統計特征(互信息,左右熵,TF-IDF,詞頻,POS,)成詞模型命名實體識別搜索中作用對query和doc進行結構化信息理解識別關鍵短語及其對應類型構建知識庫的基礎NER的挑戰短Query,上下文不足高歧義知識型品牌品類型號IP規格等人名地名組織名作品名社區POISubPOI電商通用地址|命名實體識別:技術路線 核心優化思路:上下文增強技術隱式增強

8、顯式檢索增強知識檢索增強動態知識融合(ACE)EMNLP 2020,ACL 2021統案,六任務24個數據集SOTARetrieval-aug NER(RaNer)ACL 2021Knowledge-based NERSemEval 2022Text搜索引擎Text維基百科國際競賽10項冠軍,best system paper通型增強案對短Query尤其適|命名實體識別:檢索增強的技術檢索增強的實體識別技術(RaNer),ACL 2021錄用 不同行業的NER均取得顯著提升,達SOTA 通過多視角學習降低測試階段檢索依賴|自適應多任務訓練Query分析召回排序BERT發起查詢地址搜索鏈路地址搜

9、索鏈路BERT承擔多項任務承擔多項任務效果出眾transformer適用于GPU矩陣算子時延高,計算量大BERT特性客戶只提供CPU客戶對效果要求高大量數據處理(最高上千QPS)硬件資源要求影響購買意愿落地挑戰多任務多任務BERT一次BERT推理支持所有任務滿足性能要求同時效果大幅提高|難點預訓練階段:不同預訓練目標適用于不同任務Finetune階段:不同任務互相干擾,有時產生負向影響自適應多任務訓練解法基于元學習訓練任務采樣器,學習到一個對于所有任務整體最優的模型自適應多任務訓練|搜索召回預訓練語言模型l Dual-Encoder&Cross-Encoder 訓練數據:數據增強,難樣本挖掘(

10、ANCE)PTM:針對搜索召回任務的預訓練語言模型,Condenser,coCondenser,PROP,BPROP訓練方法:Multi-View文本表示、Loss設計l 召回模型訓練流程|l 優化點搜索召回預訓練語言模型 針對搜索召回的ROM預訓練語言模型|搜索召回預訓練語言模型 針對搜索召回的ROM預訓練語言模型Dual-Encoder模型實驗結果(MS MARCO)|HLATR重排模型HLATR:Enhance Multi-stage Text Retrieval with Hybrid List Aware Transformer Reranking|ROM+HLATR|03行業搜索應

11、用|地址分析產品一句話描述:基于地址知識庫,對多源多模態 地址提供精細化解析、標準化補齊、搜索編碼、匹配歸一等多能力的產品人、事、時、地、物數據量大覆蓋廣寫法自由知識型強解析困難更新快地址分析常駐人口登記系統旅館登記系統網吧登記系統警務工作平臺流動人口系統寄遞業系統|地址分析產品-技術框圖資源引擎NLP能力行業行業政務 金融 物流能源 稅務新零售應急 安全醫療阿里集團阿里集團高德 菜鳥 手淘飛豬 餓了么 政務中臺AE LAZADA 應用服務方案一標N實二維碼門牌智能接處警APP地址輸入地址有效性判斷物流區域指派黃牛地址識別外呼地址生成人員軌跡分析運單OCR解析語音地址輸入時空研判分析抽取POI

12、畫像相似度匹配地址推薦類型識別地址搜索輸入聯想地址推理標準化補齊多粒度糾錯分詞同義NER上下位Chunking對話理解句法分析機器閱讀理解糾錯信息檢索生成改寫歸一相似度實體鏈接統一搜索引擎地址預訓練語言模型細粒度標準化地址庫高精經緯度庫國際化資源庫區劃庫物流地址庫錄入點選本地生活地址庫搜索點擊派件采集資源庫融合掛載地址搜索編碼坐標系轉化地盤服務地址分析產品-地理語義預訓練模型 地址NLP分析的底座地圖圖片空間位置文本地址AliceMind 多模態地理語義融合StructBERT120.022378,30.276887阿里巴巴西溪A區(A1樓)POI分類地址結構化地址閱讀理解地址相似度地址實體消

13、歧地址分詞地址詞權重地理預測地址向量化對話地址理解多任務學習|地址分析產品-基礎地址文本分析 對文本地址的抽取、分詞、結構化、糾錯、區劃歸一等基礎NLP處理 地址抽取 地址糾錯文本 我在阿里爸爸淘寶城7-4ASR 我在阿里嘻嘻園區七好樓4樓OCR 我在酉溪園區七虧樓4樓我在阿里巴巴淘寶城7-4我在阿里西溪園區七號樓4樓我在西溪園區七號樓4樓例:張寶報警稱在余杭區竹海水韻3-5-101被入室搶劫余杭區竹海水韻3-5-101被入室搶劫 結構化和補齊例:余杭區竹海水韻3-5-101浙江省杭州市余杭區閑林街道閑富北路288號竹海水韻3棟5單元101室省=浙江省 市=杭州市區=余杭區街道=閑林街道路=閑

14、富北路路號=288號小區=竹海水韻樓棟號=3棟單元號=5單元房間號=101室補齊和歸一結構化解析|地址分析產品-地址搜索體系 基于地址庫和搜索引擎,對用戶輸入的地址文本進行搜索、聯想和經緯度轉換召回排序輸入:輸出結構化:Poi=浙一醫院TW:浙一|1 醫院|0Geohash預測:wtmkn同義詞/糾錯:浙醫一院向量化:1.01,3,文本召回拼音召回向量召回地理召回地理語義BERT底座其它召回排序列表關鍵詞匹配度搜索點擊行為深度排序模型深度語義匹配度空間匹配度聯想采納行為聯想列表經緯度列表浙一醫院|地址分析產品-搜索直接應用 地址聯想 地址檢索 地址編碼文一西路阿里巴巴120.028107,30

15、.280130經緯度編碼*地址均為虛擬地址|地址分析產品-新零售應用問題:業務生命周期有多套系統,多源客戶信息如何整合?留資/線索銷售安裝售后業務生命周期基于地址歸一技術實現Family IDl 新零售Family ID方案|地址匹配歸一登記手機:137*登記購買地址:余杭新湖果嶺2-1-1604登記手機:135*登記安裝地址:倉前街道新湖果嶺2期1棟1604登記手機:139*登記維修地址:杭州市余杭新湖果嶺怡庭1棟1單元16樓1604爸爸媽媽奶奶|地址分析產品-新零售應用爸爸媽媽奶奶Family|地址分析產品-新零售應用以Family為核心的新零售品牌增長模式品牌滲透單一家庭的多品類滲透分析

16、、社區的品牌滲透分析投放觸達新客登錄、老客改造、維修轉新購等主動營銷售后口碑Famliy維度的歷時工單/投訴整合分析,預警和響應樓盤畫像樓盤交付時間、樓盤均價和消費力等分析,線下促銷|爸爸媽媽奶奶Family地址分析產品-新零售應用微服務消防事件語料庫超大規模語音庫消防行業知識庫信息抽取語料庫BiLSTMBERTCRFColBERTCTCE2E-TLPCNETWAVENET高精地址庫語音識別引擎自然語言處理引擎地址標準化引擎語音轉寫要素抽取警情分類地址抽取地址推理地址推薦經緯度地址圍欄自學習引擎救死扶傷,生死時速救死扶傷,生死時速智能接警系統架構智能接警系統架構強大引擎久經考驗的人工智能算法引

17、擎,提供多元化、多模態算法能力世界領先的人工智能模型,結合自學習引擎實現持續優化先進模型海量專業訓練數據,確保模型效果;超大規模高精度地址庫,覆蓋全國海量數據實現端到端一站式解決方案,靈活組合應對復雜實戰環境功能完備引擎層模型層數據層面向消防119、醫療120、應急指揮中心等,解決報警地址推理、地址輸入、上圖展示等服務支撐|地址分析產品-智能接處警應用地址分析產品-智能接處警應用你好,蕭山119。請講。你好,我要這邊要報警。在電話,謝謝?;鹁瘑??對。地址在哪里?衙前鎮新華王村一新發王脊柱幾號?對。新郭路這邊,新光路。新華路,對新華社新華購物超市門口。興國路新華購物超市門口。對。針對語音/對話等

18、場景的文本進行地址分析和推理 任務特點 示例(語音轉寫后的文本)對話ASR不流暢別名口語化碎片化冗余信息多意圖無意圖錯別字多輪意圖數據文本風格問題語音對話地址分析|針對語音/對話等場景的文本進行地址分析和推理地址推薦結果語音輸入文本匹配召回引擎內排序Term weighting結構化文本匹配粗排關鍵詞語義匹配對話語義匹配精排地址抽取口語順滑語音地址糾錯對話理解主體識別意圖識別同義詞改寫緊密度分析說話人識別|地址分析產品-智能接處警應用面向消防119、醫療120、應急指揮中心等,解決報警地址推理、地址輸入、上圖展示等服務支撐A:你好,我的車被撞了。B:在哪里?A:靖江街道這邊。A:巴比饅頭這邊駛

19、進來這個路口。B:好。浙江省杭州市靖江街道巴比饅頭報警通話靖江街道:街道巴比饅頭:POI語音識別地址推理地址抽取巴比饅頭(黎明路店)杭州市蕭山區靖江鎮黎明路91-93號poi名稱與地址地址搜索 標準地址自動推薦可自動識別出報警通話中的地址關鍵詞,并高亮顯示,引導接警員過濾無關信息,進行地址定位。同音糾錯、別名關聯、地址補齊結合糾錯、別名、補齊技術,對地址進行標準化,有效降低找不到地址的風險,接警員對當地地址無需豐富經驗即可使用。地址關鍵詞自動識別結合上下文線索動態推薦地址結合對話上下文線索,不斷縮小范圍,消除歧義,推薦最匹配的標準地址。隨著通話的進行,推薦結果將越來越精確。標準地址信息一站式輸

20、出以超大規模標準地址庫作為支撐,一站式輸出地名、詳址、區劃、場所類型、經緯度等有用信息。|地址分析產品-智能接處警應用某消防隊轄區火警位置輸入內容輸出內容文一西路910號999號 五常派出所五常街道 五常消防隊文本圍欄方式經緯度圍欄方式圍欄計算地址圍欄支持多種方法配置圍欄規則,快速精準匹配屬地或者 屬地轄區精準匹配文本圍欄規則110.4123,131.1231;1。10.5123,131.6231;五常消防隊經緯度圍欄規則地址文本上海上海市嘉定區嘉定鎮街道清河路48號經緯度121.250455,31.384448|地址分析產品-智能接處警應用教育拍照搜題教育搜題業務背景|教育拍照搜題教育搜題業

21、務特點海量題庫場景豐富算法需求海量題庫且持續增長,數據庫壓力大存在高峰時段集中,用戶搜索并發量大搜索延遲直接影響用戶體驗覆蓋不同階段學習、用戶場景越來越豐富、學科分類眾多數據越來越復雜,搜索存在跨學科錯誤需要強大的算法算力支撐,提升搜題準確性依賴多模態搜索能力來解決圖文搜索需求依賴多語言處理能力來處理英語等其他語言搜題需求|教育拍照搜題教育搜題技術架構|教育拍照搜題教育搜題算法能力查詢語義理解查詢語義理解:Query處理流程:處理流程:|教育拍照搜題教育搜題算法能力對于拍照搜題場景下的分詞存在兩大難點:英文題目OCR識別之后的空格缺失、數學題目latex公式表示之后的切分。針對第一個問題,收集

22、千萬級K12英文語料訓練語言模型,即便對超長的英文連寫也可以精準切分。針對第二個問題,利用開放搜索自帶的分詞干預能力將latex表示中的運算符號預處理。|教育拍照搜題什么是類目預測?什么是類目預測?簡單來說,用戶輸入一個query,查詢得到一批商品,通過計算每一個商品所屬的類目與query之間的相關度,只要商品的排序公式中引用了這個相關度,那么對于這個商品來說,它所屬的類目與query的相關度越高,它的排序公式的計算結果就獲得了越高的排序得分,從而這個商品就會排在越前面。類目預測在教育行業的應用類目預測在教育行業的應用結合輸的圖信息和OCR識別之后的結果預測輸題的學科類別、題目類型;預測各本段

23、的字段類型(題干描述、選項等等);教育搜題算法能力|教育拍照搜題功能介紹:功能介紹:該功能主要分析了查詢中每一個詞在文本中的重要程度,并將其量化成權重,權重較低的詞可能不會參與召回。這樣可以避免當用戶輸入的查詢詞中包含一些權重低的詞時,仍然按用戶輸入的查詢詞限制召回,導致命中結果過少。功能用途功能用途:Query丟詞、改寫、文本相關性分析(2)詞權重模型訓練序列標注模型;預測標簽(7,4,1),分值越表term的重要性越,召回結果更準確;此題目中“因數”和“倍數”的權重分最高7分,參與召回的權重也就最高,其次是“35”和“24”為4分,其他權重分為1分的,不參與召回教育搜題算法能力教育拍照搜題

24、文本向量檢索文本向量檢索目標目標:通過文本向量檢索擴召回,結合AND邏輯查詢,做到latency和計算消耗低于OR邏輯的情況下準確性更高向量召回采用目前最先進的BERT模型,其中針對教育搜題做的特別優化有:BERT模型采用達摩院自研的StructBERT,并針對教育行業定制模型向量檢索引擎采用達摩院自研的proxima引擎,準確性和運行速度遠超開源系統訓練數據可以基于客戶的搜索日志不斷積累,效果持續提升效果效果:召回率達到OR邏輯準確性超出OR邏輯3%-5%整體召回doc數量減少40倍,latency降低10倍以上語義向量召回|教育拍照搜題文本向量多路召回多路召回優勢多路召回優勢文本召回和語義

25、向量召回的結合在搜題場景已經驗證有效,開放搜索的多路召回架構還將有更多的使用空間:圖片向量召回、公式召回、個性化召回。除了開放搜索內置的向量模型,我們也將支持客戶自己的向量索引,歡迎客戶和我們一起深耕搜題算法優化。|教育拍照搜題搜題效果展示案例1:搜題query:張慧研所指與小磁大概相近的是樂府之音案例2:搜題Query:“如圖是由一些相同的小正方體搭成的幾何體從三個不同方向看得到的形狀圖,則搭成這樣的幾何體需要_個小正方體|企業半結構化和非結構化散亂在企業各處,通過知識圖譜將多源異構知識進行統一的知識索引,實現統一的精準企業信息全局搜索,幫助知識沉淀管理和提升知識服務能力。電力知識庫統一搜索|電力知識庫統一搜索以制度標準為基礎數據,應用人工智能、大數據等技術,將制度標準文本轉化為知識圖譜,通過電腦和手機為基層員工與管理人員提供智能化的應用平臺,實現制度標準管理體系的智能化升級,提升制度標準應用便利性和質量水平,促進制度標準的普及應用。非常感謝您的觀看|

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(6-3 基于預訓練模型的行業搜索應用和研究.pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站