《邢少敏阿里云AI搜索RAG應用實踐-20240701.pdf》由會員分享,可在線閱讀,更多相關《邢少敏阿里云AI搜索RAG應用實踐-20240701.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、阿里云AI搜索研發負責人/邢少敏內容提綱產生背景PART ONE應用實踐PART THREE技術方案PART TWO總結展望PART FOUR人機對話系統發展簡史1950心理醫師心理醫師 ELIZAELIZAMIT Artificial Intelligence Laboratory19661972模擬精神病患者模擬精神病患者 PARRYPARRYStanford圖靈測試圖靈測試Alan Turing1991LoebnerLoebner Prize Prize設立設立每年數千美元的獎金對首次首次通過圖靈測試額外獎勵1995A.L.I.C.EA.L.I.C.E在互聯網上可以使用,獲得Loebne
2、r Prize 2000、2001、2004共3屆冠軍1997JabberwackyJabberwacky獲得Loebner Prize 2005、2006連續2屆冠軍2005MitsukuMitsuku獲得Loebner Prize 2014、2016、2017共3屆冠軍2011IBMIBM WatsonWatson在危險邊緣Jeopardy!戰勝人類2012微軟小冰微軟小冰亞馬遜亞馬遜AlexaAlexa阿里小蜜阿里小蜜2015GoogleGoogle NowNow蘋果蘋果SiriSiri20112、NLP、AIML標簽語言自動機、Slot-Filling等1、專家系統“Bots“Bots
3、 areare thethe newnew apps”apps”-by Microsoft CEO Nadella,201620222017GoogleGoogleTransformerTransformerOpenAIOpenAIChatGPTChatGPT2018OpenAIOpenAI GPTGPT4、生成式AI3、神經網絡、強化學習、端到端對話系統垂直領域的挑戰催生RAG提問回答世界知識查找信息結果整合企業自身知識庫海量通用知識、語料參差不齊、存在安全風險企業內部文檔、業務數據、經營數據成本很高知識受限幻覺問題不可解釋合規問題直接使用大模型?大模型在知識問答場景存在的問題內容提綱產生背
4、景PART ONE應用實踐PART THREE技術方案PART TWO總結展望PART FOURRAGRAG概念 Retrieval-Augmented Generation(檢索增強生成)搜索結果引導LLM的生成 論文地址:https:/arxiv.org/pdf/2312.10997.pdf Github:https:/ RAG優勢 實時更新知識庫,無需重新訓練 答案能追溯來源,可解釋可追蹤 答案基于知識庫,不易產生幻覺html,markdown,pdf,doc問題問題介紹介紹OpensearchOpensearch向量索引向量索引文本索引文本索引Q Queryuery擴展擴展介紹介紹Op
5、ensearchOpensearchOpensearchOpensearch功能功能OpensearchOpensearch優缺點優缺點混合檢索混合檢索PromptPrompt生成生成檢索增強數檢索增強數據據客戶客戶授權授權數數據據Q Qw wenen第三方開源模第三方開源模型型數據數據模型模型RAGRAG定制模型定制模型預訓練預訓練&SFT&DPO&SFT&DPO大模型大模型總結總結回答回答OpensearchOpensearch是基于阿里巴是基于阿里巴巴巴大模型評測大模型評測評測指標評測指標準確率、幻覺率、全面性、不相關比例解析解析、切片切片、索、索引引重排重排文本、圖片、表格、代碼離線鏈
6、路在線鏈路訓練鏈路RAG關鍵點場景效果要求高 “預期100%準確”實時生成答案 “13秒內”隱私和安全性“過濾敏感話題”訓練推理成本高“RAG主要成本是GPU”準確解析不同格式文檔 準確召回問題相關結果 低幻覺率的大模型總結 高性能召回問題相關結果 高性能大模型推理生成 遵守相關法律法規 可控的大模型生成 過濾屏蔽敏感話題 低成本訓練方法 大模型推理加速RAG效果優化-數據解析和提取文檔結構分析表格信息提取圖表理解RAG效果優化-文本切片層次切分多粒度切分一級標題二級標題1二級標題2段落2段落3段落4段落5一級標題二級標題1段落2一級標題二級標題1段落3一級標題二級標題2段落4一級標題二級標題
7、2段落5切片1切片2切片3切片4一級標題二級標題1段落1一級標題二級標題1句子1細切片1一級標題二級標題1句子2細切片2一級標題二級標題1句子3細切片2段落1三級標題1三級標題1一級標題段落1切片5RAG效果優化-多語言向量化模型Method電商數據優酷數據醫療數據short_avgopenai_ada0.3864 0.34640.35550.3627sgpt_bloom(7b)0.5159 0.43820.41830.4575sgpt_bloom_1b1_300_lora(opensearch)0.48700.46210.43040.4598訓練數據訓練數據 300:MS MARCO Pas
8、sage Ranking Dataset+hard negative樣本構造 2k:MS MARCO Document Ranking Dataset+清洗2k token長度內均勻分布樣本+hard negative樣本構造底座模型底座模型 bloom_1b1:參數量適中,輸出embedding維度1536,效率友好訓練方法訓練方法 loss:In Batch Negative Loss 分布式訓練+數據并行,batch size=32=4*8卡效果評測效果評測 自研基于bloom底座大模型的向量模型sgpt_bloom_1b1系列在短文本效果已接近7B模型數據集:https:/ RAG效果
9、優化-Query理解分析Query結構(分詞、NER)糾正Query錯誤(糾錯)聯想Query語義(改寫)HyDERAG-Fusion擴充Query上下文(省略補全、指代消解)多輪對話query改寫對話數據對話數據Q:介紹OpensearchA:Opensearch是包含智能問答版、向量檢索版獨立及簡略問題對獨立及簡略問題對Opensearch智能問答版有哪些功能?智能問答版有哪些功能獨立問題獨立問題簡略問題簡略問題Q:介紹OpensearchA:Opensearch是包含智能問答版、向量檢索版Q:智能問答版有哪些功能Opensearch智能問答版有哪些功能?訓練樣本訓練樣本意圖決策處理鏈路信
10、息不足意圖澄清RAG效果優化-NL2SQLQ:查詢所有有電商業務并且員工數量少于50人的企業名稱?A:SELECT company_name FROM company_table WHERE is_ebusiness=Y AND employee_num 50;Q:北京物多美便利店的員工人數是多少?SQL:SELECT employee_num FROM company_table WHERE company_name=北京物多美便利店;A:北京物多美便利店的員工人數是500人模型/方法準確率latencyChatGPT80%N/ALlama2-13B32%N/AOpenSearch-Llam
11、a2-13B93%1.11sRAG效果優化-混合檢索稠密向量模型稀疏向量模型排序模型的高維特征表達:語義搜索關鍵詞分析、詞頻統計的信息表達0.3,0.5,6.2,2.3,0.3,0.5,6.2,2.35.6indices:12,16,18value:0.21,0.1,0.15混合索引數據處理檢索結果相似度權重排序公式Dense VectorSparse Vector稠密+稀疏向量原始語料混合召回語義匹配關鍵詞匹配統一向量化模型針對同一文本同時產出Dense向量和Sparse向量,分別處理語義匹配和精確匹配問題,多路召回。AvgRetrievalClassificationClusteringR
12、erankingSTSPairClassificationSummarizationSPLADE(4096)53.9048.0564.5425.551.5176.1481.9829.34bge-small-en-v1.5-angle60.9548.0972.8743.2358.0482.3885.1430.59OpenSearch62.3652.9174.0842.4157.9282.5385.5829.42AvgRetrievalClassificationClusteringRerankingSTSPairClassificationstella_v368.4673.6071.5053.7
13、568.2762.4588.10bge-m3sparse 4096_0.6+stella_v368.2074.4071.7453.4867.9661.2485.28OpenSearch68.7074.4071.7453.7568.2762.4588.10英文實驗英文實驗中文實驗中文實驗*2024年3月份阿里云AI搜索混合檢索Embedding模型榮獲C-MTEB榜單第一RAG效果優化-Rerank混合檢索后增加重排,可進一步提升排序效果MIRACL數據集 hit_rate5dureader retrieval hit_rate5未rerank0.4030.413rerank0.4920.494
14、 模型重排:bge-reranker、cohere rerank 規則重排:文檔序重排 切片擴展:擴展相鄰切片 效果:召回率+20%,回答準確率+12.5%RAG效果優化-大模型微調和評測答案綜合評分幻覺率GPT-4-turbo0.9379 7.1%OpenSearch-Qwen1.5-14B-sft0.8661 11.3%OpenSearch-Qwen1.5-14B-dpo0.88169.0%Qwen-200B0.9018 9.2%OpenSearch-Qwen-72B0.8908 6.4%OpenSearch-Qwen1.5-72B0.8790 4.3%微調大模型在客戶場景效果大模型微調數
15、據來源數據來源 開源QA數據 線上真實QA 大模型生成QA評測準確率問題分類(幻覺、遺漏、不相關、重復)問題發現及評分(開源方案:Ragas)83%無問題發現及評分+prompt生成88%不準確問題發現及評分+prompt生成+問題校驗95%不準確問題發現及評分+prompt生成+問題校驗+結論分析95%準確評測模型準確率數據構造數據構造 拒答數據 多樣性 多輪對話生成能力生成能力 幻覺控制 引用溯源 風格定制樣本篩選樣本篩選 樣本混合 模型曬選 規則篩選模型訓練模型訓練 SFT+Megatron DPO+Megatron Lora+Deepspeed評測指標:回答準確率,幻覺率,全面性,不相
16、關內容比例評測方法:多agent評測(prompt生成、評測、校驗、分析總結)大模型評測PromptPrompt生成生成基于badcase總結問題類型,生成評測prompt問題發現和評分問題發現和評分評測答案中的問題,并給出理由和評分問題校驗問題校驗校驗問題發現的對錯,糾正評估錯誤結論分析結論分析問題類型分類RAG效果優化-收益問題解決問題解決率率48%61%72%87%Qwen向量檢索Prompt工程多路召回層次切片Qwen SFT重排向量模型蒸餾LLM多粒度切片95%文檔解析優化切片優化Qwen DPOQuery理解RAG性能優化-VectorStore CPU圖算法VectorStore
17、的圖算法基于HNSW實現,并在HNSW基礎上從圖結構和檢索兩個方面進行了優化。構建階段的優化:優化圖結構,使圖的出度入度更加合理,更利于 ANN 搜索 檢索階段的優化:減少距離計算操作的開銷,以及預測檢索游走時所需的總步數,當到達預期步數時可以提前終止檢索,以減少計算開銷Gist數據集,top 10Sift數據集,top 100RAG性能優化-VectorStore GPU圖算法CAGRA(Cuda Anns GRAph-based),a fast ANNS graph construction and search implementation,optimized for NVIDIA GP
18、U.論文地址:https:/arxiv.org/pdf/2308.15136GPU+CPU并行加速Nvidia T4性能提升36倍Nvidia A100/A800/H100性能提升3060倍RAG性能優化-大模型推理加速模型量化和加速(8bit/4bit)KV Cache:額外顯存空間緩存結果,避免重復計算 Continuous Batching:模型量化將內存占用減半,吞吐翻倍 Tensor Parallel:將模型同層、不同層計算分到多卡推理加速收益13b Qwen和Llama2模型,3秒內生成200token答案采用70b模型,6秒內生成200token答案RAG成本優化-方法選擇 Pr
19、ompt Zero-shot、Few-shot、Chain-of-Thought(CoT)Pretraining 1000 GPU、月級(數據規模相關)Continue Pretraining 100 GPU、天級(數據規模相關)領域數據+數倍通用數據 Supervised FineTuning(SFT)全參數、LoRA DPO 100 GPU、天級(數據規模相關)RAG成本優化-客戶專屬模型基礎模型lora rank64lora rank512全參數微調效果89%94%97%100%新增參數比例02.5%20%100%新增顯存消耗-1840新增成本費用-100/月800/月4000/月單卡L
20、ora:每張卡相同基座大模型+多個不同LoRA小模型多卡lora:基座大模型和LoRA小模型相同比例切分到多卡LoRA的成本收益內容提綱產生背景PART ONE應用實踐PART THREE技術方案PART TWO總結展望PART FOURRAG典型場景電商場景內容場景企業知識庫教育搜題用戶選品、直播答疑商品售前咨詢,售后服務提升購物互動體驗、銷量轉化IT、文娛等個性化信息檢索提升檢索效率、用戶粘性、活躍度、業務轉化企業內部資料產品文檔、技術資料等提升企業信息檢索效率搜題生成答案,知識總結提升學習效率,用戶粘性、活躍度、業務轉化RAG客戶場景商品庫Query向量化文本Query0.3,0.5,6
21、.2,2.3,0.3,0.5,6.2,2.3,0.3,0.5,6.2,2.3,0.3,0.5,6.2,2.35.6處理&返回“男士樂福鞋多少錢”“為您找到Dior Boy男士樂福鞋,價格9200元”問答結果多模態RAG圖片 Base64 編碼圖片 OSS 路徑商品庫向量檢索搜索結果圖片數據數據推送MaxCompute 數據源API 數據源OSS 數據源數據處理圖片向量化(CLIP、ONE-PEACE)向量索引構建圖片轉文本(Qwen-VL)檢索 以文搜圖 以圖搜圖 語音搜圖 文音搜圖 圖音搜圖Query向量化文本、語音、圖片0.3,0.5,6.2,2.3,0.3,0.5,6.2,2.3,0.3
22、,0.5,6.2,2.3,0.3,0.5,6.2,2.35.6處理&返回“男士樂福鞋”“男士樂福鞋多少錢”為您找到Dior Boy男士樂福鞋,價格9200元問答結果問答生成問題理解生成Prompt相關圖片答案生成相關文本多模態RAG Demo為您找到三件合適的衣服,分別是“網紅男西裝(641671)”、“男士西裝套服(397452)”、“男士西裝套服(493752)”:問答結果“black man suit”“glasses”+阿里云Opensearch智能問答版一站式RAG服務阿里云Opensearch智能問答版基于表格內容的NL2SQL鏈路,支持分析統計場景的問答基礎表格問答能力表格輸出基
23、于表格內容的總結與推薦阿里云AI搜索開發平臺搜索組件搜索組件QueryQuery理解理解大模型服務大模型服務第三方開源大模型大模型評測服務訓練服務(PAI)推理服務(PAI-EAS)SFT數據生成Query改寫實體識別Query分詞數據層數據層在線引擎在線引擎HavenaskElasticsearch數據格式數據格式數據源數據源PDF、Word、PPTJSON、HTML、MarkdownExcel、CSVMaxComputeHologresHDFSOSSRDS數據提取數據提取文本切片文本切片向量化向量化sgpt-bloomstellabge-m3多粒度切分層次切分語義切分文本提取OCR視覺模型
24、拼寫糾錯指代消解多輪對話Qwen系列大模型組件編排組件編排LangChainLlamaIndex數據湖Paimon、Hudi意圖識別NL2SQL阿里云SDKOpenAI SDK阿里云AI搜索開發平臺平臺上的子服務和模型可以被單獨調用和集成、也可以基于阿里云SDK、OpenAI SDK、LangChain、LlamaIndex靈活組裝子服務和模型,構建AI搜索應用阿里云Elasticsearch AI基于Elasticsearch Inference API、Ingest API框架實現,AI服務和模型依托阿里云AI搜索開發平臺阿里云Elasticsearch AI內容提綱產生背景PART ONE應用實踐PART THREE技術方案PART TWO總結展望PART FOUR阿里云AI搜索展望開源生態結合引擎:Elasticsearch、Milvus框架:Langchain、Llamaindex模型:開源大模型大數據底座數據庫、數據倉庫、數據湖多模態優化文本、圖片、語音、視覺交互Agent探索Dynamic Agent Planning