《智譜 RAG 技術的探索與實踐-柴思遠.pdf》由會員分享,可在線閱讀,更多相關《智譜 RAG 技術的探索與實踐-柴思遠.pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、柴思遠大模型商業技術中心/高級技術總監RAGRAG在智能客服領域在智能客服領域探索與實踐探索與實踐CONTENTRAG綜述智譜RAG方案RAG實踐未來展望01 01 RAGRAG綜述綜述RAG是大模型落地最多的場景大模型大模型應用場景應用場景調研調研行業行業具體應用場景具體應用場景汽車汽車 客戶服務與支持:通過RAG,客戶可以咨詢車輛功能、維護、最新技術或政策法規相關信息。工程師研發:工程師利用RAG結合LLM檢索技術文檔、研究論文和專利信息,加速新技術研發。銷售輔助:銷售人員通過RAG檢索最新車輛數據和市場趨勢,為潛在買家提供個性化車型推薦零售零售 智能客服:結合RAG的LLM提供24/7客
2、戶服務,快速檢索產品信息。銷售培訓:利用RAG搜索相關資料,進行銷售培訓。自動化產品描述:LLM自動生成吸引人的產品描述和營銷文案,RAG檢索產品規格和用戶評價,確保信息準確性和吸引力。文娛文娛 音樂與電影推薦:LLM結合用戶喜好和歷史數據,生成個性化音樂播放列表或電影推薦;RAG實時檢索最新音樂和電影數據庫,確保推薦時效性和多樣性?;邮綂蕵罚涸谟螒蚧蛱摂M現實體驗中,LLM作為虛擬角色AI與用戶自然對話,RAG檢索用戶與角色間經歷,豐富互動體驗。粉絲互動:明星或品牌官方平臺使用結合RAG的LLM回答粉絲問題,提供最新新聞和活動信息,提升粉絲參與度和忠誠度。金融金融 智能客服:結合RAG的LL
3、M提供24/7客戶服務,快速檢索金融產品信息,提供個性化服務與支持。保險銷售輔助:RAG檢索保險理賠條款,助力快速推動產品銷售。醫療醫療 文獻檢索與分析:研究人員利用結合RAG的LLM檢索醫學文獻和研究報告,分析數據,發現新研究線索和趨勢。虛擬健康助手:結合RAG的LLM回答患者健康相關問題,提供個性化健康建議,檢索最新醫療研究信息,教育患者。癥狀評估:LLM分析患者癥狀描述,RAG檢索醫療知識庫,提供診斷和治療方案。24242020202014149 98 87 76 6外部客服外部客服文檔撰寫文檔撰寫圖像生成圖像生成數據處理和分析數據處理和分析內部知識庫內部知識庫輔助編程輔助編程視頻相關場
4、景視頻相關場景其他其他外部客服外部客服文檔撰寫文檔撰寫圖像生成圖像生成數據處理和分析數據處理和分析內部知識庫內部知識庫輔助編程輔助編程視頻相關場景視頻相關場景其他其他 索引(Indexing)檢索(Retrieval)生產(Generation)什么是RAG知識及時更新避免人工整理FAQ增加問答知識范圍的管理權限減少模型的生成幻覺增加內容生成的可追溯性增加了答案推理RAG的優勢模型模型文本長度文本長度價格價格Claude Opus200kInput:$15/M tokensOutput:$75/M tokensGPT4-turbo128kInput:$10/M tokensOutput:$30
5、/M tokensGLM-4128k¥0.1/K tokensERNIE-4.0128k¥0.12/K tokensmoonshot-v1128k¥0.06/K tokens以GPT4為例:針對一篇20w字的小說提問:Long context,20w字全部輸入給模型大約需要9元。RAG,大約只需要召回的6*600個字輸入給模型,大約只需要0.25元。關鍵因素:成本關鍵因素:成本RAG VS long context02 02 智譜智譜RAGRAG方案方案文件上傳用戶提問輸出答案文件解析剔除無關信息識別目錄、標題等切片文章類型匹配規則切片長度構建索引query索引query改寫query拆解qu
6、ery拓展語義補全路由向量化數據庫多路召回語義檢索關鍵詞檢索排序rerank模型LLMprompt模板small to big技術方案全景文章內容解析1.圖片改寫成特定標識符 2.表格改寫成模型易于理解的html格式3.頁眉頁腳過濾無關信息文章結構切片1.目錄&標題提取文檔結構信息2.序列確保知識的連續我完整文檔解析&切片問題 Embedding模型本身有窗口限制,文檔切片過大而導致檢索信息不準確方案 遞歸檢索在原始文檔切片基礎上,擴展了更多粒度更小的文檔切片。檢索文檔時如果檢索到粒度細致的切片,會遞歸檢索到其原始大切片,然后再將原始節點做為檢索結果提交給 LLM。small to big解決
7、方案全景問答應用輸入提示原文引用圖文混排原文查看歷史消息對話窗口對話窗口知識運營知識類型文檔增刪查知識修改上傳解析知識構建多輪對話擬人化無知識拒答意圖理解問答對話問答對話切片索引切片管理切片配置切片修改索引管理索引生成索引修改數據運營對話日志數據評測【知識運營】索引工具問題 無法快速修正召回bad case 用戶的問題描述會更加口語化,召回效果會比較差方案 為切片增加索引,索引的創建方式可以有很多種,比如用大模型抽取切片可以回答的問題,抽取切片適用的業務場景等,抽取的索引與用戶的問題越相近,召回的概率越高,運營人員也根據bad case修正索引問題 用戶的問題往往是發散的、不可控的,那么最終效
8、果也將不可控方案 suggestion不僅可以降低用戶輸入成本,更主要的是可以規范用戶輸入內容,規范用戶輸入內容后效果更可控【問答應用】輸入推薦問題 大模型即使杜撰了內容,用戶也很難發現,此時用戶往往很難建立信任方案 在用戶提問的時候,我們在給出回答的基礎上可以給用戶展示出引用的知識來源,以此來獲取用戶信任【問答應用】原文引用【問答應用】圖文混排問題 知識中往往有很多圖文內容,去掉圖片內容,就失去了重要的意思方案 在大模型回答的時候,可以給用戶展示出知識中的圖片,以此來提升答案的滿足度特點單篇文檔、知識種類多、覆蓋面廣應用場景閱讀助手學習助手個人使用企業對內賦能使用方式可溯源幻覺控制知識數量龐
9、大、交叉嚴重快速體驗企業toc提供服務行政問答坐席助手電商客服問答公共事務問答【應用】三種常見的落地類型培訓對聯.保險政策問答制造設備問答車書問答旅游景點咨詢落地方式精度要求高幻覺控制原文相似度要求高精度要求高專業性強long contextRAG知識庫【應用】三種常見的落地類型通用性、兼容性要求高覆蓋面廣,各類文檔上傳快速體驗需要總結、對比、翻譯、問答痛點【應用】個人使用-論文分析企業的行政、財務、IT政策對內部員工提供服務耗費人力傳統方案理解較差,無法很好解決員工疑問,導致人工處理成本無法釋放痛點【應用】企業內部賦能-行政問答 每天工作過程經常需要翻閱資料,確保操作合理,翻閱過程繁瑣,占用
10、較多時間。傳統方案不利于工人查詢,工人更習慣于使用自然語言描述自己遇到的問題。工人查詢的知識專業性較高,基于大模型本身的知識無法給出準確回答。解決方案養殖員訴求 高效學習大量的養殖相關知識,包括奶牛護理、喂養、看病等等 簡單快速地搜索到相關養殖知識,處理實際遇到的各類問題動物學知識營養知識繁殖知識疾病管理和預防設施管理Q:我的一頭奶牛最近食欲下降,且體重也在減輕,應該怎樣解決?知識庫建立Prompt搭建效果調試小范圍試驗上線使用A:這有可能是很多疾病的癥狀,但具體判斷需要根據其他一些具體癥狀。例如,如果牛呼吸困難,這可能是肺炎;如果有腹瀉,可能是消化系統問題。請聯系獸醫進行評估,在此期間,確保
11、牛有足夠的食物和清潔的水,并且嘗試將病牛與健康牛隔離,以防止疾病的傳播。痛點【應用】企業內部賦能-牧業問答03 03 RAGRAG實踐實踐【場景介紹】公共事務客服問答場景傳統方案 對話引擎(腳本編排)文檔引擎(檢索系統)1.1.知識整理成本知識整理成本高高2.2.知識復用性差知識復用性差3.3.知識更新頻繁知識更新頻繁 FAQ知識梳理 每個問題富集大量相似問 容易知識遺漏 不同城市重復梳理 頻繁更新FAQ庫 重新更新FAQ知識分類和邏輯4.4.知識晦澀難懂知識晦澀難懂 政策文本晦澀難懂 需要人工解讀,對客服要求很高實行“反向開票”的資源回收企業(包括單位和個體工商戶,下同),應當符合以下三項條
12、件之一,且實際從事資源回收業務:(一)從事危險廢物收集的,應當符合國家危險廢物經營許可證管理辦法的要求,取得危險廢物經營許可證;(二)從事報廢機動車回收的,應當符合國家商務主管部門出臺的報廢機動車回收管理辦法要求,取得報廢機動車回收拆解企業資質認定證書;(三)除危險廢物、報廢機動車外,其他資源回收企業應當符合國家商務主管部門出臺的再生資源回收管理辦法要求,進行經營主體登記,并在商務部門完成再生資源回收經營者備案。三、自然人銷售報廢產品連續12個月“反向開票”累計銷售額超過500萬元的,資源回收企業不得再向其“反向開票”。資源回收企業應當引導持續從事報廢產品出售業務的自然人依法辦理經營主體登記,
13、按照規定自行開具發票。四、資源回收企業需要“反向開票”的,應當向主管稅務機關提交資源回收企業“反向開票”申請表(附件1),并提供危險廢物經營許可證或報廢機動車回收拆解企業資質認定證書或商務部門再生資源回收經營者備案登記證明?!緢鼍巴袋c】政策內容繁瑣抱歉,客服沒有理解您的意思,請您簡短描述您想要咨詢的問題。比如:公積金貸款公積金提取公積金繳存如果想要咨詢人工請點擊轉人工你好,我能用我老婆的公積金貸款嗎?FAQ命中率不高輸入你是不是想問:本地公積金貸款條件公積金貸款條件可以用配偶的公積金貸款嗎?請您點擊要咨詢的具體業務:北京小汽車搖號受理時間北京小汽車指標政策猜您還想了解北京小汽車指標配置辦理渠道
14、小客車指標配置北京小汽車搖號是什么時候引導生硬輸入請您點擊要咨詢的具體業務:如何辦理北京市居住證?線上申請北京市居住證居住證辦理的條件有哪些?對于乘坐火車的情況,如果您沒有攜帶身份證,可以到火車站的公安制證窗口辦理臨時身份證明。制證人員會根據您提供的相關信息錄入系統,制作臨時身份證明卡,并加蓋公章。有了這張臨時身份證明,您就可以購買火車票并乘坐火車。我身份證丟了,能辦臨時身份證上車嗎無法理解上下文輸入抱歉,客服不理解您的意思,您可以詳細描述您的問題。猜您想問:身份證如何補辦?居住證如何辦理?咋補辦呢?您好,參加失業保險1年以上的企業在職職工或領取失業保險金人員取得技能人員職業資格證書或職業技能
15、等級證書的,可按照初級(五級)不超過1000元、中級(四級)不超過1500元、高級(三級)不超過2000元的標準申請技能提升補貼。每人每年享受補貼次數最多不超過三次,同一職業(工種)同一等級只能申請并享受一次,且技能提升補貼和職業培訓補貼不得重復享受;已享受同一職業(工種)高級別證書技能提升補貼的,不再享受低級別證書補貼。實施上述技能提升補貼政策的?。ㄗ灾螀^、直轄市),上年度失業保險基金滾存結余備付期限應在1年以上。我是高級鉗工,能申請多少技能證書補貼?只能提供既定答案輸入【場景痛點】交互擬人度低用戶問題口語化嚴重,知識專業度高嚴重場景embedding知識信息密度大、且條款關聯度高利用文章結
16、構切片、small2big的索引通用embedding常規切片方案知識相似性極高、窗口長度有些關鍵詞搜索+reranking簡單embedding問題:我去年已經離職了,上一家公司給我交了5年公積金,現在是自己干,我是個人交的公積金,需要滿足什么條件?知識:十一、靈活就業人員(一)靈活就業個人賬戶設立及轉移1、辦理條件(1)本市行政區域內參加住房公積金制度的靈活就業人員,包括個體工商戶及其雇工和自由職業者兩類。2、辦理材料3、辦理流程問題1:城市鐵路有哪些特殊的交通規定?問題2:100萬以上城市如何規劃鐵路布局?知識:一、城市交通布局規定(一)通用規定XXXXX(二)機場特殊規定xxxxxx(
17、三)鐵路特殊規定1.規劃人口規模 100 萬及以上的城市,應根據城市空間布局和對外聯系方向均衡布局鐵路客運站;其他城市的鐵路客運站宜根據城市空間布局和鐵路線網合理設置。2.高、快速鐵路主要客站應布置在中心城區內3.城際鐵路客運站應靠近4.承擔城市通勤的鐵路5.鐵路貨運場站應與城市產業布局相協調6.鐵路編組站、動車段(所)等設施問題:民法典第208條規定是什么?知識:民法典第二編 物 權xxxx第二百零七條 國家、集體、私人的物權和其他權利人的物權受法律平等保護,任何組織或者個人不得侵犯。第二百零八條 不動產物權的設立、變更、轉讓和消滅,應當依照法律規定登記。動產物權的設立和轉讓,應當依照法律規
18、定交付。第二章 物權的設立、變更、轉讓和消滅第一節 不動產登記xxxx行政法規規定。第二百一十一條 當事人申請登記,應當根據不同登記事項提供權屬證明和不動產界址、面積等必要材料?!炯夹g挑戰1】知識召回Query vs QueryF-Answer vs Original使用用戶的query召回query(自動化從對應的知識片段中抽取query)根據用戶的query生成fake answer,去召回知識片段Query vs OriginalQuery vs Summary直接使用用戶query召回知識庫片段使用query召回知識片段的摘要,構建摘要和知識片段之間的映射關系微調數據構造50.0%55
19、.0%60.0%65.0%70.0%75.0%80.0%85.0%90.0%95.0%100.0%微調前微調后不同Embedding模型測試與選擇zhipu-v2(564M)bge-M3(530M)bge-large-zh-v1.5(302M)bge-small-zh-v1.5(24M)m3e-small(24M)u微調對于效果提升很明顯 微調后Top5召回效果均提升10-20個點。u智譜自研模型效果較好微調前bge-m3 取得最好的結果,這得益于它較大的輸入長度微調后TOP5召回達到100%。u微調之后模型效果差異縮小 微調后top5召回差異在1個點之內。u參數規模的影響比較小 核心結論核心
20、結論【Embedding微調】模型測試與選擇80%96%79%100%50%55%60%65%70%75%80%85%90%95%100%微調前微調后rerank 方案對比bge-reranker-base(270M)bge-reranker-large(550)u微調對于效果提升很明顯 u大參數模型效果更優 核心結論核心結論【rerank模型】方案選擇業務專家不懂模型需要什么數據讓模型來潤色答案回答、反問、拒答、相關知識需要分別構造數據并訓練數據標注難度大問答有較多回復類型需要精準區分正確內容DPO知識晦澀,易混淆問題:個人所得稅最高不超過多少?知識:個人所得稅比例:個人所得稅最高不得超過.
21、標準答案:您好!個人所得稅最高不得超過.潤色答案:您好!關于您提到的個人所得稅限制問題,根據相關政策規定,個人所得稅最高.希望對您有所幫助,如有其他問題,請隨時聯系我們。問題:我想問下醫保如何報銷?知識:反問:不同城市及不同類型的醫保有不同的報銷方式,請問您所在的城市與購買的醫保類型是什么?問題:APP無法更新怎么辦?知識:APP下載可訪問官網進行下載,下載鏈接:http:/xxxxxx拒答:您好,無法更新可能有多種情況,因暫無相關知識,無法為您直接提供答案。建議您可以重新下載APP,下載APP可訪問http:/xxxxxx問題:醫保報銷范圍知識:1.醫保報銷范圍:xx疾病,xx疾病2.醫???/p>
22、報銷的城市范圍:北京市、上海市、xx市正確答案:醫保一般可報范圍包括xx疾病、xx疾病混淆答案:醫??梢栽谝韵聨讉€城市進行報銷?!炯夹g挑戰2】答案生成一致性:閱讀回復后能感覺到完全理解了指令,則滿足一致性.正確性:若回復里面出現了前后矛盾(邏輯不能自洽),則不滿足正確性。有幫助性:站在用戶角度,答案是否有用,該評價較為主觀。流暢性:回答的自然程度或流暢程度有害性:提問或者回答內容包含不恰當、不健康、危險、政治敏感或不道德的信息。這些信息可能會對讀者造成負面影響,數據格式數據要求數據質量評價標準通常情況下,提供更多的高質量訓練數據,微調效果越好。反之,如果訓練數據中存在問題、瑕疵,將對微調效果產
23、生一定的負面影響。數據規模:提供數百條高質量的訓練數據,數據經過人工校驗。數據分布:根據業務目標,構造和調整各類細分任務場景的訓練數據量分布,盡量覆蓋業務場景所有可能的數據樣本。數據集要求數據構造:原則拒答精答 三級標題以下的知識點,直接可回答 直接可答 場景問題,推理可答 三級標題以下知識點,內容相關不能直接回答問題,給出相關的知識 無關話題拒答,閑聊的 包含部分知識可答 完全不包含拒答 業務區域錯誤 包含知識,業務要求拒答 操作類/查詢類/計算類/對比類/原因類反問 一級二級知識點,需要反問【問題】買賣住房提取可以不【知識】一、購房提?。?)購買新房提取.(2)購買二手房提取.(3)購買公
24、有住房產權提取.【答案】尊敬的用戶,您好!關于您提到的買賣住房提取公積金的問題,根據我國相關政策,購買住房是可以提取公積金的。具體的提取條件和流程會根據您所購買的房型有所不同。目前,我們支持以下幾種購房提取方式:1.購買新房提取2.購買二手房提取3.購買公有住房產權提取.【問題】提取承諾書無法下載【知識】六、其他提取業務(一)公積金提取附則*(二)法院扣劃*(三)提取查詢*(四)可線上辦理提取情形*【答案】根據蘇州公積金政策業務邏輯,用戶的提問屬于操作類問題,因為用戶詢問的是提取承諾書無法下載的問題,這屬于在APP、微信公眾號、單位及個人網上營業廳、小程序、支付寶等移動端及互聯網端業務操作中遇
25、到的問題。根據業務邏輯,這類問題屬于拒答類型,因此我無法回答用戶的問題?!締栴}】拆遷安置住房要提供哪些材料?【知識】(五)購買拆遷安置住房提取1、辦理條件xxxxx2、辦理要件(1)身份證件原件(居民身份證或臺灣居民來往內地通行證或港澳居民來往內地通行證).【答案】您好,如果您因購買拆遷安置房需要提取公積金,需要以下材料:1.身份證件原件(居民身份證或臺灣居民來往內地通行證或港澳居民來往內地通行證)2.拆遷協議原件.請您準備好以上材料,前往公積金中心或指定的提取銀行網點辦理提取業務。如有其他問題,請隨時聯系我們,我們將竭誠為您服務。數據構造:業務覆蓋度串聯型:基于背景知識直接回答問題背景知識答
26、案補繳個人所得稅需要提供什么材料(五)個人所得稅補繳1、辦理條件xxxxx2、辦理要件(1)身份證件原件(居民身份證或臺灣居民來往內地通行證或港澳居民來往內地通行證),(2)銀行賬戶信息:用于轉賬繳納稅款,需提供開戶銀行、賬戶名稱、賬號等信息(3)收入證明:包括工資、薪金所得的工資單、獎金單等,個體工商戶的生產、經營所得的賬簿、憑證等,以及各種稿酬、特許權使用費等所得的合同或協議,(4)費用扣除證明:包括符合稅法規定的各種扣除項目,如子女教育、繼續教育、大病醫療等專項附加扣除的證明材料。xxxxx根據中國現行的個人所得稅相關規定,補繳個人所得稅時,納稅人通常需要準備以下材料:1.身份證明:通常
27、需要提供身份證原件及復印件,用于驗證納稅人的身份。2.銀行賬戶信息:用于轉賬繳納稅款,需提供開戶銀行、賬戶名稱、賬號等信息。3.收入證明:包括工資、薪金所得的工資單、獎金單等,個體工商戶的生產、經營所得的賬簿、憑證等,以及各種稿酬、特許權使用費等所得的合同或協議。4.費用扣除證明:包括符合稅法規定的各種扣除項目,如子女教育、繼續教育、大病醫療等專項附加扣除的證明材料。數據構造:COT問題背景知識答案孩子上學能提取嗎七、可提取類型職工有下列情形之一的,可以申請提取本人住房公積金帳戶內的存儲余額:1、住房消費類提取xxxxx2、銷戶提取xxxxx3、其他提取情形xxxxxx4、除以上情形,其他方式
28、均不可辦理提取業務。您好!目前公積金政策中,可提取的情形有如下幾種.,從內容中可看出,孩子上學并不屬于可以提取公積金的范疇,所以不能提取公積金。因果關系:因為.所以.,由.可以得出.等數據構造:COT問題背景知識答案產權證號是哪個無相關知識很抱歉,根據我所了解的知識不能回答您的問題,如果您有其他的問題歡迎您提問。補交的養老金什么時候才能進個人賬戶(一)單位補繳:.(二)個別補繳:.您好!補繳有兩種類型,您未確認是哪種具體的類型,請問您確認是單位補繳還是個別補繳?邏輯推理:推理拒答、反問或者相關知識數據構造:COT 流暢性:語言嚴謹、通常、自然,符合客服的話術風格。多樣性:人工標注數據會受限于個
29、人知識儲備,標注的答案很難避免多余單一、多樣性較差。潤色原則1.長度限制:比較潤色前后長度差是否在合理范圍內,長度約束可過濾掉,生成過短、過長等問題。2.相似性過濾:在某些特殊情況下,即使長度限制符合要求,內容也會有所不同,所以采用向量、hash等方式對內容一致性做進一步的限制。校驗方式您好,根據“購買二手房提取”政策,符合以下條件的即可辦理:(1)提取有效期:在契稅完稅證明開具一年內可以辦理購房提取,(2)職工購買二手房申請公積金貸款的,為了不影響公積金貸款放款額度,需要等到貸款放款后才能提取公積金,(3)購買非住宅類性質的房屋.公寓以及小產權房均不得提取住房公積金,(4)購買外地二手房是否
30、可以提取需要以大廳審核結果為準,需要職工配合大廳出具其他所需材料,(5)材料齊全后辦理即可。您好,根據相關政策規定,在蘇州購買二手房是可以提取公積金的。具體辦理條件如下:1.提取有效期:在契稅完稅證明開具一年內可以辦理購房提取。2.職工購買二手房申請公積金貸款的,為了不影響公積金貸款放款額度,需要等到貸款放款后才能提取公積金。3.購買非住宅類性質的房屋、公寓以及小產權房均不得提取住房公積金。4.購買外地二手房是否可以提取需要以公積金中心審核結果為準,需要職工配合公積金中心出具其他所需材料。5.材料齊全后即可辦理。請您在辦理時確保符合以上條件,并準備好相關材料。如有其他問題,請隨時聯系我們。祝您
31、購房順利!潤色前潤色后76.0%83.2%60%65%70%75%80%85%90%95%100%潤色前潤色前潤色后潤色后潤色前后準確率對比數據構造:潤色原始文檔KnowAKnowB增加噪音增加知識混淆不同數量的知識KnowAKnowBKnowC不同順序的知識KnowBKnowCKnowA易混淆的知識KnowAKnowAKnowB數據構造:噪聲通過大模型自動構造數據,提升模型的泛化能力和魯棒性。通過多prompt、temperture,topp參數調高、隨機選擇等手段,等保障輸出內容的多樣性。通過大模型對比標準答案,相似性技術等手段保障正確性。方法單prompt多prompt作為一名客服話術專
32、家,你的任務是優化客服的回應,使其更具專業性、條理性、禮貌性,并具有良好的格式。用戶提問:query原始客服回復:ans請你對客服的原始回應進行復述和優化,保持原有的內容和主要詞匯不變,專注于客服話術和業務邏輯的潤色,同時美化回答格式。給出潤色后的客服回答。身為客服話術專家,你的主要職責是優化客服的交流方式,使其更具有邏輯性、專業性和禮貌性,同時保持格式優美。用戶咨詢:query原始客服解答:ans請你對原始的客服解答進行復述和提升,內容和主要詞匯應保持不變,重點在于潤色客服話術和業務邏輯,同時優化回答的格式。數據構造:自動泛化base modelSFT stage 1綜合訓練方案SFT st
33、age 2SFT stage 3final modelopen sourcetrain datavitercal domaintrain datamanual annotationtrain datal訓練方法1:分階段訓練訓練方法2:DPO 訓練思路對 SFT 數據集進行推理篩選出存在差異的樣本作為負例保證樣本均衡例DPO策略DPO用于訓練模型學習數據偏序的能力,使模型可以高概率生成高質量結果,低概率生成低質量結果。優化策略優化策略1:1:負樣本負樣本動態調權動態調權在訓練過程中根據負樣本的優化程度,對負樣本進行加權,以實現動態調節負樣本的梯度影響,實現穩定訓練。優化策略優化策略2:2:正負
34、樣本平滑正負樣本平滑原始 DPO 訓練失敗的原因在于對負樣本的過度擬合,對此我們使用如下方式分別正負樣本的優化曲線進行平滑處理,消除訓練過程中對負樣本的過度優化問題訓練方法4:DPO人工標注數據潤色數據+dpo數據泛化+多階段50%55%60%65%70%75%80%85%90%95%100%訓練結果:先提升數據質量,再提升數據量04 04 未來展望未來展望復雜表格識別多表頭、合并單元格等識別圖表識別流程圖、魚骨圖等圖表的識別圖文問答用戶輸入圖片,對圖片進行理解并檢索知識庫回答儀表盤這個亮了,是怎么回事輸入根據圖片內容,如果在行車途中機油報警燈常亮,可能是機油量低于標準值,這時需盡快為愛車添加機油,避免因繼續行駛對發動機造成磨損。另外還有重點檢查一下發動機有沒有漏油的現象,如果存在要馬上進行維修。技術展望場景展望學習助手幫助個人、家庭、團體記錄下所有的溝通,并且基于這些記憶輔助大家溝通讓學習回歸到一問一答的原始模式采集助手學會調研的方法,基于一個問題來去收集信息,并總結答案記憶助手大模型+搜索增強是大模型時代的新計算機計算機,大模型類似于計算機的CPUCPU,互聯網實時信息與企業完整知識庫共同構成了大模型時代的硬盤硬盤。王小川