《2-張炳淑-智能服務分層評測體系.pdf》由會員分享,可在線閱讀,更多相關《2-張炳淑-智能服務分層評測體系.pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、智能對話指標評測體系張炳淑螞蟻集團 測試開發專家本文件僅供技術交流,不得用于商業用途。本文件內容嚴格保密,未經許可,任何組織和個人不得復制、傳播張炳淑(雨湉)校招入職螞蟻集團后,先后負責財富平臺、社區內容及智能服務場景,從事智能服務場景質量工作5年,目前為財保事業群-財保技術部-財富及平臺-智能服務質量負責人。螞蟻集團-財保事業群-測試開發專家嘉賓照片目錄CONTENTS!#$%&!#$%&01 !#$%()*+!#$%()*+02#$,-./#$,-./03 ,-012.,-012.04 Badcase3405 56706 01!#$%&!#$%&智能對話的發展歷程1960 年ELIZA 第
2、一個被引用的聊天機器人誕生1972 年帕里是第一個狹義領域通過圖靈測試的對話機器人2005 年蘋果發布了SIRI2016 年Google 發布了 Google Assistant2018 年OpenAI發布GPT系列2001 年Eugene Goostman,通過了有史以來最大的圖靈測試29%評委-13歲虛擬男孩1950 年今天智能對話的應用近年來,人工智能技術的快速發展已經在各個領域展現出了巨大的潛力和應用前景。其中,智能對話系統作為人工智能技術的一個重要分支,正逐漸成為人們生活中不可或缺的一部分。智能音響車載語音助手導診/導購機器人軟件客服機器人ChatGPT智能對話系統的分類任務型閑聊型
3、問答型智能助手(訂票,導航等)客服系統聊天機器人綜合機器人任務型對話的典型架構Pipeline式ASR-語音-文本TTS-文本-語音NLU(Natural Language Understanding)-意圖理解DM(Dialogue Manager)-對話系統的中控NLG(Natural Language Generation)自然語言生成02!#$()%!#$()%*+,-.*+,-.智能對話場景的質量難點大量算法模型引入-輸入無限集、輸出不確定,評測難度、評價難度增加內容可控-對話內容的安全、可控、符合業務場景要求(金融嚴謹性)海量badcase-鏈路高復雜度,歸因處理困難智能對話質量被
4、cue 的top問題問法想全了沒?用戶會問這種Case嗎這些Case執行完,就能上線了是嗎?這個迭代效果咋樣,聰明點了沒?這么多badcase,到底是哪兒的問題?智能對話系統質量要解決的幾大問題1、評測怎么做?2、怎么評估好壞?3、怎么做問題歸因?你覺得xxx現在是個什么水平?03智能對話評測系統智能對話評測體系1、評測怎么做-評測目標智能對話評測體系評測體系考試體系1、評測怎么做-評測方案北極星指標:對話準確率能力項指標:意圖理解準確率情緒識別準確率知識儲備率北極星指標:總分能力項指標:計算題得分閱讀理解題得分創作寫作題得分智能對話評測體系1、評測怎么做-評測方案需要解決2大重點問題:1、考
5、題系統、2、閱卷系統考點完備性分層管理可信力敏捷性準確性閱卷成本1、考題系統2、閱卷系統智能對話評測體系(金融樣本庫)1、評測怎么做-評測方案-考題系統(分層評測)智能對話評測體系1、評測怎么做-評測方案-考題系統(不同層評測集的關系示例)智能對話評測體系基金是什么?基今是什么?啥是基金講下基金不懂怎么理財,能不能先給我講講,比如基金智能對話評測體系ParaphrasingNoisingSamplingPrompt Engineering(PE)!基礎金融樣本!NLP數據增強算法!#生成式大模型!$對抗生成金融知識、百科問答等標問雙機器人模擬對抗測試1、評測怎么做-考題系統智能對話評測體系1、
6、評測怎么做-考題系統-泛化生成傳統NLP樣本增強算法Paraphrasing(改寫:保留原始的語義下,更改句子中的詞、短語、句子結構);Noising(噪音:在保證label不變的同時,增加一些離散或連續的噪聲,保留原始語義);Sampling(多樣:旨在根據目前的數據分布選取新的樣本,會生成更多樣的數據)生成式大模型推理泛化Prompt設計:情景、約束、輸入、輸出、反饋泛化能力-問法泛化推理能力-安全攻防智能對話評測體系雙機器人對抗用例生成示例1、評測怎么做-考題系統-對抗生成雙機器人對抗相似度模型判別Acc94%+,大模型推理Acc80%+初始化人工閱卷冷啟動版本答案標注相似度判別利用Ro
7、former-sim/生成式大模型進行歷史答案判別大模型推理利用PE進行答案正確性推理,人機雙路對比智能對話評測體系1、評測怎么做-閱卷系統智能對話評測體系1、評測怎么做-閱卷系統自動化閱卷系統直接閱卷閱卷打分專家規則相似度判別模型推理人工校準04智能對話指標體系智能對話指標體系2、怎么評估好壞?-設計評測指標業務價值(結果指標)能力迭代(驅動指標)用戶度量(糾偏指標)反饋校準驗證質量開發線上用戶智能對話指標體系2、怎么評估好壞?-評測指標有分層結構產品層商業層數據層GMVAUMNPSMAU二輪率留存率采納率智能化服務智商分AI價值分工程層穩定性性能服務承接算法模型層回答率準確率魯棒性知識供給
8、率業務數據質量業務價值(結果指標)標注準確率能力迭代(驅動指標)用戶行業度量(糾偏指標)2、怎么評估好壞?-能力迭代驅動指標定義業務場景核心能力抽象定義智能對話指標體系XX售前客服機器人銷售客服(服務者)平臺idol溝通表達能力銷售專業技能領域知識儲備服務安全可控舉個例子智能對話指標體系2、怎么評估好壞?-北極星能力指標語言力知識力專業力可控力NLU意圖理解多輪專項情緒識別話術表達生成金融知識庫知識圖譜金融專業性安全性業務適當性科技倫理服務數據服務專業性核心能力關鍵技術/專項定義智能對話指標體系以NLU意圖理解為例:北極星能力指標向下拆解關鍵技術北極星指標關鍵衛星支撐指標2、怎么評估好壞?-北
9、極星能力指標向下拆解05Badcase治理智能對話badcase治理3、badcase歸因治理?-用戶問題遠比評測集更加發散金融服務客服咨詢投教知識閑聊日級badcase 近千智能對話badcase治理3、badcase歸因治理?-自動分發歸因能力 對話工程分發 樣本模型排查 內容生產任務金融樣本庫評測效率有效金融基礎樣本數十萬+泛化增強金融樣本近百萬指標驅動指標驅動的研發迭代模式迭代周期月級-周/天級智能對話評測系統的成果數十模型模塊自動化評測能力,全鏈路核心衛星指標自動更新(評測效率+150%)核心場景智能閱卷準確率90%+業務成果:端到端對話準確率提升10%+,badcase修復率提升200%能力沉淀:完整的智能對話分層評測方案和指標評估體系,全方位刻畫智能對話系統的能力水位06/01/01未來展望大模型時代智能對話可控性評測多模型指標的智能化歸因及預測個性化對話系統評測感謝聆聽關注QECon公眾號