《A3-劉瑾-大模型時代質量工作的挑戰與應對策略.pdf》由會員分享,可在線閱讀,更多相關《A3-劉瑾-大模型時代質量工作的挑戰與應對策略.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型時代質量工作的探索與思考劉瑾(睿樞)螞蟻集團劉瑾(睿樞)清華碩士、在互聯網toC搜廣推、大安全、移動端、金融科技等業務具有10年以上質量和風險管理經驗。3年智能化金融toB業務和產品負責人,具備豐富的業務和研發管理經驗。目前專注于螞蟻財富在對話、運營、生成等場景的大模型應用落地和底座的質量和風險工作。螞蟻財富和平臺部 質量與技術風險總監目錄CONTENTS大模型時代財富平臺質量工作的新要求01 大模型AIGC在螞蟻財富質量與風險的探索與思考02 質量工作的管理實踐和展望03 數字化運營的探索與實踐案例數字化運營的探索與實踐案例1 金融服務的探索與實踐案例金融服務的探索與實踐案例2 數字化
2、資產的探索與實踐案例數字化資產的探索與實踐案例3 在線風險防控體系升級在線風險防控體系升級 4 01數智化時代財富平臺質量工作的新要求1.1 大模型行業發展現狀及挑戰關鍵挑戰關鍵挑戰發展現狀發展現狀數據來源不均衡,導致算法存在潛在的偏見風險倫理偏見模型算法具備強不可控性,內容存在風險可控性差模型能力逐步開放且成熟,用戶惡意使用風險暴露惡意應用數據規模體量較大,數據泄露風險加劇數據隱私天然的黑盒屬性,導致大模型難以保障透明度透明度差訓練數據由于多重因素干擾,模型魯棒性不足魯棒性不足 橫向拓、縱向深化,重逐步遷移態建設 應模式持續創新,服務模式益豐富 與業務需求加速融合,全賦能垂直場景 性能不斷提
3、升,逐步展現多維技術能金融服務服務體驗效果保障資產交易穩固底盤基礎平臺端保障,用戶體驗資損防控,測試提效財富平臺1.2 財富業務介紹數字化運營運營提效和活動保障資產業務02大模型AIGC在螞蟻財富質量與風險的探索與思考2.1 數字化運營-業務特征020406080100供給量級安全合規風險基礎質量風險業務效果訴求表達質量風險業務合規風險GC模式-挑戰比對傳統GCAIGC戶異常字符錯詞錯字基礎質量業務合規安全合規表達質量展示亂碼誘導銷售收益承諾賭毒語句不通暢表述不致展示失敗融場景不符涉政敏感財富業務進入豐富內容供給、更精細化運營新階段財富業務場景財富戶供給 更精細化的戶洞察+供給匹配 更豐富的內
4、容供給(AIGC撐)AIGC-檢測能升級創意供給質量挑戰AIGC-審核&保障升級創意供給上線效率挑戰安全合規8個二級分類通用能力流暢度語法正確性7個三級分類多樣性2個三級分類金融合規大模型事實性4個三級分類金融業務合規9個三級分類金融邏輯一致性2個三級分類專業可理解性金融邏輯常識性互聯網廣告管理辦法中華人民共和國廣告法中華人民共和國反壟斷法中國人民銀行金融消費者權益保護實施辦法中華人民共和國反不正當競爭法關于進一步規范金融營銷宣傳行為的通知四部門提出“八不得”規范金融營銷宣傳著作權法個人信息保護法等相關法律法規相關性3個三級分類2.1 數字化運營-AIGC內容防控架構設計2.1 數字化運營-A
5、IGC內容防控方案設計2.1 數字化運營-分發推薦鏈路保障方案分發鏈路保障方案多樣性保障方案推薦鏈路多樣性評估第一階段總體多樣性個體多樣性時序多樣性供給&分發聯動評估第二階段素材多樣性素材效果分析分發多樣性反哺供給第三階段挖掘用戶偏好牽引生產方向業務指標(GMV DAU)效果指標(曝光 CTR CVR)2.2 金融服務-業務背景金融智能服務智能金融量化 資產配置 智能定性分析量化選品 保障配置風險量化 市場風險交互式體驗 多模態問答 全周期陪伴智能線索 智能話術 服務推薦消費級:支小寶2.0產業級:支小助系列2.2 金融服務-金融大模型的評估體系螞蟻金融大模型交互與認知中樞(語言力)NLU N
6、LG RLHF NL2API SFT知識引擎(知識力)金融信息服務 金融知識圖譜 金融百科服務引擎(專業力)研判 選品 配置 演算 兩核 金融圍欄安全性適當性真實性螞蟻金融大模型評估體系評估知識庫標注資產訓練數據反饋資產小樣本評測 大樣本評測 有向期望評測 MFT巡檢分層指標樹 benchmark badcase歸因評測能力數據資產指標驅動目標:通過指標評價矩陣驅動產研服務質量持續迭代、評價模型能力2.2 金融服務-金融大模型評測集FIN-EVAL 金融AI任務評測集5大場景:金融服務認知、金融內容生成、金融知識理解、金融邏輯加工、安全合規底線,共28個任務維度評測集2.2 金融服務-行業大模
7、型評測能力總結模型的應用效能和業務水平的評估模型交付與模型運營過程的評估模型技術能力評測與評估安全可信評測基礎能力評測模型研發生產、模型壓縮過程評估領域學科專業能力評測專項評測SuperCLUEC-EvalChatbot Aren通用認知智能大模型評測體系MMCUCoAI安全評測平臺Open-Compass2.2 金融服務-大模型評測能力發展方向01專業化02通用化03評估框架ToB產品化與平臺化在垂類領域完善更加權威且專業的評測框架延展性滲透到大模型生產流程的各個環節2.3 數字化資產-業務特點資產生命周期特點申購下單T日T+2日T+1日T+3日T+4日申購確認收益發放贖回申請贖回確認業務交
8、互特點資金流轉用戶螞蟻基金機構文件交互交易支付信息展示2.3 數字化資產-理財業務與資產交易特點要求難點交易測試要全機構對接要準資產交易數智化保障u資產規模大u資金流數量多u測試分析:依賴專家經驗u充分度:缺少度量手段基于大模型的測試生產力提升u合作機構多u數據重要性高:賬戶、金額等u加工鏈路長:用戶-交易-文件u錯誤影響大:財富-機構-行業資產接入要快機構提效u業務挑戰大u新資產接入頻繁u定制業務場景多u技術架構升級多定義測試分母定義測試過程及所依賴的資源定義測試過程的自動化能力明確測試路徑及依賴資源提升執行效率及質量分母模型刻畫DB|配置|流量|鏈路|控制流測試用例生成測試模型構造|測試用
9、例產出自動可執行用例生成模板匹配|資產構造|用例組裝|平臺適配2.3 數字化資產-資產交易數智化保障金融圍欄安全性適當性真實性大模型底座金融通用知識余額寶領域+風險知識2.3 數字化資產-機構提效內部人員合作機構內外域隔離 身份鑒權&隔離 基金高端穩健養老其他機構A機構B業務1業務22.3 數字化資產-機構提效非結構化文檔結構化文檔:CSV、XMIND知識庫核心&高質量LLMcombine searchfinetune域內外,接入&運維問答質量Copilot合作2.3 數字化資產-基于大模型的測試生產力提升大模型底座金融領域知識分析執行校驗度量定位發現恢復需求需求 to 測分測分Code to
10、 測分測分NL to測試代碼測試代碼需求需求 to測試數據測試數據需求需求 to 校驗點校驗點Code to 校驗點校驗點監控自動生成監控自動生成根因自動定位根因自動定位自適應恢復自適應恢復質量質量Copilot2.4 在線風險防控體系升級流量管控資源管控協同協同自動巡檢持續可用保障保障LLM 灰度能力LLM 巡檢能力大模型背景的業務需求下,風險防控中問題發現、定位和修復等體系能力需升級03質量工作的管理實踐和展望質量工作新階段確定性的業務缺陷校驗工作向針對不確定的概率性問題的評測、評估到評價的轉移。新研發模式算法工程問題凸顯領域專業性提高3.1 質量行業的趨勢與思考研發流程重構,評測驅動,評
11、測需求增多。大模型應用落地爆發、迭代加速,算法工程的質量和效能問題日益突出。大模型產業應用加速,專業領域知識要求提高質量角色重要度提高產業應用后,產品缺陷和風險遷移,可解釋性需加強,質量工作的重要性會提高。質量流程標準化大模型底座評測能力不斷下沉,逐步標準化,上層業務應用需更加關注領域能力及構建業務屬性的評測手段。模型底座模型應用3.2 質量行業的趨勢與思考-各方質量工作的變化模型運營保障數據質量和治理模型生產過程保障模型基礎能力和領域能力端到端質量評測業務效果的評估算法生產和部署鏈路的評估基建能力建設業務智能化場景底座的選型和迭代算法工程能力的質量評測模型應用側的評測評估能力的建設內部數據泄露管理安全可信需求評測集和benchmark庫建設算法工程數據治理大模型應用統計學和數學數據工程與應用業務領域專業能力模型訓練與模型部署運營大模型安全、可信技術和知識3.3 大模型時代對質量崗位的未來要求Hard skillSoft skill邏輯性智能化背景業務領域深度自驅與自迭代快速學習與理解能力擁抱變化和挑戰,創造新的機遇和可能擁抱變化和挑戰,創造新的機遇和可能感謝聆聽關注QECon公眾號理財與技術交流群