《A1--范娜--研發大模型評測探索與實踐分享.pdf》由會員分享,可在線閱讀,更多相關《A1--范娜--研發大模型評測探索與實踐分享.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、研發領域大模型評測探索與實踐分享范娜華為范娜華為 華為云測試專家華為云研發領域大模型、CodeArts Snap智能開發助手評測負責人,華為云研發大模型評測專家。西安電子科技大學電子工程學院智能信息處理研究所碩士,2012年入職華為,有10+年以上測試實戰經驗,在網絡安全測試、電信領域大、小模型評測、研發領域大模型評測及大小模型評測工程化實踐方面具有豐富的經驗積累。參與中國信息通信研究院智能化軟件工程技術和應用要求:智能測試能力、智能化開發落地指南 相關標準、指南擬定工作。目錄C O N T E N T S1.研發大模型評測問題挑戰2.華為研發大模型評測介紹3.研發大模型評測探索思考華為智能開
2、發助手:CodeArts Snap2022-72022-112023-7Pangu-Coder代碼生成能力億級/十億級參數模型業界SOTA,多項重要指標國際領先智能開發助手首次亮相HC大會,開啟邀測智能開發助手亮相HDC大會,現場演示端到端應用開發CodeArts SnapCodeArts SnapPangu-CoderCodeArts Snap信通院4+級評級,國內首批通過評估企業之一信通院4+級評級,國內首批通過評估且最高評級企業之一2023-62024-7華為智能開發助手:CodeArts Snap函數級-項目級生成采納率提升HarmonyOS HarmonyOS 應用開發理解業務邏輯,
3、支持HarmonyOS ArkTS代碼生成,UT生成、知識問答和代碼轉寫代碼生成基于業務邏輯,生成采納率60%+,多輪對話提升代碼準確度支持簡單任務的代碼大模型升級為復雜任務的研發大模型,多Agent自主協同代碼檢查編譯構建測試流水線需求管理運維代碼開發代碼倉盤古研發大模型數據處理模型微調提示詞工程檢索增強問題分析AgentCode AgentCode Review AgentTest AgentFix Agent大模型精準調優多Agent協同系統CodeArts Snap 智能開發助手1300萬經典技術文檔760億行精選代碼10000+API技術文檔8500萬開源代碼倉讀代碼寫代碼調代碼測代
4、碼查代碼代碼翻譯代碼轉寫代碼解釋代碼調試單元測試用例生成代碼質量檢查代碼修復推薦代碼生成代碼注釋研發知識問答設計開發測試持續交付運維倉庫級代碼解釋需求潤色輔助分析API測試用例生成問題定位配置輔助智能運維智能檢視摘要生成智能ChatOps助手單兵作戰團隊協同研發大模型評測問題挑戰01百模大戰開啟模型蓬勃發展公司/機構大模型/產品名稱最新迭代時間Open AIChatGPT/GPT-42023年3月GoogleLaMDA/PaLM/mT5/Gemini2023年12月DeepmindGopher/Chinchilla/Sparrow2023年12月AnthropicClaude2023年7月Me
5、taOPT-IML/BlenderBot-32023年8月AI21 LabsJurassic2023年3月NVIDIAMegatron-Turing NLG2023年10月百度Titan/Ernie Bot2023年3月智譜AIGLM/GLM-130B/ChatGLM-6B2023年3月華為PanGu2023年7月阿里M6/通義2023年4月商湯日日新2023年4月科大訊飛星火2023年5月模型飛速發展以OpenAI為例:百模大戰開啟.國內外大模型推出節奏加快OpenAI發布GPT-1模型,1.1億參數2018年6月2018年11月OpenAI發布GPT-2模型,15億參數2019年6月Ope
6、nAI發布GPT-3模型,1750億參數2020年5月OpenAI推出GPT-3模型的beta版本2022年11月OpenAI發布基于GPT-3.5的全新對話式AI模型ChatGPT2022年12月ChatGPT第一次更新提升了總體性能2023年3月OpenAI震撼推出了大型多模態模型GPT-42023年11月OpenAI推出了GPT-4 Turbo GPT4.5發布2024年4月2024年5月OpenAI推出了GPT-4o產品發展模型能力日新月異智能協同智能生成智能問答模型能力逐日強大滿足客戶使用場景逐步豐富代碼生成研發問答單測生成代碼解釋代碼注釋代碼調試代碼翻譯代碼檢查CodeArts S
7、nap交付場景日漸增多滿足客戶語言類型日漸完善支持語言日漸豐富1Python2Java3C/C+4JavaScript5TypeScript6Kotlin7鴻蒙8C#9PHP10 Go11Ruby 主流語言評測挑戰如何評測一個模型的好壞?如何全面評測一個模型?如何高效評測一個模型?如何有效評測一個模型?華為研發大模型評測介紹02CodeArts Snap評估框架性能資料兼容性可服務性可靠性安全專項測試RAGAI應用LLM模型效果測試效率評測(推理性能)準確性評測安全性評測魯棒性評測泛化能力評測穩定性評測交付場景核心能力代碼語言代碼生成研發問答單測生成代碼解釋代碼注釋代碼調試代碼翻譯代碼檢查Py
8、thonJavaC/C+JSTsKotlin鴻蒙華為研發大模型評測工程框架模型管理大模型裁判模型評測任務模型部署裁判模型部署評測執行評測分析不佳樣本回收,優化打分模型評測集管理評估管理研發大模型評測框架評測集Prompt模塊開源評測集自建評測集資源池管理評估報告模塊評估報告評測系統L0基礎模型L1領域模型插件端側L2場景模型評測對象效果評測性能評測安全評測RAG評測評測任務單個評測AB評測基線評測評測方式自動化評測人工評測單個評測AB評測基線評測評測工具評估指標裁判模型指標計算插件標注平臺Passk通用指標CodeBLEU關鍵詞命中率意圖識別率自定義指標華為研發大模型評測工程單測評測實踐模型管
9、理評測任務模型推理評測執行評測分析評測集管理評估管理單測生成:研發大模型評測系統E2E承載單測用例生成及效果評估能力被測工程Prompt模塊資源池管理評估報告模塊評估報告UT_Prompt被測環境UT評測集 Systemprompt模型側插件側12單測用例生成單測效果評估大模型華為研發大模型評測總結評測方法介紹評測集構建評測分析反饋評測工程實踐評測方法人工評測自動化評測基于指標的評測打分模型評測絕對測評A vsB相對測評基礎評測集場景評測集飛輪回流數據用例有效性驗證數據有效性驗證模型評測模型管理大模型裁判模型評測任務模型部署裁判模型部署評測執行評測分析不佳樣本回,優化打分模型評測集管理評估管理評測集Prompt模塊開源評測集自建評測集資源池管理評估報告模塊評估報告插件端側有效評測全面評測高效評測研發大模型評測探索思考03評測探索思考 版本評測結果如何逼近真實用戶的感受?-評測指標歸一,并從模型評測到產品評測端到端看護 如何提升評測集構建效率?-多維度的Badcase及Goodcase作為輸入,數據飛輪旋轉-評測用例的輔助自動生成感謝聆聽關注公眾號