當前位置：首頁 > 報告詳情

A1--范娜--研發大模型評測探索與實踐分享.pdf

上傳人：張** 編號：181257 2024-10-01 PDF PDF 25頁 5.93MB

該報告所屬合集： 2024QECon全球軟件質量&效能大會·上海站嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/25

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《A1--范娜--研發大模型評測探索與實踐分享.pdf》由會員分享，可在線閱讀，更多相關《A1--范娜--研發大模型評測探索與實踐分享.pdf（25頁珍藏版）》請在三個皮匠報告上搜索。

1、研發領域大模型評測探索與實踐分享范娜華為范娜華為華為云測試專家華為云研發領域大模型、CodeArts Snap智能開發助手評測負責人，華為云研發大模型評測專家。西安電子科技大學電子工程學院智能信息處理研究所碩士，2012年入職華為，有10+年以上測試實戰經驗，在網絡安全測試、電信領域大、小模型評測、研發領域大模型評測及大小模型評測工程化實踐方面具有豐富的經驗積累。參與中國信息通信研究院智能化軟件工程技術和應用要求：智能測試能力、智能化開發落地指南相關標準、指南擬定工作。目錄C O N T E N T S1.研發大模型評測問題挑戰2.華為研發大模型評測介紹3.研發大模型評測探索思考華為智能開

2、發助手：CodeArts Snap2022-72022-112023-7Pangu-Coder代碼生成能力億級/十億級參數模型業界SOTA，多項重要指標國際領先智能開發助手首次亮相HC大會，開啟邀測智能開發助手亮相HDC大會，現場演示端到端應用開發CodeArts SnapCodeArts SnapPangu-CoderCodeArts Snap信通院4+級評級，國內首批通過評估企業之一信通院4+級評級，國內首批通過評估且最高評級企業之一2023-62024-7華為智能開發助手：CodeArts Snap函數級-項目級生成采納率提升HarmonyOS HarmonyOS 應用開發理解業務邏輯，

3、支持HarmonyOS ArkTS代碼生成，UT生成、知識問答和代碼轉寫代碼生成基于業務邏輯，生成采納率60%+，多輪對話提升代碼準確度支持簡單任務的代碼大模型升級為復雜任務的研發大模型，多Agent自主協同代碼檢查編譯構建測試流水線需求管理運維代碼開發代碼倉盤古研發大模型數據處理模型微調提示詞工程檢索增強問題分析AgentCode AgentCode Review AgentTest AgentFix Agent大模型精準調優多Agent協同系統CodeArts Snap 智能開發助手1300萬經典技術文檔760億行精選代碼10000+API技術文檔8500萬開源代碼倉讀代碼寫代碼調代碼測代

4、碼查代碼代碼翻譯代碼轉寫代碼解釋代碼調試單元測試用例生成代碼質量檢查代碼修復推薦代碼生成代碼注釋研發知識問答設計開發測試持續交付運維倉庫級代碼解釋需求潤色輔助分析API測試用例生成問題定位配置輔助智能運維智能檢視摘要生成智能ChatOps助手單兵作戰團隊協同研發大模型評測問題挑戰01百模大戰開啟模型蓬勃發展公司/機構大模型/產品名稱最新迭代時間Open AIChatGPT/GPT-42023年3月GoogleLaMDA/PaLM/mT5/Gemini2023年12月DeepmindGopher/Chinchilla/Sparrow2023年12月AnthropicClaude2023年7月Me

5、taOPT-IML/BlenderBot-32023年8月AI21 LabsJurassic2023年3月NVIDIAMegatron-Turing NLG2023年10月百度Titan/Ernie Bot2023年3月智譜AIGLM/GLM-130B/ChatGLM-6B2023年3月華為PanGu2023年7月阿里M6/通義2023年4月商湯日日新2023年4月科大訊飛星火2023年5月模型飛速發展以OpenAI為例：百模大戰開啟.國內外大模型推出節奏加快OpenAI發布GPT-1模型，1.1億參數2018年6月2018年11月OpenAI發布GPT-2模型，15億參數2019年6月Ope

6、nAI發布GPT-3模型，1750億參數2020年5月OpenAI推出GPT-3模型的beta版本2022年11月OpenAI發布基于GPT-3.5的全新對話式AI模型ChatGPT2022年12月ChatGPT第一次更新提升了總體性能2023年3月OpenAI震撼推出了大型多模態模型GPT-42023年11月OpenAI推出了GPT-4 Turbo GPT4.5發布2024年4月2024年5月OpenAI推出了GPT-4o產品發展模型能力日新月異智能協同智能生成智能問答模型能力逐日強大滿足客戶使用場景逐步豐富代碼生成研發問答單測生成代碼解釋代碼注釋代碼調試代碼翻譯代碼檢查CodeArts S

7、nap交付場景日漸增多滿足客戶語言類型日漸完善支持語言日漸豐富1Python2Java3C/C+4JavaScript5TypeScript6Kotlin7鴻蒙8C#9PHP10 Go11Ruby 主流語言評測挑戰如何評測一個模型的好壞?如何全面評測一個模型?如何高效評測一個模型?如何有效評測一個模型?華為研發大模型評測介紹02CodeArts Snap評估框架性能資料兼容性可服務性可靠性安全專項測試RAGAI應用LLM模型效果測試效率評測（推理性能）準確性評測安全性評測魯棒性評測泛化能力評測穩定性評測交付場景核心能力代碼語言代碼生成研發問答單測生成代碼解釋代碼注釋代碼調試代碼翻譯代碼檢查Py

8、thonJavaC/C+JSTsKotlin鴻蒙華為研發大模型評測工程框架模型管理大模型裁判模型評測任務模型部署裁判模型部署評測執行評測分析不佳樣本回收，優化打分模型評測集管理評估管理研發大模型評測框架評測集Prompt模塊開源評測集自建評測集資源池管理評估報告模塊評估報告評測系統L0基礎模型L1領域模型插件端側L2場景模型評測對象效果評測性能評測安全評測RAG評測評測任務單個評測AB評測基線評測評測方式自動化評測人工評測單個評測AB評測基線評測評測工具評估指標裁判模型指標計算插件標注平臺Passk通用指標CodeBLEU關鍵詞命中率意圖識別率自定義指標華為研發大模型評測工程單測評測實踐模型管

9、理評測任務模型推理評測執行評測分析評測集管理評估管理單測生成：研發大模型評測系統E2E承載單測用例生成及效果評估能力被測工程Prompt模塊資源池管理評估報告模塊評估報告UT_Prompt被測環境UT評測集 Systemprompt模型側插件側12單測用例生成單測效果評估大模型華為研發大模型評測總結評測方法介紹評測集構建評測分析反饋評測工程實踐評測方法人工評測自動化評測基于指標的評測打分模型評測絕對測評A vsB相對測評基礎評測集場景評測集飛輪回流數據用例有效性驗證數據有效性驗證模型評測模型管理大模型裁判模型評測任務模型部署裁判模型部署評測執行評測分析不佳樣本回，優化打分模型評測集管理評估管理評測集Prompt模塊開源評測集自建評測集資源池管理評估報告模塊評估報告插件端側有效評測全面評測高效評測研發大模型評測探索思考03評測探索思考版本評測結果如何逼近真實用戶的感受？-評測指標歸一，并從模型評測到產品評測端到端看護如何提升評測集構建效率？-多維度的Badcase及Goodcase作為輸入，數據飛輪旋轉-評測用例的輔助自動生成感謝聆聽關注公眾號

相關圖表

本文主要分享了華為在研發領域大模型評測方面的探索與實踐。華為的評測專家范娜介紹了研發大模型評測的問題挑戰，并詳細闡述了華為研發大模型評測的框架和方法。華為的智能開發助手CodeArts Snap在代碼生成方面取得了顯著成果，如在HarmonyOS應用開發中，基于業務邏輯生成的代碼采納率達到了60%以上。此外，華為還參與了信通院相關標準和指南的制定工作。文章還提到了國內外大模型的發展現狀，以及華為在評測方面的創新和挑戰。

"大模型評測挑戰與實踐分享" "華為云研發大模型評測專家解讀" "智能開發助手CodeArts Snap評測實踐"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站