《中國工業互聯網研究院:2024人工智能大模型工業應用準確性測評報告-v3.5(21頁).pdf》由會員分享,可在線閱讀,更多相關《中國工業互聯網研究院:2024人工智能大模型工業應用準確性測評報告-v3.5(21頁).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、人工智能大模型工業應用準確性測評 2024年3月版1一、前言2 為貫徹落實黨中央國務院關于促進人工智能發展的決策部署,中國工業互聯網研究院依托通用人工智能與工業融合創新中心(簡稱“中心”),聯合香港科技大學、中國經濟信息社,深入研究人工智能大模型在工業領域的應用性能、技術架構、標準體系,并在此基礎上,形成本報告。結合工業企業大模型應用情況調研,本報告在原有工業知識問答準確性測評的基礎上,新增數據分析、工程建模、文檔生成、代碼理解等四大場景,構建測試數據集,對國內外具有代表性的大模型進行測試,發布新一輪的準確性測評報告,供業界進行參考。本報告測評結果雖經中心專家委論證,但因大模型迭代速度快,技術
2、復雜,囿于工作團隊專業知識和能力,報告難免存在分析結論不足等問題,且測評結果僅適用于測試期間,歡迎大家批評指正。2023年初至今,大模型技術發展突飛猛進,已逐步滲透至工業領域諸多環節,涵蓋了知識問答、工程建模、數據分析、文檔生成、代碼理解等場景,正快速成長為工業轉型升級和創新發展的重要動力。二、測評內容3依托國家工業互聯網大數據中心,聚焦重點工業行業,匯集高質量語料,形成工業語料庫,支撐大模型在工業領域應用測評;結合工業企業調研,在原有知識問答基礎上,新增四類工業應用測評場景,開展大模型在各應用場景的準確性測評。工業應用準確性測評解 答 計 算 機編 程 問 題,分 析 工 業 設計、控 制
3、代碼 安 全 性、計算復雜性。代 碼 理 解面 向 工 業 應用,有邏輯、有 條 理 地 生成 總 結 性、分 析 性 的 文本。文 檔 生 成面 向 工 業 場景 基 礎 結 構化 數 據,分析 現 象,描述 趨 勢,得出結論。數 據 分 析面 向 工 業 問題,選 取 基礎數學知識,建 立 數 學 模型進行求解。工 程 建 模結 合 工 業 知識,有 理 有據 解 答 各 領域 專 業 性 問題。知 識 問 答石化化工行業三、測評方法4 測評流程 評分標準為更貼合應用場景實際,進一步評價模型的多維能力,本期測評題型以問答題為主;為保障判分的一致性與準確度,問答題的評分方式由人工判分改為大模
4、型判分,并按步驟賦分。根 據 場 景、難 度、行 業,選 取 有 標 準 答 案 的 題 目,經人工校驗后形成測試題。利用GPT4將原有標準答案整理為 評 分 標 準,并 通 過 人 工 校 驗提升判分標準科學性。調用待測試大模型API,收集大模型答案。生成判分標準 1 進行判分 2 進行問答利 用 G P T 4,根 據 評分標準,按步驟賦分。篩選題目1.題目類型:每個場景抽取若干題目進行測試,題型以問答題為主。2.題目數量:知識問答:144 道 數據分析:20 道 工程建模:100 道 文本生成:40 道 代碼理解:150 道 注:各場景題目數量雖不一致,但考察要點總量保持在同一個數量級。
5、3.題目得分:需要結合具體題目的評分細則,按照步驟進行賦分,賦分后分數進行歸一化處理。4.場景得分:場景得分為題目總分百分化處理后的分數。若有細分場景,則場景總分為細分場景的平均成績。5.綜合評分:由各場景算數平均分計算得出。1 對于GPT4,先獲取其回答,再用其生成標準答案、進行判分,避免信息泄露;2 GPT4的API承諾不記錄數據用于訓練,參考業界成熟方案,使用GPT4的API生成標 準答案和判分結果,減少測評誤差。0102030405060708090100GPT4文心一言ChatGLM星火3.5通義千問Claude百川3MistralCosmoYi從容大模型360智腦GPT3.5Gem
6、iniPro星火3.0MiniMax天工大模型Llama70bLlama13b(中文微調)百川13B準確性四、測評結果-綜合排名5 測評成績綜合能力上,GPT4處于領先地位,國內大模型文心一言、ChatGLM緊隨其后;對于國內大模型,多個模型綜合能力超過GPT3.5,包括文心一言、ChatGLM、星火3.5、通義千問等;對于國外大模型,GPT4領先優勢明顯,其余模型差距較大。大模型準確性排名Top2011 模型版本號參見附錄1。國際平均55國內平均542540557085100工程建模數據分析代碼理解工業知識問答文檔生成國內國際對比往期測評,2023年下半年國內大模型能力提升明顯(以GPT3.
7、5為基準)。四、測評結果-能力對比與變化趨勢6 各維度大模型最佳能力對比圖1 國內大模型發展趨勢2在工業知識問答、文檔生成等領域,國內大模型已取得領先,數據分析、代碼理解等領域能力接近;在工程建模領域,國內大模型與國際存在一定差距。40%80%120%160%文心一言ChatGLM星火大模型通義千問從容大模型360智腦天工大模型文心一言ChatGLM星火大模型通義千問從容大模型360智腦天工大模型相對GPT3.5成績23年中國內平均24年初國內平均2023年6月底2024年初2023年6月底相對GPT3.5成績2024年年初相對GPT3.5成績1 選取國內外各能力維度性能最佳的大模型進行對比;
8、2 國內大模型發展趨勢統計規則見附錄2。五、場景測評一:工業知識問答7 大模型可結合自身知識,回答不同工業領域問題,將用于員工培訓、故障診斷、客服咨詢、市場調研等交互場景,協助企業員工熟悉生產流程,幫助用戶了解產品特性。知識快速獲取工藝輔助優化數字人售后服務員工自助培訓應用場景研判研發設計環節:研發工程師可基于大模型快速、便捷獲取高質量知識,提升研發效率;生產制造環節:產線工人可實時向大模型查詢生產工藝經驗,輔助其進行制造工藝優化;售后服務環節:企業可基于大模型,通過數字人實時向客戶提供售后咨詢服務;技能培訓環節:新員工可通過大模型了解企業信息、學習生產技能。020406080100建材石化化
9、工電力電子制造紡織裝備制造鋼鐵采礦國內國際五、場景測評一:工業知識問答8 測評結果 行業能力對比1 題目樣例在知識問答領域國內大模型已具備一定優勢,ChatGLM、文心一言等多個大模型實現對GPT4超越;國內大模型在建材、采礦等行業具有顯著優勢,在裝備制造、鋼鐵等行業與國際水平接近;對比不同行業,國內外大模型在鋼鐵、電力等行業有較好的知識儲備,對于紡織、裝備制造等行業仍需加強訓練。020406080100ChatGLM文心一言Cosmo星火3.5星火3.0GPT4通義千問Yi百川3從容大模型360智腦GeminiProClaudeMiniMax天工大模型GPT3.5MistralLlama13
10、b(中文微調)Llama70b百川13B工業知識問答國內平均專業知識問答國際平均專業知識問答工業知識問答能力Top20問題:你知道哪些常用邏輯電平?TTL與CMOS電平可以直接互連嗎?評分標準:(1)常用邏輯電平包括:12V,5V,3.3V。(1分,給出標準中同樣或近似的回答則得1分,否則不得分。)(2)TTL和CMOS電平是否可以直接互連:不可以直接互連。(1分,給出標準中同樣或近似的回答則得1分,否則不得分。)(3)TTL和CMOS電平互連的條件:CMOS輸出可以直接接到TTL,而TTL接到CMOS需要在輸出端口加一上拉電阻接到5V或者12V。(1分)本題共3小項,每個小項1分,滿分3分。
11、對于每個小項,如果描述有差距,或者詳細程度不足,酌情給0.3或者0.5分或者0.8分。準確性準確性1 圖中數據為各行業國內外性能最佳大模型成績。(分)國內平均52國際平均41(分)五、場景測評二:工程建模9 大模型具備基礎建模能力,將幫助工程師和企業管理人員在實際工程設計、生產運維等領域進行數學建模,尋求最佳的解決方案。應用場景研判研發設計環節:基于歷史實踐,建立成本模型,指導新項目的規劃和預算編制,提高項目成功率;生產制造環節:建立時序預測、異常檢測模型,基于預測優化生產計劃,提高施工效率和安全性;運維管理環節:建立運籌模型,對工廠生產人員進行排版優化,提升人員效能;營銷宣傳環節:建立營銷收
12、益模型,提升營銷效率,節約營銷成本。工程數學建模預測模型優化生產計劃優化員工班次布局提高人效營銷收益建模節約銷售成本020406080100GPT4文心一言ChatGLM星火3.5通義千問百川3360智腦Claude星火3.0從容大模型GPT3.5MistralGeminiProCosmoMiniMaxLlama13b(中文微調)Yi天工大模型百川13BLlama70b工程建模國內平均工程建模國際平均工程建模五、場景測評二:工程建模10 測評結果 題目樣例問題:某公司在2018年年初預訂x萬產量的目標,2018年6月己完成計劃的60%,此后按照上半年月均產量生產,則2018年超出計劃產量300
13、萬.那么該公司2018年年初預訂的產量為多少萬元?評分標準:1.如果能正確列出完成計劃的60%即為$0.6x$萬的關系,得1分;2.如果能正確列出下半年產量也為$0.6x$萬的關系,得1分;3.如果能正確列出并解方程$0.6x+0.6x-x=300$,得1分;4.如果能正確解出$x=1500$,得1分;本題共四個得分點,滿分為4分,得分情況為(得分/滿分)。在工程建模領域,GPT4、文心一言處于領先地位,對比其它模型具有顯著優勢;國內外平均成績均為43分,大模型建模能力整體處于較低水平,可收集數學建模專業語料進行強化訓練,也可以使用代碼解釋器等增強工具提升大模型建模能力。工程建模能力Top20
14、國內平均43國際平均43準確性(分)五、場景測評三:數據分析11 大模型可將結構化數據提煉為核心結論,對復雜業務數據進行自動分析,更全面、及時地幫助企業管理者運營和決策,提升工作效率和運營質量。應用場景研判研發設計環節:在海量產品評價數據中提取共性問題,改進產品設計,提升產品品質;生產制造環節:自動分析工業生產時序數據,發現數據異?;驖撛陲L險,及時預警或報錯;運維管理環節:輔助分析庫存數據,進行呆滯庫存和缺料提醒,提升管理效率;人員培訓環節:分析事故數據,杜絕生產事故,消除安全隱患。分析用戶評價分析生產時序數據分析庫存數據分析安全數據electric五、場景測評三:數據分析12問題:您需要撰寫
15、一份簡短的報告,介紹下面的圖表/表格/圖形的主要特征。您應該執行以下任務:概括數據,描述過程的各個階段等等,請使用中文進行撰寫。下表為2001-2010年幾種型號電話年產量。評分標準:(1).文章對比了2001年至2010年幾種電話的年均產量變化。(1分,如果有相關的全局性描述,則得1分,否則不得分。)(2).在這10年期間,B電話穩步下降,而A電話支出迅速增長。(1分必須有B穩步下降的描述,且有A電話迅速增長的描述性語言,只給出數據不進行對比描述不得分。)(3).2007年是A產量超過B電話產量的轉折點。(1分,必須指出2007年A電話超過B的關鍵節點,只給數據出數據不描述不得分。)(4).
16、(5).本題共5小項,對于每個小項,如果學生的回答中有和該項一致的語句,則得1分,如果描述有差距,或者詳細程度不足,酌情給0.3或者0.5分或者0.8分。測評結果 題目樣例在數據分析領域,文心一言能力最佳,與GPT4、Mistral等構成第一梯隊;國內外大模型分數均較低,大模型直接用于數據分析可能造成部分信息遺漏或描述偏差,實際應用中可使用優秀數據分析案例進行微調,或將案例加入到提示詞中,利用大模型小樣本學習能力提升效果。020406080100文心一言GPT4MistralChatGLMLlama70b從容大模型Cosmo百川3通義千問Claude星火3.5360智腦YiGeminiProG
17、PT3.5MiniMax星火3.0Llama13b(中文微調)天工大模型百川13B數據分析國內平均數據分析國際平均數據分析數據分析能力Top20準確性(分)國內平均53國際平均56YearPhoneAPhone B.2001200700.2010700475.五、場景測評四:文檔生成13 大模型將幫助用戶快速、高效處理和生成各類文檔,如宣傳文案、操作手冊、技術文檔、施工方案等,提高工作效率和質量。應用場景研判研發設計環節:大模型可基于本地知識庫,輔助工作人員生成技術方案和設計方案,幫助研發人員提升效率,為設計人員提供靈感;生產制造環節:大模型可基于生產訂單和生產計劃,自動生成作業指導書,提高生
18、產效率;運維管理環節:大模型可根據設備運行情況,自動編寫運行報告;可根據供應鏈庫存情況生成庫存管理報告文檔,提升運營效率。生成技術文檔生成作業指導書生成設備運行狀態報告生成庫存管理運營文檔020406080100通義千問文心一言ChatGLMMistralGPT4GPT3.5YiClaude從容大模型星火3.5MiniMax星火3.0Cosmo天工大模型GeminiPro百川3Llama13b(中文微調)百川13B360智腦Llama70b文檔生成(總結)國內平均文檔生成(總結)國際平均文檔生成(總結)五、場景測評四:文檔生成(要點總結)14 測評結果 題目樣例在文檔生成(要點總結)領域,國內
19、外性能最佳大模型成績接近滿分,基本可成熟應用于該場景;國內外平均成績相對較高,文檔生成(要點總結)場景屬于當前大模型較擅長領域。問題:分析以下文字,總結B公司企業創新的啟示。B公司專門成立了熱效率技術攻關團隊,通過大量的仿真和臺架試驗,經過上千種方案的探索分析,不斷嘗試與改進,最終把發動機各個方面的功能發揮到極致,實現了熱效率突破 50%。思路決定出路,以往一些科技企業遭遇挫敗是因為單純以技術為主導按已有的技術去做產品,再去找銷路,結果市場并不認可。.評分標準:1.敢于超前研發。樹立首創精神,敢為人先,形成差異化競爭力,抵御風險,贏得優勢。(1分,必須有關于超前研發,敢于創新的的近似描述,否則
20、不得分)2.加強技術攻關。成立專門團隊,進行大量試驗,不解探索分析,不斷嘗試改進。(1分,必須有關于技術公關,探索嘗試的的近似描述,否則不得分)3.市場需求導向。轉變技術指導市場的思路,從客戶需求出發,確定產品創新方向。(1分,必須有關于市場導向,重視調研,技術指導市場的相關描述,否則不得分)4.5.本題共5要點,對于每個要點,如果學生回答中有和該項一致的語句,則得1分,如果描述有差距,或者詳細程度不足,酌情給0.3或者0.5分或者0.8分。文檔生成能力Top20準確性(分)國內平均87國際平均85020406080100百川3星火3.5YiGPT4Llama13b(中文微調)Llama70b
21、從容大模型ChatGLMClaude天工大模型GPT3.5Mistral360智腦Cosmo文心一言GeminiProMiniMax星火3.0通義千問百川13B文檔生成(觀點)國內平均文檔生成(觀點)國際平均文檔生成(觀點)五、場景測評四:文檔生成(觀點分析)15問題:閱讀以下觀點,回答你是否同意,如果你不同意,請說明哪種情況會削弱下面的觀點:過去的一年,QM的工傷事故比鄰近的工廠多$30%$,鄰近工廠每班工作時間比我們公司短 1 小時。專家稱許多工傷事故的主要原因是疲勞和睡眠不足。因此,為減少QM的工傷事故數量,從而提高生產效率,我們需要把 3 個班次的工作時間縮短 1 小時,這樣我們的員工
22、可以獲得充足的睡眠。評分標準:總結提煉后,評分標準如下:(1)兩家公司是否具有可比性,沒有給出具體的分析.(2)去年的情況今年是否依然持續.(3)倒班時間縮短一小時,不能保證員工獲得充足的睡眠;(4)即便縮短倒班時間能夠保證員工獲得充足的睡眠,員工的工傷數量也并不一定會下降.對于以上四點,每個分論點在作文中有所體現得1分,共計4分。測評結果 題目樣例文檔生成能力Top20在文檔生成(觀點分析)領域,百川3、星火3.5、Yi優勢明顯,已實現對GPT4的領先;國際大模型平均超出國內較多,國內模型需整理高質量語料進行強化訓練,提升觀點分析成效。準確性(分)國內平均65國際平均71五、場景測評五:代碼
23、理解16代碼生成與自動編程代碼錯誤檢測與修正代碼注釋生成工控代碼審查應用場景研判研發設計環節:大模型可根據自然語言描述,自動生成工業代碼,輔助編寫自動化腳本、復雜的業務邏輯代碼,提升編碼效率;生產制造環節:大模型可對生產設備的控制代碼進行安全審查,排查代碼中的錯誤和漏洞,保障生產安全;運維管理環節:大模型可自動生成代碼注釋,幫助工控運維人員高效理解和維護代碼,提升運維效率。大模型將面向工業需求編寫代碼,回答計算機編程相關問題,輔助代碼功能性和安全性檢測,提升工程師編碼效率,保障程序安全、平穩運行。020406080100GPT4文心一言ClaudeMistralChatGLM通義千問360智腦
24、CosmoYiGeminiProGPT3.5百川3MiniMaxLlama70b從容大模型星火3.5天工大模型百川13BLlama13b(中文微調)星火3.0代碼理解國內平均代碼理解國際平均代碼理解五、場景測評五:代碼理解17問題:回答下列選擇題,并給出解析。下列代碼中存在什么安全問題?public void doPost(HttpServletRequest request,HttpServletResponse response)throws ServletException,IOException javax.servlet.http.Cookie theCookies=request.
25、getCookies();.java.util.Properties benchmarkprops=new java.util.Properties();String algorithm=MD5;java.security.MessageDigest.getInstance(algorithm);byte input=(byte)?;Object inputParam=param;if(inputParam instanceof String)input=(String)inputParam).getBytes();評分標準:代碼中使用已知的弱哈希算法MD5,代碼如下:String algor
26、ithm=MD5;java.security.MessageDigest md=java.security.MessageDigest.getInstance(algorithm);弱哈希算法有MD5、SHA-1 和 SHA-2 等哈希函數。(回答中如果能指出安全問題是弱哈希算法得1分,否則不得分)測評結果 題目樣例在代碼理解領域,GPT4和文心一言準確度較高,相對其他模型優勢明顯;國內外平均成績相對偏低,編程相關知識掌握薄弱,應全面提升模型訓練集中代碼語料的數量和質量,代碼解釋器模塊可能對理解代碼的能力有較大幫助,建議更多大模型引入。代碼理解能力Top20準確性(分)國內平均45國際平均51
27、文心一言六、總體評價與后續規劃18 各場景第一梯隊與點評第一梯隊知識問答點評國內大模型已具備一定優勢,ChatGLM、文心一言等多個大模型已超越GPT4;工程建模GPT4處于領先地位,大模型整體建模能力處于較低水平,有較大提升空間;數據分析文心一言能力最佳,與GPT4、Mistral構成第一梯隊,但整體水平偏弱;文檔生成觀點分析大模型在觀點分析上處于及格水平,還存在明顯提升空間;代碼理解GPT4和文心一言在代碼理解領域較為領先,具有一定優勢,其他大模型仍有較大提升空間。ChatGLM文心一言卡奧斯GPT4文心一言ChatGLMGPT4MISTRAL百川3Yi星火3.5GPT4文心一言Claud
28、e文檔生成要點總結國內大模型保持領先,性能最佳大模型已經能夠較完善地完成文本總結任務;通義千問MISTRAL文心一言六、總體評價與后續規劃19行業知識掌握場景成熟度 大模型在文檔生成領域應用成熟度較高,在工業知識問答、數據分析、工程建模、代碼理解場景應用成熟度相對較低;國內外大模型在文檔生成、數據分析、代碼理解場景準確度差異較大。大模型在鋼鐵、電力等行業有較好的知識儲備,對于紡織、裝備制造等行業仍需加強訓練;國內大模型在建材、采礦等行業優勢顯著,在裝備制造、化工等行業與國際接近。發展趨勢 GPT4仍處于領先地位;近半年國內大模型能力顯著提升,與GPT4差距不斷縮小,部分場景應用能力已趕超??傮w
29、評價 后續計劃針對工業應用場景,匯聚整理工業知識語料庫,支持大模型預訓練或微調;開展大模型多模態能力測評,包括圖像識別、視頻理解等,挖掘更多大模型工業潛在應用場景;面向大模型當前應用成熟度較低的場景,提供穩定性、準確性等能力優化指導;面向工業應用開展行業大模型測評工作,在重點領域遴選推廣一批優秀的行業大模型。21編號大模型公司版本號1GPT4OpenAIGPT4-Preview-11042GPT3.5OpenAIGPT-3.5-turbo3文心一言百度Ernie-bot-4.04星火大模型科大訊飛spark-V3.5;V35Yi零一萬物Yi-34B6GeminiProGoogleGemini-
30、Pro7通義千問阿里巴巴Qwen-Max8360智腦360360GPT_S2_V99ChatGLM智譜華章GLM-410ClaudeAnthropicClaude-2.111llamaMetallama-70B;(開源)llama-13B-中文微調(開源)12MistralMistralMistral-Medium13從容大模型云從科技20240104版14天工大模型昆侖萬維20240112版15MiniMaxMiniMaxChatCompletion-abab5.5-chat16Cosmo卡奧斯20240124版17Baichuan百川智能Baichuan-3;Baichuan-13b(開源
31、)注:本研究實測模型包括但不限于上述大模型,此處只列舉部分模型版本號。附錄1:報告涉及的大模型及其版本號22 提升問答題比例的原因 問答題評分步驟輸入問題獲取回答生成標準答案按照標準答案和步驟賦分分維度進行分數統計分析 國內大模型發展趨勢統計規則1.以GPT3.5為基準,依據在相同測評的相對成績,計算發展趨勢相對GPT3.5成績=某模型測評分數 GPT3.5測評分數x100%隨機給出答案:部分模型隨機給出答案,即使選擇正確也無法證明模型能夠給出準確的解答過程。過程評價缺失:有的大模型選擇雖然錯誤,但能夠提供建設性的思路,有一定的參考意義。選擇型題目的局限性 優勢:問答題更貼近實際,對回答步驟判分更加科學、合理。問題:對比選擇判斷類題目,傳統人工判分的方法效率低。問答型題目優勢和問題 評分標準保障一致性:依據標準回答,生成判分標準,提升判分準確度,保障一致性。大模型提升判分效率:用邏輯性好的大模型進行判分,在確保判分準確性前提下提升判分效率。問答型題目判分問題解法附錄2:評分規則