《CAII&香港科技大學:2023中國AI大模型工業應用指數報告(15頁).pdf》由會員分享,可在線閱讀,更多相關《CAII&香港科技大學:2023中國AI大模型工業應用指數報告(15頁).pdf(15頁珍藏版)》請在三個皮匠報告上搜索。
1、中國AI大模型工業應用指數中國工業互聯網研究院香港科技大學 中國經濟信息社2023年10月12黨的二十大報告 構建新一代信息技術、人工智能、生物技術、新能源、新材料、高端裝備、綠色環保等一批新的增長引擎。中共中央政治局會議(2023年4月28日)要重視通用人工智能發展,營造創新生態,重視防范風險。2023年二十屆中央財經委員會第一次會議 要把握人工智能等新科技革命浪潮,推進產業智能化、綠色化、融合化。n 國家高度重視人工智能發展n 工信部持續出臺政策文件深化人工智能在工業領域的應用工業互聯網創新發展行動計劃(2021-2023年)鼓勵工業企業綜合運用人工智能等技術,發展智能化制造,提升各要素智
2、能化水平,實現全流程.“十四五”信息化和工業化深度融合發展規劃 深化人工智能和工業融合應用,通過全面感知、實時分析、科學決策和精準執行,提升生產效率.“十四五”智能制造發展規劃 提出加快研發人工智能在工業領域的適用性技術,推動人工智能等新技術在制造環節的深度應用.1.背景:人工智能發展政策體系不斷完善3為政府、研究機構、工業企業和社會公眾提供一個權威、科學的綜合評估,反映大模型技術在工業中的應用程度、產生效益和問題挑戰。n 指數意義政府支持:服務于國家決策,幫助判斷AI宏觀發展趨勢。打造通用人工智能與工業融合發展的“風向標”,幫助了解人工智能與工業融合應用的整體與局部發展態勢。產品迭代:服務于
3、技術革新,促進大模型應用迭代升級。反映大模型工業應用的優勢與不足,促進技術落地、產品升級。業界指導:服務于行業發展,為企業智能化發展指明方向。通過發布該指數,可研判大模型在工業領域各行業應用的成熟度,為行業企業智能化升級提供可行性建議。n 指數體系12.中國AI大模型工業應用指數意義與體系中國AI大模型工業應用指數準確性穩定性主、客觀知識準確度概括、分析準確度邏輯、推理準確度自我認知、抗污染準確度文法穩定性數據穩定性上下文精簡穩定性上下文擴充穩定性1 指數體系會根據大模型應用發展不斷迭代,當前版本關注大模型在工業領域中知識問答場景。指數體系包括準確性指數,穩定性指數等細分指數。n 數據來源:八
4、大行業41.準確性測評報告13.中國AI大模型工業應用指數數據來源1 通用人工智能大模型工業領域知識問答性能評估,https:/china- 人工智能大模型在工業領域知識問答穩定性測評,https:/china- 大行業測試數據集。n 指標數據:準確性與穩定性報告選取工業領域規上企業收入總值前八的行業匯集知識問答數據。指標數據由前期發布的準確性與穩定性實測值計算生成。2.穩定性測評報告2n 國內外綜合對比客觀準確度主觀準確度語句能力概括能力邏輯能力自我認知能力污染分析能力54.中國AI大模型工業應用指數-準確性305070電子設備制造裝備制造鋼鐵采礦電力石化化工建材紡織指數值國內國際n 細分能
5、力對比1n 行業應用情況準確性:在知識問答中能夠正確回答問題的能力。整體上,國內大模型能力和國際大模型的能力接近;行業上,國內大模型在電力、鋼鐵、建材等行業上優勢明顯,其他行業與國際水平相比有進一步提升空間;細分能力上,國內大模型在自我認知能力和污染分析能力有一定差距,在其它能力維度表現接近。國內57分分國際58分分1 污染分析能力、自我認知能力在指數計算時未單獨計算,在細分能力對比圖中展示僅為說明國內外大模型在這兩方面的差異??陀^準確度主觀準確度語句能力概括能力邏輯能力自我認知能力污染分析能力64.中國AI大模型工業應用指數-準確性*國內:國際文心一言(百度)在電子設備制造、鋼鐵、建材等行業
6、位于第一梯隊,有較強的語句能力、邏輯能力、概括能力。ChatGLM(智譜)在裝備制造、采礦、電力行業位于第一梯隊,有較高的主觀準確度,有較強的語句能力和概括能力。n 行業能力對比n 國內大模型準確性第一梯隊(排名不分先后)工業領域國內外對比*電子設備制造業66:70裝備制造業63:62鋼鐵行業62:60采礦行業52:56電力行業60:51石化化工行業56:61建材行業55:51紡織行業50:53客觀準確度主觀準確度語句能力概括能力邏輯能力自我認知能力污染分析能力客觀準確度主觀準確度語句能力概括能力邏輯能力自我認知能力污染分析能力360智腦(360)在裝備制造、采礦、石化行業位于第一梯隊,有較高
7、的客觀準確度,有較強的語句能力。國外領先大模型均值74.中國AI大模型工業應用指數-穩定性n 國內外綜合對比n 細分能力對比n 行業應用情況穩定性:在原問題回答正確的前提下,受到噪音干擾后仍然能輸出正確答案的能力。整體上,國內大模型略低于國際大模型;行業上,國內在電子設備制造、電力、石化行業距離國際水平有一定差距,其他行業較為接近;細分能力上,國內模型在語義理解、上下文理解等語言任務上表現出色,但在邏輯判斷、應對順序變化、過濾無關信息等方面仍存在局限性,需要結合更多數據集和最新的提示工程技術進行改進。30507090電子設備制造裝備制造鋼鐵采礦電力石化化工建材紡織指 數 值國內國際不相關選項語
8、義理解上下文安全量綱數值邏輯判斷順序變化國際國內國內71分分國際74分分語義理解順序變化邏輯判斷數值量綱安全上下文不相關選項84.中國AI大模型工業應用指數-穩定性星火認知(訊飛)在電力、建筑、紡織行業位于第一梯隊,有較高語義理解和順序變化穩定性。通義千問(阿里)在裝備制造、鋼鐵行業位于第一梯隊,有較高的語義理解、量綱處理和數值穩定性。360智腦(360)在電子設備制造、石化、建材行業位于第一梯隊,有較高的安全穩定性和不相關選項穩定性。國外領先大模型均值n 行業能力對比n 國內大模型準確性第一梯隊(排名不分先后)語義理解順序變化邏輯判斷數值量綱安全上下文不相關選項語義理解順序變化邏輯判斷數值量
9、綱安全上下文不相關選項*國內:國際工業領域國內外對比*電子設備制造業72:90裝備制造業79:82鋼鐵行業78:81采礦行業75:81電力行業73:81石化化工行業74:83建材行業74:79紡織行業75:809完善工業語料庫,擴充不同行業、不同領域、不同場景語料,為大模型應用指數提供測算基礎。周期性更新模型指數。動態更新指數報告不斷完善工業語料庫在現有的八大行業基礎上不斷增加測評行業,挖掘新的模型應用場景。持續擴展測評行業5.中國AI大模型工業應用指數后續規劃面向行業大模型的工業應用準確性與穩定性開展評測工作,在重點工業領域遴選一批優秀的行業大模型。開展行業模型測評106.專家組成員唐立新,
10、中國工程院院士,IEEE Fellow,東北大學副校長,第十四屆全國人大代表,工業智能與系統優化國家級前沿科學中心主任和首席科學家。張大慶,歐洲科學院院士,IEEE Fellow,北京大學講席教授,CCF普適計算專委會主任。劉江川,加拿大工程院院士,IEEE Fellow,加拿大西蒙菲莎大學計算機學院正教授和大學杰出教授。張濤,IET Fellow,清華大學教授,信息科學技術學院副院長,自動化系系主任。王國棟,中國工程院院士,鋼鐵行業專家,博士生導師。於志文,哈爾濱工程大學黨委常委、副校長,教育部“長江學者”特聘教授,國家杰出青年科學基金獲得者。劉云浩,ACM Fellow,IEEE Fell
11、ow,長江學者,A C M 主 席 獎、CCF王選獎獲得者,清華大學教授,創新學院院長。張燕詠,IEEE Fellow,中國科學技術大學教授,計算機科學與技術學院副院長,ACM中國副主席,科技部下一代人工智能重大項目負責人。劉劼,IEEE Fellow,ACM杰出科學家,哈爾濱工業大學講席教授,人工智能研究院院長。11張曉明,北京雁棲湖應用數學研究院工業與應用首席研究員,美國麻省理工學院博士。黃河燕,北京理工大學計算機學院教授,國家科學技術進步獎一等獎獲得者。楊錚,IEEE Fellow,清華大學副教授、博士生導師,國家萬人計劃。劉云新,清華大學國強教授,智能產業研究院首席研究員,前微軟亞洲研
12、究院主任研究員,國家重點研發計劃項目負責人。聶再清,清華大學國強教授,AIR首席研究員,微軟學術搜索發起人,曾任微軟自然語言理解平臺LUIS技術負責人。賈佳亞,IEEE Fellow,香港中文大學終身教授,全球計算機視覺、人工智能領域權威專家,國家科技部“新一代人工智能”重大項目核心專家。6.專家組成員沈陽,清華大學教授,博士生導師,中宣部“文化名家”暨“四個一批”入選者、教育部新世紀人才計劃入選者。任磊,北京航空航天大學教授,博士生導師,復雜產品智能制造系統技術全國重點實驗室專委會副主任,國家杰青。王帥,香港科技大學計算機系助理教授,博士生導師,谷歌學者。下一步,中國工業互聯網研究院、港科大
13、、中國經濟信息社持續更新“中國AI大模型工業應用指數”,加速推動人工智能技術與實體經濟融合創新。在大模型問答性能、應用安全、標準制定等方面展開研究,歡迎交流合作。轉載請注明來源:中國工業互聯網研究院。聯系人:葉老師 13661350566 吳老師 15210188099 地址:北京市朝陽區酒仙橋北路 甲10號403號樓電話:010-87901276網址:www.china-12131.每個行業抽取138道題目進行測試,其中:單選題(105),題判斷題(30題),簡答題(3題);2.對于客觀題回答正確得分(1分),錯誤不得分(0分);3.對于主觀題按照基礎能力,語句能力,概括能力,邏輯能力四個維
14、度進行評價,每個維度5分;對于每個維度,分五個等級,分別對應1-5分。評分標準:附錄1:中國AI大模型工業應用指數-準確性評價標準語句、概括、邏輯能力語句能力概括能力邏輯能力客觀知識問答能力抗污染分析能力自我認知能力主觀題目客觀準確性自我認知、污染分析能力準確性主觀準確性準確性評測的能力維度,圍繞AI大模型在客觀準確性、主管準確性等子維度展開深入評估。準確性評測能力維度體系:根據回答進行賦分輸入問題分維度進行能力統計準確性測試流程:注:1.主觀題評價標準部分參考高考作文評分標準;2.主觀題由專家組成評審委員會,針對大模型的回答舉行集中評審;3.本研究僅針對公開通用大模型進行直接測評,對微調后的
15、模型不做評價。準確性指數定義:模型維度準確性指數=模型維度全部題目得分 全部題目總分X 100各能力維度準確性指數=能力維度第一梯隊模型總分 第一梯隊模型數量X 100各行業維度準確性指數=行業維度第一梯隊模型總分 第一梯隊模型數量X 100國家/行業綜合準確性指數=第一梯隊模型總分 第一梯隊模型數X 100141.將原問題與對應變體問題進行對比測試,題型包含單選題和判斷題兩種類型題目;2.變體題目從準確測試題目中經過變換得到;3.若變體與原問題回答一致時,得分(1分);4.若變體與原問題回答不一致時,不得分(0分)。評分標準:穩定性指數定義:附錄2:中國AI大模型工業應用指數-穩定性評價標準
16、穩定性能力維度體系:文法穩定能力文本同/近義變化抗擾動能力文本順序變化抗擾動能力文本邏輯變化抗擾動能力數據形式變化抗擾動能力數據量綱變化抗擾動能力安全守則精簡抗擾動能力上下文精簡抗擾動能力不相關內容擴充抗擾動能力數據穩定能力精簡表達穩定能力穩定性擴充表達穩定能力穩定性評測圍繞AI大模型在數據、文法、精簡表達、擴充表達四大類八個子維度展開深入評估。注:經調研及評測專家組認定,該評測體系符合大模型工業日常應用穩定性基本邏輯。選取準確能力大于一定標準的模型輸入原問題原問題與變體問題進行對比測試分維度進行穩定性評估穩定性測試流程:模型維度穩定性指數=模型各能力維度總分 能力維度數X 100能力維度穩定
17、性指數=能力維度第一梯隊模型總分 第一梯隊模型數量X 100各行業維度穩定性指數=行業維度第一梯隊模型總分 第一梯隊模型數量X 100國家綜合穩定性指數=第一梯隊模型總分 第一梯隊模型數X 10015附錄3:指數報告涉及的大模型評測版本大模型名稱公司名稱版本信息Web鏈接文心一言百度v2.2.2https:/星火科大訊飛v2.0https:/ChatGLM2智譜華章6bhttps:/通義千問阿里巴巴v1.0.5https:/360智腦360V4.0https:/GPT-3.5OpenAIgpt-3.5-turbo-0301https:/GPT-4OpenAIgpt-4-0613https:/注:1.本研究實測模型只限于通用大模型;2.國際以GPT3.5和GPT4 為測量標準。