《中國信通院:大模型基準測試體系研究報告(2024年)(52頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:大模型基準測試體系研究報告(2024年)(52頁).pdf(52頁珍藏版)》請在三個皮匠報告上搜索。
1、中國信息通信研究院人工智能研究所 人工智能關鍵技術和應用評測工業和信息化部重點實驗室 2024年6月 大模型基準測試體系研究報告大模型基準測試體系研究報告 (2022024 4 年年)版權聲明版權聲明 本報告版權屬于中國信息通信研究院,并受法律保護。本報告版權屬于中國信息通信研究院,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明注明“來源:中國信息通信研究院來源:中國信息通信研究院”。違反上述聲明者,本院。違反上述聲明者,本院將追究其相關法律責任。將追究其相關法律責任。前前 言言 近幾年,大模型推動人工智能技術迅猛發展
2、,極大地拓展了機器智能的邊界,展現出通用人工智能的“曙光”。如何準確、客觀、全面衡量當前大模型能力,成為產學研用各界關注的重要問題。設計合理的任務、數據集和指標,對大模型進行基準測試,是定量評價大模型技術水平的主要方式。大模型基準測試不僅可以評估當前技術水平,指引未來學術研究,牽引產品研發、支撐行業應用,還可以輔助監管治理,也有利于增進社會公眾對人工智能的正確認知,是促進人工智能技術產業發展的重要抓手。全球主要學術機構和頭部企業都十分重視大模型基準測試,陸續發布了一系列評測數據集、框架和結果榜單,對于推動大模型技術發展產生了積極作用。然而,隨著大模型能力不斷增強和行業賦能逐漸深入,大模型基準測
3、試體系還需要與時俱進,不斷完善。本研究報告首先回顧了大模型基準測試的發展現狀,對已發布的主要大模型評測數據集、體系和方法進行了梳理,分析了當前基準測試存在的問題和挑戰,提出了一套系統化構建大模型基準測試的框架“方升”大模型基準測試體系,介紹了基于“方升”體系初步開展的大模型評測情況,并對未來大模型基準測試的發展趨勢進行展望。面向未來,大模型基準測試仍存在諸多開放性的問題,還需要產學研各界緊密合作,共同建設大模型基準測試標準,為大模型行業健康有序發展提供有力支撐(聯系人:韓旭,)。目目 錄錄 一、大模型基準測試發展概述.1(一)大模型基準測試的重要意義.2(二)蓬勃發展的大模型基準測試.4(三)
4、大模型評測發展共性與差異.9 二、大模型基準測試現狀分析.11(一)大模型基準測試體系總體介紹.11(二)代表性的大模型基準測試體系.17(三)問題與挑戰.20 三、大模型基準測試體系框架.23(一)“方升”大模型基準測試體系.23(二)“方升”自適應動態測試方法.27 (三)“方升”大模型測試體系實踐.30 四、總結與展望.35(一)形成面向產業應用的大模型評測體系.35(二)構建超自動化的大模型基準測試平臺.36(三)探索 AGI 等先進人工智能的評測技術.36 圖圖 目目 錄錄 圖 1 大模型發展歷程 .1 圖 2 大模型基準測試領域占比分布.5 圖 3 大模型基準測試數據集發布時間.6
5、 圖 4 大模型基準測試數據集發布機構排名.7 圖 5 大模型基準測試數據集發布國家分布.8 圖 6 大模型基準測試數據集開源分布.9 圖 7 大模型基準測試體系構成.11 圖 8 大模型基準測試流程.13 圖 9 大模型基準測試工具 LLMeBench 框架圖.17 圖 10 大模型評測基準 HELM 原理圖.18 圖 11“方升”大模型基準測試體系.24 圖 12 自適應動態測試方法原理圖.27 圖 13 大模型基準測試標簽體系.28 圖 14“方升”大模型首輪試評測模式.31 圖 15 開源大模型評測榜單結果.33 表表 目目 錄錄 表 1 代表性大模型官方發布結果中使用的評測數據集.6
6、 附表 1 語言大模型通用能力的代表性評測數據集.38 附表 2 語言大模型行業能力的代表性評測數據集.39 附表 3 語言大模型應用能力的代表性評測數據集.40 附表 4 語言大模型安全能力的代表性評測數據集.41 附表 5 多模態大模型通用能力的代表性評測數據集.41大模型基準測試體系研究報告(2024 年)1 一、大模型基準測試發展概述 近幾年,大模型推動人工智能技術迅猛發展,極大地拓展了機器智能的邊界,展現出通用人工智能的“曙光”,全球各大科技巨頭和創新型企業紛紛圍繞大模型加強布局。如圖 1 所示,2018 年,谷歌公司提出基于 Transformer 實現的預訓練模型 BERT,在機
7、器閱讀理解水平測試 SQuAD 中刷新記錄。同年,OpenAI 公司發布了第一代生成式預訓練模型 GPT-1,擅長文本內容生成任務。隨后幾年,OpenAI 相繼推出了 GPT-2 和 GPT-3,在技術架構、模型能力等方面進行持續創新。2022 年 11 月,OpenAI 發布的 ChatGPT 在智能問答領域上的表現引起產業界轟動。除了大語言模型,2023 年,OpenAI 還發布了多模態大模型 GPT-4。同期國內大模型的發展也呈現不斷加速態勢,已經發布了華為“盤古”、百度“文心一言”、阿里“通義千問”、騰訊“混元”和智譜“清言”等 200 多個通用和行業大模型產品。來源:中國信息通信研究
8、院 圖 1 大模型發展歷程 大模型基準測試體系研究報告(2024 年)2 隨著大模型產品的不斷推出,對大模型的能力進行評測逐漸成為產業界關注的重點。1950 年代提出的圖靈測試(Turing Testing)作為一種經典的人工智能測試方法,一直被認為是衡量機器智能水平的“試金石”。2023 年 7 月自然(Nature)發表文章ChatGPT broke the Turing test the race is on for new ways to assess AI,指出圖靈測試已經無法滿足大模型的評測要求,應該探索新方法來評估人工智能水平。大模型基準測試(Benchmark)的目標是通過設計
9、合理的測試任務和數據集來對模型的能力進行全面、量化的評估。大模型基準測試體系涵蓋了大模型的測評指標、方法、數據集等多項關鍵要素,是指導大模型基準測試落地實踐的規范。(一一)大)大模型模型基準基準測測試試的重要意義的重要意義 當前,基準測試已賦能大模型“建用管”全生命周期的多個階段,在大模型研發、應用和管理中扮演重要角色,主要表現在:一是指引學術研究。過去一年,在 ChatGPT 的引領下,國內外的大模型企業也從最初摸索和嘗試,逐漸步入研發和應用深水區。大模型研發迭代周期正在縮短,OpenAI 在一年時間內先后發布ChatGPT、GPT4、GPT-4V 等多款大模型,Meta 的 LLaMA 大
10、模型一經發布便迅速帶動了 Alpaca、Vicuna 等幾十個開源大模型,形成“羊駝”開源大模型生態圈。在如此高的迭代頻率下,大模型基準測試可以驗證模型研發效果,快速挖掘大模型當前的不足與痛點問題,推動大模型能力持續提升。并且,大模型評測不應該是開發流程的終點,大模型基準測試體系研究報告(2024 年)3 而應該作為起點驅動模型開發。構建以能力提升為目標的評估(Enhancement-Oriented Evaluation)策略對大模型發展十分重要,建立“開發-部署-應用-測試”的閉環流程將縮短產品迭代周期。二是指導產品選型。近期,商業公司和研究機構等紛紛推出大模型榜單來對大模型的能力進行排序
11、,大模型“打榜”逐漸成為各界關注的話題。國外大模型榜單 Open LLM Leaderboard 使用 4 個公開數據集對大模型進行綜合測評。加州大學伯克利分校借鑒 Elo 評分系統推出了 Chatbot Arena,采用眾包方式對大模型進行匿名、隨機化的對戰,得到模型的能力分級。斯坦福大學的 AlpacaEval 使用強大的語言模型(如 GPT-4)對大模型進行評估,提升評測效率。國內的OpenCompass、FlagEval、SuperCLUE、SuperBench 等分別發布大模型評測榜單,對中文大模型進行重點評測。大模型能力“榜單”確實能夠在一定程度上反映出大模型能力,對于大模型的科學
12、研究和能力提升提供正向借鑒意義。此外,在大模型的實際應用中,大模型的使用方需要綜合考慮業務需求、花費成本、系統架構、安全要求等因素進行大模型的產品選型(POC)測試。大模型基準測試利用客觀數據集對模型能力進行全面、客觀的驗證,這已經成為 POC 測試的主要落地方式,在大模型行業和應用落地中扮演重要角色。三是支撐行業應用。近期,“人工智能+”行動的開展驅動了大模型在各應用場景中落地。大模型已經在金融、醫療、軟件工程、教育、法律、科研、政務、電信、能源、工業、汽車、機器人等行業領域中取得一定的應用成果。同時,面向行業的大模型基準測試也取得大模型基準測試體系研究報告(2024 年)4 顯著進展,目前
13、已推出多種面向行業應用的評測數據集,例如金融領域的 FinEval,醫療領域的 PubMedQA,軟件領域的 MBPP、HumanEval等。用戶在進行大模型行業應用時,無論通過外部采購或自主研發的方式構建大模型能力,都需要利用基準測試對備選大模型進行量化評估,才能保障大模型的行業應用效果。四是輔助監管治理。隨著大模型性能的不斷提升,安全隱患和威脅的陰影始終如達摩克里斯之劍懸在人類頭頂。近期,人工智能專家Geoffrey Hinton 在接受60 分鐘公開采訪中表示了對人工智能存在的安全隱患的擔憂,并擔心人類將會被其接管。目前隨著 TOXIGEN、CVALUES 等數據集推出,對大模型的內容合
14、規評測等已經取得一定進展,但在大模型的誠實性、自主意識和隱私保護等方面仍缺乏高質量基準。大模型基準測試對保障模型內容安全和能力監控發揮重要作用,可以引導其朝著更健康、更安全的方向發展,讓大模型的成果惠及全人類。(二二)蓬勃發展的大)蓬勃發展的大模型模型基準基準測測試試 據中國信息通信研究院(以下簡稱“中國信通院”)統計,截止到 2023 年底,產學研各界已經報道 325 個大模型基準測試的相關數據集、方法和榜單等研究成果。其中,使用頻次較高的評測數據集包括加州大學伯克利分校的 MMLU、Open AI 的 GSM8K、上海交通大學的 C-Eval 等;大模型基準測試體系和工具包括美國斯坦福大學
15、的HELM 和 HEIM、上海 AI 實驗室的 OpenCompass、北京智源研究院的 FlagEval、ChineseGLUE 的 SuperCLUE、清華大學的 SuperBench大模型基準測試體系研究報告(2024 年)5 等;大模型評測榜單包括Hugging Face推出的Open LLM Leaderboard、加州大學伯克利分校的 Chatbot Arena、斯坦福大學的 AlpacaEval 等。通過對現有成果進行梳理,觀察到如下現象。一是從測試領域占比來看,如圖 2 所示,由于大語言模型是當前產業應用的主流,因此針對大模型的通用語言類評測數據集最多,占比超過 50%,多模態
16、大模型評測數據集數量僅占 13%。面向行業類的評測數據集 2023 年也迎來爆發式發展,其中 80%也針對語言類任務構建。而對于模型安全、可靠性和魯棒性評測的數據集較少,需要持續投入。此外,當前對大模型產業應用效果的評測數據集和方法論相對缺乏,亟需產學研各界重點關注。來源:中國信息通信研究院 圖 2 大模型基準測試領域占比分布 二是從發布時間來看,2023 年不但是大模型的涌現年,也是大模型基準測試的爆發年。如圖 3 所示,僅 2023 年一年出現的大模型基準測試數據集的數量遠遠超過之前 5 年,達到 209 個。預計在 2024年,大模型基準測試數據集的數量仍會持續攀升。53%21%13%7
17、%6%語言行業多模態安全其它大模型基準測試體系研究報告(2024 年)6 來源:中國信息通信研究院 圖 3 大模型基準測試數據集發布時間 三是從大模型基準測試數據集的使用頻次來看,如表 1 所示,通過對 GPT-4、LLaMA 2、LLaMA 3、Gemini、Claudes 3、Mixtral 8x7B、GLM4 等大模型官方發布結果中使用的評測數據集進行統計,MMLU、GSM8K、ARC、HumanEval、Math、BBH、WinoGrande、HellaSwag等基準的使用頻次較高,其中大部分為傳統的自然語言處理評測數據集,并主要針對大模型的英文能力進行測試。對于多模態大模型,LLaV
18、A-Bench、VisIT-Bench、MMBench 等使用較為廣泛。表 1 代表性大模型官方發布結果中使用的評測數據集 模 模 模 模 模 模 模 GPT-4 LlaMA2 LlaMA3 Gemini Claude3 Mixtral8x7B GLM4 MMLU GSM8K ARC HumanEval Math BBH WinoGrande HellaSwag 050100150200250201820192020202120222023數量(個)年份(年)大模型基準測試體系研究報告(2024 年)7 MBPP DROP TriviaQA GPQA AGIEval PIQA MGSM NQ
19、MGSM SQuAD BoolQ 四是從發布機構上來看,學術機構在此領域的研究中扮演了重要角色。如圖 4 所示,清華大學和斯坦福大學位于發布評測數據集數量的第一名和第三名,其中清華大學的成果大多集中在 2023 年。美國艾倫人工智能研究所(AI2)由于在傳統自然語言處理數據集上的貢獻,仍然位居前列。谷歌、阿里巴巴、Meta 和騰訊成為上榜的四家企業。來源:中國信息通信研究院 圖 4 大模型基準測試數據集發布機構排名 024681012141618數量發布機構大模型基準測試體系研究報告(2024 年)8 五是從發布國家來看,如圖 5 所示,中美發布數量旗鼓相當,占比均為 47%左右。2023 年
20、,國內大模型基準測試數據集“井噴式”發展,推出包括 C-Eval、CMMLU 等評測數據集 100 多個,在中文評測領域具有顯著的影響力。雖然國內提出的基準數據集在數量上有明顯提升,但與美國提出的基準測試數據集相比,在國際上的影響力仍然差距明顯。來源:中國信息通信研究院 圖 5 大模型基準測試數據集發布國家分布 六是從測試數據集開源狀況來看,如圖 6 所示,開源測試數據集更多,占比達到 69%,而閉源數據集僅占 31%。評測數據集開源對其推廣影響很大,產學研各界只有充分獲取數據才可以高效進行測試。但同時數據的開源會容易導致模型“作弊”的現象發生。因此,如何在保證數據充分開放的前提下,對模型的數
21、據污染狀況進行檢測成為當前研究的熱點。美國47%中國46%以色列2%德國2%印度1%新加坡1%日本1%美國中國以色列德國印度新加坡日本英國大模型基準測試體系研究報告(2024 年)9 來源:中國信息通信研究院 圖 6 大模型基準測試數據集開源分布(三三)大大模型評測模型評測發展共性與差異發展共性與差異 當前人工智能測試已經由機器學習、深度學習測試時期進入大模型測試時期,未來還將邁向通用人工智能(AGI)測試時期。產學研各界推出的大模型基準測試數據集眾多,這些數據集的構成和測試重點各不相同,但表現出一些共性:一是通用能力測試為主。目前產學研各界所發布的大模型基準測試數據集大都側重于模型的通用能力
22、,包括大模型理解、生成、推理、知識能力等,MMLU 和 GSM8K 等成為當前大模型最常用的評測基準,而近期面向行業和應用的評測數據集已得到產業界廣泛關注。二是通過考試方式執行。雖然 Chatbot Arena 等采用“模型對戰”的方式完成評測,但當前大模型基準測試主要仍以考試方式為主,通過在考題上的表現來衡量大模型能力。AGIEval、KoLA 等利用客觀選擇題評測大模型知識能力,PubMedQA 等通過問答題評測生成能力。三是測試數據構成類似。大模型基準測試的輸入通常為測試數據,常見的測試數據類型包括單選、多選、問答等。為提升自主測試效率,開源69%未開源31%大模型基準測試體系研究報告(
23、2024 年)1 數據集還會提供標準答案、Prompt 樣例和測試腳本等。同時,評測數據集中通常還會包含一定量的模型微調數據來提升大模型表現。四是測試結果仍需主觀評估。當測試題目為客觀選擇題,測試結果評估可以通過腳本高效執行。當測試題目為主觀題或開放問答時,仍然需要人工主觀評估。雖然大模型已經作為“裁判”參與結果評估,但據論文Large Language Models are not Fair Evaluators研究表明,使用 GPT-4 進行結果評估容易受到“答案順序”等因素影響。除了上述共性外,大模型基準測試數據集也表現出一定差異性,主要為:一是評測數據數量上的差異,知識類考察數據集的題
24、目數量通常會超過 1 萬,例如 MMLU 和 C-Eval 的題目數量分別為 15858 和13948,而代碼類評測數據集中題目數量較少,如 MBPP 和 HumanEval的題目數量僅為 974 和 164。二是評測環境上的差異,對語言大模型的評測通常以考試的方式進行,而對于 AI 智能體(AGENT)或具身智能系統的評測通常需要搭建仿真環境。三是評測目標上的差異,大模型的訓練可分為預訓練、監督式微調、強化學習訓練等幾個階段,不同的評測數據集所針對的目標模型不相同。四是評測方法上不統一,根據提示工程中提供樣例多少,大模型可通過 zero-shot、few-shot 等方式進行評測,但各大模型
25、在評測方式上并不統一。大模型基準測試體系研究報告(2024 年)1 二、大模型基準測試現狀分析 2023 年,大模型基準測試迎來飛速發展的一年,大模型的評測體系、數據集、方法、工具如雨后春筍般出現。本章對已發布的大模型基準測試成果進行簡要介紹,主要分為評測體系、數據集和方法等,以梳理大模型基準測試的整體發展趨勢,并探尋未來發展方向。(一)(一)大大模型模型基準基準測測試體系總體介紹試體系總體介紹 與傳統認為 Benchmark 僅包含評測數據集不同,大模型基準測試體系包括關鍵四要素:測試指標體系、測試數據集、測試方法和測試工具。指標體系定義了“測什么?”,測試方法決定“如何測?”,測試數據集確
26、定“用什么測?”,測試工具決定“如何執行?”。圖 7 大模型基準測試體系構成 1.測試指標體系 在進行大模型基準測試時,首先需要確定測試的指標體系,明確評測的維度和對應指標。大模型評測的指標體系可以按照四層結構進行構建。測試場景定義了待測試模型的外在大模型基準測試體系研究報告(2024 年)1 環境條件的組合,如通用場景、專業場景、安全場景等。測試能力決定了模型的測試維度,如理解能力、生成能力、推理能力、長文本處理能力等。針對待測試的能力,可以通過多種任務完成測試。如語言大模型的理解能力可以重點考察在文本分類、情感分析、閱讀理解、自然語言推理、語義歧義消解等任務中的表現。對于不同的測試任務,需
27、要與不同的指標進行關聯。如文本分類可以計算準確率、召回率等指標,而閱讀理解可以利用準確率、F1 Scores、BLUE、ROUGE 等進行考察。2.測試數據集 按照大模型可處理的信息模態,可以將大模型分為語言大模型、多模態模型、語音大模型等。其中,語言大模型和多模態大模型的研究和應用最為廣泛。語言大模型的輸入和輸出均為自然語言,多模態大模型的輸入和輸出為不同模態的數據。下面對語言大模型和多模態模型評測中常用數據集進行梳理和介紹。對語言大模型的通用能力進行評測需要考察理解能力、生成能力、推理能力、知識能力、學科能力、多語言能力、長文本能力、思維鏈能力、角色扮演能力、工具使用能力、可靠性、魯棒性等
28、。代表性的評測數據集如附錄表 1 所示,包括 MMLU、BBH、GSM8K 等。對語言大模型的行業能力進行評測需要考察行業通用能力、行業知識能力、行業場景能力、行業安全能力等。代表性的評測數據集如附錄表 2 所示,包括 FinEval、PubMedQA、JEC-QA 等。對語言大模型的應用能力進行評測需要考察大模型在智能客服、知識管理、數據分析、辦公大模型基準測試體系研究報告(2024 年)1 助手、內容創作、網頁助手、代碼助手、任務規劃、智能代理、具身智能等應用中的效果。代表性的評測數據集如附錄表 3 所示,包括GAIA、APPS、AgentBench 等。對語言大模型的安全能力進行評測需要
29、考察大模型內容安全、倫理安全、隱私安全、模型安全等,代表性的評測數據集如附錄表 4 所示,包括 SafetyBench、TOXIGEN、JADE等。當前對多模態大模型的評測主要集中在通用能力,主要包括視覺問答、視覺推理、視覺處理、視覺描述、視覺生成、可靠性等。代表性評測數據集如附錄表5所示,包括MMBench、LLaVA-Bench、POPE、OCRBench 等。3.測試方法 大模型基準測試方法的研究主要集中在大模型的整體評測流程或評測方式的創新。如圖 8 所示,大模型的評測流程包括測試需求分析、測試環境準備、測試數據構建、基準測試執行、測試結果評估和測試結果展示等。本報告對每個環節涉及的內
30、容進行介紹。來源:中國信息通信研究院 圖 8 大模型基準測試流程 測試需求分析通常是大模型測試過程中的第一步,通過對測試需求進行全面和準確的覆蓋,有助于確保測試活動的有效性和高效性。大模型測試需求分析需要完成以下任務:確定評測目的,預評估待測模型,測試體系設計,測試方案設計,測試輸入(輸出)分析,測試大模型基準測試體系研究報告(2024 年)1 可實施性分析等。測試環境準備是大模型測試的基礎,需要搭建配套的軟硬件平臺保證測試順利執行。首先,根據被測模型的實際性能要求需要搭建測試軟硬件環境。其次,對于單一模型的少樣本測試,可利用腳本完成測試,而對于多個模型的大數據量測試,需要使用測試框架,可將其
31、部署在單一服務器或集群中。再者,對私有化部署大模型,需要將其部署在環境中。最后,可使用少量測試數據對測試環境功能進行驗證。大模型評測數據可以通過人工構建、題目自動化擴充和智能算法生成三種方式進行定期補充或更新。人工構建方式主要是通過人工采集、標注的方式構建測試數據。面向大模型的測試數據的構建流程一般包括方案設計、數據采集、數據標注、數據清洗、數據增強、數據規范化和數據存儲等環節。在實際大模型評測中,應針對模型的薄弱點定期進行評測數據集的更新工作,以保證評測數據的有效性。題目自動擴充主要利用“模板”化信息提取算法或對抗樣本生成對題庫中題目的可變量進行“替換”,從而“衍生”生成相似題目。其在一定程
32、度上防止大模型通過“刷題”和“記題”方式獲取更高的分數,并驗證大模型的魯棒性。微軟提出動態測試框架 DyVal,利用有向無環圖動態生成測試數據,減少測試數據被大模型記憶的可能。PromptBench 對大模型的提示工程詞進行字符級別、單詞級別、句子級別和語義級別的黑盒攻擊,來對語言大模型的魯棒性進行評測。智能算法生成主要是利用一些先進的人工智能技術(如大模型)自動化生成一定量的新題目。目前基于大模型的智能出題已有實際的應用范大模型基準測試體系研究報告(2024 年)1 例,例如考試星推出的智能考試命題服務中,使用大模型對一段長文本進行自動化出題,涉及題型包括單選、多選、問答等。香港中文大學推出
33、了數學推理問題的合成數據方法 MathGenie,通過訓練一個反向翻譯模型對種子試題集的增廣解決方案進行反演,從而得到更多的數學題目。目前智能算法生成的題目質量很難保證,需要人工進行核驗,以確保測試題目質量。為了保證測試結果的公正性,大模型評測數據集應該提供統一、標準的提示工程(Prompt)范例,支持 Zero-shot、Few-Shot 等多種評測模式。通過優化提示工程詞內容可以提升大模型的表現,但為了保證結果的可比性,推薦使用評測數據集所提供的提示工程樣例,并且所有的大模型所使用的評測提示工程詞應該保持一致。測試執行階段需要將測試數據輸入被測模型,并觀察被測模型的輸出結果。從執行方式上,
34、根據實際需求(測試數據量、測試成本等)可使用單點和分布式兩種方式執行。單點執行在單臺服務器上將測試數據依次輸入大模型,并收集大模型的輸出結果。分布式執行通過中心節點對測試任務和數據集進行切分,再分發至單點服務器上分布式執行,最后通過中心節點對大模型輸出結果進行匯總并統計,測試成本相對較高。對于大模型生成的結果需要使用合理的評估指標進行衡量,以確保生成內容的正確性和準確性。大模型生成內容的評估方式可以分為自動化評估和人工評估。傳統自動化評估通過計算特定指標完成模型生成內容和標準答案的對比。對客觀類評測題目(如選擇題)的結果大模型基準測試體系研究報告(2024 年)1 評估相對簡單,若模型的回答不
35、滿足提示工程詞要求,會采取特定的策略(如正則匹配)完成答案的對比。由于大模型生成內容較為靈活,對主觀類題目(如問答題)進行自動化評估難度較高。若生成內容較為規范,如機器翻譯和文本摘要等,可以計算 BLEU、ROUGE 等指標。但對于較復雜或專業的生成內容,需要專家對結果的正確性和準確性進行人工評判,其對評估人員資質和具體評測方式等有一定要求,如評估人員需要具有專業化背景、評估人員數量要充足等?,F有研究嘗試將大模型作為自動化結果評估工具來對其它模型的生成內容質量進行評估,例如 AlpacaEval 等采用 GPT-4 對其它模型的生成結果進行質量分級。根據Benchmarking Foundat
36、ion Models with Language-Model-as-an-Examiner等論文結果,這種評估方式有望成為人工評估的有效替代。其按照技術原理可分為基于提示工程詞和模型微調兩種方式。前者一般會設計高質量的提示詞,利用大模型來對生成內容進行打分。該方式可通過優化提示詞內容或構建大模型裁判網絡來提升評估效果。中科院在論文Wider and deeper llm networks are fairer llm evaluators 中以大模型作為神經元搭建“裁判”網絡 WideDeep,人機評估一致率達到 93%?;谀P臀⒄{的方式主要利用相關數據對大模型進行訓練以提升評判的準確率。代
37、表性的成果包括清華大學的CRITIQUELLM和北京智源研究院的JudgeLM等。大模型基準測試結果可以通過測試報告、模型榜單、雷達圖、柱狀圖等多種形式進行展示。大模型測試報告中需要包含評測目標、數據集描述、測試任務描述、測試環境描述、評估指標、量化結果、可大模型基準測試體系研究報告(2024 年)1 視化結果、對比分析、評測結論、建議提升方向、錯誤樣例等內容。4.測試工具 測試工具是測試方法的落地實踐方式,是提升大模型評測效率的重要手段。大模型基準測試工具通常需要支持數據集管理、模型庫管理、API 管理、測試任務分發、測試指標計算、測試結果分析、測試結果展示等多種基礎功能。圖 9 展示了由卡
38、塔爾計算研究所所提出的開源大模型基準測試評測工具 LLMeBench 原理圖。從圖中可以發現,其包含數據加載模塊、提示工程詞模塊、模型執行模塊、后處理模塊和結果評估模塊,與大模型的基準測試流程基本一致。當前大模型的基準測試工具在測試數據集構建和測試結果評估階段仍然需要人工參與,全自動化的基準測試工具仍是產業界的迫切需求。來源:LLMeBench:A Flexible Framework for Accelerating LLMs Benchmarking 圖 9 大模型基準測試工具 LLMeBench 框架圖(二二)代表性的大代表性的大模型模型基準基準測測試體系試體系 當前已發布的評測榜單背后
39、均有相應的評測體系和方法,國內外知名度較高的大模型基準測試體系包括:1.HELM 大模型基準測試體系研究報告(2024 年)1 HELM(Holistic Evaluation of Language Models)是由斯坦福大學在2022年推出的大模型評測體系。該體系主要包括了場景(Scenarios)、適配(Adaptation)和指標(Metrics)三個核心模塊,每次評測都需要“自頂而下”指定一個場景、一個適配模型的提示工程詞和一個或多個指標來進行。如圖 10 所示,HELM 使用了幾十個場景和多個指標的核心集完成大模型評測,場景涉及問答、信息檢索、摘要、毒性檢測等多種典型評測任務,指
40、標包括準確性、校準、魯棒性、公平性、偏差、毒性、效率等。來源:Holistic Evaluation of Language Models 圖 10 大模型評測基準 HELM 原理圖 2.HEIM HEIM(Holistic Evaluation of Text-to-Image Models)是由斯坦福大學在 2023 年推出的多模態大模型評測體系。與之前文本生成圖像的評測主要關注文本圖像對齊和圖像質量不同,HEIM 定義包括文本圖像對齊、圖像質量、美學、原創性、推理、知識、偏見、毒性、公平性、魯棒性、多語言性和效率在內的 12 個維度。HEIM 確定包含大模型基準測試體系研究報告(2024
41、 年)1 這些維度的 62 個場景,并在這個場景上評測了 26 個最先進的文本到圖像的生成模型。3.HRS-Bench HRS-Bench(Holistic Reliable Scalable Bench)是由沙特的 KAUST在 2023 年推出的全面、可靠、可擴展的多模態大模型評測體系。與之前文本生成圖像僅考察有限維度不同,HRS-Bench 重點評測大模型的 13 種技能,可分為準確率、魯棒性、泛化性、公平性和偏見 5 個類別,覆蓋了包括動物、交通、食物、時尚等 50 多個場景。4.OpenCompass OpenCompass(司南)是由上海 AI 實驗室推出的開源、高效、全面的評測大
42、模型體系及開放平臺,其包括評測工具 CompassKit、數據集社區 CompassHub 和評測榜單 CompassRank。在已發布的評測榜單中,對語言大模型主要考察語言、知識、推理、數學、代碼和智能體方面的表現。對多模態大模型主要評測在 MMBench、MME 等數據集上的指標。OpenCompass 提供了開源大模型基準測試工具,已集成大量的開源大模型和閉源商業化 API,在產業界影響力較大。5.FlagEval FlagEval(天秤)是由北京智源研究院推出的大模型評測體系及開放平臺,其旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型性能,同時探索提升
43、評測的效率和客觀性的新方法。FlagEval 通過構建“能力-任務-指標”三維評測框架,細粒度刻畫基礎模型的認知能力邊界,包含 6 大評測任務,近 30大模型基準測試體系研究報告(2024 年)2 個評測數據集和超 10 萬道評測題目。在 FlagEval 已發布的榜單中,其主要通過中、英文的主、客觀題目對大模型進行評測,具體任務包括選擇問答和文本分類等。6.SuperCLUE SuperCLUE 是由 ChineseCLUE 團隊提出的一個針對中文大模型的通用、綜合性測評基準。其評測范圍包括模型的基礎能力、專業能力和中文特性,基礎能力包括語言理解與抽取、閑聊、上下文對話、生成與創作、知識與百
44、科、代碼、邏輯與推理、計算、角色扮演和安全。目前提供的基準榜單包括 OPEN 多輪開放式問題評測、OPT 三大能力客觀題評測、瑯琊榜匿名對戰基準、Agent 智能體能力評估、Safety 多輪對抗安全評估等。除此之外,還針對長文本、角色扮演、搜索增強、工業領域、視頻質量、代碼生成、數學推理、汽車等領域單獨發布大模型能力榜單。(三三)問題與挑戰問題與挑戰 雖然當前大模型基準測試發展迅速,涉及內容范圍廣泛,但仍存在一些挑戰性問題:1.建立規范化的評測體系 業界對于大模型應測哪些內容、如何測、使用哪些評測集并沒有統一的規范,這容易導致大模型評測榜單結果存在差異,很難精確對比大模型能力。例如,在 20
45、23 年底,谷歌發布 Gemini 大模型,并表示在 MMLU 上的得分率高于 GPT-4。但通過分析谷歌發布的技術報告Gemini:A Family of Highly Capable Multimodal Models,Gemini 大模型基準測試體系研究報告(2024 年)2 Ultra 采用“CoT32”(使用了思維鏈提示技巧,嘗試 32 次并從中選擇最好結果)的測試方法,這與 GPT-4 采用的“Few-Shots”明顯不同,因此評測結果的公正性受到質疑。2.構建面向產業應用的基準 由于行業需求經常高度定制和專業化,僅測試大模型的通用能力無法充分評估模型在特定行業中的應用效果。當前一
46、些行業仍然缺乏公開的高質量評測數據集,這加大了對大模型在實際場景中進行全面評測的難度。例如在 Meta 發表的論文 GAIA:A Benchmark for General AI Assistants中,在 AI 助手的評測基準 GAIA 上,人類回答問題的準確率為 92%,而配備了插件的 GPT-4 只有 15%,這說明大模型在實際應用場景上仍然有較大的提升空間。3.模型安全能力評估 當前大型模型在常見問題上的回答穩定性較好,但在特定敏感問題或某些“邊緣場景”下可能會存在風險,目前國內外針對模型風險的評測基準數量仍然較少。例如,近期大連理工大學聯合多家機構發表論文 Automated Eva
47、luation of Large Vision-Language Models on Self-driving Corner Cases,重點對多模態模型在自動駕駛“邊緣場景”中的表現進行評估。4.評測結果與用戶體驗的差異 當前大模型的評測大多對通用知識能力進行考察,對用戶的實際使用體驗關注度不夠,這容易導致用戶實際反饋與模型測試排名并不一致,如 Open LLM Leaderboard 和 Chatbot Arena 的評測結果在大模大模型基準測試體系研究報告(2024 年)2 型的排名上有明顯的差異。在清華大學發表的論文Understanding User Experience in La
48、rge Language Model Interactions中,作者表示當前缺少面向用戶體驗評估的 Benchmark。5.測試數據集的“污染”問題 據美國佐治亞理工大學的論文Investigating Data Contamination in Modern Benchmarks for Large Language Models,當前大模型的測試數據容易被包含在訓練數據中進行訓練,造成數據“污染”問題。產學研各界需要研究數據“污染”的檢測手段,降低大模型“刷榜”對評測結果的公正性和可信度產生的影響。6.評測數據集的“飽和”使用問題 目前 MMLU、GSM8K 等高質量評測數據已經被大模型
49、評測多次,準確率已經達到一定水平,產學研各界應對評測數據集的選擇和構建形成更加科學的方法論。大模型基準測試體系研究報告(2024 年)2 三、大模型基準測試體系框架 大模型基準測試體系涵蓋大模型的測評指標、方法、數據集等多項關鍵要素,是指導大模型基準測試落地實踐的規范。大模型基準測試體系的建設和完善,旨在形成一個全面、客觀、規范的大模型基準測試的方法論,從而保障大模型評測結果的公正性和客觀性。當前大模型的基準測試偏重模型的通用能力,產業界也亟需面向具體場景和實際落地效果的模型評測能力。針對上述問題,中國信通院從指標體系、測試方法、測試數據集和測試工具四個維度出發,構建“方升”大模型基準測試體系
50、,重點面向產業應用效果進行評估,并且推出自適應動態測試方法,努力保證評測結果的公正性和科學性。(一一)“方升方升”大大模型模型基準基準測測試體系試體系 為提供大模型基準測試體系的規范化建設思路,2023 年底,中國信通院發布“方升”大模型基準測試體系?!胺缴斌w系的發布,由北京智源研究院、認知智能全國重點實驗室、天津大學和中國信通院共同見證。此外,國網智能電網研究院、首都之窗、天津大學、中國電信研究院、中國聯通軟件研究院、華為、甲骨易、海天瑞聲、東方財富 9 家單位成為“方升”大模型基準測試首批合作伙伴。如圖 11 顯示,“方升”測試體系涵蓋基準測試的四個關鍵要素,即指標體系、測試方法、測試數
51、據集和測試工具。其中測試能力主要規定了測試維度與指標,其由“三橫一縱”的框架構成,“三橫”自頂至下依次為大模型的行業能力測試(Industry-Oriented Testing,IOT)、應用能力測試(Application-Oriented Testing,AOT)和通用能力測試(General-大模型基準測試體系研究報告(2024 年)2 Oriented Testing,GOT),而“一縱”為大模型的安全能力測試,其在行業、應用和通用能力中都會涉及。顯然,“方升”測試體系將從行業、應用、通用和安全能力四個維度全面評估大模型的表現,特別其將重點評估行業和應用能力這兩個維度,這對大模型的產業
52、落地具有重要參考價值。來源:中國信息通信研究院 圖 1“方升”大模型基準測試體系 構建一個高質量的評測基準,不能僅考慮數據集和指標,“方升”測試體系除了對大模型的指標體系進行科學化設計,還對測試方法、測試數據集和測試工具提供規范化的建設思路。在指標體系中,“方升”測試體系除了關注通用能力和安全能力,還重點考察大模型在行業和實際應用中的表現。為保證測試結果的科學性和客觀性,大模型的評測需要保證環境和輸入的一致性,并在測試方法上進行精細化設計,以滿足高效、精準的評測目標。在評測數據集方面,應該滿足一定質量要求,如充分性、多樣性、新穎性、區分度、合理性、可追溯性等,才能從源頭上保證測試真實有效。在評
53、測工具方面,應該進行合理的模塊化設計,滿足功能和性能要求,支持端到端自動化執行測大模型基準測試體系研究報告(2024 年)2 試。通過對測試數據自動構建、測試結果自動評估、測試分布式執行等關鍵環節進行探索,提升大模型基準測試的效率。面向大模型的通用能力測試(GOT)在產學研各界已得到蓬勃的發展,“方升”測試體系將全面吸收產學研各界的優秀成果,并在評測大模型的生成能力和內容可靠性等方面進行重點探索,打造全面和堅實的通用能力測試底座?!胺缴睖y試體系已具備針對大語言模型的理解能力、生成能力、推理能力、知識能力、學科能力、多語言能力、長文本能力、思維鏈能力、角色扮演能力、工具使用等方面的評測,針對多
54、模態大模型,聯合產學研機構建立視覺問答、視覺推理、視覺生成等能力的評測數據集。在“方升”測試體系中,已對大模型的通用能力測試進行全面梳理,形成的關聯關系,從而構建全面且體系化的通用能力評測基礎底座?!胺缴睖y試體系在大模型行業測試(IOT)領域進行重點布局,助力大模型賦能千行百業。在大模型實際落地過程中,通常會用行業數據對基礎大模型進行微調得到行業大模型,而后將行業大模型應用在實際業務中。然而,由于每個行業的需求和應用場景不同,因此評測方案和數據集也不相同,評測難度明顯提升。在“方升”測試體系中,已針對多個重點行業中的典型應用場景進行梳理,形成“通用-知識-場景-安全”的多維度評測方案,并在政
55、務、電信等行業進行驗證。當前“方升”測試體系中涵蓋包括金融、醫療、工程、教育、法律、科研、設計、汽車、機器人等多個行業的評測數據集,并在政務、電信、能源等領域與產學研機構共建評測數據集,助力大模型行業能力評估。大模型基準測試體系研究報告(2024 年)2 大模型的實際應用通常限定在具體場景和特定任務,“方升”測試體系面向大模型的應用測試(AOT)進行重點探索,解決大模型業務落地的“最后一公里”問題。當前大模型常見的落地場景包括智能客服、知識管理、數據分析、辦公助手、內容創作、代碼生成等。在上述領域中,為了保證大模型生成結果的準確性,通常會利用外掛知識庫的方式來進行技術落地。隨著大模型能力的提升
56、,可利用外部工具完成更為復雜的任務,例如網絡購物、數據庫操作等,這需要大模型智能體(AGENT)技術的支撐?!胺缴睖y試體系將針對智能客服、知識管理、RAG、數據分析、代碼助手、辦公助手、AGENT、具身智能等多個重點應用領域的測試方法進行研究,并通過設計合理的評測指標對實際任務的落地效果進行評估,為大模型應用效果評估遇到的評測數據缺乏問題提供解決方案,全面衡量大模型在實際業務落地中發揮的作用。安全能力是保障大模型實際落地應用的重要基石,已經成為人工智能領域的核心議題。AI Safety Benchmark 著力打造公平公正、面向產業應用的大模型安全能力測試體系,為大模型產業安全健康發展保駕護
57、航。一是數據集層面,構建完備的安全測評數據集,涵蓋 40 余萬條數據,26 個細粒度安全類別和 4 種數據模態。從內容安全、數據安全、科技倫理等方面綜合評估大模型安全能力。其中,內容安全涉及價值觀、違法違規等;數據安全包括個人隱私、企業機密等;科技倫理包括歧視偏見、心理健康、AI 意識等。二是評測指標層面,設置科學的測評指標,從安全性和負責任性兩個角度分別衡量大模型的性大模型基準測試體系研究報告(2024 年)2 能。其中,安全性分數主要關注模型輸出的絕對安全性,負責任性分數更加關注模型回答的正向積極性和與人類價值對齊的情況。(二二)“方升方升”自適應動態自適應動態測測試方法試方法 來源:中國
58、信息通信研究院 圖 2 自適應動態測試方法原理圖“方升”測試體系中的指標部分通過對大模型測試領域和指標的全領域梳理,從方法論上指導用戶更加精準且科學的完成測試。除此之外,為了解決測試數據集管理難、大模型測試“刷榜”等問題,“方升”測試體系提出自適應動態測試(Adaptive Dynamic Testing,ADT)方法對大模型進行評測,以保證大模型基準測試能高質、高準、高效的完成。如圖 12 所示,自適應動態測試方法包含三個關鍵部分,即測試數據標簽化管理、動態測試數據庫和高質量測試數據抽樣算法。其中測試數據標簽化管理重點解決測試數據集格式繁多、難管理問題,動態測試數據庫主要解決大模型測試“刷榜
59、”和評測數據“靜態化”問大模型基準測試體系研究報告(2024 年)2 題,高質量測試數據抽樣算法主要解決大模型的精準缺陷挖掘困難高、測試效率較低等問題。自適應動態測試方法的關鍵特性包括以下幾方面:1.全量篩選,測試標簽匹配化 來源:中國信息通信研究院 圖 3 大模型基準測試標簽體系 在大模型的實際測試過程中,測試人員很難直接獲取相關測試數據和指標,需要花費大量的人力去搜集和整理數據,測試門檻高。并且當測試題庫中的測試題目達到百萬量級,該如何管理這些數據是一個難點,直接影響測試數據的價值?!胺缴睖y試體系對全量測試數據進行“標簽化”處理,完成測試數據精準“畫像”。如圖 13 所示,“方升”測試體
60、系中的測試數據會賦予特定的“測試標簽”,例如所屬數據集、測試行業、測試領域、測試任務、測試能力、題目難度等。通過多維度的數據標簽刻畫,充分提升測試數據的利用效率?!胺缴睖y試體系希望通過多層次的梳理和篩選,在構建全面、統一的測試基準同時,可以自動化推薦基準測試的“數據”和“指標”,從而降低大模型基準測試的“門檻”。測試人員在實際測試時,可以參照“方升”測試體系“自頂至下”依次在“行業”、“應用”和“通用”中選擇需要的測試維度,大模型基準測試體系研究報告(2024 年)2 “方升”測試體系可以根據用戶的選擇自動化推薦測試所需的“數據”和“指標”。2.動態更新,測試題庫實時化 為了防止大模型測試的
61、“刷榜”問題,“方升”測試體系的底層測試數據庫采用動態方式構建,保證每次參與測試題目的都不相同,以解決存在題目封閉、考題過時、模型作弊等問題。動態測試數據庫中的題目會通過人工補充、題目自生成和智能算法生成三種方式定期進行擴充,從而保證每次測試時都有一定占比的題目從未用于大模型測試。這些數據在一定時間內不會進行公開,后續會根據產業需求進行開放。測試過程中,會參考已有測試結果,通過人工方式定期補充測試數據,對已發現的大模型薄弱能力進行反復測試。題目自生成方式主要針對題庫中已有題目“生成”出一些評測題目,從而防止大模型通過“刷題”和“記題”等方式提升模型表現。智能算法生成常利用高質量提示工程驅動大模
62、型自動化生成一定量的測試題目,但這些題目的質量很難保證,需要人工對大模型生成題目進行核驗。3.靈活抽樣,測試方案定制化 為了避免大模型測試據集質量不高的問題,“方升”測試體系采用全量測試、模塊測試和抽樣測試三種不同模式對大模型進行評測。全量測試針對動態測試數據庫中所有題目進行遍歷測試,其測試覆蓋領域全面,但測試的成本高、周期長。并且如果大模型已經存在“刷題”等問題,部分測試題目已經失效,重復測試意義降低。模塊測試即從動態測試數據庫中按照特定維度選擇特定測試題目進行評測,其針對大模型基準測試體系研究報告(2024 年)3 大模型的特定能力進行評估,測試方式較為靈活,定制化較強,但無法表征大模型的
63、全面能力,在特定的業務需求下可以執行。抽樣測試即從題庫中動態選擇題目進行測試,該方法僅用少量有效數據即完成大模型的測試,避免很多無意義的測試過程,測試成本低、效率高、綜合性強。如何從海量數據集中選擇高質量測試數據是一個難點,產業界缺少成熟的方案。高質量評測數據集需要標準且量化的定義,如滿足充分性、多樣性、新穎性、區分度、合理性、有效性、追溯性等多項要求。通過定義函數的目標函數,量化制定每一個質量維度的權重,最終使用智能算法完成高質量測試數據集抽取。抽樣算法可選擇隨機抽樣或定向抽樣,也可將數據集質量作為優化目標,使用演進類等優化算法反復迭代計算得到高質量測試數據集。由于每次使用的測試題目均不相同
64、,使用抽樣數據進行測試可以在一定程度上避免大模型“刷題”對測試結果的影響。(三三)“方升方升”大大模型測模型測試體系實踐試體系實踐 為全面和深入認知大語言模型能力及其缺陷,跟蹤國內外大語言模型發展態勢,并驗證“方升”大模型基準測試體系的有效性,中國信通院于 2024 年初啟動“方升”首輪試評測,實際測試執行時間為2 月 19 日至 2 月 29 日。本次評測基于“方升”測試體系,針對大模型的通用、行業、應用和安全能力進行全方位評測。被測對象為 30 多家國內外主流的閉源(商業)大模型和開源大模型,如 GPT-4、Qwen-72B-Chat、LLaMA2 等。本次評測向參測方提供大模型評測報告及
65、提升建議,并展示少量的錯誤樣例,以推動大語言模型健康發展。大模型基準測試體系研究報告(2024 年)3 來源:中國信息通信研究院 圖 4“方升”大模型首輪試評測模式 如圖 14 所示,“方升”大模型首輪試評測提供綜合評測和專項評測兩種測試模式,其中綜合評測是必測項目,專項評測是選測項目。綜合測試主要針對大模型的通用、行業、應用和安全能力進行全面評估以衡量大模型的綜合能力,專項評測則對于大模型的指定能力進行測試,例如面向特定行業或場景的定向評估。為了提升大模型測試效率,本次綜合測試的評測數據集是通過動態測試數據庫中定向抽取所構建,這種動態抽取題庫的方式保證每次評測題目的新穎性,一定程度上可規避模
66、型“刷榜”的問題。后續測試會增加抽樣的次數以保證結果的客觀性。專項評測主要對于參側方所選擇的評測維度進行全量精細化評測,以全面衡量大模型在該領域內的客觀表現?!胺缴贝竽P褪纵喸囋u測中的綜合評測題目從包含 203 萬的評測數據庫中定向抽取構建,全面覆蓋通用、行業、應用、安全 4 個一級測試維度,通用、行業、應用的評測題目數量占比大約為 40%、40%大模型基準測試體系研究報告(2024 年)3 和 20%,安全采用 AI Safety Benchmark 專項測試。測試題型包含單選、多選、填空、判斷、問答等多種形式,其中客觀題占比大約為 90%。本次評測的高、中和低頻測試題目的數量占比約為 1
67、0%、40%和 50%,其中低頻測試題目為新構建的測試題目,從未用于大模型的評測,而中頻測試題目為測試次數較少的題目。本次評測中文測試題目數大約為 70%,英文測試題目為 30%,即保證了國內的主要應用市場,也衡量大模型的多語言處理能力。從題目的難易度上來說,難題、中等題、簡單題數目的比例為30%、40%和30%,題目難易的分級為利用GPT4-Turbo 進行自動化識別得到。本次評測被測對象為 30 家國內外主流的閉源(商業)大模型和開源大模型,其中閉源(商業)大模型 12 個,開源大模型 18 個。在12 個閉源大模型中,除 GPT-4-Trubo 和 GPT-3.5-Turbo 外,10
68、個為國內商業大模型。所評測開源大模型中既包含國外大模型 LLaMA2、Vicuna、Zephyr,也包括國內的大模型 Qwen、ChatGLM、Baichuan、Yi、InternLM、DeepSeek、BlueLM 等。閉源商業大模型主要是通過API 的模式參與測試。在選擇開源大模型時,考慮了不同的參數量與版本發布時間。需要注意,本報告僅提供開源大模型的評測結果,且本次評測結果只能從特定維度來表征大模型的能力,不代表各大模型產品的全面能力,僅供研究分析使用。圖 15 展示了開源大模型的評測結果,從其可以發現開源大模型的表現除了依賴參數量,還與模型版本迭代時間相關。從排名來看,Qwen-72B
69、-Chat、Yi-34B-Chat、InternLM2-Chat-20B、Qwen-14B-Chat大模型基準測試體系研究報告(2024 年)3 分別占據了前幾名,余下的開源大模型參數量基本都小于 10B,這說明大模型的參數量在一定程度上影響大模型的表現。但大模型的能力不僅僅依賴于模型的參數量,還與訓練技術和數據質量密切相關。大模型技術迭代速度快,往往兩三個月內即有新版本出現,在模型參數量基本不變的情況下,新版本的大模型能力對比上一版本往往明顯增強,有的甚至發生跨越式的提升,例如 Qwen-7B 在本次評測中僅為25.8 分,但 Qwen1.5-7B 的分數卻顯著提升至 51.8 分。且發布時
70、間較晚的 InternLM2-1.8B 和 Qwen-1.8B 在參數量大大減少的情況下,整體表現甚至優于部分參數量為 6B 或 7B 的大模型。來源:中國信息通信研究院 圖 15 開源大模型評測榜單結果 需要注意的是,本次評測結果僅從特定維度對大模型能力進行考察。在實際的商業應用選型中,并不能僅考慮能力這一個因素,還需要結合應用場景、部署成本、推理時延、自主可控、用戶體驗等其他25.125.525.727.332.636.337.237.539.740.143.748.551.855.956.957.158.364.1020406080Llama2-7BVicuna-7BQwen-7BYi-
71、6BQwen-1.8BBlueLM-7BBaichuan2-7BZephyr-7B-InternLM2-1.8BDeepSeek-7B-ChatChatGLM3-6BBaichuan2-13B-ChatQwen1.5-7BInternLM2-7BQwen-14B-ChatInternLM2-Chat-20BYi-34B-ChatQwen-72B-Chat大模型基準測試體系研究報告(2024 年)3 因素,通過綜合決策選擇最適配的大模型。例如,開源大模型 Qwen-72B-Chat 與 Qwen-1.8B 相比,Qwen-72B-Chat 在能力上的優勢十分明顯,但在部署成本上,Qwen-1.8
72、B 的部署難度更低。除此之外,在選擇商業大模型時,還要重點考慮價格以及是否支持私有化部署等因素。大模型基準測試體系研究報告(2024 年)3 四、總結與展望 伴隨著大模型基準測試的蓬勃發展,針對大模型各個維度的測試方法如雨后春筍般出現。大模型基準測試不應該僅僅作為大模型研發的終點,以發布測試榜單為目的,更重要的是切實發現大模型問題,驅動大模型能力的提升,指導大模型的研究方向和應用路線。因此,產學研各界應該在探索新的測試方法、構建自動化測試平臺以及共享高質量評測數據集等方面協同發力。未來,對 AGI 進行全方位、科學化的評估,將成為人工智能領域亟待解決的重要問題。(一)(一)形成形成面向面向產業
73、產業應用的應用的大大模型模型評測評測體系體系 隨著人工智能技術的不斷發展,大模型的應用日益廣泛,為各行各業帶來了巨大的變革和可能性。在金融、醫療、法律、交通、教育等各個領域,大模型展現出了巨大的應用潛力,有望提升工作效率,優化應用效果。此外,基于大模型的 AI 原生應用也逐漸進入人們的視野,大模型不僅能完成智能客服、知識管理、數據分析等簡單任務,還可借助外部工具助力人類進行網絡購物、旅行規劃、餐館預定等復雜活動。然而,由于當前產業應用數據大多在行業用戶的手中。因此,雖然行業測評基準已初步建立,但面向大模型應用評測的評測數據集仍較為缺乏。隨著“人工智能+”行動的開展,各行業將以大模型實際落地的效
74、果為評估目標,形成不同行業和應用效果評估的體系和方法論,積極建立面向產業場景化應用的評測數據集,探索面向行業和場景化應用的新型評測方法,切實推動大模型基準測試在行業場景中進行落地,大模型基準測試體系研究報告(2024 年)3 全面正向驅動大模型的發展與應用。(二)(二)構建超構建超自動化自動化的大的大模型模型基準基準測測試平臺試平臺 大模型基準測試的流程包括測試需求分析、測試環境準備、測試數據構建、基準測試執行、測試結果評估、測試結果展示等。其中,測試數據準備和測試結果評估這兩步均需要投入大量人力,工作繁瑣。并且,大基準測試執行可通過單點、分布式等方式進行,不同的硬件環境將直接影響模型的評測效
75、率。由于評測結果會直接指引下一步研發方向,因此基準測試的自動化、工程化和批量化處理非常關鍵,可直接決定大模型整體的迭代效率。如何全自動化地完成大模型的測試、快速挖掘大模型缺陷、降低測試人力的投入是該領域值得深入研究的問題?;鶞蕼y試不應該僅作為 AI 應用開發的終點,而是要成為一個新起點,驅動大模型的能力持續提升。未來將會出現企業級的自動化大模型基準測試平臺,保證從測試需求分析到測試結果統計的全流程質量把控。其不僅需要具備測試任務高效分發、分布式批量執行、測試結果自動統計等基礎功能,還應該支持流程中的測試數據構建和測試結果評估等工作。例如,當前自動生成的測試數據質量很難保證,需要人工進行復核,上
76、述操作可以在平臺頁面上完成。測試平臺中可以集成已訓練好的“裁判”大模型,助力大模型生成內容的正確性評估,降低評估的人力成本。(三)(三)探索探索 AGI 等先進人工智能的等先進人工智能的評測評測技術技術 大模型基準測試體系研究報告(2024 年)3 人工智能技術發展迅速,大模型、RAG、AGENT、具身智能、AGI 等新概念和新技術層出不窮。大模型基準測試作為研究較為深入的領域,將帶動其他新技術的研究。當前雖然 AGI 仍未有明確的定義,但針對 AGI 的探索性評測研究已有初步成果。例如微軟發布論文通用人工智能的火花:GPT-4 的早期實驗,通過數學、編程、視覺、醫學、法律、心理學等復雜度較高
77、的任務證明 GPT-4 已經進入AGI 的早期階段。北京通用人工智能研究院發布通智測試:通用人工智能具身物理與社會測試評級系統,提出一種基于能力和價值維度的 AGI 的評測方法。中國科學院和美國俄亥俄州立大學等先后推出 AGIBench 和 MMMU 評測數據集,從多模態、多學科、多粒度等維度衡量大模型距離 AGI 的差距。雖然當前 AGI 的發展仍然處于初期階段,但通過基準測試的研究,可以為未來 AGI 的發展方向提供思路,并對 AGI 的能力進行監控以指引其正向發展。大模型基準測試體系研究報告(2024 年)3 附錄附錄 附表 1 語言大模型通用能力的代表性評測數據集 基準名稱 評測目標
78、國家 時間 題目類型 MMLU 理解、知識 美國 2021 客觀 C-Eval 理解、知識 中國 2023 客觀 CMMLU 理解、知識 中國 2023 客觀 MT-Bench 生成(對話)美國 2022 主觀 MT-Bench-101 生成(對話)中國 2024 主觀 AlpacaEval 生成(對話)美國 2023 主觀 Lmsys-chat-1m 生成(對話)美國 2023 主觀 DialogSum 生成(摘要)中國 2021 主觀 LCSTS 生成(摘要)中國 2015 主觀 StoryCloze 推理能力 美國 2016 客觀 BBH 推理能力 美國 2022 客觀 GSM8K 推理
79、能力 美國 2021 客觀 CMATH 推理能力 中國 2023 客觀 MATHVISTA 推理能力 中國 2023 客觀 AGIEval 知識能力 美國 2023 客觀 KoLA 知識能力 中國 2023 主觀 SOCKET 知識能力 美國 2023 主觀 GAOKAO 學科能力 中國 2023 主觀/客觀 M3Exam 學科能力 中國 2024 主觀/客觀 M3KE 學科能力 中國 2023 客觀 XTREME 多語言 美國 2020 主觀 MEGA 多語言 美國 2023 主觀 L-EVAL 長文本 中國 2023 主觀 LongBench 長文本 中國 2023 主觀 Characte
80、rEval 角色扮演 中國 2023 主觀/客觀 大模型基準測試體系研究報告(2024 年)3 ToolQA 工具使用 美國 2023 主觀 TruthfulQA 可靠性 英國 2022 主觀/客觀 UHGEval 可靠性 中國 2023 主觀/客觀 PromptBench 魯棒性 中國 2023 主觀 附表 2 語言大模型行業能力的代表性評測數據集 基準名稱 行業 國家 時間 題目類型 PIXIU 金融 中國 2023 主觀/客觀 FinEval 金融 中國 2023 主觀/客觀 FINANCEBENCH 金融 美國 2023 主觀 PubMedQA 醫療 美國 2019 主觀/客觀 Med
81、QA 醫療 美國 2021 主觀 CMExam 醫療 中國 2023 主觀/客觀 JEC-QA 法律 中國 2020 主觀/客觀 CUAD 法律 美國 2021 主觀 LAiW 法律 中國 2023 主觀 LegalBench 法律 美國 2023 主觀/客觀 DevOps-Eval 軟件 中國 2023 客觀 LogBench 軟件 中國 2023 客觀 OpsEval 軟件 中國 2023 主觀/客觀 SciEval 科研 中國 2024 主觀/客觀 SCIBENCH 科研 美國 2023 客觀 SciQA 科研 德國 2023 客觀 ChemLLMBench 科研 美國 2023 客觀
82、NetEval 通信 中國 2023 客觀 TeleQnA 通信 中國 2023 客觀 CGAEval 政務 中國 2023 主觀/客觀 NuclearQA 能源 美國 2023 主觀 CloudEval-YAML 互聯網 中國 2023 主觀 大模型基準測試體系研究報告(2024 年)4 MSQA 互聯網 美國 2023 主觀 battery-device-data-qa 工業 英國 2023 主觀 GameEval 游戲 中國 2023 主觀 AvalonBench 游戲 美國 2023 主觀 附表 3 語言大模型應用能力的代表性評測數據集 基準名稱 應用場景 國家 時間 題目類型 GAI
83、A 智能助手 美國 2023 主觀/客觀 CFBenchmark 智能助手 中國 2023 主觀/客觀 RGB 知識管理 中國 2023 主觀 CRUD-RAG 知識管理 中國 2024 主觀 MMC-Benchmark 數據分析 美國 2023 客觀 QTSUMM 數據分析 美國 2023 主觀/客觀 TableQAEval 數據分析 中國 2023 主觀 MBPP 代碼助手 美國 2021 主觀 APPS 代碼助手 美國 2021 主觀 HumanEval 代碼助手 美國 2021 主觀 WikiSQL 代碼助手 美國 2017 主觀 VGEN 代碼助手 美國 2023 主觀 Verilo
84、gEval 代碼助手 美國 2023 主觀 AgentBench AI 智能體 中國 2023 主觀 AgentSims AI 智能體 中國 2023 主觀/客觀 BOLAA AI 智能體 中國 2023 主觀 TELeR AI 智能體 美國 2023 主觀 SQA3D 具身智能 中國 2022 主觀 BEHAVIOR-1K 具身智能 美國 2023 主觀 ALFRED 具身智能 美國 2023 主觀 大模型基準測試體系研究報告(2024 年)4 附表 4 語言大模型安全能力的代表性評測數據集 基準名稱 評測目標 國家 時間 題目類型 DECODINGTRUST 綜合安全 美國 2023 主觀
85、 Safety-Prompts 綜合安全 中國 2023 主觀 TRUSTGPT 綜合安全 中國 2023 主觀 SafetyBench 綜合安全 中國 2023 主觀 TOXIGEN 內容安全 美國 2022 主觀 CPAD 內容安全 中國 2023 主觀 JADE 內容安全 中國 2023 主觀 Do-Not-Answer 內容安全 阿聯酋 2023 主觀 CVALUES 倫理安全 中國 2023 主觀 ETHICS 倫理安全 美國 2020 主觀 BBQ 倫理安全 美國 2021 主觀 DialogueSafety 倫理安全 中國 2023 主觀 CONFAIDE 隱私安全 美國 202
86、3 客觀 R-Judge 模型安全 中國 2024 主觀 附表 5 多模態大模型通用能力的代表性評測數據集 基準名稱 評測目標 國家 時間 題目類型 MME 綜合能力 中國 2023 主觀/客觀 MMBench 綜合能力 中國 2023 主觀/客觀 SEED-Bench 綜合能力 中國 2023 主觀/客觀 LVLM-eHub 綜合能力 中國 2023 主觀/客觀 OwlEval 綜合能力 中國 2023 主觀/客觀 MM-Vet 綜合能力 新加坡 2023 主觀/客觀 TouchStone 綜合能力 中國 2023 主觀/客觀 LLaVA-Bench 綜合能力 美國 2023 主觀/客觀 V
87、QA 視覺問答 美國 2015 主觀/客觀 大模型基準測試體系研究報告(2024 年)4 OK-VQA 視覺問答 美國 2019 主觀/客觀 SCIGRAPHQA 視覺問答 美國 2023 主觀/客觀 CORE-MM 視覺推理 中國 2023 主觀/客觀 CONTEXTUAL 視覺推理 美國 2024 主觀/客觀 Mementos 視覺推理 美國 2024 主觀/客觀 OCRBench 視覺處理 中國 2023 主觀/客觀 Q-Bench 視覺處理 新加坡 2023 主觀/客觀 T2I-CompBench 圖像生成 香港 2023 主觀/客觀 HRS-Bench 圖像生成 沙特 2023 主觀
88、/客觀 POPE 可靠性 中國 2023 主觀 AMBER 可靠性 中國 2023 主觀 大模型基準測試體系研究報告(2024 年)4 縮略語縮略語 AI Artificial Intelligence 人工智能 AGI Artificial General Intelligence 通用人工智能 GPU Graphics Processing Unit 圖形處理器 API Application Programming Interface 應用程序編程接口 GPT Generative Pre-trained Transformer 生成式預訓練變換器 NLP Natural Languag
89、e Processing 自然語言處理 HELM Holistic Evaluation of Language Models 語言模型整體評估 SOTA State-Of-The-Art 領域最佳性能 RAG Retrieval Augmented Generation 檢索增強生成 大模型基準測試體系研究報告(2024 年)4 參考文獻參考文獻 1.WX Zhao,K Zhou,J Li,T Tang,X Wang,Y Hou,et al.A survey of large language models.arXiv:2303.18223,2023.2.張奇,桂韜,鄭銳,黃萱菁.大規模語言
90、模型從理論到實踐.中國工信出版集團,2023.3.Y Chang,et al.A survey on evaluation of large language models J.ACM Transactions on Intelligent Systems and Technology,2023,15(3):1-45.4.Z Guo,R Jin,C Liu,Y Huang,D Shi,L Yu,Y Liu,J Li,B Xiong,D Xiong.Evaluating large language models:A comprehensive survey.arXiv:2310.19736,2
91、023.5.羅文,王厚峰.大語言模型評測綜述 J.中文信息學報,2024,38(1):1-23.6.D Hendrycks,C Burns,S Basart,A Zou,M Mazeika,D Song,J Steinhardt.Measuring Massive Multitask Language Understanding C.International Conference on Learning Representations(ICLR),2020.7.Y Huang,Y Bai,et al.C-eval:A multi-level multi-discipline chinese
92、evaluation suite for foundation models C.Advances in Neural Information Processing Systems(NeurIPS),2024.8.T Zhang,F Ladhak,E Durmus,P Liang,et al.Benchmarking large language models for news summarization J.Transactions of the Association for Computational Linguistics,2024,12:39-57.9.K Zhu,J Chen,J
93、Wang,NZ Gong,D Yang,X Xie.Dyval:Graph-informed dynamic evaluation of large language models.arXiv:2309.17167,2023.10.CH Chiang,H Lee.Can large language models be an alternative to human evaluations?arXiv:2305.01937,2023.11.C Li,Z Gan,Z Yang,J Yang,L Li,L Wang,J Gao.Multimodal Foundation Models:From S
94、pecialists to General-Purpose Assistants.arXiv:2309.10020,2023.12.T Lee,M Yasunaga,C Meng,Y Mai,JS Park,A Gupta,Y Zhang,D Narayanan,H Teufel.Holistic Evaluation of Text-to-Image Models C.Advances in Neural Information Processing Systems(NeurIPS),2024.大模型基準測試體系研究報告(2024 年)4 13.Y Liu,H Duan,Y Zhang,B
95、Li,S Zhang,W Zhao,et al.Mmbench:Is your multi-modal model an all-around player?.arxiv:2307.06281,2023.14.X Liu,H Yu,H Zhang,et al.Agentbench:Evaluating llms as agents.arxiv:2308.03688,2023.15.Q Xie,W Han,X Zhang,Y Lai,M Peng,A Lopez-Lira,J Huang.Pixiu:A large language model,instruction data and eval
96、uation benchmark for finance.arxiv:2306.05443,2023.16.L Zhang,W Cai,Z Liu,et al.Fineval:A chinese financial domain knowledge evaluation benchmark for large language models.arxiv:2308.09975,2023.17.Z Fei,X Shen,D Zhu,F Zhou,Z Han,S Zhang,K Chen,Z Shen,J Ge.Lawbench:Benchmarking legal knowledge of lar
97、ge language models.arxiv:2309.16289,2023.18.J Chen,H Lin,X Han,L Sun.Benchmarking large language models in retrieval-augmented generation C.Proceedings of the AAAI Conference on Artificial Intelligence(AAAI),2024.19.X Liu,X Lei,S Wang,et al.Alignbench:Benchmarking chinese alignment of large language
98、 models.arXiv:2311.18743,2023.20.Y Zhuang,Q Liu,Y Ning,et al.Efficiently measuring the cognitive ability of llms:An adaptive testing perspective.arxiv:2306.10512,2023.21.X Zhang,B Yu,H Yu,Y Lv,T Liu,F Huang,H Xu,Y Li.Wider and deeper llm networks are fairer llm evaluators.arxiv:2308.01862,2023.大模型基準
99、測試體系研究報告(2024 年)4 編制說明編制說明 本研究報告自 2023 年 12 月啟動編制,分為前期研究、框架設計、文稿起草、征求意見和修改完善五個階段,面向大模型基準測試的技術供應方和服務應用方開展了深度的調研等工作。本報告由中國信息通信研究院人工智能研究所撰寫,撰寫過程中得到了人工智能關鍵技術和應用評測工業和信息化部重點實驗室的大力支持。參編單位:中國科學院大學、中國科學院軟件研究所、北京智源人工智能研究院、天津大學、北京郵電大學、北京交通大學、中國移動通信集團有限公司、中國電信集團有限公司、中國聯合網絡通信集團有限公司、廣州數據集團有限公司、航天信息股份有限公司、煤炭科學研究總院
100、、華為云計算技術有限公司、百度云計算技術有限公司、騰訊計算機系統有限公司、阿里云計算有限公司、科大訊飛股份有限公司、浪潮通信信息系統有限公司、榮耀終端有限公司、螞蟻科技集團股份有限公司、北京海天瑞聲科技股份有限公司、東方財富信息股份有限公司、甲骨易語言科技股份有限公司、遠光軟件股份有限公司、南京新一代人工智能研究院。大模型基準測試體系研究報告(2024 年)4 中國信息通信研究院中國信息通信研究院 人工智能研究所人工智能研究所 地址:北京市海淀區花園北路地址:北京市海淀區花園北路 5252 號號 郵編:郵編:100191 電話:電話:010-62301618 傳真:傳真:010-62301618 網址:網址: