
國產大模型在語言、知識、推理等單一維度甚至已經超過 GPT-4-Trubo。目前國產大模型在語言和知識維度已經明顯趕上 GPT-4-Turbo,如阿里巴巴 Qwen1.5-110B-Chat、智譜清言 GLM-4、百度 ERNIE-4.0 均已在語言和知識兩個維度超過 GPT-4-Turbo,月之暗面 Moonshot-v1-8k 也在知識維度略微高于 GPT-4-Turbo;推理維度,科大訊飛的訊飛星火 V3.5 在推理方面得到 48.8 分,小幅超過 GPT-4-Turbo 的 48.2 分,MiniMax 的abab 6.5 更是達到 50.1 分;阿里巴巴 Qwen1.5-110B-Chat 在數學維度達到 53.6 分,與 GPT-4-Turbo 持平;DeepSeek-V2-Chat 代碼得分 67.3 分,小幅超過 GPT-4-Turbo 的 67.2 分;智能體維度上,各大模型距離 GPT-4-Turbo 仍有差距。