
(4)Open AI 于 2024 年 9 月發布 OpenAI o1 模型,可以執行復雜的推理任務,MMLU評分超越一眾大模型。o1 模型在回答問題之前會形成一條內部思維鏈(Chain of Thought),模擬人類的思考過程,其在物理、化學和生物學這些具有挑戰性的基準任務上的表現與博士生相似,在數學和編碼方面表現同樣出色。他的 MMLU(知識問答,評估 LLM 的知識和推理能力)評分、Math(含代數、微積分、幾何、概率等多個領域)評分、GPQA Diamond(全面的框架,測試模型在多種推理場景下的能力)評分均超過了當時的主流大模型,如 Gemini 2.0 Pro Experimental、Hunyuan-TurboS、Claude 3.5 Sonnet 等,對比 GPT-4o 也有顯著提升。