
DeepSeek-R1在實際用戶體驗中收獲不亞于 OpenAI-o1系列的廣泛好評,包括英文日常問答、物理測試等。1)海外科技媒體 arstechnica 資深編輯對DeepSeek-R1 與 OpenAI-o1 和 OpenAI-o1-Pro 進行評測,該評測更側重于模擬英文用戶可能提出的日常問題,測試中所用的提問涵蓋創意寫作、數學、指令遵循等領域以及部分設計得更加復雜、要求更高且更嚴謹的提問。該團隊考慮模型回答的正確性及一些主觀質量因素,最終評測結果 DeepSeek-R1在多個提問中返回優于 OpenAI-o1系列的回復。2)根據機器之心報道,CoreView CTO Ivan Fioravanti等海外 AI社區人士評測稱,DeepSeek-R1在編寫 Python 腳本,模擬小球在一個旋轉的形狀中彈跳的物理測試中,收獲優于 OpenAI GPT-4o等其他大模型的表現。