
此外,o1 使用的“思維鏈條(CoT,Chain of Thought)”推理為模型的對齊和安全性帶來了新的契機。OpenAI 發現,將模型行為的政策融入推理模型的思維鏈中,是一種有效且穩健的方式,可以傳授人類的價值觀和原則。通過教導模型在具體情境中推理并遵循 OpenAI 的安全規則,OpenAI 的研究表明,推理能力直接提升了模型的穩健性:o1-preview 在關鍵的繞過安全限制評估和我們最嚴格的內部安全邊界測試中表現顯著提升。OpenAI 認為,使用鏈式思維推理能夠為安全性和對齊帶來重大進展,因為它一方面使 OpenAI 能夠以可解釋的方式觀察模型的思維過程,另一方面使模型對安全規則的推理在處理分布外情況時更加穩健。