人類反饋強化學習(RLHF)基本原理 人類反饋可作為強化學習的獎勵,通過引入語言模型微調,可使模型輸出與人類需求對齊。從技術原理來看,強化學習通過獎勵(Reward)機制來指導模型訓練,獎勵機制可視為傳統訓練機制的損失函數;同時,獎勵的計算要比損失函數更靈活、多樣(例如 AlphaGO 的獎勵是對局的勝負),代價是獎勵計算不可導,不能直接用來做反向傳播;強化學習的思路是通過對獎勵的大量采樣來擬合損失函數,從而實現模型的訓練。類似的,人類反饋也不可導,也可以作為強化學習的獎勵,從而產生基于人類反饋的強化學習。 行業數據 下載Excel 下載圖片 原圖定位