AlpacaFarm引入基于APILLMs的RLHF,大幅降低RLHF的成本并提升效率 2023 年 5 月,Stanford 和多倫多大學的研究團隊提出 AlpacaFarm,旨在低成本、快速實現 RLHF。AlpacaFarm主要由三個環節組成:1)基于人類反饋數據的訓練;2)相比基準模型的評估;3)對比其他 RLHF 方法。相比于傳統的 RLHF,alpaca 引入基于 LLMs 的人類反饋數據,即基于成熟模型的數據作為“標準答案”,這種設計下成本能夠壓縮為傳統方法的 1/45。 行業數據 下載Excel 下載圖片 原圖定位