圖20GPT-4在9個內部設計的對抗性準確度評估中的表現 能好壞的一個測試集)中取得了進步,體現為較高的分辨事實能力。如圖21,在零樣本(0-shot)提示、小樣本(few-shot)提示和人類反饋強化學習(RLHF)微調后的表現中,GPT-4均明顯優于GPT-3.5和Anthropic-LM,但GPT-4對TruthfulQA中的某些問題依然給出了錯誤的回答。 行業數據 下載Excel 下載圖片 原圖定位