
ChatGPT 是一種 Data-centric 的模型,超高質量數據是成功關鍵要素。根據查道琛的研究,當前 AI 模型搭建,可以被分為 Model-centric 和 Data-centric。傳統的搭建 AI 模型的方法主要是去迭代模型,數據相對固定。比如,通過聚焦于幾個基準數據集,然后設計各式各樣的模型去提高預測準確率。這種方式稱作以模型為中心(model-centric)。然而,Model-centric 沒有考慮到實際應用中數據可能出現的各種問題,例如不準確的標簽,數據重復和異常數據等。準確率高的模型只能確保很好地“擬合”了數據,并不一定意味著實際應用中會有很好的表現。Data-centric 更側重于提高數據的質量和數量。也就是說 Data-centric AI 關注的是數據本身,而模型相對固定。采用 Data-centric AI 的方法在實際場景中會有更大的潛力,因為數據很大程度上決定了模型能力的上限。