
Apple 并不以 AGI 為目標,而是以端側任務為導向,讓模型在端側場景發揮最大能力。從Apple 官方文檔來看,其模型訓練思路為:1)訓練出基礎模型;2)通過基礎模型微調出面向端側任務場景(如文字摘要、語氣轉換、郵件回復等)的各類任務模型;3)在各類任務模型參數不變的情況下,訓練出一系列的 Adapter 插件,來實現對特定任務的支持;4)全部訓練完畢后,進行模型壓縮,將精度降低到 2bit 和 4bit 混合(平均 3.5bit),這樣壓縮后的模型就能夠部署到設備端。細節上,Apple 指出,訓練數據包括精選數據和爬蟲收集的公 開數據, 以及部分合成數據(占比未知);Apple 自研芯 片不支持訓練,因此采用 TPU 和GPU 進行訓練(型號未知);在預訓練后采取了 ChatGPT 類似的基于人類反饋的強化學習技術來進行指令對齊;采用分組查詢注意力(GQA)、詞匯表優化、投機解碼、KV cache更新優化等技術加速推理。