論文提到當前運行 LLM 的標準方法是將整個模型加載到 DRAM 中進行推理。然而這嚴重限制了可以運行的最大模型大小。一個 70 億參數的模型僅以半精度浮點格式加載參數就需要超過 14GB 的內存,超過了大多數邊緣設備的能力。為了解決這一限制,論文建議將模型參數存儲在閃存中,閃存至少比 DRAM 大一個數量級。然后,在推理過程中,直接從閃存加載所需的參數子集,避免了在 DRAM 中加載整個模型的需求。
論文提到當前運行 LLM 的標準方法是將整個模型加載到 DRAM 中進行推理。然而這嚴重限制了可以運行的最大模型大小。一個 70 億參數的模型僅以半精度浮點格式加載參數就需要超過 14GB 的內存,超過了大多數邊緣設備的能力。為了解決這一限制,論文建議將模型參數存儲在閃存中,閃存至少比 DRAM 大一個數量級。然后,在推理過程中,直接從閃存加載所需的參數子集,避免了在 DRAM 中加載整個模型的需求。