DeciLM與Llama2在token生成上的性能對比 Deci:模型部署層面優化,小模型功能優化。DeciLM 解碼器的 Transformer 具有可變的Grouped-Query Attention(GQA)的能力:其會改變不同 Transformer 層的 attention 組、鍵值和數值的數量,DeciLM 是第一個在 Transformer 層結構互不重復的語言模型。60 億參數的 DeciLM 模型在跑分上勝過 PyTorch 的 70 億參數 Llama2。 行業數據 下載Excel 下載圖片 原圖定位