當前位置:首頁 > 報告詳情

SESSION 23 AI-Accelerators.pdf

上傳人: 張** 編號:620891 2025-03-31 417頁 29.07MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

本文介紹了T-REX,一種基于16nm FinFET技術的Transformer加速器。T-REX通過分解訓練方法、外部數據壓縮、動態批處理和雙向可訪問寄存器文件等算法方法,實現了顯著的能耗和硬件利用率提升。具體來說,分解訓練方法通過層間共享參數,將外部內存訪問(EMA)減少了8.5-10.7倍。外部數據壓縮進一步將EMA減少了2.1-2.9倍。動態批處理和雙向可訪問寄存器文件分別將EMA和硬件利用率提高了1-3.3倍和1.1-1.2倍??傮w而言,T-REX實現了32-66倍的EMA減少和1.2-3.7倍的硬件利用率提升,在系統層面上,性能和能效分別達到了68-567μs/token和0.4-3.95μJ/token。
T-REX如何減少外部內存訪問? 動態批處理技術如何提高T-REX的效率? T-REX如何通過雙方向訪問寄存器文件提高利用率?
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站