《1-RVSC2023-frontend-v3.pdf》由會員分享,可在線閱讀,更多相關《1-RVSC2023-frontend-v3.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、香山昆明湖架構前端架構的設計演進勾凌睿1薛臻1,3陳國凱1高澤宇1宋政偉4傅騰蛟2郭鴻宇5滿洋61中國科學院計算技術研究所2中國科學院上海光學機械研究所3鵬城實驗室4西安交通大學5北京航空航天大學6哈爾濱工業大學(深圳)2023 年 8 月 24 日第三屆 RISC-V 中國峰會中國科學院計算技術研究所(ICT,CAS)2 2香山:開源高性能 RISC-V 處理器 第一版:雁棲湖 架構 2020/6:代碼倉庫建立,開始 RTL 實現工作 2021/7:完成 28nm 流片,頻率 1.3GHz 性能:實測 SPEC CPU2006 超過 7 分/GHz 第二版:南湖 架構 2021/5:開始 R
2、TL 實現工作,持續進行設計討論 2023年初:RTL 凍結,物理設計進入收尾階段 即將流片,預估 SPEC CPU2006 約 10 分/GHz,2GHz14nm 第三版:昆明湖 架構 性能對標數據中心處理器核 ARM Neoverse N2,目標性能 SPEC CPU2006 15分/GHz,3GHz 開發進入中期階段,與合作企業聯合進行研發 開源情況 開源協議:MulanPSLv2 協議(兼容Apache v2.0)代碼托管:GitHub(https:/ GitHub已獲得超過 3800 個星標,形成超過 550 分支中國科學院計算技術研究所(ICT,CAS)3 3 功能改進支持 RIS
3、C-V 向量(Vector,V)擴展指令集支持 RISC-V 虛擬化(Hypervisor,H)擴展指令集 性能探索構建與香山性能校準的體系結構模擬器建立模擬器設計空間探索RTL 實現與調參的性能迭代工作流 功能驗證覆蓋 ST/IT/UT+FPGA 的多層次驗證工業級的規范驗證流程 物理設計專業的高性能處理器物理后端設計團隊RTL 修改與物理后端時序評估同步迭代第三代香山(昆明湖)規劃中國科學院計算技術研究所(ICT,CAS)4 4香山前端架構總覽 前端主要負責分支預測與取指香山整體微架構中國科學院計算技術研究所(ICT,CAS)5 5昆明湖前端架構總覽 繼承自南湖架構的解耦架構 取指和分支預
4、測解耦 隱藏分支預測氣泡 指導指令預取 避免分支預測和指令緩存路徑糾纏BP1FQF1F2F3IBufBP2Branch PredictionInstruction Fetch解耦架構設計中國科學院計算技術研究所(ICT,CAS)6 6昆明湖前端架構總覽 取指和分支預測單元迭代優化 增大預測寬度 提高預測準確率 增大取指寬度 降低取指延遲 提高頻率中國科學院計算技術研究所(ICT,CAS)7 7昆明湖前端迭代方向中國科學院計算技術研究所(ICT,CAS)8 8方向1:提高循環供指 問題 長循環體退出時機預測不準確 小循環體指令供應不足 循環體重復訪問 ICache 和分支預測器增大功耗 解決 L
5、oop Predictor:預測循環退出 Loop Buffer:供應循環體指令,一次取指可包含兩條跳轉的分支指令(two taken)loop:lb t2,0(t0)sb t2,200(t0)addi t0,t0,1bne t0,t1,loop小循環示例for(int i=0;i 較優參數 IPC+1.44%1 C.Zhou,L.Huang,Z.Li,T.Zhang,and Q.Dou,“Design Space Exploration of TAGE Branch Predictor with Ultra-Small RAM,”in Proceedings of the on Great Lakes Symposium on VLSI 2017,Banff Alberta Canada:ACM,May 2017,pp.281286.中國科學院計算技術研究所(ICT,CAS)2626總結 昆明湖架構取指和分支預測單元迭代優化 Loop Predictor,Jump Ahead 及 L2 FTB 增大預測寬度 新 RAS 及 TAGE tuning 提高預測準確率 Loop Buffer 增大取指寬度 L1 FDIP 降低取指延遲 提高頻率敬請批評指正!