《28-d3s4-6-芥子模擬2器(rv中國峰會).pdf》由會員分享,可在線閱讀,更多相關《28-d3s4-6-芥子模擬2器(rv中國峰會).pdf(11頁珍藏版)》請在三個皮匠報告上搜索。
1、芥子模擬器(risc-v CPU建模)2第一部分第一部分 建模的作用建模的作用3建模的必要性建模的必要性l 芯是復雜系統,單點提升不能效,需要系統級設計1.CPU單純增加發射路作很,甚有反作2.單純加cache作很甚性能不變3.分預測采倒灌式,性能沒有提升4.微架構設計靠多年的經驗,很少通過建模做定量分析。軟件調試基于FPGA設備或者樣,部分公司依靠vdk精細模型l 芯態建設1.態最重要指標是圍繞芯的開發員數量和質量。開發員看重編程容易,硬件則看重計算模式的完備性和效率。2.微架構早期設計階段就要引軟硬件協同設計:通過建模引不同程序,測試可能的瓶頸以及解瓶頸3.芯的編程語/指令需要定義重要的軟
2、硬件界,確定軟件員的作:是否需要拼湊數據(SIMD),是否需要處理dma(cache可),是否硬件處理各種復雜數據格式轉換。4國內國內IC公司建模的現狀公司建模的現狀l 第階段:建模1.依靠架構師的個能和積累套路l 第階段:soc層級建模:泛應在購買關鍵IP的項l 第三階段:core層級建模,但不能執指令,有的基于vdkl 第四階段:core層級建模,指導架構設計和軟硬件協同5建模的作用建模的作用l 建模的作:1.早期的微架構探索2.持續對微架構評估和對性能,tradeoff和修改3.在驗證階段,模擬器可作為參考模型輔助驗證,快速定位邏輯設計錯誤4.系統軟件的開發和定位5.硅后驗證和測試例l
3、建模需要達到的標1.基于CA對(cycle accurate),復雜硬件要簡化(ddr/pcie)2.基于電路設計原則抽象軟件代碼3.可直接執程序和指令,cost分析4.快速的開發語和電路基礎5.性能模型和功能模型分離,適配軟件的硅后模型分離6第二部分第二部分cpu建模的具體實踐建模的具體實踐7芥子芥子Riscv CPU模擬器模擬器l 芥子模擬器是騰訊芯片團隊基于GEM5開源模擬器開發的Riscv CPU模擬器。https:/ 開源版本:specint 12.2/Ghz,specfp 15.3/Ghzl 芥子模擬器開源版本首先與香山南湖CPU微架構進行了架構對齊,并在其基礎上進行了如下微架構優
4、化:l CPU前端:實現了增強版本的SC預測器,Loop預測器,和基于推測鏈表棧和提交棧的增強型RAS,以及Icache性能相關的優化。l CPU后端:對LSQ、ROB等亂序組件的配置進行分析和優化。實施了混合 RMAP 和 HBMAP 解決方案以增強重命名表恢復解決方案。l CPU Memory子系統:實現了 Bingo 和 SPP 預取器,它們位于混合緩存級別并預取到當前或低級緩存。8功能與性能解耦的處理器功能與性能解耦的處理器建模方法建模方法兼顧功能&性能的準確性和程的易實現性功能模擬:功能準確:與芯執結果bit級致開發&執快速:以指令粒度模擬處理器功能指令功能抽象為4個函數接性能模擬:
5、性能準確:與芯執結果cycle級致開發&執快速:Event機制模擬電路cycle為Proc模擬反壓點,仲裁點,產請求的節點在流線中復指令功能函數Proc0Reg0Proc1Reg1指令功能抽象流線性能抽象Event+Proc完成對電路抽象。Cycle0:Proc0 模擬組合邏輯功能,將計算結果進緩存,并知會調度器在Cycle1觸發Event1,Event1對應Proc1的執。Cycle1:調度器觸發Event1,Proc1開始執,從reg0獲得cycle1對應的寄存器值,并運算。9基于設計空間的基于設計空間的Profiling架構探索架構探索 設計空間抽象:將硬件模塊的架構設計空間抽象為參數,
6、通過參數調節來對架構進尋優。L2 Cache參數:size,associaty,clusivity,mshrs,replacement_polity,directory structure,Data Storage structure.L2 Cache架構尋優示例10基于基于Top Down瓶頸分析的處理器架構探索瓶頸分析的處理器架構探索 處理器的流線可以抽象為管道,整體性能受限于Bottleneck節點。從CPU的dispatch流線級的視進層層分解,量化各級流線的Bottleneck占。輸出各個Benchmark場景的瓶頸量化分析結果。11模型與硬件實現方案聯動模型與硬件實現方案聯動,保證電路的可實現性,保證電路的可實現性間隔0拍間隔1拍間隔2拍計算單元總積變化1.0361.0181Swish算運時間111.291.0361.0181111.2900.20.40.60.811.21.4間隔0拍間隔1拍間隔2拍指數計算單元:積 vs 業務時間計算單元總積Swish算運時間微架構資源變化實時反映在積與性能對圖上??焖龠M架構決策。硬件設計案三:指數計算資源復4拍,兩條指令間間隔3拍硬件設計案:指數計算資源復2拍,兩條指令間間隔1拍硬件設計案:指數計算資源復1拍,兩條指令間間隔0拍指數計算指令硬件設計案指數計算指令模型評估結果