《寒武紀-公司深度研究:從端芯片到云系統的一站式AI龍頭-20200707[40頁].pdf》由會員分享,可在線閱讀,更多相關《寒武紀-公司深度研究:從端芯片到云系統的一站式AI龍頭-20200707[40頁].pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、 - 1 - 市場價格(人民幣) : 元 市場數據市場數據( (人民幣人民幣) ) 滬深 300 指數 4698 張純張純 分析師分析師 SAC 執業編號:執業編號:S1130519100004 zhang_ 鄭弼禹鄭弼禹 分析師分析師 SAC 執業編號:執業編號:S1130520010001 從從端端芯片芯片到云到云系統系統的一站式的一站式 AIAI 龍頭龍頭 公司基本情況公司基本情況( (人民幣人民幣) ) 項目項目 2018 2019 2020E 2021E 2022E 2023E 攤薄每股收益 (元) (0.11) (3.27) (1.28) (0.95) (0.66) 0.81 EP
2、S 增長率 (%) -89% 2772% 61% 25% 31% 223% 每股營收 (元) 0.33 1.23 1.52 2.07 3.00 5.00 市盈率(倍) NA NA NA NA NA 80 市銷率(倍) 198 52 42 31 21 13 凈資產收益率 -8% -27% -8% -6% -5% 5% 來源:公司年報、國金證券研究所 投資邏輯投資邏輯 一大潛力市場一大潛力市場:目前 GPU,FPGA+CPU 仍主導云端的深度學習訓練和推理 市場, 但通用專用 AI芯片,因性能,成本及耗能優勢將滲透部分傳統型 AI 芯片在云, 邊,端的市場。我們預估全球 AI云端半導體市場于 20
3、19-2024 年 復合成長率應有 36%,邊緣運算及終端芯片市場于同期應有 55%增長, 遠超 過全球市場的 7%, 整體占全球份額從 2019 年的 3% 到 2024 年的 11%。 云云, 邊,端,軟件一站式方案邊,端,軟件一站式方案的的核心競爭力核心競爭力:寒武紀的核心技術是同時具備 最底層的芯片設計,指令集及驅動器,基礎系統軟件,及加速卡,并使用相 同的自研指令集,讓開發者以各類算法完整云、邊、端生態系平臺的跨越。 寒武紀寒武紀 AI 芯片芯片對比對比 GPU 具有具有高效能高效能, 低成本低成本, 低低耗能耗能核心競爭力核心競爭力:1. 低精 度定點運算的優勢;2. AI 推理的
4、優勢; 3. 算法演進可透過軟硬件修改的優 勢; 4. 運算單元芯片面積較小,卻有 2 倍以上高效能,50%低耗能優勢。 彎道超車彎道超車的的機會機會:美國商務部于 2020年 5 月 15 日宣布限制海思在使用美國 半導體 EDA 及設備技術來生產半導體, 必須取得執照,但我們認為海思昇騰 AI要申請得到執照有難度,這給了寒武紀一個絕佳機會來彎道超車的機會。 投資建議投資建議 在高毛利云及邊緣運算端 AI 芯片新產品加持下,寒武紀未來五年營收將大 幅增長 CAGR 超過 50%,2023 年扭虧轉盈,給予“買入”評級。為了擴大 事業版圖,寒武紀在 IPO 發 4010 萬新股,每股 64.3
5、9 元人民幣,募集 25.8 億的資金來補充現金流及用在云端訓練及推理,邊緣端 AI 芯片及系統軟件 的開發。 估值估值 首家有中科院支持的 AI 芯片公司,不但毛利將維持在 65%以上,又享受科 創板溢價,比較可比新興科技公司, 平均 P/S 區間將達 40-60 倍,我們目前 用 2022 年的 3.0 元每股營收給予 50 倍 P/S 給估值, 一年的目標價為 150 元。 風險風險提示提示 終端 AI處理器 IP業務減少的風險,智能計算集群系統事業的風險,同業競 爭的風險,現金流短缺的風險,進入實體清單的風險。 2020 年年 07 月月 07 日日 創新技術與企業服務研究中心創新技術
6、與企業服務研究中心 寒 武 紀 (688256.SH) 買入(首次評級) 公司深度研究公司深度研究 證券研究報告 公司深度研究 - 2 - 敬請參閱最后一頁特別聲明 投資要件投資要件 關鍵假設關鍵假設 1. 云端及邊緣運算云端及邊緣運算 AI 芯片及加速卡是芯片及加速卡是兩兩大高毛利增長動能大高毛利增長動能:我們估計未來 五年這兩項業務將有 80-100%復合增長率的貢獻,營收占比從 2019 年的 18%繼續擴大。主要客戶是關聯方的中科曙光,并擴大到非關聯方的江蘇 恒瑞通智能科技,浪潮,聯想及北京金山云網絡技術。 2. 智能計算集群系統智能計算集群系統事業不事業不確確定定:公司智能計算集群系
7、統方面的在手訂單包 括橫琴先進智能計算平臺(二期) 的第二批供貨硬件設備,授權軟件, 合同 金額僅剩下 1.86 億元,而上半年營收貢獻連 20 萬都沒有,除非我們看到 在下半年在手訂單大幅回流,今年此業務營收貢獻可能不到 60%,甚至 連 50%占比都可能有問題。 3. 管理費用中的員工股權激勵及研發費用的高低,決定虧損是否持續管理費用中的員工股權激勵及研發費用的高低,決定虧損是否持續:以 2019 年為例,員工股權激勵(股份支付)費用高達 9.44 億,而 5.43 億 的研發費用也是超過當年度營收,這些偏高的管理及研發費用,造成公司 2019 年營業虧損,也將決定虧損是否持續。 我們區別
8、于市場的觀點我們區別于市場的觀點 市場的觀點是寒武紀營收及獲利會大幅增長;但我們的觀點是寒武紀要投 入大量研發,先建立龐大的產品,設計,制程工藝, 客戶壁壘,短中期獲利不易。 股價上漲的催化因素股價上漲的催化因素 7nm思元 290 云端訓練芯片的推出(2021 年), 5nm 新產品的研發進度, 智能計算集群系統事業在手訂單的回流,管理及研發費用的控制成效,海外重 點客戶的建立,及 AI芯片定點運算的突破。 估值和目標價格估值和目標價格 因為缺乏短,中期獲利,用市銷率 P/S 來評估寒武紀,較為適當,寒武紀 是國內首家上市的 AI 芯片公司,又有中科院的支持及與政府補助,50%以上營 收 C
9、AGR 及 65%以上毛利率比大多數新興科技公司高兩倍以上,又享受科創板 的溢價,所以其市銷率應該比可比公司的 20 倍高出甚多,在閉鎖期結束之前, 我們認為公司平均 P/S 區間將達 40-60 倍,目前用 2022 年的 3.0 元每股營收給 予 50 倍 P/S的估值, 并給予買入評級,一年的目標價為 150 元。 投資風險投資風險 終端 AI 處理器 IP 業務的減少會影響毛利率;智能計算集群系統事業要是 在手訂單沒有回流,今年公司營收衰退可期待;很多同業有更多的研發資源投 入,寒武紀將面臨更大的價格競爭風險;在客戶中科曙光,競爭者海思,依圖, 曠視,商湯,云從科技等 AI 算法公司,
10、及科大訊飛,云天勵飛等 AI 平臺公司 陸續進入美國商務部工業安全局的實體清單后,我們必須考量寒武紀被列入的 風險。 rQqPpRzRrRtMoOtMqOsMtQbR9RaQmOmMtRoOkPmMpQjMoOuNaQnNyRNZtQnNuOqRuM 公司深度研究 - 3 - 敬請參閱最后一頁特別聲明 內容目錄內容目錄 投資要件 .2 一、一大潛力市場 .5 人工智能平臺是工具, 不是應用.5 二、兩大核心競爭力 .7 1.從云,邊緣運算,終端,及系統軟件的一站式解決方案 .7 2.通用型智能芯片對比 GPU有高效能,低耗電核心優勢 .9 三、三個挑戰 . 11 1.如何從云端推理發展到云端訓
11、練 . 11 2. 擴大戰場跟客戶搶生意 一個橫琴新區采購案占營收近 6 成.12 3.如何縮短設計,制程,軟件生態系的差距 .13 四、三種主流人工智能演算法 .14 五、寒武紀及谷歌的 AI通用芯片將在邊緣運算及終端漸成主流 .17 六、公司介紹 .24 1.基本資料 .24 2.股權結構 .25 3.募資投入研發 .26 4.核心客戶及供應商的變化.27 七、盈利預測及假設 .28 1.寒武紀營收獲利的歷史數據及預測的假設基礎.28 2. 給予買入評級及 150 元目標價 .33 八、主要行業及公司面對的風險 .34 圖表目錄圖表目錄 圖表 1:人工智能的多樣性 .5 圖表 2:人工智能
12、云,邊緣運算,終端半導體及行業市場營收預估.5 圖表 3:國內 AI芯片同比增長率,全球份額,及寒武紀份額.6 圖表 4:寒武紀的 AI芯片技術 .8 圖表 5:寒武紀 Neuware 軟件架構.9 圖表 6:寒武紀 vs. 英偉達云端芯片加速卡價格差異比率 .10 圖表 7:人工智能云端推理及訓練芯片在不同定點,浮點,精度,峰值比較 . 11 圖表 8:橫琴先進智能平臺及其他 AI集群系統采購細目整理.12 圖表 9:寒武紀智能計算集群系統的硬件,軟件架構.13 圖表 10:光掩膜節點升級成本變化.13 圖表 11:臺積電制程工藝演進的效能變化比率 .14 圖表 12:人工智能技術工藝的演化
13、.14 圖表 13:卷積輸入及輸出特征貼圖及最大池.15 圖表 14:循環神經機器翻譯 .16 公司深度研究 - 4 - 敬請參閱最后一頁特別聲明 圖表 15:深度神經網絡 .17 圖表 16:深度學習 .17 圖表 17:各種人工智能半導體優缺點比較 .18 圖表 18:人工智能云端系統圖形處理芯片面積 .18 圖表 19:人工智能半導體市場預測以不同芯片種類來分類.19 圖表 20: AI芯片種類比較表.20 圖表 21:英偉達云端人工智能芯片 A100 及系統 DGX A100 規格比較表.21 圖表 22:賽靈思BlackLynx與 GPU在機器學習推理解決方案的比較.22 圖表 23
14、: 5G 帶動不同延遲的人工智能邊緣運算的需求 .22 圖表 24:谷歌張量處理器 TPU 3 vs. TPU 2 .23 圖表 25:寒武紀主要產品介紹.24 圖表 26:主要產品核心研發領導 .25 圖表 27:寒武紀前 10 大股東 IPO 前后持股變化 .25 圖表 28:寒武紀原始募資使用計劃.26 圖表 29:寒武紀研發項目及進展 .26 圖表 30:寒武紀 2017-2019 年前五大客戶銷售金額及比重變化(萬元).27 圖表 31:寒武紀 2017-2019 年前五大供應商采購金額及比重變化(萬元) .28 圖表 32:寒武紀云端智能芯片及加速卡的適配及認證.29 圖表 33:
15、橫琴先進智能平臺及其他 AI集群系統采購細目整理.30 圖表 34:寒武紀產品營收,同比增長,占比變化圖表的歷史數據及預測.30 圖表 35:寒武紀各產品線毛利率比較 .31 圖表 36:寒武紀與相關同業毛利率比較.31 圖表 37:寒武紀各營業費用比率及營業利潤率預測 .32 圖表 38:政府補助(萬元) .32 圖表 39:寒武紀 EPS與 ROE比較表.33 圖表 40:寒武紀與新興科技公司利潤率及市銷率比較.33 圖表 41:寒武紀股價高低區間預測.34 公司深度研究 - 5 - 敬請參閱最后一頁特別聲明 一一、一大潛力市場一大潛力市場 人工智能 AI 顧名思義就是想用高速計算機運算模
16、式來模擬人腦的認知及推 理,尤其是在收集大量原始數據后,再通過高速計算機利用特殊 AI 算法來訓練 AI 的認知能力,其中包括視覺(圖像,視頻) ,聽覺(語言,聲音) ,嗅覺,當 然還有味覺的酸甜苦辣,當 AI 高速計算機的認知能力訓練完成后,推理算法才 能幫助 AI高速計算機進行,反應,推理,決定。 人工智能平臺是工具人工智能平臺是工具, 不是應用不是應用 人工智能平臺(包括芯片,模組,軟件)在一般人看起來像是一種新型應 用, 但在我們看來人工智能芯片在整合軟硬件后將成為各種物聯網應用的提升效 能工具平臺, 這就像我們常用的微軟 Office 軟件, 微軟 Office 軟件是我們在辦公 室
17、應付各種應用的生財工具, 因此人工智能平臺除了被廣泛利用在云端大數據的 深度學習訓練和推斷外, 我們認為人工智能平臺也將出現在各式各樣的應用端的 邊緣運算及終端,從去年英偉達公布的數字來看,早在 2016 年,公司就累計 了 7 大領域(高等教育,發展工具,互聯網,自駕車,金融,政府,生命科學) 及 19,439 客戶使用其深度學習的服務工具, 配合軟件和之前在云端大數據的深 度學習訓練和推斷的數據成果庫, 來達到幫助使用者或取代使用者來執行更佳的 智能判斷推理。 圖表圖表1:人工智能的多樣性:人工智能的多樣性 來源:英偉達,國金證券研究所 雖然目前人工智能芯片仍多是傳統型芯片,并以昂貴的圖形
18、處理器 (GPU), 或以現場可編程門陣列芯片配合中央處理器 (FPGA+CPU) 為主, 來用在云端數 據中心的深度學習訓練和推理, 但通用專用型 AI 芯片,也就是張量處理器或 特定用途集成電路 (ASIC),主要是針對具體應用場景,固定算法及相同模型的 AI 將在樣式類似,數量龐大的云,邊緣運算及終端所需推理及訓練設備遍地開 花,及逐步滲透部分傳統型 AI 芯片在云端, 邊緣運算,及終端的市場,成為人 工智能芯片未來的成長動能, 我們預估全球人工智能云端半導體市場于 2019- 2024 年復合成長率應有 36%,邊緣運算及設備端半導體市場于 2019-2024 年 復合成長率應有 55
19、% (請參考圖表 2), 遠超過全球半導體市場在同時間的復合 成長率的 7%, 整體約占全球半導體市場的份額從 2019 年的 3% 到 2024 年的 11%。 圖表圖表2:人工智能云,邊緣運算,人工智能云,邊緣運算,終終端半導體及行業市場營收預估端半導體及行業市場營收預估 2019E 2020E 2021E 2022E 2023E 2024E CAGR 全球半導體市場 (US$bn) 410 410 472 495 535 588 7% 全球半導體市場 (同比) -13% 0% 15% 5% 8% 11% AI 半導體 (US$bn) 11 18 26 40 51 63 42% 公司深度研
20、究 - 6 - 敬請參閱最后一頁特別聲明 AI 半導體 (同比) 116% 59% 49% 52% 29% 24% AI IC 佔全球 IC 份額 (%) 3% 4% 6% 8% 10% 11% 云端 AI 半導體 (US$bn) 8.1 12.3 17.6 23.5 30.0 37.0 36% 云端 AI 半導體 (同比) 69% 52% 43% 34% 28% 23% 邊緣及設備端 IC (US$bn) 2.9 5.2 8.4 16.0 21.0 26.0 55% 邊緣及設備端 AI IC (同比) 190% 174% 62% 90% 31% 24% 云端 AI 半導體占比 () 74%
21、70% 68% 59% 59% 59% 邊緣及設備端 IC 占比 () 26% 30% 32% 41% 41% 41% AI 行業銷售額 (US$bn) 192 261 361 490 657 854 35% AI 行業銷售額 (同比) 34% 36% 38% 36% 34% 30% 來源:Statista, Tractica,Frost 思元系列產品 也已應用于浪潮、聯想,中科曙光,滴滴,及??低暤榷嗉曳掌骷捌湎嚓P 廠商的產品中,邊緣智能芯片及加速卡的發布標志著公司已形成全面覆蓋云端、 邊緣端和終端場景的系列化智能芯片產品布局,并廣泛應用于手機,IOT、數 據中心、云計算等諸多場景。對于
22、已經建立龐大軟(CUDA, 應用軟件 NGC) 硬件(終端:Jatson Nano, TX2 Series;邊緣運算端:Jet Xavier NX, Jet AGX Xavier Series, EGX;云端:Tesla, DGX A100, DGX-1/Station, HGX, NGC) 生 態系的英偉達,及華為海思,在使用臺積電的 7 納米制程工藝后,在設計上靠 著龐大資源也勝寒武紀一籌,但美國商務部工業安全局但美國商務部工業安全局 5/15/2020 宣布進一步宣布進一步 限制華為海思在使用美國半導體設計軟件限制華為海思在使用美國半導體設計軟件 EDA 來設計半導體以及利用晶圓代來設計
23、半導體以及利用晶圓代 工所使用的美國半導體設備來生產半導體工所使用的美國半導體設備來生產半導體, 必須獲得執照,但我們認為,手機必須獲得執照,但我們認為,手機 及機頂盒芯片有機會獲得執照,但海思的安防,及機頂盒芯片有機會獲得執照,但海思的安防,昇昇騰騰 AI,鯤鵬伺服器,鯤鵬伺服器 CPU, 5G 基地站基地站 ASIC 要申請得到執照可能有困難,這給了寒武紀一個絕佳機會來要申請得到執照可能有困難,這給了寒武紀一個絕佳機會來 彎道超車彎道超車的機會的機會。 我們認為有核心技術的人工智能通用芯片公司必須同時具備芯片(最底層 的硬件物質載體包含高維張量向量傳統算術邏輯計算部件) ,韌體的指令集 及
24、驅動器,基礎系統軟件(來管理,調用,控制智能芯片來運作) ,加速卡設計 及測試的能力來完成完整的生態系, 寒武紀使用相同的自研指令集與處理器架構, 共用相同的基礎系統軟件平臺, 實現了云、邊、端通用生態的跨越。而開發者可 以研發各類人工智能算法、實現各類人工智能程序, 最終實現機器視覺、 語音 處理、自然語言處理以及推薦系統等多樣化的人工智能功能。 公司深度研究 - 8 - 敬請參閱最后一頁特別聲明 圖表圖表4:寒武紀寒武紀的的AI芯片技術芯片技術 來源:寒武紀招股說明書,國金證券研究所 指令集指令集的通用性的通用性: 針對特定場景乃至特定智能算法的加速芯片, 這類芯片針 對某個算法實施的硬件
25、化開發, 一般不具備指令集或指令集較簡單。但寒武 紀研發的通用型 AI 芯片,必須具備靈活的指令集,來覆蓋人工智能領域多 樣化的應用場景 (如視覺、語音、自然語言理解、傳統機器學習等)。寒武 紀智能芯片的設計思想是通過人工智能算法的計算特征和訪存特征來降低 數據搬運的延遲和功耗, 支持多個處理器核之間高效并發協作,并針對性地 設計更適用于智能算法的數百條處理器基本指令集, 與處理器架構配合實現 在人工智能領域內靈活通用的設計目標,不僅需要考慮當前各類智能算法 的特點, 也需要對智能算法未來發展的趨勢進行預判, 從而設計出完備高效 的智能處理器指令集; 通過高維張量、向量、邏輯指令等之間的靈活組
26、合來 覆蓋對多樣化的智能算法, 實現人工智能領域內的通用性。舉例來說,我們 可以定義硬件的動作,00 是做加法(Add),01 是做減法(Sub),10 是做讀 取資料(Load),11 是做存儲資料(Store), 而內部有兩個指令暫存器 Instruction register a, register b,這樣軟件想做 C=A+B,則會變成讀取 register a 的 A,讀取 register b 的 B, 加 register b 的 B到 register a 中, 再存儲到 register a 的 C 中,而軟件可以用高階語言,讓程式員只需要寫 C=A+B , 再透過編譯器(C
27、omplier) ,轉化成上面讀取加存儲的程式 碼,同理,AI 處理器的硬件也定義了一些指令集,其實就是如上面的一些 簡單基本動作,可以以軟件的方式,組合出各式各樣的功能,之后透過編 譯器,可以轉換為更細碎的指令組合,而硬件就會依照指令的排列順序, 一個動作一個動作的完成。 公司深度研究 - 9 - 敬請參閱最后一頁特別聲明 處理器架構處理器架構: 寒武紀智能處理器的主功能包含高維張量計算部件、向量計 算部件、傳統算術邏輯計算部件, 分別用于處理各類智能算法的不同類型操 作。其中高維張量計算部件可對智能算法中核心運算(如卷積運算)進行高 效處理, 提升整個處理器的能效。而向量運算部件與算術邏輯
28、計算部件(尤 其后者)則具有更強的靈活性, 可對智能算法中頻次不高且高維張量無法支 持的運算(如分支跳轉等)實現全面覆蓋, 有力保障了處理器架構的通用性。 基礎系統軟件基礎系統軟件 Cambricon Neuware (包含軟件開發工具鏈等包含軟件開發工具鏈等):無須繁瑣 的移植即可讓同一人工智能應用程序便捷高效地運行在公司云,邊,端系 列化芯片與處理器產品之上。在 Cambricon Neuware 的支持下, 程序員可 實現跨云邊端硬件平臺的人工智能應用開發,以“一處開發、處處運行”的 模式大幅提升人工智能應用在不同硬件平臺的開發效率和部署速度, 同時也 使云,邊,端異構硬件資源的統一管理
29、、調度和協同計算成為可能。 Cambricon Neuware 在開發應用時, 用戶既可以基于 TensorFlow, PyTorch,Caffe, MXNet 等主流編程框架接口編寫應用代碼, 也可以使用公 司預先優化的智能芯片高性能數學庫對編程框架算子進行擴展或直接編寫 代碼; 用戶同樣可以通過智能芯片編程語言(BANG 語言)對算子進行擴展或 直接編寫代碼; 智能芯片編譯器可以完成 BANG 語言到 MLU 指令的編譯, 并在智能芯片核心驅動的支持下使其高效地運行于公司各款芯片產品之上。 在開發過程中, 用戶還可以通過應用開發調試工具包所提供的調試工具、性 能剖析工具和系統監測 工具等高
30、效地進行應用程序的功能調試和性能調優。 此外, Cambricon Neuware 也可以通過智能芯片虛擬化軟件為云計算與數 據中心場景提供關鍵支撐。 圖表圖表5:寒武紀寒武紀Neuware 軟件架構軟件架構 來源:寒武紀招股說明書,國金證券研究所 2.通用型智能芯片通用型智能芯片對比對比 GPU 有有高高效能效能,低耗電低耗電核心優勢核心優勢 寒武紀雖然在使用臺積電的制程工藝上,明顯落后于海思最高檔 AI 昇騰 910 的 7nmEUV,AMD 超威 Radeon Instinct MI50 及 Nvidia 英偉達最新推 出的 A100 的 7nm,但寒武紀 16nm 的思元 270 主要
31、對標產品是英偉達價值 2,500-2,600 美元 12nm 的 Tesla T4 而不是上萬美元的 7nm A100,思元 270 可 支 持 INT16/INT8/INT4 等 多 種定 點 精度 計算 , INT16 的 峰 值性 能 為 64TOPS1(64 萬億次運算) ,INT8 為 128TOPS,INT4 為 256TOPS。對比 Tesla T4,FP16 的理論峰值性能為 65 TFLOPS,INT8 為 130 TOPS,INT4 為 260 TOPS。思元 270 的功耗為 75w,與 Tesla T4 類似。但所謂的理論峰值 在實測后通常有一定縮水。據阿里云早期核心技
32、術研發人員曾經表示 1,T4 在 實測過程中,75w 功耗維持不了多久就降一半頻率,而思元 270 就能維持相當 的頻率。 ()我們估計在相同的效能下持續運作,T4 的耗能是思元 270 的 2 倍 以上,在思元 270 的性能參數展示上,可以看到寒武紀有意強調其定點計算性 能方面的優勢,這應該是寒武紀在 AI 領域的低精度定點運算有突破,因為低精 度計算的速度和能耗比優勢一直受到業界密切關注。而寒武紀 7 納米的思元 290,跟英偉達 V100 比較應該也具備 2 倍以上高效能,50%低耗能的優勢, 但 1 來源:寒武紀二代芯片發布在即,獨家揭秘如何挑戰英偉達. ChainNews 公司深度
33、研究 - 10 - 敬請參閱最后一頁特別聲明 此低成本優勢可能要等到寒武紀直接下單臺積電,且大量出貨達到經濟規模才 會展現出來(目前芯片出貨量還是非常小,應該連 20k 都不到,是使用 Broadcom/Avago 博通的設計服務) 。 除此之外,把 GPU 用在深度學習 AI 有幾個缺點,第一個是深度學習包含 訓練和推理兩個計算環節,GPU 在深度學習算法并行訓練上非常高效,但只能 對于一張輸入圖像進行推理, 并行度的優勢不能完全發揮;第二個是硬件結構 固定不具備可編程性。深度學習算法還未完全穩定,若深度學習算法發生大的 變化,GPU 無法像 FPGA 一樣可以靈活的配置硬件結構,也無法像通
34、用 AI能 夠針對特殊應用來更改芯片設計;第三個是運算單元芯片面積過大,功耗及成 本都較高。 圖表圖表6:寒武紀寒武紀vs. 英偉達云端芯片加速卡價格差異比率英偉達云端芯片加速卡價格差異比率 來源:寒武紀問詢函回復,國金證券研究所 定點運算與浮點運算是計算機計算中最為常用的兩種運算表示法,其差異 就體現在定點和浮點上,加減乘除運算都是一樣的。定點表示法,即所有位都 表示個位數字,小數點固定;而浮點表示法,則分成兩部分,階碼和尾數,尾 數就是數字部分,階碼表示乘冪的大小,也就是小數點位置。所以浮點數在做 運算的時候,除了對尾數做加減乘除,還要處理小數點位置?;趦煞N不同的 運算表示法規則,導致面
35、對同樣長度的定點和浮點運算,浮點計算模式更為復 雜,需要消耗數倍多的功耗及更大的芯片去做運算。但浮點運算又有其不可取 代性。首先,定點表示法運算雖然直觀,但是固定的小數點位置決定了固定位 數的整數部分和小數部分,不利于同時表達特別大的數或者特別小的數。而浮 點運算的小數點位置可以移動,運算時不用考慮超出某種數據格式的范圍,所 以科學計算法一般都使用浮點。此外,具體到使用 GPU 做訓練,業界通常更 傾向于浮點運算單元,主要是因為只有浮點運算才能記錄和捕捉到訓練時很小 的增量。由于訓練的部分模塊對精度要求比較高,所以通常必須是高精度的浮 點運算,比如 FP32FP64 (32/64 位元的單精度
36、浮點運算)才能搞定。雖然 浮點運算相比定點運算在功耗、計算速度、性價比等方面都不占優勢,但截止 目前,浮點計算在云端的訓練場景中仍占著主導地位,并且以高精度運算為主。 那么,如何在不增加芯片面積和功耗的前提下,如何大幅提升芯片做訓練 的運算能力就成為云端訓練芯片的主要研究課題之一。參考計算過程相對簡單 的推理計算,目前該領域的 AI 芯片多采用通用 AI,ASIC 或低精度浮點運算 GPU,但面對計算過程更為復雜的訓練計算,業界一直在嘗試是否可能用性價 比更高的定點運算器實現。如何以全部的定點單元(比如 INT8)代替浮點單元, 或者以低精度定點單元配合少量的高精度浮點計算單元(比如 FP32
37、)做更多 的訓練任務,目的是達到定點計算的快速度,同時實現接近高精度浮點計算的 精度。目前看來低精度訓練確實未必要是浮點數,只要能把數域表達好,0 附 近的小量表達好,什么樣的數據表示都可以。 總之,我們判斷寒武紀之所以能夠大幅度提升低精度訓練階段的計算功耗 比,很有可能是大量采用以定點為主的低精度運算,但要能夠成功的切入數據 中心的 AI 高精度訓練及推理市場,寒武紀除了要發展高精度的浮點運算外,一 套完備成熟的軟件生態也是其核心競爭力的重要體現,所以從 2016 年起,寒 武紀逐步推出了 NeuWare 軟件工具鏈,該平臺終端和云端產品均支持,可以 實現對 TensorFlow、Caffe 和 MXnet 的 API 兼容,同時提供寒武紀專門的高 性能庫。英偉達之所以能夠在云端訓練領域成為絕對主流,其 CUDA 軟件生態 的基礎功不可沒,所以目前 80% 以上的云端加速器是采用英偉達 GPU,而 AMD 的 GPU/CPU及賽靈思的 FPGA 占據非常小的份額。 公司深度研究 - 11 - 敬請參閱最后一頁特別聲明 圖表圖表7:人工智能云人工智能云端推理及訓練