《瀚博半導體:45家國產AI芯片廠商調研分析報告(2022)(24頁).pdf》由會員分享,可在線閱讀,更多相關《瀚博半導體:45家國產AI芯片廠商調研分析報告(2022)(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、45 家國產 AI 芯片廠商調研分析報告 作者:顧正書,AspenCore 資深產業分析師 AspenCore 聲明: 感謝安謀科技、 合見工軟與瀚博半導體在本報告的調研和撰寫過程中提供專業的技術指導、應用案例分析和行業洞察。 我們將邀請來自這三家公司的技術專家參與 EE 直播間在線講座:Fabless 技術和應用系列-AI 芯片的設計挑戰與應用市場分析。 國內外調研機構、行業專業人士和媒體對 AI 及 AI 芯片的技術發展趨勢和應用場景都已經做了全面和深入的分析,本報告就不再贅述了。AspenCore 分析師團隊主要從以下幾個方面對 AI 芯片產品及國產 AI 芯片廠商進行深入分析(每個部分
2、單獨成篇,請點擊瀏覽相應內容)。 1. AI 芯片的設計流程和挑戰 2. 全球 AI 芯片 Top 10 3. 國產 AI 芯片 Top 10 4. 15 家國產邊緣/端側 AI 芯片廠商及其代表產品 5. AI 芯片價值鏈 6. 45 家國產 AI 芯片廠商信息匯總 AI 芯片的設計流程和挑戰 芯片是一個產品,同時也是一個服務于商業客戶的行業,AI 芯片自然也不例外。一個芯片從無到有通常需要經過定義、設計、制造和流通幾個重要環節,除了制造環節會外包給Foundry 和封測廠之外,一個芯片設計公司需要做好芯片定義、設計(包含芯片、系統和軟件)、尋找客戶(渠道建設)幾個環節。簡單地說,就是要明確
3、:做什么芯片?怎么做出來?怎么賣出去?無論擁有成熟品牌的大型公司,還是初創公司,同時做好上述三點都是一個很大的挑戰。 那么,在 AI 芯片的不同階段(規劃、設計、驗證、流片、板卡/系統集成、應用方案)分別面臨什么挑戰呢? 1. 規劃階段。最大的挑戰是如何明確市場定位,規劃出最有競爭力的方向。對于 AI 芯片設計初創公司來說,在早期階段就引入戰略合作伙伴能更好地理解市場需求,確保開發的 AI 芯片符合客戶需要。同時,在規劃階段就要軟件和硬件協同開發,因為 AI 芯片設計在很大程度上是軟件定義硬件。如果硬件對軟件和應用需求不友好,單純從性能指標上看起來可能很好,但卻很難實現產品化。 2. 設計及驗
4、證階段。這是整個芯片開發流程中非常核心的部分,也是非??简灩こ虉F隊研發能力的階段。怎么按計劃做出符合規劃目標的 AI 芯片是最大的挑戰。 3. 板卡/系統集成。這是產品化的另外一個關鍵階段,再好的芯片如果沒有一個穩定可靠的硬件平臺,也沒有辦法交付給客戶使用。在保證穩定性及可靠性的前提下,實現最佳的性能和效率比是最主要的追求目標。面向云端 AI 的高性能芯片大都以加速卡的形式集成到服務器中,整體能耗和使用成本也是客戶考慮的一個重要指標。 4. 應用方案。這是連接客戶與研發團隊的橋梁,要確保研發符合客戶的使用習慣,讓客戶能夠以最小的代價導入到其系統設計中。 下面以面向視頻處理應用的瀚博半導體為例,
5、來看國內 AI 芯片初創公司是如何應對這些挑戰的。 從算力高低的角度來看,AI 芯片的應用領域依次為數據中心(云)、邊緣網關或服務器(邊)、終端設備(端)。瀚博開發的是面向云端 AI 推理的大芯片,主要面臨以下三大挑戰: 1. 隨著摩爾定律的放緩,綜合利用各種架構優勢的異構運算(heterogeneous computing, DSA 架構)成為推動算力增長的新趨勢, 但隨之而來的是系統架構和軟件的復雜性; 2. 算力越高,通常芯片面積就越大,需要堆積的晶體管數量越多, 這對達成最佳 PPA(性能、功耗和面積)帶來了額外的挑戰; 3. 芯片越大越復雜,開發周期、研發成本和制造成本都隨之增高,如
6、何精準地定位一個有足夠大體量的應用市場是 AI 芯片公司在運營層面的挑戰。 據瀚博半導體聯合創始人兼 CTO 張磊介紹,其創始團隊在 GPU 領域擁有非常豐富的經驗,但公司并沒有首選做 GPU,而是選擇通過 DSA 架構來做面向 AI+視頻市場的芯片,從而在 PPA 和成本上具有明顯市場優勢。同時,相比于很多公司臨時招募組建的研發團隊,瀚博的創始團隊有著多年相互配合的默契,以及大芯片研發和量產的管理經驗和實戰經驗。該公司的第一顆芯片開始測試 8 分鐘即點亮,這是通過完美執行而應對以上三大挑戰的一個最好佐證。 為什么選擇 AI 芯片而不是 GPGPU? PC 時代隨著圖形操作系統的出現,大量需要
7、 3D 圖形運算的工具軟件和游戲對于浮點運算的要求急劇升高,傳統的 X86 CPU 處理器并不擅長這類任務,于是誕生了更擅長浮點運算的 GPU。在這類應用中,系統會把圖形渲染等任務 offload 到 GPU 上去。隨著神經網絡研究和應用的發展,GPU 中的浮點運算能力在這些領域的應用逐漸發展起來,英偉達敏感地抓住了市場機會,將其 GPU 在保留傳統渲染能力的同時增加了對于通用計算和神經網絡運算的能力,并稱之為 GPGPU。 英偉達的 GPGPU 是包含渲染以及神經網絡(“NN”)運算的。這種架構在同時需要兩個能力的應用上會有一定的優勢,但很顯然對于技術積累要求也非常高。目前一些 AI 芯片初
8、創公司所自稱的 GPGPU 架構是指沒有渲染的 NN 運算,而有一些聲稱做 GPU 的公司則是狹義的渲染 GPU,二者都不是通常英偉達所指的 GPGPU。英偉達由于有長年渲染 GPU 的技術積累,同時基于先發優勢通過 CUDA 積累了生態優勢,因此選擇了 GPGPU 路線。但是,其他公司在這條路線上與其正面競爭是勝算很小的,即使國際知名公司(像英特爾和AMD)在 GPGPU 市場與其競爭都有相當的難度。 然而,沒有一個技術是完美的,由于 GPGPU 保留了大量神經網絡運算所不需要的單元,在單純的神經網絡運算上并不是最高效的,因此谷歌基于特定域架構(DSA)為自己的特定應用做了 TPU。DSA
9、架構給其他芯片公司帶來了希望,包括 Intel、特斯拉等知名公司都開始在這條路線上發力。 芯片設計是一個國際化的產業,知識產權在其中扮演著很重要的角色。渲染 GPU 由于發展歷史久遠,專利壁壘較高,即使與之相關的不帶渲染的 GPGPU 也容易踩雷。相反,DSA由于出現較新,國際大企業和創業公司在知識產權上的差距并不大。選擇針對 AI+視頻市場來做 DSA 架構的 AI 芯片,這對瀚博來說也是最明智的選擇,其研發團隊在視頻領域的經驗和對于大芯片的駕馭能力也得到了充分發揮。 項目研發團隊是如何分工協作的? 瀚博 SV100 研發團隊成員主要來自 AMD、Cisco、意法半導體、華為、高通和 Mic
10、rochip等公司,其核心團隊都有超過十年的開發協作經驗。具體來說,瀚博有架構/IP 開發、芯片驗證、SoC 實現、硅后驗證,以及軟件 5 大部門。 架構/IP 團隊負責芯片的整體架構規劃以及核心 IP 的設計開發,某種程度來說架構和 IP 直接決定了一個產品的成??;芯片驗證團隊負責 IP 以及 SoC 驗證,確保功能和性能符合設計要求;SoC 實現團隊基于架構設計,將各種 IP 集成到 SoC,并且以盡量小的面積和盡量低的功耗來實現最大的性能;硅后驗證團隊主要負責芯片的功能性能驗證,以及驗證板和系統板的開發,同時也負責芯片產品化的各個方面;軟件團隊負責固件、驅動和編譯器等軟件方面的開發,可以
11、說硬件定義產品的“身體”,而軟件賦予產品的“靈魂”。 國內 AI 芯片公司相比國際巨頭有什么優勢和劣勢? 與大多數科技行業的企業一樣,國內 AI 芯片公司的最大優勢就是貼近市場和客戶,近水樓臺先得月。中國市場對于 AI 芯片的發展有如下幾個優勢: 1. AI 應用本身就是一個新興市場,很多應用場景都是在摸索中成長的。國內企業在近 20年的迅速發展中耳濡目染,對于新鮮事物的嘗試意愿是很高的。 2. 中國近年的數字化基礎設施建設帶來的紅利,比如中國擁有世界上最大規模的寬帶及4G/5G 通信網絡;中國的互聯網企業迅速成長為全球巨頭,這些都為 AI 應用創造了良好的發展土壤。 3. 中國很多傳統行業處
12、在轉型期,比如中國的工業升級是天然建立在數字化前提上的,這給 AI 帶來了巨大的發展空間。 4. 國家政策鼓勵芯片創業,新基建和“東數西算”等重大工程都為 AI 芯片公司提供了堅強的后盾。 國內 AI 芯片企業的劣勢在于技術和 IP 積累不足,具體體現在:軟硬件生態、知識產權和人才等方面。 AI 芯片價值鏈 自從上世紀 50 年代人工智能(AI)出現以來,AI 的發展已經取得了極大的進步,但真正的技術突破和 AI 應用爆發還是最近 10 年的事。從 2012 年開始,AI 開發者開發出復雜的機器學習(ML)算法,尤其是深度學習(DL)算法,借助 GPU 及 AI 硬件來處理大量的數據集,處理效
13、率和準確度都得到了極大提升。 根據麥肯錫的一份有關 AI 技術及半導體價值的報告,要實現高效而準確的 AI 訓練和推理,需要九層 AI 技術堆棧(見下圖),其中最底層的硬件加速器可以實現高能效的并行處理,涉及處理器、內存、儲存和網絡方面的芯片。目前,執行 AI 加速的處理器仍然以 GPU為主,雖然 CPU、FPGA 和 ASIC 也有各自特定的 AI 應用優勢。 九層 AI 技術堆棧,其中硬件加速器提供 AI 訓練和推理所需要的算力。(來源:McKinsey) 據麥肯錫研究報告預測,AI 芯片將是半導體產業在未來 20 年內最佳的應用市場機遇。在其它科技領域,芯片通常只占整個技術價值鏈 10%
14、的價值。但在 AI 領域,芯片將從整體人工智能的技術價值鏈中獲得 4050%的價值。AI 芯片已經成為半導體增速最快的細分市場之一,預計到 2025 年全球 AI 芯片市場將達到 100 億美元的規模,現已成為國際芯片廠商、互聯網巨頭和初創公司爭相角逐的前沿陣地。 作為一個新興的半導體市場,AI 芯片的產業鏈涉及多個價值節點,其中有一些是高性能處理器芯片所共用的,但也有 AI 芯片所獨有的價值鏈節點。從半導體產業的角度來看,AI 芯片價值鏈包括風險投資(VC)、技術人才(Talent)、芯片設計工具(EDA)、晶圓代工(Foundry),以及封裝測試(OSAT)。下面我們將逐一闡述每個環節的價
15、值。 VC 從 AI 爆發中獲益最大的當數英偉達,其 GPU 至今仍是全世界絕大多數數據中心 AI 加速的首選。英特爾和并購賽靈思之后的 AMD 也都在加大數據中心 AI 訓練/推理及邊緣計算 AI推理方面的資源投入。作為云端 AI 加速最大的應用場合,云計算平臺服務商都在開發和部署各自的 AI 芯片和 AI 加速器。Google 基于特定域(DSA)架構的 TPU 已經發展到第四代,據稱其第五代 TPU 將能夠利用 AI 自動進行芯片布局設計。AWS 自研的高性能機器學習推理 AI 芯片 Inferentia 也已經批量部署到 AWS EC2 中。 再看國內 AI 芯片市場,阿里平頭哥于 2
16、019 年發布的數據中心 AI 推理芯片含光 800 基于自研架構,采用 12nm 工藝,集成 170 億晶體管,性能峰值算力達 820 TOPS,主要應用于阿里云服務平臺。從百度獨立出來的昆侖芯科技開發的 R 系列昆侖芯 2 代芯片是第二代云端通用 AI 推理處理器,基于 Arm 處理器平臺,采用 XPU-R 架構和 7nm 先進工藝,算力達到256 TOPSINT8;128 TFLOPS XFP16/FP16。該芯片及加速卡已經在百度搜索引擎等廣告等業務平臺中部署超過 2 萬片。 除了半導體和互聯網巨頭外,風險投資也紛紛在 AI 芯片賽道布局。據統計,截止 2022 年1 月,2021 年
17、國內 AI 芯片相關領域的融資共計 92 起,總金額約 300 億人民幣。下表列出了 2021 年國產 AI 芯片初創公司的融資情況。 2021 年中國 AI 芯片公司 VC 投資情況。(來源:億歐智庫) 獲得融資的 AI 芯片公司超過 25 家,其中多家公司獲得多輪融資,比如專注于云端 AI 推理芯片的瀚博半導體分別在 4 月和 12 月完成 A 輪和 B 輪融資,累積融資金額超過 21 億元;地平線從 1 月到 6 月完成從 C1 輪到 C7 輪的融資,總額高達 15 億美元;昆侖芯融資金額20 億元;燧原科技融資金額 18 億元;芯馳科技融資金額近 10 億元。 技術人才 工信部人才交流
18、中心發布的數據顯示,人工智能不同技術方向崗位的人才供需比均低于 0.4(人才供需比=進入該崗位的人才意向數量/崗位需求數量),其中 AI 芯片崗位人才供需比為 0.32;機器學習、自然語言處理等技術人才供需僅 0.2;而更為專業細分的智能語音、計算機視覺的人才供需比低至 0.09。 AI 領域和半導體領域的人才都比較短缺,而融合 AI 和芯片設計的分支領域更是急缺技術和設計人才。我們以“中國 AI 芯片第一股寒武紀”為例,來看一下 AI 芯片設計公司都需要哪類技術人才。 1. 芯片類:芯片設計工程師、芯片驗證工程師、智能芯片(架構/設計)研究員、數字芯片設計工程師(DFT/綜合/時序)、數字芯
19、片設計工程師(邏輯設計/SOC 設計)、芯片后端工程師、邏輯驗證工程師、ESL 建模工程師、處理器開發工程師、前端 CAD 工程師、SRAM 版圖工程師 2. 硬件類:SPICE Model 工程師、工藝工程師、固件開發工程師、芯片應用工程師、封裝設計工程師、自動化測試開發工程師、SIPI 工程師 3. 軟件類:分布式訓練研發工程師、深度學習圖編譯器工程師、AI 平臺研發工程師、高性能機器視覺庫軟件開發工程師、AI 高性能計算庫研發工程師、AI 應用工程師、工程效率研發工程師、編譯器研發工程師、計算機視覺軟件工程師、虛擬化研發工程師、軟件測試開發工程師、系統軟件開發工程師、深度學習框架研發工程
20、師、性能優化工程師 4. 算法類:高性能深度學習庫開發工程師、媒體算法工程師、深度學習算法研究員、AI/算法技術研究員(博士后) 5. 智能駕駛類:芯片、軟件和算法方面的工程師。 國內 AI 芯片設計初創公司的創始團隊大都擁有英偉達、AMD 和英特爾等全球高性能處理芯片巨頭的工作經歷,而一家融資過億元的 AI 芯片公司的錢主要就是花費在技術研發人才的工資和福利待遇上,雖然芯片流片也花費不菲。經常有媒體報道芯片設計工程師的工資高達百萬元,就連剛出校門的畢業生工資都達到 40 多萬。這么高的工資待遇是不正常的,但市場供需就是這樣也不得不接受。 國內大學開始設立集成電路學院和學科,但從頭培養需要時間
21、,有經驗的研發工程師更需要實際設計的實踐才行。芯片設計公司融資難,但拿到錢后招人更難。國內 AI 芯片公司去臺灣、美國和歐洲招人,去國際芯片公司挖人,以及相互之間挖墻腳,自然也就不足為怪了。 EDA 芯片的前端設計、驗證和仿真,以及后端的工藝設計,都離不開 EDA 工具。據 Global Industry Analysts(GIA)最新發布的 EDA 工具報告統計預測,全球 EDA 工具市場規模2020 年約有 91 億美元,2021 年約為 99 億美元,預計到 2026 年將增長到 149 億美元,從2020 到 2026 的年復合增長率(CAGR)為 8.7%。2021 年,美國市場約有
22、 18 億美元,占全球EDA 市場的 19.5%。中國市場的增長率為 9.8%,預計到 2026 年將達到 28 億美元。 多年來,全球 EDA 市場一直被 EDA 三巨頭所統治,中國市場也不例外。EDA 可謂是半導體這個皇冠上的明珠,只有 100 億美元規模的 EDA 卻驅動著 5000 億美元規模的全球半導體產業。鑒于其高度集中的技術和智力含量,以及其重要的“咽喉要塞”地位,EDA 也成了美國限制中國先進半導體發展的“卡脖子”武器。 半導體業界人士都知道 EDA 全流程的重要性,但國內 EDA 公司很少能夠覆蓋設計和驗證全流程,大部分還是在“點工具”上突破,然后再往外拓展。像華大九天、概倫
23、電子、國微思爾芯,以及芯和半導體等國產 EDA 廠商都在各自擅長的 EDA 流程上深耕多年,同時開始借助資本市場融資或上市,以便為快速增長和長遠發展奠定堅實的基礎。 最近幾年有 50 多家本土 EDA 初創公司進入市場,我們以“合見工軟”為例來看一下國產EDA 的技術水平、解決棘手問題的能力及未來發展潛力。2021 年 3 月投入運營的合見工軟由武岳峰資本創始人潘建岳擔任董事長,原 Cadence 副總裁、中國及東南亞區總經理徐昀和原 Synopsys Fellow、研發副總裁郭立阜擔任聯席總裁,員工超過 400 人。合見工軟擁有強大的投資人團隊,除了武岳峰科創、國家集成電路產業投資基金(“國
24、家大基金”)、紅杉資本、中國互聯網投資基金外,合見工軟的股東還包括聯發科、韋爾股份、聞泰科技、瀾起科技、瑞芯微、卓勝微、中興通訊、華勤通訊等領先的芯片設計公司及其關聯基金。到目前為止,合見工軟融資近 20 億元。 AI 芯片大都采用先進工藝節點(16nm 以下至 5nm,甚至 3nm)。隨著芯片規模、集成度及設計復雜度的大幅提升,芯片設計、封裝設計到系統設計的各個環節都對 EDA 工具提出了更高的要求。因此,先進的 EDA 解決方案是確保并加速 AI 芯片成功實現的強大支撐。合見工軟著眼于數字驗證全流程覆蓋和系統級電子設計的 EDA 解決方案布局,已經陸續發布和規劃了多款 EDA 產品以滿足
25、AI 芯片的開發需求,其中包含原型驗證系統、數字仿真器、驗證效率提升平臺、協同設計環境,以及設計數據管理平臺等。 原型驗證系統是 AI 芯片數字驗證必不可少的 EDA 工具。合見工軟的原型驗證系統除了具備超大容量、高性能和縮短芯片開發周期等特點,還可以支持不同場景下不同硬件平臺的自由切換,可以執行應用軟件驅動的系統級驗證、性能和調試并重的軟硬件系統驗證、仿真加速、虛擬原型、混合仿真驗證等任務。已經發布的 UVAPS-VU19P 還提供了豐富的接口子卡,以適配各種接口驗證,提供充足的互聯通道;同時, 它還能夠配合深度調試方案, 縮短測試周期, 加快 AI 芯片上市。 該產品采用 Xilinx V
26、U19P FPGA,適用于大規模 ASIC 原型驗證及 SoC 開發,容量高達 46 億門,可靈活堆疊,以滿足超大規模原型驗證需求。 數字仿真器是數字驗證解決方案的核心引擎。合見工軟已發布的數字仿真器產品(UVS)利用業界領先的編譯及運行性能提升技術,可為客戶設計提供可靠的數字驗證運行環境。該產品支持業界標準的 Verilog、System Verilog 以及 UVM 驗證方法,且支持通過 DPI 進行混合協同仿真。為便于產品快速升級迭代,該仿真器基于組件式設計,支持用戶需求定制化,也可以分布式實施與云部署。此外,UVS 采用處理器架構原生目標代碼生成方式和高性能約束求解引擎等先進技術,可將
27、仿真容量提升到數億門級的設計規模。 合見工軟正在逐步建立完善的數字驗證生態體系,其中“驗證效率提升平臺”是一套完整的方法學、工具與解決方案的有機集成,可幫助 AI 芯片設計公司有效縮短產品開發周期。該平臺可幫助用戶精確對齊項目實施需求,從初期的驗證計劃制定、對所有驗證任務的整體規劃,到計算資源的高效分配與管理,再到對項目進度及覆蓋率目標的精確追蹤管理,并最終提供直觀有效的分析報告,實現對驗證計劃的閉環迭代,進而從不同維度提升整體驗證效率。另外,在驗證過程中還可以對問題進行快速定位,這也是保證驗證效率的必備組件。 眾所周知,AI 芯片大都采用先進封裝技術。先進封裝設計與傳統封裝設計存在較大差異,
28、除電磁場、熱、應力等問題以外,使用傳統設計工具或方法無法應對協同設計上的挑戰。合見工軟針對這一痛點發布的協同設計環境(UVI)采用了業界首創的系統級網絡連接檢查技術,可在同一設計環境中導入各種格式的 IC、Interposer、Package 和 PCB 數據,并支持設計數據的靈活操作。UVI 能夠基于物理、圖形和數據等信息,根據不同應用需求,自動產生系統級互連關系網表、互連錯誤信息、網絡斷開類型及互連疊層信息等關鍵報告。此外,UVI 在處理大規?;ミB管腳數據時非常迅速,無論是命名一致性檢查、鏈路通斷檢查還是管腳缺失互連檢查,對于 100 萬 Pin 的規模都可以在 8 秒內完成,并且可以支持
29、一對多 Pin 的基于面積算法的互連檢查。開發人員利用 UVI 工具可以簡化設計流程、提升工作效率、提高設計質量、精準定位設計錯誤,并覆蓋所有節點和網絡的檢查。 除了合見工軟外,很多國產 EDA 公司的產品也都獲得了市場認可和客戶驗證,比如杭州行芯的 Signoff 工具鏈,鴻芯微納的布局布線工具軟件。EDA 這一利基市場的本土廠商將對中國半導體產業的長遠發展創造巨大價值。 IP/Chiplet 現在的高性能 AI 芯片大都是采用異構集成、芯粒(Chiplet)和先進封裝的系統級芯片。除了微處理器內核、GPU、高速網絡互聯 NiC 和 eFPGA 等高性能 IP 外,AI 芯片設計越來越多開始
30、集成類似樂高積木的 Chiplet。英特爾、AMD、TSMC、三星、Arm 等最近聯合發布統一的 Chiplet 接口標準 Universal Chiplet Interconnect Express (UCIe)。 UCIe 是一種開放的行業標準互連,可在芯粒(Chiplet)之間提供高帶寬、低延遲、高能效且具有成本效益的封裝連接,它解決了跨越云端、邊緣、企業、5G、汽車、高性能計算和移動設備的整個計算領域對計算、內存、存儲和連接的增長需求。UCIe 可支持來自不同廠家芯片的集成,包括不同的晶圓廠、不同的設計和不同的封裝技術。 芯粒的封裝集成能夠以快速且經濟高效的方式提供定制解決方案。例如,
31、不同的應用可能需要不同的算力,但卻采用相同的內核、內存和 I/O,如上圖所示。芯粒技術還可以根據功能需求選擇最適合的芯粒進行封裝,比如內存、邏輯、模擬和一起封裝的光學器件都需要不同的工藝,這些不同工藝的芯??梢苑庋b在一起。由于封裝走線較短并可以提供密集布線,高帶寬存儲器(HBM)訪問等應用就可以實現封裝集成。 Chiplet 對于 AI 芯片的發展會有積極的影響,主要體現在以下幾個方面: 1. 工藝選擇靈活性 Chiplet 封裝模式的最大優勢之一就是在一個系統里可以集成多個工藝節點的芯片,因此可以支持 AI 芯片的快速開發,并降低設計實現成本。在目前的單芯片設計模式下,系統只能在一個工藝節點
32、上實現。而對于很多功能來說,使用成本高、風險大的最新工藝即沒有必要又非常困難,比如一些專用加速功能和模擬設計。采用 Chiplet 模式,AI 芯片開發商在做整體系統設計的時候則有了更多的選擇。對于追求性能極致的功能模塊,比如高性能CPU,可以使用最新工藝。而其它特殊的功能模塊,比如存儲器、模擬接口和一些專用加速器,則可以按照需求選擇性價比最高的方案。 Chiplet 對于 AI 芯片初創公司的快速發展尤其有利。AI 加速本身就是一個 DSA(專用域架構),其架構本身就是專門為特定運算定制的,具有很高的效率,即使選擇差一兩代的工藝也可以滿足很多應用場景的要求。但目前大多初創公司都面臨工藝選擇的
33、困境,如果選擇先進工藝,可能一次投片就需要數千萬元。如果不選最新工藝,好像就輸在了起跑線上。如果 Chiplet 模式可行,工藝選擇就會更加理性,工藝雖不是最新但性價比最好的Chiplet 會讓所開發的 AI 芯片更有競爭力。 2. 架構設計靈活性 以 Chiplet 構成的系統可以說是一個“超級”異構系統,可以為傳統異構集成 SoC 增加新的維度,至少包括空間維度和工藝選擇的維度。首先,先進的集成技術在 3D 空間的擴展可以極大提高芯片規模,這對 AI 算力的擴展和成本的降低有很大好處。第二,結合工藝靈活性,可以在架構設計上有更合理的功能/工藝權衡,有利于 AI SoC 或者 AIoT 芯片
34、更好的適應特定應用場景的需求。第三,系統的架構設計,特別是功能模塊間的互聯,有更多優化的空間。在當前的 AI 芯片架構中,數據流動是主要瓶頸。雖然 HBM 可以在一定程度上解決處理器和 DRAM 之間的數據流動問題,但價格過于昂貴。對于云端 AI 加速,Host CPU和 AI 加速芯片之間,以及多片加速芯片之間的互聯,目前主要通過 PCIe、NvLink 或者直接用 SerDes 等。如果采用 Chiplet 方式,則是裸片之間的互聯,帶寬、延時和功耗都會有很大的改善。最后,目前的片上網絡 NoC 是在一個硅片(2D)上的,而未來的 NoC 則可以擴展到硅片之間,特別是和 Active In
35、terposer 結合,就可能構成一個 3D 網絡,其路由、拓撲及 QoS 都可以有更大優化空間。 3. 商業模式靈活性 在傳統的 IP 供應商和芯片開發商之外,Chiplet 提供了一個新的選擇。對于目前的 AI 芯片廠商來說,要么聚焦在 AI 加速部分,以 IP 形式或者外接硬件加速芯片的形式提供產品,要么走垂直領域,做集成 AI 加速功能的 SoC。對于前者來說,Chiplet 可以提供一個新的產品形式,增加潛在的市場應用,或者拉長一代產品(工藝)的生命周期。對后者來說,可以直接集成合適的 AI chiplet 而不是 IP,從而大大節省項目開發的時間。因此,可以預見,AI Chiple
36、t 會成為 AI 硬件復用和集成的重要形式。 采用芯片設計平臺即服務(Silicon Platform as a Service, SiPaaS)模式的芯原微電子提出芯粒平臺服務(Chiplet as a Platform)的理念,從實現 IP 芯?;?(IP as a Chiplet)進一步提升至實現芯粒平臺化 (Chiplet as a Platform),將為客戶提供更加完備的基于 Chiplet 的平臺化芯片定制解決方案。該公司去年開發的高端應用處理器平臺采用 Chiplet 架構設計,從定義到流片返回僅用了 12 個月的時間。此外,這個高端應用處理器平臺還集成了芯原的很多IP,包括神
37、經網絡處理器 NPU、圖像信號處理器 ISP、視頻處理器 VPU、音頻數字信號處理器和顯示控制器等。芯原計劃今年在其高端應用處理器平臺的基礎上,進一步推進Chiplet 技術和項目的產業化,主要面向手機、平板電腦、筆記本電腦等應用,同時還適用于自動駕駛應用。 在微處理器內核 IP 方面,AI 芯片大都采用高性能的 Arm Cortex A 系列處理器內核,最近兩年基于 RSIC-V 內核的 AI 芯片設計也開始多起來(特別是邊緣 AI)。針對中國市場和客戶,安謀科技除了繼續提供 Arm 微處理器系列 IP 外,還自主研發推出了 XPU 系列智能數據流計算平臺,包括“周易”NPU、“星辰”CPU
38、、“山?!盨PU 以及“玲瓏”ISP 和 VPU 處理器產品線。安謀科技董事長兼總經理吳雄昂表示,該公司將采用兼容 Arm 架構 CPU +自研架構XPU 的雙輪驅動戰略,繼續在自研架構智能數據流處理器和自主高性能處理器上充分發力,在智能汽車、邊緣計算、數據中心、智能物聯網、移動設備等各個領域全面支持中國半導體和科技產業的未來發展。這些應用領域都跟 AI 息息相關,自然 AI 芯片的設計也離不開 XPU 系列 IP。 晶圓代工(Foundry)和封裝測試(ATP) AI 芯片大都采用 16nm 或更為先進的晶圓工藝。2021 年有多家國產 AI 芯片公司發布了采用 7nm 工藝的 AI 芯片,
39、其中包括:昆侖芯 2、寒武紀思元 290、天數智芯 GPGPU 芯片BI、芯擎科技“龍鷹一號”智能座艙芯片 SE1000,以及瀚博半導體 SV102 等。7nm 工藝芯片的流片成本高達數億元,而芯片能否量產及未來應用前景尚不明確,為什么這些 AI 芯片初創公司仍趨之若鶩呢?難道只是拿著投資人的錢玩競跑游戲嗎? 美國喬治城大學發布的一份 AI 芯片研究報告對采用不同工藝節點的 AI 芯片進行了經濟效益分析,通過量化模型揭示出先進工藝芯片相比舊的工藝節點的性能、效率和成本收益。 具有 5nm 芯片相對數量晶體管的不同工藝節點芯片的成本對比。(來源:CSET at Georgetown Univer
40、sity) 該分析模型基于這樣的假設:一顆跟英偉達 16nm Tesla P100 GPU 裸片尺寸類似的服務器級別 5nm 芯片包含約 907 億個晶體管(P100 裸片面積為 610 平方毫米,集成了 150 億個晶體管)。假如從 7nm 往前直到 90nm 工藝節點的芯片都包含跟 5nm 芯片同樣的晶體管數量,每個工藝節點的芯片在設計、晶圓代工、封裝測試和工作運行階段的不同成本有什么差別呢? 1. 晶圓代工廠給 IC 設計公司的價格(折合到每顆裸片):5nm 為 238 美元;7nm 為 233美元;16/12nm 為 311 美元 2. IC 設計公司的設計成本(假設芯片出貨量為 50
41、0 萬顆):5nm 為 108 美元;7nm 為110 美元;16/12nm 為 136 美元 3. 裝配、測試和封裝成本(折合到每顆芯片):5nm 為 80 美元;7nm 為 78 美元;16/12nm 為 92 美元 4. 總生產成本(折合到每顆芯片):5nm 為 426 美元;7nm 為 421 美元;16/12nm 為487 美元 5. 每年運營能耗成本(折合到每顆芯片):5nm 為 194 美元;7nm 為 242 美元;16/12nm 為 404 美元 研究人員從該成本分析模型得出兩個結論:第一,在正常運營兩年內,先進工藝(7/5nm)芯片的能耗成本就超過了其生產成本,采用舊工藝的
42、芯片(10nm 及以上)能耗成本增長更快。若綜合考慮生產成本和運營成本,先進工藝芯片的成本效益是舊工藝芯片的 33 倍。 第二,對比 7nm 和 5nm 芯片,當正常運營使用 8.8 年時,二者的成本相當。這意味著,如果在 8.8 年以內更換芯片,7nm 更劃算。鑒于數據中心 AI 訓練和推理所用的 AI 加速器大都是 3 年更換一次,單從成本效益來看 7nm 芯片比 5nm 更劃算。 以上分析也許適用于面向數據中心 AI 訓練和推理的高性能 AI 芯片,但對面向邊緣計算和終端設備的 AI 芯片來說,未必合適。針對高性能計算和云端 AI 的國產 AI 芯片設計公司為數不多,大部分 AI 芯片公
43、司都是面向邊緣和終端應用市場,尤其是 AIoT 和智能安防應用場景。 45 家 AI 芯片廠商詳細信息 下面我們將從核心技術、代表產品、典型應用場景和競爭優勢等方面對這 45 家公司逐一分析。 公司簡稱公司簡稱中文名稱中文名稱英文名稱英文名稱公司總部公司總部 董事長/CEO董事長/CEO主要產品主要產品產品類別產品類別寒武紀寒武紀中科寒武紀科技股份有限公司Cambricon Technology北京陳天石思元290/270/370云端訓練和推理燧原科技燧原科技上海燧原科技有限公司Enflame Technology上海趙立東邃思AI訓練和推理芯片云端訓練和推理鯤云科技鯤云科技深圳鯤云信息科技有
44、限公司Corerain Technologies深圳牛昕宇CAISA芯片云端訓練和推理昆侖芯昆侖芯昆侖芯(北京)科技有限公司Kunlunxin北京歐陽劍昆侖芯1代和2代芯片云端訓練和推理平頭哥平頭哥平頭哥半導體有限公司T-Head杭州劉湘雯含光800 NPU云端訓練和推理瀚博半導體瀚博半導體瀚博半導體(上海)有限公司Vastai Tech上海錢軍SV100云端訓練和推理華夏芯華夏芯華夏芯(北京)通用處理器技術有限公司Hua Xia GPT北京侯鳳琴GP8300云端訓練和推理墨芯墨芯墨芯人工智能科技(深圳)有限公司MOFFETT深圳王維ANTOUM AI芯片云端訓練和推理沐曦集成電路沐曦集成電路
45、沐曦集成電路(上海)有限公司MetaX Integrated Circuits上海陳維良GPU/AI芯片云端訓練和推理全志科技全志科技珠海全志科技股份有限公司Allwinner Technology珠海唐立華R329語音AI探境科技探境科技北京探境科技有限公司Intengine Technology北京魯勇Voitist 611/612語音AI云知聲云知聲云知聲智能科技股份有限公司Unisound北京梁家恩/黃偉蜂鳥語音AI芯片語音AI啟英泰倫啟英泰倫成都啟英泰倫科技有限公司ChipIntelli成都何云鵬CI1122語音AI深聰智能深聰智能上海深聰半導體有限責任公司ShenSilicon上海
46、周偉達太行一代TH1520語音AI時擎科技時擎科技時擎智能科技(上海)有限公司Timesintelli Technology上海蔣壽美AT1611語音AI聆思智能聆思智能安徽聆思智能科技有限公司LISTENAI 合肥胡郁CSK3000/CSK4000語音AI酷芯微酷芯微上??嵝疚㈦娮佑邢薰続rtosyn上海沈泊/姚海平AR9341 視覺AI中星微中星微中星微技術股份有限公司Vimicro北京鄧中翰星光智能系列芯片視覺AI瑞芯微瑞芯微瑞芯微電子股份有限公司Rockchip福州勵民RK3588視覺AI肇觀電子肇觀電子上海肇觀電子科技有限公司NextVPU (Shanghai) Co., Ltd.
47、上海馮歆鵬D163A視覺AI北京君正北京君正北京君正集成電路股份有限公司Ingenic北京劉強AI協處理器T02視覺AI清微智能清微智能北京清微智能科技有限公司Tsing Micro北京王博TX510視覺AI銳思智芯銳思智芯北京銳思智芯科技有限公司Alpsentek北京鄧堅DVS芯片視覺AI埃瓦智能埃瓦智能上海埃瓦智能科技有限公司AIVA Tech上海王赟3D AI處理器視覺AI知存科技知存科技北京知存科技有限公司WitinMEM北京王紹迪WTM2101感存算AI時識科技時識科技成都時識科技有限公司SynSense成都喬寧Speck感存算AI九天睿芯九天睿芯深圳市九天睿芯科技有限公司REEXE
48、N深圳劉洪杰ADA 100/200/300感存算AI靈汐科技靈汐科技北京靈汐科技有限公司Lynxi Tech北京施路平/祝夭龍類腦芯片KA200感存算AI千芯科技千芯科技千芯半導體科技(北京)有限公司TensorChip北京陳巍可重構存算AI芯片感存算AI后摩智能后摩智能南京后摩智能科技有限公司HOUMO.AI南京吳強存算一體AI芯片感存算AI深思創芯深思創芯成都市深思創芯科技有限公司Deep Creatic成都劉洋神經形態芯片感存算AI華為海思華為海思深圳市海思半導體有限公司HiSilicon深圳何庭波Ascend 310/910邊緣計算AI紫光展銳紫光展銳紫光展銳(上海)科技有限公司Uni
49、SoC上海任奇偉虎賁T710邊緣計算AI杭州國芯杭州國芯杭州國芯科技股份有限公司Hangzhou Nationalchip杭州黃智杰GX8010邊緣計算AI愛芯元智愛芯元智愛芯元智半導體(上海)有限公司AXERA Semiconductor上海仇肖莘AX620A/630A邊緣計算AI嘉楠科技嘉楠科技北京嘉楠捷思信息技術有限公司Canaan Inc.北京張楠庚K210邊緣計算AI比特大陸比特大陸算豐科技(北京)有限公司Sophon Technology 北京詹克團智算BM1684/1882邊緣AI推理云天勵飛云天勵飛深圳云天勵飛技術股份有限公司Intellifusion深圳陳寧DeepEye 2
50、000安防/人臉識別AI億智電子億智電子億智電子科技有限公司Eeasy Technology 珠海陳峰SV/SA/SH系列安防/人臉識別AI依圖科技依圖科技上海依圖網絡科技有限公司YITU Tech上海朱瓏QuestCore安防/人臉識別AI物奇微物奇微重慶物奇微電子有限公司WuQi Micro重慶鄭建生3D人臉識別芯片安防/人臉識別AI地平線地平線北京地平線機器人技術研發有限公司Horizon Robotics北京余凱旭日3/征程5ADAS/自動駕駛AI黑芝麻智能黑芝麻智能黑芝麻智能科技有限公司Black Sesame Technologies上海單記章/劉衛紅華山二號A1000/LADAS
51、/自動駕駛AI芯馳科技芯馳科技南京芯馳半導體科技有限公司SemiDrive南京仇雨菁X9/G9/V9/E3ADAS/自動駕駛AI芯擎科技芯擎科技湖北芯擎科技有限公司Siengine武漢汪凱智能座艙芯片SE1000ADAS/自動駕駛AI數據來源: 調查問卷、各公司官網、網絡匯編制作: AspenCoreAspenCore瀚博半導體 核心技術:高性能通用 AI 處理架構 代表產品:SV100 系列 AI 推理芯片、VA 系列通用 AI 推理加速卡 應用場景:計算機視覺、智能視頻處理應用、自然語言處理、云端和邊緣計算應用 競爭優勢:引入阿里巴巴和快手兩家戰略投資,在云端和邊緣 AI 推理和視頻處理方
52、面已經落地。目前擁有超過 400 人的研發團隊。 燧原科技 核心技術:面向數據中心的云端 AI 訓練和推理計算芯片、原始創新的“馭算”計算及編程平臺 代表產品: 邃思 2.0 云端 AI 訓練芯片、 邃思 2.5 云端 AI 推理芯片、 云燧 T20 AI 訓練加速卡、云燧 T21 AI 訓練加速模組、云燧 i20 云端推理加速卡 應用場景:面向數據中心的高性能云端訓練和云端推理,針對泛互聯網、傳統行業如金融,交通,能源,醫療,以及智慧城市新基建等三大業務方向和應用場景。 競爭優勢:2021 年 1 月獲 18 億人民幣 C 輪融資,國內首家同時擁有第二代高性能云端訓練和云端推理產品線的公司。
53、 靈汐科技 核心技術:類腦芯片領啟 KA200 采用異構融合、眾核并行、存算一體的架構技術,支持計算機科學和神經科學的神經網絡模型,并支持兩者融合的混合神經網絡計算模型。 代表產品:類腦芯片領啟 KA200、基于 KA200 的類腦計算板卡和服務器、軟件工具鏈和系統軟件。 應用場景:腦科學及腦仿真領域、拓展新的人工智能應用市場。 競爭優勢:集成 30 個類腦計算核,各核可獨立運行,支持矢量圖計算。大規模片上分布式存儲, 計算存儲融合, 高帶寬, 算傳并行。 支持深度學習模型 (DNN) 、 類腦計算模型 (SNN)以及二者融合的異構模型, 融合計算機科學的高精度和類腦計算的高能效優點。 采用眾
54、核預編譯模式,支持數據驅動的眾核控制模式和自動化物理映射,支持條件跳轉、分支合并、事件觸發等流水調度模式。 墨芯 核心技術:雙稀疏算法技術 代表產品:ANTOUM 英騰處理器及疏云 AI 計算卡 應用場景:加速計算機視覺、自然語言處理、智能推薦、語音識別與合成、知識圖譜等諸多云端推理場景。 競爭優勢:ANTOUM 可以支持高達 32X 稀疏率。相比于目前的行業旗艦產品,英騰處理器(ANTOUM)能效比提高了 1 個數量級,單卡算力提高了 5-10 倍。同時它支持目前市場主流的開發框架及廣泛的 AI 算子庫和模型,可編譯通過的神經網絡模型超 200 個。 時擎科技 核心技術:RISC-V 端側智
55、能處理器 Timesformer 代表產品:AT1611 端側智能處理芯片 應用場景:全向麥克風,如會議寶、拾音器;語音對講,如無線門鈴、對講機;語音識別和控制等。 競爭優勢:時擎科技 AT1611 端側智能處理芯片是一款全部基于 RISC-V 指令集的人工智能語音芯片,基于自研創新的 TIMESFORMER 智能計算架構和 DSA 處理器,從落地場景出發進行芯片架構層面的定制與優化,具有待機功耗低(約 10uA) 、喚醒時間短 (百 ms 級別)的特點,芯片能效比、性價比突出,能以接近 MCU 的成本、功耗完成應用處理器級別的應用性能。 深聰智能 核心技術:人工智能語音專用芯片 代表產品:“
56、算法+芯片”一體化解決方案。其中,太行一代芯片 TH1520 是公司第一代人工智能語音芯片產品,高性能、全鏈路語音算法以及低功耗的優勢,可滿足各種 IOT 產品多設備協同的場景需求。 應用場景:智能家居,智能車載,智能辦公等。主要客戶包括美的,海信,小米,松下,海爾,華為盯盯拍,雅迪集團等。 競爭優勢:軟硬一體化,即“算法+芯片”軟硬融合解決方案。 埃瓦科技 核心技術:3D 視覺技術、AI 芯片 代表產品:追螢 3D AI 芯片、3D 人臉識別模組、深度相機 應用場景:機器人、掃地機、3D 人臉識別門鎖、刷臉支付、AR/VR 等 競爭優勢:自主研發 3D+AI 融合芯片,為客戶提供高性價比的
57、3D 人臉識別和 3D 機器視覺解決方案。 沐曦集成電路 核心技術:高性能通用計算 GPU 芯片架構 主要產品:高性能 GPU 芯片及解決方案 關鍵應用:AI 訓練、AI 推理、數據中心、科學計算、云游戲和元宇宙等多個前沿領域 競爭力:沐曦擁有頂配全建制團隊,豐富 GPU 量產經驗,完整軟件生態能力和大量自主創新專利等四大核心競爭優勢。 銳思智芯 核心技術:融合傳統 CIS 和仿生傳感器的 Hybrid Vision 技術 主要產品:機器視覺傳感芯片 ALPIX 目標市場:汽車、機器人、AR/VR、工業監測、消費電子等。 深思創芯 核心技術:神經元狀態共享技術、多模態感知和神經擬態計算、智能無
58、線技術 代表產品:神經擬態芯片 DeepBrain SS3301、深度學習芯片 Abacus Vi SS6500F、AI Analog系列芯片 應用場景:圖像識別、智能控制、機器人等領域 競爭優勢: 該公司在計算機視覺、 智能無線以及神經形態芯片等多個領域均有完備的技術積累和成熟的定制方案。 千芯科技 核心技術:可重構存算一體計算技術 代表產品:存算一體 AI 芯片、AI 計算 IP 核、CloudCard AI 推斷/訓練計算卡、EdgeCard 邊緣 AI 計算板卡 應用場景:自然語言處理、醫藥計算、工業視覺、自動駕駛、智慧城市等 競爭優勢:千芯科技通過自研存算一體技術,可提供能效比超過
59、10-100TOPS/W,優于其他類型 AI 芯片 10-40 倍的算力支持。 芯擎科技 核心技術:智能座艙核心自研技術 代表產品:“龍鷹一號”智能座艙芯片 SE1000 應用場景:智能駕駛、智能座艙 競爭優勢:吉利汽車和一汽戰略投資,從智能座艙芯片切入智能駕駛市場,產品線將覆蓋智能汽車應用全場景, 包括“智能座艙芯片、 自動駕駛芯片、 車載中央處理器芯片”三條產品線。 芯馳科技 核心技術:智能駕駛、域控制器網關和微處理器 代表產品:智能座艙芯片 X9;域控制器網關芯片 G9;自動駕駛芯片 V9;車規級 MCU E3 應用場景:智能駕駛、汽車電子 競爭優勢:產品覆蓋智能座艙、自動駕駛、網關和
60、MCU,涵蓋了未來汽車電子電氣架構最核心的芯片類別。獲得 ISO 26262 功能安全流程認證、AEC-Q100 可靠性認證、ISO26262 功能安全產品認證以及國密認證。 后摩智能 核心技術:SRAM-CIM 技術 代表產品:存算一體大算力 AI 芯片 應用場景:智能駕駛、泛機器人、無人車等邊緣 AI 應用場景 競爭優勢: 與傳統馮諾依曼架構下的大算力芯片相比, 后摩智能的存算一體芯片在算力、 能效比和成本等方面, 都能體現出顯著的優勢。 該公司最近又完成數億人民幣 Pre-A+輪融資。 物奇微 核心技術:人臉識別和 3D 深度成像技術 代表產品:AI 能效管理 SoC 芯片、3D 人臉識
61、別 SoC 芯片 應用場景:可穿戴設備、智能安防終端應用 競爭優勢:融合有線和無線通信技術,面向物聯網和智能終端產品。 中星微 核心技術:邊緣多維智能協同感知技術 代表產品:星光智能一號 VC0718、星光智能二號 VC0718P、星光智能三號 VC0768 應用場景:智能安防攝像機、機器視覺 AIOT 應用 競爭優勢:主導開發公共安全 SVAC 國家標準,針對邊緣智能的協同感知機器視覺編解碼標準,參與星光中國芯工程及一系列智能安防視頻應用方案。 聆思智能 核心技術: MCU+DSP+NPU 的多核異構芯片架構、 BT+BLE+WIFI 三合一無線通訊單元設計、多級感知音頻處理專用芯片電路設計
62、 代表產品:CSK 系列芯片 已推出 CSK3000、CSK4000 兩款芯片;CSK6000 系列芯片將于今年 Q2 正式發售 應用場景:圍繞家電家居、辦公教育、車載等多領域定制化研發配套算法庫,打造軟硬一體解決方案。目前已有空調、冰箱、掃描筆、會議寶、頭盔、車載等數十種解決方案。 競爭優勢: 軟硬協同的智能算法庫設計, 與行業領先的科大訊飛深度合作, 實現“芯片+算法”集成優化,為芯片提供配套的智能算法庫。 愛芯元智 核心技術:混和精度 NPU、AI-ISP 代表產品:AX630A、AX620A。其中 AX620A 是一款高算力、高能效比、低功耗的 AI SoC 芯片,集成了四核 Cort
63、ex A7 CPU,14.4TOPsINT4 或 3.6TOPsINT8 的高算力 NPU,支持4K30fps 的 ISP,以及支持 H.264、H.265 編碼的 VPU。 應用場景: 智慧城市、 智能家居等領域, 尤其在智能網絡攝像機、 智能工業相機、 門禁設備、運動相機、快速喚醒類產品范疇 競爭優勢:擁有混和精度 NPU 和 AI-ISP 兩大自研核心技術,具備高算力、高能效比的技術特點,可有效提高芯片產品的能效比,獲得更優的畫質效果。 九天睿芯 核心技術:模擬預處理與模數混合信號存內計算技術 代表產品: ADA200 是基于感存算一體芯片架構的多傳感器芯片融合處理芯片, 可在超低功耗下
64、(低于 1mW)下進行聲音、視覺,以及其他時序信號類傳感器的融合處理,可廣泛應用于智能手機,可穿戴,智能家居,工業,醫療等一系列對低功耗、高能效比有需求的應用場景。 應用場景:工業領域 - AON 喚醒下的聲音異常觸發;安防領域 - AON 下的人形檢測觸發;消費類領域 - 個人設備(手機,手表)的人臉喚醒,圖像識別;XR 眼動追蹤,視覺辨識;機器人、自動駕駛領域:視覺輔助系統。 競爭優勢:九天睿芯自主創新的“感存算一體”芯片架構是由 ASP(模擬特征預處理)+ADA(基于 6T SRAM 的模數混合信號存內計算)兩部分組成。ASP 類似 DSP(數字信號處理)模擬版本,可以在模擬信號端直接進
65、行信號的特征分析和提??;這樣可以在 ADC 之前,有效提取有效信號,去除掉冗余信號;大大降低 ADC 的工作負載,從而實現低功耗,高效率的計算工作。ADA 基于 6T SRAM 的模數混合信號存內計算 AI 加速器,可實現超高能效比。 時識科技 核心技術:事件驅動的神經形態動態視覺處理、基于脈沖神經網絡(SNN)的低功耗語音信號處理、身體信號實時檢測處理,橫跨類腦感知與計算 代表產品:SynSense 時識科技“感算一體”動態視覺智能 SoCSpeck,以單 SoC 芯片集成獨有的 DYNAP-CNN 動態視覺專用處理器+DVS 傳感器陣列, 基于類腦感知及計算、 純異步數字電路設計,對像素級
66、大規模動態數據流實時處理,為針對設備端應用的亞毫瓦級、實時視覺邊緣運算解決方案。 應用場景: 針對端側感知及計算, 適用于手勢控制、 行為檢測、 跌倒檢測、 高速避障等場景,主要可應用于智能家居、智能玩具、智慧交通、智能座艙、無人機等領域。 競爭優勢:SynSense 時識科技仿生類腦智能,實現架構與算法的雙重突破,視覺、語音類產品矩陣基于仿生神經網絡優勢,將響應延遲降低 10-100 倍,功耗降低 100-1000 倍,成本降低 10 倍。 清微智能 核心技術:可重構計算(CGRA) 代表產品:TX510 面向邊緣計算的超低功耗視覺處理芯片,以可重構計算架構實現高性能計算,低功率消耗,能效比
67、達國際知名企業同類芯片的 3-5 倍,靈活支持多種目標識別、人臉識別、 3D 視覺等算法, 支持豐富的擴展應用 (在一些垂直領域, 市場占有率達到 60%以上) 。 應用場景:智能安防、智能家居、機器人、航空航天等。 競爭優勢: 清微智能的可重構智能芯片是基于可重構數據流/控制流計算架構的AI芯片類型,具有按需即時重構、高能效、低功耗、通用性特點,可重構計算是后摩爾時代的顛覆性技術之一,清微是第一家將該技術大規模商用的公司。 華夏芯 核心技術:Unity 指令集架構 代表產品:GPTX1/GPTX2 CPU 內核 IP、GP3600 DSP 芯片、GP8300 AI 處理器 應用場景:嵌入式應
68、用、輔助駕駛(ADAS) 、智能監控、機器人、邊緣計算等應用。 競爭優勢:多核異構計算處理器 IP。 平頭哥 核心技術:自研 NPU 架構 代表產品:含光 800 AI 芯片 應用場景:阿里云平臺、電商智能搜索 競爭優勢:依托阿里平臺,為阿里云提供 AI 計算能力。 昆侖芯科技 核心技術:自研 XPU-R 架構 代表產品:昆侖芯 1 代和 2 代芯片、K100/K200 AI 加速卡、R200 AI 加速卡、R480 -X8 AI 加速器組 應用場景:互聯網、智慧城市、智算中心、智慧工業、智慧應急、智慧交通、智慧金融等“智慧+”產業。 競爭優勢:大規模落地驗證、工程化經驗積累;深刻的場景理解、
69、全方位的產品視角;穩定的核心團隊、全面的技術沉淀;自研核心架構、頂尖互聯網公司軟件棧水準。 華為海思 核心技術:自研華為達芬奇架構 NPU、3D Cube 技術; 代表產品:昇騰(Ascend)310 是一款高能效、靈活可編程的人工智能處理器,在典型配置下可以輸出 16TOPSINT8、8TOPSFP16,功耗僅為 8W。昇騰 310 采用華為自研達芬奇架構 NPU,以高性能 3D Cube 計算引擎為基礎,大幅提高單位功耗下的 AI 算力。全 AI 業務流程加速,大幅提高 AI 全系統的性能,有效降低部署成本。 昇騰 (Ascend) 910 是海思系列中算力最強的 AI 處理器, 基于自研
70、華為達芬奇架構 3D Cube技術,實現最佳 AI 性能與能效平衡,架構靈活伸縮,支持云邊端全棧全場景應用。在算力方面,昇騰 910 在八位整數精度(INT8)下的算力達到 640 TOPS,16 位浮點數(FP16)下的算力達到 320 TFLOPS,最大功耗僅為 310W。 應用場景:海思以全場景 AI 芯片昇騰系列助力 AI 從中心側向邊緣側延伸,面向數字中心、邊緣、消費終端和 IoT 場景,可為平安城市、自動駕駛、云業務和 IT 智能、智能制造、機器人等應用場景提供完整的 AI 解決方案。 紫光展銳 核心技術:異構雙核 NPU 架構、自研 API 代表產品:虎賁 T710 采用異構雙核
71、 NPU 架構,支持業界主流 AI 訓練框架,自研 API 可提高算法效率。性能:4 x A75 2.0GHz + 4 x A55 1.8GHz;影像:4800 萬(4in1)攝像頭、4K30fps 編解碼、超級夜景、防抖等功能。 應用場景:適用工業、商業、醫療、家居、教育等場景。 地平線 核心技術:人工智能專用計算架構 BPU 代表產品:車規級 AI 芯片征程 2/3/5;AIoT 邊緣 AI 芯片平臺旭日 2/3。 應用場景:汽車 ADAS/自動駕駛、AIoT 邊緣計算。地平線自主研發兼具極致效能與高效靈活的邊緣人工智能芯片及解決方案, 可面向智能駕駛以及更廣泛的智能物聯網領域, 提供包括
72、邊緣 AI 芯片、豐富算法 IP、開放工具鏈等在內的全方位賦能服務。 競爭優勢:中國唯一實現車規級 AI 芯片前裝量產的企業。地平線第三代車規級產品征程 5是遵循 ISO 26262 功能安全認證流程開發,并通過 ASIL-B 認證的車規級 AI 芯片;征程系列 AI 芯片出貨量已經超過百萬,與眾多主機廠實現前裝量產合作。 寒武紀 核心技術:智能處理器架構MLUarch03和MLUv02架構、Cambricon NeuWare、推理加速引擎 MagicMind 代表產品:思元 290/270/370/220 系列 AI 芯片;終端智能處理器 IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡以及
73、基礎系統軟件平臺。 應用場景:通用型云端訓練和邊緣/終端推理 AI 方案。 競爭優勢:AI 核心技術和人才團隊優勢;同時為云端、邊緣端、終端提供全品類系列化智能芯片和處理器產品的能力。 比特大陸 核心技術:自主研發 TPU 架構 代表產品:智算邊緣 AI 芯片 BM1682 和 BM1684,終端 AI 視覺處理器;智算卡和服務器 應用場景:視頻分析、機器視覺、高性能計算環境 競爭優勢:硬件和軟件生態。 云天勵飛 核心技術:算法+芯片+大數據,構建全棧 AI 代表產品:DeepEye 2000、DeepEdge 10/50/100 應用場景:智能安防、新商業、智慧交通、智能制造、智慧倉儲、智能
74、家居、機器人、智能超算等多個行業及領域應用。 全志科技 核心技術:高清音視頻編解碼技術、高清數字電視信號解調技術 代表產品:V535 是全志科技研發的新一代智能行車專用處理器,是集圖像視頻處理和 AI 視覺于一體的高性能、高集成度、高穩定性的工業級芯片;V535 針對客戶需求實現多項突破性創新設計及優化,可在多路圖像實時編解碼同時具備 AI(如:車、人)檢測識別等功能。 應用場景:智能行車記錄和駕駛行為檢測類產品,包括車載全盲區 AI 監測預警儀、駕駛員行為檢測儀等。 瑞芯微 核心技術:應用處理器技術 代表產品: RK3588 是瑞芯微新一代旗艦級高端處理器, 具有高算力、 低功耗、 超強多媒
75、體、豐富數據接口等特點。搭載四核 A76+四核 A55 的八核 CPU 和 ARM G610MP4 GPU,內置 6 TOPs 算力的 NPU。其它產品還包括智能應用處理器芯片、智能物聯應用處理器芯片、電源管理芯片等。 應用場景:平板/筆記本、智能物聯硬件、AIoT 行業類應用。 鯤云科技 核心技術:自主研發推出定制數據流 CAISA 架構和編譯工具鏈 RainBuilder 代表產品:數據流 AI 芯片 CAISA 搭載了四個 CAISA 3.0 引擎,峰值性能可達 10.9TOPs,具有超過 1.6 萬個 MAC(乘累加)單元以及所有輔助邏輯。為支持較高的硬件資源利用率,同時設計了分布式數
76、據流緩存, 為每個CAISA引擎提供超過340Gbps的帶寬, 可實現最高95.4%的芯片利用率;CAISA 引擎本身基于對常用神經網絡模型的計算量統計進行優化,其不僅為常見的神經網絡計算(如 Pooling,ReLU 等)實現了專用的硬件計算模塊,且與卷積計算的比例經過平衡, 可在常用 AI 算法中實現最佳性能, 滿足不斷增長的邊緣側和 IDC 算力需求,為客戶提供更高的算力性價比。 應用場景:基于 CAISA 芯片,鯤云科技推出面向邊緣端、數據中心進行深度學習推斷的 AI專用計算加速的星空加速卡 X3,定位于高性能 AI 推斷加速,星空加速卡兼容 TensorFlow、PyTorch、Ca
77、ffe、ONNX(MXNet) 等主流框架,可簡單快速實現 AI 算法模型到硬件上的無縫遷移,充分體現其高算力性價比、高通用性和高軟件易用性。目前星空加速卡 X3 已應用于航空航天、智慧城市、安防、安全生產、電力、工業等領域。 依圖科技 核心技術:計算機視覺技術、語音識別技術、自然語言理解技術 代表產品:求索 AI 芯片,以及基于求索芯片的原石系列服務器、前沿系列邊緣計算設備。 應用場景:人臉識別、語音識別、醫療等。 競爭優勢: 以人工智能芯片技術和算法技術為核心, 研發及銷售包含人工智能算力硬件和軟件在內的人工智能解決方案。解決方案的形態主要包括軟件、硬件、軟硬件組合以及 SaaS 服務等。
78、 啟英泰倫 核心技術:腦神經網絡處理器核(BNPU) 、語音識別、聲紋識別、自然語言處理、麥克風降噪增強技術 代表產品: CI100X系列、 CI110X系列、 CI112X系列。 二代語音芯片CI110X系列 (CI1102/CI1103)性能較一代芯片有了很大提升,增加了聲紋識別、波束形成、語音定向、離在線識別、本地命令詞學習等更豐富的功能,成本也下降了很多,功耗甚至降到 1/3。成本更低的升級版語音芯片 CI1122,在算法方面,5dB 信噪比噪聲環境下識別率可以達到 85%以上,意味著像油煙機這種高噪聲設備都可以輕松進行語音控制。 應用場景:智能語音、智能家居。 知存科技 核心技術:
79、存算一體中最高效的存內計算技術, 具備高算力、 多應用、 全面領先的優勢特點。代表產品:WTM2101 國際首個存算一體 SoC 芯片,基于存算一體技術,高算力與低功耗可兼得,50Gops 8-bit AI 算力,5uA-3mA,同時實現 NN VAD、上百條命令詞連續識別、AI 通話降噪、實時健康監測,WLCSP(2.6mmx3.2mm) 極小封裝尺寸 應用場景:智能語音、智能視覺、可穿戴設備、移動設備等。 競爭優勢:WTM2101 的存內計算單元可以運行幾十 Mops 到幾 Gops 的不同類型深度學習算法,功耗低至亞毫安??赏瑫r運行多個深度學習算法,應用在語音識別、語音增強、健康監測、環
80、境識別、遠場喚醒、事件檢測等多個應用場景。與主流數字 NPU、DSP 相比,WTM2101 可提高算力數十倍。2022 年 3 月,WTM2101 已正式量產并推向市場。 億智電子 核心技術:NPU、多場景 AI 算法、數?;旌项?IP 設計、操作系統及軟件技術 代表產品:SV823 系列 AI 芯片集成自研 NPU、具備高性能的圖像處理和編解碼能力,主要應用于智能安防場景。該系列芯片采用智能 H.265+編碼技術,可降低編碼碼率,有效節省硬盤空間;并集成專業安防級別的 ISP,支持 23 幀寬動態融合技術和自適應降噪技術,在逆光和低照度環境下表現出色,讓攝像機看清豐富細節。 主要應用:SV
81、系列芯片主要應用于視像安防領域,如:如前端智能攝像機、智慧門禁機等產品;SA 系列芯片主要應用于汽車電子,如:DMS+BSD,智能 DVR 等;SH 系列芯片主要應用于智能硬件,如:智能家電,教育類智能硬件等。 競爭優勢:以 SoC 級的芯片整合設計和 AI 算法為核心的整體交付服務。IP 高度自主研發,面向端側 AI 場景可精準設計 SoC 芯片產品矩陣。 黑芝麻智能 核心技術:兩大核心自研 IPNeuralIQISP 圖像信號處理器及高性能深度神經網絡算法平臺 DynamAI NN 引擎。 代表產品:黑芝麻智能基于兩大自研 IP 發布了多款芯片產品。華山二號 A1000 自動駕駛計算芯片算
82、力達 58-116TOPS,處于量產狀態,今年量產上車,A1000 已經完成所有車規級認證,是算力最大、性能最強的自動駕駛芯片,同時也將是首個量產的符合車規、單芯片支持行泊一體域控制器的國產芯片平臺。 應用場景: 黑芝麻智能能夠提供完整的自動駕駛、 車路協同解決方案, 包括基于車規級設計、學習型圖像處理、 低功耗精準感知的自動駕駛感知計算芯片和自動駕駛計算平臺, 支撐自動駕駛產業鏈相關產品方案的快速產業化落地。 競爭優勢:黑芝麻智能已經建立起完善的客戶賦能體系,包含芯片、算法、數據、軟件和工具,全維度賦能車廠安全、快速地實現產品落地。 肇觀電子 核心技術:人工智能計算機視覺處理技術 代表產品:
83、N 系列、D 系列、V 系列芯片。N 系列芯片是針對超高清 AI 智能攝像頭產品開發的低功耗高性能 SoC 芯片,分別提供 8M/4M/2M 像素級別圖像采集處理能力,最高算力可達到 2.4TOPS。支持高質量的 ISP 處理,內置 3D 降噪和動態對比度提升模塊,并集成了HDR 專利技術。D163A 芯片是針對機器人和 3D 視覺智能攝像頭產品開發的一款低功耗高性能 SoC 芯片。 在 N163 芯片的基礎上, 增加了高性能的雙目深度視覺處理的獨立硬件 IP,能夠實時輸出深度圖像。同時,提供了更加豐富的外圍接口,以適用機器人等智能終端的開發需求。 V163A 芯片在 D163 的基礎上, 性
84、能更進一步, 已通過 AEC-Q100 Grade 2 標準。 可用于 ADAS 輔助駕駛等專業車載應用。 應用場景:專業安防、輔助駕駛、機器人、家用攝像、人臉識別等領域。 探境科技 核心技術:存儲優先的芯片架構 SFA (Storage First Architecture ),以存儲驅動計算打破存儲墻針對 AI 計算“高差異、高并發、高耦合”特性。 代表產品:語音芯片第一代產品 VOI611,具備識別好、功耗低、易集成等特點 語音芯片第二代產品,在集成度、功耗和低 BOM 成本都實現了新的突破,并支持離在線一體化設計,共包括經典版 VOI311(可實現 20 字以內的語音命令) 、升級版
85、VOI621(第一代的繼承版,可做更多的語音前端處理)和增強版 VOI721(算力大幅提升,可進行動態的數據壓縮,并支持高端的自然語義理解算法)三款芯片。 應用場景: 邊緣計算、智能家居。 嘉楠科技 核心技術:基于 RISC-V 架構的邊緣智能計算、神經網絡加速器 代表產品:第一代 AI 芯片勘智 K210,基于 RISC-V 架構自主知識產權商用邊緣 AI 芯片;第二代芯片勘智 K510 比一代芯片提升了 3 倍的算力, 主要針對端側進行多路高清視頻的處理。應用場景:AI STEAM 教育、機器人、智能家居和輔助駕駛等領域。 云知聲 核心技術: 語音感知、 認知和表達、 超算平臺與圖像、 機
86、器翻譯等多模態人工智能硬核技術。 代表產品: 蜂鳥芯片是專為智能家居設計的異構 SoC, 是最新一代專門為離在線遠場語音交互場景設計的高性能、 高集成度、 低成本的語音智能 IoT 芯片, 主要面對智能家電、 小家電、燈具、智能插座等產品領域。其特性如下:VAD+DSP+NPU+CPU 異步低功耗架構;前端信號處理 DSP,性能是 HiFi4 的兩倍;提供更好的降噪,增強,BF 等功能;高效神經網絡處理器提供更快速和準確語音識別;內置 1.5MB SRAM;支持安全啟動;支持 100 條本地離線指令識別;RTOS 輕量系統;豐富的外圍接口;芯片正常工作功耗 100mW。 應用場景:提供跨硬件平
87、臺、跨應用場景,端云一體的人工智能整體解決方案,廣泛應用于家居、醫療、金融、教育、交通、汽車、地產等領域。 酷芯微 核心技術:智能感知、智能計算、智能傳輸三大核心技術 代表產品: AR9341 采用 CPU+DSP+NPU 的異構運算, 集成了酷芯微電子自研的第二代 HiFi-ISP 技術,在 2D 降噪、3D 降噪、HDR、去霧、邊緣增強等各方面達到行業極高的水平,同時內部集成紅外熱成像圖像增強的技術,具有更加廣泛的適應性。 應用場景:高端智能 IPC、車載輔助駕駛、邊緣計算盒子、智能機器人等。 杭州國芯 核心技術:神經網絡處理器 gxNPU 技術、數字電視、IoT AI 代表產品:GX80
88、02 超低功耗 AI 語音芯片;GX8010 物聯網人工智能芯片;GX8009 AI 語音SoC 芯片;GX8008 AI 語音處理芯片;GX8001 YOC 芯片。AI 產品采用多核異構,有 NPU、ARM、C-Sky、DSP 等架構,低功耗語音喚醒算法,雙麥陣列降噪算法,VAD 檢測算法,離線 ASR 算法,神經網絡壓縮算法。 應用場景:智能車載、智能音箱、智能家居、智能穿戴等多個應用領域。已和阿里巴巴、京東、百度、360、Rokid、出門問問、科大訊飛、聲智、思必馳、創維、TCL、海爾等公司達成深入合作。 北京君正 專業級視覺AI應用協處理器T02擁有高達8T的計算能力, 全速運行情況下
89、功耗僅需1.5W,可以搭配各大平臺實現視頻結構化車牌、 車型、 人臉、 人形, 一顆芯片完成人形、 車輛、非機動車檢測及人臉識別、車牌識別、人車屬性分析。搭載 T02 協處理器的產品已經廣泛應用于平安城市、電力、學校等多種安防項目中。 最新一代智能視頻 SoC 芯片 T31 系列采用 22 納米工藝,擁有高達 1.8G 的主頻,最高支持500 萬 25 幀,并有 BGA 和 QFN 兩種封裝方式。T31 系列芯片包括 T31L 和 T31A,可在設備端集成北京君正的系列深度學習算法,包括深度學習的人形、人臉、車牌的檢測和識別。相較于傳統的 CV 算法,北京君正深度學習算法更高效,在復雜環境如遮
90、擋、大角度等場景下更準確,解決了 CV 算法的痛點,從容賦能端級 AI。 結語 AI 在數據中心和云計算、邊緣計算,以及各種智能終端領域的應用為 AI 芯片帶來了巨大的發展機會。在新興的 AI 芯片細分市場,國產廠商與國際芯片巨頭幾乎在同一起跑線上,尤其是邊緣和端側應用場景。 盡管國產 AI 芯片公司在高性能和先進工藝 AI 芯片的設計方面還面臨諸多挑戰,而且在 AI 芯片價值鏈的 EDA 和 IP 環節上還有不小的差距,但中國 AI 市場的體量和快速迭代發展仍然為眾多國產 AI 芯片廠商提供了豐富的試驗基地和應用設計機會,接下來的 3-5 年將是國產 AI 芯片廠商加速 AI 應用落地和大規模部署的快速發展時期。