《高通:2024高通AI白皮書-讓AI觸手可及(76頁).pdf》由會員分享,可在線閱讀,更多相關《高通:2024高通AI白皮書-讓AI觸手可及(76頁).pdf(76頁珍藏版)》請在三個皮匠報告上搜索。
1、讓AI觸手可及高通AI白皮書 Qualcomm AI White Paper序 言攜手合作 擁抱AI終端創新的黃金時代高通公司中國區董事長 孟樸PREAMBLE一年前,高通公司發布了 混合AI是AI的未來 白皮書,率先向業界分享了對人工智能(AI)技術發展趨勢的洞察。那時,ChatGPT 等生成式AI初露鋒芒,這一現象級的應用引發了產業界對這場AI技術革命的廣泛探討和巨大期待。人們開始意識到,生成式AI將為各行各業生產力的提升帶來質變。從那時起,大模型技術日新月異,商業化應用的步伐不斷加快。當每個人都希望無時無刻地擁有“個人大模型”時,生成式AI走向終端,成為了一個不可逆轉的趨勢。智能終端的新
2、應用、新形態、新場景,正在為AI技術的普及提供廣闊的空間,AI終端創新的黃金時代已經到來。當生成式AI展現出強大的能力和前景,我們也認識到,AI技術的真正價值在于其普惠性 要實現 AI人人可享、人人可用,需要讓AI技術更加貼近用戶,在人們觸手可及的終端上運行。由此,AI的計算重心正在從云端向終端遷移。這是由市場需求、技術趨勢和用戶體驗共同驅動的結果。從主機到智能手機、個人電腦(PC)等終端,計算能力的下沉使得這些終端也能夠進行AI加速計算。這種分布式計算平臺的運行,不僅提高了計算效率,也加速了AI在終端側的演進。與此同時,AI能夠本地運行,并根據用戶需求與云端交互,人機交互將變得更自然、更即時
3、、更加個性化,隱私性也更有保障。在這個過程中,5G作為關鍵的連接“底座”,為AI在云端、邊緣云和終端側協同奠定了堅實的基礎。預計到2025年底,全球5G連接規模將達到25億1。這正是“5G+AI”協同發展所帶來的令人興奮的變革它改變了用戶體驗的定義,豐富了千行百業的智能連接用例,也推動了新一輪終端創新的浪潮。在高通看來,這也正是生成式AI的革新意義 智能終端讓AI成為無處不在的個人助理,推動終端與云端的融合,為智能手機帶來新的互動方式,讓汽車成為全新的運算空間,為下一代PC帶來強大的AI能力,智能終端市場迎來了新的增長動力。從云到端:智能終端迎來新增長周期,讓AI真正觸手可及 GSMI、GTI
4、、中移智庫:5G新技術創造新價值 智能手機、PC、智能網聯汽車位于AI終端創新的最前沿。其中,智能手機市場規模龐大,年出貨量高達十幾億臺。目前,眾多手機廠商積極推廣生成式AI應用,使得智能手機有望成為生成式AI發展最快的領域之一。據預測2,生成式AI智能手機出貨量將在2023到2027年迅速增長,預計2024年出貨量占比達到11%,到2027年將達到5.5億部,占比43%,年均復合增長率為49%。AI應用場景不斷拓展,各類算法模型日趨多樣化和復雜,對底層算力的需求也與日俱增。如何將“大模型”高效裝載到“小設備”,滿足多樣化的生成式 AI用例?這有賴于終端算力的革新升級。你的智能手機將成為個人A
5、I助理的載體,幫你完成信息查找、場景識別、圖像處理等各種任務。然而,這些任務對計算資源和處理能力的要求不盡相同。這就需要從以通用計算為核心的計算架構,向更加高性能的異構AI計算架構升級,讓CPU、GPU和NPU等不同的計算單元“各司其職”。只有協同使用這些計算單元,異構計算才能在應用性能、能效和電池續航上實現最優化,讓AI助理如虎添翼,賦能增強的生成式AI體驗。作為 AI 前沿科技的開拓者和探索者,我們看到,終端側AI規?;瘮U展正在點燃產業界的熱情和信心,推動智能終端軟硬件和生態層面的創新。我們也倍感自豪,高通能夠成為推動這一進程的重要力量。今年3月,我們發布了 通過NPU和異構計算開啟終端側
6、生成式AI白皮書,分享了高通在異構計算架構和NPU研究方面的創新成果。事實上,早在2007年,也就是生成式AI進入大眾視野的15年前,高通就開始了對NPU的研究。多年來,高通致力于將高性能低功耗的AI計算能力帶入終端設備,打造了專為AI定制設計的全新計算架構。通過異構計算AI引擎,我們將性能卓越的CPU、NPU和GPU進行組合,為行業提供了可行的解決方案,支持生態系統在跨多品類終端上開發并實現生成式AI用例、體驗和領先產品,讓智能計算無處不在。終端側AI規?;瘮U展的發展浪潮,為大模型服務商、終端廠商、算力提供商、應用開發者等產業鏈各方,帶來了前所未有的發展機遇。據預測3,對端側AI能力的需求可
7、能會引發新一輪的換機熱潮,并有助于提高設備的平均銷售價格(ASP),AI能力將成為手機廠商推進高端化的有效發力點。小米、榮耀、OPPO、三星等品牌均已推出支持豐富生成式AI應用的旗艦機型。在PC領域,預計到2027年4,超過 60%出貨的PC將是AI PC。從“百?!钡健鞍俣恕保鹤尭咝阅艿腁I處理成為可能,賦能終端側AI規?;瘮U展從共享機遇到共建生態:共創AI終端創新的黃金時代2 Counterpoint:生成式AI智能手機出貨量將大漲,2027年占比達43%3 Canalys:洞悉中國手機市場的AI趨勢與潛力4 Canalys:Canalys報告摘要:AI PC的現在和未來2024年世界移動
8、通信大會(MWC)期間,高通憑借領先的AI技術創新,榮獲全球移動大獎(GLOMO獎)的“最佳人工智能創新獎”5,專為生成式AI而生的移動平臺第三代驍龍8榮獲“設備創新突破獎”6,賦能智能手機體驗的全面突破,讓智能計算無處不在。全球移動大獎(GLOMO獎)是全球數字智能領域的最高獎項,表彰推動移動行業進步的巨擘級創新7。面對AI終端產業機遇,我們始終相信,要實現讓智能計算無處不在、AI觸手可及,需要產業鏈上下游的通力合作,需要包括中國在內的全球生態系統的創新與協作。這將加速AI技術在各領域的普及與應用,為形成新質生產力蓄勢賦能。高通的AI領先優勢得益于與業界的深度合作。無論是高通的異構計算能力,
9、還是可擴展的AI軟件工具等,都需要與客戶的終端深度結合才能實現。我們也很高興地看到,高通的AI解決方案和驍龍平臺正在成為推動終端側AI體驗的關鍵引擎 手機廠商基于第三代驍龍8移動平臺,為消費者打造突破性的AI體驗;PC廠商通過驍龍X系列平臺產品組合,為企業用戶和消費者帶來強大生產力、豐富創造力和沉浸式娛樂體驗;汽車廠商也基于驍龍數字底盤,將智能網聯汽車上的生成式AI應用與云端AI相結合,為用戶創造更好的駕乘體驗。目前,高通AI引擎賦能的終端產品出貨量已經超過了20億。與此同時,為了與生態伙伴共建開放生態,高通推出了AI Hub,讓開發者充分發揮前沿技術的潛力,共同推進終端側AI的規?;逃眠M程
10、。我們希望能夠打造一個橫向生態系統,讓所有模型在終端上可以和諧共生,帶來跨多個生態系統的全新AI體驗。在終端側AI規?;瘮U展的機遇面前,我們倍感振奮,將一如既往地通過技術創新與合作共贏,擔當推動終端側AI發展的重要力量。期望各界能夠從我們最新結集發布的讓AI觸手可及 高通AI白皮書 中,更加系統性地了解高通在AI技術演進和應用落地方面的見解和洞察。這不僅是高通在AI領域持續探索、不斷突破的有力見證,也凝聚了高通與行業伙伴共同智慧的結晶。讓我們攜手共同邁向激動人心的AI新時代,一同探索AI終端創新的無限可能,見證AI科技變革千行百業、成就人類美好生活的壯闊進程。2024設備創新突破獎第三代驍龍8
11、2024最佳人工智能創新獎高通人工智能引擎高通連續2年入圍全球移動大獎6 獎項名稱 Breakthrough device innovation,請以英文為準5 獎項名稱 Best AI Innovation,請以英文為準7 獎項信息源自官方介紹,https:/ 第三代驍龍8的領先智能手機上AI性能8.2 驍龍 X Elite的領先PC上AI性能1415167.1 高通AI引擎中的處理器7.2 高通AI異構計算的系統級解決方案7.3 案例研究:使用異構計算的虛擬化身AI個人助手通過NPU和異構計算開啟終端側生成式AI第一部分 PART ONETable of contents1.摘要2.生成式
12、AI簡介和當前趨勢3.混合AI對生成式AI規?;瘮U展至關重要4.終端側AI的演進與生成式AI的需求密切相關 5.跨終端品類的生成式AI關鍵用例6.總結4.1 終端側處理能夠支持多樣化的生成式AI模型2726303030303232323333333537424043435043444649終端側AI和混合AI開啟生成式AI的未來3.1 什么是混合AI?3.2 混合AI的優勢3.2.1 成本3.2.2 能耗3.2.3 可靠性、性能和時延3.2.4 隱私和安全3.2.5 個性化3.3 AI工作負載的分布式處理機制3.3.1 以終端為中心的混合AI3.3.2 基于終端感知的混合AI3.3.3 終端與
13、云端協同處理的混合AI5.1 智能手機:搜索和數字助手5.2 筆記本電腦和PC:生產力5.3 汽車:數字助手和自動駕駛5.4 XR:3D內容創作和沉浸式體驗5.5 物聯網:運營效率和客戶支持第二部分 PART TWOTable of contents高通在推動混合AI規?;瘮U展方面獨具優勢1.摘要3.我們在終端側生成式AI領域的領導力4.卓越的終端側AI技術和全棧優化 5.無與倫比的全球邊緣側布局和規模 6.總結2.1 持續創新2.1.1 我們AI技術的發展歷程3.1 突破終端側和混合AI邊界3.2 負責任的AI 4.1 算法和模型開發4.2 軟件和模型效率4.2.1 量化4.2.2 編譯4.
14、3 硬件加速5.1 手機5.2 汽車5.3 PC和平板電腦5.4 物聯網5.5 XR5453525455555658575862626367666867676868第三部分 PART THREE2.高通技術公司是終端側AI的領導者生成式AI時代需要何種算力?Unlocking on-device generative AI with an NPU and heterogeneous computing高通AI白皮書 第一部分通過NPU和異構計算開啟終端側生成式AI 1.摘要生成式AI變革已經到來。隨著生成式AI用例需求在有著多樣化要求和計算需求的垂直領域不斷增加,我們顯然需要專為AI定制設計的
15、全新計算架構。這首先需要一個面向生成式AI全新設計的神經網絡處理器(NPU),同時要利用異構處理器組合,比如中央處理器(CPU)和圖形處理器(GPU)。通過結合NPU使用合適的處理器,異構計算能夠實現最佳應用性能、能效和電池續航,賦能全新增強的生成式AI體驗。NPU專為實現低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發展不斷演進。優秀的NPU設計能夠提供正確的設計選擇,與AI行業方向保持高度一致。高通正在助力讓智能計算無處不在。業界領先的高通 Hexagon NPU面向以低功耗實現持續穩定的高性能AI推理而設計。高通NPU的差異化優勢在于系統級解決方案、定制設計和快速創新。通過
16、定制設計NPU以及控制指令集架構(ISA),高通能夠快速進行設計演進和擴展,以解決瓶頸問題并優化性能。Hexagon NPU是高通業界領先的異構計算架構高通AI引擎中的關鍵處理器,高通AI引擎還包括高通 Adreno GPU、高通 Kryo或高通 Oryon CPU、高通傳感器中樞和內存子系統。這些處理器為實現協同工作而設計,能夠在終端側快速且高效地運行AI應用。我們在AI基準測試和實際生成式AI應用方面的行業領先性能就是例證。我們還專注于在全球搭載高通和驍龍平臺的數十億終端設備上實現便捷開發和部署,賦能開發者。利用高通AI軟件棧(Qualcomm AI Stack),開發者可在高通硬件上創建
17、、優化和部署AI應用,一次編寫即可實現在不同產品和細分領域采用高通芯片組解決方案進行部署。高通技術公司正在賦能終端側生成式AI的規?;瘮U展。第一部分通過NPU和異構計算開啟終端側生成式AIPART ONEUnlocking on-device generative AI with an NPU and heterogeneous computing02 2.處理器集成于SoC中的諸多優勢在不斷增長的用戶需求、全新應用和終端品類以及技術進步的驅動下,計算架構正在不斷演進。最初,中央處理器(CPU)就能夠完成大部分處理,但隨著計算需求增長,對全新處理器和加速器的需求出現。例如,早期智能手機系統由C
18、PU和環繞CPU分布的分立芯片組成,用于2D圖形、音頻、圖像信號處理、蜂窩調制解調器和GPS等處理。隨著時間推移,這些芯片的功能已經集成到稱為系統級芯片(SoC)的單個芯片體(DIE)中。例如,現代智能手機、PC和汽車SoC已集成多種處理器,如中央處理器(CPU)、圖形處理器(GPU)和神經網絡處理器(NPU)。芯片設計上的這種集成具有諸多優勢,包括改善峰值性能、能效、單位面積性能、芯片尺寸和成本。例如,在智能手機或筆記本電腦內安裝分立的GPU或NPU會占用更多電路板空間,需要使用更多能源,從而影響工業設計和電池尺寸。此外,輸入/輸出引腳間的數據傳輸也將增多,將導致性能降低、能耗增加,以及采用
19、更大電路板帶來的額外成本和更低的共享內存效率。對于智能手機、筆記本電腦和其他需要輕巧工業設計,具有嚴格功率和散熱限制的便攜式終端,集成更為必要。圖1:現代SoC在單個DIE中集成多個處理器以改善峰值性能、能效、單位面積性能、工業設計和成本。CPUGPUNPUWi-FiISP傳感內存蜂窩調制解調器安全03 3.生成式AI需要多樣化的處理器談到AI,集成專用處理器并不新鮮。智能手機SoC自多年前就開始利用NPU改善日常用戶體驗,賦能出色影像和音頻,以及增強的連接和安全。不同之處在于,生成式AI用例需求在有著多樣化要求和計算需求的垂直領域不斷增加。這些用例可分為三類:1.按需用例由用戶觸發,需要立即
20、響應,包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉錄/摘要和文本(電子郵件、文檔等)創作/摘要。這包括用戶用手機輸入文字創作自定義圖像、在PC上生成會議摘要,或在開車時用語音查詢最近的加油站。2.持續型用例運行時間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實時翻譯。這包括用戶在海外出差時使用手機作為實時對話翻譯器,以及在PC上玩游戲時逐幀運行超級分辨率。3.泛在用例在后臺持續運行,包括始終開啟的預測性AI助手、基于情境感知的AI個性化和高級文本自動填充。例如手機可以根據用戶的對話內容自動建議與同事的會議、PC端的學習輔導助手則能夠根據用戶的答題情況實時調整
21、學習資料。這些AI用例面臨兩大共同的關鍵挑戰。第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務平臺的不同需求,難以滿足這些AI用例嚴苛且多樣化的計算需求。第二,這些AI用例在不斷演進,在功能完全固定的硬件上部署這些用例不切實際。因此,支持處理多樣性的異構計算架構能夠發揮每個處理器的優勢,例如以AI為中心定制設計的NPU,以及CPU和GPU。每個處理器擅長不同的任務:CPU擅長順序控制和即時性,GPU適合并行數據流處理,NPU擅長標量、向量和張量數學運算,可用于核心AI工作負載。CPU和GPU是通用處理器。它們為靈活性而設計,非常易于編程,“本職工作”是負責運行操作系統、游戲和其他應用等
22、。而這些“本職工作”同時也會隨時限制他們運行AI工作負載的可用容量。NPU專為AI打造,AI就是它的“本職工作”。NPU降低部分易編程性以實現更高的峰值性能、能效和面積效率,從而運行機器學習所需的大量乘法、加法和其他運算。通過使用合適的處理器,異構計算能夠實現最佳應用性能、能效和電池續航,賦能全新增強的生成式AI體驗。04Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI 4.NPU入門NPU專為實現以低功耗加速AI推理而全新打造,并隨著新AI用例、模
23、型和需求的發展不斷演進。對整體SoC系統設計、內存訪問模式和其他處理器架構運行AI工作負載時的瓶頸進行的分析會深刻影響NPU設計。這些AI工作負載主要包括由標量、向量和張量數學組成的神經網絡層計算,以及隨后的非線性激活函數。在2015年,早期的NPU面向音頻和語音AI用例而設計,這些用例基于簡單卷積神經網絡(CNN)并且主要需要標量和向量數學運算。從2016年開始,拍照和視頻AI用例大受歡迎,出現了基于Transformer、循環神經網絡(RNN)、長短期記憶網絡(LSTM)和更高維度的卷積神經網絡(CNN)等更復雜的全新模型。這些工作負載需要大量張量數學運算,因此NPU增加了張量加速器和卷積
24、加速,讓處理效率大幅提升。有了面向張量乘法的大共享內存配置和專用硬件,不僅能夠顯著提高性能,而且可以降低內存帶寬占用和能耗。例如,一個NxN矩陣和另一個NxN矩陣相乘,需要讀取2N2個值并進行2N3次運算(單個乘法和加法)。在張量加速器中,每次內存訪問的計算操作比率為N:1,而對于標量和向量加速器,這一比率要小得多。在2023年,大語言模型(LLM)比如Llama 2-7B,和大視覺模型(LVM)比如Stable Diffusion賦能的生成式AI使得典型模型的大小提升超過了一個數量級。除計算需求之外,還需要重點考慮內存和系統設計,通過減少內存數據傳輸以提高性能和能效。未來預計將會出現對更大規
25、模模型和多模態模型的需求。06Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI隨著AI持續快速演進,必須在性能、功耗、效率、可編程性和面積之間進行權衡取舍。一個專用的定制化設計NPU能夠做出正確的選擇,與AI行業方向保持高度一致。圖2:NPU隨著不斷變化的AI用例和模型持續演進,實現高性能低功耗。20152016-202220232023后用例標量向量標量張量向量標量張量向量模型硬件簡單CNN100億參數LLM/LVM100億參數以上LLM/LVMT
26、ransformer/LSTM/RNN/CNNTransformer支持Transformer支持多模態生成式AI模型Stable Diffusion/ControlNet大語言模型賦能的個人助手音頻/語音音頻/語音影像視頻多模態AI微切片推理07 5.高通NPU:以低功耗實現持久穩定的高性能AI經過多年研發,高通 Hexagon NPU不斷演進,能夠滿足快速變化的AI需求。2007年,首款Hexagon DSP在驍龍平臺上正式亮相DSP控制和標量架構是高通未來多代NPU的基礎。2015年,驍龍820處理器正式推出,集成首個高通AI引擎,支持成像、音頻和傳感器運算。2018年,高通在驍龍855
27、中為Hexagon NPU增加了Hexagon張量加速器。2019年,高通在驍龍865上擴展了終端側AI用例,包括AI成像、AI視頻、AI語音和始終在線的感知功能。2020年,高通憑借Hexagon NPU變革性的架構更新,實現了重要里程碑。我們融合標量、向量和張量加速器,帶來了更佳性能和能效,同時還為加速器打造了專用大共享內存,讓共享和遷移數據更加高效。融合AI加速器架構為高通未來的NPU架構奠定了堅實基礎。2022年,第二代驍龍8中的Hexagon NPU引入了眾多重要技術提升。專用電源傳輸軌道能夠根據工作負載動態適配電源供應。微切片推理利用Hexagon NPU的標量加速能力,圖3:20
28、15年發布的驍龍820首次集成高通AI引擎。08Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI將神經網絡分割成多個能夠獨立執行的微切片,消除了高達10余層的內存占用,能夠最大化利用Hexagon NPU中的標量、向量和張量加速器并降低功耗。本地4位整數(INT4)運算支持能夠提升能效和內存帶寬效率,同時將INT4層和神經網絡的張量加速吞吐量提高一倍。Transformer網絡加速大幅加快了應用于生成式AI的多頭注意力機制的推理速度,在使用Mobil
29、eBERT模型的特定用例中能帶來高達4.35倍的驚人AI性能提升。其他特殊硬件包括改進的分組卷積、激活函數加速和張量加速器性能。第三代驍龍8中的Hexagon NPU是高通面向生成式AI最新、也是目前最好的設計,為持續AI推理帶來98%性能提升和40%能效提升1。它包括了跨整個NPU的微架構升級。微切片推理進一步升級,以支持更高效的生成式AI處理,并降低內存帶寬占用。此外,Hexagon張量加速器增加了獨立的電源傳輸軌道,讓需要不同標量、向量和張量處理規模的AI模型能夠實現最高性能和效率。大共享內存的帶寬也增加了一倍?;谝陨咸嵘虸NT4硬件加速,Hexagon NPU成為面向終端側生成式A
30、I大模型推理的領先處理器。1 與前代平臺相比。圖4:第三代驍龍8的Hexagon NPU升級以低功耗實現領先的生成式AI性能。升級的微切片推理微架構升級加速器專用電源高通峰值性能內核2倍帶寬更高主頻更大帶寬進入張量加速器Micro TileInferencingHexagonTM NPUHardwareAccelerationLarge Shared MemorySegNetTensorScalarVectorDedicated Power09高通NPU的差異化優勢在于系統級解決方案、定制設計和快速創新。高通的系統級解決方案考量每個處理器的架構、SoC系統架構和軟件基礎設施,以打造最佳AI解決
31、方案。要在增加或修改硬件方面做出恰當的權衡和決策,需要發現當前和潛在的瓶頸。通過跨應用、神經網絡模型、算法、軟件和硬件的全棧AI研究與優化,高通能夠做到這一點。由于能夠定制設計NPU并控制指令集架構(ISA),高通架構師能夠快速進行設計演進和擴展以解決瓶頸問題。這一迭代改進和反饋循環,使我們能夠基于最新神經網絡架構持續快速增強高通NPU和高通AI軟件棧?;诟咄ǖ淖灾鰽I研究以及與廣大AI社區的合作,我們與AI模型的發展保持同步。高通具有開展基礎性AI研究以支持全棧終端側AI開發的獨特能力,可賦能產品快速上市,并圍繞終端側生成式AI等關鍵應用優化NPU部署。相應地,高通NPU歷經多代演進,利用
32、大量技術成果消除瓶頸。例如,第三代驍龍8的諸多NPU架構升級能夠幫助加速生成式AI大模型。內存帶寬是大語言模型token生成的瓶頸,這意味著其性能表現更受限于內存帶寬而非處理能力。因此,我們專注于提高內存帶寬效率。第三代驍龍8還支持業界最快的內存配置之一:4.8GHz LPDDR5x,支持77GB/s帶寬,能夠滿足生成式AI用例日益增長的內存需求。從DSP架構入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于AI處理的標量、向量和張量運算。高通優化標量、向量和張量加速的設計方案結合本地共享大內存、專用供電系統和其他硬件加速,讓我們的解決方案獨樹一幟。高通NPU能夠模仿最主流模型的
33、神經網絡層和運算,比如卷積、全連接層、Transformer以及主流激活函數,以低功耗實現持續穩定的高性能表現。10Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI 6.異構計算:利用全部處理器支持生成式AI適合終端側執行的生成式AI模型日益復雜,參數規模也在不斷提升,從10億參數到100億,甚至700億參數。其多模態趨勢日益增強,這意味著模型能夠接受多種輸入形式比如文本、語音或圖像,并生成多種輸出結果。此外,許多用例需要同時運行多個模型。例如,個人
34、助手應用采用語音輸入輸出,這需要運行一個支持語音生成文本的自動語音識別(ASR)模型、一個支持文本生成文本的大語言模型、和一個作為語音輸出的文本生成語音(TTS)模型。生成式AI工作負載的復雜性、并發性和多樣性需要利用SoC中所有處理器的能力。最佳的解決方案要求:1.跨處理器和處理器內核擴展生成式AI處理2.將生成式AI模型和用例映射至一個或多個處理器及內核選擇合適的處理器取決于眾多因素,包括用例、終端類型、終端層級、開發時間、關鍵性能指標(KPI)和開發者的技術專長。制定決策需要在眾多因素之間進行權衡,針對不同用例的KPI目標可能是功耗、性能、時延或可獲取性。例如,原始設備制造商(OEM)在
35、面向跨品類和層級的多種終端開發應用時,需要根據SoC規格、最終產品功能、開發難易度、成本和應用跨終端層級的適度降級等因素,選擇運行AI模型的最佳處理器。正如前述,大多數生成式AI用例可分類為按需型、持續型或泛在型用例。按需型應用的關鍵性能指標是時延,因為用戶不想等待。這些應用使用小模型時,CPU通常是正確的選擇。當模型變大(比如數十億參數)時,GPU和NPU往往更合適。電池續航和能效對于持續和泛在型用例至關重要,因此NPU是最佳選擇。另一個關鍵區別在于AI模型為內存限制型(即性能表現受限于內存帶寬),還是計算限制型(即性能表現受限于處理器性能)。當前的大語言模型在生成文本時受內存限制,11因此
36、需要關注CPU、GPU或NPU的內存效率。對于可能受計算或內存限制的大視覺模型,可使用GPU或NPU,但NPU可提供最佳的能效。提供自然語音用戶界面(UI)以提高生產力并增強用戶體驗的個人助手預計將成為一類流行的生成式AI應用。語音識別、大語言模型和語音模型必將以某種并行方式運行,因此理想的情況是在NPU、GPU、CPU和傳感處理器之間分布處理模型。對于PC來說,個人助手預計將始終開啟且無處不在地運行,考慮到性能和能效,應當盡可能在NPU上運行。圖5:正如在工具箱中選擇合適的工具一樣,選擇合適的處理器取決于諸多因素。用例終端類型終端層級開發時間關鍵性能指標開發者技術專長選擇什么處理器取決于:順
37、序控制低時延、低計算量以低功耗實現持續穩定的高峰值性能面向高精度格式的井行處理時延敏感型小模型持續運行的CNN和Transformer模型圖像處理LLMLVM12Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI 7.高通AI引擎:面向生成式AI的業界領先異構計算高通AI引擎包含多個硬件和軟件組件,以加速驍龍和高通平臺上的終端側 AI。在集成硬件方面,高通AI引擎具有業界最領先的異構計算架構,包括Hexagon NPU、Adreno GPU、高通 Kr
38、yo或高通 Oryon CPU、高通傳感器中樞和內存子系統,所有硬件都經過精心設計以實現協同工作,在終端側快速高效地運行AI應用。圖6:高通AI引擎包括Hexagon NPU、Adreno GPU、高通 Kryo或高通Oryon CPU、高通傳感器中樞和內存子系統。7.1 高通AI引擎中的處理器高通最新的Hexagon NPU面向生成式AI帶來了顯著提升,性能提升98%、能效提升40%,包括微架構升級、增強的微切片推理、更低的內存帶寬占用,以及專用電源傳輸軌道,以實現最優性能和能效。這些增強特性結合INT4硬件加速,使Hexagon NPU成為面向終端側AI推理的領先處理器。高通AI引擎14U
39、nlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AIAdreno GPU 不僅是能夠以低功耗進行高性能圖形處理、賦能豐富用戶體驗的強大引擎,還可用于以高精度格式進行AI并行處理,支持32位浮點(FP32)、16位浮點(FP16)和8位整數(INT8)運算。第三代驍龍8中全新升級的 Adreno GPU實現了25%的能效提升,增強了AI、游戲和流媒體能力?;贏dreno GPU,Llama 2-7B每秒可生成超過13個tokens。正如上一章節所述,CPU
40、擅長時延敏感型的低計算量AI工作負載。在驍龍X Elite計算平臺中,高通 Oryon CPU作為PC領域的全新CPU領軍者,可提供高達競品兩倍的CPU性能,達到競品峰值性能時功耗僅為競品的三分之一。始終在線的處理器對于處理面向泛在型生成式AI應用的情境化信息至關重要。高通AI引擎集成的高通傳感器中樞是一款極其高效、始終在線的AI處理器,適用于需要全天候運行的小型神經網絡和泛在型應用,比如情境感知和傳感器處理,所需電流通常不超過1毫安(mA)。第三代驍龍8中全新升級的高通傳感器中樞相比前代性能提升3.5倍,內存增加30%,并配備兩個下一代微型NPU,能夠實現增強的AI性能。高通傳感器中樞具備專
41、用電源傳輸軌道,可在SoC其余部分關閉時運行,從而大幅節省電量。高通AI引擎中的所有處理器相輔相成,能夠實現AI處理效率的大幅度提升。7.2 高通AI異構計算的系統級解決方案異構計算涵蓋整個SoC,包括多樣化處理器、系統架構和軟件三個層級,因此在異構計算解決方案中應用系統級方法至關重要。全局視角讓高通架構師可以評估每個層級之間的關鍵約束條件、需求和依賴關系,從而針對SoC和最終產品用途做出恰當的選擇,比如如何設計共享內存子系統或決定不同處理器應支持的數據類型。高通定制設計了整個系統,因此我們能夠做出恰當的設計權衡,并利用這些洞察打造更具協同性的解決方案。定制設計方法為高通解決方案帶來了差異化優
42、勢,我們可以為每類處理器插入全新的AI指令或硬件加速器。高通致力于推動面向異構計算特性的架構演進,同時保持處理器多樣性這一優勢。如果所有處理器都采用相近的架構,那么SoC將變成同構系統。157.3 案例研究:使用異構計算的虛擬化身AI個人助手在2023驍龍峰會上,高通在搭載第三代驍龍8移動平臺的智能手機上演示了語音控制的AI個人助手,支持手機屏幕上的虛擬化身實現實時動畫效果。該應用需要同時基于不同計算需求,運行眾多復雜工作負載。實現優秀用戶體驗的關鍵在于充分利用SoC內的處理器多樣性,在最匹配的處理器上運行合適的工作負載。高通AI引擎是我們終端側AI優勢的核心,它在驍龍平臺和眾多高通產品中發揮
43、了重要作用。高通AI引擎作為我們多年全棧AI優化的結晶,能夠以極低功耗提供業界領先的終端側AI性能,支持當前和未來的用例。搭載高通AI引擎的產品出貨量已超過20億,賦能了極為廣泛的終端品類,包括智能手機、XR、平板電腦、PC、安防攝像頭、機器人和汽車等。2 相比之下,許多芯片組廠商通常選擇授權多個第三方處理器,然后拼裝在一起。這些處理器不一定能夠緊密配合,也不一定是針對相同約束條件或細分市場而設計的。2 https:/ on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI讓
44、我們看看該如何分配這一用例的工作負載:1.當用戶與AI助手交談時,語音通過OpenAI的自動語音識別(ASR)生成式AI模型 Whisper轉化為文本。該模型在高通傳感器中樞上運行。2.AI助手再使用大語言模型Llama 2-7B生成文本回復。該模型在NPU上運行。3.然后利用在CPU上運行的開源TTS模型將文本轉化為語音。4.與此同時,虛擬化身渲染必須與語音輸出同步,才能實現足夠真實的用戶交互界面。借助音頻創建融合變形動畫(blendshape)能夠給嘴形和面部表情帶來合適的動畫 效果。這一傳統AI工作負載在NPU上運行。5.最終的虛擬化身渲染在GPU上進行。以上步驟需要在整個內存子系統中高
45、效傳輸 數據,盡可能在芯片上保存數據。這一個人助手演示利用了高通AI引擎上的所有多樣化處理器,以高效處理生成式和傳統AI工作負載。圖8:支持虛擬化身的個人助手充分利用高通AI引擎的所有多樣化處理器。WhisperLlama 2UE MetaHuamn開源TTS語音生成融合變形動畫大語言模型語 音融合變形動畫虛擬化身渲染(Blendshape)ASR17圖9:第三代驍龍8在AIMark、AITuTu和MLPerf中具有領先的智能手機AI性能。8.驍龍平臺領先的AI性能實現領先性能需要卓越的硬件和軟件。盡管每秒萬億次運算(TOPS)數值能夠反映硬件性能潛力,但決定硬件可訪問性和總體利用率的是軟件。
46、AI基準測試可以更好的展示性能,但最終的評估方式還是在實際應用中,測試峰值性能、持續穩定性能和能效。由于生成式AI基準測試和應用仍處于起步階段,以下對當前領先AI指標的分析展示了驍龍平臺的領先性能。8.1 第三代驍龍8的領先智能手機上AI性能在MLCommon MLPerf 推理:Mobile V3.1基準測試中,與其他智能手機競品相比,第三代驍龍8具有領先性能。例如,在生成式AI語言理解模型MobileBERT上,第三代驍龍8的表現比競品A高17%,比競品B高321%3。在魯大師AIMark V4.3基準測試中,第三代驍龍8的總分分別為競品B的5.7倍和競品C的7.9倍。在安兔兔AITuTu
47、基準測試中,第三代驍龍8的總分是競品B的6.3倍。3 高通技術公司在搭載驍龍和競品B平臺的手機上運行和收集數據。競品A數據為其自身披露。智能手機AI基準測試MLCommon MLPerf 推理:Mobile V3.19 8 7 6 5 4 3 2 1 0魯大師AIMark V4.3AIMark V4.3 總分AITuTu 總分V2.0 圖像分割(MOSAIC)語言理解(MobileBERT)超級分辨率(EDSR)圖像分類(MobilenetEdgeTPU)圖像分類(MobileneEdgeTPU)物體檢測(MobileDETSSD)相關性能安兔兔AITuTu第三代驍龍8競品 A競品 B競品 C
48、18Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI在2023年驍龍峰會上,高通演示過兩個生成式AI應用,展示了面向大語言模型和大視覺模型通用架構的真實應用性能。在第三代驍龍8上,個人助手演示能夠以高達每秒20個tokens的速度運行Llama 2-7B。在不損失太多精度的情況下,Fast Stable Diffusion能夠在0.6秒內生成一張 512x512分辨率的圖像4。高通有著智能手機領域領先的Llama和Stable Diffusion模型
49、指標。8.2 驍龍 X Elite的領先PC上AI性能驍龍 X Elite上集成的Hexagon NPU算力達到45 TOPS,大幅領先于友商最新X86架構芯片NPU的算力數值。在面向Windows的UL Procyon AI基準測試中,與其他PC競品相比,驍龍X Elite具有領先的性能。例如,驍龍X Elite的基準測試總分分別為X86架構競品A的3.4倍和競品B的8.6倍。圖10:驍龍 X Elite在Procyon基準測試中具有領先的筆記本電腦AI性能。在驍龍X Elite上,Llama 2-7B模型能夠在高通Oryon CPU上以高達每秒30個tokens的速度運行。在不損失太多精度
50、的情況下,Fast Stable Diffusion能夠在0.9秒內生成一張512x512分辨率的圖像。高通有著筆記本電腦領域領先的Llama和Stable Diffusion模型指標。4 基于對比性語言-圖像預訓練(CLIP)模型分數,用于評估準確性,接近基線模型。面向Windows的UL Procyon AI推理基準測試總分ResNet-50DeeplabV3MobileNetV3InceptionV4YoloV3ESRGAN14.0012.0010.008.006.004.002.000.00相關性能驍龍X EliteX86 競品AX86 競品B19圖11:高通AI軟件棧旨在幫助開發者一
51、次編寫,即可實現隨時隨地運行和規?;瘮U展。高通AI軟件棧全面支持主流AI框架(如 TensorFlow、PyTorch、ONNX和Keras)和runtime(如 TensorFlow Lite、TensorFlow Lite Micro、ExecuTorch和ONNX runtime),面向以上runtime的代理對象可通過高通AI引擎Direct軟件開發包(SDK)直接進行耦合,加快開發進程。9.通過高通軟件棧訪問AI處理器僅有優秀的AI硬件還不夠。讓開發者能夠獲取基于異構計算的AI加速,對于終端側AI的規?;瘮U展至關重要。高通AI軟件棧將我們的互補性AI軟件產品整合在統一的解決方案中。O
52、EM廠商和開發者可在高通的產品上創建、優化和部署AI應用,充分利用高通AI引擎的性能,讓開發者創建一次AI模型,即可跨不同產品隨時隨地進行部署。Qualcomm AI StudioTFLiteDirectMLExecuTorchAI框架高通神經網絡處理SDK高通AI引擎DirectAI runtimes數學庫分析器和調試器編譯器編程語言虛擬平臺核心庫系統接口SoC、加速器驅動 仿真支持20Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI此外,高通AI
53、軟件棧集成用于推理的高通神經網絡處理SDK,包括面向Android、Linux和Windows的不同版本。高通開發者庫和服務支持最新編程語言、虛擬平臺和編譯器。在軟件棧更底層,我們的系統軟件集成了基礎的實時操作系統(RTOS)、系統接口和驅動程序。我們還跨不同產品線支持廣泛的操作系統(包括Android、Windows、Linux和QNX),以及用于部署和監控的基礎設施(比如Prometheus、Kubernetes和Docker)。對于GPU的直接跨平臺訪問,我們支持OpenCL和DirectML。由于易于編程且應用于所有平臺,CPU通常是AI編程的首選,我們的LLVM編譯器基礎設施優化可實
54、現加速的高效AI推理。圖12:高通AI軟件棧支持關鍵框架和runtime。CPU內核GPUHexagon 高通AI引擎 DirectTFLiteONNX RTOpenCLExecuTorch內核內核22Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI 10.總結利用多種處理器進行異構計算,對于實現生成式AI應用最佳性能和能效至關重要。與競品相比,專為持久穩定的高性能AI推理而打造的Hexagon NPU具有卓越性能、能效和面積效率。高通AI引擎包括H
55、exagon NPU、Adreno GPU、高通 Kryo或高通Oryon CPU、高通傳感器中樞和內存子系統,能夠支持按需型用例、持續型用例和泛在型用例,為生成式AI提供業界領先的異構計算解決方案。通過定制設計整個系統,高通能夠做出恰當的設計權衡,并利用這些洞察打造更具協同性的解決方案。我們的迭代改進和反饋循環,使高通能夠基于最新神經網例如,量化有益于提升性能、能效、內存帶寬和存儲空間。Hexagon NPU原生支持INT4,高通AI模型增效工具包(AIMET)5提供基于高通AI研究技術成果開發的量化工具,能夠在降低位數精度的同時限制準確度的損失。對于生成式AI來說,由于基于Transfor
56、mer的大語言模型(比如 GPT、Bloom和Llama)受到內存的限制,在量化到8位或4位權重后往往能夠獲得大幅提升的效率優勢。借助量化感知訓練和/或更加深入的量化研究,許多生成式AI模型可以量化至INT4模型。事實上,INT4已成為大語言模型的趨勢,并逐漸成為范式,尤其是面向開源社區和希望在邊緣終端上運行大型參數規模模型的情況下。INT4支持將在不影響準確性或性能表現的情況下節省更多功耗,與INT8相比實現高達90%的性能提升和60%的能效提升,能夠運行更高效的神經網絡。使用低位整數型精度對高能效推理至關重要。高通專注于AI模型優化以實現能效和性能提升??焖俚男⌒虯I模型如果只能提供低質量
57、或不準確的結果,那么將失去實際用處。因此,我們采用全面而有針對性的策略,包括量化、壓縮、條件計算、神經網絡架構搜索(NAS)和編譯,在不犧牲太多準確度的前提下縮減AI模型,使其高效運行。即使是那些已經面向移動終端優化過的模型我們也會進行這一工作。5 高通AI模型增效工具包(AIMET)是高通創新中心公司(Qualcomm Innovation Center,Inc.)的產品。23絡架構,持續快速增強高通NPU和高通AI軟件棧。我們在面向智能手機和PC的AI基準測試與生成式AI應用中領先的性能表現,是高通差異化解決方案和全棧AI優化的結晶。高通AI軟件棧賦能開發者跨不同產品創建、優化和部署AI應
58、用,使得高通AI引擎上的AI加速具備可獲取性和可擴展性。通過將技術領導力、定制芯片設計、全棧AI優化和生態系統賦能充分結合,高通技術公司在推動終端側生成式AI開發和應用方面獨樹一幟。該部分信息發布于:2024年3月24Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通過NPU和異構計算開啟終端側生成式AI高通AI白皮書 第二部分終端側AI和混合AI開啟生成式AI的未來Unlocking the generative AI future with on-device and hybrid A
59、I生成式AI普及的關鍵是什么?1.摘要混合AI是AI的未來。隨著生成式AI正以前所未有的速度發展1以及計算需求的日益增長2,AI處理必須分布在云端和終端進行,才能實現AI的規?;瘮U展并發揮其最大潛能正如傳統計算從大型主機和瘦客戶端演變為當前云端和邊緣終端相結合的模式。與僅在云端進行處理不同,混合AI架構在云端和邊緣終端之間分配并協調AI工作負載。云端和邊緣終端如智能手機、汽車、個人電腦和物聯網終端協同工作,能夠實現更強大、更高效且高度優化的AI。節省成本是主要推動因素。舉例來說,據估計,每一次基于生成式AI的網絡搜索查詢(query),其成本是傳統搜索的10倍3,而這只是眾多生成式AI的應用之
60、一?;旌螦I將支持生成式AI開發者和提供商利用邊緣終端的計算能力降低成本?;旌螦I架構或終端側AI能夠在全球范圍帶來高性能、個性化、隱私和安全等優勢?;旌螦I架構可以根據模型和查詢需求的復雜度等因素,選擇不同方式在云端和終端側之間分配處理負載。例如,如果模型大小、提示(prompt)和生成長度小于某個限定值,并且能夠提供可接受的精確度,推理即可完全在終端側進行。如果是更復雜的任務,模型則可以跨云端和終端運行?;旌螦I還能支持模型在終端側和云端同時運行,也就是在終端側運行輕量版模型時,在云端并行處理完整模型的多個標記(token),并在需要時更正終端側的處理結果。隨著強大的生成式AI模型不斷縮小
61、,以及終端側處理能力的持續提升,混合AI的潛力將會進一步增長。參數超過10億的AI模型已經能夠在手機上運行,且性能和精確度水平達到與云端相似的水平。不久的將來,擁有100億或更高參數的模型將能夠在終端上運行?;旌螦I方式適用于幾乎所有生成式AI應用和終端領域,包括手機、筆記本電腦、XR頭顯、汽車和物聯網。這一方式對推動生成式AI規?;瘮U展,滿足全球企業與消費者需求至關重要。終端側AI和混合AI開啟生成式AI的未來1 https:/ https:/ https:/ the generative AI future with on-device and hybrid AIPART TWO26 2.
62、生成式AI簡介和當前趨勢ChatGPT激發了人們的想象力和好奇心。自2022年11月推出后,短短兩個月內其月活用戶便達到1億,成為有史以來增長速度最快的消費類應用和第一個殺手級的生成式AI應用。隨著創新節奏的加快,想要緊跟生成式AI的發展速度,難度越來越大。大型聚合網站的數據顯示,目前已有超過3,000個可用的生成式AI應用和特性4。AI 正 迎 來 大 爆 發 時 期,就 像 此 前電視、互聯網和智能手機的問世,而這僅僅是一個開始。ChatGPT 和 Stable Diffusion等生成式AI模型能夠基于簡單的提示創作出全新的原創內容,如文本、圖像、視頻、音頻或其他數據。這類模型正在顛覆傳
63、統的搜索、內容創作和推薦系統的方法通過從普通產業到創意產業的跨行業用例,在實用性、生產力和娛樂性方面帶來顯著增強。建筑師和藝術家可以探索新思路,工程師可以更高效地編寫程序。幾乎所有與文字、圖像、視頻和自動化相關的工作領域都將受益。網絡搜索是生成式 AI正在變革的諸多應用之一。另一個例子則是Microsoft 365 Copilot,作為一項全新的生產力特性,它能夠利用生成式AI幫助編寫和總結文檔、分析數據,或將簡單的書面想法轉化為演示文稿,嵌入于Word、Excel、PowerPoint、Outlook和Teams等微軟應用中。生成式AI的出現也標志著用戶開始向探索更加多樣化、個性化的數字世界
64、邁出了第一步。由于3D設計師可以借助生成式 AI工具更加快速高效地進行內容開發,3D內容創作有望得到普及。這不僅將加速沉浸式虛擬體驗的創建,而且能夠降低個人創作者自主內容制作的門檻。我們即將看到從生成式AI中涌現出各種各樣的全新企業級和消費級用例,帶來超越想象的功能。GPT-4和LaMDA等通用大語言模型(LLM)作為基礎模型,所具備的語言理解、生成能力和知識范疇已達到了前所未有的水平。這些模型大多數都非常龐大,參數超過1千億,并通過API向客戶提供免費或付費服務?;A模型的使用推動大量初創公司和大型組織利用文本、圖像、視頻、3D、語言和音頻創建應用。例如,代碼生成(GitHub Copilo
65、t)、文本生成(Jasper)、面向藝術家和設計師的圖像生成(Midjourney),以及對話式聊天機器人(Character.ai)。4 截至2023年4月,生成式AI應用和特性:https:/ 瑞銀,2023年2月面向消費者和知識工作者的垂直領域應用,協助處理各種任務,比如撰寫內容、編寫代碼、設計等輔助應用(使用基礎模型)面向生成式AI的開發者工具和平臺工具/編排超大規模用戶數據中心、企業服務器基礎設施標簽、訓練、模型庫、優化等機器學習運營基礎模型從模型(如大語言模型)的開發和訓練到應用程序的集成式垂直領域應用的實現輔助應用(使用自主模型)通用大語言模型(LLM)和其他模型;通過API提供
66、服務專用模型開發和/或訓練(企業、專業照片/視頻、模擬數據)通用模型特定領域模型云邊緣終端28Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來 3.混合AI對生成式AI規?;瘮U展至關重要擁有數十億參數的眾多生成式AI模型對計算基礎設施提出了極高的需求。因此,無論是為AI模型優化參數的AI訓練,還是執行該模型的AI推理,至今都一直受限于大型復雜模型而在云端部署。AI推理的規模遠高于AI訓練。盡管訓練單個模型會消耗大量資源,但大型生成式AI模型預計每年僅需訓練幾次。然而,這
67、些模型的推理成本將隨著日活用戶數量及其使用頻率的增加而增加。在云端進行推理的成本極高,這將導致規?;瘮U展難以持續?;旌螦I能夠解決上述問題,正如傳統計算從大型主機和瘦客戶端演變為當前云端和PC、智能手機等邊緣終端相結合的模式。3.1 什么是混合AI?混合AI指終端和云端協同工作,在適當的場景和時間下分配AI計算的工作負載,以提供更好的體驗,并高效利用資源。在一些場景下,計算將主要以終端為中心,在必要時向云端分流任務。而在以云為中心的場景下,終端將根據自身能力,在可能的情況下從云端分擔一些AI工作負載。3.2 混合AI的優勢混合 AI 架構(或僅在終端側運行AI),能夠在全球范圍帶來成本、能耗、
68、性能、隱私、安全和個性化優勢。3.2.1 成本隨著生成式AI模型使用量和復雜性的不斷增長,僅在云端進行推理并不劃算。因為數據中心基礎設施成本,包括硬件、場地、能耗、運營、額外帶寬和網絡傳輸的成本將持續增加。例如,當前面向大語言模型推理的云計算架構,將導致無論規模大小的搜索引擎企業負擔更高運營成本。試想一下,未來通過生成式AI大語言模型增強的互聯網搜索,比如GPT,其運行參數遠超1750億。生成式AI搜索可以提供更加出色的用戶體驗30Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式
69、AI的未來和搜索結果,但每一次搜索查詢(query)其成本是傳統搜索方法的10倍。目前每天有超過100億次的搜索查詢產生,即便基于大語言模型的搜索僅占其中一小部分,每年增量成本也可能達到數十億美元。6將一些處理從云端轉移到邊緣終端,可以減輕云基礎設施的壓力并減少開支。這使混合AI對生成式AI的持續規?;瘮U展變得至關重要?;旌螦I能夠利用現已部署的、具備AI能力的數十億邊緣終端,以及未來還將具備更高處理能力的數十億終端。節省成本也是生成式AI生態系統發展的重要一環,可以支持OEM廠商、獨立軟件開發商(ISV)和應用開發者更經濟實惠地探索和打造應用。例如,開發者可以基于完全在終端上運行的Stabl
70、e Diffusion創建應用程序,對于生成的每個圖像承擔更低的查詢成本,或完全沒有成本。3.2.2 能耗支持高效AI處理的邊緣終端能夠提供領先的能效,尤其是與云端相比。邊緣終端能夠以很低的能耗運行生成式AI模型,尤其是將處理和數據傳輸相結合時。這一能耗成本差異非常明顯,同時能幫助云服務提供商降低數據中心的能耗,實現環境和可持續發展目標。3.2.3 可靠性、性能和時延在混合AI架構中,終端側AI處理十分可靠,能夠在云服務器和網絡連接擁堵時,提供媲美云端甚至更佳的性能7。當生成式AI查詢對于云的需求達到高峰期時,會產生大量排隊等待和高時延,甚至可能出現拒絕服務的情況8。向邊緣終端轉移計算負載可防
71、止這一現象發生。此外,混合AI架構中終端側處理的可用性優勢,讓用戶無論身處何地,甚至在無連接的情況下,依然能夠正常運行生成式AI應用。3.2.4 隱私和安全終端側AI從本質上有助于保護用戶隱私,因為查詢和個人信息完全保留在終端上。對于企業和工作場所等場景中使用的生成式AI,這有助于解決保護公司保密信息的難題。例如,用于代碼生成的編程助手應用可以在終端上運行,不向云端暴露保密信息,6 摩根士丹利,How Large are the Incremental AI Costs.and 4 Factors to Watch Next,2023年2月7 https:/ https:/ the gener
72、ative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來從而消除如今眾多企業面臨的顧慮9。對于消費者使用而言,混合AI架構中的“隱私模式”讓用戶能夠充分利用終端側AI向聊天機器人輸入敏感提示,比如健康問題或創業想法。此外,終端側安全能力已經十分強大,并且將不斷演進,確保個人數據和模型參數在邊緣終端上的安全。3.2.5 個性化混合AI讓更加個性化的體驗成為可能。數字助手將能夠在不犧牲隱私的情況下,根據用戶的表情、喜好和個性進行定制。所形成的用戶畫像能夠從實際行為、價值觀、痛點、需求、顧慮和問題等方面來體現一個用戶,并
73、且可以隨著時間推移進行學習和演進。它可以用于增強和打造定制化的生成式AI提示,然后在終端側或云端進行處理。用戶畫像保留在終端內,因此可以通過終端側學習不斷優化和更新。個性化不僅僅適用于消費者,企業或機構可以借助它標準化代碼的編寫方式,或者制作具有特殊語氣和聲音的公共內容。3.3 AI工作負載的分布式處理機制我們期望打造能夠支持不同工作負載分流方式的混合AI架構,可以根據模型和查詢復雜度進行分布式處理,并能持續演進。例如,如果模型大小、提示和生成長度小于某個限定值,并且能夠提供可接受的精確度,推理即可完全在終端側進行。如果是更復雜的任務,模型則可以跨云端和終端運行;如果需要更多最新信息,那么也可
74、以連接至互聯網獲取。9 https:/ 以終端為中心的混合AI在以終端為中心的混合AI架構中,終端將充當錨點,云端僅用于分流處理終端無法充分執行的任務。許多生成式AI模型可以在終端上充分運行(參閱圖2),也就是說終端可通過運行不太復雜的推理完成大部分處理工作。例如,用戶在筆記本電腦上運行 Microsoft 365 Copilot或必應Chat時,包含高達數百億參數的模型將在終端上運行,而更復雜的模型將根據需求在云端進行處理。對用戶來說,這種體驗是無縫的,因為終端側神經網絡或基于規則而運行的判決器(arbiter)將決定是否需要使用云端,無論是為了有機會使用更好的模型還是33檢索互聯網信息。如
75、果用戶對請求處理結果的質量不滿意,那么再次嘗試發起請求時可能就會引入一個更好的模型。由于終端側AI處理能力隨著終端升級和芯片迭代不斷提升,它可以分流更多云端的負載。對于各種生成式AI應用,比如創作圖像或起草郵件,快速響應式的推理更受青睞,即使它在準確度上會稍有損失。終端側AI的快速反饋(即低時延)可以讓用戶使用改進的提示來快速迭代推理過程,直至獲得滿意的輸出結果。圖2:在以終端為中心的混合AI架構中,云端僅用于分流處理終端無法充分運行的AI任務。終端側神經網絡或基于規則的判決器是否需要云端執行?否是34Unlocking the generative AI future with on-dev
76、ice and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來3.3.2 基于終端感知的混合AI在基于終端感知的混合AI場景中,在邊緣側運行的模型將充當云端大語言模型(類似大腦)的傳感器輸入端(類似眼睛和耳朵)。例如,當用戶對智能手機說話時,Whisper等自動語音識別(ASR)的AI模型將在終端側運行,將語音轉為文字,然后將其作為請求提示發送到云端。云端將運行大語言模型,再將生成的文本回復發回終端。之后,終端將運行文本生成語音(TTS)模型,提供自然免提回答。將自動語音識別和文本生成語音模型工作負載轉移至終端側能夠節省計算和連接帶寬。隨著大語言模型變為多模態并支持圖像輸入
77、,計算機視覺處理也可以在終端上運行,以進一步分流計算任務并減少連接帶寬,從而節省成本。在更先進的版本中,隱私將得到進一步保護,終端側AI能夠承擔更多處理,并向云端提供經過改進且更加個性化的提示。借助終端側學習和終端上的個人數據,比如社交媒體、電子郵件、消息、日歷和位置等,終端將創建用戶的個人畫像,與編排器(orchestrator)程序協作,基于更多情境信息提供更完善的提示。例如,如果用戶讓手機來安排與好友會面的時間并在喜愛的餐廳預訂座位,編排器程序了解上述個性化信息并能夠向云端大語言模型提供更佳提示。編排器程序可在大語言模型缺乏信息時設置護欄并幫助防止產生“AI幻覺”。對于較簡單的請求,較小
78、的大語言模型可在終端側運行,而無需與云端交互,這類似于以終端為中心的混合AI。35圖3:對于基于終端感知的混合AI,自動語音識別、計算機視覺和文本轉語音在終端側進行。在更先進的版本中,終端側編排器程序能夠向云端提供經過改進且更加個性化的提示。簡單模型文本文本回答語音圖像/視頻TTSLLMASR,CV,TTS 先進模型語音改進的提示文本回答圖像/視頻TTSLLMOrchestratorASR,CV,TTS 36Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來3.3.3 終
79、端與云端協同處理的混合AI終端和云端的AI計算也可以協同工作來處理AI負載,生成大語言模型的多個token就是一個例子。大語言模型的運行都是內存受限的,這意味著計算硬件在等待來自DRAM的內存數據時經常處于閑置狀態。大語言模型每次推理生成一個token,也就是基本等同于一個單詞,這意味著GPT-3等模型必須讀取全部1750億參數才能生成一個單詞,然后再次運行整個模型來生成下一個token,完整的推理過程可以以此類推。鑒于內存讀取是造成推理性能的瓶頸因素,更高效的做法就是同時運行多個大語言模型以生成多個token,并且從DRAM一次性讀取全部參數。每生成一個token就要讀取全部參數會產生能耗和
80、造成發熱,因此使用閑置的算力通過共享參數來推測性并行運行大語言模型,可謂是在性能和能耗上實現雙贏。為了生成四個token,一個近似的大語言模型(比原始目標大語言模型小7至10倍,因此準確性更低)要在終端上按順序連續運行四次才可以。終端向云端發送這四個token,云端高效運行四次目標模型來檢查其準確度,而僅讀取一次完整的模型參數。在云端token是被并行計算的,每個目標模型都有零個、一個、兩個、三個或四個預測token作為輸入。這些token在被云端確認或校正之前被認為是“近似的”。上述推測性解碼過程將持續到完整的答案出現時為止。我們的早期實驗和其他已發布結果10顯示,通過四個token的推測性
81、解碼,平均兩到三個token是正確可被接受的,這會帶來單位時間內生成token數的增加,并節省能耗。10 Leviathan,Yaniv,Matan Kalman和Yossi Matias。Fast Inference from Transformers via Speculative Decoding。arXiv preprint arXiv:2211.17192(2022)37圖4:協同處理混合AI的四個token推測性解碼示例。在終端上按順序計算四個token預測近似模型接受驗證目標模型平均兩到三個正確并被接受 針對并行計算,一次讀取模型參數 在云端推測性并行計算四個token12341
82、2341238Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來 4.終端側AI的演進與生成式AI的需求密切相關終端側AI能力是賦能混合AI并讓生成式AI實現全球規?;瘮U展的關鍵。如何在云端和邊緣終端之間分配處理任務將取決于終端能力、隱私和安全需求、性能需求以及商業模式等諸多因素(參閱第3.3章節)。在生成式AI出現之前,AI處理便持續向邊緣轉移,越來越多的AI推理工作負載在手機、筆記本電腦、XR頭顯、汽車和其他邊緣終端上運行。例如,手機利用終端側AI支持許多日常功能,比
83、如暗光拍攝、降噪和人臉解鎖。圖5:AI處理的重心正在向邊緣轉移。為實現規?;瘮U展,AI處理的重心正在向邊緣轉移中心云邊緣云終端側混合AI5G成本隱私低時延可靠性高效使用網絡帶寬40Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來4.1 終端側處理能夠支持多樣化的生成式AI模型如今,具備AI功能的手機、PC和其他品類的便攜終端數量已達到數十億臺11,利用大規模終端側AI處理支持生成式AI有著廣闊前景,并且將在未來幾年穩步增長。關鍵問題在于,哪些生成式AI模型能夠以合適的性
84、能和準確度在終端側運行。好消息是,性能十分強大的生成式AI模型正在變小,同時終端側處理能力正在持續提升。圖6展示了可以在終端側運行的豐富的生成式 AI 功能,這些功能的模型參數在10億至100億之間12。如 Stable Diffusion等參數超過10億的模型已經能夠在手機上運行,且性能和精確度達到與云端處理類似的水平。不久的將來,擁有100億或更多參數的生成式AI模型將能夠在終端上運行。圖6:數量可觀的生成式AI模型可從云端分流到終端上運行。11 https:/ 假設使用INT4型的參數 文字生成圖像對話和NLP編 程數學推理組合優化圖像理解視頻理解協作機器人0.11101001000模型
85、規模 (十億參數)2024202342Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來 5.跨終端品類的生成式AI關鍵用例基于基礎模型的生成式AI迅速興起,正在驅動新一輪內容生成、搜索和生產力相關用例的發展,覆蓋包括智能手機、筆記本電腦和PC、汽車、XR以及物聯網等終端品類?;旌螦I架構將賦能生成式AI在上述這些終端領域提供全新的增強用戶體驗。5.1 智能手機:搜索和數字助手面對每日超過100億次的搜索量且移動端搜索占比超過60%的情況13,生成式AI的應用將推動所需算
86、力的實質性增長,尤其是來自智能手機端的搜索請求。由于基于生成式AI的查詢能夠提供更令人滿意的答案,用戶的搜索方式已經開始發生轉變。對話式搜索的普及也將增加總體查詢量。隨著對話功能不斷改進,變得更加強大,智能手機將成為真正的數字助手。精準的終端側用戶畫像與能夠理解文字、語音、圖像、視頻和任何其他輸入模態的大語言模型相結合,讓用戶可以自然地溝通,獲取準確、貼切的回答。進行自然語言處理、圖像理解、視頻理解、文本生成文本等任務的模型將面臨高需求。5.2 筆記本電腦和PC:生產力生成式AI基于簡單提示就能快速生成優質內容,它也正在憑借這項能力變革生產力。以筆記本電腦和PC上的Microsoft Offi
87、ce 365為例,全球有超過4億Microsoft Office 365商業付費席位和個人訂閱者,如果將生成式AI集成至用戶日常工作流將帶來重大影響14。此前需要數小時或數天的任務,現在僅需幾分鐘就能完成。Microsoft 365 Copilot 同時利用大語言模型的功能和Microsoft Graph與Microsoft 365 應用中的用戶數據,能夠將提示轉化為強大的生產力工具15。Office工作者可通過后臺運行大語言模型,在Outlook中閱讀或撰寫電子郵件,在Word中編寫文檔,在PowerPoint中創建演示文稿,在Excel中分析數據,或在Teams會議中協作。生成式AI模型(
88、比如自然語言處理、文本生成文本、圖像生成、視頻生成和編程)需要經過海量處理,才能支持這些被重度使用的生產力任務。在以終端為中心的混合AI架構中,大部分處理能夠在PC上進行。13 https:/ 微軟財報15 https:/ 汽車:數字助手和自動駕駛得益于車內和車輛周圍環境相關數據所提供的信息,如今AI驅動的座艙能夠提供高度個性化的體驗。類似于智能手機和PC,車載數字助手將能夠讓駕乘人員通過免提的友好用戶界面保持無縫互聯,同時為生態系統創造全新的創收機會。數字助手可以訪問用戶個人數據,比如應用、服務和支付信息;以及來自車輛的傳感器數據,包括攝像頭、雷達、激光雷達和蜂窩車聯網(C-V2X)等。企業
89、API也支持第三方服務提供商集成他們的解決方案,將客戶關系延伸到車上。例如,主動式駕駛輔助將大幅改善導航體驗,比如會影響駕駛員常用出行路線的交通和天氣信息更新,汽車充電或購買停車券提醒,此外,用戶可以通過簡單地請求即可用已綁定的信用卡預訂自己喜歡的美食。如果汽車能夠識別每位駕乘人員并提供定制化的音樂和播客等體驗和內容,座艙的媒體娛樂體驗也將會變革。隨著車載AR應用變得更加普遍,數字助手可以按照駕乘人員的偏好提供定制化的顯示。圖7:生成式 AI可用于先進駕駛輔助系統/自動駕駛(ADAS/AD),通過預測不同行為主體的軌跡和行為,幫助改進駕駛策略。步行穿過花街步行穿過花街步行穿過花街步行穿過第六大
90、街對角線方向步行對角線方向步行對角線方向步行步行穿過第六大街步行穿過第六大街正在花街上在第六大街上直行轉入花街44Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來汽車維修保養和服務也將變得更加自主和無縫。通過分析傳感器輸入、維修保養歷史和駕駛行為等數據,數字助手可以預測何時需要進行保養。利用生成式AI,數字助手可針對汽車如何維修提供信息,或為用戶提供咨詢,找到合適的服務提供商,提高車輛可靠性,同時減少時間和成本。感知軟件棧從未遇到過的罕見或陌生物體,經常會對高級駕駛輔助
91、系統和自動駕駛(ADAS/AD)解決方案產生干擾。這種情況通常由光線不佳或惡劣天氣條件造成,會導致駕駛策略軟件棧產生難以預測、有時甚至很危險的結果。為了在未來預防類似情況,必須妥善采集和標記這些極端場景的數據并重新訓練模型。這個循環可能耗時費力,而生成式AI可以模擬極端場景,預測不同道路行為主體的軌跡和行為,比如車輛、行人、自行車騎行者和摩托車騎行者。規劃者可以利用這些場景確定車輛駕駛策略。駕駛策略軟件棧以及感知軟件棧始終在汽車的AI算力可支持的情況下本地運行。嚴苛的時延要求決定了云端無法針對這些AI工作負載在決策過程中發揮任何作用。隨著ADAS/AD解決方案采用支持適當后處理的生成式AI模型
92、,汽車必然需要具備顯著高能效的AI計算能力。5.4 XR:3D內容創作和沉浸式體驗生成式 AI能為XR帶來巨大前景。它有潛力普及3D內容創作,并真正實現虛擬化身。下一代AI渲染工具將賦能內容創作者使用如文本、語音、圖像或視頻等各種類型的提示,生成3D物體和場景,并最終創造出完整的虛擬世界。此外,內容創作者將能夠利用文本生成文本的大語言模型,為能夠發出聲音并表達情緒的虛擬化身生成類人對話??偠灾?,這些進步將變革用戶在XR設備上創造和體驗沉浸式內容的方式。生成式AI為XR提供的前景無疑令人興奮,但很難預測這些技術何時才能被廣泛采用。不過,根據近幾個月快速的創新步伐,可以肯定地說,我們可以期待在未
93、來幾年內取得重要進展。46Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來圖8:生成式AI模型將面向XR賦能對話式AI和全新渲染工具。對于沉浸式世界,Stable Diffusion 等文本生成圖像類的模型很快將賦能內容創作者在3D物體上生成逼真的紋理。我們預計,一年內這些功能將在智能手機上實現,并延伸到XR終端。XR中的部署需要“分布式處理”,即頭顯運行感知和渲染軟件棧,與之配對的智能手機或云端運行生成式AI模型。未來幾年,首批文本生成3D和圖像生成3D類的模型將可能
94、實現邊緣側部署,生成高質量的3D物體點云。幾年后,模態文本生成文本文本生成圖像文本生成3D圖像生成3D視頻生成3D模型示例描述利用大語言模型(LLM)生成類人回復利用2D擴散模型將文本轉化為逼真的圖像利用擴散+NeRF(或類似技術)將文本轉化為3D模型利用NeRF將圖像轉化為逼真的3D模型將視頻轉化為逼真的3D模型為能夠發音并表達情緒的虛擬化身生成類人對話為3D物體/虛擬化身生成新紋理或顏色生成逼真的3D物體以推動虛擬世界普及利用手機攝像頭生成3D場景或用戶的3D虛擬化身生成3D場景并最終生成整個3D虛擬世界執行語音文本文本文本圖像文本3D3D3D語音3D紋理3D物體3D場景3D世界語音語音游
95、戲引擎視頻圖像(單/多張)AI渲染工具對話式AI在XR中的應用ChatGPTChatGPTStable DiffusionStable DiffusionMagic3DInstant NeRFUnsolvedMagic3D游戲引擎+游戲引擎游戲引擎ASR*TTS*ASRASRNeRF*ASR=自動語音識別 *TTS=文本生成語音+游戲引擎=將生成式AI模型引入圖形渲染管線3D物體3D場景3D虛擬化身生成式AI47這些模型將通過提升,達到能夠從零開始生成高質量3D紋理物體的水平。在大約十年內,模型將更進一步,支持由文本或圖像生成的高保真完整3D空間和場景。未來,文本生成3D和視頻生成3D類的模型
96、最終或能讓用戶踏入從零開始生成的3D虛擬世界,例如自動構建滿足用戶任何想象的3D虛擬環境。虛擬化身將遵循類似的發展過程。文本生成文本的模型,比如有130億參數的LLaMA,將運行在邊緣終端,為虛擬化身生成自然直觀的對話。此外,文本生成圖像的模型將為這些虛擬化身生成全新的紋理和服裝。未來幾年內,圖像生成3D和編/解碼器模型將能夠為人類生成全身虛擬化身,支持遠程通信。最終,人們將能夠利用語音提示、圖像或視頻生成逼真、全動畫、智能、可量產的類人虛擬化身。圖9:生成式AI將有助于基于簡單提示創造沉浸式3D虛擬世界的過程,比如“超現實世界、水母四處游動、美麗的瀑布、神秘的湖泊、巍峨的高山”。超現實世界、
97、水母四處游動、美麗的瀑布、神秘的湖泊、巍峨的高山48Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來5.5 物聯網:運營效率和客戶支持目前,AI已廣泛應用于各種物聯網垂直領域,包括零售、安全、能源和公共設施、供應鏈和資產管理。AI依靠近乎實時的數據采集和分析改進決策質量,優化運營效率,并賦能創新以打造差異化競爭優勢。通過生成式AI,物聯網細分領域將進一步從AI的應用中受益。以零售業為例,生成式AI可以改善顧客和員工體驗。在售貨亭或智能購物車旁的導購員可以基于每周特價商品
98、、預算限制和家庭偏好幫助顧客定制帶有菜譜的菜單。商店經理可以根據即將發生的事件預測非周期性的促銷機會并進行相應準備。如果一個運動隊來到其所在的城市,那么商店經理可以利用生成式AI查詢粉絲喜愛的商品品牌,并相應地增加庫存。另一個用途是參考來自相似社區的商店的優秀案例和成功經驗,重新進行店面規劃。生成式AI可以利用簡單提示幫助商店經理重新排列貨架商品,為利潤高的產品騰出空間,或者利用附近連鎖店的數據,盡可能降低產品缺貨情況的發生。圖10:以零售業為例,生成式AI有助于提升顧客和員工體驗,比如提供庫存和商店布局推薦?!敖ㄗh如何調整庫存和商店布局來提高運動商品區的用戶滿意度?”商店經理商場入口收銀臺試
99、衣間衛生間增加庫存減少庫存增加庫存增加庫存49能源和公共設施領域也將受益于生成式AI。運營團隊可以創建極端負荷場景并預測電力需求,以及特殊情況下潛在的電網故障,比如農村地區在炎熱的夏季出現強風和局部火災的情況,從而更好地管理資源、避免電力中斷。生成式AI也可以用于提供更好的客戶服務,比如解答斷電或賬單計費問題。6.總結混合AI勢不可擋。生成式AI用例將持續演進并成為主流體驗,云端和其基礎設施需求將不斷增加。憑借終端側AI的先進能力,混合AI架構將規?;瘮U展,以滿足企業和消費者的需求,帶來成本、能耗、性能、隱私、安全和個性化的優勢。云端和終端將協同工作,依托強大、高效且高度優化的AI能力打造下一
100、代用戶體驗。該部分信息發布于:2023年5月50Unlocking the generative AI future with on-device and hybrid AI第二部分終端側AI和混合AI開啟生成式AI的未來高通AI白皮書 第三部分高通在推動混合AI規?;瘮U展方面獨具優勢Qualcomm is uniquely positioned to scale hybrid AI與高通一起讓AI人人可享高通在推動混合AI規?;瘮U展方面獨具優勢第三部分Qualcomm is uniquely positioned to scale hybrid AIPART THREE 1.摘要正如白皮書第
101、二部分所言,在云端和終端進行分布式處理的混合AI才是AI的未來?;旌螦I架構,或僅在終端側運行AI,能夠在全球范圍帶來成本、能耗、性能、隱私、安全和個性化優勢。高通正在助力實現隨時隨地的智能計算。高通技術公司作為終端側AI領導者,面向數十億手機、汽車、XR頭顯與眼鏡、PC和物聯網等邊緣終端提供行業領先的硬件和軟件解決方案,對推動混合AI規?;瘮U展獨具優勢。高通的硬件解決方案具有行業領先的能效,智能手機解決方案的能效與競品對比,大約有兩倍的優勢。憑借一系列基礎研究,以及跨AI應用、模型、硬件與軟件的全棧終端側AI優化,我們的持續創新讓公司始終處于終端側AI解決方案的最前沿。高通技術公司還專注于為
102、全球數十億、由高通和驍龍平臺支持的終端提供開發和部署的簡便性,從而賦能開發者。利用高通AI軟件棧,開發者可以在我們的硬件上創建、優化和部署AI應用,一次編寫即能實現跨我們芯片組解決方案的不同產品和細分領域進行部署。憑借技術領導力、全球化規模和生態系統賦能,高通技術公司正在讓混合AI成為現實。52 2.高通技術公司是終端側AI的領導者憑借賦能數十億邊緣終端的終端側AI領導力,高通技術公司正在助力打造混合AI新時代??蓴U展的技術架構讓我們能夠采用一個高度優化的AI軟件棧即可在不同終端和模型上進行工作。我們的AI解決方案旨在提供最佳能效,讓AI無處不在。高通AI引擎是我們終端側AI優勢的核心,它在驍
103、龍平臺和我們其他眾多產品中發揮了重要作用。高通AI引擎作為我們多年全棧AI優化的結晶,能夠以極低功耗提供業界領先的終端側AI性能,賦能當前和未來的用例。搭載高通AI引擎的產品出貨量已超過20億,賦能極為廣泛的終端品類,包括智能手機、XR、平板電腦、PC、安防攝像頭、機器人和汽車等。1高通AI軟件棧將我們所有相關的AI軟件產品集成在統一的解決方案中。OEM廠商和開發者可在我們的產品上創建、優化和部署AI應用,充分利用高通AI引擎性能,讓AI開發者創建一次AI模型,即可跨不同產品部署。圖1:高通持續的AI研發投入是產品領導力的基礎。驍龍和高通品牌產品是高通技術公司和/或其子公司的產品。1 http
104、s:/ 第一代高通 AI引擎(驍龍820移動平臺)發布高通神經網絡處理SDK驍龍660驍龍630第二代高通AI引擎(驍龍835)研究人工神經網絡處理架構與阿姆斯特丹大學成立聯合研究實驗室收購Scyfer高通研究啟動首個AI研究項目收購EuVision投資Brain公司并與其合作在荷蘭成立高通研發MWC上展示照片分類和手寫識別與Google展開基于TensorFlow的合作Brain公司獲得1.14億美元融資宣布支持Facebook Caffe22007高通AI領導力十余年前沿AI研發,加速商用并賦能規?;l展持續的AI研發投入是產品領導力的基礎20092013201520162017532.1
105、 持續創新我們開發的低功耗、高性能AI,已經形成了一個跨智能手機、汽車、XR、PC、筆記本電腦以及企業級AI等現有市場和新興領域的龐大終端AI生態系統。多年來,我們在照片與視頻拍攝、先進連接、語音指令、安全和隱私等關鍵用例領域,持續利用AI賦能芯片組產品、打造差異化優勢,以獲得市場領先地位。2.1.1 我們AI技術的發展歷程高通深耕AI研發已超過15年。在高通AI研究2,我們的使命是實現AI基礎研究突破,并實現跨行業和用例的規?;瘮U展。高通正在推動AI進步,讓感知、推理和行為等核心能力在終端上無處不在。我們的重要AI研究論文正在影響整個行業,推動高能效AI發展。通過匯聚領域內的杰出人才,高通正
106、在不斷突破AI可能性,塑造AI的未來。2 高通AI研究是高通技術公司的機構。高通技術公司加入 微軟、Facebook、亞馬遜支持的 ONNX格式 高通視覺智能平臺驍龍665/730/730G高通Cloud AI 100 高通QCS400(首個音頻SoC)第五代 高通AI引擎(驍龍865)第六代 高通AI引擎(驍龍888)高通機器人RB5平臺Snapdragon Ride視覺系統 高通AI引擎(第二代驍龍8)第三代驍龍座艙平臺 第四代 高通AI引擎(驍龍855)驍龍710第三代高通AI引擎(驍龍845)提供壓縮、量化和編譯實現高能效測量等變CNN(卷積神經網絡)設立移動人工智能創新中心AIMET
107、模型庫開源終端側Stable Diffusion啟動高通AI研究 第七代 高通AI引擎(第一代驍龍8)Snapdragon Ride平臺高通AI模型增效工具包(AIMET)開源高通技術公司研究人員贏得ICLR最佳論文獎收購TwentyBN和ReservoirLabs20182020201920212022202354Qualcomm is uniquely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢 3.我們在終端側生成式AI領域的領導力多年來,高通AI研究團隊一直在探索生成式AI。生成式AI可追溯到生成式對抗網絡(GAN)和變分
108、自編碼器(VAE)。最初,我們探索了生成式模型是否能夠很好地壓縮,并進一步提升生成痕跡(Artifact)的感知效果。我們利用VAE技術創建更好的視頻和語音編解碼器,將模型規??刂圃?1 億參數以下。我們還將生成式AI理念延伸到無線領域來替代信道模型,讓通信系統更加高效。近期,我們已在終端側實現支持超過10億參數的生成式AI模型,比如Stable Diffusion,并計劃未來在終端側支持參數高達數百億的模型。我們不僅在研究如何將生成式AI模型用作通用代理來構建計算架構并使用語言來描述相關任務和行為,同時也正在研究如何能夠通過增加感知輸入(比如視覺和音頻),進一步開拓這一能力以及環境交互能力,
109、比如對機器人生成指令或運行軟件。3.1 突破終端側和混合AI邊界高通技術公司具有獨特專長,我們能夠提供在邊緣側終端上低功耗運行生成式AI所需的處理性能,例如大語言模型(LLM)等。若要讓生成式AI得到廣泛采用,就不能像目前這樣僅在云端進行推理,還必須在終端側進行大量AI處理。為了讓生成式AI融入日常生活,AI處理需要同時使用云端和終端。最終,AI能力將成為用戶選購下一款手機、PC或汽車的主要影響因素。通過AI硬件加速和簡化開發的軟件解決方案(比如高通AI軟件棧),高通已經在引 領 終 端 側 AI 推 理。目前,我 們能夠支持在終端側 運 行 參 數 超 過 10億 的 模 型,預計在未來幾個
110、月,終端側將可以支持超過100億參數的模型。我們的AI加速架構具備靈活性和穩健性的特點,能夠應對生成式AI模型架構的潛在變化。隨著大語言模型和其他生成式AI模型持續演進,高通AI軟件棧和技術將隨之不斷發展。能夠輕松開發混合AI應用是關鍵所在,而我們跨產品組合的通用AI架構以及AI工具正是面向這一未來而設計。553.2 負責任的AI高通力求創造能為社會帶來積極影響的AI技術。高通的終端側AI愿景基于透明、負責、公平、管理環境影響和以人為本等原則,我們的工作將產生廣泛深遠的影響,因此我們致力于負責任地管理AI,并采取措施以規避潛在危害。高通終端側AI解決方案旨在賦能增強的隱私性和安全性,這對打造穩
111、健可信的AI生態系統至關重要。高通密切關注并配合參與全球各地政府的監管框架、指導方針和最佳實踐,包括政府間政策指導(比如,世界經濟合作與發展組織推出的 人工智能發展建議)和區域與國家框架(比如歐盟制定的人工智能法和美國國家標準與技術研究所發布的 人工智能風險管理框架)。這些法規和政策指導方針為負責任地開發和部署AI技術提供了重要的法律和道德考量標準。遵守AI法規和最佳實踐是高通致力打造道德、負責的AI創新的基礎,我們的工作實踐將持續看齊不斷演進的AI治理格局。最后,作為我們參與和領導行業協作、標準機構組織和聯盟的一部分,高通支持并倡導AI標準、數據與隱私保護和穩健的網絡安全。一直以來,高通深知
112、擁有穩健的綜合性標準,對于指導負責任的新技術開發部署具有重要意義。攜手合作開發穩健有效的AI標準,是邁向打造可持續且可信賴的AI生態系統的關鍵一步。56Qualcomm is uniquely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢 4.卓越的終端側AI技術和全棧優化高通為應用、神經網絡模型、算法、軟件和硬件進行全棧AI研究和優化。異構計算方法利用硬件(比如CPU、GPU和AI加速器)和軟件(比如高通AI軟件棧)來加速終端側AI。我們的團隊跨上述全部領域聯合工作,共同開發最為優化的解決方案。圖2:高通全棧AI研究和優化賦能技術
113、持續改進并引領高能效解決方案發展。上圖展示的循環創新方式讓我們能夠基于最新神經網絡架構,針對硬件、軟件和算法持續改進高通AI軟件棧。高通在AI基礎研究方面具備獨特能力,能夠支持全棧終端側AI研發,賦能產品快速上市并圍繞終端側生成式AI等關鍵應用實現優化部署。高通演示的全球首個在Android智能手機上運行的Stable Diffusion,突顯了我們全棧策略的優勢。所有讓Stable Diffusion實現15秒內完成終端側運行的全棧研究和優化,現已集成進高通AI軟件棧,并將助力提升未來硬件設計。此外,讓Stable Diffusion 通過跨層的模型、硬件和軟件創新,加速AI應用早期研發和技
114、術發明對于引領生態系統發展至關重要將技術轉讓給商業團隊,并通過部署過程中的收獲來影響未來的研究全棧 AI優化生態系統合作愿景發明模型量化和優化軟件編譯概念驗證合作并推動生態系統快速實現規?;逃瞄_發技術和工具,從而提高圖形級和內核級軟件的編譯性能發明新方法,達到最先進的水平目標團隊將模型整合到最終的應用中,進行穩定而直觀的演示 識別問題或需求;確定要求 開發用于量化權重的技術和工具,并修改架構以在硬件上高效運行全棧AI研究約2-3年57能夠在手機上高效運行的優化方式也可以用于其他平臺,比如高通技術賦能的筆記本電腦、XR終端和幾乎任何其他終端。4.1 算法和模型開發高通研究團隊從事神經網絡架構開
115、發和調整工作,以在不犧牲準確度的前提下提高效率,例如動作識別和超級分辨率。面向動作識別設計的傳統深度學習模型會逐幀、逐層地處理視頻序列,雖然這會帶來準確的處理結果,但它是計算密集型的、時延高,并且能效低。高通現已推出的FrameExit模型能夠自主學習,針對較簡單視頻處理更少幀,針對較復雜視頻處理更多幀,以減少能耗并提高性能。除模型結構創新之外,高通全棧AI優化還包括最先進的量化技術和創新的編譯器(compiler)棧。我們在移動終端上演示了這一技術,在常用動作識別基準測試平臺上相較于其他方法計算量和時延(平均)可減少五倍。面向高清屏幕上的游戲和視頻播放等應用,超級分辨率能夠讓圖像更清晰、銳利
116、,實現分辨率升格。盡管基于AI的超級分辨率相比傳統解決方案能夠實現出色的視覺質量,但在移動終端上實時運行頗具挑戰性。高通對AI全棧進行了優化,包括基于我們Q-SRNet模型的算法、采用INT4量化的軟件,以及支持INT4加速的第二代驍龍8硬件。我們利用INT4模型實現全球首個實時超級分辨率終端側演示,大幅改善了時延和功耗。實際上,與INT8相比,INT4性能和能效提高了1.5倍至2倍。4.2 軟件和模型效率高通AI軟件棧旨在幫助開發者實現一次開發,即可跨高通所有硬件運行AI負載。高通AI軟件棧全面支持主流AI框架,比如 TensorFlow、PyTorch、ONNX和Keras,以及包括Ten
117、sorFlow Lite、TensorFlow Lite Micro和ONNX Runtime 等在內的runtime。此外,它還集成了推理軟件開發包(SDK),比如我們廣受歡迎的高通神經網絡處理SDK,包括面向Android、Linux和Windows的不同版本。高通開發者庫和服務支持最新編程語言、虛擬平臺和編譯器。在更底層,我們的系統軟件集成了基礎的實時操作系統(RTOS)、系統接口和驅動程序。我們還支持廣泛的操作系統(包括Android、Windows、Linux和QNX),以及用于部署和監控的基礎設施(比如Prometheus、Kubernetes和Docker)。58Qualcomm
118、 is uniquely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢3 高通AI模型增效工具包(AIMET)和AI模型增效工具包模型庫是高通創新中心公司的產品。高通AI軟件棧還集成了Qualcomm AI Studio,支持從模型設計到優化、部署和分析的完整工作流。它將高通提供的全部工具集成到一個圖形用戶界面,并利用可視化工具以簡化開發者體 驗,支持開發者實時查看模型開發進度,這其中包括高通AI模型增效工具包(AIMET)、AI模型增效工具包模型庫、模型分析器和神經網絡架構搜索(NAS)。3 高通專注于AI模型效率研究以提高能效和
119、性能??焖俚男⌒虯I模型如果只能提供低質量或不準確的結果,那么將失去實際用處。因此,我們采用全面而有針對性的策略,包括量化、壓縮、條件計算、神經網絡架構搜索(NAS)和編譯,在不犧牲太多精度的前提下縮減AI模型,使其高效運行。即使是那些已經面向移動終端優化過的模型我們也會進行這一工作。圖3:高通AI軟件棧旨在幫助開發者一次編寫、隨處運行,實現規?;渴?。Qualcomm AI StudioAI框架和runtimesOS開發者庫與服務系統軟件數學庫分析器和調試器系統接口SoC、加速器驅動仿真支持編譯器編程語言虛擬平臺核心庫高通神經網絡處理SDK高通AI引擎DirectAI框架AI Runtime
120、sONNX RuntimeTF Lite MicroDirect ML TF Lite59圖4:高通AI研究采用整體AI模型效率研究方法。整體模型效率研究多個方向縮減 AI模型,使其在硬件上高效運行學習在保持所需精度的同時降低比特精度學習在保持所需精度的同時剪枝模型學習編譯AI模型以實現高效的硬件執行學習設計更小的神經網絡,能夠在真實硬件上媲美或超過人工設計架構量化編譯壓縮神經網絡架構搜索614.2.1 量化面向高效整數推理的量化是我們的重點關注領域之一。過去幾年,我們通過論文和演示分享了高通領先的AI量化研究,包括訓練后量化(PTQ)技術,比如無數據量化和自適應舍入(AdaRound),以及
121、聯合量化和剪枝技術,比如貝葉斯比特。量化不僅能夠提高性能,降低內存要求,還能通過讓模型在高通專用AI硬件上高效運行,降低內存帶寬占用,以節省功耗。例如,將 FP32模型量化壓縮到INT4模型,可帶來高達64倍的內存和計算能效提升。對于生成式AI來說,由于基于transformer的大語言模型(比如GPT、Bloom和LLaMA)受到內存的限制,在量化到 8位或 4位權重后往往能夠獲得大幅提升的效率優勢。包括高通在內的多項研究工作顯示,4位權重量化不僅對大語言模型可行,在PTQ設置中同樣可行,并能實現最優表現。這一效率的躍升已經超越了浮點模型。高通AI模型增效工具包提供基于高通AI研究技術成果開
122、發的量化工具,目前已納入Qualcomm AI Studio。借助量化感知訓練和/或更加深入的量化研究,許多生成式AI模型可以量化至INT4模型。INT4支持將在不影響準確性或性能表現的情況下節省更多功耗,與INT8相比實現高達90%的性能提升和60%的能效提升,能夠運行更高效的神經網絡。使用低位數整型精度對高能效推理至關重要。4.2.2 編譯編譯器作為高通AI軟件棧中的關鍵組件,讓AI模型能夠以最高性能和最低功耗高效運行。AI編譯器將輸入的神經網絡轉化為可以在目標硬件上運行的代碼,同時針對時延、性能和功耗進行優化。編譯包括計算圖的切分、映射、排序和調度等步驟。高通在傳統編譯器技術、多面體AI
123、編譯器和編譯器組合優化AI研究方面的技術專長已經實現了諸多先進的技術成果。例如,高通 AI引擎 Direct框架基于高通 Hexagon處理器的硬件架構和內存層級進行運算排序,以提高性能并最大程度減少內存溢出。我們的優化有助于減少DRAM存取量,并顯著降低runtime的時延和功耗。62Qualcomm is uniquely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢圖 5:與移動領域競品相比,第二代驍龍8提供領先的AI能效。4.3 硬件加速高通硬件提供行業領先的能效,是移動領域競品的近2倍。高通AI引擎由多個軟硬件組件構成,能
124、在驍龍和高通平臺上實現終端側AI加速。在硬件方面,高通AI引擎采用異構計算架構,包括Hexagon處理器、高通 Adreno GPU和高通 Kryo CPU,全部面向在終端側快速高效地運行AI應用而打造。通過異構計算的方式,開發者和OEM廠商可以優化智能手機和其他邊緣側終端上的AI用戶體驗。第二代驍龍8競品A競品B*高通技術公司內部測試結果人臉識別(FaceNet)超級分辨率(RDN)背景虛化(Deeplab V3+)自然語言處理(MobileBERT)63基于多年的專項研究投入,Hexagon處理器不斷演進,已經成為了高通AI引擎最關鍵的部分,并能夠應對不斷變化的AI需求。2007年,我們在
125、驍龍平臺上推出了首個Hexagon處理器。2015年,驍龍820處理器推出,集成了首個專門面向移動平臺的高通AI引擎,以支持圖像、音頻和傳感器的運算。2018年,我們在驍龍855中為Hexagon處理器增加了張量加速器。2019年,我們在驍龍865上擴展了終端側AI用例,包含AI圖片、AI視頻、AI語音和始終在線的傳感器中樞。2022年,第二代驍龍8為整個系統提供了開創性的AI技術,搭載了迄今為止最快、最先進的高通AI引擎。用戶可以體驗更快速的自然語言處理所帶來的多語種翻譯,或享受由AI賦能的電影模式視頻拍攝所帶來的樂趣。最新的Hexagon處理器采用專用供電系統,能夠按照工作負載適配功率。特
126、殊硬件提升了分組卷積、激活函數加速和Hexagon張量加速器的性能。支持微切片推理和INT4硬件加速能夠在提供更高性能的同時,降低能耗和內存占用。Transformer加速大幅提升了生成式AI中充分使用的多頭注意力機制的推理速度,在使用MobileBERT的特定用例中能帶來高達4.35倍的驚人AI性能提升。64Qualcomm is uniquely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢4 Counterpoint Research,2023年5月 5.無與倫比的全球邊緣側布局和規模高通技術公司部署的邊緣側終端規模十分龐大,
127、搭載驍龍和高通平臺的已上市用戶終端數量已達到數十億臺,而且每年有數億臺的新終端還在進入市場。4 我們的AI能力賦能一系列廣泛的產品,包括手機、汽車、XR、PC和物聯網。我們開發AI加速解決方案(比如高通AI引擎)以及所有面向頂級產品的其他關鍵IP創新和技術,通常每年作為高通可擴展技術架構的一部分進行迭代,跨細分領域快速普及相關功能并下沉到主流和入門級產品。正因如此,高通技術公司對在全球范圍賦能混合AI規?;瘮U展獨具優勢。圖6:搭載驍龍平臺的終端能夠推動混合AI擴展至跨不同細分領域和層級的數十億產品。XRPC移動寬帶網絡物聯網可穿戴設備智能耳機平板電腦汽車手機66Qualcomm is uniq
128、uely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢5.2 汽車高通技術公司是座艙和車載信息娛樂解決方案的領導者,全球所有主要汽車制造商都選擇驍龍座艙平臺來賦能他們的數字座艙系統。其中許多汽車制造商已經啟動量產項目,或目前正在設計采用高通解決方案的平臺。這些汽車制造商包括本田、梅賽德斯、雷諾、沃爾沃、捷豹路虎、Stellantis、寶馬、通用汽車/凱迪拉克、長城汽車、Mahindra、Togg、豐田、小鵬汽車、廣汽集團、捷途汽車、蔚來和威馬汽車。隨著最新一代驍龍座艙平臺的推出,高通汽車解決方案旨在提供業界領先的車內用戶體驗,以及安
129、全性、舒適性和可靠性,在網聯汽車時代為數字座艙解決方案樹立全新標桿。Snapdragon Ride平臺能夠提供擴展的產品路線圖,包括基于5納米工藝制程打造的首款可擴展自動駕駛SoC平臺,擁有更廣泛的軟件生態系統,提供經行業驗證的視覺感知、泊車和駕駛員監測軟件棧。5.3 PC和平板電腦驍龍計算平臺集成高通AI引擎,支持強大的終端側加速,能夠為最新應用帶來更佳質量、性能和效率。除文本、圖像和視頻創作等生成式 AI 應用外,高通AI引擎還支持一系列傳統AI用例,從提升安全性的快速威脅檢測,到增強視頻會議體驗的眼神接觸和降噪。利用Hexagon處理器能夠提升性能和效率,實現長時間電池續航,同時不占用C
130、PU和GPU等其他系統資源,能夠幫助用戶提高生產力。5.1 手機驍龍是提升頂級Android體驗的領先移動平臺,其中就包含已出貨的20多億個具備AI能力的處理器。驍龍平臺在移動平臺AI基準測試中也處于領先地位,比如在行業知名的AI Benchmark中占據前20位。5 2023年第二季度,領先的市場調研公司TechInsights預測,高通技術公司將以超過40%的市場份額保持AI智能手機處理器出貨量的領導地位,遠遠超過蘋果(25%)和聯發科(24%)等其他公司。65 基于ai-分數,截至2023年5月6 TechInsights,2023年4月67 6.總結混合AI勢不可當。云端和終端將協同工
131、作,依托強大、高效且高度優化的AI能力打造下一代用戶體驗。終端側AI領導力賦予高通面向混合架構轉型的獨特優勢。隨著大量的工作負載正從云端轉向邊緣終端,因此需要邊緣側處理的高性能和出色能效。憑借具備前瞻性的早期研究和產品開發投入,目前驍龍平臺能夠支持參數超過10億的生成式AI模型,并即將支持100億或更多參數的模型。高通擁有無與倫比的邊緣側布局,全球搭載驍龍和高通平臺的終端裝機量已達到數十億臺,有望推動生成式AI規?;瘮U展,為無數人的生活帶來積極影響。高通技術公司將支持開發者、OEM廠商和其他生態系統創新者快速且經濟高效地構建全新生成式AI應用和解決方案。技術領導力、全球規模和生態系統賦能完美結
132、合,讓高通技術公司在推動混合AI開發和應用方面獨樹一幟。5.4 物聯網高通技術公司是物聯網領域的主要技術提供商,擁有跨不同垂直領域超過16,000家的客戶。嵌入高通物聯網芯片組和平臺的AI處理能力支持以高效可行的方式進行終端側數據分析(比如視頻),推動跨多個細分領域的創新和轉型,包括機器人、智能攝像頭、零售和城市基礎設施。5.5 XRVR頭顯和AR眼鏡等XR終端也集成了高通終端側 AI和Snapdragon Spaces技術,以提供更具沉浸感的體驗,更好地適應周圍世界。迄今為止,已有超過65款采用驍龍平臺的XR終端發布,包括Meta、PICO和聯想等品牌推出的眾多廣受歡迎的終端。該部分信息發布于:2023年5月68Qualcomm is uniquely positioned to scale hybrid AI第三部分高通在推動混合AI規?;瘮U展方面獨具優勢本資料內容不是銷售本文所提及任何組件或終端的要約?!案咄ā笨赡苤父咄ü?、高通技術公司和/或其他子公司。2024 年高通技術公司和/或其關聯公司。保留全部權利。高通、驍龍、Snapdragon Spaces、Hexagon、Adreno 和 Kryo 是高通公司的商標或注冊商標,其他產品和品牌名稱可能是各自所有者的商標或注冊商標。請關注我們:了解更多信息請掃描二維碼