1、出品機構:甲子光年智庫智庫院長:宋濤報告撰寫:劉瑤、郭瑤琴、王藝霖發布時間:2024.12目 錄Part 01時代動力,AI新世代繁榮的發動機Part 02層見疊出,復雜工程需要多樣手段解決Part 04實踐落地,AI算力應用的新標桿Part 05來日方長,AI新世代下的不斷探索Part 03各取所需,市場激發AI算力的選擇思考縱觀AI發展,算法的技術突破拉動了算力的需求訓練算力(FLOPS)需求與人工智能發展關系圖N=121訓練算力需求FLOPS2010前深度學習時期之前,訓練計算算力需求緩慢增長,算力翻倍需要21.3個月2010-2022深度學習不斷取得進展,算力翻倍僅需要5.7個月,所需
2、算力量級由 TFLOPs增至EFLOPs2015-2016 年左右開啟了大模型時代,整體的訓練計算量較之前的時期大2到3個數量級。從2022年底,隨著ChatGPT成功帶來大規模參數通用大模型相繼發布。這些大模型的訓練需要千億、甚至萬億級參數,以及上千GB的高質量數據,大模型的訓練迭代將極大地拉動了智能算力的需求。2012-2023年算力需求翻了數十萬倍,AI算力需求遠超摩爾定律,大模型對算力的需求每年持續增長,未來10年AI算力需求將再增長500倍。GPT-4ChatGPTGPT-3AlphaZeroAlphaGoZeroNeural Machine TranslationTI7 Dota
3、1v1XceptionDeepSpeech2ResNetsSeq2SeqGoogleNetAlexNetVGGVisualizing and Understanding ConvNets2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 20231e-41e-31e-21e-11e+01e+11e+21e+31e+4模型規模指數級增長推動算力需求爆發無論是訓練還是推理,大模型的爆發引發全球算力需求的指數級增長技術層面上,基礎模型通過遷移學習(Transfer Learning)和規模(scale)得以實現;Transformer的應用標
4、志著基礎模型時代的開始(基礎模型的龐大規模和應用范圍突飛猛進),模型參數量指數級增長,帶動算力超過摩爾定律。Sora等視頻生成類模型相較于大語言模型消耗的算力提升20倍。隨著海量數據的積累,大模型需要處理的數據量也在不斷增長,進一步加劇了對算力的需求。PFLOPs1e+021e+091e+081e+071e+061e+051e+041e+031e+021e+091e+081e+071e+061e+051e+041e+03TransformerPFLOPs基于Transformer結構算法訓練所需算力短時間內激增,遠超摩爾定律基于Transformer結構算法與時間的關系摩爾定律與時間的關系Tr
5、ansformer結構對于基礎模型訓練算力需求的推動作用1015101710191021102310250.00.20.40.60.81.0Sora(1 min ideo)GPT4(10000 text tokens)DiT-XL/2 Image Generation(512x512px images)推理消耗算力對比(單位:FLOPS)AI產業快速發展為AI算力市場帶來新機遇從產業規???,全球人工智能快速增長。2023年全球人工智能市場收入達5381億美元,同比增長18.5%,到2026年市場規模將達9000億美元。從投融資看,2024年Q1全球AI領域完成1779筆融資交易,籌集的風險投資
6、總額達216億美元。從企業發展看,全球人工智能呈現“中美主導”格局。截至2023年三季度,全球人工智能企業有29542家。美國有9914家,占比為34%;中國有4469家,占比為15%;中美人工智能企業數占全球總數約49%。4541.25381.36382.37575.89000010002000300040005000600070008000900010000202220232024E2025E2026E圖1:2022-2026年全球AI市場規模(單位:億美元)圖2:全球AI領域投融資情況(單位:億美元)78914951022900216020040060080010001200140016
7、0020202021202220232024Q1圖3:全球AI企業數量國家分布34%15%6%5%4%36%美國中國英國印度加拿大其他資源“三劍客”中,算力承接算法及數據,成為AI產業發展基石AI數據數據巨量化跨模態融合算法算力內容創造力數據層面核心技術突破多模態認知計算數字孿生虛擬現實全息立體應用場景算法層面感知+交互大數據語料庫高精度訓練集標注訓練計算任務投喂算力層面硬件算力智能交互實時算力邊緣計算云計算本地化當下的時代機遇:大規模模型的摩爾定律-單模型參數量每年增長1010倍“海洋之光”超級計算機(國產超算)512塊GPU大算力騰訊太極機器學習平臺昇騰AI基礎軟硬件平臺16塊GPU大數據
8、量1.9TB 圖像292GB 文本中文多模態數據集M6-Corpus五大跨模態視頻檢索數據集基于萬條小規模數據集數百 G 級別不同領域的高質量語料模型類型多模態預訓練模型圖、文、音三模態“八卦爐”(腦級AI模型)M6大模型“混元”HunYuan_tvr紫東太初孟子大參數174萬億(與人腦中突觸數量媲美)10 萬億萬億千億10億商湯AIDC,峰值算力3740Petaflops3-計算機視覺模型計算機視覺模型書生(INTERN+)某視覺模型100億300億商湯科技商湯科技等企業清華大學等1阿里騰訊280 塊 GPU鵬城云腦(2048 塊CPU)和百度飛槳4095(Pflops-day)/2128
9、張GPU3390 億條文本數據純文本和知識圖譜的4TB 語料庫5000GB 高質量中文數據集NLP 大模型NLP 大模型NLP 大模型Megatron-TuringERNIW 3.0 Titan源 1.05300億2600 億2457 億微軟和英偉達百度和鵬程實驗室浪潮信息鵬城云腦和全場景 AI 計算框架 MindSpore,2048 塊GPU40TB 訓練數據盤古系列大模型千億3640(Pflops-day3)/上萬塊V100 GPU 組成 gao 帶寬集群算力超過萬億單詞的人類語言數據集GPT3.51750 億OpenAI華為云中科院自動化所瀾舟多模態預訓練模型結合人類參與強化學習復旦大學
10、超算中心-對話式大型語言模型MOSS百億復旦大學在現代人工智能領域,算力扮演著推動創新、實現突破的核心驅動力。算力、算法、數據和系統架構等多個方面的綜合優化對于大規模模型訓練的成功至關重要。從技術層面看,在大模型的研發過程中,預訓練、微調和模型推理等環節是核心關鍵因素和主要計算特征。千行百業ALL In AI,算力成為智能化升級的核心支撐AI快速發展正在推動各行業的數智化轉型,大模型為千行百業提供了創新解決方案。通用大模型側重發展通識能力,行業/場景大模型側重發展專業能力,模型賦能行業有效的提升了效率、降低成本及優化決策過程。算力支撐成為了AI產業發展的關鍵,也是實現AI技術在各行業廣泛應用的
11、基礎。目前大模型在廣告、傳媒、教育、金融等領域快速落地應用,AI算力與各行業深度融合,將加速產業升級和數字化轉型進程。算力基礎設施AI芯片AI服務器智算中心云服務智算一體機基礎模型NLPCV多模態科學計算預測行業模型廣告傳媒金融零售交通政務教育醫療工業場景模型及應用推薦搜索智能客服代碼生成智能風控自動定價自動駕駛智能監控智能調度教學和評分助手智能醫學影像智能藥物研發通識數據行業數據場景數據廣告探索孵化期試驗加速期采納成長期0%100%目標市場滲透率軟件教育傳媒金融游戲出行醫療電商制造建筑能源農業落地成熟期發展階段圖1:大模型賦能各行各業圖2:主要行業大模型應用階段示意圖數字基礎設施加快建設,智
12、能算力增長勢頭強勁數字經濟成為全球經濟增長的活力所在。2022年,全球51個主要經濟體數字經濟同比名義增長7.4%,高于同期GDP名義增速3.2%,持續為全球經濟平穩回升注入動力。數字經濟快速發展推動數字基礎設施建設步伐加快。算力作為重要的數字基礎設施,算力結構不斷調整。全球算力主要由通用算力、智能算力和超算算力組成。通用算力作為基礎,滿足廣泛的日常計算需求;智能算力則在新興技術領域發揮關鍵作用;超算算力針對特定高端需求提供強大計算能力。數據顯示,2023年底全球算力總規模約910EFLOPS,其中,智能算力從2021年的113EFLOPS增長至2023年的335EFLOPS,增速遠超其他。3
13、984985511131423351010240100200300400500600202120222023通用算力智能算力超算算力圖1:2021-2023年全球算力規模(單位:EFLOPS)通用算力智能算力超算算力技術特點一般主要由CPU芯片提供計算能力,適合計算復雜度適中的云計算、邊緣計算類場景。一般由GPU為代表、FPGA、ASIC等AI芯片的加速計算平臺提供的算力,側重于處理和分析大量數據,執行復雜計算任務。由超級計算機等高性能計算集群所提供的算力,注重雙精度通用計算能力,追求精確的數值計算。應用場景應用范圍廣泛,如科學研究、工程設計、商業分析、醫學診斷等。主要用于人工智能的訓練和推理
14、計算,如語音、圖像和視頻的處理等。主要用于尖端科學領域的計算,如行星模擬、藥物分子設計、基因分析等。圖2:不同算力的重點應用領域國家層面統籌布局,陸續出臺多項政策大力支持算力發展時間發文部門文件名稱主要內容2024.10國家發展改革委員會國家數據標準體系建設指南要強化基礎設施互聯互通、算力保障和流通利用標準建設,為數據資源、數據技術、數據流通、融合應用提供支撐。2024.09國務院辦公廳國務院辦公廳關于加快公共數據資源開發利用的意見繁榮數據產業發展生態。將數據產業作為鼓勵發展類納入產業結構調整指導目錄,支持數據采集標注、分析挖掘、流通使用、數據安全等技術創新應用,鼓勵開發數據模型、數據核驗、評
15、價指數等多形式數據產品。圍繞數據采存算管用,培育高水平數據要素型企業。聚焦算力網絡和可信流通,支持數據基礎設施企業發展。落實研發費用加計扣除、高新技術企業稅收優惠等政策。支持數據行業協會、學會等社會團體和產業聯盟發展,凝聚行業共識,加強行業自律,推動行業發展。2024.03中央人民政府政府工作報告適度超前建設數字基礎設施,加快形成全國一體化算力體系,培育算力產業生態。2023.12國家發展改革委員會關于深入實施“東數西算”工程加快構建全國一體化算力網的實施意見(發改數據20231779號)到2025年底,普惠易用、綠色安全的綜合算力基礎設施體系初步成型,東西部算力協同調度機制逐步完善,通用算力
16、、智能算力、超級算力等多元算力加速集聚,國家樞紐節點地區各類新增算力占全國新增算力的60%以上,國家樞紐節點算力資源使用率顯著超過全國平均水平。1ms時延城市算力網、5ms時延區域算力網、20ms時延跨國家樞紐節點算力網在示范區域內初步實現。算力電力雙向協同機制初步形成,國家樞紐節點新建數據中心綠電占比超過80%。用戶使用各類算力的易用性明顯提高、成本明顯降低,國家樞紐節點間網絡傳輸費用大幅降低。算力網關鍵核心技術基本實現安全可靠,以網絡化、普惠化、綠色化為特征的算力網高質量發展格局逐步形成。2023.10工業和信息化部算力基礎設施高質量發展行動計劃推動算力結構多元配置。結合人工智能產業發展和
17、業務需求,重點在西部算力樞紐及人工智能發展基礎較好地區集約化開展智算中心建設,逐步合理提升智能算力占比。推動不同計算架構的智能算力與通用算力協同發展,滿足均衡型、計算和存儲密集型等各類業務算力需求。2023.3科技部關于開展國家新一代人工智能公共算力開放創新平臺申報工作的通知為貫徹落實國家新一代人工智能發展規劃(國發201735號),做好“國家新一代人工智能公共算力開放創新平臺”(簡稱“公共算力平臺”)啟動建設工作,根據國家新一代人工智能公共算力開放創新平臺建設指引(試行)(國科辦高202289號,簡稱建設指引),結合我國人工智能技術發展和算力基礎設施建設的需求,現啟動“公共算力平臺”建設申報
18、工作。2022.8科技部財政部企業技術創新能力提升行動方案(2022-2023年)推動國家超算中心、智能計算中心等面向企業提供低成本算力服務。支持建設一批重大示范應用場景,鼓勵創新型城市、國家自創區、國家高新區、國家農高區、國家新一代人工智能創新發展試驗區等發布一批應用場景清單,向企業釋放更多場景合作機會。國內重要的算力政策文件內容各省市積極響應,通過政策引導和支持推動地方算力發展各省市通過政策引導和支持,推動地方算力資源的開放共享、數據中心的集約化發展、算力網絡的一體化建設,以及算力與實體經濟的深度融合,從而加速AI應用的落地和數字經濟的發展。省市時間文件名稱主要內容山東2024.06山東省
19、算力基礎設施高質量發展行動方案強化多元算力協同部署。引導通用算力、智能算力、高性能算力中心等合理梯次布局,支持重點企業建設智算中心,適度超前提高智能算力占比。推進通用算力中心規范有序、規模集約發展。重點在人工智能發展基礎較好、產業需求旺盛的地區集約化開展智算中心建設,支持濟南、青島等市用好人工智能創新應用先導區、創新發展試驗區,構建多元異構的千卡級別、萬卡級別智能算力集群。引導濟南、青島國家級超算中心深度融入國家分布式超算互聯網系統,爭取建設中國算網山東節點,打造國際一流的超算中心。河北2024.05關于進一步優化算力布局推動人工智能產業創新發展的意見到2025年,全省算力規模達到35百億億次
20、/秒(EFLOPS)以上,智能算力占比達到35%左右,新增算力基礎軟硬件設施自主可控比例60%以上。在智能制造、醫療局指動人工智能產業創新健康等優勢領域孵化一批行業應用大模型,培育典型應用場景30個。智能產業合作進一步深化,在環京區域打造人工智能產業集聚區,指動一批人工行能合作項目落地實施。北京2024.04北京市算力基礎設施建設實施方案(2024-2027)到2025年,基本建成智算資源供嶺集群化、有算設施建設自主化、有算能力賦能精準化、街算中心運營綠色化、們算生態發展體系化的格局。到2027年,優化京津冀象算力供給質量和規模,力命自主可控算力滿足大模型訓賬高求,算力能耗標準達到圖內領光水平
21、。江蘇2024.04江蘇省算力基礎設施發展專項規劃全市“613”產業體系重點企業和在揚從事人工智能研發應用的科研統所,在運河城市算力平臺積用非關聯方的智能算力資源,憑已簽訂的算力服務合同獲取算力券。算力寫求方通過平臺購買使用智能算力資源服務的,按服實際支付智能算力費用30%給予支持,給予同一主體每年最高200萬元補貼,算力養有效期為12個月。黑龍江2024.03黑龍江省支持智算中心和超算中心建設獎勵政策實施細則省工信廳負責對照績效目標做好事后績效評價工作,聚焦注重投入產出效益,對政策實施效果和資金使用情況開展“雙評價”,提升績效評價質量和實效。健全評價指標體系,將包括但不限于新增智算、超算規模
22、,新增算力服務營收等個性化指標作為產出效益評價重點。加強績效評價結果應用,將評價結果作為政策調整、預算安排和資金分配的重要依據,對于產出效益未達預期的,對政策延續實施的必要性開展評估,根據評估結果提出應用措施。上海2024.03上海市智能算力基礎設施高質量發展“算力浦江”智算行動實施方案(2024-2025年)力爭到2024年,信息通信行業基本形成布局合理、算網協同、軟硬協同、低破高效、數字化特型帶動能力突出、產業鏈更加充備的新型數據中心發展體系,初步建成全圖一體化算力網絡上海樞組節點,形成與本市數字經濟發展方貳相運應,長三南地區協同發展的算力服務發展格局,建成具有跟太乃至全球影響力的高能級算
23、力樞細中心。廣東2024.03廣東省算力基礎設施高質量發展行動暨“粵算”行動計劃2025年,在計算方面,算力規模達到38EFLOPS,智能算力占比達到50%,建成智能計算中心10個。浙江2024.03關于發展計算產業 打造算力強區的若干政策(征求意見稿)力爭到2025年,全區集成電路產業規模達400億元,網絡通信產業規模達850億元。報進機州人工智能計算中心建設擴容,基于全核肉主技術路絨的公共算力規模達到 500P,培育等化5個具有行業影響力的專用模型,人工智能賦能標桿企業8家、其型應用場景10個。南京2024.03南京市推進算力產業發展行動方案2025年,全市數據中心總規模達到25萬標準機架
24、,總算力超8.5EFL0PS(FP32),可統籌智能算力超6000PFL0PS(FP16)。貴州2024.02貴州省算力基礎設施高質量發展行動計劃(2024-2025)推動算力結構多元配置。結合人工智能產業發展和業務需求,重點在西部算力樞紐及人工智能發展基礎較好地區集約化開展智算中心建設,逐步合理提升智能算力占比。推動不同計算架構的智能算力與通用算力協同發展,滿足均衡型、計算和存儲密集型等各類業務算力需求。國內典型城市大力發展算力的相關政策匯總目 錄Part 01時代動力,AI新世代繁榮的發動機Part 02層見疊出,復雜工程需要多樣手段解決Part 04實踐落地,AI算力應用的新標桿Part
25、 05來日方長,AI新世代下的不斷探索Part 03各取所需,市場激發AI算力的選擇思考滿足大模型需求的算力是一項復雜的系統工程滿足大模型需求的算力是一項涉及多層面復雜系統工程,因為它不僅需要在計算能力上實現指數級增長,以應對大模型的龐大慘數量,還要在數據傳輸、存儲和處理等多個維度深度優化。算力系統的設計遠非簡單的算力資源堆砌,而是需要解決低時延數據交換、節點間計算負載的均衡分配、消彌算力堵點,預防硬件故障等一系列技術難題。且不同應用場景對算力效率、調度靈活性、擴展性、安全穩定、成本效益等方面有著各自獨特的需求。這些需求的多樣性和復雜性要求在構建算力基礎設施時,需要進行綜合規劃和設計,以實現高
26、效、經濟且可持續的算力供給。數據&模型準備算力準備&模型訓練推理部署&集成數據處理算力準備&系統調優大規模訓練&微調推理部署公共開放數據處理模型設計行業特征工程計算平臺系統設計AI集群平臺建設系統調試與上線代碼調試模型訓練代碼調試模型微調轉換剪枝蒸餾量化在線推理在離推理集成行業私有數據處理指令微調數據處理模型微調設計模型層/優化器設計模型架構設計超參定義和范圍標定防攻擊/故障隔離API開放模型預訓練下游任務微調壓縮/轉換優化/部署大模型的研發、部署及集成是一項復雜的系統工程大模型在不同場景的算力需求及工程難度訓練預訓練二次訓練全參微調局部微調算力需求超大規模千卡萬卡大規模數百卡千卡較小規模單卡
27、8卡起步小規模單卡1卡起步工程難度很高TP/DP/PP并行,海量數據高基模選擇,高質量數據較高十萬百萬條指令集一般萬條指令集推理To C推理To B中心To B邊緣算力需求超大規模千卡以上大規模數百卡小規模數十卡工程難度很高極致性能高融合高效較高靈快輕易AI算力具備軟硬件的復雜性,并且以不同產品/服務/方案為應用賦能基于AIGC的技術棧,算力層作為上層模型及應用的重要支撐應用層中間層(接口層)模型層框架層算力層數據層數據資源(數據采集、清洗、標注等)從模型到應用閉源閉源模型應用基于公共網絡平臺的應用,單一平臺應用網絡平臺應用提供基于本地邊緣或端側交互的應用邊緣或端側應用數據中心工具與模型部署和
28、調用API數據中心與模型API基于預訓練模型的場景/產品適配Prompt優化與模型微調商業化的預訓練模型,通過API調用非開源預訓練模型開源模型共享平臺模型Hub代碼及權重開源的預訓練模型,一般可免費試用開源模型用于訓練或云部署的深度學習框架和中間件等,包括PyTorch、TensorFlow深度學習框架與中間件等單芯片、多卡互聯、存儲、網卡、PCB、BMC、電源等芯片層服務器、路由器、交換機、光模塊等IT設備及機架其他非IT設備服務器層通用算力中心、智算中心、超算中心數據中心(智算中心)層PaaS、MaaS,邊緣計算等云服務(智算云服務)層服務器管理軟件等通過軟硬件結合方式實現算力資源使用效
29、率提升智算服務平臺芯片軟件棧,解決卡內、卡間的互聯及加速算力優化解決方案提升算力在AI應用時的利用率 AI 算力仍舊是建設在過往的算力架構基礎上,市場概念可以覆蓋芯片、服務器、智算中心、云服務以及相關的產業鏈相關方案 由于構建AI算力底層的硬件產品的復雜性(計算芯片、存儲產品的架構、方案等多樣性),結合用戶需求的多樣性,因此可衍生出大量的產品方案生成式AI的突破依賴于算力的“暴力美學”,應用依賴于算力在場景中的釋放AI技術在實際應用中包括兩個環節:訓練(Training)和推理(Inference),AIGC的算力需要考慮訓練及推理兩個方面。訓練是指通過數據開發出AI模型,使其能夠滿足相應的需
30、求,一般為AI技術的研發。因此參數量的升級對算力的需求影響大。推理是指利用訓練好的模型進行計算,利用輸入的數據獲得正確結論的過程,一般為AI技術的應用。推理部署的算力主要在于每個應用場景日數據的吞吐量。訓練推理算力模型數量參數量訓練數據量訓練算力核心影響因素訓練次數微調階段訓練階段模型數量應用場景單用戶數據量推理算力核心影響因素用戶活躍度應用時間當下模型參數量大規模提升,同時影響訓練數據量及訓練次數,推動訓練階段算力及對應的微調階段算力提升模型參數數值基本確定,隨著應用場景、適用人群數量增加,導致推理數據量及模型數量增多,進而使推理算力需求井噴發展訓練完的模型參數量也會影響推理端算力復雜工程的
31、算力落地理念:需要基于目標與資源的分配去達成工程學平衡應用落地的算力選擇,更應該強調最優解,而非最大解。在實現AIGC的技術落地過程中,模型的參數量及涌現結果固然重要,但模型在運行過程中所需的算力成本、能耗成本、運營成本等是否能匹配AIGC技術提供的效果及價值突破更為重要。以終為始,貼合行業需求,實現目標與資源平衡,是AIAI新世代下的算力選擇依據訓練需求(一次開發)核心目標:基于行業Know-How需要實現的AIGC技術功能拆分,實現精準的需求分析其他成本制約因素行業Know-How不僅僅表現在豐富的行業實踐經歷,而是深入理解客戶的業務需求,并且通過管理項目開發的流程完成,在細化需求中尋找到
32、主要矛盾并解決。Why(用戶分析)How(項目執行)基于用戶的細分行業屬性,熟悉細分行業的需求價值基于用戶的業務流程細節,對用戶的需求矛盾分析基于用戶的資源能力,明確用戶的負擔上限在不同階段和層面對項目的工作內容從主項、分項、子項甚至單體的各個部分進行拆分(例如采用WBS),實現項目關鍵節點的管理,完成項目人員的協同、管理、分工及時間資源調配對風險的預知、判斷及合理控制預訓練基于需求進行fine-tune訓練數據量技術實現路徑考慮到模型訓練“黑盒”機制與多次調優,所需算力與開發過程強相關時間成本(是否盡快搶到實踐化的落地)能耗成本(云服務或者算力的使用成本)人員成本(工程化協作的團隊)推理需求
33、(長期運營)資源分配:通過選擇合適的技術路徑實現算力的成本優化參數量規模算法結構模型種類(算力需求系數相關安全性與穩定性網絡通信模型規模(參數稀疏程度)時延數據吞吐量模型推理階段的算力主要為運行模型和數據處理,并且需要考慮產品的使用體驗功能需求決定推理能力,推理能力取決訓練水平,有限算力資源要進行主次的優先選擇隨著推理成本的降低,推理端算力需求將持續擴大(1/2)GPT-4$36/1MtokensGPT-4 Turbo$14/1MtokensGPT-40$7/1MtokensGPT-40$4/1MtokensGPT-4 的價格變化2023年3月2023年11月2024年5月2024年8月86%
34、下降比例 AIGC模型在處理輸入和輸出時,其計算資源消耗與輸入輸出的數據量成正比,費用計算基于輸入輸出的Token數量。以OpenAI 為例,在過去兩年里,它將API訪問成本降低了99%。具體來看,GPT-3 的API 推理成本從2021年的每千Token 0.06美元降至2022年的0.02 美元,降幅達66%。到2023年,GPT-3.5 Turbo的API推理成本與2021年相比下降了86%。41.6%58.7%32.3%31.2%29.5%27.4%58.4%41.3%67.7%68.8%70.5%72.6%20222023E2024E2025E2026E2027E2022-2027年
35、中國AI服務器工作負載及預測訓練推理訓練端60%推理端40%英偉達FY2024數據中心推理與訓練占比根據英偉達財報,其數據中心的推理占比已經達到40%未來,AI 服務器的工作負載可能以推理為主隨著推理成本的降低,推理端算力需求將持續擴大(2/2)推理所需Token 數遠超訓練所需Token 數ChatGPT 推理生成超1T Tokens/天GPT 3.5 2T TokensGPT 4 10T Tokens提高MFU,推理場景比訓練場景面臨更多技術挑戰推理成本訓練成本2N FLOPs/token6N FLOPs/tokenPrompt數量/生成Token訓練Tokens數量成本/FLOPMode
36、l FLOPs Utilization=xxx推理成本遠超訓練成本 未來AI應用推理的成本可能會遠超訓練。大模型訓練是階段性的需求,訓練數據通常是固定的,比如幾萬億、幾十萬億token的量級,且客戶集中度高。但做推理,可能每天都是幾萬億到10萬億Token,一周就超過了訓練的計算量。模型推理成本下降是超級應用爆發的前提條件之一。AI 推理成本算力消耗推理成本大幅下降(10X-100X)推理算力爆發訓練算力爆發2024推理算力未來可能爆發的示意圖 當前AI 應用需求正在發生變遷,大模型正從 To VC 泡沫炒作階段走向 To B 落地階段,未來可能走向 To C 階段,當前制約在于 AI 推理成
37、本,成本降低后將迎來應用爆發。企業可以進行推理成本優化,包括硬件降本(如硬件梯次利用)、算力調度(按需求波峰波谷配置資源)和推理加速。目 錄Part 01時代動力,AI新世代繁榮的發動機Part 02層見疊出,復雜工程需要多樣手段解決Part 04實踐落地,AI算力應用的新標桿Part 05來日方長,AI新世代下的不斷探索Part 03各取所需,市場激發AI算力的選擇思考AI的算力資源選擇,需要結合自身部署能力及應用需求綜合考量云服務智算中心智算硬件芯片影響算力資源利用的維度(算力提供方在AI算力領域的Know-How及經驗)算力直接使用者所需技術要求 芯片的選擇及適配 智算硬件的選擇及適配
38、智算中心的選擇及適配 接入方式、算力調度、需求分配、彈性擴展、高效穩定、算法優化、通訊傳輸、第三方生態、故障排查、大模型相關數據及訓練工具包(生態)、模型的納管及生態合作、云邊端協同 芯片的選擇及適配 智算硬件的選擇及適配 租戶管理、配額管理、運維管理、資源及作業調度管理、系統監控、安全及穩定 芯片的選擇及適配 硬件選型及適配(如內存)、異構算力的調度及配合、網絡傳輸、軟件優化、集群架構、環境優化 內存/顯存、片內互聯及片間互聯、AI適配生態工具(包括適配算法及其他硬件)、物理環境支撐、折舊速率 核心計算單元的算力參數 對應的運算精度 單元數量需要從芯片層面解決工程問題,包括芯片互聯、構建網絡
39、、適配從應用到硬件的環境,工作量大且繁雜,需要具備從0到1的經驗豐富的技術團隊支持通過服務器等硬件完成自有算力的部署,環境調試,完成大量不同硬件設備的選型、優化及穩定性保障,需要具備成熟的項目案例經驗按需取用、靈活擴展、無需各IT系統的復雜運維,直接在完成優化的環境下進行開發可按需適配資源及彈性適配,部署時間更快,可以選擇適配AIGC產品/服務的算力資源,減少對于AI算力環境優化的時間及人力成本算力資源的維度不僅包括算力規模大小,要考慮算力部署及運營過程中可以利用的程度。算力是工程化結果,是從芯片到資源服務的多層次構造,需要算力服務方自身在自身專業能力及經驗案例上的實際Know-How作為基礎
40、。不同需求程度的用戶不能唯算力的參數而論,而是要結合自身對于算力部署的能力進行進一步探究。AI芯片是智算產業的核心環節,AI芯片未來發展空間巨大83%50%51%32%9%25%28%45%8%25%21%23%0%10%20%30%40%50%60%70%80%90%100%機器學習服務器推理服務器高性能服務器基礎服務器CPU、GPU成本內存、存儲器成本其他圖1:服務器主要成本構成1592663486529111228161102004006008001000120014001600180020202021202220232024E2025E2026E圖2:2020-2026年中國AI芯片市
41、場規模(單位:億人民幣)芯片作為算力產業的基石,為智能算法和應用提供了不可或缺的計算能力。在服務器成本中,核心芯片如GPU占據了超過80%的比重。掌握自主可控的AI芯片技術,對于智算產業的持續發展至關重要。隨著人工智能應用場景的不斷拓展,市場對高性能AI芯片的需求日益增長。同時,存算一體、光通信等前沿技術的突破,為AI芯片產業注入了強勁的增長動力。數據顯示,2023年中國AI芯片市場規模已達到約652億人民幣。預計到2026年,市場規模將顯著增長至1611億人民幣,AI芯片市場正迎來快速發展的黃金時期。2023.10.17壁仞科技及其附屬關聯公司摩爾線程及其附屬關聯公司2023.03.02龍芯
42、中科技術股份有限公司浪潮集團2022.12.15長江存儲科技有限責任公司寒武紀及其附屬關聯公司合肥兆芯電子有限公司2021.12.17長沙景嘉微電子股份有限公司2021.11.26新華三半導體技術有限公司2021.07.09杭州華瀾微電子股份有限公司2021.03.08國家超級計算深圳中心2020.12.18中芯國際及其附屬關聯公司深圳云天勵飛技術有限公司2019.06.24曙光信息產業股份有限公司2019.05.16華為及其附屬關聯公司AI芯片成為中美科技博弈的焦點之一,AI芯片國產化刻不容緩圖2:被美國列入“實體清單”的中國半導體企業2023.10美國商務部將壁仞科技、摩爾線程等公司列入實
43、體名單。2023.03美國商務部將浪潮信息、龍芯中科等公司列入實體名單。2022.10BIS對中國實體超級計算機計算芯片和包含此類芯片的計算機商品的禁令,對收到許可證要求限制的外國生產項目的范圍擴大到實體名單上中國境內的28家現有實體;針對=128層的NAND存儲芯片增加了新的許可證要求;限制美國人員在沒有許可證的情況下支持中國某些半導體制造設施的研發和集成電路的制造;將包括長江存儲、中國科學院大學等科研院校在內的31家實體列入未經核實名單(UVL)。2022.08美國通知英偉達向中國和俄羅斯出口A100和H100芯片需新的許可證要求。2022.08BIS公告美國準備對EDA等四項技術實行出口
44、管制。2022.07美國半導體廠商收到美國商務部規定,要求不得向中國供應用于制造=14nm芯片的設備。2022.07美國眾議院通過芯片與科學法案,主要內容包括:分5年提供527億美元用于半導體制造激勵計劃、研發投資、稅收抵免,其中美國芯片基金共500億美元,390億美元用于鼓勵半導體制造企業,110億美元補貼芯片研發;法案要求獲得補貼的半導體企業未來10年內不得在中國大陸新建或擴建先進制程的半導體工廠。2020.12中芯國際被納入實體名單,對用于1000P大型智算中心百億元及以上京津冀、長三角、珠三角AI大模型、自動駕駛、空間地理等人工智能技術領域3001000P中型智算中心10億元以上一線、
45、新一線及二線城市人工智能產業鏈或細分行業智能化集群100P小型智算中心10億元以下二線及以下城市企業智能化建設或小型人工智能產業集群70%10%20%多種智算中心建設及運營模式并行,適配不同算力需求政府或通過平臺公司投資建設智算中心。運營上由平臺公司運營,或引入第三方企業參與運營。該模式多適用于發達地區,本地有強算力需求。引入運營商或第三方企業投資運營政府提供電力、土地等優惠政策,如每年購買不少于2000萬算力補貼,連續購買5年平臺公司投資建設智算中心企業與平臺公司或地方性國資企業成立合資公司,負責公司人、財、物管理,其他部門可采用外包等方式政府投資+企業運營政府平臺公司/企業智算中心投資運營
46、企業自投自運+政府補貼企業政府智算中心自運政策補貼自投平臺企業投資+聯合運營平臺公司合資公司智算中心投資聯合運營企業目前建設運營模式主要有政府投資建設、企業建設運營、政府購買服務、政府和社會資本合作等模式,主要產業合作方如下:云廠商及AI科技企業具備智算中心操作系統和AI算法的開發部署能力三大通信運營商擁有全國布局的網絡基礎資源、數據中心資源和云資源池第三方數據中心廠商具備高標準等級的算力硬件和運維能力,為高性能算力和節能方案提供支撐從目前建設情況看,根據算力規模,智算中心可劃分為三大類:超級智算中心:1000P以上的多為公共用途,承擔樞紐節點角色中型智算中心:100P到1000P多服務于產業
47、集群類需求,當前落地項目數量更多小型智算中心:100P以下更多以企業級零散需求為主AI服務器需求激增,帶動市場規??焖僭鲩LAI服務器是智能算力的重要載體,在全球范圍內迅速擴張。2023年,全球AI服務器市場規模突破500億美元,增幅高達95.8%,預計到2018年,市場規模有望突破1000億美元,五年的年復合增長率預計為14.5%。中國AI服務器在AI及智算產業的高速發展下持續攀升,從2020年的149億人民幣增長至2023年的692億人民幣。隨著AI應用的成熟和普及,市場對于AI服務器的需求預計繼續增長。預計到2028年,中國AI服務器的市場規模達到1433億人民幣。圖2:2020-2028
48、年中國AI服務器的市場規模(單位:億人民幣)149273341692613777970118714330.0%83.2%24.9%102.9%-11.4%26.8%24.8%22.4%20.7%-20.0%0.0%20.0%40.0%60.0%80.0%100.0%120.0%020040060080010001200140016002020202120222023 2024E 2025E 2026E 2027E 2028E圖1:2020-2028年全球AI服務器的市場規模(單位:億美元)15118026351545156669784910160.0%19.2%46.1%95.8%-12.4%
49、25.5%23.1%21.8%19.7%-20.0%0.0%20.0%40.0%60.0%80.0%100.0%120.0%0200400600800100012002020202120222023 2024E 2025E 2026E 2027E 2028EAI服務器出貨量快速增長響應下游應用需求AI服務器的出貨量從2020年的15萬臺激增至2023年的36萬臺,實現了顯著的增長。其中,訓練型服務器占據市場主體地位,但隨著生成式AI應用的發展,推理型服務器預計將逐漸成為市場主流互聯網行業在大模型訓練和推理方面處于領先地位,占據了AI服務器年出貨量的半壁江山。隨著垂直領域大模型在金融、能源、交通
50、、教育、政務以及智能制造等行業的廣泛應用,對AI服務器等智能計算資源的需求預計將持續穩步上升。152328363746566881010203040506070809020202021202220232024E2025E2026E2027E2028E圖1:2020-2028年中國AI服務器出貨量(單位:萬臺)圖2:2020-2028年中國AI服務器出貨量行業分布59%57%47%55%52%55%57%57%56%12%17%23%14%16%15%15%15%16%10%9%6%8%9%9%8%8%8%4%3%6%8%6%5%4%4%3%3%4%4%4%5%5%6%6%5%3%3%5%4%4
51、%2%3%3%3%8%7%9%8%9%8%8%8%9%0%10%20%30%40%50%60%70%80%90%100%20202021202220232024E2025E2026E2027E2028E互聯網服務政府電信金融工業制造其他“云+AI”雙輪驅動,成為云廠商擴大AI算力投入與產出的新動力從投入端來看,2005-2023年,Amazon、Micosoft、Google及Meta四大云廠商資本開支整體呈現擴大趨勢。2005-2022年,海外云廠商資本開支的增長驅動是云計算業務(IaaS+PaaS+SaaS)的持續增長;進入2023年,云計算+AI成為新的雙輪引擎,云廠商通過加強AI算力建
52、設來滿足大模型訓練及推理需求。從收入端來看,得益于MaaS服務帶動,Micosoft、Google、Amazon云收入增速自2023Q3逐步企穩,2024Q1三家公司的云收入同比增速分別為31%、28%、17%。MaaS成為云廠商新的增長動力。20415163357581112179230236305387647649900121814601429199322112399050010001500200025002005200620072008200920102011201220132014201520162017201820192020202120222023 2024E 2025E 2026
53、EIaaSPaaSSaaSMaaS云服務初期AWS率先布局Microsoft Google正式推出云服務云服務成熟企業上云加速線上辦公需求增長生成式AI快速發展圖1:AI成為推動海外云廠商資本開支增長的驅動力(單位:億美元)AI驅動云計算市場迎來新一輪增長,加速產業格局重構322945506165837811780159852140454.4%40.9%35.5%35.9%40.6%35.7%33.9%0.0%10.0%20.0%30.0%40.0%50.0%60.0%05000100001500020000250002021202220232024E2025E2026E2027E縱觀整個行業
54、,我國云計算市場展現出強勁的增長勢頭。2023年,我國云計算市場規模達6165億元,同比增長35.5%。隨著AI原生帶來的云計算技術革新和大模型規?;瘧弥鸩铰涞?,云計算產業預計將開啟新一輪增長周期。到2027年,市場規模有望達到21404億元,增長潛力巨大。在市場格局方面,阿里云、天翼云、移動云、華為云、騰訊云和聯通云六大云服務商共占據了我國公有云71.5%的市場份額。隨著AI應用的落地,中腰部廠商憑借創新技術與行業經驗在推動產業升級方面將發揮重要作用,云廠商競爭格局或將產生新變化。21.31%17.07%12.83%9.41%7.15%3.73%28.50%阿里云天翼云移動云華為云騰訊云聯
55、通云其他圖1:2021-2017年中國云計算市場規模及增速(單位:億人民幣,%)圖2:2023年中國公有云IaaS廠商占比云服務模式轉變,形成涵蓋基礎設施、模型平臺、應用生態的MaaS服務架構全球云廠商正在圍繞生成式AI重新布局MaaS服務架構,構建大模型端到端服務體系。以AI芯片為核心構建基礎設施,提供大模型訓練、推理所需的算力;利用模型平臺集成自研、第三方或開源大模型,支持應用開發;直面業務,將大模型深度賦能行業/場景,構建“AI+”創新生態。IaaSPaaSMaaSSaaSX86 CPU+NVIDIA GPUArm架構CPU Graviton訓練芯片Trainium推理芯片Inferen
56、tiaX86 CPU+NVIDIA GPUX86 CPU+NVIDIA GPUArm架構CPU Cobalt訓練推理/芯片MaiaArm架構CPU Axion訓練/推理芯片TPUBedrockAzure AI 平臺Vertex AI Platform其他第三方開源模型Claude 3 系列Titan系列GPT+Sora系列WizardLM系列Claude 3 系列Gemini系列CodeWhispere編程助手S supply Chain 供應鏈助手、Connec聯絡中心、QuickSight報表BedrockAzure AI 文檔/視覺/語音CopilotAzure AI StudioAzu
57、re OpenAI服務Recommendations AI商品推薦、TranslationAI翻譯、Vedio AI 視頻分類Vertex AI AgentBuilder服務器、存儲、網絡等其他芯片模型平臺自研模型投資模型其他模型AI應用開發平臺AI應用海內外云廠商在過往的基礎架構上圍繞AI構建新的創新生態從模型到應用閉源閉源模型應用基于公共網絡平臺的應用,單一平臺應用網絡平臺應用提供基于本地邊緣或端側交互的應用邊緣或端側應用數據中心工具與模型部署和調用API數據中心與模型API基于預訓練模型的場景/產品適配Prompt優化與模型微調商業化的預訓練模型,通過API調用非開源預訓練模型開源模型共
58、享平臺模型Hub代碼及權重開源的預訓練模型,一般可免費試用開源模型用于訓練或云部署的深度學習框架和中間件等,包括PyTorch、TensorFlow深度學習框架與中間件等應用層中間層(接口層)模型層框架層數據層數據資源(數據采集、清洗、標注等)硬件基礎設施服務算力層云服務IaaSPaaS用戶MaaS模式基于傳統云服務的升級:基于傳統模式的IaaS及PaaS支撐的AI能力釋放代表MaaS可以提供的服務MaaS可以基于模型能力直接提供基于AI的云服務方案云服務多重優勢助力AI應用72%28%自托管(內部部署或CSP GPU)模型端點(API訪問)52%38%10%云服務商(如Amazon)模型提供
59、商(如OpenAI)其他端點(如Databricks)圖1:云在模型購買決定中具有較大影響力交付流程按需付費,即刻交付就近接入,超低時延招標到貨硬件安裝軟件調試業務割接 驗收1.5月左右1.5月2月1月左右0.5月0.25月1.5月左右分鐘級零0.5月0.25月云服務分鐘級資源開通上線調研數據顯示,企業的大模型部署中72%的企業選擇的使用模型API服務,其中52%來自云廠商托管。由此可見,云服務商在模型購買中具有較大的影響力,企業出于安全考慮等因素會通過現有云服務商購買模型。Azure用戶更喜歡OpenAI,而Amazon用戶更喜歡Anthropic或Cohere。此外,使用AI云服務有諸多優
60、勢:按需付費,靈活調用資源,實現成本控制;推理服務可就近接入,實現低時延;滿足云、邊、端多樣化算力部署;提供了豐富的API和開發工具,使得開發者可以快速開發和部署新應用等。自建數據中心總耗時3 3個月以上圖2:云服務的優勢針對生成式AI的算力解決方案可提升企業及產業AI落地效率增強企業市場競爭力通過高效計算和分析能力,企業可以更快地利用AI響應市場需求變化,搶占市場先機。降低初始門檻,加速產品的研發和迭代。推動企業創新發展幫助企業探索新的商業模式,通過生成式AI技術,挖掘出更多的商業機會和市場空間。此外,高效的智算集群為企業提供了強大的創新平臺,支持企業進行產品和服務創新,滿足消費者不斷變化的
61、需求。降低企業運營成本通過更先進的管理方式,實現計算資源的共享和動態分配,從而降低企業在硬件設備上的投入成本。同時,智算集群的自動化管理和維護功能,可以減少企業在IT設備維護方面的人力投入,進一步降低企業的運營成本。提升資源利用率通過資源整合技術,將分散算力池化管理,依據不同應用需求靈活調度,極大提高了資源利用率。這種管理方式使得無論是深度學習模型訓練所需的強大并行計算能力,還是多項目并行時的資源動態分配,智算中心都能展現出其不可或缺的作用。推動產業數字化轉型對于優勢型產業集群,AI集群管理通過構建區域行業云的數字化底座,提供行業特定能力的平臺和應用,服務區域特色行業,實現全產業鏈場景的覆蓋。
62、綠色低碳發展通過優化調度算法和資源管理系統,實現了智能與通用算力資源的高效協同,實現了綠色算力的區域發展,協同賦能產業綠色低碳轉型價值分析彩訊股份AI原生云計算解決方案AICloud,集合了下一代AI原生云計算網絡架構、超大規模算力集群管理平臺、高性能大模型訓推平臺三層架構,旨在幫助企業快速構建大規模算力集群、部署運營專屬大模型?;诖朔桨?,GPU集群峰值算力利用率最高可達55%,可節省25%以上網絡設備成本投入。目 錄Part 01時代動力,AI新世代繁榮的發動機Part 02層見疊出,復雜工程需要多樣手段解決Part 04實踐落地,AI算力應用的新標桿Part 05來日方長,AI新世代下的
63、不斷探索Part 03各取所需,市場激發AI算力的選擇思考AI算力服務商市場變化:產品及服務復雜性提升,推動市場多樣性發展備注:*分類及企業數據截至2024年12月,隨著AI在多場景、多領域的不斷應用,將不斷推動更多企業進入AI算力服務領域,未來市場概念可能形成不斷分化。*由于版面所限,暫不計入海外企業,僅通過部分示例企業展示市場特點,順序不分先后。*部分企業具備多個領域的解決方案能力,版面所限,不做一一展示。計算芯片服務器云服務智算中心20242024-中國AIAI算力領域服務商圖譜V1.0V1.0智算服務平臺各省市智算中心說明:文中的智算服務平臺一般指為解決算力調度、管理、資源匹配及性能優
64、化的一類型解決方案提供商,可根據用戶需求提供多類型、不同交付模式的解決方案。存儲重點廠商產品及服務能力分析博大數據公司簡介:博大數據作為領先的融合算力基礎設施服務商,核心團隊擁有超過20年的行業運營管理經驗,積累了豐富的通用算力、智能算力及邊緣算力資源,并具有強大的算力建設能力、平臺服務能力以及算力運營能力,致力于打造一體化數據與算力融合的數字基礎設施平臺,賦能數字經濟可持續發展。博大數據已在全國范圍內部署了以北京、上海、廣州、深圳、成都、武漢為核心的環首都、長江經濟帶、粵港澳大灣區及成渝區域的超大規模算力基礎設施集群,其總面積超過30萬平方米,擁有機柜數近6萬個。不僅滿足企業在核心城市的業務
65、布局,還將進一步助力企業核心與邊緣形態共存的算力集群演變。此外,博大數據積極進行國際化布局,不斷通過資源整合打造全球數字生態,加速拓展海外市場。20年+可靠運營6w+機柜最佳實踐頭部供應商生態平臺多產業客戶交付自身資金雄厚多梯隊人才建設工程化交付+預制化交付AI智能運維管理平臺光伏AI垂直制冷能效控制熱管氟泵分布式制冷供電模塊其他AI算力中心機柜級交付AI服務器算力級交付自有資源代建代維算力網絡算力調度算力服務全樓定制隔籠定制模塊級交付樓層級交付全樓定制量身定制提質增效核心能力共有資源客戶資源基礎服務:遵循模塊化設計理念設計并建造超大規模算力中心,展現出極高的靈活性和可擴展性,配備有定制化的機
66、電和制冷設備,為客戶提供安全可靠且具備容錯能力的數據中心環境。算力及運維服務:基于自建的智算中心,為客戶設計和建造智算中心、銷售和租賃算力設備、提供算力租賃服務、優化算力網絡。同時通過AI賦能針對所有數據中心客戶提供監控、巡檢、IT運維和機房改造服務。增值服務及解決方案:為客戶提供災備、云遷移、安全等增值服務,構建服務生態,推動產業數字化;根據各行業客戶需求為其量身定制上云下云、數字韌性、數據安全等解決方案。融合1打造最佳TCO2綠色低碳3高效運維服務4多元化客戶5一是擁有傳統數據中心、大型智算中心和邊緣智算中心,可以滿足客戶通用算力、智能算力和邊緣算力的需求;二是國內業務與國際業務的融合,擁
67、有全球化經驗;三是生態合作的融合,能夠同時支持多種GPU服務器。博大數據通過搭建智算算力平臺、進行技術創新,依托高彈性、高管理、高可靠、高算力、高能效、高安全的六大智算理念,為客戶降低TCO。綜合采用液冷、蒸發冷熱管系統、電力模塊、光伏、余熱回收等技術,降低PUE,提升效能,提升算力供應能力。擁有500余名專業運維人員,核心團隊經驗豐富,熟知行業規范。依托全國15個數據中心,形成互補互備網絡,應急響應迅速。博大數據已服務超過2000家優質客戶,涵蓋金融、互聯網、云廠家、游戲等多個行業。算力基礎設施及服務競爭優勢連接類服務:算力中心通過全光網絡連接所有主流運營商,并與領先的云計算公司和互聯網公司
68、互聯互通,幫助客戶快速建設算力中心、云和客戶辦公室之間的高速互聯網絡。樹立智算中心產業標桿,讓澎湃算力觸手可及,助力產業轉型升級項目背景:博大數據與恒為科技合作,在前海智算中心建立了“恒為智云前海智算中心”,旨在為粵港澳大灣區構建集高效能、智能化與安全性于一身的算力高地,樹立全區域智算中心產業標桿?!昂銥橹窃魄昂V撬阒行摹笔菑V東省第一個由民企投資、民企運營的華為昇騰集群,也是第一個支持深圳上海兩地實現大帶寬低延時專網打通計算資源的華為昇騰集群。該算力集群面向大灣區用戶,輻射全國,為各行各業的數智升級提供算力服務。博大數據深圳前海智算中心基礎設施投資20億元,總面積超過5萬平方米,并支持高功率深
69、度定制,整體按照國家A級標準建設,一期可支持算力規模達40000P。已于2024年3月開園,并且首批算力已經成功啟用。恒為智云前海智算中心位于博大數據深圳前海智算中心M區,使用率已超過80%。憑借專業優勢以及智能可視化系統的技術優勢,已發展成為“小而美”的國產精品智算中心。高算力高能效高彈性博大數據深圳前海智算中心整體規劃容量約為15000個標準機柜,一期可支持算力規模達40000P。采用創新的冷卻架構結合風冷和液冷技術,提高整體能效,延長設備壽命。分布式系統,彈性模塊化設計,適配企業級服務器、云、智算服務器的彈性需求。高可靠高安全高管理多層次技術架構,為多場景應用提供穩定可靠的服務保障。采用
70、高級身份驗證、加密協議和入侵檢測系統等,確保智算服務器的安全管理。AI驅動的自動化管理系統,實現智能調度、負載均衡、故障預測等功能。彈性需求:為產業服務的智算中心需要能夠靈活擴展,滿足不同業務增長和變化需求,需要與云服務等無縫集成,提供靈活的計算資源和存儲解決方案。配電系統:需要極高可靠性,能夠適應不同設備的電力需求,以及快速部署和調整。算力規模:首批投產300P算力,出租率已超過80%,并計劃迅速擴展至2000P。智能可視化系統:擁有自身獨具優勢的核心產品“智算可視化系統”的應用,實現訓推可視化,為智算中心提供資源調度、運維管理、數字孿生、訓推可視化、集群測試工具等一體化服務。賦能專業轉型升
71、級:作為科技與產業的深度融合體,通過強大的算力支撐,加速人工智能在各行業中的深度融合與應用。建設難點實踐效果重點廠商產品及服務能力分析PPIO派歐云公司簡介:PPIO派歐云是中國領先的分布式云計算服務商,由 PPTV 創始人姚欣和前 PPTV 首席架構師王聞宇于 2018 年聯合創立,公司秉承“匯聚全球計算資源,并為全世界提供服務”的使命,致力于為人工智能、音視頻、元宇宙等新一代場景提供高性價比、穩定可靠、高效彈性的一站式智算、大模型及邊緣計算服務,助力客戶專注應用創新與增長,推動下一個智能時代的加速到來。構建分布式智算云服務匯集模型API服務、Serverless GPUs、GPU容器實例等
72、產品,結合云原生、分布式計算、推理加速等技術,提供更高性價比的一站式AI云服務各類數據中心閑置資源大中小企業閑置算力算力整合調度提供彈性服務大語言模型圖片生成/編輯高??蒲兄腔鄢鞘须娚藤Y源整合能力城市智算中心客戶數據中心邊緣數據中心公有云閑置算力中小企業閑置算力西部北部低電價節點GPU 容器實例Serverless GPUs模型 API 服務全模態API服務,一站式解決集成LLM、圖像、視頻、音頻等多種模態大模型API產品特性性能極致的推理加速引擎自研推理加速算法,將LLM推理性能提升10+倍前沿AI技術賦能持續更新和優化前沿大模型API按需付費,節省成本僅需為實際運行時長付費,按秒計費產品特
73、性彈性伸縮,高可用性業務高峰自動擴容,低峰自動縮容,支持負載均衡私有鏡像,快速部署私有鏡像部署,無需對代碼進行大量適配,切換門檻低便捷的多框架AI開發支持豐富的一鍵部署鏡像,涵蓋主流機器學習框架(如TensorFlow、PyTorch)、底層鏡像(如cuDNN、CUDA),及推理框架(如TensorRT)和即開即用的Llama3、Stable Diffusion產品特性全球覆蓋,模型下載加速依托PPIO分布式智算網絡,提供大容量帶寬,實現Hugging Face、Docker Hub等大模型極速下載,網速提升100+倍OpenAPI管理支持通過OpenAPI靈活實現業務調整、資源管理和運維監控
74、,無縫接入現有DevOps體系整合廣覆蓋智算資源1500+國內外城市縣級覆蓋4000+全球分布式算力節點10+智算中心1000P+算力30+各模態主流開源模型視頻生成/編輯垂領大模型賦能百業廣告營銷社交娛樂智慧園區分布式云能力異構計算資源池分布式儲存資源池多層網絡資源池構建中國鐵塔智聯算力管理調度平臺,實現基于本地服務的全國算力廣域調度項目背景:中國鐵塔是由國務院推動成立的國有大型通信基礎設施服務企業,是我國移動通信基礎設施建設的“國家隊”和5G新基建的“主力軍”。中國鐵塔依托全國基站和機房資源,提出“算力入園”戰略,通過構建統一算力管理平臺提升資源融合與場景應用效率。PPIO派歐云助力中國鐵
75、塔盤活分布式算力資源,構建全國算力網絡,推動人工智能技術在科創園區、高??蒲?、大型商超、智慧社區、云游戲等場景的應用落地。需求痛點與解決方法項目方案與實施效果鐵塔GPU算力機房資源層鐵塔GPU算力機房鐵塔GPU算力機房多元資源融資調度層算力池彈性擴縮服務快速響應算力協同網絡K8S實例敏捷部署資源隔離多維性能監測監控告警全局設備監控日志管理算力調度服務層產品運維算力云(裸金屬+虛擬化+云原生引擎+計算框架兼容)基礎云計算優化算子加速大模型剪枝模型量化應用服務算力計費AI模型調用請求處理元數據管理應用算力分配算力釋放實時調度智能調度策略統一管理接口高??蒲写笮蜕坛腔凵鐓^云游戲用戶請求服務響應請求
76、處理任務優化服務指派容器運行節點分散,資源統一管理難跨時空和場景,提升資源利用率難大模型推理性能瓶頸AI大模型推理對顯存、算力和帶寬要求極高,傳統方法難以兼顧性能和成本,導致響應速度慢、用戶體驗差。通過協同大模型推理加速技術,可突破性能瓶頸,有效降低資源占用,提升資源分配效率,以滿足AIGC應用對低延時、高穩定性的需求。面對跨區域、跨時間、跨場景的多樣化需求,異構資源性能差異大,利用率低。通過智能調度算法結合負載預測技術,實現任務需求與算力資源的動態匹配,顯著提升系統資源利用效率。算力資源分散且設備類型多樣,導致管理復雜。通過研發分布式節點納管技術,結合自動化監控與故障檢測,實現資源狀態實時可
77、視化與問題快速定位,提升運維效率。降本資源整合與優化:通過規?;渴鸷唾Y源共享,運營成本降低35+%。投資回報周期縮短:單臺設備回報周期由5年以上縮短至約3年。增效提高設備利用率:引入負載預測與智能調度算法,在閑時充分挖掘資源潛力,設備平均利用率提升50%。提升算力服務響應效率:通過全鏈路FP8量化、KVCache稀疏壓縮、投機采樣及其他無損優化,大幅提升推理性能,吞吐提速20倍以上。升級戰略轉型:將傳統通信機房升級為分布式智算節點,實現從基礎設施租賃向高附加值智算服務的跨越。推動智算商業模式落地:通過標準化產品與商業模式驗證,形成可復制的智算樣板案例,推動分布式云計算在各場景的普及應用。依托
78、算力管理調度平臺,對全國算力節點進行統一接入、納管、調度、管理運營和維護,構建鐵塔智算網絡,已接入北京、天津、廣東、陜西、山東、湖北5個省市、8個節點智算資源。已服務數十家客戶,涉及科創園區、高??蒲?、大型商超、智慧社區、云游戲等場景。重點廠商產品及服務能力分析青云科技公司簡介:北京青云科技集團股份有限公司(簡稱:青云科技,股票代碼:688316)自 2012 年創立以來,堅持核心代碼自研,圍繞“數字化、AI 算力、信創、云原生”四大場景,打造核心業務線,幫助企業構筑堅實的數字基石,以中國科技服務數字中國。公司于 2021 年 3 月登陸上交所科創板,被稱為“混合云第一股”。順應算力基建、人工
79、智能等趨勢與需求,結合青云公有云十余年的技術積累和運營經驗,青云科技打造了統一調度、統一管理、統一運營多元異構算力的 AI 智算平臺,推出了靈活高效、全??煽?、生態開放的 AI 算力云服務,聯合生態伙伴共建 AI Cloud,服務企業的數智化創新,助力數字經濟發展。AI應用算力服務算力調度算力底座異構硬件WEBSDK/APICLI計算場景分布式訓練共享/專屬計算資源存儲服務文生文精調文生圖精調語音和視頻HPC計算調度策略團隊共享推理場景模型廣場推理服務版本管理模型管理擴容縮容推理加速模型部署API網關服務日志開放場景JupyterVS Code容器實例公共服務算力總覽數據存儲鏡像倉庫訂單管理賬
80、單管理錢包管理統一算力調度裸金屬算力算力納管算力池算力虛擬化/算力切分邊緣計算Kubernetes容器引擎計算服務(CPU/GPU/DPU)存儲服務(文件/對象/Local)網絡服務(IB/RoCE)Agent智能體AI PaaS自動駕駛具身智能高??蒲猩镝t藥智能制造政務金融醫療交通問答Copilot代碼CopilotOCR算力概覽網絡監控算力監控故障/錯誤碼節點管理監控告警資源管理算力運維用戶管理產品管理用戶權限計費賬單客戶折扣規格定義統計報表算力運營AI智算平臺AI算力云彈性擴容,根據業務情況,可以不間斷彈性增加云上的 AI 算力資源內置主流環境、模型,一鍵部署環境,輕松快速接入業務無建
81、設運維成本,按需租用,專業品質,低廉價格彈性好用性價比打造算力中心建設的新模式,建立從建設到運營的閉環,像管理本地資源一樣管理AI基礎設施。完備的云上AI基礎資源與應用支持,用戶即來即用,釋放強大算力。青云打破傳統數據中心建設與運營的諸多瓶頸,實現算力資源的高效利用與可持續發展,為區域智算中心、行業智算中心等不同規模智算中心建設提供全方位支持。青云為企業提供了一個全面、高效、靈活的模型訓練與推理環境,支持從數據預處理到模型部署的全流程,滿足不同規模和需求的 AI 訓練與推理任務。青云通過通算+智算+超算實現一體化管理,小規模部署到逐步擴張,以混合云完成資源不足時調用公有云,上下課資源自動分配和
82、刪除,并通過 GPU 的切分與共享的提高資源利用率,滿足高校多維需求。青云通過金融 GPU 池化解決方案、金融AI 算力調度解決方案、金融智算行業云等豐富的場景解決方案,成為金融數智化轉型的堅實基石。青云針對具身智能研發運維成本高、迭代慢和業務部署復雜等痛點,從資源調度、自動化提升、邊緣智能等多方面,減輕產研運維壓力、加快模型迭代、支持業務實際部署。智算中心大模型/多模態高校金融具身智能場景化解決方案多元算力統一調度:對多元算力進行統一調度管理,算力池化和切分,包括多樣顯卡、高速計算網路InfiniBand 以及 RoCE、本地 NVME 與并行文件存儲支持,實現算力資源按應用、按需求隨時匹配
83、,自動切換。國產芯片異構支持:統一管理多種異構服務器、存儲、安全等設備,提供多廠商的 GPU 統一管理分發,為上層不同的應用提供蓬勃算力。智能算力調度管理:具備分布式調度與管理能力,劃分不同資源組,自動分配和管理算力資源,與調度系統結合,能大幅縮短任務執行時間,讓客戶專注于應用開發和業務創新。智簡運維,精細運營:通過統一運營和運維管理平臺,規范化、可視化高效運維資源,幫助管理員實現精細化資源分配,實現多種計算場景服務的標準化運營。結合多維資源監控,提高算力利用效率。智能生態支撐應用:提供開放的應用框架和模型服務,提供豐富的AI計算環境,集成行業內多家廠商生態應用,打造豐富的 SaaS 應用服務
84、,助力用戶實現全場景 AI 業務落地。具備AI模型訓練、模型推理、模型管理等服務,為用戶提供一站式算力服務平臺,平臺為用戶提供靈活、高性能的算力服務,同時具備并行存儲、容器推理、高性能網絡等能力,滿足用戶在多場景下的計算需求攜手國家濟南超算中心建成全省算網一體,承載 300+政務信息系統項目背景:隨著 AI 技術及應用的發展,國家超算濟南中心需要為更多行業及場景提供算力及技術支持。面對多樣化的算力需求和軟硬件協同的挑戰,國家超算濟南中心與青云科技合作,通過青云 AI 智算平臺實現了算力的高效調度與運營,打造了創新的超算云服務模式。這一模式不僅提高了資源利用率和運行效率,還為用戶提供了更靈活、高
85、效的計算服務。合作進一步將超算中心的價值從提供算力資源擴展到解決行業數字化創新的實際問題,實現了從運營到服務的全面優化。不同行業和應用場景根據自身特點和業務需求對算力有不同要求,從而形成通用算力、智能算力、專用計算、超算算力等多元化算力需求格局。在業務運營中,軟件和硬件需要緊密合作以滿足業務需求,這包括解決兼容性、性能匹配、資源調度、能耗優化和軟硬件維護升級等挑戰。多元化的算力需求增加了超算中心在資源分配和管理上的復雜性;軟硬件之間兼容性和協同不足,增加了管理難度和成本,限制其應用范圍。算力需求多元化軟硬件協同管理與運維提效作業管理與調度集群資源管理AI&EHPC控制臺作業、資源可視化用戶計費
86、管理工業仿真科學計算航空航天醫藥研發能源化工應用商店大氣海洋建筑土木地理勘測高性能主機14000臺HDR高速IB網絡VPC專有網絡文件存儲NFS專用 Lustre 高性能存儲3000+PFLOPS算力高性能網絡300PB+高性能存儲生態環境智慧工業科學研究高校教育藥物開發需求痛點項目亮點實踐效果基于青云 AI 智算平臺實現多元異構算力統一調度與管理,同時通過開放架構向上支撐其在金融、科研、教育、工業、民生等多個領域的應用拓展 多元異構算力的統一調度與管理:以一個平臺提供多種算力服務,一站式統一管理。借助先進計算調度系統(EHPC)、智能計算子系統(GPU 計算)、存儲子系統、服務子系統,提供完
87、整的業務和科研支撐服務。通過云應用中心、超算應用中心、AI 應用中心,加速科研類應用在平臺上的開發、計算、交付和管理。成本與效率完美平衡:青云科技核心代碼自研,中立開放,與包括 CPU、GPU、NPU 等不同架構的硬件廣泛兼容,讓濟南超算調度管理效率獲得更大優化。降低技術應用門檻:方案屏蔽了底層硬件復雜度的同時,內置了大量的主流 AI 開發環境和分布式計算框架,能夠讓濟南超算的用戶開箱即用,既加速業務啟動,也減少人員學習成本。提升算力管理效率濟南超算以極少人力高效統一管理與調度超過 3000P 算力資源,實現了云計算、高性能計算、人工智能計算集群之間的算力資源的彈性擴展;承載了約 30 個省直
88、單位近 300 個政務信息系統上云,提供了超120 項云服務。減少運營運維壓力通過流程自動化、服務自動化、提升故障自愈力等手段減少運維壓力。形成產業聚集效益配合濟南超算的產業園建設運營,通過便捷的算力服務及應用支撐,聚集了高校、工業仿真、科研等眾多企業,共同推動山東全省的區域創新能力。重點AI芯片廠商產品及服務能力分析中昊芯英公司簡介:中昊芯英自2018年成立以來,便致力于打造 AI 大模型計算所需的、國產自主可控的、能夠匹配海外先進水平的 AI 算力基石。作為國內唯一掌握 TPU 架構AI芯片核心技術并實現芯片量產的公司,中昊芯英以自研的、專為 AI/ML 而生的、面向 AI 計算場景時算力
89、性能超越國際知名 GPU 芯片產品近 1.5 倍的高性能 TPU 架構 AI 芯片剎那為基石,打造支持 1024 片芯片片間高速互聯的大規模 AI 計算集群泰則,集群的系統性性能超越傳統 GPU 架構數十倍,能耗較傳統 GPU 可節省 30%,可支撐超千億參數 AIGC 大模型計算與推理,同時自研AIGC預訓練大模型并攜手行業合作伙伴進行金融、教育、醫療等垂直領域專業大模型的探索落地。通過自研 AI 芯片+超算集群+AIGC 預訓練大模型的三位一體化方案,為全球客戶提供具備生產變革能力的AI創新技術方案,加速AI工程落地與產業化進程。中國首枚高性能TPU 架構 AI 芯片剎那泰則人工智能服務器
90、全自研TPU AI芯片+AI服務器+超算集群全自研自主可控歷時四年多100%自研,完全自主可控的IP核、全自研指令集與計算平臺,目前已量產交付國內一流水平的高性能高效負載均衡與高性能計算行業領先的低能耗易用,可靠,高兼容強大的算力支持頂尖的集群擴展性靈活的算力調度多場景大模型適配快速高效的部署安全可靠的防護措施匯聚全球AI芯片及AI算法頂尖人才泰則大規模 AI 計算集群系統創始人及CEO楊龔軼凡54項發明專利3項實用新型專利116項軟件著作權40+國家/省/市級資質認證與榮譽注:以上專利及資質數量統計截止至2024年10月并在持續高速增長中核心團隊由來自谷歌、微軟、甲骨文、三星、英偉達、亞馬遜
91、、Facebook 等頂尖科技公司的AI軟硬件設計專家組成,全棧式的技術梯隊覆蓋芯片設計、電路設計、軟件棧研發、系統架構、大模型算法等各類技術領域,公司研發人員占比 85%以上比 GPU 更適合大模型訓練可重構的多級存儲,存算一體設計,以強大的并行處理能力實現大模型計算速度和精度的雙重提升同等制程下性能3-4倍躍升TPU為 AI/ML 而生的架構+Chiplet技術+2.5D 封裝,實現跨制程代際級別的算力躍升高能效比能耗僅為傳統GPU的70%,單位算力成本僅為海外領先GPU芯片50%,國內頂尖的計算性能用于AI大模型計算場景時,算力性能可匹配國際第一梯隊芯片產品水平1024片芯片高速片間互聯
92、系統集群性能遠超傳統GPU數十倍,集群擴容時性能可線性增長,以構建千卡萬卡規模超算集群54項中國發明專利17項歐美發明專利3篇頂級國際論文密歇根大學電子信息與計算機學士斯坦福大學計算機碩士師從Subhasish Mitra 院士曾在 Google 作為芯片研發核心團隊深度參與 Google TPU 2/3/4 的設計與研發在甲骨文公司參與主導了 12 款包括 SPARCT8/M8 在內的頂級高性能CPU的設計與產出10+年高端芯片領域從業經驗,產業生涯中已成功流片十余次,掌握從 28nm 到 7nm 各代制程工藝下大芯片設計與優化完整方法論,帶領不同公司團隊完成多次從芯片架構設計、流片生產到客
93、戶交付的全流程以自研算力產品搭建堅實AI計算底座,共建深圳聯通高性能 AI 智算中心等多個項目項目背景:2024年9月,中昊芯英與深圳聯通聯合舉辦智算基建,加速未來高性能 AI 智算中心項目啟動儀式,雙方合作共建的廣東地區首個全采用國產 TPU 芯片的智算中心即將投入運營。項目一期由32個算力節點通過高效互聯構建而成,整體算力不低于50P,后期將擴容至千卡規模,形成訓推一體化的樞紐,成為中國聯通在深圳的核心智算高地的重要組成部分。中昊芯英此次提供搭載自主研發的高性能 TPU AI 芯片剎那的人工智能服務器及大規模 AI 計算集群系統泰則,為項目搭建堅實的 AI 計算底座。深圳聯通憑借其強大的網
94、絡資源和豐富的運營經驗,將配合政府及行業伙伴,建設針對特定行業的智算節點,預部署相應軟件和模型,為社會提供智能算力服務或MaaS服務,賦能產業發展。創新技術分布推理統一管控綠色低碳彈性調度集中訓練與浙江大學、太極股份合作推動產學研深度融合成功打破高校對進口高端算力設備的依賴,實現算力資源的自主可控。在完成同等AI運算量時的算力成本節約超50%,有效減輕了高校的財務負擔。助力太極股份成功入選中國互聯網協會2024年度互聯網助力經濟社會數字化轉型特色案例。青海海東“絲綢云谷”低碳算力產業園項目以打造西北數據云谷為目標,在“絲綢云谷”產業園中設立“唐古拉”AI算力實驗室。項目總投資約230億元,分兩
95、期建設,總體規劃用地面積約 100 公頃,將建設 400MW 液冷加余熱回收型集裝箱數據機房,建成后容納約20萬臺高性能AI服務器運行。中昊芯英全自研TPU AI芯片+AI服務器+超算集群,打造AI計算底座支撐智算中心建設推動產學研深度融合中昊芯英提供的搭載中國首枚高性能 TPU AI芯片“剎那”的人工智能服務器以及大規模AI 計算集群系統“泰則”,為項目提供算力底座。該園區將有望成為國內最大規模零碳數據中心余熱回收利用一體化項目,也是國內首個完全定位于“大算力+大模型”形態的大型人工智能計算中心。浙江大學與太極股份、中昊芯英開展三方合作,引入了基于中昊芯英全自研的 TPU 架構高性能AI 芯
96、片剎那構建的人工智能服務器泰則。該服務器成功應用于浙江大學多個科研項目中,如深度學習模型的訓練與優化、圖像處理技術的研發與應用等。同時為機器學習、數據科學等課程的教學實驗提供了有力支持,使科研周期得以縮短,創新成果加速涌現。中昊芯英深圳聯通廣大患者中山大學中山眼科中心首創國產眼科大模型,以“三級診療”模式推進均質普惠醫療案例簡介:我國眼科醫療資源的供需矛盾極為突出。中山大學中山眼科中心創新性地研發了第一個國產眼科大模型ChatZOC,從眼病的篩查、診斷、治療、隨訪、預測全流程進行了探索和研發,并成功驗證了其可行性和可靠性。ChatZOC眼科大模型的構建,以高質量眼病診療知識庫為基礎,鏈接中山眼
97、科中心大數據平臺,結合最新眼科指南和文獻,并依托華為基礎AI計算框架,以基礎模型的部分參數高效微調、分段檢索增強生成等多種先進技術,進行數據多維度,訓練多階段的標準化模型學習。華為提供的算力支持,協助ChatZOC更高效地處理海量數據,更精確地完成復雜的計算任務,增助ChatZOC知識問答科學性的大幅提升,在眼科領域任務達國際先進水平。聯合全國多家單位,構建眼病智能防篩診治三級診療體系,逐步實現涵蓋眼科篩查、診斷、治療、隨訪和預測全流程眼科智能診療決策系統解決眼科面臨的問題患病率高,普篩率低醫療資源不足醫療資源分布不均醫療資源70%分布于沿海大城市,眼病患者70%處于內陸西部地區、廣大農村及偏
98、遠地帶,眼科診療服務的可及性更是微乎其微,患者往往難以獲得及時有效的治療全國范圍內超過9億人遭受眼病困擾 VS 5.4萬眼科醫生總數老年性眼疾如白內障、青光眼等的發病率正逐年攀升青少年近視問題日益嚴峻眼科定期體檢比例不足10%;70%患者就診時已較嚴重眼科大模型解決方案云原生平臺彈性計算資源池彈性存儲資源池彈性網絡統一云管理平臺統一呼叫運維平臺互聯網醫療平臺數字化手術室互聯網+服務系統互聯網科普平臺云原應用業務中臺中臺數據中臺技術中臺AI中臺微服務PaaS平臺中間件AI/大數據邊緣/IoT中山大學中山眼科中心人工智能平臺架構圖華為算力底座基層醫院巡診車ChatZOC臨床真實對話數據微調并作為知
99、識庫引導答案生成中山眼科中心優質數據支持華為算力支持實踐效果ChatZOC眼科大語言模型創新性可行性 基于移動智能終端的智能數字眼科醫生 基于百萬語音數據的數字智能客服助手 嬰幼兒眼病智能篩查系統10萬+電話咨詢服務5倍患者服務效率20%醫學生問診能力50%醫療文書書寫時間150萬次/年門診7萬住院患者服務 提升眼科知識的準確性 眼病輔助診斷&生成報告覆蓋智能新型三級診療模式,實現“設備+專家+人工智能”的融合,推進優質眼科醫療資源擴容、下沉和外溢,讓患者享有觸手可及的智慧醫療服務 終端普篩:走過12萬+公里,16省60城市,未來2-3年擬覆蓋千萬人次統一規劃,統一運維,數據免遷移,支持醫療A
100、I大模型高效利用云鼎科技基于工業大模型平臺推動化工生產工藝智能優化案例簡介:云鼎科技股份有限公司聯合華為技術有限公司,在前期礦山+人工智能成功實踐沉淀的云邊協同、邊用邊學的統一架構及統一數據規范的基礎上向化工行業橫向擴展。聚合國家流程制造智能調控技術創新中心、青島科技大學、南京凱奧思、中國石油和化學工業聯合會等20余家“政產學研用投”生態伙伴進行技術的聯合創新攻關及持續運營。通過與山東能源集團、萬華化學等頭部企業化工及工藝專家的聯合研討、工廠需求調研等方式梳理化工工藝優化+AI應用場景,其中,甲醇精餾裝置工藝智能優化、低溫甲醇洗裝置溶液循環運行優化等場景已完成模型訓練及應用開發。2%平均每噸甲
101、醇蒸汽消耗量降低192萬元蒸汽成本降低10+億元全行業蒸汽成本降低化工從大模型向高質量轉型訴求強烈AI賦能化工價值空間巨大(以2023年全國甲醇產量8300萬噸估算)AI全流程深入融合化工價值場景甲醇精餾裝置工藝智能優化場景精餾塔溫度環境溫度塔釜溫差壓力進料流量60+參數預測大模型大小模型與工業機理結合構建多變量工藝優化模型多元源數據融合分析工藝流程參數精準預測最佳回流比化工產品生產需要多個裝置和復雜的工藝流程目前缺乏整體環節優化,普遍存在生產物料成本高、產品收率低等問題化工生產過程中的節能減排也面臨嚴峻挑戰基礎大模型利用大模型預測能力精準預測甲醇精餾、低溫甲醇洗、焦化配煤等流程的最優工藝參數
102、,穩定產品質量,降低生產成本AI4S預測大模型多模態大模型NLP大模型視覺大模型算力平臺底座決策大模型研發大模型設計大模型過程控制大模型安全大模型設備維護模型能源管理大模型工業大模型平臺領域模型特殊作業安全檢測管線滴漏監測焦化配煤優化設備故障監測特種車輛及車牌識別燃燒爐火焰狀態監測水煤漿濃度、粘度預測40+化工場景氣化爐溫度異常低溫甲醇洗溶液循環優化儲罐泄漏檢測甲醇精餾裝置工藝智能優化與華為合作建成礦山領域首個人工智能大模型開發和應用平臺,應用場景從礦山向化工、裝備制造、新材料等行業擴展70+推廣單位13家化工學科頭部高校,聯合攻關目 錄Part 01時代動力,AI新世代繁榮的發動機Part
103、02層見疊出,復雜工程需要多樣手段解決Part 04實踐落地,AI算力應用的新標桿Part 05來日方長,AI新世代下的不斷探索Part 03各取所需,市場激發AI算力的選擇思考AI應用持續放量推動AI算力需求快增長AI應用下載量和內購收入都呈現快速增長態勢。2024年1月至8月份,全球下載量同比增長26%,達到22億次,預估全年下載量將達到33億,同比增長26%。在收入端,全球 AI 應用同比激增51%,規模至20億美元。隨著AIGC技術發展,IDC預測2024年全球將涌現出5億個智能化應用,相當于過去40年間應用數總和。22271120232024202213202320242024年9-
104、12月預估值2024年9-12月預估值19%43%55%61%71%16%28%38%47%54%0%10%20%30%40%50%60%70%80%20242025E2026E2027E2028EAI PC出貨量的市場占比AI手機出貨量的市場占比圖1:2023-2034年全球AI應用下載量及AI應用內購收入趨勢(單位:億;億美元)圖2:2024-2028年全球AI PC及AI手機的出貨量占比增長情況(單位:%)AI軟件及服務+AI智能硬件快速發展激發AI算力需求當下的AIGC算力關注熱點在訓練端,但商業突破及應用需要推理側支持整體市場的算力核心判斷指標取決于市場發展階段對應的訓練及推理需求,
105、當下是AIGC產業技術與商業結合的重要拐點,一方面,國內外均有商業落地的場景及對應模型出現,技術路線實現大方向確認;另一方面,具體場景的商業模式及盈利模式仍待尋找,需要大量算力支持各行各業企業持續探索。算力的核心指標變化:重訓練關注模型參數量,重推理關注應用的用戶數據吞吐量。技術路線確認商業模式突破多點成熟應用下游應用全面爆發,多個場景出現成熟應用參數量/模型數量/訓練數據量模型數量/訓練數據量用戶日活量(主要為推理階段數據每日的吞吐量)算力隨市場商業落地而改變在重點的典型市場實現爆發,具有場景原生能力、行業模型、通用模型強的企業進入大量投入資源,行業巨頭(資源豐富)企業投入搶占先機,中小企業
106、進行跟隨性探索總體技術路線已確認:國內外大量通用模型出現,并且有部分標桿性案例,可在部分場景下尋找穩定商業模式細分賽道的技術路線待定:當下的模型能力如何賦能細分賽道依然值得探索云服務算力層模型層中間層應用層芯片智算中心智算服務平臺服務器標題只做純軟業務,現金流壓力小模型調優與算力運維一體化,做到開箱即用且好用結合企業數據提供優化的大模型應用能力需要參與到算力中心硬件層面建設,現金流壓力大通常不涉及模型和應用層面服務通常不涉及模型和應用層面服務新型算力服務傳統算力運維智算中心模型供給側需求側應用自如僅需先行支付“保底租金”,現金流壓力小自如統一裝修,實現標準化、保證質量提供房屋清潔、家具維修等各
107、類増值服務需要自行先整租房源再分包,現金流壓力重業主出錢裝修,裝修質顯參差不齊通常無法提供增值服務自如傳統二房東房源裝修供給側需求側增值服務當前從算力平臺建設到模型應用部署面臨諸多挑戰,新型算力服務呼之欲出。新興的智能算力平臺 需要從規劃、建設、集成、模型訓練到推理的落地,整個過程是一個復雜的系統 工程,需要包括:1)大規模集群、軟硬一體強耦合的復雜交付,大幅提升了算力平臺的設計與實施難度,以及成本、高能耗等挑戰;2)模型訓練底層機制,理論上決定了訓練中斷是不可避免,如何穩定訓練的時長,故障快速恢復也是重 點考慮的問題;3)新興技術領域,各類軟硬件技術都在快速迭代,客戶模型訓 練和應用開發過程
108、中,對底層軟硬件的適配調優及專業人才獲取上也面臨巨大的挑戰?!白匀缡健彼懔Ψ漳軌蚋咝д纤懔Y源并靈活滿足客戶在不同層次的需求,解決AI應用落地的“最后一公里”難題。如果把智算中心比作房源,傳統的算力運維就像傳統 二房東一樣通過重資產的模式參與智算中心建設,而對后續應用開發的模型調優、應用開發等環節滲透不足,而新型算力服務將業務重點著手于模型調優與算力運 維一體化的純軟業務,同時具備在應用側賦能企業定制開發的高業務擴展性。汽車電動化、智能化發展帶動智能駕駛芯片需求快速增長,大模型催化AI功能部署隨著智能駕駛水平的提高,對算力的要求不斷增長;如L5級別的自動駕駛最低算力要求為500TOPS。芯
109、片廠商生產高算力車規芯片,可用于自動駕駛與AI應用,車企推出裝配高算力芯片的智能汽車。7205085081016020040060080010001200特斯拉(搭載HW4.0)理想L9小鵬G9蔚來ET7部分新能源車型算力10201001000L-L2L3L4L5高等級自動駕駛對芯片算力的要求變化算力要求(TOPS)1429691362538631202021202220232024智能座艙SoC芯片算力變化NPU算力(TOPS)CPU算力(kDIMPS)汽車電動化、智能化發展帶動智能駕駛芯片需求快速增長各車企、智駕供應商智算中心算力布局情況企業類型企業名稱算力布局車企特斯拉100EFLOPS
110、(2024年10月)理想4.5EFLOPS小鸝2.5EFLOPS長城1.64EFLOPS長安1.42EFLOPS蔚來1.4EFLOPS吉利0.81EFLOPS車廠與科技公司發力車端AI大模型,隨著新能源汽車對智能化的要求不斷提高,將AI大模型接入整車已經成為行業趨勢;車廠與科技公司均發力自研AI大模型,以期提高智能化水平。部分廠商車端大模型布局蔚來NomiGPT:端云融合架構,多模態感知,支持第三方API調用,搭載情感引擎和長期記憶能力小鵬AI天璣大模型:集成感知大模型、規控大模型、生活助理、出行助理理想Mind GPT:訓練數據總量超過3萬億tokens,多模態認知模型,采用taskform
111、er架構廣汽廣汽AI大模型平臺:AI大模型平臺成為全場景應用的入口,重塑智能汽車場景交互范式華為千悟引擎大模型:以華為云盤古大模型、MindSpore異思計算框架和昇騰AI基礎硬件平臺等技術為基礎底座百度智艙大模型 2.0:采用全新MoE架構,可支持本地化部署!支持車企高效定制品牌特色商湯日日新SenseNova50:基于超過10TBtokens訓練、覆蓋數千億量級的邏輯型合成思維鏈數據科大訊飛星火大模型:基于“訊飛星火+汽車”模式,創造性地將犬模型與汽車產業深摩整合智算中心建設關注要點統一智能運維平臺,提高運維效益和質量指定標準化運維流程及組織,提供體系化服務保障010203040506多元
112、異構算力運營平臺提升效益一站式開發平臺安全合規保障體系智能化運維綠色低碳多元異構架構融合,滿足不同精度要求,推進算力多元化供應商用國產芯片并行推進,精準匹配智算業務需求多視角運營工具全面支撐精細化運營多態服務靈活滿足用戶需求智算中心運營增效,達成預期ROI融合AI開發的多個環節,推動人工智能規?;涞貙崿F大模型到具體業務場景之間的打通,促進其行業化應用智算中心等級保護機制,構建網絡安全縱深防御體系智算數據安全,保證數據全生命周期安全AI服務合規,完善內容安全管理體系降低PUE以達到國家及當地政策要求降低數據中心耗電量,降低運行成本現有機房改造方案,靈活應對改造需求AI算力行業碳中和的背景與驅動
113、因素全球碳中和趨勢下,中國明確提出“碳達峰、碳中和”(“雙碳”目標)的戰略目標,以應對氣候變化和推動可持續發展。在此背景下,國家通過算力基礎設施高質量發展行動計劃和“東數西算”等政策,推動算力基礎設施綠色化,優化能源結構和布局。算力行業作為支撐AI、大數據等數字經濟發展的核心基礎設施,因其高能耗特性在碳中和進程中具有獨特作用,不僅直接影響自身能源消耗和碳排放,還能通過技術創新賦能其他行業實現減排目標,成為實現“雙碳”目標的重要抓手。轉型過渡蓄勢期能源結構切換期近零排放發力期全面中和決勝期202120252030203520402045205520502060十四五基礎摸底十五五嚴格控排十八五顛
114、覆性技術十六五十七五靈活能源系統電力碳中和二十五二十一五十九五經濟發展碳脫鉤碳排凈零負排放圖:中國碳中和時間線數據來源:中國國家發展和改革委員會(NDRC)、國際能源署(IEA)等,甲子光年智庫整理0500010000150002023年 2024年 2025年 2026年 2027年 2028年 2029年 2030年圖:中國智能算力用電量增長預測(用電量:億度)技術保守情景技術樂觀情景政策驅動行業客戶需求經濟與技術驅動三大驅動因素 國內政策:算力基礎設施高質量發展行動計劃 國際政策:歐盟綠色協議、EuroHPC計劃 可再生能源成本下降帶來的經濟性:光伏和風電的發電成本在全球范圍內持續下降,
115、部分地區已低于煤電和天然氣發電成本。提升競爭力的綠色技術應用:液冷技術(冷板式液冷和浸沒式液冷)、儲能系統(鋰電池和熱能儲存)企業綠色供應鏈管理 客戶對綠色算力中心的高要求:PUE、可再生能源比例、綠色SLAs需求123算力中心綠色化現狀與技術實踐分析隨著AI算力中心等數據中心規模的不斷擴大,綠色節能數據中心已從概念走向實踐,越來越多的數據中心在建設時將PUE值(平均電能使用效率Power Usage Effectiveness)等指標作為關鍵指標,建立追求更低的PUE值的目標。指標名稱定義與計算公式意義技術優化方向PUE電能使用效率。數據中心總能耗/IT/IT設備能耗數值越接近1 1,表示能
116、效越高,冷卻和輔助設施的能耗更低提高冷卻效率:采用液冷或間接蒸發冷卻技術優化電力分配:使用高效UPS和電力模塊智能化管理:AI優化能耗調度CUE碳使用效率。數據中心總碳排放量/IT設備能耗反映算力中心的碳排放水平,數值越低越環保引入可再生能源:使用太陽能、風能等提高能源使用效率:優化IT設備的能效WUE水使用效率。數據中心總用水量/IT設備能耗評估冷卻系統對水資源的依賴程度,數值越低表示水資源使用更高效提高冷卻效率:采用液冷技術減少水耗優化水資源管理:循環利用水資源RUE可再生能源利用率??稍偕茉聪牧?數據中心總能耗數值越高,表示可再生能源使用比例越高,能源結構越綠色引入可再生資源:建設太
117、陽能、風能發電設施優化能源結構:提高可再生能源使用比例ERE能源再利用效率。(總能耗-再利用的能源量)/IT設備能耗數值越低,說明廢熱再利用水平越高,整體能效越高廢熱回收利用:利用廢熱進行供暖或發電提高能源轉換效率:優化能源轉換技術GEC綠色能源系數。使用的綠色能源量/數據中心總能耗反映綠色能源的使用比例,強調能源供應的綠色化程度引入可再生能源:使用綠色能源供電優化能源采購:購買綠色能源證書ITUEIT設備使用效率。實際使用的IT負載/IT設備總容量評估資源利用效率,數值越高表示設備使用更充分,資源浪費更少提高設備利用率:優化資源調度算法虛擬化技術:提高服務器利用率Energy-to-Solu
118、tion能耗-解決方案效率??偰芎?任務完成時間專注于任務完成效率,適用于高性能計算(HPC)和AI算力中心評估提高計算效率:優化算法和硬件配置減少任務完成時間:提升硬件性能TUE總體使用效率。IT設備能耗/數據中心總能耗數值越高,表示IT設備能耗占比越高,冷卻和輔助設施能耗占比越低優化電力分配:提高電力使用效率減少非IT設備能耗:優化建筑和輔助系統PUE 是最基礎和常用的指標,廣泛用于衡量能效水平。我國的平均PUE值基本在1.82.0之間,中小型數據中心的PUE值甚至更高,大多在2.5以上,優化空間極大CUE、WUE、RUE、ERE 等綠色化指標為算力中心提供了環境友好性和可持續發展的參考I
119、TUE 和 Energy-to-Solution 更關注設備利用率和計算任務的效率TUE 用于綜合評價整體能源利用效率,與PUE互為補充基礎設施節能可再生能源使用綠電交易綠證交易和碳交易智能化運維IT設備節能算力-電力協同算力中心碳中和的核心路徑和未來趨勢智能化運維是關鍵(1/2)核心技術:能效調優(AI動態優化),通過實時監控和分析算力中心的運行數據,利用人工智能算法對資源、能源的使用進行動態調整,以達到節能和提升效率的目的。綠色化集約化高密化智能化人力密集型技術密集型實時監控與數據采集人工智能算法動態資源分配冷卻系統優化與預測性維護CPU/GPU利用率內存和存儲使用率機器學習預測強化學習優
120、化AI彈性分配電力消耗(PUE指標)溫濕度、冷卻系統狀態智能優化算法(遺傳算法、模擬退火算法)負載優化關閉空閑設備資源利用最大化動態調控自然冷卻利用AI故障預測預防性維護數據采集與建模:部署傳感器和監控系統,采集硬件使用率、溫濕度、電耗等數據、基于歷史數據和實時數據,建立能耗與負載的數學模型。AI模型訓練:使用機器學習算法訓練AI模型,識別能耗與計算任務之間的關系;輸入變量包括任務負載、電力消耗、冷卻參數等;輸出目標為最優的資源分配和冷卻策略。動態優化與部署:實現AI模型與算力中心管理系統的集成;動態調整服務器任務分配、供電和冷卻參數。持續優化與迭代:持續監控優化結果,收集新數據,不斷迭代AI
121、模型以適應新需求。算力中心碳中和的核心路徑和未來趨勢智能化運維是關鍵(2/2)核心技術:數據分析與提前預警,數據分析與提前預警是通過實時采集和分析算力中心運行數據(如設備狀態、環境數據、歷史記錄等),利用人工智能和大數據技術,預測潛在的風險或故障,并發出預警信號,防止問題惡化或影響系統運行。實時監控與數據采集:通過傳感器和物聯網(IoT)技術,采集環境溫度、濕度、電流、電壓、設備運行狀態等數據;實現對算力中心全方位的實時監控,確保數據完整和實時性。大數據分析:分析歷史數據和實時數據趨勢,識別異常模式;基于設備的運行規律,構建正常運行的模型,快速識別偏離標準狀態的行為。人工智能算法:利用分類算法
122、和時間序列分析算法預測設備狀態變化;通過聚類算法或深度學習發現隱藏的風險信號,檢測出潛在問題。預警機制:綜合分析設備數據和環境數據,判斷風險等級(低、中、高);通過短信、郵件、系統通知等方式向管理員發出預警信號,提前干預。實施過程數據采集部署傳感器,采集包括設備狀態、環境參數等實時數據。數據分析利用大數據平臺和AI模型分析數據,識別異常和潛在風險。風險預測預測設備老化、故障趨勢或系統瓶頸。預警觸發根據風險等級,啟動相應的預警機制。實際應用設備過載預警檢測關鍵服務器或設備的過載風險,避免宕機。環境異常預警實時監控溫濕度或供電系統異常,防止因環境問題導致設備故障。能耗異常預警發現能耗突然增加的設備,定位問題源頭,及時處理。優點提前防控風險通過預測減少意外停機和重大故障發生概率。節約成本提前發現問題,避免因故障導致的高額維修和停機損失。高效運維智能化的預警機制減少人工干預,提升運維效率。智庫院長宋濤微信stgg_6406分析師劉瑤18401669467北京甲子光年科技服務有限公司是一家科技智庫,包含智庫、媒體、社群、企業服務版塊,立足于中國科技創新前沿陣地,動態跟蹤頭部科技企業發展和傳統產業技術升級案例,致力于推動人工智能、大數據、物聯網、云計算、AR/VR交互技術、信息安全、金融科技、大健康等科技創新在產業之中的應用與落地掃碼聯系商務合作關注甲子光年公眾號