《中國移動:云智算技術白皮書(2025)(30頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動:云智算技術白皮書(2025)(30頁).pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、云智算技術白皮書(2025)2前言前言云計算經歷了資源云化(2006 年)、云原生化(2013 年)、算力泛在化(2020 年)等階段,隨著人工智能與算力網絡深度融合,已邁入智能化的新階段,向全棧智能、開放融合的云智算升級。中國移動通過打造云智算技術體系,升級 AI IaaS、AI PaaS、MaaS、AI SaaS 四層架構,推動算網大腦向算網智腦躍遷,構建全鏈路可控用智安全,筑牢“供給者、匯聚者、運營者”定位。作為“供給者”,融合中國移動算力、數據、算法優勢,提供全方位能力支持;作為“匯聚者”,打造 AI 生態平臺,廣泛匯聚多類型模型、多領域能力、多場景智能體;作為“運營者”,以算網大腦為
2、核心提供高效運營服務,深化 AI 賦能。在此基礎上,全面激活智能算力與應用普惠新勢能。本白皮書詳細闡述了云智算的發展背景、內涵,深入介紹云智算的關鍵技術方向,為云智算的發展奠定基礎。云智算的發展成熟需要產學研用各方凝心聚力,實現從基礎設施到運營服務的全面升級,中國移動希望同業界合作伙伴一道,共同推動云智算技術、產業、應用和生態成熟,助力千行百業注智賦能。3目錄目錄云智算技術白皮書.1前言.21.從云計算到云智算.61.1 云計算發展現狀及面臨挑戰.61.2 云智算的內涵.61.3 云智算體系架構.62.云智算關鍵技術方向.72.1 計算技術.72.1.1 算力芯片.72.1.2 智算超節點.7
3、2.1.3 算力原生.82.2 存儲技術.82.2.1 智算文件存儲.92.2.2 訓推多級緩存.92.3 網絡技術.102.3.1 卡間互聯.102.3.2 機間互聯.112.4 算網一體技術.122.4.1 算力路由.122.4.2 在網計算.122.5 AI 開發平臺技術.132.5.1 數據處理.132.5.2 訓練框架.142.5.2.1 訓練并行優化.142.5.2.2 低精度訓練.142.5.2.3 故障容錯.152.5.2.4 異構混訓.152.5.3 推理框架.162.5.3.1 推理并行效能優化.1642.5.3.2 推理網關優化.162.5.3.3 融合算子監控.172.
4、5.4 智能體生成.172.5.4.1 檢索增強生成.172.5.4.2 自主規劃.182.5.5 AI 開發工具.182.5.5.1 向量數據庫.182.5.5.2 多模數據庫.192.5.5.3 低代碼模型開發.192.6 模型服務.192.6.1 模型匯聚.202.6.2 模型智能體融合.202.7 算網大腦.202.7.1 資源編排調度.202.7.2 任務式編排調度.212.7.3 智能體編排調度.222.8 安全可信.222.8.1 計算環境可信.232.8.2 數據安全可用.232.8.3 智算服務可靠.242.9 綠色節能.242.9.1 能效管理和提升.242.9.2 數據中
5、心熱管理.252.9.3 算電協同和余熱回收.252.10 未來技術展望.263.總結倡議.29附錄.305縮略語縮略語縮略語英文全稱中文解釋1IaaSInfrastructure as a Service基礎設施即服務2PaaSPlatform as a Service平臺即服務3MaaSModel as a Service模型即服務4SaaSSoftware as a Service軟件即服務5AIArtificial Intelligence人工智能6DPUData Processing Unit數據處理單元7COCACompute On Chip Architecture片上計算架構8
6、OSOperation System操作系統9RDMARemote Direct Memory Access遠程直接內存訪問10RoCERDMA over Converged Ethernet基于以太網的 RDMA11SIMTSingle Instruction Multiple Threads單指令多線程12RTTRound-Trip Time往返時延13CXLCompute Express Link高速串行協議14SDKSoftware Development Kit軟件開發工具包15OISAOmni-directional Intelligent SensingExpress Archi
7、tecture全向智感互聯16GSEGlobal Scheduling Ethernet全調度以太網17PKTCPacket Container報文容器18DGSQDynamic Global Scheduling Queue動態全局調度隊列19OCSOptical Circuit Switch光電交換機20AIGCArtificial Intelligence GeneratedContent人工智能生成內容21MFUModel FLOPs Utilization模型 FLOPs 利用率22RRFReciprocal Rank Fusion倒數排序融合23RAGRetrieval-Augme
8、nted Generation檢索增強生成24MCTSMonte Carlo Tree Search蒙特卡洛樹搜索25LLMLarge Language Model大語言模型26MCPModel Context Protocol模型上下文協議27SLAService Level Agreement服務等級協議28ANPAgent Network Protocol智能體互聯協議29CVECommon Vulnerabilities&Exposures公共漏洞披露30TPMTrusted Platform Module可信平臺模塊31TCMTrusted Cryptography Module可信
9、密碼模塊32CDUCoolant Distribution Unit冷卻液分配單元33CFCCompatible Fluid Connector可兼容流體互聯裝置34CATSComputing Aware Traffic Steering算力路由35NACANetwork-Assisted ComputingAcceleration在網計算36MDNModel Distribution Network模型分發網絡61 1.從云計算到云智算從云計算到云智算1 1.1.1 云計算發展現狀及面臨挑戰云計算發展現狀及面臨挑戰云計算經過二十年的發展已成為數字經濟的主要服務形態,憑借虛擬化、云原生等技術實
10、現了資源池化和彈性擴展能力,有效支撐了各行各業數字化轉型。隨著千億參數大模型等 AI 技術的迅猛發展,傳統云服務體系面臨嚴峻挑戰,云計算進入深水區:在算力方面,十萬卡級超大規模 GPU 集群的異構算力需求已遠超現有資源池化的調度能力;在網絡層面,AI 訓練中 TB 級參數同步對時延極為敏感,傳統網絡架構難以滿足低時延、高吞吐的傳輸要求;在服務形態上,單一的 IaaS/PaaS 服務無法全面覆蓋數據處理、模型訓練、推理部署等 AI 開發全鏈路的需求,迫切需要構建適應智能時代的云計算新范式。1 1.2 2 云智算的內涵云智算的內涵云智算是通過算網基礎設施與人工智能核心技術深度融合,提供一體化算網資
11、源、全棧式開發環境、一站式模型服務、多樣化場景應用的新型云服務模式。云智算作為云計算的新升級,是以 AI 為核心驅動力的下一代云計算范式,是未來算網智一體化算力網絡的核心載體。1.31.3 云智算體系架構云智算體系架構云計算向云和 AI 深度融合的云智算升級,體系架構從 IaaS、PaaS、SaaS三層拓展為 AI IaaS、AI PaaS、MaaS、AI SaaS 四層。一是 AI IaaS,即算網一體化供給的基礎設施服務,通過泛在網絡推動東中西、云邊端、通智超量、訓練推理等多類型算力“聯算成網”,依托算網統一編排的算網大腦,實現算力的靈活調度、即取即用。二是 AI PaaS,即面向各類 A
12、I 開發者的工具平臺服務,提供覆蓋 AI 研發、運營、測試等全環節的工具鏈和開發環境,顯著提升全社會 AI創新效率。三是 MaaS,即加速 AI 一站式落地的模型服務,匯聚模型、能力、智能體等資源,推動 AI 在各行業的普及滲透。四是 AI SaaS,即覆蓋多樣化場景的 AI 應用服務,賦能生產方式、生活方式、社會治理方式的數智化轉型,充分釋放 AI 價值潛能。為此,中國移動針對云智算體系架構形成了計算、存儲、網絡、算網一體、AI 開發平臺、模型服務、算網大腦等十大關鍵技術方向。72 2.云智算關鍵技術方向云智算關鍵技術方向2 2.1.1 計算技術計算技術隨著模型參數量與復雜度指數級增長,當前
13、智算集群在算力密度、通信效率、能效比方面面臨嚴峻挑戰。中國移動充分發揮央企科技創新示范引領作用,聚焦“卡脖子”方向,攻關國產高算力芯片、智算超節點、算力原生等關鍵技術,突破萬億模型訓練與推理性能瓶頸,打造低成本、高能效、自主可控的算力底座,引領云智算基礎設施從規模擴張走向效能躍升的新階段。2 2.1.1.1.1 算力算力芯片芯片大模型訓練和推理對算力芯片提出了更高的要求,如超高帶寬互聯、極低時延等。GPU 是智算核心,中國移動以測促研推動國產化 GPU 成熟,同時布局 DPU芯片,提升智算網絡性能、落地自主算法、融合 COCA DPU OS 實現智算互聯效能躍升。中國移動推出大云磐石 DPU,
14、以云智算場景需求為牽引,與國產芯片廠商深度合作,提帶寬、降延遲、優傳輸,構建端網協同的高性能互聯方案。帶寬方面,研發智算 RDMA 技術,大幅提升網絡帶寬,滿足訓練場景大帶寬要求;延遲方面,搭載輕量化 RTT based 擁塞流控算法,有效降低網絡時延,滿足推理場景下低時延要求;傳輸方面,通過端側多路徑、數據高速采集技術,優化 RDMA 傳輸機制,從源頭上解決多路徑 hash 沖突問題,提升智算集群帶寬利用率與可靠性。面向近期,升級 DPU 芯片智算網絡帶寬,優化 RDMA 傳輸機制、搭載流控算法,大幅降低尾時延。聯合國產網側廠商,形成端網協同的端到端解決方案,加快集群訓練收斂速度、降低推理場
15、景響應時延。面向中遠期,持續優化 DPU 芯片智算網絡核心能力,提升智算集群利用率。聯合國內芯片廠商,基于 SIMT 架構與 RISC-V 指令集,打造 AI 智算開放新生態。2 2.1.2.1.2 智算智算超節點超節點2024 年英偉達發布的 NVL72 超節點支持單機內 72 個 GPU 高速互聯,重構全球智能算力競爭格局,進一步拉大中美算力技術代差。為此,中國移動基于原創COCA 異構計算架構12,聯合 GPU 芯片、交換芯片、服務器整機等國產全產業鏈伙伴,打造開放式架構大云磐石超節點,為大模型訓練和推理提供更高吞吐、更8低時延的海量數據處理能力,推動解決國產智算核心“卡脖子”問題。中國
16、移動以統一開放互聯的自主協議為基礎,構建 64 卡互聯規模、800GB/s點對點帶寬、微秒級時延的大云磐石超節點。一是以開放式硬件架構為核心構建跨 GPU 廠商互通兼容的技術體系,并積極推進相關行業標準落地,打破產業壁壘;二是融合 COCA 智算軟件棧實現算力應用一體加速,提升推理吞吐性能,依托大云磐石 DPU345提升集群通信效率;三是設計 16/32/64 卡等多種產品規格實現算力靈活配置,配備單機、標準機柜、高密機柜等多種部署方案,可同時滿足大規模并行訓練、私有化訓推一體等不同場景的算力規格靈活選擇和交付需求。面向近期,聚焦超節點生態構建和應用示范牽頭打造,并推進行業形成跨GPU 廠商兼
17、容的互聯標準,促進生態成熟。面向中遠期,以更高規模、更大帶寬、更低時延的互聯為構建目標,驅動國產 GPU、交換芯片等核心器件的協同創新,加速產業體系升級。2.1.32.1.3 算力原生算力原生當前國內智算芯片生態碎片化,上層模型和應用向國產體系遷移難、意愿低,不利于國產智算生態的良性發展。為此,中國移動攜手產學研用合作伙伴,筑標準、推應用、建生態,積極推動算力原生技術成熟。發布業內首部面向智算的算力原生白皮書6,推動統一算力抽象、編程模型及虛擬指令集等系列標準789及開源工作組建設10,推出 COCA 算力原生平臺,發布“芯合”計劃11,已實現7 家智算芯片的一體接入。重點攻關異構設備統一接入
18、 API 和異構集合通信庫等關鍵模塊,實現智算應用跨架構一次開發、跨芯一鍵部署、隨需敏捷遷移,服務“分鐘級”上線。面向近期,深化研究 AI 芯片統一算力抽象機制及轉換方法,強健高性能全棧異構通用基礎軟件系統能力,接入更多 AI 芯片,支撐更多編程語言范式,全面融入高性能推理業務場景,支撐跨廠商低成本遷移、敏捷開發及高效部署。面向中遠期,以“異構 CPU+智算 AI 芯片”一體融通、支撐訓推一體的泛 AI業務為目標,探索虛擬指令集等深度算力抽象技術,形成即插即用的統一 XPU算力底座與工具鏈,釋放多樣算力整體協同效能,推動智算應用生態繁榮發展。2 2.2.2 存儲技術存儲技術隨著智算業務的爆發與
19、模型參數量的增長,智算應用在訓練、推理等階段對9存儲服務提出了更為嚴苛的需求,如何對海量復雜的數據進行存儲、調度、高效供給以提升算力利用率及模型訓推效率成為傳統存儲系統面臨的巨大挑戰。中國移動通過深度適配智算業務場景、融合高速發展的軟硬件技術,為云智算構建高效、智能、可靠的先進存力底座,進而提升智算應用全生命周期數據供給效率,不斷優化算力利用率、提升智算業務效能。2 2.2.1.2.1 智算文件存儲智算文件存儲基于通算理念構建的存儲系統在長期演進中形成的標準化協議和產品形態無法滿足智算應用發展對數據訪存性能、數據流轉效率等新需求,已成為制約智算產業發展的生產力瓶頸。同時,新型存儲介質、高速網絡
20、硬件的快速發展也為存儲系統的重塑提供了強大的動力支撐。目前,大模型對底層存儲的性能要求和高速發展的軟硬件技術,正在推動存儲系統的革命性升級?;诟咝阅芫W絡技術棧(如 RDMA、Infiniband)和高性能硬件設備(如 DPU、NVMe SSD)進行構建的軟硬融合極簡化存儲系統,將在 IO帶寬吞吐和性能穩定性等方面獲得極大化的性能收益。以文件存儲為中心實現與對象存儲、緩存系統的全面打通,構建數據在智算場景的全生命周期管理能力,滿足數據的高效率、低開銷流轉,實現數據訪問延遲和持久化存儲成本的大幅下降。同時,突破通算存儲系統的通用語義束縛(以 DeepSeek FFRecord 為例),實現存儲系
21、統與智算應用的端到端協同適配,促進新型存儲訪存方式的變革,使應用以更高效的方式使用存儲系統,是提升智算業務效能的重要舉措。面向近期,以文件存儲為核心的存儲系統應聚焦智算場景的關鍵需求,基于全新的軟硬件融合技術以極簡化思維進行系統重構,消除其在數據訪存性能、流轉效率等方面對智算應用的制約。面向中遠期,文件存儲應推動新型訪存協議的標準化,并結合多級推理緩存等組件形成層次化技術方案,打造云智算場景下智算文件存儲系統設計新范式。2 2.2.2.2.2 訓推多級緩存訓推多級緩存隨著 AI 大模型應用及訓推場景的爆發式增長,GPU 顯存和宿主機內存容量有限、本地及網絡持久化存儲性能不足等問題凸顯,已成為制
22、約 AI 大模型高速發展的癥結所在。尤其以 KVCache、RAG 等為代表的推理技術對存力的要求越來越高,亟需一種新型存儲架構,解決性能與成本問題,提高推理效率和推理質量。10中國移動提出面向 AI 的高彈性多級緩存方案,解決訓推過程對于存儲系統的性能與成本問題。支持 GPU 數據卸載,構建包括 GPU 顯存、主存、宿主機與網絡持久化存儲的多級緩存架構12。利用以 CXL 為代表的高性能互聯技術,支持多機互聯和資源共享,提高資源利用率。根據資源池網絡拓撲及實時負載信息,實現數據的智能路由,提高數據傳輸性能。打造訓推過程中不同數據類型及不同階段的專有協議,提供專有 SDK 和專有插件,滿足訓推
23、過程對于高性能、低成本的訴求。依托 DPU 輕計算客戶端卸載技術,構建計算與存儲間的高帶寬通道,提供以彈性臨時盤為代表的場景特化臨時存儲能力。面向近期,針對 AI 訓推場景對于多級緩存的核心需求,聯合產業力量升級存算互聯硬件,打造高速互聯接口提升帶寬,研發存算協同芯片模塊,提升整體性能。面向中遠期,構建多級訓推緩存端到端智能緩存管理框架,支持異構緩存間的數據透明遷移;支持多級緩存分布式部署,深度融合云端、邊緣與終端設備的存儲資源,實現深度緩存協同。2 2.3.3 網絡技術網絡技術為應對 AI 大模型訓練與推理對算力基礎設施的極致性能需求,中國移動構建“卡間-機間”全棧智能互聯技術體系,通過自主
24、研發全向智感互聯(OISA)協議與全調度以太網(GSE)架構,突破傳統互聯技術在高帶寬、低時延、大規模組網等場景的瓶頸。二者協同構建“芯片-設備-集群”三層互聯能力,形成從卡內計算到跨機協作的端到端智算網絡中國方案,為萬億參數大模型訓練、多模態 AI 應用及下一代智算中心建設提供高確定性、高可靠性的互聯基座。2 2.3 3.1 1 卡間互聯卡間互聯由于大模型復雜度、參數量和訓練數據呈指數級增長,傳統 GPU 互聯技術在數據傳輸效率、可靠性和互聯規模上面臨瓶頸,亟需在協議設計、內存協同和物理連接方面實現突破。為此,中國移動提出全向智感互聯架構(Omni-directionalIntelligen
25、t Sensing Express Architecture,OISA),構建高性能、高可靠的GPU 互聯體系,以支撐訓練、推理及高性能計算等數據密集型應用。全向智感互聯 OISA 協議通過全向連接拓撲架構,構建支持大規模 GPU 卡級互聯的通信體系,包含統一報文格式設計、多語義融合、多層次流控與重傳機制,11集合通信加速算法優化等多項創新技術。協議在數據層采用智能流量感知標簽技術支持鏈路狀態實時監測能力,在物理層支持輕量級糾錯能力,通過 IP 嵌入方式貫通 GPU 與交換芯片,形成端到端的高速通信通道,為大規模集群提供百納秒級時延與無損傳輸能力。2024 年以來,中國移動通過廣泛合作,推動
26、OISA 技術進入產業化快車道。在多樣性算力峰會成立“OISA 協同創新平臺”,在中國算力大會發布“OISA Gen1.1”協議,成立“超節點算力集群創新聯合體”等都加速了技術規?;瘧眠M程。2025 年中關村論壇展示的 64 卡“國芯國連”超節點AI 算力集群,標志著我國在智算基礎設施領域開啟自主可控的技術革新。面向近期,以協議標準化與 IP 芯片化為核心,加速推進 OISA 協議 2.0 版本的標準化進程,完成協議驗證及 IP 核流片落地。面向中遠期,重點突破基于 OISA 協議的 Chiplet 異構集成技術,建立涵蓋2D/2.5D/3D 封裝形態的標準化互連協議棧,系統性解決多芯?;ゲ?/p>
27、作性瓶頸;同步開展光電協同技術預研,通過 OIO(Optical I/O)光電融合架構創新,采用光電共封裝技術突破傳統電互連的帶寬密度與傳輸距離限制,推動材料接口與封裝規范的標準化進程,為 TB/s 級帶寬、百 ns 級時延的點對點超大規模智算集群互聯奠定基礎。2 2.3.3.2 2 機間互聯機間互聯AI 大模型以 GPU 集群分布式訓練為基礎,網絡成為影響算力的關鍵因素?,F有 InfiniBand 和 RoCE 技術存在各自問題,均不滿足未來機間互聯技術演進,為此中國移動提出全調度以太網(GSE)技術架構,全面革新以太網底層轉發機制和上層協議棧,從根本上解決傳統無損以太性能和可靠性問題,為全
28、球機間互聯技術發展貢獻中國方案。率先成立業界首個新一代 AI 網絡技術組織 GSE,全調度以太網技術架構白皮書13,隨后發布全套 GSE 技術標準、全量支持 GSE能力的千卡級商用交換機及業界首顆 GSE 網卡芯片“智算琢光”。面向近期,布局 GSE-N2N 和 GSE-E2E 兩大場景,分別滿足 GPU 集成網卡服務器和配備獨立網卡 GPU 服務器兩大不同類型服務器組網需求。圍繞兩大場景對應的兩類關鍵芯片,攻關 GSE 交換芯片及網卡芯片引入基于 PKTC 的多路徑噴灑、基于DGSQ的擁塞避免以及基于66B原子碼塊的故障檢測與通告等三大原創技術,實現從技術標準到商用產品轉化,滿足超十萬卡 G
29、PU 集群組網需求。12面向中遠期,引入 GSE 通信庫優化,利用網絡拓撲的天然聚合特性實現梯度聚合的高效卸載,減少網絡通信流量,并通過合理規劃梯度分配及聚合功能的放置加速聚合過程,降低通信延遲。引入光電路交換機(OCS),結合 GSE 技術體系,優化光電混合組網協同、納管機制,持續探索光路交換潛力,突破傳統電路交換容量瓶頸,提升智算網絡集群規模及算力水平。2.42.4 算算網一體網一體技術技術隨著大模型、智能體等新一代人工智能技術的快速發展,社會對算力基礎設施的需求呈現指數級增長,傳統計算與網絡架構已難以滿足高性能、可擴展和低成本的綜合設計需求。中國移動將“算網一體”作為未來網絡演進的新范式
30、,通過實現網絡和算力的深度融合與動態協同供給,正成為支撐 AI 規?;瘧玫年P鍵基礎設施。2.4.12.4.1 算力路由算力路由面向智算推理的“性能反轉”問題以及智算訓練對算網資源利用率、服務可用性等方面的高 SLA 要求,中國移動原創提出算力路由技術。算力路由支持歸一化算網度量、自適應算力通告、多因子聯合路由等 3 大創新技術,將算力信息封裝至路由協議,在傳統網絡路由的距離矢量上疊加算力向量,改變選路方法,實現算網聯合路由。中國移動已經在 IETF 推動成立算力路由 CATS 工作組14,是IETF 路由域近 20 年由中國企業/高校推動成立的唯二工作組之一,當前已經完成需求、場景、架構、算
31、力度量立項。同時,中國移動在 2024 年 MWC 發布全球首臺算力路由器,并已構建 5 省 20 地市規模中試網絡。面向近期,重點開展歸一化算力度量、自適應算力通告、多因子聯合路由技術研究,面向智算推理場景,開展集中式、分布式部署方案驗證,驗證算力路由在模型感知、推理實例選擇的靈活性和高效率。面向中遠期,攻關面向大模型訓練場景的多維算力信息融合路由機制,綜合感知網絡拓撲、網絡故障、節點算力狀態、檢查點等多維信息,構建穩定高效的智算訓練網絡,充分發揮算力路由的性能潛力。2.4.22.4.2 在網計算在網計算云智算應用對帶寬等通信資源更為敏感,智算訓練、推理中存在大量的跨節13點數據遷移、如集合
32、通信和 K-V cache 緩存等,為網絡帶來較大的傳輸壓力,成為系統性能的卡點。面向云智算訓練,在網計算可以將 Allreduce、Broadcast等集合通信算子卸載至網絡節點;面向云智算推理,在網計算可以在中間網絡節點緩存 K-V cache,同時實現 token 復制分發,在網絡內完成數據處理的動作,壓縮網絡流量,縮短傳輸路徑,提升系統性能。中國移動已發布在網計算 NACA技術白皮書15,提出在網計算 NACA 技術架構,原生支持面向云智算的在網計算通信庫,有力提升云智算系統的性能和靈活性。面向近期,重點開展面向智算訓練的集合通信庫適配機制研究。深入分析在網計算可以支持的集合通信算子卸
33、載類型,設計支持集合通信感知的網絡架構和協議,兼顧 RDMA 等標準協議,設計支持在網計算的集合通信庫編程接口。面向中遠期,開展面向智算訓練、智算推理等多樣化場景的通用在網計算架構和實現機制研究。重新定義原生支持在網計算功能的網絡架構和網絡元素。重點是攻關和解決高性能網絡流量轉發和高性能業務處理之間的匹配協同問題,研制新設備和新系統。2 2.5 5 AIAI 開發平臺技術開發平臺技術為應對 AI 開發周期長、AI 開發門檻高等難題,中國移動通過云原生 AI 底座技術,提升數據、訓練、推理和智能體全鏈路效能,壓縮模型或應用的構建周期;基于代碼大模型內核等 AI 工具鏈技術,通過拖拉拽或者對話式開
34、發模式降低 AI 開發門檻,使業務人員也能參與模型構建。2.52.5.1 1 數據處理數據處理數據處理為大模型提供基礎燃料,存在跨模態數據整合難、部分行業數據缺失、標注工作耗時耗力等痛點,聚焦 AI 場景,創新大模型預訓練數據清洗、AIGC多模態數據整合、數據合成、智能標注等技術,為模型迭代提供合規、多樣化的數據燃料,推動自動駕駛、醫療影像等垂直領域 AI 應用落地。面向近期,為 AI 提供高質量數據燃料。數據合成技術突破真實數據瓶頸,通過模擬生成多樣化場景數據支撐模型訓練;多模態數據整合,利用全模態大模型融合文本、圖像、音頻等,增強跨領域泛化能力;AI 驅動自動化標注,提升數據清洗效率并優化
35、標注質量;通過動態血緣追蹤、數據版本管理,確保數據集可追溯、無偏見及合規性。14面向中遠期,將圍繞智能化、實時化與生態協同深化發展?;?AI 實現全鏈路血緣追蹤與異常根因定位,推動數據治理從被動轉向動態自愈;通過元數據驅動跨系統數據動態整合,支持多模態數據與實時流批處理的統一管理,破除數據孤島;結合多模態大模型實現自動化數據標注、清洗與洞察生成,賦能業務敏捷迭代;通過聯邦學習、邊緣節點算力優化實現數據“可用不可見”,保障敏感場景合規性。2.52.5.2 2 訓練框架訓練框架模型訓練存在混合并行效率低、低精度訓練不穩定等多重挑戰。中國移動通過訓練并行優化降低混合并行復雜性,完善 FP8 混合精
36、度訓練框架,基于故障容錯提升訓練穩定性,通過構建可支撐萬億級參數模型訓練的高效框架,加速產業智能化向超大規模、超復雜場景持續突破。2.5.22.5.2.1.1 訓練并行優化訓練并行優化模型規模突破萬億參數,引發動態負載失衡、多節點顯存分配不均衡等問題。通過建立自動搜索系統實現不同節點規模的最優參數組合。通過動態分析計算圖中的算子特征與硬件資源約束,智能分配計算與通信任務,提升萬卡級訓練算力利用率(MFU)。面向近期,實現并行策略自動搜索系統。通過解析大模型網絡結構并建立算子級統計指標庫,結合專家經驗與多目標優化算法,量化評估集群的顯存占用與通信效率,輸出兼顧資源利用率與訓練速度的并行配置方案,
37、最終在超萬卡集群中實現模型訓練 MFU 超 50%。面向中遠期,研發算子級自動并行框架,動態分析計算圖中的算子特征與硬件資源約束,智能分配計算與通信任務,從而在超萬卡規模的集群中實現模型訓練的 MFU 突破 60%。2.52.5.2 2.2.2 低精度訓練低精度訓練低精度訓練可以顯著加速大模型訓練性能,但梯度溢出問題嚴重制約模型收斂穩定性。針對上述問題,通過算子級優化(重構計算流,結合動態量化技術,即 FP8/INT8 精度自適應切換)與梯度縮放機制,在確保訓練精度的前提下,壓縮計算量,實現算力效率與訓練精度的雙重突破。面向近期,完善 FP8 混合精度訓練框架,構建梯度異常檢測與自動修復機制;
38、15推進算子融合技術與混合并行策略的聯合優化,構建端到端的分布式訓練效能評估系統;同步研發梯度統計分析與動態縮放工具鏈,形成低精度訓練的標準化解決方案。面向中遠期,探索 FP4/INT4 超低精度計算架構,建立從算法設計到硬件指令集的全鏈路精度保障體系,推動大模型訓練邁入“算法-算力-能效”協同進化的新階段。2.52.5.2 2.3.3 故障容錯故障容錯超大規模集群訓練面臨硬件、網絡和軟件故障頻發,局部故障易引發級聯效應等問題,需構建分層故障隔離機制(如硬件冗余熱備、網絡多路徑容災、任務彈性分片)與增量式檢查點技術(秒級快照+差異恢復),將故障恢復時間從小時級縮短至分鐘級,同時結合智能預測提前
39、預警亞健康節點并進行隔離,實現快速恢復與主動防御的雙重保障。面向近期,通過硬件熱備保障單點故障算力損失5%,網絡多路徑容災壓降通信中斷率,并借力動態 DAG 任務調度引擎實現故障分片、秒級剔除重組。同步研發秒級輕量化檢查點達成千億級參數 5 分鐘內全量恢復。面向中遠期,基于多模態監控數據(硬件狀態、梯度分布、通信延遲)構建AI 驅動的故障預測模型,通過時序預測、因果推理實現訓練中斷的提前預警,結合強化學習動態優化容錯策略,使系統具備“未障先防”的能力。2.5.2.42.5.2.4 異構混訓異構混訓異構混訓技術是指實現單一模型訓練任務在跨廠商、跨代際、跨架構多類型智算芯片上分布式訓練的一套技術體
40、系。核心原理是根據底層異構芯片差異化計算能力對大模型計算任務進行非均勻拆分,并通過拉通異構芯片間的集合通信機制,實現大模型在異構集群上的高效分布式訓練。目前,中國移動已自主研發“芯合”異構混訓系統161718,百億參數大模型混訓加速比達 95%以上。面向近期,在分布式訓練框架中通過評估模型拆解后的子神經網絡計算量,實現分布式訓練任務到異構智算芯片的負載均衡,并基于負載均衡原則設計異構流水線并行、異構數據并行等非均勻并行技術。拉通異構芯片間的集合通信機制,實現雙芯異廠家 GPU 通過 CPU 繞轉和 GPU 間直接通信等兩種模式的跨機通信。面向中遠期,實現異構集群的最優并行策略推薦,對異構集群存
41、在的多種復16雜混合并行策略進行建模,得出最優非均勻切分并行策略,輔助降低異構集群的并行策略人工調優成本進行異構集合通信庫設計,具備異構通信組的統一管理、異構拓撲感知及異構集合通信原語定義的能力,實現多芯的異廠家跨機通信。升級“芯合”異構混訓系統,構建異構統一集合通信標準,并與業界合作伙伴共同完善系統能力、構建異構訓練融通生態,助力大模型訓練的發展演進。2.52.5.3 3 推理框架推理框架現有模型在復雜推理中普遍存在長鏈推理成本高昂、規?;评硇懿畹忍魬?。需采用模型切分、顯存分區管理等技術,提升推理并行效能;基于動態路由等技術,降低推理延遲;通過多維度指標動態感知,支撐推理服務的實時調優,
42、加速模型應用落地進程。2.5.32.5.3.1.1 推理并行推理并行效能效能優化優化模型推理技術在規?;涞剡^程中,面臨推理延遲高、顯存利用率不足、異構硬件適配復雜等問題,通過合理的模型切分、顯存分區管理,提升 AI 規?;渴鹦?。面向近期,研發預填充與解碼階段解耦的運行時架構,通過動態批尺寸調整(Dynamic Batch Size)與顯存分區管理技術優化 KV Cache 利用率,構建基于硬件拓撲感知的并行編排器,實現計算密集型與通信密集型任務的分層調度,將高并發場景下延遲壓降 30%以上。面向中遠期,研發基于強化學習算法的自適應并行引擎,動態調節跨硬件算力分布與顯存分配比例,支持千卡級
43、集群的負載均衡與彈性擴展,提升超大規模推理任務的經濟性。2.5.32.5.3.2 2 推理網關優化推理網關優化推理網關面臨高并發場景下長連接管理效率低、異構模型協議適配復雜、流式響應帶寬壓力激增等問題。需構建智能流量治理體系,通過協議統一多模態接口,結合動態批處理與內存池優化技術,實現請求分片路由與流式數據分塊傳輸,壓降端到端延遲。面向近期,研發支持動態路由的推理網關,基于 KV Cache 狀態、系統負載、硬件拓撲等多維度指標融合分析,構建自適應路由策略。通過實時監測模型實例的顯存占用率與計算密度,動態分配高優先級請求至低負載節點,實現端到端推17理延遲降低 20%-30%,同時結合算力-內
44、存協同優化技術,將異構集群資源利用率提升至 85%以上。面向中遠期,構建云邊端協同推理架構,實現動態負載遷移與聯邦學習驅動的隱私保護機制。建立可解釋性安全防御體系,集成對抗樣本檢測與推理路徑可視化審計能力,滿足金融、醫療等高危行業合規要求。2.5.32.5.3.3.3 融合算子監控融合算子監控在推理場景下,融合算子的動態性能波動與資源爭用問題顯著影響服務穩定性,需構建細粒度端到端追蹤體系,通過算子級計算流拆解與硬件資源消耗的關聯分析,實現算力利用率、顯存分配、通信開銷等多維度指標的動態感知與異常歸因,支撐推理服務的實時調優與資源彈性分配。面向近期,研發輕量化融合算子監控組件,集成至推理引擎運行
45、時系統,支持算子執行耗時、顯存占用峰值、計算單元利用率等核心指標的毫秒級采集與可視化分析,結合動態負載特征構建異常檢測模型,實現關鍵路徑性能劣化的實時告警與資源搶占策略的動態下發,壓降異常場景下的服務延遲波動率至 5%以內。面向中遠期,打造 AI 驅動的智能監控框架,通過計算圖拓撲與硬件資源狀態的聯合建模,自動識別算子融合策略與硬件調度策略的潛在沖突,構建多元算力池的彈性容災體系。2.5.42.5.4 智能體生成智能體生成智能體生成面臨模型幻覺頻發、自主規劃能力有限及多智能體協同不足等問題。未來智能體技術將通過檢索增強、智能體自適應決策與多智能體協作三大方向演進,形成任務執行可解釋、多智能體協
46、作高可信的智能體系統,加速行業智能化升級。2 2.5 5.4 4.1.1 檢索增強檢索增強生成生成增強檢索生成(RAG)技術面臨多源知識庫管理復雜、動態場景下知識更新延遲等核心瓶頸。未來技術演進將圍繞增量式檢索、自動化知識庫管理和更新三個方面,提升模型生成內容準確性和邏輯可溯性。面向近期,優化檢索過程。調整檢索參數,更好地平衡語義搜索和關鍵詞搜索的權重。優化重排序過程,提高對檢索結果的篩選和排序能力,如改進的倒數排名融合算法(RRF)。18面向中遠期,加強知識庫的管理和更新機制。自動從各種數據源中獲取新知識,并及時更新到向量數據庫中;引入自主 Agent 實現動態決策和工作流程優化,能夠根據不
47、同的任務需求,自動調整檢索策略和生成邏輯。2 2.5 5.4 4.2.2 自主規劃自主規劃自主規劃面臨跨場景任務泛化能力受限與行為邊界失控風險等問題,未來技術演進將圍繞協議標準化架構、混合價值決策模型、認知閉環構建三大路徑突破,最終形成跨協議自組織、多目標自適應、全周期自進化的智能體。面向近期,引入低代碼的編排模式,使任務流程設計更加直觀和高效。推進MCP 協議標準化整合,實現動態接口發現、權限聲明標準化和服務質量量化。建立反思機制,構建錯誤模式知識庫并實現策略優化。面向中遠期,通過蒙特卡洛樹搜索(MCTS)實現智能體的自適應決策優化,構建混合價值評估模型,融合領域知識圖譜,實現更加深思熟慮和
48、適應性強的自主規劃機制。2 2.5 5.5 5 AIAI 開發開發工具工具AI 工具鏈存在 AI 技術門檻高、工具鏈協作效率低、模型落地難等問題,依托云原生 AI 底座技術,結合代碼大模型和向量、多模數據庫等能力,整合多模態、多結構數據,實現 AI 開發流程智能化、協作效率高效化、應用落地簡便化,助力規?;?AI 應用落地。2 2.5.5.15.5.1 向量數據庫向量數據庫人工智能所需數據的復雜性和多樣性正以前所未有的速度增長,而傳統數據庫技術不適用于海量的非結構化數據處理。向量數據庫針對非結構化數據的處理進行優化,尤其擅長高效的相似性搜索,通過將數據轉化為高維向量,實現對文本、圖像、音頻等復
49、雜數據的高效處理,正在成為 AI 時代不可或缺的關鍵數據處理技術。當前中國移動已經推出了向量檢索云數據庫服務,能夠有效處理數千維的高維數據,與大模型無縫集成,廣泛應用于人工智能、機器學習、推薦系統、圖像識別等領域。面向近期,針對不同類型的向量數據和應用場景,增強對全文檢索、多路檢索召回和融合排序等關鍵技術的支持,獲取更全面的非結構化數據信息,提高檢索結果的相關性和準確性。19面向中遠期,向量數據庫進一步與大語言模型(LLM)等人工智能技術深度融合,更好地支持 RAG(檢索增強生成)等應用場景。持續提升自適應能力,能夠根據數據的動態變化和用戶的查詢模式,自動調整索引結構和檢索策略。2 2.5.5
50、5.5.2.2 多模數據庫多模數據庫AI 的快速發展催生了多模態數據的融合管理需求,使得 AI 系統能夠從每種模態中獲取獨特且互補的信息。多模數據庫能夠存儲和管理各種類型的數據,優化數據的訪問和檢索方式,從而滿足不同 AI 任務需求,并提高 AI 模型訓練和推理的效率。當前,多模數據庫主要關注的技術方向包括統一建模與存儲、分布式擴展、跨模查詢優化以及數據一致性。面向近期,改進多模查詢處理能力和優化算法,優化跨模數據轉換,提高對多種數據模型聯合查詢的效率,提升跨模數據處理能力,滿足 AI 場景中對海量多模態數據的查詢、檢索和分析需求。面向中遠期,提供強一致性保障機制,在不同數據模型之間進行數據更
51、新和交互時,確保數據的完整性和一致性,進而提高系統的可擴展性和容錯能力;利用機器學習和 AI 技術,使多模數據庫能夠自動學習和分析用戶的查詢行為和數據訪問模式,為企業提供更全面、深入的數據分析和決策支持。2 2.5.55.5.3.3 低代碼模型開發低代碼模型開發整合研發大模型能力,提升“數據處理-知識構建-模型開發-模型預訓練-模型后訓練-模型推理-智能體開發”全流程工具鏈效能1920,推動模型開發從“低代碼”向“無代碼”演進。面向近期,依托代碼大模型完成代碼開發和檢查,甚至完成簡單應用(如聊天機器人)的快速搭建。構建自動化調參工具,自動完成模型調優。面向中遠期,實現智能體驅動的復雜任務處理。
52、通過 LLM 與智能體協作,自主完成從需求分析到代碼生成、測試驗證全流程自主完成,推動 AI 從工具向協作伙伴的角色轉變。2.62.6 模型服務模型服務MaaS 平臺通過匯聚九天系列大模型和主流模型、整合多樣化大模型和智能體,以算網大腦為載體,實現智能體編排調度、多智能體協同,賦能各行各業多樣化場景。打造端到端模型交付能力,為用戶提供算力、模型、數據、應用、安全、20運維、咨詢、集成、交付、調優的一體化服務,最終實現模型即服務。2.6.12.6.1 模型匯聚模型匯聚隨著 AI 技術發展和產業需求爆發,單一模型和智能體無法滿足復雜業務流,依托云原生 AI 底座和 AI 工具鏈技術,匯聚覆蓋“L0
53、、L1、L2”的多層次模型體系,構建最開放、最全面的模型和智能體生態,助力 AI+企業即用即取。中國移動已構建 DICT 庫、MaaS 云市場等多種成熟商業模式,形成了算力補貼、技術大賽等體系化扶持政策,引入了百余家廠商模型及智能體服務。未來將匯聚的模型和智能體充分融合,向 AGI 通用模型和社會級智能體網絡演進。面向近期,提供統一的框架、接口和標準化協議(MCP),將模型和智能體匯聚至云端,通過多模型和智能體編排技術,滿足復雜場景需求。面向中遠期,結合行業知識庫與領域模型,推動跨行業協同創新。支持跨組織、跨行業的協同,逐步構建全球化的智能體網絡。2.6.22.6.2 模型智能體融合模型智能體
54、融合以算網大腦為載體,提升智能運營能力。通過分層融合和動態路由等技術,自動將簡單任務調度至小參數量模型,復雜任務調度至大參數量模型,專業知識調度至行業模型,并疊加知識庫、運行時環境等工具,在業務精度不下降的同時,實現客戶效益最大化。面向近期,構建動態路由與任務解耦框架。研究多模型能力量化評估技術(如領域覆蓋度、推理置信度、資源消耗比),設計輕量級路由決策模塊,基于輸入特征(如任務復雜度、數據模態、實時性需求)動態分配子任務至最優模型。面向中遠期,設計分布式信用分配體系,通過 Shapley 值量化各模型貢獻度,優化資源調度策略,實現模型和智能體深度融合。2.72.7 算網大腦算網大腦算網大腦在
55、多要素融合的一體化資源編排調度和運營支撐能力的基礎上,對內打造云智算資源、任務、智能體的三級編排調度體系。對外,結合三級編排調度的不斷賦能,演進為具備意圖解析與任務規劃、能力編排與資源調度、可視交付與持續優化能力的超級智能體。2.7.12.7.1 資源編排調度資源編排調度21資源編排調度技術通過全局資源感知、動態策略優化與智能決策機制,實現跨域異構算力與網絡資源的高效協同?;谒憔W大腦分布式架構與智能算法驅動,支持多層級資源抽象與統一建模,兼容云計算、邊緣計算、智算中心等異構算力資源及入算、算間網絡等多制式網絡環境,實時采集多維度數據(包括算力資源狀態、網絡拓撲、業務需求及服務質量指標),構建
56、多目標優化模型進行資源編排調度,生成滿足 SLA 約束的最優部署策略。同時基于深度學習模型預測資源負載趨勢,實現秒級重調度迭代和預案推演。最終形成面向算網資源的端到端編排調度技術方案,具體包含如下方面:跨域資源統一建模與調度引擎跨域資源統一建模與調度引擎:構建多集群資源統一抽象層,通過算力度量量化異構算力(CPU/GPU/NPU)、存儲容量及網絡狀態(時延、帶寬),形成全局資源動態畫像和多目標(時延、成本、能耗)動態調度策略。動態資源預測與彈性供給動態資源預測與彈性供給:通過算網數據感知實時采集業務負載趨勢,結合AI 算法預測資源需求峰值,動態調整跨域資源分配。例如,在電商大促場景中,提前將算
57、力彈性擴容至西部低成本集群,結合確定性網絡保障數據傳輸穩定性。意圖驅動的跨域編排接口:意圖驅動的跨域編排接口:基于算網原生編排開發意圖化 API,將用戶需求自動解析為算力、網絡、存儲資源的組合策略,利用數字孿生模擬資源調度效果,生成跨集群任務部署方案。面向近期,構建多集群資源統一抽象層,實現算網資源統一建模、算網指標多維感知和算網能力標準封裝。打造調度流水線、可擴展調度策略,實現基于成本優化、性能優化、時延優先等調度策略的算網資源智能推薦。面向中遠期,結合業務負載趨勢、彈性網絡,通過 AIOps 算法預測資源需求,實現跨域數據遷移,動態調度全局算網資源,支持資源彈性伸縮;深度融合 AI,基于業
58、務意圖智能生成算網編排方案,結合數字孿生技術進行調度仿真,實現算網智能化編排調度。2.7.22.7.2 任務式編排調度任務式編排調度任務式編排調度技術面向離線負載與離線作業等任務式場景提供全生命周期自動化管理能力,重點支撐數據處理、分布式推理與集中式訓練三類核心業務范式。數據處理場景下,通過彈性層級隊列和負載感知調度以及重調度,有效保22障多租戶數據處理任務的穩定性。分布式推理場景下,基于全局流量負載均衡和推理集群自適應彈性伸縮,有效提升推理服務全局 Token 吞吐。集中式訓練場景下,基于 AI 任務斷點續訓的特點,通過分時調度機制實現訓練和推理混合負載,白天推理、晚上訓練,有效降低總體成本
59、。面向近期,面向數據處理場景,適配 Spark、Flink 等多計算引擎,通過彈性層級隊列、負載感知調度以及重調度等機制,提升數據處理任務整體資源利用率,有效保障多租戶數據處理任務的穩定性。面向中遠期,結合訓推一體場景,通過全局流量負載均衡和推理集群自適應彈性伸縮,結合訓練任務分時調度,實現訓練和推理任務的削峰填谷,有效降低總體成本。2.7.32.7.3 智能體編排調度智能體編排調度智能體編排調度技術基于分布式 AI Agent 協同架構,深度整合 ANP 與 MCP,結合智能體路由實現多智能體動態協作與資源高效管控。通過 ANP 協議建立智能體自主協商與契約達成,依托 MCP 協議實現智能體
60、與外部系統的統一標準化對接,創新智能體路由調度算法,達到意圖的精準識別和任務的高效規劃,實現模型、工具的最優化調度。面向近期,基于 kubeRay 技術打造分布式 AI Agent 架構,支持 Agent 消息傳遞、記憶管理、模型調用,并結合 MCP 協議實現智能體與外部工具的統一標準化對接。面向中遠期,研究智能體路由,打造多智能體動態協作與資源高效管控,達到意圖精準識別和任務高效規劃,實現模型、工具的最優調度;推進 ANP 協議標準化,實現多智能體自主協商與契約達成。2.82.8 安全可信安全可信云智算相對于云計算,面臨的安全風險和安全需求更加復雜:一是更多的智算設施、更多的參與方中可能潛藏
61、更多的攻擊點和風險點,需要由安全可信的計算環境來進行保證不被內外部攻擊;二是智算服務中需要使用多源異構數據,既要保證數據自身安全,又要防止利用數據對模型的訓練和生成進行攻擊;三是模型服務的新模式中,一旦生成內容有偏差的模型,對后續的服務形成持續性影響。在“一體化全程可信”的算網安全理念指導下,云智算的安全將向三個方面演進23和增強,即計算環境可信、數據安全可用、智算服務可靠。2.8.12.8.1 計算環境可信計算環境可信智算資源的引入也帶來了新的風險,已公布的 GPU 相關的 CVE 漏洞高達 700多個,涉及 GPU 內存攻擊、指令控制等方面。目前,針對智算資源的安全保障技術尚未形成體系,需
62、要從兩個方面進行應對:智能檢測監測技術智能檢測監測技術:對已知的漏洞和攻擊手段,通過特征檢測和行為監測的方式進行分析防范;并借助時序分析、行為特征分析等技術監測 GPU/CPU 利用率、內存占用、網絡流量等指標的異常波動,及時識別并阻斷可能的攻擊,實現攻擊防范??尚庞嬎慵夹g:可信計算技術:應用硬件級安全芯片(如 TPM/TCM)構建底層信任根,在其上構建貫穿計算執行全流程的可信計算環境,確?;A設施的全??尚判?,實現計算環境的安全可信自證。面向近期,考慮在封閉環境中使用受信廠商的智算資源,并接入實時監控系統,監測針對智算資源的攻擊、及時修復漏洞。面向中遠期,使用可信計算技術,確保算力環境在執行
63、訓練和推理任務過程中全程可信。2.8.22.8.2 數據安全可用數據安全可用智算場景面臨的數據安全風險主要包括針對數據的攻擊和通過數據發起攻擊。針對數據的攻擊是指在數據全生命周期過程中對數據進行篡改、偽造、竊取等。通過數據發起攻擊是指向訓練數據中注入惡意數據樣本,破壞數據的可用性,導致模型性能下降、產生偏差,實現數據投毒。針對數據安全風險,可以從三個方面來進行應對:基于數據全生命周期安全防護技術基于數據全生命周期安全防護技術:覆蓋數據采集、傳輸、存儲、處理、共享及銷毀全流程,結合智算場景下數據來源多、數據操作復雜等特性,通過數據分類分級、數據加密脫敏、操作行為審計等技術構建安全數場?;谔卣鞣?/p>
64、析的檢測技術基于特征分析的檢測技術:通過對比可疑數據集和干凈數據集訓練的模型輸出差異以及在驗證數據集上的性能波動,同時配合均值、聚類等統計方法,識別與正常數據分布顯著偏離的樣本,識別投毒數據?;跀祿〉淖粉櫦夹g基于數據水印的追蹤技術:在訓練數據中嵌入帶有數據提供方身份標識的水24印信息,在檢測到數據投毒風險后可以第一時間定為風險源,從而隔斷其相關聯的可疑數據。面向近期,考慮在智算環境中使用安全數場和安全檢測技術,保障數據自身安全,防范通過數據發起的攻擊。面向中遠期,引入數據追蹤技術,實現對智算全程的數據溯源,出現安全風險能夠第一時間進行定位解決。2.8.32.8.3 智算服務可靠智算服務可
65、靠模型篡改和結果偽造發生在模型訓練和結果推理的計算階段,產生的模型和結果的偏差會對 AI 模型使用者造成安全威脅。針對模型自身安全合規、模型被篡改和結果偽造風險,應從以下三個方面來保障計算安全:AI+AI+模型安全檢測技術模型安全檢測技術:針對 MaaS 輸出的模型,增加基于 AI 的模型公正性、內容合規性、結果可信性等方面的檢測,用 AI 對抗 AI,實現“用魔法打敗魔法”。模型偏離監測技術模型偏離監測技術:在訓練和推理程序中部署監控模塊,監測模型推理的輸入輸出分布,在發現模型參數和推理結果偏離歷史統計等異常時觸發告警,進行重點關注與復測。模型與結果簽名鏈技術模型與結果簽名鏈技術:在訓練和推
66、理過程中嵌入數字簽名模塊,自動對中間狀態模型參數、推理結果進行簽名,并借助區塊鏈和智能合約技術實現上鏈存證,實現模型和推理結果防篡改偽造。面向近期,考慮用基于 AI 的檢測和監測技術,保障模型公正、內容合規、結果可信。面向中遠期,采用“數字簽名+區塊鏈”的融合信任體系,實現智算服務可靠。2.92.9 綠色節能綠色節能隨著云智算系統的規模應用,將產生驚人的能耗和碳排放。云智算技術的發展應將能耗、碳排放與計算效率、模型的準確性一起作為技術發展和提升目標,實現綠色人工智能(GREEN AI)。2.9.12.9.1 能效管理和提升能效管理和提升25AI 大模型快速發展推動云智算系統算力需求激增,帶來高
67、能耗與碳排放問題日益凸顯,據此,中國移動提出云智算系統能效管理和提升技術體系,實現能效評價和優化。具體包括:能效管理技術:能效管理技術:提出能效、碳效、算效評價模型,形成“評價-優化-管控”綠色節能解決方案,基于業務負載與資源利用率的非線性關系,建立“業務運行-算力輸出”模型,實現云智算系統能效的精準管理。能效提升技術能效提升技術:針對設計態,提出綠色設計優化算法,提升機架空間、運行負載利用率,最大化資源利用效率;針對運行態,提出綠色運行優化算法,通過“業-算-能”協同優化提高系統整體運行能效。面向近期,構建信息流、資源、能源特征的多維仿真模型,推動云智算系統精準能效仿真,推動行業標準制定,打
68、造標桿應用。面向中遠期,針對大規模云智算系統,將更高能效、碳效與更高算效、模型準確性的提升作為優化目標,聯合產業推動大規模多維仿真建模技術成熟,加速云智算綠色低碳技術發展。2.9.22.9.2 數據中心熱管理數據中心熱管理隨著 AI 大模型快速發展,高密芯片 TDP 持續攀升,算力基礎設施制冷模式亟需重構。液冷技術的規模應用與智慧化運維體系的深度融合,正成為突破散熱瓶頸、保障數據中心高效運行的核心路徑。解耦液冷技術解耦液冷技術:突破高密換熱、高精度插接、系統防漏液、兼容性插接等核心技術卡點,推進液冷基礎設施側與服務器側解耦,打破整機柜交付生態壁壘,提高業務部署靈活性,實現降本增效。21空調智慧
69、化運維技術:空調智慧化運維技術:通過 AI 驅動的能耗優化與預測性維護技術,推動制冷系統從“經驗運維”向“AI 智控”升級。面向近期,重點開展可兼容型流體連接器、防噴濺裝置、多場景換熱單元等解耦液冷核心部件研究及通用冷卻工質適配技術攻關,攻克制冷系統動態化智能管理技術,通過標準建設和技術牽引,完善解耦液冷產業生態。面向中遠期,推動解耦液冷技術與智慧化運維體系深度融合,拓展全鏈路熱管理和算力-冷卻協同能力,實現 IT 與基礎設施側的全局調優和跨域聯動。2.9.32.9.3 算電協同和余熱回收算電協同和余熱回收26云智算系統的高能耗與高碳排放已成為綠色低碳發展的核心挑戰。為破解“高能耗-高排放-低
70、回收”的惡性循環,亟需推動算力、電力、熱力的協同優化。算電協同技術:算電協同技術:通過構建“信息流-能量流”雙向耦合機制,實現算力需求與能源供給的動態匹配,提升綠電利用率,降低用能成本與環境影響。余熱回收技術:余熱回收技術:將數據中心產生的低品位廢熱回收并提升品位,滿足建筑、工業、農業等領域的用熱需求。面向近期,重點開展算電協同與余熱回收的基礎研究與試點應用,推動實時算力調度與儲能管理技術成熟;攻克高溫高性能熱泵技術,推動余熱回收在本地化場景的高效利用。面向中遠期,推動算電協同與余熱回收的網絡化與規?;瘧?,從單一數據中心的綠電消納擴展至區域算力與能源的網絡協同,余熱回收深度融入區域供熱網絡,
71、實現多中心、多能源的動態優化。2 2.1010 未來技術展望未來技術展望云智算正通過算力架構革新、智能編排調度和全棧 AI 服務重構云計算范式,為千行百業 AI+轉型提供基石支撐。當前,智算超節點、磐石 DPU、全向智感互聯 OISA、全調度以太網 GSE 等核心技術突破可推動計算效率顯著提升,而算力原生、智能體開發體系等技術演進正加速 AI 應用普惠化發展。面向未來,隨著存算一體、量子計算等技術的不斷成熟,將開啟云智算的新篇章。存算一體存算一體技術技術存算一體技術作為新型計算范式,通過減少數據存取的開銷,可以緩解經典馮諾依曼架構下存儲與計算分離導致的“存儲墻”問題,系統性提高 AI 芯片算效
72、。當前存算一體已處于學術界向產業界轉化的關鍵時期,隨著大模型基礎能力的發展,大模型推理占比持續加大,在大模型推理中存在大規模的矩陣乘加運算,大算力的存算一體可滿足高數據密集型和高算力密集型計算需求,有望在大模型推理階段得到廣泛應用。中國移動將在存算一體芯片能力和整機產品等方面開展布局,同時聯合高校和產業界,定義大算力存算一體標準,加速推動大算力存算一體產業化進程。量子計算量子計算量子計算以量子比特為基本單元,利用量子疊加和干涉等原理實現并行計算,27能在某些計算困難問題上提供指數級加速,是未來計算能力跨越式發展的重要方向。量子計算有望引發算力飛躍,在材料模擬、組合優化、機器學習、量化金融等高算
73、力需求領域,提供高效解決計算困難問題的全新方案。中國移動自 2020 年開始布局量子計算技術與應用前瞻研究,定位量子計算產業鏈中游和下游,重點聚焦量子云和量子軟件開展創新技術研發,聯合行業伙伴布局開展量子計算應用探索和量子計算機商用化服務,攻關量子神經網絡設計、訓練、推理端到端計算框架,打造量子神經網絡新模型,構建量子 AI 信息處理新范式,加速形成全方位發展格局。高吞吐抗損傳輸高吞吐抗損傳輸AI 訓練中 TB 級參數同步對時延極為敏感,傳統數據傳輸技術難以滿足低時延、高吞吐的傳輸性能要求,中國移動創新提出廣域抗損高吞吐技術,可大幅提升廣域數據傳輸效率,是實現高性能數據共享和數據服務的云智算基
74、礎技術。中國移動將聯合產學研各界構建從關鍵算法研究、技術仿真驗證、原型開發測試、部署落地等全流程產業生態,推動高吞吐、高可靠、低時延、低算力損耗的廣域高吞吐技術發展。智算互聯網絡智算互聯網絡面向跨智算中心高突發、多并發“大象流”傳輸帶來的網絡運力受損、算效下降等問題,中國移動提出智算互聯網絡原創技術體系 UDCI(Ultra Data CenterInterconnection),重點突破 10T 級聚合通道、微流級精準流控和物理層安全加密三大關鍵技術,助力 AI 大模型分布式訓練、AI 普惠推理、存算分離等新型智算業務的創新及應用。中國移動將積極布局 UDCI 國內外標準,拉通產業合作,推動
75、芯片、設備、測試儀表的成熟。與此同時,中國移動還將大力推進 UDCI 關鍵技術的落地實現與試點應用,打造具備超大運力、超精“0”損、超高安全的智算互聯網絡基礎設施。模型分發網絡模型分發網絡模型分發網絡(MDN)可充分發揮運營商算網資源優勢,通過云邊協同的分布式推理架構以及均衡調度、安全接入、大小模型調度、PD 分離等不同協同模式,為用戶提供無處不在的低時延推理服務,支撐 AI 普惠時代億級海量用戶的28千萬級并發訪問。中國移動將加速構建模型分發網絡(MDN)技術及標準體系,引領 MDN 技術方向,形成產業共識,通過測試和試點加速 MDN 新技術的完善,形成示范效應,并在實踐中與合作伙伴形成新的
76、商業模式,加速 MDN 技術體系成熟,共同助力普惠智能時代的 AI 產業發展。293 3.總結倡議總結倡議云智算的發展成熟離不開產學研用各方的共同努力,中國移動愿與合作伙伴一道,圍繞上述十大關鍵技術方向,通力合作,共同推動云智算技術發展、產業成熟、應用創新和生態繁榮。在此提出四點倡議:一是共同完善云智算技術和標準體系,加快產業鏈凝聚共識,形成統一技術路線,明確發展方向。二是共同攻關云智算關鍵技術,推動我國原創技術和產業成熟,加快產品研發和商用落地。三是共同創新云智算應用服務,著力打造 MaaS 平臺、智能體市場等新平臺新模式,推動云智算服務在更大范圍、更深層次、更廣領域的應用。四是共同繁榮云智
77、算產業生態,加強開源開放,打造芯片制造商、設備集成商、應用開發者等產業鏈上下游合作互促、共享共贏的新生態。30附錄附錄智算超節點智算超節點:1 COCA(Compute On Chip Architecture)架構,移動云大會,20232 OpenCOCA 白皮書,中國移動,20233 磐石 DPU4.0,中國移動算力網絡大會,20244 云計算通用可編程 DPU 發展白皮書,中國移動,20235 面向 AI 的 DPU 技術能力要求,云計算標準和開源推進委員會團體標準算力原生:算力原生:6 面向智算的算力原生白皮書,中國移動,20227 Cloud Computing-Functional
78、 requirements of computing resourceabstraction ITU-T SG13 Q178 智能算力資源統一編程模型及范式技術要求 CCSA TC1WG49 智能算力資源統一虛擬指令集技術要求 CCSA TC1WG410算力原生子工作組 https:/opendev.org/cfn/computing-native11算力原生基礎軟件棧 2.0,中國信息通信大會,2024訓推多級緩存:訓推多級緩存:12 ParaCkpt:Fast Multi-path Checkpointing Mechanism for Training DeepLearning Mode
79、ls,CCF-B 2024機間互聯:機間互聯:13 全調度以太網技術架構白皮書,中國移動研究院,2023算力路由算力路由技術技術:14 算網一體網絡架構與技術體系展望白皮書,中國移動研究院,2022在網計算技術:在網計算技術:15https:/datatracker.ietf.org/wg/cats/about/異構混訓異構混訓:16“芯合”異構混訓系統 1.0,中國信息通信大會,202417 面向異構智能算力的統一通信機制技術要求,CCSA TC1WG4,202418 面向異構混合算力的分布式并行訓練技術,CCF,2024低代碼模型開發:低代碼模型開發:19Multiple Object Tracking as ID Prediction,CCF-A20 Exploring The Neural Burden In Pruned Models:An Insight InspiredBy Neuroscience ICONIP,CCF-C綠色節能綠色節能:21 電信運營商液冷技術白皮書