《中國電信:云計算研究白皮書(2024)(79頁).pdf》由會員分享,可在線閱讀,更多相關《中國電信:云計算研究白皮書(2024)(79頁).pdf(79頁珍藏版)》請在三個皮匠報告上搜索。
1、云計算研究白皮書2024 年中國電信云計算研究院2024 年 12 月 31 日前言云計算研究院計劃在每年的年底發布云計算研究白皮書,包含對云計算領域研究進展的持續總結沉淀,也包含對中國電信云計算研究新的展望和建議。本文是年度白皮書的開篇,形成于云計算研究院的研究團隊初具雛形之際,將主要呈現云計算研究院對于云計算相關研究方向的研究圖譜、行業背景、研究趨勢、研究熱點和研究難題的分析洞察。云計算研究院主要布局四個研究方向:面向下一代云計算的研究、圍繞云計算的云網融合研究、智能算法賦能的研究和面向新興技術的研究。本文內容按照四個研究方向分為四個章節。每章第一節介紹該研究方向的研究圖譜,通過分析國內外
2、產業、產品以及關鍵技術來闡述研究圖譜的產生思路。第一節內容除了用研究圖譜的方式給出該研究方向的全局概覽,也提供了大量行業數據和案例,包含了很多有用的行業參考信息。每章第二節聚焦在研究洞察,通過對大量高水平論文的深入分析,總結提煉出當前的研究熱點和研究難題。第二節內容可以為研究人員的研究選題提供重要輸入,也可以為研發工程師等其他崗位的同事提供全面的技術趨勢解讀以及大量技術問題和解決方案的參考。每章第三節先借用 Gartner技術成熟度曲線的形式,總結呈現前兩節討論的技術點和應用的現狀和趨勢,最后對該研究方向提出一些展望和發展建議。特別指出,在當前的智算時代背景下,本文包含一個貫穿四個章節的話題,
3、即智能技術與各個研究方向的結合,這個話題也引申出和智能技術息息相關的數據問題:智能技術的研究和應用需要依賴貫穿研究、開發和運營(RDO)的數據體系。下面簡要概括四個研究方向的主要洞察。第一章面向下一代云計算的研究探討中,首先基于全球市場與國內市場的比較,得出國內平臺即服務(PaaS)具備最大潛力的結論。之后觀察到云計算產業目前是頭部廠商產品和開源組織共同引領,行業標準化尚處于早期。然后發現近年來 1/3 的高水平學術成果都有企業參與,特別是頭部廠商貢獻突出,中國電信有必要進一步提升高水平研究能力,加強前沿技術探索,提升技術影響力。最后通過對近幾年數百篇高水平學術論文的深度分析,總結出數據中心網
4、絡、數據庫、云存儲、資源管理與 QoS 保障等熱點研究問題,并重點討論智能技術與云計算的緊密關系,特別是智能技術對于傳統云計算的提升?;谝陨戏治龆床?,本章提出一些發展建議,例如構建數據體系,智能技術與云計算技術深度融合、持續增加對 PaaS 層的投入、持續探索底層架構創新等。第二章圍繞云計算的云網融合研究探討中,除了聚焦在云計算及算力領域,也涉及部分云網融合的核心研究。具體來講,本章圍繞云網融合的三項重要技術展開探討,分別是云網一體化調度、算力網絡平臺和網絡云化。云網一體化調度的理論難點是最優調度與計算復雜度的彈性平衡,云計算研究院在攻克理論難點方面已有一定積累并正在持續推進相關研究,當前云
5、網一體化調度的研究熱點包括算法復雜度、策略動態自適應和部署性能優化。算力網絡是云網融合的關鍵技術路徑,大模型智算引領算力網絡平臺煥發活力,相關標準正逐步走向體系化,算力服務平臺的產業化也正在實現,研究難題包括算力服務效率和性能、智算加速與分布式協同等。網絡云化主要由網絡功能虛擬化(NFV)系列標準引領,隨著 5G 興起和部署,研究和產業化都日趨成熟,研究難題包括網絡功能云原生化和電信等級的云基礎設施。第三章智能算法賦能的研究探討中,圍繞優化理論、圖算法、博弈論、深度學習、強化學習和大模型六類算法展開。針對云計算和云網融合中的廣泛應用,本章提煉出五大場景,包括數據管理、負載預測和負載均衡、參數調
6、優、調度編排和故障診斷。通過對大量高水平論文的深度分析,本文總結提煉出六類算法和五大場景組合中的研究熱點和研究難題。本章提出的發展建議包括大模型和深度學習助力云計算智能化變革升級、圖算法賦能云計算穩定高效發展、智能優化及決策賦予云計算可解釋性。第四章面向新興技術的研究探討中,圍繞工業互聯網、智慧交通、智慧醫療、智慧政企、智慧教育等新興技術領域對云計算和云網融合的需求展開。本章整理了國內外云廠商的相關案例,總結提煉出協同性、移動性、智能性、安全性、可靠性五個方面的挑戰。通過對大量高水平論文的深度分析,本章總結了面對每個方面挑戰的研究熱點和研究難題。本章提出的發展建議包括推動云邊協同化和智能化發展
7、、強化安全性和合規性、推動智能化運維和管理等。目錄1面向下一代云計算的研究11.1研究圖譜及其產生:云計算產業和技術分析.11.1.1云計算市場規模與發展趨勢.21.1.2云計算行業開源組織與事實標準.41.1.3頭部云廠商主流產品與優勢分析.51.2研究洞察:當前云計算的研究熱點和難題.61.2.1主要研究分布及熱點剖析.61.2.2智能技術與云計算相結合.101.3下一代電信云的展望和發展建議.111.3.1未來云計算技術趨勢與服務模式展望.121.3.2云計算未來發展建議.122圍繞云計算的云網融合研究132.1研究圖譜及其產生:云網融合產業和技術分析.142.1.1基本概念和發展現狀.
8、142.1.2國內外行業標準.152.1.3國內外產業進展.172.2研究洞察:當前云網融合的研究熱點和難題.182.2.1熱點研究問題的剖析.192.2.2智能技術與云網融合相結合.212.3云網融合研究的展望和發展建議.212.3.1云網融合的未來研究方向和關鍵技術展望.232.3.2云網融合的發展建議.233智能算法賦能的研究253.1研究圖譜及其產生:賦能云計算和云網融合的智能算法.263.1.1優化理論及其應用.263.1.2圖算法及其應用.263.1.3博弈論及其應用.283.1.4深度學習及其應用.293.1.5強化學習及其應用.293.1.6大模型技術及其應用.303.2研究洞
9、察:智能算法驅動的云計算和云網融合研究熱點和難題.323.2.1數據管理中的智能算法研究.333.2.2工作負載預測與均衡中的智能算法研究.333.2.3參數調優中的智能算法研究.343.2.4調度與編排中的智能算法研究.353.2.5故障診斷中的智能算法研究.363.2.6其他研究熱點.363.3智能算法研究的展望和發展建議.373.3.1智能算法的未來研究方向和關鍵技術展望.373.3.2智能算法的發展建議.384面向新興技術的研究394.1研究圖譜及其產生:面向新興技術的云計算與云網融合研究.404.1.1產業分析:云計算和云網融合相關的新興技術產業.404.1.2云計算和云網融合面臨的
10、挑戰.414.1.3國內外云廠商案例.434.2研究洞察:面向新興技術的研究熱點和難題.444.2.1云邊協同研究.444.2.2移動計算研究.464.2.3邊緣智能研究.474.2.4安全性研究.484.2.5可靠性研究.504.3面向新興技術的展望和發展建議.514.3.1新興技術的未來研究方向和關鍵技術展望.524.3.2新興技術的發展建議.53第 一 章面向下一代云計算的研究在全球范圍內,目前各國正在加速推動云計算技術的創新與應用,以應對日益復雜的數字化需求和全球競爭。云計算不僅為大數據、人工智能、物聯網等技術的快速發展提供了底層支撐,也成為了國家戰略的重要組成部分,影響著全球產業格局
11、與經濟結構的變革。過去一年,大模型應用,低空經濟互聯網等業務場景呈現井噴式發展,云計算作為大模型的底層算力支撐,已進一步深刻影響人類的生產生活方式和全球產業格局。在全球云計算產業中,基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)構成了云服務的三大核心模型。各大云廠商圍繞這三大服務層次,不斷加大技術投入,提供多層次的解決方案,以滿足企業對基礎設施、應用開發平臺和軟件應用的需求。這種多層次服務模式能夠靈活地滿足企業的用云需求,推動了云計算的快速普及,同時也進一步加速各行業數字化和智能化的發展。本章將從這三大服務模型所呈現的產品出發,探討全球云計算技術的發展現狀以及產業界
12、與學術界的技術演進趨勢,重點分析頭部云廠商在云計算領域的戰略布局、技術創新投入及其市場動態。本章還將結合國內當前的云計算發展狀況,分析我國在全球云計算競爭中的優勢與挑戰,探討下一代云計算的發展方向。1.1研究圖譜及其產生:云計算產業和技術分析系統框架基礎架構業務場景智算云(Cloud for AI)AI優化大模型機器學習擁塞控制SDN網絡虛擬化資源調度負載均衡網絡CPUGPU負載混部性能診斷QoS保障資源畫像緩存參數調優彈性伸縮 .AI管控故障預測AI增強云游戲.新型協議新興架構DPU通算云大模型訓練框架算子加速傳統訓練/推理框架作業編排/容錯模型壓縮AI for Cloud計算 Server
13、less計算平臺RDMAAI開發平臺數據庫Hypervisor輕量級虛擬化資源超分數據中心低碳節能大數據分析圖計算流處理數據科學高性能計算云游戲能耗管理 自動調頻租戶安全故障隔離軟硬協同微服務安全容器隔離/快照快照/緩存冷啟動加速復用/共享函數壓縮通信優化/工作流編排算力擴展/應用適配FPGACDN索引存算分離內存池化Serverless服務自治湖倉一體多讀多寫向量檢索數智融合數據共享云邊端協同云電腦存儲PM高可用DDR5節能/散熱架構云操作系統DaaS(Data as a Service)MaaS(Model as a Service)鏡像分發日志和監控CI/CD數據布局 數據庫&大數據平臺
14、.圖 1.1:云計算研究圖譜(由云計算研究院總結形成)在當前 AI 浪潮的驅動下,云計算技術的發展也朝著更智能化、靈活化、多樣化的方向邁進,一方面,基礎架構層和系統框架層圍繞新硬件和新業務場景帶來的機遇和挑戰,持續地進行深度優化以滿足包括AI 在內的多樣化應用需求。另一方面,AI 技術也被廣泛應用于基礎架構和系統框架的優化設計,不斷提高云計算的能力。圖 1.1列舉了當前階段云計算領域的技術研究圖譜1,這些研究也已經或正在助力云計1按照業界共識,本文在系統框架層將現有主流云平臺定義為通用計算平臺和專用計算平臺(以智算云最具代表性)兩類。2CHAPTER 1.面向下一代云計算的研究算行業迎來新一輪
15、的技術變革??偟膩碚f,在基礎架構層,基于新型高速互聯技術的內存池化架構(例如CXL)有助于提高算力調度的靈活性和資源利用率;存儲技術與分布式系統結合,推動數據管理更加高效;新興架構技術(例如 DPU、RDMA)則大幅提高了云平臺的數據傳輸和控制能力;而云操作系統則結合數據中心節能技術更好地協調組織計算、存儲和網絡資源的分配,通過調度優化資源使用,減少碳排放。在系統框架層,Serverless 架構簡化了開發者操作,幫助用戶實現業務高度彈性和可擴展性。面向垂直領域(例如數據庫,AI 開發)的深度優化平臺則可以實現一站式開發流程并優化業務的運行性能。AI forCloud 則貫穿所有層級,通過自動
16、化、智能化的運維技術提升云計算系統的運行效率與服務質量。本節余下的內容將結合研究知識圖譜,通過公開資料的整理討論云計算行業國內外市場和產品情況和發展趨勢。1.1.1云計算市場規模與發展趨勢從全球云市場的發展態勢來看,全球市場正迎來新一輪的增長。在國際市場方面,預計在未來幾年內,全球云計算市場的規模將持續擴大,同時保持較高的增長率。新技術的應用以及市場需求的變化,正推動著云計算行業不斷創新與變革,接下來將從 IaaS,PaaS 和 SaaS 市場三個方面對國內外云計算產業進行詳細的剖析。過去一年里,全球 IaaS 市場持續增長,但增速有所放緩。根據 IDC 報告,全球 IaaS 市場呈現出持續增
17、長且競爭激烈的態勢。從收入規模來看,2021 年至 2023 年期間,全球 IaaS 市場規模從 2021 年的 915億美元不斷攀升至 2023 年的 1334 億美元,其同比增長率雖有所下降,但仍保持著相對可觀的增長速度(見表 1.1)。究其背后原因,以生成式 AI(GenAI)為代表的業務場景在很大程度上助力了 IaaS 市場的增長 1。例如在醫療、生物、制造業等領域,生成式 AI 往往依托于 IaaS 云服務來獲取相應資源,間接帶動了 IaaS 市場的增長。算力需求的擴大也推動了智算型數據中心的建設和發展。全球以 Amazon、Microsoft、Google 為主體的頭部云計算廠商持
18、續增加 IaaS 層的投入。與此同時,國內的云計算廠商也每年投入大量資金用于建設智能云數據中心(例如百度智能云,天翼智算云),不斷提高數據中心在 GPU 算力提供、IaaS 服務優化等方面的能力。表 1.1:IDC2023 年度全球公共云服務收入及同比增長統計 2(單位:十億美元)云服務2021份額2022份額2023份額21-22 增長率22-23 增長率IaaS91.520.6%115.520.7%133.419.9%26.2%13.4%PaaS70.115.8%95.417.1%123.318.4%32.1%22.6%SaaS282.763.6%347.562.2%412.561.7%4
19、0.1%18.7%2023全球云計算市場分類占比2023全球IaaS,PaaS及SaaS增速19.9%18.4%61.7%IaaSPaaSSaaSIaaSPaaSSaaS增速1.13x增速1.22x增速1.19x2023全球云計算市場分類占比57.8%17.6%24.6%IaaSPaaSSaaS2023國內云計算市場分類占比差距40%2023全球云計算市場分類占比2023全球IaaS,PaaS及SaaS增速19.9%18.4%61.7%IaaSPaaSSaaSIaaSPaaSSaaS增速增速增速1.22x1.19x1.13xIaaS61.7%18.4%19.9%SaaSPaaSIaaS(a)2
20、023 全球 IaaS,PaaS 以及 SaaS 市場份額2023全球云計算市場分類占比2023全球IaaS,PaaS及SaaS增速19.9%18.4%61.7%IaaSPaaSSaaSIaaSPaaSSaaS增速1.13x增速1.22x增速1.19x2023全球云計算市場分類占比57.8%17.6%24.6%IaaSPaaSSaaS2023國內云計算市場分類占比差距40%2023全球云計算市場分類占比2023全球IaaS,PaaS及SaaS增速19.9%18.4%61.7%IaaSPaaSSaaSIaaSPaaSSaaS增速增速增速1.22x1.19x1.13x61.7%19.9%18.4%
21、圖表標題IaaSPaaSSaaSIaaS(b)2023 全球 IaaS,PaaS 以及 SaaS 市場增速圖 1.2:2023 全球 IaaS,PaaS 以及 SaaS 市場份額分析 2全球 PaaS 市場份額與 IaaS 市場份額持平,同時市場增速超過 SaaS 成為第一。如圖 1.2(a)所示,2023年全球 PaaS 市場規模達到 1230 億美元,相比 2022 年市場份額上升 22.6%。盡管相比 2022 年的市場份額1.1.研究圖譜及其產生:云計算產業和技術分析3增長率有明顯的下降,但相比同期的 IaaS 和 SaaS 市場,PaaS 市場的增長率在 2023 年超過 SaaS,
22、成為第一(圖 1.2(b))。與 IaaS 市場增長類似,當前 PaaS 服務迅速增長很大程度上歸結于以生成式 AI、大模型為代表的新興應用場景的發展。生成式 AI 和大模型等新技術的爆發,促使眾多開發者和中小型企業需要簡便高效的一站式模型開發平臺來支持其 AI 應用的構建與部署,PaaS 平臺能夠很好地滿足這些需求,從而推動了市場增長。隨著未來云技術的不斷演進,作為云平臺架構中承上啟下的關鍵中間層,PaaS 層所面臨的市場需求將會持續攀升,相應的功能也必將得到進一步的強化與拓展。目前全球 SaaS 市場規模最大,各大云廠商均在 SaaS 領域大量進行布局,為云廠商帶來高額利潤。據統計,202
23、3 年全球云計算市場中,SaaS 市場貢獻了超過 60%的市場份額,例如國外云廠商的 Google 地圖服務,Microsoft Office 365 協作文檔,國內以阿里云釘釘辦公軟件為代表的辦公軟件等均是當前流行的SaaS 服務,收獲了大批忠實用戶。AI 大模型的井噴式爆發為 SaaS 帶來新的契機,但尚未進入盈利期。其原因主要有兩點:一方面,AI 技術研發成本極高,從算法優化到模型訓練都需要大量資金與人力投入,如購買昂貴的 GPU 設備、聘請頂尖 AI 人才等。另一方面,目前市場處于培育階段,許多 AI SaaS 產品為吸引用戶,采用低價甚至免費策略,如一些智能客服服務提供免費試用期且基
24、礎功能免費,依靠增值服務收費,但增值服務轉化率尚低,導致整體盈利困難,不過隨著技術成熟與市場拓展,未來盈利潛力巨大。1571541231081073734201914020406080100120140160180數據中心網絡數據庫資源管理&QoS保障云存儲OS&分布式系統分離式架構Serverless計算新硬件相關新應用&其他虛擬化技術高水平論文數量近三年企業參與的云計算各領域研究文章數量921131484384136316677050100150202120222023營收(億美元)中國主要云廠商云計算業務營收(億美元)阿里云天翼云華為云漸變色顏色獨占一行的圖,width=1.0linew
25、idth,字號9號微軟雅黑,圖片長度20cm獨占一行的圖,width=0.7linewidth,字號9號微軟雅黑,圖片長度20*0.7約14cm(可根據實際大小微調)圖 1.3:國內主要云廠商云計算業務營收(億美元)在國內云計算市場方面,產品服務競爭激烈、需求多樣化帶來新市場滲透,主要云廠商的業務營收普遍呈現上升趨勢。如圖 1.3,據有關公開資料整理2,阿里云、天翼云、華為云這三家國內云廠商在近三年間的云計算業務營收均呈上升趨勢。阿里云的營收始終保持領先,不過天翼云在 2023 年與阿里云的營收差距有所縮小,而華為云的營收增長相對較為緩慢。國內云服務提供商間的激烈競爭以及針對運營商云的政策傾斜
26、等方面的因素,可能是引起國內市場份額重新調整的主要原因。此外,隨著行業需求的多樣化,以及各大云廠商在市場競爭中不斷優化服務和降低價格,更加促進了客戶的遷移和新客戶的加入。這種價格和服務的優化,使得更多企業愿意將傳統 IT 基礎設施轉向云計算平臺,同時推動了云計算市場的進一步滲透和市場競爭格局的變化。2023全球云計算市場分類占比2023全球IaaS,PaaS及SaaS增速19.9%18.4%61.7%IaaSPaaSSaaSIaaSPaaSSaaS增速1.13x增速1.22x增速1.19x20%18.4%61.6%IaaSPaaSSaaS2023全球云計算市場分類占比57.8%17.6%24.
27、6%IaaSPaaSSaaS2023國內云計算市場分類占比增速1.13x增速1.22x1.19x差距40%圖 1.4:2023 國內云計算三大市場份額占比PaaS 將成為未來云計算行業核心增長動力已是行業共識,但國內 PaaS 市場仍處于起步階段,與全球云計算產業布局存在較大差距。如圖1.4所示,2023年國內云計算市場份額中,IaaS,PaaS和SaaS市場分別占據57.8%,17.6%和 24.6%的市場份額比例 3,4。與同期全球云計算行業市場對比,國內仍處于以“售賣基礎算力原材料”的 IaaS 主導型市場階段,PaaS 市場份額遠遠小于當前 IaaS 市場的體量。一方面是由于國內云計算
28、市場起步較晚,很多國內企業尚未或正在進行數字化轉型。另一方面,國內云計算2部分數據來源于中國信通院云計算白皮書(2024)。4CHAPTER 1.面向下一代云計算的研究服務供應商相較于國際競爭者,在 PaaS 平臺的技術創新、生態建設和行業深度應用方面存在差距。國內的 PaaS 平臺雖然在基礎設施層面逐漸追趕上來,但在平臺的集成能力、可定制化服務和行業解決方案的深度挖掘上,仍缺乏足夠的技術積累和市場經驗。SaaS 市場普遍面臨行業需求定制化和技術整合等挑戰,但 AI 與 SaaS 的深度融合為行業發展帶來了新的機遇。與國際市場相比,國內 SaaS 市場的份額仍然較低,主要原因在于國內 PaaS
29、 平臺能力的不足以及較高的服務資源成本,特別是對于資源有限的中小型 SaaS 企業來說,這一成本壓力制約了其市場拓展和服務普及。然而,這一現狀也為國內 SaaS 行業提供了獨特的機遇。通過借助 AI 技術與 PaaS 平臺的優化,國內 SaaS 企業可以利用更加靈活的開發環境和定制化行業解決方案,降低技術門檻和基礎設施成本,從而提升產品的市場競爭力。通過這些創新,國內 SaaS 市場有望加速發展,逐步接近國際市場水平,釋放出巨大的潛力。1.1.2云計算行業開源組織與事實標準成為“像水和電一樣隨取隨用”的標準化服務,是云計算誕生之初的美好愿景。然而,云計算市場在各大廠商的競爭中呈現出多元化發展的
30、態勢,暫未走向統一標準。與網絡、通信等依賴標準引領的成熟行業不同,新興的云計算行業技術發展主要由開源組織引領,標準化進程相對滯后。在當前階段,云廠商更注重圍繞用戶實際需求展開布局,結合開源社區項目和自研創新,賦能產品并提升影響力,實現差異化競爭優勢。在此進程中,具備前沿技術優勢和廣泛社區影響力的眾多開源項目逐漸成為了云計算行業各個領域的事實標準。相比于網絡與通信領域標準對產業發展和技術產品的引導作用,云計算領域的標準建設起步較晚,產業標準化仍面臨較大難度。網路與通信領域的標準化歷史悠久,其網絡通信的標準化過程相對成熟,諸如 TCP/IP、LTE、5GC 等協議都是經過國際組織(如 IETF、I
31、TU、3GPP 等)廣泛認可和采用的標準。這些標準確保了不同設備和系統之間的互操作性,促進了網絡的普及和發展。相較于網絡通信領域,云計算是一個相對較新的領域,相關標準的建設和發展尚未成熟。一方面,由于技術和市場需求變化迅速,企業更關注產品迭代速度和差異化競爭優勢,不愿過多受制于已有的標準,從而在一定程度上弱化了標準的建設。另一方面,云計算環境通常涉及多種服務模型(如 IaaS、PaaS、SaaS)和部署模型(如公有云、私有云、混合云),云服務提供商在各種應用場景中可能具有不同的側重點和設計目標,導致業務需求相對分散,行業產品標準難以統一。云廠商已意識到統一標準對云產業發展的重要性,當前階段開源
32、社區項目已在部分領域成為了云計算事實標準。當前,云計算各大廠商在技術與產品上展開激烈競爭,市場呈現出多樣化的繁榮格局。但各個云廠商均在各自為戰,缺乏不同云業務間的接口互操作性,用戶面臨云服務商鎖定的問題,跨云遷移的開銷巨大。為了提升自身的影響力,頭部的云服務廠商致力于通過開源社區推廣自身產品的技術路線,從而建立繁榮的云市場生態,而跟隨者也寄希望于兼容上述生態來實現業務市場的擴展。在此過程中,國內外著名的開源社區例如 Apache 軟件基金會、云原生計算基金會(Cloud Native Computing Foundation,CNCF)和開放原子開源基金會成功孵化了諸如 OpenStack、K
33、ubernetes、OpenEuler 等在內的一系列開源項目,目前均已成為云計算領域的核心技術。許多當前革命性的新技術,正是在開源社區中率先被提出并進行驗證,最終成為云計算行業相關領域的事實標準。標準建設與開源社區相結合,二次開發與自研創新相結合,優勢互補,將持續為云計算的發展注入動力。隨著技術的不斷進步和行業需求的變化,開源生態在云計算行業的主導地位將進一步加強。標準化和開源并非對立關系,而是互為補充、相互促進的協同發展模式。開源社區的快速迭代和創新能力,為標準化工作提供了實踐驗證和技術積累;而標準化則為開源技術的規?;瘧锰峁┝丝煽康囊幏吨笇?。在未來,云計算行業將依托開源技術實現更多突破
34、性創新,從容器化、微服務到人工智能和邊緣計算等前沿領域,并通過標準化確保技術的廣泛應用和跨平臺兼容性,打破技術壁壘,解決運營商鎖定等問題,從而成為推動云計算行業健康發展的核心力量,引領新一代信息技術革命,推動產業升級和數字化轉型。1.1.研究圖譜及其產生:云計算產業和技術分析51.1.3頭部云廠商主流產品與優勢分析PaaSIaaSSaaS編程助手智能客服計算服務推薦系統搜索引擎云游戲云考勤管理云合同云渲染地圖服務云會議.云手機存儲服務云電腦彈性云主機彈性GPU彈性裸金屬彈性HPCFPGA對象存儲塊存儲云鏡像網絡服務VPN負載均衡彈性IPCDNVPC云備份壓縮云文檔文件存儲NAT彈性伸縮資源管控
35、服務高可用競價/競享實例.資源約束調度.權限管理資源編排容器平臺SQL數據庫批處理平臺NoSQL數據庫區塊鏈開發平臺物聯網開發平臺DevOps開發平臺API網關服務Web/應用托管Serverless計算平臺可觀測平臺流處理平臺湖倉一體中間件服務工業互聯網多媒體處理平臺數據可視化低代碼開發平臺協作辦公平臺訓練平臺推理平臺標注平臺aPaaSAI PaaS數據庫/數據湖云盤.防火墻堡壘機云財務防火墻云安全合規審計鑒權工作流編排服務云會議加密密鑰管理內容安全容災.DNS云桌面IaaS圖 1.5:主流云計算產品全景圖(由云計算研究院整理形成)目前,各大云廠商對外提供的云服務產品功能基本涵蓋了 IaaS
36、、PaaS 以及 SaaS 的主要涉及領域(如圖 1.5)。不同層次的服務各有特點,具體如下:IaaS 產品服務聚焦提供基礎的計算、存儲、網絡等基礎設施資源,客戶可在此基礎上搭建自己的 IT環境,如 Amazon 的彈性云主機、EBS、VPC、S3 等,是云計算的底層支撐。PaaS 產品服務為開發者提供了開發平臺和軟件運行環境,便于他們更高效地進行應用開發、部署和管理,通常會包含一些中間件、數據庫管理系統等。SaaS 產品服務以軟件應用的形式提供給用戶使用,用戶無需關心軟件的開發、部署和升級維護等問題,只需使用其功能即可,像阿里云的阿里釘釘、云會議等產品就屬于此類。此外,在云基礎設施服務廣泛應
37、用于各行各業的同時,安全問題,特別是在數據存儲、網絡傳輸、身份管理和合規性審查等方面,變得愈加重要。為了保護云環境中的敏感數據和應用,云服務提供商已采取了一系列安全措施來確保平臺的安全性。然而,盡管如此,金融等對數據安全極為敏感的行業,仍面臨著較大的上云難題,數據隱私和合規性的顧慮使得這些行業在遷移至云平臺時顯得尤為謹慎。各大云廠商在不同的云產品服務上均有所專長和側重。比如 Amazon 在基礎設施服務(如彈性云主機、EBS、VPC、S3)上起步早,產品種類多,提供了最廣泛的資源管理服務。Microsoft Azure 在基礎設施服務方面也有競爭力,尤其是在與 Microsoft 系列產品(如
38、 Windows Server、SQL Server)兼容方面做得很好。Google 則在云數據分析以及智能應用框架等方面保持著技術領先優勢。阿里云在國內市場的數據庫上云替換方面擁有較強的實踐經驗,其自研 OceanBase 5,PolarDB 6 等云原生數據庫,具有明顯的技術優勢和市場競爭力。除此以外,阿里云的阿里釘釘、云會議等 SaaS 產品也吸引了不少用戶群體。華為云擁有較強的自主可控能力,其在彈性裸金屬、彈性云主機的產品服務投入較大,具有較高的成本優勢。天翼云在電信運營商基礎設施的優勢下,適合大規模企業和政府客戶,其在 IaaS 和 PaaS 領域已有大量的技術積累,同時 SaaS
39、市場也保持著強有力的競爭力。例如其“桌面即服務”引領國內市場,目前在國內該領域中公有云市場份額排名第一??偟膩碚f,Amazon 在全球范圍內依托其龐大的產品生態體系,占據了國際云計算市場的領導地位;Microsoft Azure 以企業級應用的深度集成為優勢;阿里巴巴云則在中國市場具有強大的本地化優勢;華為云則更多在基礎設施和智能技術方面形成了特色;天翼云的定位則側重于國內運營商市場和行業應用。6CHAPTER 1.面向下一代云計算的研究這些廠商之間的差異,既反映了它們的技術重點,也影響了它們在全球云計算市場的競爭格局。1.2研究洞察:當前云計算的研究熱點和難題在過去的二十年里,云計算產業經歷
40、了快速發展階段。盡管時至今日,全球范圍內的龐大云計算產業鏈已經形成,各大云計算廠商在云產品、云能力的建設方面也積累了大量技術和實踐經驗,但云計算領域仍然存在大量難題制約著云技術的進一步發展。本節通過對云計算領域的研究進行了大量的調研和分析,將現有的熱點研究方向歸結為七個主要方向,并總結了每個方向在當前階段所面臨的主要難題(如下表所示)。舉例來說,數據中心利用率與云服務 QoS 間的矛盾,面向分離式架構的遠端內存訪問延遲等挑戰現階段是企業研究的熱門話題。本節著重分析了近三年業界的主要研究成果,并展望了各個研究方向未來的技術熱點和發展趨勢。研究熱點和難題1.數據中心網絡:如何優化網絡協議與架構以應
41、對大規模流量調度與云服務體驗挑戰?2.數據庫:如何提升存算分離架構下多點寫入沖突和數據庫無狀態設計以及如何高效管理非結構化數據從而以最小的查詢成本服務 AI 等領域?3.云存儲:如何設計元數據服務,以實現高性能、低成本且語義融合特性的海量數據存儲服務?4.資源管理與 QoS 保障:如何解決改善數據中心資源利用率與多租負載間性能干擾的矛盾?5.OS 與分布式系統:如何為 AI 提供高效云平臺基礎能力支持并優化分布式系統中通信開銷?6.分離式數據中心架構:如何解決內存池拉遠導致的負載性能劣化與資源高可用問題?7.Serverless 計算:如何解決函數的長冷啟動時延問題,實現極致快速的函數擴縮容?
42、1.2.1主要研究分布及熱點剖析1571541231081073734201914020406080100120140160180數據中心網絡數據庫資源管理&QoS保障云存儲OS&分布式系統分離式架構Serverless計算新硬件相關新應用&其他虛擬化技術高水平論文數量近三年企業參與的云計算各領域研究文章數量921131484384136316677050100150202120222023營收(億美元)中國主要云廠商云計算業務營收(億美元)阿里云天翼云華為云漸變色顏色獨占一行的圖,width=1.0linewidth,字號9號微軟雅黑,圖片長度20cm獨占一行的圖,width=0.7line
43、width,字號9號微軟雅黑,圖片長度20*0.7約14cm(可根據實際大小微調)圖 1.6:近三年企業參與的云計算熱點研究領域文章發表數量通過調研近 3 年和云計算產業相關的 14 個頂級學術會議(NSDI,ASPLOS,SC,SOSP,VLDB 等)收錄的 3,000 余篇高水平論文(以 CCF-A 類為主),本文從中篩選出近 700 篇云計算領域有企業參與的已發表文章,采用統計的方式進行全面的研究熱點剖析?,F有學術研究聚焦通用計算云和 AI 智能云兩大主體,涵蓋包括數據中心基礎架構、云操作系統、任務調度與編排框架、中間件、應用性能調優等在內的 30 余個具體的研究點。通過進一步的篩選與合
44、并,本文將上述涉及的所有研究單元整理為 10 個基礎研究方向,分別為數據中心網絡、云存儲、數據庫、數據中心資源管理與云服務 QoS 保障、OS 與分布式系統、虛擬化技術、分離式數據中心架構與資源池化、1.2.研究洞察:當前云計算的研究熱點和難題7Serverless 計算技術、新硬件相關應用加速技術以及新興業務場景(見圖 1.6)。其中與“AI+云”相關的文章按照研究主體被分為 AI for Cloud 和 Cloud for AI 兩類。為保持清晰,這兩類文章未單獨列出,而是按照研究內容和涉及的領域歸并到了 10 個基礎研究方向內(注:同一篇文章可能涉及多個方向)。近三年來,數據中心網絡、云
45、存儲、數據庫、分布式系統以及 QoS 保障下的資源管理是主要學術熱點。在參與統計的近 700 余篇學術研究工作中,與這五項相關的研究工作數量占據了整體的 90%以上,其中又以數據中心網絡和數據庫最為突出,兩者在學術論文數量分別為 157 和 154 篇,均超過了整體的 20%。同時,在數據中心內部,存算分離的分離式基礎架構設計(例如 CXL 內存池化)、Serverless 計算也具有相當程度的熱度,兩者總和也占據了全部研究工作的十分之一。此外,還有一些研究工作關注新硬件的設計與應用(例如近數計算,存內計算等硬件),新興業務場景(例如 IoT,低空經濟等)和虛擬化技術。143107635248
46、3320 19 18 1714119020406080100120140160Microsoft阿里巴巴GoogleMeta華為字節AmazonIBMIntelNVIDIA騰訊SamsungVMware頂會論文數量企業研究論文發表數量Top-80%排行20.4%15.2%9.0%7.4%6.8%4.7%2.8%33.6%擁有云計算營收業務的頭部企業研究占比Microsoft阿里巴巴GoogleMeta華為字節Aamzon其他19.1%16.7%28.9%16.1%20.0%18.9%26.7%29.1%20.0%30%22.2%26.4%18.9%22.2%17.8%16.1%24.4%45.
47、2%53.3%15.6%13.3%0%20%40%60%80%100%Microsoft阿里巴巴GoogleMeta華為字節Amazon頭部云計算企業研究熱點側重分離式架構數據中心網絡云存儲OS&虛擬化資源管理&QoS保障數據庫Serverless計算28%33%34%57%63%15%17%20.0%9.2%25.2%35.8%57.4%5.3%5.9%0%20%40%60%80%100%數據中心網絡數據庫云存儲資源管理&QoS保障OS、分布式&虛擬化分離式架構Serverless計算AI在熱點領域的驅動力占比AI for CloudCloud for AI占半行的圖,width=0.48l
48、inewidth,字號9號微軟雅黑,圖片長度20*0.65約12cm(a)近三年頭部企業研究數量分布(從高到低排序)1431076352483320 19 18 1714119020406080100120140160Microsoft阿里巴巴GoogleMeta華為字節AamzonIBMIntelNVIDIA騰訊SamsungVMware頂會論文數量企業研究論文發表數量Top-80%排行20.4%15.2%9.0%7.4%6.8%4.7%2.8%33.6%擁有云計算營收業務的頭部企業研究占比Microsoft阿里巴巴GoogleMeta華為字節Amazon其他19.1%16.7%28.9%1
49、6.1%20.0%18.9%26.7%29.1%20.0%30%22.2%26.4%18.9%22.2%17.8%16.1%24.4%45.2%53.3%15.6%13.3%0%20%40%60%80%100%Microsoft阿里巴巴GoogleMeta華為字節Amazon頭部云計算企業研究熱點側重分離式架構數據中心網絡云存儲OS&虛擬化資源管理&QoS保障數據庫Serverless計算28%33%34%57%63%15%17%20.0%9.2%25.2%35.8%57.4%5.3%5.9%0%20%40%60%80%100%數據中心網絡數據庫云存儲資源管理&QoS保障OS、分布式&虛擬化分
50、離式架構Serverless計算AI在熱點領域的驅動力占比AI for CloudCloud for AI占半行的圖,width=0.48linewidth,字號9號微軟雅黑,圖片長度20*0.65約12cm(b)近三年頭部企業研究數量占總體比例分布圖 1.7:近三年頭部企業在研究成果的影響力分布企業在學術研究領域話語權逐年攀升,大約三分之一的近三年學術成果背后都有企業參與,且大部分以國外廠商為主。在參與統計的近 700 篇學術論文中,參與的企業數量超過 100 個。如圖 1.7(a)所示3,本章僅將發文數量靠前的 13 家企業進行了展示,這些企業的發文量占據了所有企業總和的 80%以上。具體
51、地,包括一些擁有大量公有云計算業務的廠商例如 Microsoft,阿里巴巴,Google,華為,Amazon 等,也包括以互聯網業務和私有云數據中心建設為主體的 Meta,字節跳動,騰訊等企業,此外還包括一些大型的服務器提供商、硬件廠商和虛擬化廠商例如 IBM,Intel,Nvidia,Samsung 和 VMware。其中,上述這些企業又以國外為主,國內廠商僅有 4 家在列(占三分之一)(圖 1.7(b))。在頭部的 13 家企業中,學術研究成果的分布又呈現出明顯的“分布傾斜”現象。其中,Microsoft 和阿里巴巴的發文量分別達到總量的 20.4%和 15.2%,以超過 100 篇的研究
52、成果穩居第一梯隊。值得注意的是,這兩家企業的學術產出主要來自其專門的研究機構(如 Microsoft research、達摩院和螞蟻研究院),這也凸顯了其對科研創新的重視以及近年來持續不斷的科研投入所帶來的顯著成效。第二梯隊由 Google、Meta 和華為構成,三家企業的發文量合計占比超過 20%,這與它們在云計算基礎設施和前沿技術探索方面的深厚積累密切相關。第三梯隊則由字節跳動、Amazon、IBM,這里不再逐一介紹,但有兩家企業值得注意:新興科技公司字節跳動憑借其對技術創新的熱忱,近年來在學術界逐漸嶄露頭角;全球云計算市場的領導者 Amazon 早期在云計算領域發表了大量具有影響力的學術
53、論文 7,近年來將人工智能技術確立為下一階段的增長重點,盡管系統類論文發表數量雖有所降低,但其依舊保持著卓越的技術影響力,其現網產品和解決方案仍被大量引用。為進一步了解各大頭部企業在云計算領域的研究投入,本文統計了各家企業在各研究領域的發文數3數據說明:統計近三年各個企業發表的文章中,歸屬于前 7 個熱點研究方向的占比(同一篇文章可能涵蓋多個方向)。這 7 個頭部企業共參與發表了 400 篇左右的文章,大約占所有企業的 2/3。8CHAPTER 1.面向下一代云計算的研究1431076352483320 19 18 1714119020406080100120140160Microsoft阿里
54、巴巴GoogleMeta華為字節AamzonIBMIntelNVIDIA騰訊SamsungVMware頂會論文數量企業研究論文發表數量Top-80%排行20.4%15.2%9.0%7.4%6.8%4.7%2.8%33.6%擁有云計算營收業務的頭部企業研究占比Microsoft阿里巴巴GoogleMeta華為字節Aamzon其他19.1%16.7%28.9%16.1%20.0%18.9%26.7%29.1%20.0%30%22.2%26.4%18.9%22.2%17.8%16.1%24.4%45.2%53.3%15.6%13.3%0%20%40%60%80%100%Microsoft阿里巴巴Go
55、ogleMeta華為字節Amazon頭部云計算企業研究熱點側重數據中心網絡 云存儲分離式架構資源管理&QoS保障28%33%34%57%63%15%17%20.0%9.2%25.2%35.8%57.4%5.3%5.9%0%20%40%60%80%100%數據中心網絡數據庫云存儲資源管理&QoS保障OS、分布式&虛擬化分離式架構Serverless計算AI在熱點領域的驅動力占比AI for CloudCloud for AI占半行的圖,width=0.48linewidth,字號9號微軟雅黑,圖片長度20*0.65約12cmServerless計算OS&虛擬化數據庫圖 1.8:近三年主要企業在云
56、計算各熱點研究領域的投入側重量在其總發文量中的占比。為了提高可讀性,本節根據研究熱點所在的層級和技術相似度,將 OS、分布式系統與虛擬化 3 個方向的研究成果進一步合并,而新硬件和新興領域其他雜項由于較低的相關性或缺乏短期盈利能力,暫不考慮在內。發文量排名前 7 的頭部企業幾乎在各個熱點研究領域均有布局和投入。如圖 1.8所示,頭部企業從經典的數據中心網絡,存儲,數據庫,虛擬化以及能效管理等領域,到新興的 Serverless 計算業務以及以CXL 內存池化等為代表的分離式架構都有研究涉獵。例如,數據中心網絡向來是云廠商所關注和重點布局的方向,尤其是近年來 RDMA、智能網卡、DPU 等新技術
57、又持續不斷地增強了數據中心的網絡能力。在云存儲以及 OS 與虛擬化方面,阿里巴巴,Google 和 Meta 均有接近或超過 15%的自身研究投入占比。而在數據庫方面,除了 Amazon,其余 6 家企業均在自身研究布局中有接近 20%的投入,這也反映了當前數據量飛速增長的時代下對數據查詢對于業務能力提升的重要性,特別是以 AIGC,大模型訓練等為代表的業務場景更是增加了對大規模數據檢索在穩定性,可靠性和響應性能方面的要求。圖 1.9:研究熱點詞云通過進一步的分析,本文將各個研究領域成果所涉及的技術點關鍵詞進行了統計。如圖 1.9所示。例如在數據庫和存儲領域,數據庫基于分離式架構 8、多主架構
58、 9,10 和智能服務 11 提供了云原生 Serverless 可擴展的數據庫服務,并面向 AI場景基于向量檢索 12 提供非結構化數據的加速檢索服務。云存儲方面,為支撐新興的大規模智算和海量存儲需求,利用全閃/混閃架構和新型的高速、高密度存儲介質(如 ZNS/Open-channel 閃存、疊瓦式存儲等)13,14,15,輔以軟件層面優化(重刪壓縮、負載均衡、元數據擴展等)16,17,18,19,實現更大規模、更高性能、更低成本的存儲服務。在 Serverless 計算領域,主要通過鏡像壓縮、快照、代碼裁剪等技術實現函數實例的冷啟動加速 20,21,22,23,24,25,26,27,而沙
59、箱共享,復用等機制則廣泛用于函數的工作流編排優化 28,29,30,31,32,用于降低函數運行時資源占用和通信開銷。在采用RDMA 33、CXL 34 等技術實現的分離式內存池化架構中,針對云負載的冷熱分層動態 Profiling 35,36,頁表地址翻譯 37,38 等關鍵技術被反復提及。表 1.2具體列出了全球頭部云廠商在重點關注的 7 大熱門研究領域中的主要代表性成果,研究分類以及所發表的國際會議名稱。1.2.研究洞察:當前云計算的研究熱點和難題9表 1.2:頭部企業重點關注的七大熱門研究領域研究點研究方向概述會議研究主要關注點與代表性工作數據中心網絡網絡是連接數據中心內計算、存儲等資
60、源的關鍵核心組件,頭部云廠商長期對此重點投入研究。SIGCOMMNSDIEuroSys 網絡架構:阿里、Google 等持續探索創新網絡架構,優化網絡密集型應用的調度策略和運行效率 39,40;流量調度:騰訊云等通過零排隊的擁塞控制和可編程調度以提升用戶體驗 41,42;網絡協議:阿里、Meta 等利用 DCTCP 和 QUIC 等新型協議以優化網絡傳輸 43,44。數據庫云 數 據 庫 廠 商 主 要 基于 三 層 池 化 架 構 探 索Serverless 化、多主可拓展的云原生數據庫架構,同時在湖倉一體、數據庫智能化、向量檢索、數智融合等方面重點研究。SIGMODPVLDBICDECID
61、REDBT 池化&多主:阿里云基于三層池化架構構建 Serverless 化的云原生數據庫 8,阿里云 10 和華為云 9 都在探索存算分離平臺下支持多寫多讀的分布式數據庫架構;湖倉一體:Databricks 在 Spark 基礎上提出了 Delta Lake 45 的技術,讓數據湖生態支持事務和范式約束能力,進一步引領湖倉一體 46 技術體系;向量檢索:Zilliz 推出云原生的向量數據庫 Miivus 12 加速 AI 場景相似性檢索的效率,Zilliz 目前在向量數據庫賽道第一;數智融合:華為 GaussDB 11 積極布局數據庫庫內智能計算的能力。云存儲作為云計算的核心組成部分,云上數
62、據存儲朝著高可擴展性、低成本、高性能、穩定可靠、易用安全的方向加速變革。FASTSCEuroSys 底層硬件:阿里、IBM 等云廠商利用高速閃存和高密度存儲介質在提升存儲系統性能的同時持續降低成本 15,47;存儲平臺:華為、百度、Whamcloud 等企業針對數據去重、緩存協議、元數據管理等關鍵技術上持續進行智能化與動態化的探索 18,48,49;使用場景:華為等企業針對大模型場景,研究新型分布式 KVCache 存儲系統 50。資源管理與QoS保障數據中心研究主要集中在改善資源利用率、優化和保障云服務的 QoS 等方面。近年來,諸如 GPU應用加速、異構算力管理,綠色低碳也是新興研究熱點。
63、ASPLOSOSDIEuroSysSoCCNSDI 云原生&自動化運維&節能:阿里云結合靜態策略和運行時調整技術構建低成本、快速響應的日志存儲系統 51;字節跳動針對內部的大規模 Spark 集群進行負載分析,優化資源分配 52;Meta 利用機器學習算法分析業務特征,優化數據中心能耗管理 53;應用加速&異構資源管理:Intel 利用智能網卡減少數據中心跨節點的數據 IO 傳輸和內存占用開銷 54;Microsoft 面向多階段 GPU 推理服務的 QoS 保障資源管理 55;SLO 保障&負載聚合及擴縮容:阿里云針對大規模集群的負載聚合策略研究 56;Google 構建應用感知的自動擴縮容
64、機制,以改善微服務的 QoS 與資源分配 57。OS 與分布式系統OS 與分布式系統的研究目前廣泛聚焦于內存管理、大語言模型服務、分布式通信及云原生技術,以提升系統性能、響應速度和資源利用效率。OSDISOSPATCASPLOSEuroSys 大規模云數據中心內存資源管理:Google、Meta 在其數據中心集群內存分級技術,降低數據密集型負載的存儲成本,同時提升數據中心內存資源利用率 35,36,58;分布式應用通信加速:阿里云、天翼云分別提出采用 CXL 共享內存實現分布式服務間RPC 加速 59 和 Socket 通信加速 60;大語言模型服務優化:阿里通過在多個模型推理服務實例之間遷移
65、任務來獲得更好的負載均衡 61;Microsoft 在 LLM 服務請求的預填充階段引入分塊,實現調度加速 62。分離式架構傳統計算與存儲的分離架構逐漸出現資源利用不均、彈性粒度不足等問題。分離式架構將“內存池”進行獨立資源管理優化,以提升資源利用率,解決資源匹配和分配不均問題。OSDISOSPASPLOSEuroSysNSDI CXL 內存池系統:Microsoft 和 Intel 利用 CXL 高速互聯總線技術進行內存池化場景下的多租資源分配,以提升內存資源使用率,并減少內存性能劣化 34,63;RDMA 遠程鍵值內存池系統:華為云解決現有內存分離架構中鍵值存儲系統的索引問題,提升該架構下
66、存儲系統性能 64,65;內存池高可用:阿里和 Google 分別研究現有 RDMA、CXL 內存池架構中的高可用問題,減少分離式架構帶來的爆炸半徑擴大影響 66,67;分離式語言運行時:華為提出在分離式架構下支撐數據密集型系統的分布式運行時,該運行時可使得用戶不必感知分離式場景下的數據布局以及底層硬件的狀態 68。服務器無感知計算Serverless 計算是新興的云計算編程范式,研究熱點目前主要集中在優化冷啟動時延、加速函數間通信、提高業務場景適配性以及優化函數運行時性能及安全性等方面。OSDIASPLOSEuroSysATCSC 函數編排調度優化:阿里云性能感知的函數資源調度 69,華為云
67、基于機器學習方法預測虛擬機內多實例混部下的性能干擾,提高函數部署密度;冷啟動優化:Amazon 基于鏡像分塊和分層緩存實現按需加載的容器冷啟動優化 70;應用適配與移植:IBM 基于 Serverless 構建彈性存儲服務,降查詢成本 71;Meta 在邊緣利用 Serverless 實現流處理應用的部署和服務成本優化 72;華為云利用普通函數和非對稱函數結合的方式實現函數推理加速 73;Trace 分析:華為分析商用 Serverless 集群的負載特征,為業界提供研究方向 74。10CHAPTER 1.面向下一代云計算的研究1.2.2智能技術與云計算相結合1431076352483320
68、19 18 1714119020406080100120140160Microsoft阿里巴巴GoogleMeta華為字節AamzonIBMIntelNVIDIA騰訊SamsungVMware頂會論文數量企業研究論文發表數量Top-80%排行20.4%15.2%9.0%7.4%6.8%4.7%2.8%33.6%擁有云計算營收業務的頭部企業研究占比Microsoft阿里巴巴GoogleMeta華為字節Aamzon其他19.1%16.7%28.9%16.1%20.0%16.7%26.7%29.1%20.0%30%22.2%26.4%18.9%22.2%17.8%16.1%24.4%45.2%53.
69、3%15.6%13.3%0%20%40%60%80%100%Microsoft阿里巴巴GoogleMeta華為字節Amazon頭部云計算企業研究熱點側重分離式架構數據中心網絡云存儲OS&虛擬化資源管理&QoS保障數據庫Serverless計算28%33%34%57%63%15%17%20.0%9.2%25.2%35.8%57.4%5.3%5.9%0%20%40%60%80%100%數據中心網絡數據庫云存儲資源管理&QoS保障OS、分布式&虛擬化分離式架構Serverless計算AI在熱點領域的驅動力占比AI for CloudCloud for AI占半行的圖,width=0.48linewi
70、dth,字號9號微軟雅黑,圖片長度20*0.65約12cm(a)近三年企業參與研究成果與 AI 結合比重Model as a Service(模型部署&推理)Data as a Service(數據訪問、流動)其他(訓練/分析.)智能化云服務資源管理、服務編排、QoS(計算、存儲、網絡.)云基礎設施數據供應、模型推理資源優化配置智能化基礎設施支持(b)智能技術與云計算的關系示意圖 1.10:智能技術與云計算相輔相成對云計算領域近三年的研究分析表明,智能技術與云計算的結合度顯著提升,當前研究以智能技術賦能云計算為主,而云支撐智能技術的研究仍在不斷深化。根據 AI 所扮演的角色,圖 1.10(a)
71、中展示了各個研究領域中 AI 參與的研究工作占比??梢钥吹?,利用 AI 算法優化資源分配,進行智能化決策和應用性能加速已經得到了相對廣泛的應用,在整體研究中占比接近三分之一,在部分領域甚至占比超過了 50%(該部分詳細內容請見本文第三章)。而在面向 AI 的系統或平臺優化設計方面,現有的研究工作占比則相對較低(平均低于 20%)。在一些較為新興的研究領域中,例如分離式架構和 Serverless 計算的研究內容與 AI 的結合度更低,在未來還有很大的探索空間。前沿研究指出,智能化的前提是數據先行(Data First)75,數據是智能化的核心驅動力,而云則是支撐數據高效流轉的關鍵底座。隨著智能
72、化浪潮的興起,云計算面臨著前所未有的挑戰與機遇,不僅需要提供強大的計算能力和存儲資源,還需通過數據流通、服務交付等功能,成為智能化應用落地的核心支柱。尤其是在近年來,基于云計算的“數據即服務(Data as a Service,DaaS)”和“模型即服務(Modelas a Service,MaaS)”等創新服務模式,進一步推動了智能技術與云計算的深度融合,為智能化發展開辟了更多可能性。圖 1.10(b)展示了智能化云服務與云基礎設施間相輔相成,互相成就的關系。具體來說,在智能云時代,智能技術與云計算的結合主要體現在以下兩個方面:(1)AI 驅動下一代云從上層服務到底層設施的智能化變革AI 技
73、術在多領域推動云服務智能化革新,讓傳統云服務更簡單易用。在云游戲、云視頻和云教育等領域,通過大模型生成文本和圖像的技術,實現了更低延遲的實時服務和更智能化的交互反饋,給用戶帶來了前所未有的沉浸式體驗。而對于數據庫等傳統上需要專業技能操作的云服務,利用 Text-to-SQL 76技術,用戶只需簡單的交互即可實現高效查詢與自動優化,使得云服務更加“觸手可及”77,78。AI 技術為數據中心資源管理提供新解法,實現數據中心多維降本增效。由于云的負載多樣性和規模龐大,數據中心內的海量資源管理是個長期存在的難題。過去,云服務提供商主要依賴于啟發式算法和專家規則,而 AI 技術的引入則提供了新的解決方案
74、。目前,如多層感知機、梯度提升機、決策樹等機器學習算法已經在用戶負載預測、數據布局優化和異構資源管理方面取得了顯著成效,成功提高了數據中心的資源利用率并降低了能源消耗和硬件成本 79,80。AI 技術在云基礎設施方面已初步應用,展現出構建智能基礎設施的巨大潛力。盡管底層硬件管理難度較高,但 AI 技術在云上的計算、存儲和網絡等方面已得到了初步探索,諸如學習型索引 81 和學習型緩存等智能算法已經在數據中心上得到了部分應用。AI 技術在實現更高效的內存管理、更智能的緩存協議、更簡潔的數據格式和更穩定的互聯網絡等方面已展現了巨大的潛力 82,83。1.3.下一代電信云的展望和發展建議11(2)云技
75、術助推大模型多維突破創新云服務廠商加速構建超大規模智算中心,助力基礎模型持續創新。為支持人工智能研究中的“Scalinglaws”,云廠商需要提供強大的計算資源并進行持續的技術創新和優化,以適應大規模 AI 模型的需求。在構建具備 TB 級網絡吞吐、百萬級存儲 IO 及互聯萬卡集群的基礎設施時,云廠商在多維混合并行、大模型檢查點支持與訓練能耗感知等方面深入開展技術創新,朝著構建高可擴展、高速度、低能耗的下一代智算中心持續演進,以保障大規模模型訓練的高效性與穩定性 84,85。云基礎設施聚焦聯合海量異構硬件能力,實現軟硬件協同優化,釋放云上智算潛力。在各類智算硬件和新型加速器涌現的同時,如何充分
76、發揮硬件潛力以助力云上訓練,也是云廠商關心的問題。針對模型訓練與推理場景,從數據中心異構 GPU 管理、AI 加速器與智能網卡應用、分布式 KVCache 管理、分布式通信壓縮到算子編譯框架設計等展開一系列軟硬件協同優化,旨在精準提升硬件利用率,充分釋放云上智算潛力 50,86。云新型架構拓展人工智能應用場景邊界,構建云邊端一體架構,促進多領域融合落地。在萬物互聯的背景下,云廠商成為推動智能技術應用場景廣泛覆蓋與垂直發展的關鍵力量。目前,云廠商在提供云側豐富算力資源的基礎上,還持續挖掘邊緣算力和端側設備的潛力,如利用聯邦學習技術將數據預處理及推理任務下放邊緣與端側。目前,實現數據在云邊端的高效
77、流轉與協同處理,構建多元、無感知且安全隱私的云邊端一體計算架構,是推動 AI 技術與智能交通、工業制造、遠程醫療等多領域深度融合廣泛落地的重要走向 87,88。1.3下一代電信云的展望和發展建議技術萌芽期期望膨脹期沉淀低谷期逐漸成熟期生產應用期時間期望值技術萌芽期期望膨脹期沉淀低谷期逐漸成熟期生產應用期時間期望值云計算技術云服務模式微服務QoS保障向量數據庫超級以太Function as a Service機密計算LakeHouse非易失性內存Model as a ServiceDatabase as a Service多主云數據庫分布式存儲UB容災存內計算UALinkServerless推理
78、Storage4AI數據中心負載混部量子計算DPU互聯UnikernelCXL智能運維Data CloudAI-Native數據庫分布式數據庫綠色數據中心在網計算新型閃存圖 1.11:云計算研究圖譜技術成熟度曲線 2024技術發展的規律性研究一直是學術界關注的重點。其中,Gartner 公司提出的技術成熟度曲線(HypeCycle)作為分析新興技術發展軌跡的重要工具,在全球范圍內獲得廣泛認可。該曲線通過“技術萌芽期 期望膨脹期 沉淀低谷期 逐漸成熟期 生產應用期”五個階段,形象地刻畫了新技術從出現到最終成熟的完整過程。在這些階段中,技術的期望值是定性和相對的。在技術萌芽期和期望膨脹期,期望值是
79、相對較高的,通常表現為過度的樂觀預期,而在沉淀低谷期,期望值則顯著下降,顯示出對技術的失望。這些期望值是通過市場反應、媒體報道和投資者關注等因素進行感知和推測,因而呈現出定性的變化趨勢?;?Gartner 成熟度曲線的分析方法,本節也構建了云計算技術領域的成熟度曲線(如圖1.11所示)。與傳統 Gartner 曲線不同,本文重點關注云計算生態系統中的近 30 項關鍵技術,從而幫助讀者對當前云計算技術的發展現狀與演進趨勢形成相對清晰的認識,為有關領域研究與投資提供決策依據。12CHAPTER 1.面向下一代云計算的研究1.3.1未來云計算技術趨勢與服務模式展望自適應、自學習、自調優的智能化技術
80、將助力構建意圖驅動的云服務模式,實現黑盒化的云上應用降本增效。云服務的復雜部署、使用與管理是限制用戶業務上云的一大障礙。但通過大模型的自然語言理解技術,用戶意圖可高效解析,消除上云的心智和管理負擔。此外,智能資源管理與黑盒調優技術,還有望在無用戶干預的情況下實現云服務的自動降本增效。目前,實現智能化云服務模式是云廠商進一步開拓市場的重要機遇。以Function-as-a-Service(FaaS)為代表的XaaS將成為未來云服務模式的主流。近年來新興的Server-less 計算極大地簡化了云應用開發的編程方式,其高度彈性的細粒度資源供給方式和按需付費模式也為傳統的云計算服務模型(例如 Iaa
81、S 和 PaaS)帶來變革,目前已在大量業務場景中得到了廣泛應用。未來,諸如 MaaS,Database-as-a-Service(DBaaS)在內的云產品 Serverless 化將變得更加開放和多樣化,不同云服務模型間的邊界也越來越小,云用戶對于更加高效靈活的云資源使用模式和高度透明的 QoS 保障能力的迫切需求也將推動 XaaS 在云計算市場中占據重要位置。新一代數據中心的架構持續演進,例如基于 DPU 的高效靈活架構、資源池化的分離式計算架構等。分離式計算架構通過實現計算、存儲、網絡等資源的解耦與按需重組,不僅能夠支持各類資源的獨立擴展與按需分配,還能憑借高速互聯總線技術實現大規模異構
82、資源的互聯互通,優化數據密集型等工作負載性能,減少資源閑置。除以此外,分離式數據中心架構還能為大模型訓練等新興應用場景提供更高效的基礎設施支持,可更好適應未來數據中心對敏捷部署、智能調度和性能優化等多樣化需求。1.3.2云計算未來發展建議推動數據先行,建立數據采集和數據管理的體系化方案,為研究、開發和運營(RDO)鋪設橋梁。高質量、規?;臄祿情_展智能技術研究的前提,也是智能技術應用落地的必要條件?;A研究需要使用數據,而數據采集通常在應用運營環節,數據管理則可以看作系統開發的一部分。集團層面體系化的數據采集和數據管理方案將成為連接研究、開發、運營的橋梁。數據在研究、開發、運營各個環節的無縫
83、流轉將催化智能技術的快速迭代,最大化發揮智能技術在云計算中的潛力。促進智能技術與云技術深度融合,構建內生智能和智算原生的下一代云服務。在當前的智能時代,云服務不僅需要引入智能技術進一步變革,也需要為智能技術做好基礎支撐:一方面,推進智能技術(如意圖理解、負載預測、資源調優等)在數據中心的廣泛落地與賦能,實現自治管理、資源優化的內生智能云服務;另一方面,針對智算應用的新興需求(如 KVcache 管理、檢查點存儲、GPU 直通等),實現智算原生的云服務,助力智能技術進一步發展。未來持續增加對 PaaS 層的投入,在通用計算領域和垂直領域產品 Serverless 化同時發力。在當前國內 IaaS
84、 市場已近飽和的形勢下,PaaS 層的產品能力將更能體現云服務商在云資源供給,云服務編排能力等方面的技術成熟度,也是突破增長瓶頸進一步提高資源收益率的良好契機。借助當前火熱的大模型業務需求和云服務 Serverless 化趨勢,通過構建以 MaaS 為代表的面向垂直領域深度優化的 PaaS 產品,同時與通用 Serverless 計算產品相結合,實現云服務商從以“售賣資源”為主體到以“售賣服務能力和解決方案”為主體的轉變。積極探索底層架構的技術創新,引領下一代云計算關鍵技術的發展與變革。例如探索基于 DPU 的數據中心架構、支持內存池化的分離式架構等。分離式架構的創新實踐主要體現在三個方面:一
85、是建設基于新型高速總線技術(如 CXL,UB 等)的分離式內存池,解決資源池高可用、內存拉遠導致的性能劣化等關鍵問題;二是推進現有數據庫、大數據等平臺軟件實現內存池化的改造適配,加速分布式應用的性能優化;三是探索向用戶提供內存即服務等新型云產品服務模式。這些探索不僅能為用戶提供更靈活的資源供給方式、更優的性能體驗和更低的使用成本,還將為云計算基礎設施的演進開辟新的技術路徑。第 二 章圍繞云計算的云網融合研究云網一體化調度.云網融合算力網絡平臺.網絡云化云計算及算力新一代信息通信人工智能量子安全大數據數字化平臺圖 2.1:本章主要討論云網融合的三項技術以 2020 年 11 月發布的 云網融合
86、2030 技術白皮書 為標志89,中國電信一直致力于在研究、開發、運營的各個層面上協同推進云網融合戰略的發展和落地,云計算研究院作為中國電信內部的學術研究機構,主要承接圍繞云計算的云網融合研究。本章以第一章的研究探討為基礎,同時基于對云網融合 2030 技術白皮書中愿景架構圖等內容的理解,探討云網融合相關的研究話題。云網融合的研究重要且宏大,如圖2.1所示,七大戰新領域緊密圍繞在云網融合核心戰略周邊,各自承接相應的研究工作。云計算研究院聚焦在云計算及算力領域承接的云網融合研究,同時也在力所能及的范圍內對云網融合核心研究做一定貢獻。本章主要圍繞三項技術展開討論:在云網融合核心研究中,基于云計算研
87、究院團隊過往的研究積累,主要探討一個需要長期研究投入的技術難題,即如何實現最優的云網一體化調度,以此作為云計算研究院參與云網融合核心研究的一點貢獻。在云計算及算力領域,本文探討兩項與云計算密切相關的重要技術:算力網絡平臺和網絡云化。云網基礎設施網絡云化虛擬網元OSS/BSS智算加速業務網絡Scale Out計算節點NICCPUGPU計算節點NICCPUGPU.計算節點NICCPUGPU計算節點NICCPUGPU.Scale UpScale Up新架構新協議新運維算力交易算力交易算力度量算力度量算力供給方云服務商電信運營商DC運營商超算中心算力運營方中小企業閑置算力算力消費方互聯網廠商行業生產單
88、位政府部門科研機構個人算力服務平臺算力服務平臺分成分成/付費付費資源提供資源提供付費付費產品產品/服務提供服務提供算力推薦算力推薦隱私計算隱私計算算力服務云網一體化調度云站點A云站點B云站點C云站點D“軟管模型”建模示例物理鏈路服務鏈路運營商網絡算法優化動態策略最優算法抽象建模資源參數化鏈路編排云計算算力網絡平臺理論分析與算法設計虛擬網元云原生化高可靠虛擬網元網絡加速服務編排智能運維新網元新場景新方案圖 2.2:研究圖譜:云計算和云網融合三項技術的架構關系(云網一體化調度、算力網絡平臺和網絡云化)14CHAPTER 2.圍繞云計算的云網融合研究本章內容的組織方式與第一章類似,2.1節介紹云計算
89、與云網融合三項技術組成的研究圖譜,以及相關的產業和技術分析,2.2節圍繞三項技術討論研究熱點和研究難題,2.3節提出展望和建議。2.1研究圖譜及其產生:云網融合產業和技術分析為便于直觀理解云網融合的三項技術與第一章云計算研究的關系,圖 2.2以架構圖的形式把圖 1.1和上述三項技術做了關聯。其中,云網一體化調度作為云網融合的一個關鍵技術難題放在中間位置;算力網絡平臺則涵蓋了上方的算力服務,中間的調度,以及云計算研究本身也涵蓋的智算加速(見第 1.2.2小節);網絡云化則作為云計算的一個業務需求放在上方。本節的后續內容圍繞云網融合三項技術,分別介紹云網融合的基本概念和發展現狀、國內外行業標準,以
90、及國內外產業進展。2.1.1基本概念和發展現狀本小節介紹云網融合的基本概念和發展現狀,基于本章開篇對內容范疇的討論,本小節圍繞云網融合的三項技術,分別介紹每項技術的基本概念和發展現狀。NAT防火墻編解碼SidecarSidecarSidecar實例實例實例控制面控制面SFCService Mesh優化算法調度層云網一體化調度鏈路編排動態策略云站點A云站點B運營商網絡圖 2.3:云網一體化調度應用示例云網一體化調度的理論難點是最優調度與計算復雜度的彈性平衡。云網一體化調度作為云網融合的核心能力之一,可以將云計算資源與網絡資源進行高效整合和統一調度,以實現云網資源對上層業務的一體化支撐。在進行基礎
91、理論研究時,可以通過“軟管模型(hose-based model)”90 對調度問題進行抽象簡化,該模型為每個站點賦予一個“軟管”,表示總帶寬需求。通過動態調整流量,避免單獨規劃帶寬,實現靈活調度。然而,求解此模型通常為 NP-Hard 問題,導致在大規模系統中獲取精確解幾乎不可行,通常只能得到近似解。云網一體化調度技術關鍵理論難題是依據實際業務動態需求,在調度最優解與計算復雜度間尋求彈性平衡。調度算法的理論分析通常包括抽象建模、資源參數化、最優算法、算法優化、彈性鏈路編排和動態策略六個步驟,以實現云網資源的跨域協同調度。由于全局最優調度方案的復雜性,常采用次優解和近似算法,以降低計算復雜度并
92、在合理時間內提供接近最優的解決方案。根據現有研究文獻 91,92,某些特定問題的近似比率可達到 2-近似來實現在多項式時間內找到一個接近最優解的解,在實際應用中,近似結果的誤差范圍可能會因具體問題而異。另一類解決方案為基于 AI 算法,盡管這類算法可以通過對復雜模式的識別來加速尋求最優解 93,94,該類算法方案在應用時缺乏可解釋性,在遇到異常情況時,使得問題排查和修正變得更加困難,影響運營效率。此外,云網一體化調度還面臨系統層面挑戰:如圖 2.3展示了云網一體化調度應用部署的一種示例;與傳統的服務功能鏈(Service2.1.研究圖譜及其產生:云網融合產業和技術分析15Function Ch
93、ain,SFC)和服務網格(Service Mesh)框架相比,云網一體化調度應用部署更注重跨域聯動協同。關鍵挑戰包括動態性和復雜性管理、負載均衡策略制定、數據一致性等。算力網絡是云網融合關鍵技術路徑,智算引領算力網絡煥發活力。云網融合的愿景目標是通過實施虛擬化、云化和服務化,形成一體化的融合技術架構,最終實現簡潔、敏捷、開放、融合、安全、智能的新型信息基礎設施的資源供給。算力網絡作為這一愿景的關鍵技術路徑,支撐了云網融合從云內、云間到入云的各個階段,不斷推進和深化云網融合的服務能力。算力網絡結合網絡信息和用戶業務需求,提供計算、存儲、網絡等資源的分發、關聯、交易與調配能力,實現全網整體算力資
94、源的優化配置和使用。因數字化轉型與經濟發展、算力資源分布不均與供求失衡、新興應用對算力的爆發性需求三大因素驅動,算力網絡自提出以來一直熱度不減。中國電信在 ITU-T Y.2501 中提出了算力網絡的概念與架構,涵蓋的關鍵技術主要包括算力度量、算力感知、算力路由、算力交易、算力推薦及隱私計算等。圖 2.4:智算集群網絡架構AI大模型引領算力網絡煥發活力(NetworkforAI),AI 大模型 scaling law 帶來的爆發式算力增長需求使得算力網絡成為提升算效的重要解決方案。然而 AI 大模型訓練/推理等工作需要在大量的計算單位中傳遞海量數據,對算力網絡提出了新需求:具備超大規模、超低時
95、延、超大帶寬、超高可靠等關鍵特征。當前產業界圍繞智算集群的技術攻關方向主要還是以集群內部為主。當前集群內,圍繞著 GPU 存在三大互連,分別是業務網絡互連、橫向擴展(ScaleOut)網絡互連、橫向擴展(Scale Up)網絡互連,如圖2.4所示,它們分別承載了不同的職責:跨業務、集群內、超級點 GPU 之間連通性。根據智算對網絡的新要求,其涵蓋的技術點聚焦在新興網絡拓撲、高性能無損網絡技術、集合通信算法優化、分布式協同訓練與推理、故障感知與恢復等。網絡云化是網絡的發展方向,需要云能夠滿足網絡的特殊需求。隨著新技術和應用的不斷創新,網絡從傳統封閉剛性向更加開放靈活的方向發展。網絡功能從以硬件為
96、主體的架構向以軟件為主體的架構演進,旨在實現彈性資源分配、敏捷靈活組網、自動智能運行等目標。網絡功能虛擬化(NFV)技術的發展實現了軟硬件的解耦,重新定義了通信網絡的開發、部署、運營模式。當前階段,如何利用云計算技術的先進性、云資源的彈性能力進一步為網絡賦能,已經成為研究的熱點,也是云網融合的關鍵問題之一。網絡云化主要關注網絡功能云化和云基礎設施承載兩部分。在網絡功能云化方面,通過引入微服務、Serverless 等服務化架構和編程范式,使網絡功能更加開放解耦,在應用層實現靈活可擴展;通過引入持續集成/持續部署(CI/CD)等敏捷服務開發范式,縮短服務的開發周期。在云基礎設施承載方面,網絡功能
97、因其復雜性和定制化需求,對云提出了更高要求。包括:增強網絡能力,實現低時延大容量網絡處理;提供更加可靠的基礎設施能力,滿足網絡功能高可靠運行要求;實現跨域多專業網絡功能的統一編排與管理,滿足網絡功能多樣化部署需求;建立自主、可控、可信的網絡云安全防護體系,提供與傳統物理網元等效、甚至更高的安全運行環境等。2.1.2國內外行業標準相比目前云計算中行業標準的相對輔助性的作用(見第 1.1.2節),云網融合更強調標準的引領作用。本小節依然圍繞云網融合的三項技術,分別介紹每項技術在國內外行業標準方面的進展。云網一體化調度快速發展,聚焦資源管理調度框架。在技術標準方面,各標準組織(如 ETSI、ITU-
98、T)16CHAPTER 2.圍繞云計算的云網融合研究正在推動云網一體化的標準化進程,以實現不同系統之間的互操作性,例如 ETSI GR IPE 002 討論了在IPv6 系統下對于云網一體化調度的要求,以及國內由信通院主導的 ITU-T Y.3538 分布式云全局管理框架、ITU-T Y.ccts-frame 等。海外業界目前主要關注統一安全訪問服務邊緣(SASE)、廣域網即服務(WANaaS)、多云網絡等方面,Microsoft 推出了 SASE 產品,Google 提出 Cross-Cloud 框架,Amazon 與 Fortinet 合作引入了 SASE 能力。國內業界目前主要關注云網資
99、源的統一調度管理。關于網絡資源調度的標準工作較為廣泛,例如 ETSI 確立的 MANO 網絡功能調度參考模型,為網絡資源管理調度方案設立了較為統一的標準。由于計算行業的特點使然,關于云計算資源調度的方案目前以開源框架為主導,以 Kubernetes 為代表的開源容器編排平臺成為主流方案之一,在此基礎上,OCI、CNCF 等技術組織通過對 API 和規范的制定來推進云資源調度的標準化工作,確保不同工具和平臺間的互操作性,例如 runtime-spec 容器運行時規范以及 kube-scheduler 框架規范。圖 2.5:算力網絡標準體系算力網絡標準逐步走向體系化,智算網絡標準待進一步完善。當前
100、算力網絡標準化主要在國內 CCSA、國際 ITU 及 IETF 開展工作,主要參與方為國內三大運營商。算力網絡標準體系根據 Y.2501 架構開展,如圖2.5所示。其中標準涉及的關鍵技術主要可以分為需求架構類、關鍵技術類、平臺系統類、設備類及協議標準類。關鍵技術集中方向為算力度量、算力感知、算力路由、算力交易、確定性承載與算網編排調度。智算網絡相關標準仍處于起步階段,智算網絡標準體系有待進一步完善。當前國內的智算網絡標準化工作主要集中在 CCSA,主要參與方為三大運營商以及廠商、互聯網公司及信通院。主要包含總體技術要求、基于 RoCE 協議的無損以太網、存算一體/異構算力、安全、承載智算業務的
101、廣域網能力要求及設備/平臺互聯互通。國際上智算網絡標準化工作主要在 ITU 及 IETF 開展,主要參與方為國內三大運營商、信通院、華為等。中國聯通、中國電信、信通院、紫金山實驗室圍繞 NGNe 在 SG13 啟動智算立項,研究分布式智算中心在 NGNe 中的網絡增強需求和能力及對廣域無損網絡的控制器提出功能要求,以增強控制器在路徑計算、流量調度、流量控制、擁塞控制等方面的能力。在 IETF 中,中國移動牽頭成立算力路由(CATS)工作組,中國聯通/華為、中國移動/新華三提出相關文稿研究廣域網中實現無損技術的用例和需求及基于 RoCEv2 的集合通信卸載。標準是網絡云化最重要的推動力量,助力網
102、絡云化的規?;瘧?。ETSI NFV ISG 是網絡云化的發源地,后續 3GPP、5GPPP、IETF、TM、BBF、O-RAN 等標準組織和聯盟也開展了相關的研究。NFV 的發展經歷了多個階段,如圖2.6所示,每個階段面向不同的挑戰和需求進行演進。在 Release 1 中,通過定義行業普遍接受的術語、架構框架以及適用于 NFV 系統的高級需求,為 NFV 的發展奠定了基礎。隨著 Release 2的到來,現場試驗和互操作部署的出現使得解決互操作性問題變得迫切,NFV 的網絡功能分解帶來了多供應商互操作的額外挑戰,要求虛擬化網絡功能(VNFs)能夠獨立于供應商進行打包,與獨立開發的管理和編排
103、系統進行互操作。Release 3 隨著 NFV 部署從現場試驗轉向大規模部署,增強了對部分特性(如多站點服務管理、軟件更新/升級、故障排除等)進行規范的需求。Release 4 以“云化和簡化”為目標,基于利用先進的云計算和網絡管理技術來簡化 NFV 部署,重點集成容器管理和自主網絡技術。Release 5 以“整合和生態系統”為口號,進一步解決運營問題,并考慮生態系統中其他組織開發的新用例或技術,如O-RAN 聯盟。最后,Release 6 重點關注接口、模型等架構和基礎設施,包括架構的演進和簡化,新基礎設施,新的虛擬化形式,以及時延等關鍵問題。ETSI NFV 標準已助力各國運營商構建跨
104、層和多廠商互操作的超大規模電信云基礎設施。例如,中國電信基于 ETSI NFV 標準架構構建云基礎設施,包括數百個數2.1.研究圖譜及其產生:云網融合產業和技術分析17據中心的分布式電信云。此外,網絡中的虛擬化占比在不斷增高,公有云廠商宣布在其電信網絡管理服務解決方案中支持 ETSI NFV 標準。圖 2.6:NFV 標準發展歷程2.1.3國內外產業進展本小節介紹云網融合的國內外產業進展,依然基于本章開篇對于內容范疇的討論,圍繞云網融合的三項技術分別介紹各項技術的國內外產業進展,并在表2.1給出了云網融合當前產業相關產品。云網一體化調度推動云網服務一點供給。云網一體化調度作為云網融合的理論基礎
105、,國內三大運營商都在持續推進云網一體化服務。中國電信在“云網融合”的戰略規劃下持續加強天地云網一體化布局,中國電信天翼云推出了“息壤”算力服務平臺,同時,中國電信還推出了“昆侖”云網能力開放平臺,將多因子全局最優調度列為核心技術之一 95。中國移動提出了“一朵云、一張網、一體化服務”的云網一體化策略。中國聯通構建了面向政企客戶的線上云網一體自服務平臺云聯網系統。在工業界的實際部署中,云計算資源調度與網絡資源調度仍處在兩個獨立的系統中,分屬于云廠商和網絡運營商,兩邊供應商分別調度各自系統內的資源,難以統一起來。在云計算資源調度方面,云廠商基于云產品情況會開發各自的資源調度平臺,如國內廠商的阿里云
106、資源編排服務、天翼云息壤算力服務平臺,海外云廠商的AWS Lambda、Azure Logic Apps 等,目前這些平臺的開發會參考開源組織旗下的有影響力的開源項目,比如 Kubernetes、Istio、Linkerd 等資源調度框架。在網絡資源調度方面,軟件定義網絡(SDN)及 NFV 等技術推動了網絡的開放及可編程性,催生出了基于 ETSI MANO 參考模型的開源方案 OSMANO,以 ONF為代表的開源組織及針對網絡服務調度的開源網絡控制器(如:ONOS、OpenDaylight),和 Microsoft 主導的針對網絡交換設備資源調度的開源 SONiC 方案。在這樣的背景下,云網
107、一體化調度的另一主要挑戰來源于云計算與網絡資源調度系統在前期的各自演進,給調度優化方案在系統內整合統一后的實際性能帶來了極大的挑戰。算力網絡以打造算力服務平臺實現產業化布局。隨著算力時代的到來,中國三大運營商已制定戰略規劃,積極構建算力網絡和平臺產品,如中國電信的“云網融合”戰略和息壤平臺,中國移動的“算力網絡”規劃,以及中國聯通在 CUBE-Net 架構下的算力網絡發展。這些行動顯示了國內運營商整合算力資源、提供高效服務的決心。同時,國內外企業如并行科技和 cloud 也在推動分布式算力網絡的建設,使算力網絡成為全球競爭的新焦點。在全球智算網絡領域,科技巨頭正通過技術創新來滿足日益增長的 A
108、I 模型訓練和計算需求。國內領軍企業如阿里云推出的 HPN7.0 智算集群網絡架構,以其全自研 51.2T18CHAPTER 2.圍繞云計算的云網融合研究表 2.1:云網融合行業產品技術方向企業名稱企業屬性產品產品描述云網一體化資源調度中國電信國內運營商“昆侖”云網能力開放平臺實現云網服務一點供給中國移動國內運營商智能云網編排平臺實現業務統一受理、開通自動化、端到端運維中國聯通國內運營商云聯網系統面向政企客戶的線上云網一體自服務平臺Azure國外云廠商統一安全訪問服務邊緣(SASE)實現安全性和網絡連接的融合算力及智算服務中國電信國內運營商息壤一體化智算服務平臺納管算力 27E,打造智算生態系
109、統中國移動國內運營商算網星圖算力并網服務平臺通算 8.2E、智算 26E、三方算力 3.4E中國聯通國內運營商算網一體化懷來編排調度平臺運營 1400PLops 算力,規劃 5 萬架標準機柜能力并行科技國內科技創業公司超算云服務平臺總計算力超 1000P,存儲資源超 800PB鵬城實驗室國家實驗室鵬城云腦 IIE 級高性能人工智能算力平臺 cloud國外科技創業公司去中心化計算網絡規模 2 萬+個 GPU,65+集群網絡云化中國電信國內運營商天翼網絡云承載虛擬化網元和網絡業務平臺中國移動國內運營商AUTO 行云敏捷網絡,自動駕駛,網絡智能化中國聯通國內運營商WoMANO提供網絡功能虛擬化管理和
110、編排AWS國外云廠商AWS TNB、AWS Wavelength定制化增強云服務以適配 ETSI-NFV 架構Azure國外云廠商Azure for Operators實現電信級底座能力增強阿里云國內云廠商超輕量 5G 核心網設備小型化 All In One 解決方案騰訊云國內云廠商Azure for Operators包括 5G 專網在內的云原生系列產品交換機和先進的網絡技術,已成為行業的技術標桿。騰訊云的智能高性能網絡 IHN 以其大規模和超高速特性,展現了網絡控制系統和端側控制系統在精準監控和調度方面的實力,有效消除網絡擁塞。百度的AI-Pool 網絡方案通過優化節點間通信,提升了智算節
111、點的互訪效率。字節跳動則通過構建大規模訓練集群和 MegaScale 系統,強化了其在大語言模型訓練領域的能力。國際方面,Meta 通過定制化的數據中心網絡和 RoCEv2 通信機制,提升了 AI 訓練網絡的效率。Google 在其 TPU 網絡中采用的 OCS 技術,通過拓撲重構增強了性能和可用性。Microsoft 利用英偉達的 IB 方案構建智算集群,進一步擴展了其在智能計算領域的影響力。這些進展不僅展示了全球科技巨頭在智算網絡領域的積極布局,也反映了該領域在技術創新和應用實踐方面的快速發展。運營商、云商和設備廠商積極參與網絡云化。NFV 規模推廣前期,主要采用一體化設備和二層解耦的方案
112、,部署 vBRAS、vIMS 等傳統電信應用,這類應用中網絡功能處于一個相對封閉的狀態,設備廠商占據較大的主導權??紤]到穩定性和成本,運營商沒有動力采用突破性技術,目前演進緩慢。隨著云計算技術的不斷引入,網絡功能逐漸走向開放,5GC、vRAN 稱為行業實踐的主要抓手,運營商、云商和設備廠商都在積極參與其中,運營商逐漸占據主導地位。在基礎設施建設方面,多數運營商選擇自建網絡私有云來部署網絡功能及網絡業務,如國內三大運營商和美國的 Verizon 等,他們使用自研或第三方云平臺。部分運營商近年來開始嘗試將 5GC 部署到公有云上,例如 AT&T、Dish、Telefonica 和 Swisscom
113、。私有云模式因其安全可靠和高可控性受到青睞,而公有云盡管其成熟度相對較低,則以其靈活性和較低的短期成本吸引運營商。國內外云服務商借助于 5G 2B 市場參與進來。國內外設備廠商逐步打開網絡功能,使之能夠部署在電信私有云平臺和云服務商公有云平臺。通過與運營商和云服務商共同構建解決方案,利用云服務商的技術優勢,設備廠商積極推動網絡功能的創新和商業化進程。隨著網絡功能不斷開放,以及對公有云先進技術、資源能力、成本優勢的期望,將 NFV 基礎設施擴展到公有云或者混合云成為行業焦點??傮w而言,產業界當前主要關注網絡云化規模落地過程中面臨的工程技術挑戰。2.2研究洞察:當前云網融合的研究熱點和難題隨著用戶
114、業務種類和規模的高速增長,云網融合的趨勢日益顯著。業界期望通過云網融合來提升業務服務質量,進而催生新場景和新應用。盡管云網融合是大勢所趨,但由于云計算和網絡系統過去幾十2.2.研究洞察:當前云網融合的研究熱點和難題19年的相對獨立發展,融合過程中仍面臨一些關鍵挑戰,需要進一步研究和解決。本節通過廣泛調研云網融合領域的學術研究,圍繞本章開篇討論的三項技術,梳理了各項技術的熱點問題和主要難題,同時概述了學術研究的相應進展,并進行了列舉討論(如下所示)。研究熱點和難題1.一體化調度算法復雜度:如何在大規模場景中平衡服務的實時性需求與資源調度的最優解?2.調度算法優化部署及動態策略:如何優化算法部署及
115、調度策略以滿足低時延服務的動態需求?3.算力網絡架構與應用:如何面向分布式異構算力資源設計一體化廣域管理架構,實現面向多源業務需求的自適應服務?4.算力服務效率與性能提升:如何實現算力網絡中異構算力能力高效評估、任務調度與資源匹配,滿足用戶 QoS 并提升平臺效用?5.智算加速與分布式智算協同:如何面向 AI 模型大規模分布式訓練及推理提升算效比及性能?6.網絡功能云原生化:如何在云計算編程范式下構建靈活可擴展的虛擬網絡功能?7.面向電信場景的云基礎設施:如何構建高效、可靠、安全的云基礎設施能力滿足電信級要求?2.2.1熱點研究問題的剖析本小節圍繞本章開篇討論的云網融合的三項技術,分別針對每項
116、技術的熱點研究問題進行剖析。圖 2.7:研究熱點詞云研究關注由網絡資源調度問題向云網一體化調度問題演進。隨著云計算及算力資源接入網絡,對于網絡資源調度的研究也逐漸過渡到對云計算及網絡資源的一體化調度研究。2019 至 2024 年對于云計算資源調度的研究論文呈現上升趨勢(如圖2.8),其中由于技術架構的演進,研究課題也從針對微服務架構轉向新興的 Serverless 架構。同時,近年來對于網絡資源調度的研究成果趨穩。在這些針對網絡資源調度的論文成果中,研究課題由傳統的網絡資源調度逐漸轉向如何適應云/算資源接入后的調度擴展。一體化調度的研究熱點目前主要聚焦于大規模服務應用中服務實時性需求與資源調
117、度效率的動態平衡。這涉及到在快速響應服務需求的同時,確保資源調度能迅速找到最優解,以優化成本效益和性能。研究熱點問題涵蓋有對服務實時性與資源調度效率的關系評估,對動態資源分配算法的設計以適應變化的需求和環境。一體化調度算法的動態自適應還涉及系統層面的問題,即:構建響應云網資源負載變化的調度策略框架,開發自適應算法實時監控資源使用并動態調整策略,以保持服務穩定性和效率。此外,一體化調度算法部署優化面臨跨調度主體、跨層、跨域、跨云邊端的挑戰,側重于全局資源協調優化。研究對云網一體化算法部署的優化,可以減少服務延遲,滿足時延敏感的應用場景需求。算力網絡作為應對應用算力需求的下一代網絡解決方案,正獲得
118、業界越來越高的認可,其研究關注度也在持續上升(如圖2.9所示)。自 2019 年算力網絡概念提出以來,相關技術論文數量逐年增長(2024 年部分論文尚未檢索)。目前算力網絡處于研究初期,未來將長期受到關注。在我國,因算力與業務分布不均,算力網絡展現出顯著發展潛力,最早獲得國內關注,并衍生出如 Computing-aware Network(CAN)、Computing Force/First Network(CFN)、Cpmputing Power Network(CPN)等不同命名。Cpmputing PowerNetwork已成為普遍術語,主要研究者包括電信運營商及高校,而Computin
119、g-awareNetwork和ComputingForce Network 主要由中國移動及其合作單位推動,Computing First Network 則以軍事科學院為主。20CHAPTER 2.圍繞云計算的云網融合研究(a)云計算資源調度論文發表數量趨勢(b)網絡資源調度論文發表數量趨勢圖 2.8:云網一體化調度相關論文趨勢分析(a)算力網絡論文發表數量趨勢(b)算力網絡不同術語論文數量圖 2.9:算力網絡論文趨勢分析當前針對算力網絡技術的研究熱點主要圍繞算力度量、算力交易、任務調度與資源分配等關鍵技術實現算力服務效率與性能的提升,以及面向新場景與新應用算網架構的優化設計與展望。主要研究
120、團隊是國內院士為代表的團隊對算力網絡帶來的技術體制變革及框架提出了指導。高校、企業及研究機構團隊則是在具體的技術點上深入研究,包括 AI 分布式訓練及推理架構與算力網絡的結合,任務的調度與分配,算力的交易等,因算力網絡具有的拓撲屬性及時空資源屬性,目前調度和路由的研究方法通常是將強化學習,圖神經網絡等 AI 算法引入,以適應其中動態復雜的多維資源特性。此外考慮到算法的收斂性、高效性與可解釋性,一些研究專注于經典的近似算法和貪心算法的研究。值得關注的是,目前算力網絡的技術思路已經受到了美國相關研究機構的關注,美國亞利桑那大學對算力網絡面向科學計算的前景和技術點進行了論述和分析。目前,研究領域文章
121、側重算法及理論研究的主要以高校及研究機構為主,企業方涉及較少,未來針對產業及產品化場景中實際應用問題的方法研究仍具有較大空間。隨著十多年的發展,NFV 相關技術逐步走向成熟。如圖2.10所示,學術界的研究熱度正在逐年下降。分析近 3 年重點會議學術論文,學術界的研究熱點轉向新的網絡功能、新的應用場景以及新的技術方案。研究的主要力量分布在中國和美國的高校(卡內基梅隆、約翰霍普金斯、加州大學、清華大學、北京大學、浙江大學、南京大學等)、云商(阿里巴巴、Microsoft)和設備商(英特爾、華為)。相對于產業界,學術界的研究內容更加超前,同時關注產業界在規?;涞剡^程中遇到的云原生化、管理編排等問題
122、。在新的網絡功能方面,研究方向逐步從 5G 核心網的虛擬化到 5G 接入網的虛擬化,解決 vRAN 如何使用 Kubernetes 部署、故障轉移、時延優化、硬件加速、資源共享等問題;在新的應用場景方面,6G、衛星通信、無線通信、車載云等開始引入云化網絡;在的新技術方面,使用云計算和人工智能的前沿方法,解決網絡云化的核心問題,包括:使用大模型、強化學習、啟發式算法實現資源預測、故障檢測、編排調度、意圖識別等;通過 FPGA、GPU、SmartNiC,以及 eBPF 內核旁路、并行優化技術等實現軟硬件加速;利用硬件加速框架、異構 VNF 框架、可擴展應用框架等框架優化,進一步提升資源和應用管理效
123、率;基2.3.云網融合研究的展望和發展建議21(a)NFV 論文發表數量趨勢(b)2022-2024 年 NFV 頂會論文數量圖 2.10:NFV 論文趨勢分析于軟件故障隔離實現 NFVI 資源在多租戶環境下的安全;有狀態網絡功能的分解以及聲明式 API 的應用。如表2.2所示,本文從網絡功能云原生化和面向電信場景的云基礎設施對這些研究方向進行了梳理。2.2.2智能技術與云網融合相結合本小節討論智能技術與云網融合的結合,類似于智能技術與云計算的結合(見第 1.2.2小節),分為以下兩個方面展開討論。(1)智能技術對云網融合產生新需求如在本節 2.1 中所述,AI 負載特別是生成式 AI 對網絡
124、提出了新的需求。智算網絡的研究熱點工作集中在理解 AI 工作負載的獨特需求、設計新的網絡架構以支持這些需求、探索新的協議以提高網絡通信效率,以及實現快速故障定位與恢復。在 2024 年頂會上,面向智算的網絡優化的可謂是首次全面開花。在SIGCOMM 2024 上,阿里提出 HPN 智算網絡架構,騰訊提出自研的集合通信庫 TCCL 與流量的聯合優化,Meta 提出了在大規模集群上基于 RDMA 的訓練。在 NSDI 2024 上,字節提出了在萬卡上進行訓練的核心技術。ATC2024 上,三星則提出了其在異構 GPU 上自動化訓練的方案。此外,還有香港科技大學等高校專注于面向系統的分布式訓練架構的
125、研究,以提升訓練效率。(2)智能技術賦予云網融合新的機遇以大模型為代表的人工智能技術在網絡云化中發揮著越來越重要的作用,主要體現在三個方面:任務及資源的管理與調度、性能優化、智能運維及運營。在任務與資源管理調度方面,通過精準感知資源和流量狀態,運用強化學習和深度學習等 AI 算法,實現任務調度和資源分配的智能化,并根據任務和資源的實時動態變化,自動調整策略,在確保服務質量的同時,最大化資源利用效率。在性能優化方面,借助大模型和深度學習的預測與分析能力,AI 技術能夠深入挖掘網絡功能的性能瓶頸和潛在優化點。在智能運維與運營方面,通過構建網絡大模型和意圖網絡,AI 技術為自動化和智能化的運維運營提
126、供了強大支持:利用深度學習和強化學習技術進行跨層多維數據分析,AI 能夠實現異常檢測、故障定位和根因分析,從而提高網絡的穩定性和可靠性。因 scaling law 的存在及存算技術升級與變革,未來面向 AI 的網絡技術仍然是產學研界關注的熱點。2.3云網融合研究的展望和發展建議借鑒 Gartner 成熟度曲線,本節構建了云網融合技術領域的成熟度曲線(如圖2.11所示)??梢钥吹?,一體化調度和算力網絡相關技術處于技術萌芽期、期望膨脹期和沉淀低谷期這三個階段。網絡云化發展相對成熟,部分產品和技術已經在生產中應用,目前主要是在新技術和新場景驅動下演進。22CHAPTER 2.圍繞云計算的云網融合研究
127、表 2.2:云網融合研究領域熱點研究點研究方向概述會議及期刊研究主要關注點與代表性工作云網一體化調度算法對不同算法設計對調度模型復雜性進行優化,縮短求解時間和計算表現。SIGCOMMNSDIINFOCOMICDCS 分布式經典優化算法:面向服務 QoS 需求,韓國研究團隊聯合VMWare 提出基于優先級的調度算法 96;天津大學團隊主導提出基于不準確信息的流控算法 97;基于圖的算法:通過圖的形式構建服務間的復雜依賴關系,北京理工大學團隊聯合 Microsoft 提出基于圖的跨域調度算法 98;基于 AI 的算法:通過對服務間依賴關系模式的高效識別,提升調度編排性能,華為研究團隊提出 DNN
128、算法 93。云網一體化調度架構與應用優化云網一體化算法的部署,以確保對時延敏感的服務能實現快速響應。SIGCOMMNSDIATC 并行優化:美國哈佛大學聯合 Microsoft 提出對調度算法的并行優化從而顯著加速求解計算過程 99;實時監測:美國 UIUC 團隊聯合 IBM 提出分布式非侵入的實時監測框架來優化調度性能 100;動態自適應:阿里聯合浙江大學及清華大學針對實際云計算業務需求,對調度框架進行解耦實現資源利用率動態優化 50。算力網絡架構與應用面向分布式廣域異構算力資源實現一體化服務能力的架構研究,針對下一代網絡技術的演進及現有網絡技術局限性,以院士為代表的團隊在架構方面進行了大量
129、研究。INFOCOMIEEE NETWORKSCIS 智慧標識網絡體系:北京交通大學張宏科院士團隊研究標識網絡至算力網絡的演進,包含原理、體系與技術,通過打造標識體系與智慧映射體系,消除傳統網絡三重綁定限制 101;確定性算力網絡體系:紫金山實驗室劉韻潔院士研究基于 IP 網絡的確定性保障技術下的確定性算力網絡架構 102;通感算一體網絡:北京郵電大學張平院士團隊通過邊緣智能下的通感算及智能空口研究面向 6G 的算力網絡體系架構 103,104;面向科學計算的算力網絡:美國亞利桑那大學關注算力網絡面向科學計算場景的技術應用和架構 105。算力服務效率性能算力服務區別于傳統的云服務,存在多方異構
130、算力資源及不同服務要求,因此針對算力服務尚存挑戰,研究熱點聚焦在異構算力度量與評估,任務調度、算力交易等方面。INFOCOMLCNIWQoSIEEE TSC 算力度量與評價:嵩山實驗室、紫金山實驗室對算力服務能力及面向服務的評估進行研究 106,107;算力交易:浪潮、濟南超算中心、天津大學等團隊對算力交易平臺框架及機制展開研究與實踐,實現平臺利益最大化,包括博弈論及拍賣算法 108,109,110;任務調度與資源分配:鵬城實驗室對算力網絡上的任務調度進行了體系化的研究 111,阿里、天津大學、南京大學對算力網絡中 AI 任務的推理及分割框架進行了優化研究 112,113,114。網絡功能云原
131、生化多數基于服務化架構的網絡功能都是有狀態的,需在大規模場景中支持實時配置,在實現彈性的同時保障狀態的一致性、操作的有效性成為挑戰。INFOCOMSIGCOMMNetSoft 有狀態網絡功能的動態擴展:Microsoft、Uber 通過分解網絡狀態、消除或最小化網絡狀態來解決網絡功能在多個核心或服務器上的擴展問題 115,116;聲明式配置:通過聲明式 API 實現網絡功能的管理配置,并結合意圖簡化網絡管理復雜性,提高配置可讀性和可維護性 117;SFC的高效部署:網絡服務功能鏈可以靈活的構建復雜的網絡服務,華為通過分布式代理協同處理的方法解決 SFC 工作負載的動態調度與部署 118;美國研
132、究團隊基于流量的變化實現 SFC工作負載的彈性調度 119。面向電信場景的云基礎設施網絡系統相較 IT 系統,在實時性、安全性、可靠性等方面有更高、更嚴苛的要求,需要云基礎設施增強相應的能力以滿足網絡系統的要求,近期研究熱點主要聚焦在性能加速、編排管理等方面。SIGCOMMINFOCOMNSDIMobiSysSECON 網絡功能編排調度優化:Meta 提出了面向 eBPF 網絡功能的編排 120;阿里巴巴提出了針對 vRAN 的編排調度模型 121;西安交通大學提供了在異構框架下整合網絡功能的研究 122;。云原生基礎設施承載:5G 核心網、vRAN、6G、SFC 在 Openshift、Ku
133、bernetes 云原生基礎設施上的部署問題 123,124,125;網絡加速:加州大學研究控制面性能加速 126;阿里巴巴、Mi-crosoft 等基于異構硬件、內核優化等研究數據面加速 40,127,128,129。運維與安全:Microsoft 在百毫秒內實現故障轉移和零停機的軟件升級 130;阿里巴巴提出了一種軟件故障隔離的安全 NFVI,能夠實現更好的性能 131。2.3.云網融合研究的展望和發展建議23圖 2.11:云網融合研究圖譜技術成熟度曲線 20242.3.1云網融合的未來研究方向和關鍵技術展望優化一體化調度計算復雜度,在大規模分布式場景下提升調度性能與計算效率。在資源規?;?/p>
134、擴展的背景下,未來將更加重視計算復雜度的管理。隨著數據量的激增和計算需求的復雜化,需要對算法做進一步優化以適應這一變化。這不僅涉及到對算法的基礎理論研究,也涉及到更高效的系統框架,如并行計算、分布式系統設計等,以實現資源的最優利用。在資源規?;耐瑫r,保持甚至提升計算效率,以確保在面對大規模服務調度需求時,云計算系統能夠快速、準確地調度云網資源來處理需求。實現內生性能保障、優化經濟模型與數據流通機制,并提升服務的擴展性與彈性,是算力網絡平臺研究的重要方向,從而能夠全面支撐高效、智能的計算服務。通過內生性能保障機制,算力網絡實現資源的協同調度與融合部署,提供全場景、跨層跨域的確定性服務能力,確保
135、時延、安全及可靠性,從而為計算提供可預期的服務保障。在經濟模型和數據流通方面,隨著算力市場的逐步成熟,研究將集中于資源定價、成本分配和市場機制優化,同時構建隱私保護和數據安全的流通機制,借助數據確權、追溯技術及智能合約提升流通效率,防止數據濫用。此外,算力網絡平臺的擴展性與彈性研究將著眼于新型架構與容錯機制,以支持不斷增長的計算需求,并提升平臺面對故障時的自愈和彈性能力,從而構建更加靈活和可靠的算力服務體系。深入優化軟件、異構硬件以及軟硬融合技術,全面提升網絡處理能力。在軟件層面,通過內核旁路、并行優化、新型虛擬化等技術,減少資源及性能損失,達到與物理硬件相近的處理能力。在硬件層面,著力于打破
136、通用處理器的性能瓶頸,引入智能網卡、DPU、FPGA 等為高速網絡專門設計的加速卡和定制化計算解決方案;利用可編程白盒設備提供的靈活性和可擴展性,滿足不斷變化的網絡需求。同時,軟硬融合通過任務卸載、計算資源的高效協同,進一步優化工作負載的性能,滿足未來網絡對高帶寬、低延遲及靈活調度的多樣化需求。網絡云原生化是網絡云化發展的必要階段,標志著網絡架構向更加靈活、更加高效的云服務模式轉變。隨著容器、微服務和容器集群管理等技術的引入,傳統的 NFV 架構得到了革命性的改變。這些技術不僅提高了資源利用率,還加快了服務部署速度,增強了系統的可伸縮性和可維護性。展望未來,網絡云原生化將進一步結合輕量虛擬化、
137、Serverless 架構、聲明式 API 等云原生技術,簡化配置管理,降低運營成本,增強系統的可伸縮性和可維護性,提高資源利用率和部署效率。同時,高性能 Service Mesh 將優化微服務間的通信,提升服務的可觀測性和安全性。2.3.2云網融合的發展建議關注算法理論研究,實現大規模資源調度的極致彈性與智能規劃。深入研究算法理論,能夠為資源調度提供科學的理論支撐,使調度更加精準、可解釋。云計算在不同行業場景落地時,業務需求是多樣24CHAPTER 2.圍繞云計算的云網融合研究且多變的。對算法理論的研究,可以使調度算法在不同場景下呈現更強的彈性,根據業務要求的調度響應時間,靈活適配滿足計算效
138、率的調度,從而在業務量突然發生變化時,迅速做出響應,避免資源浪費或不足的情況出現。此外,借助算法理論研究,還可以對大規模異構資源進行全面、深入的分析和規劃,從而結合業務的特點和需求,預測未來的資源需求趨勢,提前進行資源布局和調整,實現資源的智能規劃,提高資源利用率,降低運營成本,保障服務質量及響應速度。推動算力網絡逐步走向泛在智能協同,促進技術成熟和應用范圍擴展。近期,隨著大模型催生的集群算力進一步擴展,研究將重點圍繞 Scale-out 和 Scale-up 的協同與融合發展。同時,確定性網絡、遠距離高性能網絡及傳輸技術的快速進步,使智算分布式跨域逐漸成為算力網絡的重要應用場景。這些發展有助
139、于加速算力網絡技術的全面成熟。在中遠期,隨著泛在互聯、具身智能等新型應用需求的不斷涌現,算力網絡將向泛在一體化方向邁進,通過云邊端協同智能訓推一體技術與移動算力協同技術的突破,進一步提升算力的靈活性和高效性。這些技術的融合發展,不僅將推動算力網絡適應復雜多變的智能化需求,還將開辟更廣泛的應用前景,為未來智慧社會建設提供重要的支撐。增強云基礎設施滿足網絡的定制化需求,實現網絡功能跨云跨域流動。NFVI 正逐步從電信私有云延伸至公有云和混合云,從數據中心擴展至客戶設備乃至深邊緣場景,以提供更加靈活、貼近用戶的計算與網絡能力。通過增強云基礎設施,虛擬網絡功能能夠靈活部署到任意用戶需要的地點(無論是中
140、心節點還是邊緣節點),從而滿足差異化、低延遲的應用需求。云基礎設施能力全方位拓展,構建敏捷高效的網絡,云網能力實現進一步融合,從而更好地滿足物聯網、自動駕駛、低空經濟等新興應用對低時延和高可靠的嚴苛要求。聚焦新場景,局域組網和專網正成為云服務商拓展網絡能力的重要方向。在低空互聯網、衛星無線網、車聯網等新興應用場景中,網絡功能展現出小容量、短時性和移動性等特點。通過分布式云的跨域能力,這些場景將迎來新的發展機遇,進一步推動網絡技術與服務模式的創新。此外,6G 網絡以原生在云上構建為目標,將云計算和網絡技術深度融合,為未來網絡提供更加靈活、高效和可擴展的服務能力。6G 不僅能滿足超可靠低延遲的要求
141、,還能夠支撐沉浸式通信等多樣化應用,為虛擬現實、全息視頻和智慧工業等領域提供堅實的基礎。通過聚焦新場景,云計算和通信技術的結合將開辟更多的可能性,為未來智能化社會提供強大動力。第 三 章智能算法賦能的研究云計算深刻改變了信息服務的開發、部署、運維和計費方式。依托互聯網,它創建了一個強大的云環境,使得用戶可以隨時隨地訪問和管理關鍵資源。這種模式不僅提高了工作效率,還通過靈活的工作流程和按需付費的定價機制顯著降低了企業運營成本。因此,云計算的普及和應用已經跨越行業界限,覆蓋了醫療、金融和社交網絡等多個領域。Gartner 預測,到 2028 年,云計算將成為企業保持競爭力和生存發展的核心要素。另一
142、方面,國務院印發實施了新一代人工智能發展規劃,明確將人工智能定位為國家未來重要的發展戰略,并預期在 2030 年建設成為世界主要人工智能創新中心。這一決策標志著智能算法作為當代科技創新的核心,根植于數十年的技術發展和理論研究,已成為推動社會進步和產業轉型的關鍵力量。它不再僅存于想象之中,而是實實在在地影響著經濟結構和人類生活的各個方面。云計算與智能算法的深度融合正在重塑未來技術格局。一方面,云計算是釋放智能算法潛力的關鍵動力。Nvidia CEO 黃仁勛指出,智能算法的計算性能可能遵循超摩爾定律的加速增長趨勢。因此,云計算為智能算法應用的部署和擴展提供了堅實的平臺,使得企業能夠在不進行專用硬件
143、投資的情況下,實施智能算法驅動的解決方案。另一方面,智能算法帶來的自動化和快速決策能力,使得管理超大規模云系統變得更加高效。傳統上,云基礎設施的管理需要大量的手動操作和專業知識,而智能算法的引入帶來了革命性的變化,為實現自我管理和自我優化的云環境鋪平了道路。本章將概述與云計算和云網融合關聯的關鍵智能算法,如圖 3.1 所示。重點聚焦智能算法如何賦能云計算智能化進程,深入探討當前研究的最新進展、面臨的開放性問題及未來的攻關方向。優化理論圖算法博弈論深度學習強化學習大模型圖 3.1:研究圖譜:賦能云計算和云網融合的智能算法26CHAPTER 3.智能算法賦能的研究3.1研究圖譜及其產生:賦能云計算
144、和云網融合的智能算法本節將追溯智能算法數十年的發展歷程,涵蓋從早期的優化算法、圖算法和博弈論等基礎理論,到具有深遠影響的里程碑技術,如深度學習和強化學習,再到當下炙手可熱的大模型,全面審視這些關鍵智能算法的演進路徑及未來趨勢。具體而言,每小節將從各個技術的發展歷程、核心思想和經典算法出發,進一步延伸至當前備受關注的研究熱點和實際應用范式,旨在幫助讀者全面了解智能算法從理論到實踐的全貌。此外,表 3.1 分類整理了這些智能算法的類型、目標、代表性方法及其核心特點,為其與云計算的深度融合奠定全面而清晰的認知基礎。3.1.1優化理論及其應用優化方法(Optimization Methods)是在約束
145、條件下對目標函數進行極值求解的技術與理論體系,廣泛用于科學研究與工程實踐中。根據問題的不同性質,優化可分為凸優化、非凸優化、線性規劃、整數規劃、組合優化等類別。此外,啟發式優化算法(如遺傳算法、模擬退火)為解決高維復雜優化問題提供了靈活有效的工具 135,159。優化方法的核心目標是尋找最優解,其理論基礎源于數學中的變分學和最優控制理論。在凸優化問題中,目標函數和約束條件的凸性確保了全局最優解的唯一性,這類問題通??梢酝ㄟ^梯度下降、牛頓法等經典算法高效求解 132。而非凸優化問題存在局部最優解,在一些場景中可以通過松弛、近似等方法轉化為凸優化或易于處理的形式 133。在實際應用中,往往采用隨機
146、梯度下降方法提升求解效率。在離散優化領域,線性規劃和整數規劃為資源調度和路徑規劃提供了理論框架 160,而組合優化則通過圖論和排列組合等方法解決復雜的離散選擇問題 134。除此之外,遺傳算法、模擬退火等元啟發式算法借助生物學和物理學的啟示,能夠在復雜環境中找到近似最優解,在一些問題中得到了廣泛的應用。近年來,優化理論的研究方向逐步轉向大規模分布式優化、實時在線優化以及與機器學習結合的領域。例如,在深度學習的訓練過程中,優化方法被用于尋找網絡參數的最優解;在動態系統優化中,在線優化通過不斷更新模型實現對環境變化的實時響應。隨著云計算和網絡技術的快速發展,優化理論及方法成為提升資源利用效率和服務質
147、量的重要工具。云計算環境中涉及的資源調度、負載均衡、網絡路由優化以及能耗管理等問題,均具有高維、動態和非線性等特點,而優化理論為這些問題的解決提供了系統化的理論支撐和算法支持。在負載及資源狀態實時變化的云計算平臺中,實時任務優化是最大化系統效率的關鍵,在線優化方法可以在動態環境中不斷更新策略,適應變化的需求和約束條件,應對環境的不確定性和復雜性。在涉及云邊端眾多計算節點的物聯網場景中,分布式優化算法可以通過多節點協同來提升計算效率,滿足復雜的計算需求。在不確定性的網絡環境中,魯棒優化在保證系統穩定性方面發揮重要作用,安全優化則提升了系統對故障的應對能力。在具有大量節點及復雜拓撲結構的網絡場景中
148、,啟發式優化方法可以高效的搜索高維、非線性的求解空間,找到滿足條件的解。優化理論和相關算法的應用不僅是提升云計算效率的關鍵,還為云平臺的智能化和自動化提供了技術基礎。在未來,優化方法將繼續為推動云計算的性能提升與成本降低貢獻重要力量,同時為下一代智能化云服務的實現提供理論與實踐支持。3.1.2圖算法及其應用圖計算領域的歷史悠久,其起源可追溯至 18 世紀數學家歐拉提出的“七橋問題”。圖是一種關鍵的數據結構,由節點 V(代表個體)和邊 E(代表個體間的聯系)組成,通常以 G=(V,E)的形式表示 161。這種抽象的圖數據結構廣泛應用于通信網絡、社交網絡、推薦系統、金融風控等多個領域 162。不同
149、領域的圖數據結構如圖 3.2 在數據日益復雜的現代社會,圖數據模型憑借其在表征復雜關聯性和提供可解釋性計算上的優勢,成為研究和應用的焦點。近年來,圖數據的規模呈現指數級增長,節點數量已達到數十億級,邊的數量更是高達數萬億。這種規模擴張不僅反映了數據復雜性的提升,也凸顯了對高效圖計算算法需求的迫切性。作為圖數據處理的核心,圖算法提供了解析和優化圖結構數據的基礎工具。其中,遍歷算法作為底層基礎,支撐了眾多高級算法的開發與應用。典型的圖算法包括最短路徑算法、圖劃分3.1.研究圖譜及其產生:賦能云計算和云網融合的智能算法27表 3.1:智能算法技術圖譜算法類型算法概述代表性技術技術特點優化理論通常描述
150、為在一定約束條件下最大化目標函數的問題,往往涉及問題的松弛及轉化、求解方法設計、收斂性分析等,核心在于根據問題結構設計高效算法,平衡求解速度與質量。凸(非凸)優化組合優化啟發式優化隨機優化 凸(非凸)優化:凸優化中最優解唯一,算法高效穩定,非凸優化復雜度高,常進行凸松弛轉化或借助隨機搜索尋找近似解 132,133;組合優化:優化變量取值離散、復雜度高,常利用圖論、整數規劃等工具求近似解,應用非常廣泛 134;啟發式優化:靈活且通用,模擬自然現象來尋找復雜問題的近似解,無需嚴格數學模型,適合高維、非線性、多峰值問題 135;隨機優化:引入隨機策略探索解空間,可以應對非線性、非凸或高維復雜問題,能
151、跳出局部最優,具有全局搜索能力 136。圖算法圖算法基于圖論,用于高效處理分析圖結構數據,通過優化節點和邊的關系,解決最短路徑、網絡流等問題。超圖作為圖的擴展形式,增強了算法在復雜場景中的表達能力,拓寬了圖算法的建模能力。圖劃分圖匹配路徑發現密集子圖識別 圖劃分算法:旨在將圖分割為若干子圖優化節點間的分布關系。其歷史可以追溯至上世紀 70 年代的并行計算研究 137;圖匹配算法:旨在挖掘子圖間相似性的算法。目標是通過比較節點、邊或子圖的結構、屬性或拓撲關系,找到圖之間的最佳匹配 138;路徑發現算法:旨在基于圖遍歷算法探索節點間路徑,該算法從某個節點開始遍歷,進而在條件限定的情況下用來識別最優
152、路徑139;密集子圖識別算法:旨在挖掘圖中一組連接緊密的節點。早期算法是嚴格挖掘完全子圖,而后續的 k-Core、譜聚類和 Modularity 優化等算法放寬了密集性定義 140。博弈論研究多個參與者相互博弈過程中的策略選擇及結果,涉及策略空間建模、均衡解和穩定性分析,重點在于理解參與者的相互影響。納什均衡合作博弈演化博弈 納什均衡:一種所有參與者均無法通過單方面改變策略獲益的策略組合,策略具有穩定性,其存在和唯一性由嚴格條件決定 141;合作博弈:分析參與者通過協作達成共贏的博弈,涉及聯盟形成和收益分配問題,如資源共享和聯合決策 142;演化博弈:研究策略隨時間演化的博弈,借助復制動態等工
153、具分析策略分布變化,動態性強,著眼于長期穩定狀態 143。深度學習基于多層神經網絡,通過對數據進行逐層非線性變換,從低層次特征提取到高層次抽象表示,實現特征自動提取和復雜模式的學習。卷積神經網絡循環神經網絡圖神經網絡生成對抗網絡Transformer 卷積網絡:通過局部感知與權值共享,提取多層次特征 144;循環網絡:連接歷史狀態,學習序列數據的時序特性 145;圖網絡:為圖結構數據設計,建模復雜拓撲,支持圖級任務優化146;生成對抗網絡:生成器與判別器對抗優化,模擬復雜場景建模 147;Transformer:基于多頭注意力機制,高效建模全局依賴關系,處理大規模復雜任務 148。強化學習通過
154、智能體與環境交互,基于獎勵信號學習最優策略的機器學習方法,核心在于通過序列決策優化策略以最大化長期累計獎勵;Q 學習SARSA 算法深度 Q 網絡近端策略優化異步 A3C Q 學習:通過時間差分更新動作價值,無需環境模型 149;SARSA 算法:基于策略依賴更新,考慮實際執行反饋 150;深度 Q 網絡:結合深度網絡逼近 Q 函數,解決高維空間問題 151;近端策略優化:通過限制策略更新幅度穩定訓練,平衡樣本效率與策略優化,廣泛應用于工業級強化學習場景 152;異步 A3C:異步并行更新策略與值函數,提高訓練效率 153。大模型通常是基于 Transform-er 的架構、具有大規模參數和計
155、算能力的生成模型,通過預訓練-微調的深度學習方法,以實現自然語言的理解與生成。上下文學習人類反饋的 RL檢索增強生成專家混合模型低秩自適應 上下文學習:將下游任務的輸入輸出作為 prompt 引導模型給出預測結果,實現在推理時通過提示中的少量樣本學習新任務 154;人類反饋的 RL:利用人類評估指導模型優化其行為和決策 155;檢索增強生成:從外部檢索信息,提升模型準確性與適應性 156;專家混合模型:整個模型由多個專家(子模型)組成,在推理時動態選擇部分專家參與計算 157;低秩自適應:引入低秩矩陣,實現大模型的高效微調 158。算法、密集子圖識別、圖匹配算法、k-覆蓋算法、圖聚類算法、圖傳
156、播算法、鏈路預測算法和 PageRank等。這些算法緊密結合實際需求,推動了多個領域的發展。隨著數據復雜性的持續提升和關聯模式的不斷演化,傳統圖計算模型和算法在處理多維度、多關系復雜場景時已顯現出諸多局限性。作為圖的自然推廣形式,超圖 163 能夠通過超邊表示多個節點之間的高階交互關系,從而在數據建模上顯現出顯著優勢。超圖建模不僅能夠全面捕捉復雜系統中多節點協同作用的特性,還可以更加精準地表征真實世界中28CHAPTER 3.智能算法賦能的研究圖 3.2:不同領域的圖數據的典型示例非二元關系的多維度關聯性。超圖算法的高階性和靈活性使其具有巨大研究和應用潛力。隨著云計算技術的快速發展,圖算法在解
157、決數據庫管理、分布式計算以及資源調度與編排等關鍵技術問題中發揮了至關重要的作用。云計算環境中的數據庫管理、分布式計算和資源調度與編排等問題通常具有高度的相互依賴性,圖算法通過構建圖模型,為這些問題的解決提供了強有力的理論和算法支持。例如,最短路徑算法廣泛應用于路由協議和內容分發網絡中,通過優化傳輸路徑顯著降低時延;圖劃分算法在分布式計算的任務分配、云資源的負載均衡以及通信網絡的拓撲優化中具有重要作用,通過劃分網絡子圖有效提升任務執行效率和資源利用率;圖聚類算法則在數據中心負載優化、通信網絡社區檢測及微服務拆分等場景中,顯著優化了資源分配效率和網絡結構。此外,圖匹配算法在任務分配、虛擬機與服務器
158、匹配等領域,通過最大化匹配效率有效提升資源利用率并降低調度成本;鏈路預測算法則在動態網絡拓撲設計和路由優化中顯著提高了系統的擴展性。PageRank 和圖傳播算法通過優化節點重要性排序和信息傳播路徑,為故障定位與網絡攻擊檢測提供了關鍵支持??傮w而言,圖算法在云計算領域的廣泛應用不僅推動了云資源的高效配置,還為智能化、自動化的網絡管理奠定了堅實基礎,為云計算的未來發展指明了方向。值得注意的是,在最新的學術研究與行業應用中,圖算法正與機器學習、深度學習等前沿技術深度融合,為進一步優化云網系統的性能和效率提供了強有力的工具支持。這一趨勢表明,圖算法將在云計算的未來發展中扮演更加重要的角色。3.1.3
159、博弈論及其應用博弈論(Game Theory)研究理性決策者之間的互動博弈行為,目標是分析參與者在特定規則和激勵機制下如何選擇策略以實現利益最大化,包含納什均衡、演化博弈論、機制設計等核心概念 164,為計算機科學中的相關問題提供了強有力的分析工具。博弈論相關研究主要包括規范性方法和描述性方法。規范性方法以構建精確數學模型為目標,強調對博弈參與者行為的邏輯推理和最優策略分析;而描述性方法更關注現實世界中人類或智能體的行為特性。近年來,博弈論與計算技術結合日益緊密,催生了算法博弈論(Algorithmic Game Theory)的研究分支 165,重點探討如何設計高效算法來求解復雜博弈問題。算
160、法博弈論研究方向包括多主體博弈中的分布式計算、在線博弈、拍賣機制設計等,在處理大規模多主體問題時,博弈論往往會結合機器學習與優化技術,通過啟發式算法或強化學習解決實際問題。隨著云計算技術的廣泛應用,博弈論在解決云計算資源調度、系統性能提升以及算力網絡平臺方面展現了巨大的潛力。云計算環境中,資源分配和任務調度問題具有異質性和多方競爭的特征,博弈論的策略分析與均衡求解為這些復雜問題提供了重要解決手段。在多租戶云環境中,博弈論模型可用于分析用戶間的競爭與合作關系,設計公平且高效的資源分配機制。在面向能效的云平臺優化領域,基于重復博弈的機制可以激勵數據中心在不同時間段動態調整計算負載,實現節能目標,降
161、低整個云平臺的運行成本。在云網融合的算力網絡應用中,博弈論為算力分配和資源共享提供了理論基礎,對算力網絡中計算設備的動態競價和實時任務分配能夠保證參與方的計算需求得到滿足,資源方的效益得到保證。博弈論有助于建立靈活的市場化機制,支持云服務的動態定價與資源供需調節,從而提升云計算系統的靈活性與智能化水平??傮w而言,博弈論的策略分析與機制設計能力為下一代云計算和網絡架構的發展提供了重要支持,其研究和應用成果推動云計算向更高效、更綠色、更智能的方向不斷邁進。3.1.研究圖譜及其產生:賦能云計算和云網融合的智能算法29將輸入數據進行切塊處理Transformer編碼器1234567890卷積神經網絡(
162、CNN)圖神經網絡(GNN)全連接展開圖 3.3:深度學習經典算法的網絡結構示意圖3.1.4深度學習及其應用深度學習(Deep Learning)作為智能算法的一個重要分支,近年來取得了廣泛的關注和顯著的進展。深度學習的核心思想是通過模擬人腦神經網絡的結構和工作機制,以多層非線性變換逐步提取數據中的高層抽象特征,從而在復雜任務中實現自適應的學習 166。深度學習領域包含多種經典算法,例如,卷積神經網絡(Convolutional Neural Networks,CNNs)、循環神經網絡(Recurrent Neural Networks,RNNs)、生成對抗網絡(Generative Adve
163、rsarial Networks,GANs)、圖神經網絡(Graph Neural Networks,GNNs)及 Transformer 167。網絡結構如圖 3.3 所示。CNNs 通過局部連接與權值共享的結構顯著降低參數復雜度,強化模型對空間信息的捕獲能力,其多層次特征提取機制在圖像分類、目標檢測等任務中表現卓越。RNNs 及其改進版本(如 LSTM、GRU)通過門控機制有效緩解梯度消失問題,擅長捕獲序列數據中的時間依賴關系,成為時間序列預測與自然語言處理的核心技術。GANs 通過生成器和判別器的動態博弈訓練機制,在圖像生成、云計算領域展現出廣泛應用,例如數據增強、流量生成與預測、網絡安
164、全威脅檢測,以及資源分配優化等。GNNs 則是深度學習處理圖結構數據的重要工具,通過聚合節點鄰居信息,學習節點和圖的表征,被廣泛應用于社交網絡分析、推薦系統和分子結構預測等領域。Transformer 則通過自注意力機制實現全局特征建模,并通過多頭注意力機制捕獲豐富的特征關系,顯著提升了自然語言處理和視覺任務中的建模能力。這些結構各具特點,共同奠定了深度學習的技術基石。然而,深度學習的高復雜性和數據驅動的本質使其“黑箱”特性成為一大挑戰,特別是在高風險領域中,模型決策的透明性和可信性愈發重要?!翱山忉寵C器/深度學習”(XAI)旨在揭示模型決策背后的邏輯與依據,從而提升透明性、用戶信任以及模型的
165、實際應用潛力 168。研究方法主要分為兩類:一是模型本身的內在可解釋性,設計透明的模型結構,如決策規則嵌入或注意力機制;二是模型輸出的后驗解釋性,利用如 Grad-CAM 169 和 SHAP 170 等特征歸因方法,解釋模型對輸入數據的響應。這些方法提升了模型的透明性,優化了模型的性能和魯棒性。近年來,云計算為深度學習的發展提供了強大的算力支撐,同時深度學習也在推動云計算的快速變革。一方面,大規模分布式深度學習框架的持續優化顯著提升了云平臺的模型訓練效率和擴展能力,支持更復雜、更大規模的模型開發。另一方面,深度學習在云計算領域的應用日益深入,包括利用神經網絡優化資源調度與任務分配,以及提升系
166、統性能等。此外,云邊端協同架構的興起使得深度學習模型能夠在云端高效訓練,并在邊緣設備快速部署,從而滿足低延遲、高實時性的應用需求。這展現出深度學習與云計算深度融合的趨勢,為技術創新和行業應用開辟了廣闊的前景 171。3.1.5強化學習及其應用強化學習(Reinforcement Learning,RL)是一種通過智能體與環境的交互,在試錯中通過獎勵信號學習最優策略的機器學習方法,其核心在于通過序列決策最大化長期累計獎勵。強化學習算法主要分為基于模型的方法和無模型的方法:基于模型的方法依賴環境動力學的準確建模,通過規劃技術(如動30CHAPTER 3.智能算法賦能的研究態規劃)尋找最優策略,適用
167、于環境完全可知的場景,但在高維或非線性問題中計算成本高昂;無模型方法無需環境模型,直接通過試驗經驗更新策略,主要包括蒙特卡羅方法和時間差分學習,前者基于整條情節的累積獎勵進行更新,適合離散任務,后者則通過逐步估計進行即時更新,結合了動態規劃的遞歸思想,具有更高的實時性和靈活性 172。其中,經典算法如 Q 學習和 SARSA 在處理離散狀態和動作空間問題上表現出色,但在高維或連續空間中表現有限。為此,深度強化學習(DRL)通過深度神經網絡實現值函數和策略函數的非線性逼近,突破了傳統強化學習在高維狀態和動作空間中的瓶頸,并在游戲(如 AlphaGo)、機器人控制和智能駕駛等復雜領域展現了卓越性能
168、。整體而言,強化學習通過理論與實踐的不斷融合,成為解決復雜、不確定序列決策問題的關鍵技術。近年來,強化學習的研究聚焦于解決其在復雜環境中適應性與效率方面的不足,以下是一些備受關注的研究熱點。(1)多智能體強化學習(Multi-Agent RL)173:研究多個智能體在共享環境中的協作和競爭,解決單智能體無法應對的復雜任務,通過共享獎勵和通信協議等增強智能體間的協調和效率,如MADDPG 方法(Multi-Agent Deep Deterministic Policy Gradient)等方法能夠有效處理多個智能體在共享環境中的復雜交互。(2)離線強化學習(OfflineRL)174:利用固定數
169、據集進行訓練,適用于數據收集成本高或存在安全風險的場景,通過基于模型和無模型的方法減少數據需求,如 MOReL(Model-Based OfflineReinforcement Learning)通過建立環境模型來模擬并生成虛擬經驗,在有限數據情況下表現出色。(3)人類反饋強化學習(RLHF)155:通過人類反饋而非預設獎勵函數訓練智能體,使其更好地對齊人類目標,采用自然語言、比較等反饋形式,如直接偏好優化(Direct Preference Optimization,DPO)方法直接優化模型以符合人類偏好。(4)層級強化學習(Hierarchical RL)175:通過將稀疏獎勵問題分解為層
170、級子任務以提升探索效率,低層策略負責動作,高層策略制定目標,如選取子目標的半馬爾可夫決策過程(Semi-Markov Decision Process,SMDP)提升智能體在復雜任務中的表現。強化學習(RL)在云計算領域的應用正逐步走向體系化和智能化,成為解決復雜優化問題的重要手段。一方面,云計算環境中的資源調度、負載均衡、能耗優化等問題具有高維度、非線性和動態變化等特性,傳統方法難以適應。而強化學習通過構建動態交互模型,使智能體能夠在任務調度和資源分配過程中自主探索優化策略。例如,深度強化學習結合云平臺的大規模計算能力,能夠在多任務環境中高效解決資源分配優化問題,提高系統吞吐量與資源利用率。
171、另一方面,強化學習推動了云邊端協同計算的深度融合,為實時性和低延遲應用提供了全新解決方案。在邊緣計算場景中,RL 模型可用于動態優化數據卸載策略和邊緣節點協作機制,平衡計算負載和傳輸延遲。而在云端,強化學習支持智能化的基礎設施管理,如動態擴容與節能調度,提升服務質量與成本效益。整體來看,強化學習在云計算中的廣泛應用不僅顯著提高了系統性能,還為下一代智能化云服務架構的創新提供了重要支持。3.1.6大模型技術及其應用大語言模型(LLM)是基于神經網絡的大規模預訓練模型,語言模型發展經歷了四個階段:統計語言模型、神經語言模型、預訓練語言模型及大語言模型。自 2017 年 Google 提出 Tran
172、sformer 架構以來,大模型經歷了快速發展,從 BERT、GPT 等基礎模型到更復雜的指令調優模型,參數規模達到數十億至數千億級別。在此過程中,尺度定律(Scaling Law)揭示了模型規模、數據量和性能之間的關系,推動了大模型在規?;c效率方面的優化。圖 3.4展示了從 2017 年發展至今具有代表性的大模型。國際上,Google、OpenAI、Meta 等公司不斷推出具有更強理解和生成能力與更多模態的模型,如 Gemini、GPT-4o、LLaMA等。與此同時,中國的百度、華為、阿里巴巴、清華大學等團隊也在大模型領域取得了重要突破,推出了如 ERNIE、PanGu、Qwen、Chat
173、GLM 等具有多模態融合和產業化應用能力的模型。到 2024 年,國內大模型在多模態理解、垂域行業賦能方面實現了全面提升,特別是阿里云的通義千問、字節跳動的豆包,以及初創團隊推出的月之暗面 Kimi 和階躍星辰 Step-2 等,電信也推出了星辰大模型 TeleChat 176,推動了國內大模型賦能千行百業和核心競爭力的全面躍升。相比于預訓練語言模型,LLM 不僅模型規模更大,而且語言理解與生成能力更強,尤其是出現了小3.1.研究圖譜及其產生:賦能云計算和云網融合的智能算法312017/2018201920202021202220232024GPTBERT TransformerGPT-2GP
174、T-3Web-GPTChat-GPTGPT-4GPT-4oChatGLMT5QWENDoubaoPanGuLLaMAOPTErnieKimiBARTXL-NetLongFormerSelf-InstructGShardT0PLUGFLANPaLMGLMWeLMErnie 3.0 Titan BLOOMHunYuanClaudeGemini MiniMaxSenseNovaDeepseek-R1Step-2OpenAI o1Claude-3Dracarys 2國產大模型TeleChatBaichuan 2Gemma 2Llama 2圖 3.4:代表性大模型發展歷程。模型不具備的“涌現能力”,具體
175、而言,LLM 能夠通過以下方式實現創新:(1)上下文學習 154,允許模型在推理時通過提示中的少量樣本快速適應新任務;(2)指令跟隨 177,支持模型在缺乏明確示例的情況下,根據抽象任務指令完成多樣化需求;(3)多步推理 178,通過“思維鏈”提示將復雜問題分解為多個中間推理步驟,顯著提高解決復雜任務的能力。此外,LLM 可以通過集成檢索外部知識和工具,在信息交互與執行任務的效率上進一步優化,同時通過引入反饋機制(如 RLHF 算法)持續改進模型的生成質量和用戶適配能力。這些特性使得 LLM 能夠在跨領域任務中表現出前所未有的靈活性與智能性,從而推動了智能應用的邊界。LLM 的構建涵蓋從數據預
176、處理到模型優化的多個關鍵階段,每個階段通過特定技術手段共同提升模型的質量與效率,最終實現對多樣化用戶需求的高效響應與生成能力 179,技術包括:(1)數據清理180:包括數據過濾(去除噪聲、處理異常、解決數據不平衡、文本預處理)和去重,目標是提高數據質量,確保模型在干凈且高質量的數據上進行訓練。(2)分詞:將原始文本轉換為模型能夠理解的符號,常用的方法包括字節對編碼、詞片編碼和句子片編碼。(3)位置編碼:在模型中加入序列信息,使得模型能夠理解輸入詞匯的相對位置,包括絕對位置編碼、相對位置編碼、旋轉位置編碼 181 和相對位置偏差。(4)模型架構:確定模型的基礎結構,影響模型的表達能力;包括只使
177、用編碼器 182、只使用解碼器、以及編碼器-解碼器等不同的架構類型。(5)模型預訓練:使用大規模無標簽數據進行預訓練,目標是學習通用的語言表示,常見的方法包括掩碼語言模型、因果語言建模、下一句預測以及混合專家 157等。(6)微調和指令調優:在特定任務或領域數據上對預訓練模型進行微調,包括監督微調、通用微調、多輪指令微調以及指令跟隨。(7)對齊:使得模型生成符合用戶需求的輸出,包括監督學習、人類反饋強化學習、直接偏好優化以及 Kahneman-Tversky 優化 183 等。(8)解碼策略:確定生成文本的方式,常見的方法有貪婪搜索、束搜索、Top-k 采樣和 Top-p 采樣。(9)高效訓練
178、/推理、適應/壓縮:降低模型的計算和存儲成本,代表性方法包括零冗余優化器、加權鍵值接收、低秩適配 158、知識蒸餾和量化等。LLM 的可解釋性研究在自然語言處理領域至關重要,直接關系到模型的透明性、可信度與倫理性應用。目前的研究方法主要分為兩大類:(1)局部分析:聚焦于模型對特定輸入的預測機制,常見方法包括特征歸因解釋 184 和 Transformer 塊分解 185。前者通過為輸入詞元分配相關性評分來量化其對模型預測的貢獻,后者則深入研究 Transformer 模型中注意力機制與前饋網絡的交互過程。(2)全局分析:側重于揭示模型中編碼的語言知識與行為能力,代表方法包括探測模型的隱藏表示
179、186 與機制解釋性 187。探測方法通過在模型激活值上訓練分類器,揭示模型中學到的語義與句法信息,而機制解釋性則通過計算子圖發現(Circuit discovery)、因果追蹤與詞匯透視等方法,解構深度網絡的推理機制與內部結構。未來,研究人員將繼續探索更具擴展性與通用性的解釋性技術,推動大型語言模型在多樣化應用中的透明性與可控性發展。云計算環境常涉及大規模、分布式的系統架構,任務和數據具有高度的動態性、復雜性和異構性。LLM能夠從結構化(如配置文件、監控數據)與非結構化數據(如日志、錯誤報告、用戶反饋)中提取有效信32CHAPTER 3.智能算法賦能的研究表 3.2:研究熱度分析:各類智能算
180、法在各個云計算和云網融合研究熱點上的應用熱度智能算法研究熱點數據管理負載預測/均衡參數調優調度/編排故障診斷優化理論凸(非凸)優化組合優化元啟發優化圖算法圖劃分圖匹配路徑發現密集子圖識別博弈論深度學習卷積神經網絡循環神經網絡圖神經網絡生成對抗網絡強化學習在線學習深度強化學習大模型息,并結合跨平臺的數據源進行深度分析。通過其強大的語言理解與生成能力,LLM 能夠有效處理云計算系統中的多維度信息,支持跨數據源的整合與分析,自動化地進行決策和優化。在如故障診斷、資源管理、配置優化、安全防護等場景中,LLM 都能夠提供解決方案,提升云計算系統的智能化、自動化和高效性,使其成為推動現代云計算系統發展的新
181、興重要技術。3.2研究洞察:智能算法驅動的云計算和云網融合研究熱點和難題本節通過調研 NeurIPS、AAAI、NSDI、ASPLOS 等 20 個智能算法和云計算相關會議近 5 年發表的以智能算法賦能云計算智能化為主題的 200 余篇論文,系統梳理了該領域中研究者們重點關注的研究方向。具體而言,遵循從基礎設施即服務(IaaS)到軟件即服務(SaaS)這一自底而上的業務邏輯,深入分析云計算中的智能化需求,最終對現有文獻進行全面梳理,重點涵蓋數據管理、工作負載預測與均衡、參數調優、調度與編排、故障診斷等核心問題(如下所示)。針對這些問題,每小節將首先介紹其定義、目標與挑戰,并概述最具代表性的智能
182、算法解決方案。此外,表 3.2 統計整理了各類智能算法在云計算和云網融合研究熱點上的應用熱度,直觀展現不同算法在當下前沿技術融合進程中的活躍程度差異,旨在幫助讀者理解技術趨勢,并為后續研究提供方向性指導。研究熱點和難題1.數據管理:如何通過高效手段實現海量數據的存儲、檢索、緩存及優化利用?2.工作負載預測與均衡:如何通過精準的負載預測與資源分配,優化資源利用率,高效應對突發負載,最大化云計算平臺性能?3.參數調優:如何在數據庫系統配置及任務參數優化方面提升資源利用率和系統效率?4.調度與編排:在多任務、多資源環境下,如何合理分配計算資源并高效調度任務執行?5.故障診斷:如何快速定位故障根因及其
183、影響范圍,確保系統的穩定性和高可用性?6.其他研究熱點:在云計算與大規模分布式系統快速發展的背景下,除了上述關鍵問題,還需關注諸如程序設計、軟件安全、網絡設計與配置等領域的重要研究問題。3.2.研究洞察:智能算法驅動的云計算和云網融合研究熱點和難題333.2.1數據管理中的智能算法研究數據管理旨在通過技術手段優化分布式系統中的海量數據存儲與利用,是云計算領域的重要研究方向。其主要目標是利用高效的技術手段,實現分布式系統中海量數據的存儲、檢索、緩存和優化利用。在技術層面,數據管理依托分布式存儲系統,如分布式文件系統、對象存儲和數據庫系統,提供高可靠性和高彈性的存儲解決方案。此外,數據庫檢索技術通
184、過索引構建、查詢優化和分布式查詢執行,能夠加速復雜數據的訪問和分析,提升系統性能。緩存技術則通過存儲熱數據及中間計算結果,顯著提高系統響應性能,降低訪問延遲,進一步優化數據流轉過程。除這些核心技術外,數據一致性協議、事務處理、分片與重分布、數據壓縮與去重等技術也是數據管理的重要組成部分,旨在進一步提高系統的性能、可靠性以及成本效率。隨著云計算向邊緣計算、混合云和多云架構方向演進,數據管理的關注點逐漸轉向動態數據遷移、跨區域數據共享、隱私與安全保護等前沿領域,這為分布式數據處理的高效性與智能化提供了新的思路與解決方案。在數據管理建模中,圖算法作為一種關鍵工具,能夠顯著提升數據存儲效率與數據庫查詢
185、性能。在數據存儲方面,為了最小化數據存儲的資源能耗,相關研究 188 提出了一種基于圖覆蓋模型的能效存儲策略,該策略通過選擇最小邊覆蓋,找出滿足數據可用性要求的最小數據節點集合,從而關閉不必要的服務器以節省能耗。此外,為了降低數據訪問延遲,一種基于圖劃分的數據存儲算法 189 也被提出,該算法綜合優化圖劃分和數據復制策略,將數據高效分布存儲于不同的數據中心,有效縮短數據訪問路徑。在圖數據庫查詢方面,使用場景主要分為實時查詢和離線數據分析。在實時查詢中,常用的算法包括圖遍歷搜索算法和路徑發現算法(如最短路徑算法、最小生成樹算法等 190,并支持高級查詢需求,例如頻繁子圖挖掘 161、子圖匹配查詢
186、 191 和社區搜索 192 等。為滿足復雜網絡分析需求,大多數圖數據庫已經集成了這些常見算法,以便更高效地從復雜圖數據中挖掘價值信息。而在離線數據分析中,圖算法則根據不同的目標提供多種方法,例如路徑查找算法 193 用于最短路徑搜索,中心性分析用于識別關鍵節點,鏈路預測 194 用于推測節點間潛在關系,以及社區發現算法 195 用于揭示網絡的分組結構。這些算法通過從復雜網絡中提取有用信息,為研究人員更好地理解數據結構特性提供了有力支持。相比于傳統索引方法,學習型索引在數據管理領域展現了新的潛力,尤其在高效數據查找與操作性能優化方面具有顯著優勢。相關研究團隊 81 針對學習型索引的性能表現,構
187、建了一個測試平臺,對其在、鍵查找、插入、并發操作和批量加載等關鍵組件中的表現進行了系統性比較。在模型設計上,該團隊優先選擇非線性模型以提升預測精度;在插入策略上,結合 Delta 緩沖區與結構化調整,有效降低模型重訓練的開銷;在并發操作中,通過改進鎖機制大幅提升操作效率;而在批量加載環節,則采用基于成本模型的節點劃分方法優化了加載性能。實驗結果表明,學習型索引在簡單數據分布和讀密集場景中表現尤為突出,不僅實現了更高的查找效率,還為未來學習型索引的設計與優化提供了寶貴參考。這一研究進一步拓展了數據管理領域的技術邊界,與圖算法在數據存儲和數據庫查詢優化中的應用相輔相成,共同推動了數據管理的智能化發
188、展。3.2.2工作負載預測與均衡中的智能算法研究工作負載預測與均衡通過精確負載預測和有效資源分配來優化資源利用率,旨在高效應對突發性負載,最大限度提高云計算平臺的經濟性、性能和服務質量。然而,實現這一目標面臨多個關鍵挑戰。包括:(1)工作負載具有很強的動態性和不可預測性,尤其用戶行為的多樣化和突發性的請求峰值導致資源需求經常劇烈波動。(2)云環境高度復雜,由多層次的資源(如計算、存儲和網絡)組成,各資源間的相互依賴增加了預測與均衡難度。(3)為了保證云平臺服務的連續性與高效性,資源調度需要實時響應,而實現實時的高效決策極富挑戰性。傳統的工作負載預測和均衡方法通?;陟o態閾值、預定義規則或者簡單
189、的歷史平均值來進行預測和決策。這些方法在面對高度動態、復雜和不確定的工作負載時效率低下,難以處理突發事件。而 AI 解決方案則通過數據驅動的方式,動態地學習和適應復雜的工作負載模式,降低運營成本,減少對人工干預的依賴,最終推動云計算平臺向更加自主、智能和高效的方向發34CHAPTER 3.智能算法賦能的研究展。本節將簡要介紹針對該問題的經典 AI 解決方案,展示該方向的主流技術思路。圖結構能夠有效刻畫節點間的關聯關系,捕捉數據中的復雜模式和動態變化,尤其適用于描述工作負載的時間依賴性和空間關系。與傳統方法相比,圖建模在處理高維度、非線性以及時序變化問題時具有更強的能力,因此在工作負載預測中展現
190、出明顯優勢。例如,相關研究團隊 196 發現,盡管工作負載的資源使用模式在短期內較為穩定,但在長期范圍內會發生顯著變化?;诖?,他們首次提出了基于圖神經網絡的進化學習算法 EvoGWP 來預測長期動態變化。該方法通過自動提取形狀元(shapelets)顯式識別工作負載的資源使用模式,并同時考慮時間和空間因素進行預測。阿里巴巴、騰訊和 Google 數據集上的實驗結果表明,EvoGWP 相較現有方法,其預測準確度最高提升了 58.6%,同時模型收斂速度更快。優化算法,尤其是強化學習和啟發式算法,因其在應對動態環境中的不確定性和復雜性方面的優勢,已成為解決工作負載均衡問題的有效工具。具體地,研究團
191、隊針對邊緣計算中節點計算能力和成本的高動態性與不確定性,提出了基于預測的動態任務分配算法 197,利用指數平滑法(EMA)和 ARIMA 模型預測節點計算能力和成本,并結合歷史數據學習最優分配策略(PA-OPT 算法)。此外,團隊還設計了基于強化學習的在線任務分配算法,實現了實時任務優化和工作負載均衡。實驗結果表明,PA-OPT 算法在計算能力可預測的環境中接近離線最優解,而強化學習在低預測性環境中表現突出,有效提高了工作負載均衡,并降低了任務完成時間和系統成本。此外,相關研究團隊為優化負載均衡并降低運營成本,提出了結合在線與離線的啟發式算法 198,通過任務依賴圖模型進行虛擬機放置。而針對現
192、有方法未能保證任務執行順序、明確截止期限以及高執行成本的問題,研究者將任務最早完成時間預測與基于蟻群優化的元啟發式方法結合 199,通過最小成本和截止期限對任務排序,計算最優成本和實際完成時間,并將任務分配至成本最低、完成時間最短的虛擬機。接著,根據完成時間的閾值確定未充分利用的虛擬機,利用人工螞蟻在虛擬機間轉移負載,實現負載均衡。3.2.3參數調優中的智能算法研究參數調優是優化系統性能、提升資源利用率的關鍵環節,在數據庫系統配置、任務參數配置優化等方面有著廣泛的應用。然而,由于云計算相關應用涉及計算、存儲、網絡等多方面要素,參數設置非常復雜,依靠人力及專業經驗進行參數調優,往往只能找到次優配
193、置。另一方面,云計算場景中任務負載及資源狀態不斷變化,具有高度動態性,任務參數或數據庫服務配置都需要及時調整以適應變化,人力調優成本高且易出錯,無法滿足這種需求。為了應對參數空間復雜以及系統動態變化的挑戰,智能化參數調優在云計算中的應用是近年來的研究熱點。以強化學習、在線學習、大語言模型為代表的技術可以較好的適應動態變化的環境,通過與環境交互并進行增量學習,在系統運行過程中逐步優化參數設置,并有效的降低參數搜索空間的復雜性,為解決參數調優問題提供了新的思路。利用在線學習技術評估任務參數對最終性能的影響,并動態的調整參數設置,能夠將參數調優整合到系統本身的運行過程中,省去離線性能測試的開支,是參
194、數調優相關研究的代表性方法。針對計算集群中神經網絡模型訓練任務的參數調優場景,相關研究團隊從優化云計算平臺能源效率的角度出發,設計了基于在線學習技術的調優框架 Zeus 200。這一框架以在線的方式對神經網絡訓練任務進行性能分析,將探索利用相結合,能夠深入分析能源效率和模型訓練性能之間的權衡,為訓練任務尋找最優的作業級和 GPU 級配置。在實際云計算平臺上的實驗表明,這一工作避免了昂貴的離線測試,能夠適應數據的動態變化,將不同類型任務的能源效率提高了 15.3%到 75.8%,極大的降低了平臺運營成本。利用大語言模型進行數據庫系統性能調優是目前的研究熱點。相關研究團隊研究團隊先后提出了DB-B
195、ERT 201 和-Tune 202。DB-BERT 基于 BERT 模型微調權重,使用數百份關于數據庫調優的文本文檔作為輸入,將自然語言提示轉化為推薦設置,并通過強化學習指導調優設置的選擇。-Tune 是一個基于大語言模型的數據庫系統自動調優框架,這一框架通過生成完整的輸入文檔來描述調優上下文,生成調優配置腳本,可以生成多種候選配置,并采用系統化的策略選擇最佳配置。國內阿里巴巴團隊提出的DB-GPT 203 包括檢索增強生成(RAG)知識系統、自適應學習機制,以及一個服務導向的多模型框架3.2.研究洞察:智能算法驅動的云計算和云網融合研究熱點和難題35(SMMF),并配備了強大的數據驅動代理
196、。DB-GPT 的核心創新在于其私有 LLM 技術,經過針對領域特定語料庫的微調,以確保用戶隱私并保障數據安全。這三項工作展示了大語言模型在數據庫領域的廣泛應用,特別是在自動調優、SQL 查詢生成和數據庫系統的自然語言交互方面,推動了技術創新和用戶體驗的提升。3.2.4調度與編排中的智能算法研究調度與編排是計算資源管理中的核心問題,旨在有效地利用有限的資源,滿足不同任務的需求,并優化系統整體性能。調度與編排的關鍵在于如何在多任務、多資源環境下,合理地分配計算資源并安排任務的執行。在云計算場景中,資源的分配和任務調度受到任務負載、資源種類(如 CPU、內存、存儲)、網絡帶寬等因素的影響。此外,隨
197、著任務負載和資源需求的不斷變化,調度和編排需要具備一定的動態適應能力。因此,這一問題不僅僅是單一的資源分配問題,而是涉及多個維度和復雜優化目標的多目標決策問題。網絡及云計算的很多場景均涉及到調度及編排問題,在云計算平臺上,資源調度和任務編排是云服務提供商運營的關鍵,常見的應用場景包括虛擬機和容器的分配、彈性擴展、負載均衡等;在云邊端協同和物聯網場景中,任務調度和資源編排的復雜性進一步增加,因為資源通常是分布式和異構的,常見的應用包括邊緣計算任務的卸載、聯邦學習任務的分配;在分布式數據庫場景中,任務調度和資源編排主要涉及查詢請求在不同機器間的分配、存儲的管理,典型應用場景包括查詢優化、負載均衡、
198、數據遷移與副本管理。在網絡及云計算相關應用中,調度與編排問題面臨著以下三方面的挑戰。(1)資源和負載動態變化:云計算、網絡以及物聯網環境下,任務的負載和資源的可用性常常是動態變化的。任務負載的變化可能是由于用戶需求的波動、系統性能的變化,或者是因網絡帶寬、設備故障等外部因素引起的。因此,調度系統需要具備強大的動態適應能力,能夠實時監測系統狀態并根據變化進行資源重新調配。(2)任務間存在依賴和協同關系:云計算平臺上的許多任務具有前后依賴關系,需確保調度時序正確;任務也可能需要多種資源(計算、存儲和網絡),需協調分配。(3)優化目標多樣化:由于云計算平臺涉及租戶和平臺兩方,且對外提供 IaaS、S
199、aaS、PaaS 層面的多種服務,進行編排調度時需要在多種指標間權衡,包括資源利用率、延遲、能耗、吞吐量等。此外,在調度中需保證多租戶間的公平性,同時兼顧整體性能。針對這些技術挑戰,業界及學術界開展了豐富的實踐和研究,利用包括優化算法、博弈論、強化學習在內的多種工具,在算法設計及系統實現上持續創新,為云計算和網絡的發展提供了關鍵的支撐。接下來,我們對近些年出現的針對調度及編排的典型工作進行更詳細的介紹?;趫D算法的調度與編排研究往往利用圖結構描述任務間的通信和依賴關系,以網絡成本、能源效率、負載均衡和響應延遲為優化目標。針對降低網絡成本和通信延遲的目標,可利用圖劃分算法或圖聚類算法將虛擬機劃分
200、群組,將同群組虛擬機集中放置,以實現最小化網絡成本 204,205。針對優化設備能效的目標,首先通過圖劃分技術將虛擬機分組,以減少跨分區的通信流量,然后結合 Bin Packing(BP)算法,進一步優化分組結果以減少交換機使用數量和能源消耗 206?;诓┺恼摰乃惴ㄔ谫Y源調度與編排方面,通常用于解決與經濟相關的問題,如定價、資源組合策略或經濟方面的優化。在多云協調良好的聯邦云中,基于合作博弈論的方法可以最大化買方利潤或賣方社會福利。當完整的信息可用時,研究者主要采用集中式算法和動態規劃,當信息不完全時,則采用分散式算法。在無合作的多云環境中,研究者采用非合作博弈論分析和設計了多方競爭資源采購
201、的定價方案,并證明了在一些特定情況下,只存在一個納什均衡,驗證了 StackelBerg 平衡點的存在性和唯一性。圖神經網絡和強化學習技術能夠較好的捕獲負載在時空上的相關性,適應動態變化的系統,在協調分布式數據中心并降低運營成本中得到了廣泛的應用。研究者將多數據中心任務調度問題和資源擴展問題進行聯合優化,提出了基于圖神經網絡和強化學習的雙時間尺度優化框架 207。短時間尺度的任務調度可以快速緩解計算任務的突發到達,而長時間尺度的資源擴展可以很好地適應工作負載的長期變化。實驗結果表明,該算法能夠在保持合理成本的同時,減少任務完成時間和任務超時率。36CHAPTER 3.智能算法賦能的研究3.2.
202、5故障診斷中的智能算法研究在云計算領域,故障診斷的核心目標是確保系統的穩定性與高可用性,通過迅速定位故障根源及其影響范圍來防止故障蔓延。故障診斷通常從異常檢測開始,首先通過監控系統中的關鍵指標和日志,識別出偏離正常行為的異常情況,例如資源使用超出閾值、服務延遲增加等。這些異常信息為后續的故障診斷提供了初步的警報和癥狀描述,幫助及時發現潛在問題。一旦發現異常,故障診斷進入深入分析階段,進一步利用監控數據和日志,通過事件追蹤技術識別故障組件,進而找出根本原因和故障的影響范圍。為了實現這一目標,現代故障診斷采用了多種先進技術,如聚類算法、圖算法、大語言模型等。這些技術幫助系統在云計算環境中進行高效的
203、故障定位和恢復,確保及時應對復雜、動態的故障場景。在大規模分布式系統中,圖算法憑借對節點之間關聯性的揭示,能夠有效識別故障的根本原因,并借助圖聚類和鏈路預測等技術實現精準定位與主動預防。圖聚類算法能快速定位并隔離具有相似故障特征的節點,而鏈路預測算法則有助于識別潛在的故障鏈路,支持故障的主動防范。相關研究團隊 208 提出了基于圖神經網絡的微服務異常檢測方法 DeepTraLog,使用統一的圖表示來描述調用軌跡結構,并將日志事件嵌入其中,獲得了高精度的異常檢測結果。由于微服務架構中服務之間依賴關系復雜,根因分析尤為困難。對此,有研究團隊將軌跡數據構建為服務依賴圖結構,借助圖相似性和圖匹配算法,
204、將系統圖與以往異常圖進行比對,從而實現有效的根因分析 209。除上述技術外,深度學習與大語言模型也為故障診斷注入了新的活力。相關研究團隊 210 提出了一種基于時間卷積網絡(TCN)和自編碼器(AE)的無監督異常檢測方法,能夠在傳感系統故障導致的數據異常中,通過重構誤差識別異常,并結合自適應閾值算法,有效提升檢測精度,克服傳統固定閾值方法導致的誤判與漏判。在微服務架構中,大語言模型能夠自動識別故障源并提供修復建議,通過分析微服務之間的交互和依賴關系,實現高效的故障診斷。此外,LLM 在云原生管理平臺中的應用也逐步完善,如 Kubernetes 中的 GenKubeSec 和 K8sGPT 工具
205、,已成功實現配置檢測、故障修復以及自然語言生成診斷報告,極大地簡化了故障診斷流程并提高了修復效率。3.2.6其他研究熱點在云計算和大規模分布式系統的快速發展過程中,除了前述關鍵問題外,還有許多研究熱點亟待深入關注,例如軟件開發、軟件測試、數據庫交互、網絡設計與配置等。這些領域直接影響系統的穩定性、安全性以及高效的設計、開發與管理。隨著云環境中設備的異構性和網絡復雜性日益增長,如何有效提升程序設計與測試的效率,保障軟件的安全性,以及實現網絡配置和管理的智能化,已成為學術界與工業界廣泛探討的重要課題。程序設計。在云計算環境中,程序設計面臨諸多挑戰,尤其是軟件開發、測試及數據庫交互方面。LLM的應用
206、成為解決這些問題的重要方向,通過智能化工具顯著提升云服務的開發、部署與維護效率。在軟件開發中,LLM 簡化了需求收集、系統設計及編程支持流程,例如 GitHub Copilot 通過代碼自動補全和問題解決,大幅縮短開發時間。在軟件測試領域,LLM 提升了代碼測試覆蓋率和漏洞檢測能力,例如 Meta 的TestGen-LLM優化了Instagram的測試流程,使更多代碼能快速進入生產環境211。在數據庫交互中,LLM驅動的 Text-to-SQL 技術顯著降低了非技術用戶的數據查詢門檻,例如 DIN-SQL 212 和 DAIL-SQL 213增強了查詢效率及分析能力。網絡設計與配置。在云計算和
207、大規模分布式系統中,異構設備的多樣性和網絡性能需求增加,使得網絡設計與配置復雜化。LLM 輔助網絡設計與配置成為新興研究方向。在網絡設計中,LLM 通過分析設備性能指標和歷史模式優化設備選擇與網絡規劃,提升效率與彈性。在網絡配置中,LLM 簡化了復雜的設備配置流程,推動自配置網絡的發展,減少人為錯誤并提高系統穩定性。例如,ChatNet 214 結合多模塊和工具集成實現高效的網絡規劃解決方案,GeNet 215 通過多模態交互優化拓撲設計和設備配置。這些技術推動了網絡設計與管理的智能化發展,為云計算的穩定與高效運行奠定了基礎。3.3.智能算法研究的展望和發展建議37圖 3.5:智能算法研究圖譜
208、技術成熟度曲線 20243.3智能算法研究的展望和發展建議基于技術成熟度曲線的分析方法 216(如圖 3.5 所示),智能算法領域正沿著這一曲線持續演進,不斷推動云計算的智能化轉型。本節將聚焦大模型與深度學習、圖算法以及優化技術三大關鍵方向,通過分析其未來研究方向和關鍵技術,探討智能算法在賦能云計算生態系統中的作用,并提出針對性的發展建議,為智能算法的研究與應用提供有力支持。3.3.1智能算法的未來研究方向和關鍵技術展望大模型與深度學習正推動云計算智能化與應用創新,核心方向涵蓋隱私優化、自動化運維、增強軟件工程及內容生成,為未來云平臺升級提供關鍵支撐。云計算平臺的彈性與高并發特性,結合大模型及
209、深度學習的預測與推理能力,可進一步推動云計算智能化的變革升級。關鍵研究方向與技術包括:(1)聯邦機器學習的隱私保護與資源優化。在分布式數據環境下研究聯邦學習算法,解決數據隱私保護與跨節點計算資源優化的問題,實現云邊協同的智能模型訓練。(2)智能運維實現自愈與優化。應用深度學習與大模型技術實現運維自動化,聚焦故障診斷、根因分析、預測性維護等場景,提升大規模云平臺的穩定性與運維效率。AI 增強軟件工程促進開發效率。通過大模型技術支持自動代碼生成、測試用例生成和代碼優化,提高云計算相關軟件開發的效率和質量,減少開發周期。(3)生成式 AI 推動云端服務創新。研究生成式 AI 在文本、圖像、視頻等生成
210、任務中的應用,推動智能內容生成和創新型云服務的落地。圖算法通過對依賴關系的建模,能夠為復雜系統提供可靠、高效的解決方案,在優化云計算系統的性能、提升資源利用效率以及實現智能化管理方面展現出廣闊的應用前景。通過對復雜問題進行建模,可推動云計算系統的智能化運行。關鍵研究方向與技術包括:超圖通過超邊有效建模多個節點之間的高階關聯,為云計算中的多維復雜數據分析提供了新的思路。超圖算法將在數據中心的資源管理、網絡性能優化以及復雜任務分解等方面發揮更大作用,推動高階關系建模的深入研究與應用。圖劃分技術在分布式計算、資源管理中至關重要。未來的研究將聚焦于開發基于社區結構、節點重要性或通信特性的智能圖劃分算法
211、,減少跨分區通信開銷,優化負載均衡,提升分布式任務執行的效率和穩定性。云計算環境中網絡拓撲和資源狀態隨時間動態變化。通過研究動態圖算法,可以實現對動態網絡結構的實時更新與分析,從而優化資源調度、流量管理以及任務分配,提高系統響應速度和靈活性。結合流計算框架,動態圖分析能夠顯著提升云計算系統在高頻變化場景下的適應能力。將圖神經網絡(GNN)與傳統圖算法相結合,是未來智能云管理的重要方向。GNN 可以通過學習節點和邊的特征,挖掘潛在關聯,實現智能流量預測、異常檢測、任務調度等功能,為云計算系統提供更智能的決策支持。智能優化及序列決策相關技術具有穩定可靠的特點和較好的可解釋性,能夠為復雜系統提供透明
212、、高38CHAPTER 3.智能算法賦能的研究效的解決方案,在資源管理、網絡性能提升和用戶服務中發揮了關鍵作用。通過對復雜問題進行建模和決策,可推動云計算系統的智能化運行。關鍵研究方向與技術包括:在線學習與強化學習優化動態決策。結合在線學習和強化學習技術,設計動態資源分配與負載均衡策略。通過實時反饋機制優化算法性能,適應用戶需求變化,提升系統的靈活性與穩定性。分布式優化助力大規模資源調度。研究云計算平臺中多節點資源分配與調度問題,結合分布式計算與通信優化,支持大規模任務的高效分配與協同執行,實現跨區域云資源的全局最優管理。在線凸優化支持實時定價與需求預測?;谠诰€凸優化技術,開發實時定價模型與
213、用戶行為預測算法,動態調整云服務價格策略與資源配置,提升收益與用戶滿意度,實現服務與需求的精準匹配。3.3.2智能算法的發展建議大模型與深度學習驅動云計算智能化升級。隨著云計算平臺的持續演進,智能化與自動化資源管理、個性化交互體驗和開發流程優化正成為提升云服務效率和用戶滿意度的關鍵方向。在資源管理方面,通過大模型和深度學習的負載預測、異常檢測和實時分析,云資源可以在高并發場景下精準調度,避免資源浪費或不足。例如,基于 LSTM 的時間序列預測模型可提前識別訪問流量高峰,而自動編碼器則可及時檢測硬件故障或網絡瓶頸,實現自動化修復。個性化服務方面,基于用戶行為和偏好建模的深度學習算法推動了 Saa
214、S 平臺的界面優化和功能推薦,結合多模態智能客服技術,顯著提升了用戶交互的精準度與效率。開發流程方面,利用自然語言接口生成架構設計和 API 定義,結合深度學習進行性能分析和自動化測試,正推動云計算開發流程的智能化轉型。未來,跨云和跨數據中心的智能化、自動化資源調度、服務定制和開發工具將進一步提升系統的穩定性、靈活性和創新性,有效降低運維和開發成本。圖算法推動研究熱點與實際場景需求的深度融合。企業在針對復雜問題進行建模時,應結合自身業務特點,精準聚焦云計算領域的核心應用場景的真實問題。同時,將這些實際需求與當前研究熱點深度結合,不僅能夠加速技術成果的落地轉化,還能顯著提升企業的技術競爭力,推動
215、行業的持續創新與高質量發展。建議企業通過建立聯合實驗室或研發合作項目,將實際問題與學術研究相結合,以更高效地探索前沿技術的應用潛力。作為當前研究的熱點之一,圖算法以其在建模復雜關聯關系中的突出優勢,能夠為資源調度、負載均衡、網絡優化等實際場景需求提供高效的解決方案。因此,圖算法也成為企業技術創新的理想切入點,助力技術理論與實際需求的深度對接,為推動行業智能化發展奠定了堅實基礎?;趦灮碚撆c智能算法提升云計算系統的效率、穩定性和可解釋性。隨著云計算和網絡系統向規模更大、協同更復雜、場景更多元的方向發展,資源調度、網絡優化和系統設計面臨著動態性增強和不確定性加劇的挑戰。提升系統的決策效率、增強運
216、行的魯棒性并確保優化過程的透明性,是支撐未來發展的核心需求。在資源分配中,凸優化與隨機優化能夠高效應對動態需求,結合在線學習技術可實現透明化與實時性;在網絡優化中,強化學習結合組合優化可為動態路徑調整提供可靠性保障;在復雜系統設計中,在線學習與強化學習通過持續優化和反饋機制,可助力數據中心的能耗管理與服務質量提升。建議持續深化優化理論與智能算法在實際場景中的研究與實踐,為未來云計算與網絡系統的可持續發展提供技術支持。第 四 章面向新興技術的研究在全球科技革命與產業變革加速演進的當下,新興技術產業已成為推動經濟高質量發展的關鍵引擎。我國高度重視新興技術產業發展,出臺了一系列政策戰略文件加以引導和
217、支持,為產業蓬勃發展創造了良好環境。與此同時,中國電信作為通信領域的領軍企業,積極響應國家戰略,在新興技術產業布局中展現出強大的引領和推動作用。云計算作為新興技術產業的核心基礎設施和關鍵支撐,在我國的政策戰略布局中占據重要地位。例如,“十四五”數字經濟發展規劃明確提出要推動云計算等新興技術在各領域的深度應用與融合創新,為數字經濟發展提供有力支撐。在這一政策指引下,中國電信于 2020 年啟動“云改數轉”戰略,以云計算為核心,大力推動企業自身數字化轉型,并助力千行百業上云,實現全社會的數字化變革。近年來,中國電信在新興技術產業領域持續發力,2023 年提出全面布局云計算及算力、大數據、人工智能、
218、安全、量子、數字平臺、新一代信息通信等七大戰略新興業務。通過持續加大技術創新和資源投入,中國電信不僅在國內云計算市場取得了顯著進展,如天翼云形成了全球“9+30+X+N”的云資源布局,實現了“集中化+區域化+屬地化+邊緣化”的云網基礎設施,具備了超過 113T 的帶寬能力,還在國際舞臺上展現出強大的競爭力,開啟了海外業務拓展的新篇章。在云計算技術的強勁賦能與中國電信等企業的積極推動下,新興技術產業呈現出多元融合、蓬勃發展的態勢。云計算所提供的強大的計算能力、靈活的資源調配以及可靠的數據存儲與管理功能,為工業互聯網、空天地海一體化信息網絡、智慧交通、政企數字化轉型、醫療信息化、教育智能化以及金融
219、科技化等多領域的創新應用搭建了堅實的舞臺,催生出一系列極具潛力與變革性的新興業態。本章將深入剖析上述云計算相關重點領域的發展現狀、面臨的挑戰、關鍵技術和研究熱點,并對未來發展提出建議。工業互聯網智慧交通智慧醫療智慧政企智慧教育.新興產業安全隱私保護訪問控制資源隔離攻擊檢測云邊協同移動計算邊緣智能最優化調度協同推理模型遷移空天地一體化移動自組網霧計算、Cloudlet聯邦智能多智能體協同邊緣智能系統可靠故障/災難隔離 可觀測性與預測分析智能運維研究熱點及難題圖 4.1:面向新興技術的研究圖譜:云計算與云網融合在新興產業的應用與關鍵技術40CHAPTER 4.面向新興技術的研究4.1研究圖譜及其產
220、生:面向新興技術的云計算與云網融合研究當前,云計算和云網融合技術正廣泛應用于工業互聯網、智慧交通、智慧醫療、智能政務和智慧教育等新興領域。這些應用又涵蓋了云邊協同、移動計算、邊緣智能、安全以及可靠性等關鍵技術的研究和實踐。為便于直觀理解云計算與云網融合在新興產業的這些應用與關鍵技術,本節在第一章和第二章研究架構之上,給出面向新興技術的云計算與云網融合研究圖譜,如圖 4.1所示。本節的后續內容,將分別介紹云計算和云網融合相關的新興技術產業分析、云計算和云網融合面臨的挑戰,以及國內外云廠商支撐新興技術產業的案例。4.1.1產業分析:云計算和云網融合相關的新興技術產業工業互聯網是指新一代信息通信技術
221、與工業經濟深度融合的新型基礎設施、應用模式和工業生態。它通過人、機、物的全面互聯,實現全要素、全產業鏈、全價值鏈的全面連接,將工業生產過程中的各類數據進行采集、傳輸、存儲和分析處理,從而驅動工業生產方式和企業形態的根本性變革,提高工業經濟的質量和效益。工業互聯網借助云計算的虛擬化、分布式計算、彈性擴展等特性,能夠快速響應工業生產中的各種需求變化,實現工業資源的優化配置和協同共享。在全球工業互聯網發展進程中,政策引導的重要性不言而喻。國際上,美國政府提出“工業互聯網參考架構”等概念,美國國家標準與技術研究院(NIST)制定標準并以稅收優惠激勵企業創新;德國“工業 4.0”戰略通過政策與資金扶持企
222、業創新,且在國際標準制定方面積極作為,提升其全球話語權,各方政策共同推動工業互聯網在全球范圍內的發展與變革。我國極為重視工業互聯網發展,相繼出臺了諸如工業互聯網創新發展行動計劃(2021-2023 年)等一系列政策,明確了提升工業互聯網平臺核心能力、推動工業設備和業務系統上云上平臺以及培育新模式新業態等目標,并通過資金扶持、稅收優惠等措施大力促進企業創新應用。智慧交通是指利用新一代信息通信技術對交通系統進行智能化管理、優化和服務,從而提高交通效率、減少擁堵、保障交通安全、降低環境污染,最終實現交通系統的智能化、自動化和可持續發展。其中典型代表是車聯網和低空經濟。車聯網是指以車輛為主體,通過信息
223、和通信技術,實現車內、車與車、車與人、車與路、車與云的互聯互通、信息共享。近年來,我國政府相關部門已出臺了一系列與車聯網相關的政策,鼓勵發展智能網聯汽車、自動駕駛、智能車載系統等領域。低空經濟是指在低空空域范圍內,以無人機和通用航空器為載體,結合信息技術與現代服務業,實現資源整合與經濟增長的新型經濟模式。我國的低空經濟起步較慢,經歷了嚴格管控階段,直到 2021 年,國家綜合立體交通網規劃綱要將低空經濟作為重點打造的交通形態之一,我國低空經濟才進入快速培育期。2023 年,中央經濟工作會議明確提出低空經濟是戰略性新興產業之一。2024 年,低空經濟被寫入國務院政府工作報告。智慧醫療是指一種將現
224、代信息技術與傳統醫療服務深度融合的新型醫療模式,其核心是通過大數據、云計算、人工智能、物聯網等技術手段,優化醫療資源配置、提升醫療服務效率和質量,從而實現“精準診療、便捷服務和高效管理”。與傳統醫療不同,智慧醫療更注重患者體驗,通過技術賦能,讓患者能夠享受到更個性化、更智能化的醫療服務。智慧醫療的具體應用領域包括遠程醫療、智能診斷、健康管理、藥物研發、智能設備監測等。歐盟“數字歐洲計劃”(2021-2027)投入巨額資金發展包括智慧醫療在內的數字化基礎設施,同時鼓勵成員國合作建立跨境醫療數據共享平臺。我國近年來高度重視智慧醫療的發展,并將其納入“健康中國”戰略。早在 2016 年就提出“健康中
225、國 2030”規劃綱要,明確提出要推動“互聯網+健康醫療”模式發展,支持智慧醫療平臺建設。2018 年關于促進“互聯網+醫療健康”發展的意見提出推進互聯網醫院建設、推廣遠程醫療應用、實現線上線下一體化醫療服務?!笆奈濉比窠】敌畔⒒巹澝鞔_指出,深化“互聯網+醫療健康”服務體系,完善健康醫療大數據資源要素體系。此外,我國還在多個試點城市建設智慧醫療示范區,例如上海的長三角智慧健康一體化示范區和杭州的智慧醫療產業園,這些措施為全國推廣智慧醫療提供了寶貴經驗。未來,智慧醫療需要在技術創新和政策引導下不斷完善,實現更大規模的應用和推廣,為全球健康事業作出貢獻。4.1.研究圖譜及其產生:面向新興技術
226、的云計算與云網融合研究41智慧政企是指將新一代信息技術應用于政企管理與服務的新模式,旨在提升政府和企業的數字化治理能力和服務水平。智慧政企通過整合資源、優化流程,實現精準決策、實時響應與高效協作,推動公共管理和企業運營從傳統模式向智能化、數據驅動的模式轉變。智慧政企的應用領域廣泛,主要包括智慧政務、智慧企業管理、政企協同、智慧城市建設等。2019 年美國政府發布的聯邦數據戰略,推動政府數據開放與共享,支持智慧政務與企業數據服務的發展。2023 年,我國中共中央、國務院印發的數字中國建設整體布局規劃中指出要加強數字政府建設,推動政府數字化轉型,促進信息系統網絡互聯互通、數據按需共享、業務高效協同
227、,提升政務數字化服務水平?!笆奈濉蓖七M國家政務信息化規劃提出,到 2025 年,我國政務信息化建設總體邁入以數據賦能、協同治理、智慧決策、優質服務為主要特征的融慧治理新階段。智慧政企是數字化轉型背景下的一項重要發展方向,融合技術創新與管理創新,能夠顯著提升政府治理效率和企業競爭力。智慧教育是指利用新一代信息通信技術,構建數字化、智能化的教育生態系統,以提升教學質量、優化資源分配和個性化學習體驗為核心目標的教育模式。智慧教育不僅關注傳統課堂教學的數字化轉型,還強調通過技術賦能實現“因材施教”,幫助學生自主學習、教師精準教學、學校高效管理,從而推動教育公平與質量提升。2023 年,美國教育部發布
228、人工智能與教學的未來,報告指出美國教育部致力于支持利用人工智能技術改善教與學,并支持整個教育系統的創新。歐盟制定并頒布數字教育行動計劃(2021-2027)提出要發展高效的數字教育生態系統,支持各成員國教育和培訓系統的數字化轉型。2023 年,教育部、國家發展改革委、財政部聯合發布關于實施新時代基礎教育擴優提質行動計劃的意見,意見指出將提升國家中小學智慧教育平臺建設應用水平,加大在智慧課堂、智慧作業、個性化學習等方面的功能,促進優質教育資源廣泛共享。智慧教育是教育領域數字化轉型的重要方向,其通過技術與教育的深度融合,推動教學方式和學習模式的創新,實現資源均衡與教育質量的全面提升。這些新興產業正
229、處于快速發展階段,通過技術創新驅動行業變革。作為數字化轉型的關鍵支撐,云計算以其強大的數據存儲、計算和分析能力,賦能各行業實現資源整合、智能決策和高效協同,為推動產業轉型升級提供了重要技術基礎和發展動力。4.1.2云計算和云網融合面臨的挑戰新興產業蓬勃興起,持續推動著云服務在存儲、計算以及網絡方面的變革,在為數據處理和資源管理開拓新路徑的同時,也引發了諸多挑戰。表 4.1列出了新興技術在推動云計算與云網融合的發展進程中,在存儲、計算及網絡領域,圍繞協同性、移動性、智能性、安全性和可靠性所面臨的新挑戰。妥善應對這些挑戰,是構建高效、安全、可靠云環境的關鍵,對于云技術產業的穩健發展意義重大。接下來
230、,本小節將基于五個性能維度詳細展開介紹。表 4.1:云服務隨著新興產業發展遇到的新挑戰存儲計算網絡協同性數據異構資源差異海量傳輸移動性多源同步能源受限有限覆蓋智能性管理復雜聚合困難通信頻繁安全性數據易泄露資源邊界模糊環境復雜可靠性數據易丟失跨域數據整合高動態環境端云協同面臨著海量異構數據、差異化的設備資源、大規模數據傳輸帶來的挑戰。(1)在存儲方面,終端設備產生海量的監測數據,包括數值型數據、圖像、音頻等多模態數據,而邊緣設備和云上則包含大量結構化數據和非結構化數據。不同類型的數據在存儲需求、存儲格式和訪問方式上都有很大區別,給端云協同存儲系統的設計和管理帶來了復雜性。(2)在計算方面,云邊端
231、各級節點的計算資源和能力存在巨大差異,從高性能的中心云服務器到低性能的終端物聯網設備都參與到數據的處理和存儲中。針對不同能力的云邊端設備,難以使用統一的標準進行任務卸載和資源管理。(3)在網絡方面,隨著大規模邊緣設備的接入,海量數據需要從終端設備或邊緣節點傳輸至云端,以及從云端反42CHAPTER 4.面向新興技術的研究饋處理結果至終端或邊緣,這使得云網絡傳輸的數據量大幅增加,極易導致網絡帶寬擁塞。如何針對海量數據傳輸,提高網絡吞吐量,降低數據傳輸延遲是目前存在的挑戰。動態復雜的移動環境下,多源數據的實時同步、移動設備有限的計算與網絡資源對云服務提出了新的要求。(1)在存儲方面,多個移動設備需
232、要與云端存儲的數據保持一致。然而,在移動網絡環境下,由于網絡延遲、設備性能等因素的影響,數據的同步可能會出現問題,導致不同設備上的數據不一致。如何針對多源移動設備與云端存儲的數據在移動互聯網上維持同步是目前存在的挑戰。(2)在計算方面,移動邊緣設備通常依靠電池供電,能源有限使得其計算單元(如 CPU、GPU 等)不能長時間以高性能模式運行。例如,在一些物聯網傳感器設備中,由于能源限制,其處理器可能會降頻以節省電量。這就導致復雜的計算任務難以在邊緣設備上高效完成。(3)在網絡方面,隨著我國低空經濟和海洋發展戰略的推進實施,云計算的服務區域需要從地面擴展到空域、海域等無人區,為多維空間中的用戶與傳
233、感設施提供立體多維、覆蓋全時、全域、全空間的云網服務。然而,現有通信與算力網絡嚴重依賴地面基礎設施,難以在低空、遠海、荒漠等區域提供高質量服務。云服務的智能化面臨著數據管理復雜、模型聚合困難、通信開銷巨大等一系列新的難題。(1)在存儲方面,智能化依賴的大規模數據通常分布在多個邊緣設備、本地服務器和云端存儲節點上,其分布與一致性管理非常復雜。這種分布式數據的復雜分布增加了數據管理的難度。云存儲系統需要能夠有效地管理這種分布式的數據,確保數據的一致性和完整性。(2)在計算方面,在聯邦智能中,模型通常是在分布式環境下進行訓練和更新的。云計算平臺需要協調各個節點上的模型訓練過程,并將各個節點的模型參數
234、進行聚合和更新??紤]到不同節點的模型質量、數據分布差異等因素,如何確保聚合后的模型能夠準確地反映全局數據的特征,這增加了模型管理的復雜性。(3)在網絡方面,在聯邦智能中,數據需要在分布式的節點和云計算平臺之間頻繁傳輸,這會導致大量的通信開銷。例如,在聯邦學習的參數聚合過程中,大量的模型參數需要在本地設備和云端服務器之間來回傳輸,可能會造成網絡擁塞,尤其在網絡帶寬有限的情況下,會嚴重影響聯邦智能的運行效率。云服務的安全性方面正面臨著敏感數據泄露、云資源邊界模糊、網絡環境復雜多樣等嚴峻挑戰。(1)在存儲方面,隨著數據量的增長,大規模數據存儲在云端,面臨的最大問題就是安全性和隱私性。例如,在低空經濟
235、中,不同類型的航空器產生的數據格式和安全級別各異,需要更加精細的數據分類和加密策略。而且云端數據是動態變化的,數據會不斷地被添加、修改、刪除和共享。傳統的加密技術和訪問控制機制可能難以應對如此大規模、復雜、動態的數據安全管理需求。(2)在計算方面,云計算安全主要關注云計算環境中的資源(如虛擬機、容器、計算集群等)的安全性,確保這些計算資源在運行時資源隔離,以防止未經授權的訪問、惡意攻擊或服務中斷等問題。DaaS 和 MaaS 的出現使得資源隔離的邊界變得模糊。以 DaaS 為例,數據作為一種服務被多個用戶共享使用,這些數據可能包含敏感信息。不同用戶對數據的訪問權限、數據的加密級別、數據的合規性
236、要求等都不同,這就需要更精細的資源隔離技術來確保數據的安全性和隱私性。(3)在網絡方面,云服務中的網絡安全涉及保護云計算環境中的所有網絡組件如數據傳輸、網絡連接、API 接口等免受攻擊、濫用、數據泄露和其他安全威脅。新興技術的網絡環境復雜多樣,可能包括衛星通信、5G 網絡、物聯網等多種通信方式的融合。云服務提供商需要確保在這種復雜網絡環境下的通信安全,防止網絡攻擊。隨著新興產業不斷發展,數據易丟失、跨域數據整合的復雜性以及高動態環境等問題日益凸顯,對云服務的可靠性提出了更高的要求。(1)在存儲方面,隨著新興產業與云計算的緊密結合,云存儲的數據量呈爆炸式增長。但由于數據量巨大且產生速度極快,云存
237、儲系統面臨著巨大壓力。例如在低空經濟領域,無人機飛行數據如飛行軌跡、姿態信息等需要實時存儲以便后續分析飛行安全性和優化飛行計劃,一旦云存儲系統遭遇硬件故障、軟件錯誤或惡意攻擊,數據丟失可能使無人機的運營安全評估失去依據,無法準確判斷飛行風險。因此對云存儲的可靠性提出了極為嚴苛的要求,傳統存儲模式難以確保數據在復雜環境下的完整性與安全性。(2)在計算方面,新興產業的云服務應用往往涉及跨域數據的處理,例如在空天地海一體化場景中,衛星網絡、地面網絡和海洋網絡各自產生的數據在格式、精度、時效性等方4.1.研究圖譜及其產生:面向新興技術的云計算與云網融合研究43面存在顯著差異。數據的異構性與海量性使得傳
238、統云計算架構難以高效處理,在確保計算準確性與時效性方面面臨巨大挑戰,需要全新的計算策略與資源調配機制來保障計算的可靠性。(3)在網絡方面,以智慧交通為例,車輛高速移動且大量接入云網絡,網絡拓撲快速變化,傳統故障恢復機制難以迅速響應。一旦發生故障,如網絡擁塞或基站故障,在保障數據完整性與業務連續性上,現有的故障/容災管理體系難以滿足要求。網絡故障與任務動態變化相互交織,對故障的實時監測、精準定位以及快速恢復提出更高標準,需要構建更智能、靈活且具前瞻性的故障恢復機制,以有效應對復雜多變的高動態環境,確保云網絡的可靠性與穩定性,進而保障新興產業業務的正常運轉與持續發展。4.1.3國內外云廠商案例在當
239、今數字化浪潮的席卷下,國內外各大云廠商如 Amazon、Microsoft、Google、NVIDIA、阿里巴巴、華為云、騰訊云等積極投身新興產業,與眾多企業攜手合作,催生出一系列極具創新性與影響力的應用案例,在全球范圍內掀起了一場技術賦能產業變革的熱潮。在工業互聯網領域,國外 Microsoft Azure 與上海振華重工合作,利用 IoT 和 AI 技術構建設備物聯網,實現預測性維護與遠程監測運營,創建新門戶提供物流監控服務;國內華為云與寶鋼合作,利用 5G 網絡的大帶寬、低時延、高可靠等特性,實現了工業領域的視頻監控回傳、遠程控制、數據采集與預測性維護等應用,打造了 5G 智慧工廠;騰訊
240、云旗下的騰訊 WeMake 工業互聯網平臺連續三年入選國家級雙跨平臺,已服務 42 萬家制造企業,覆蓋 26 個行業,為三一重工、工業富聯等龍頭企業提供數字底座。在空天地海領域,國外 Google 與澳大利亞聯邦科學與工業研究組織、塔斯馬尼亞大學海洋與南極研究所等機構聯合,借助 Google 云的 AI 平臺 Vertex AI 在超過 7000 平方公里的衛星圖像中對海藻森林進行高速識別、定位和分析;Microsoft 啟動 AzureSpace 項目,為衛星通信和遙感數據處理企業提供強大的云計算能力和存儲支持,為海洋監測、氣象預報、地理測繪等空天地海相關應用提供服務;國內華為云充分發揮在云
241、計算、大數據等領域的技術優勢,協助文昌市打造空天地海一體化平臺,推動遙感云、航天數字經濟等產業發展,為海洋科研及航天企業分別提供數據處理與技術支持。在智慧交通領域,國外 NVIDIA 借助 Jetson AGX Orin 和 Omniverse 平臺助力 Kodifly 構建交通基礎設施的數字孿生與實時三維分析,憑借強大的 GPU 計算能力處理大量實時交通數據,其 Omniverse 平臺為數字孿生模型創建與管理營造良好環境,加速數據處理與模型構建進程,削減時間和成本,增強整體解決方案的性能與可靠性;Amazon 獲得美國聯邦航空管理局的批準,在美國亞利桑那州菲尼克斯西部的托利森市測試其新型小
242、型送貨無人機,該無人機重量更輕、噪音更小,可以運送超過 50000 種貨物,有望為物流配送領域帶來革新;國內華為攜手云南移動,在洱海完成西部首個 5.5G 通感一體低空試點,實現了實時顯示無人機測量速度、角度、位置精度等信息,還具備軌跡跟蹤、黑飛入侵、電子圍欄告警等關鍵功能,為低空經濟發展注入新動能。在智慧醫療領域,阿里云于浙江麗水開展“醫療 AI 多癌早篩公益項目”,借助“平掃 CT+AI”技術助力癌癥早篩;華為云與上海潤達醫療攜手打造醫療 AI 大模型;Google 云推出護士交接數字助理 HCAHealthcare Katie 及 Vertex AI Search;Amazon 云科技與
243、大米和小米合作推出特需兒童康復 AI 解決方案并發布 AWS Health Scribe;Microsoft Azure 聯合醫生集團構建智能醫療云平臺并開發疾病智能預測系統等。在智慧政企方面,阿里云中標中核核電核工業數據中心云平臺等項目;騰訊云拿下上海智慧健康松江一體化云平臺項目并助力數據庫業務拓展;華為云與安順經開區管委會等合作搭建“安順國電南自-華為數字生態云”;百度智能云在交通等領域收獲邯鄲市峰峰礦區智慧交通等項目;AWS 與埃森哲合作服務醫療保健等行業。在智慧教育領域,Google 推出一系列教育應用和工具,如 Google Classroom,通過云計算技術為教師和學生提供在線教學
244、和學習平臺,支持課程管理、作業布置與批改、在線交流等功能,促進了教育的數字化和個性化發展;華為云為高校提供混合云支持科研大數據分析平臺建設。未來,在新興產業布局時應充分利用自身在網絡技術、云服務、大數據和 AI 領域的優勢,深化與各行業龍頭的合作,推動產業數字化轉型。通過強化網絡基礎設施建設,提升云服務能力和數據處理技術,44CHAPTER 4.面向新興技術的研究支持更多創新應用的落地,滿足不同行業對數據處理和存儲的需求。同時,積極探索新的服務模式和應用場景,以用戶需求為導向,提供更加個性化和智能化的服務,推動技術創新和產業升級。4.2研究洞察:面向新興技術的研究熱點和難題隨著信息技術的高速發
245、展,尤其是 5G、物聯網時代的到來,入云的設備數量正在指數級增長,由此產生了大量數據,需要一種新的云計算模式來滿足對實時性、移動性、數據安全性的要求。本節通過調研近幾年發表的新興領域與云計算相關的學術論文,梳理了國內外研究學者們重點關注的研究方向,包括云邊協同、移動計算、邊緣智能、安全性和可靠性,及其代表性技術,并整理如表4.2所示。研究熱點和難題1.云邊協同:如何通過任務卸載和資源調度,進一步提升其運行效率與智能水平?2.移動計算:如何在基礎設施受限的移動場景下更好地提供云計算服務?3.邊緣智能:如何優化智能算法在邊緣設備上的部署,提供就近入云的高質量服務?4.安全性:如何保障大規模入云數據
246、的隱私安全與智能防護?5.可靠性:如何預防、診斷云網系統的故障,增強云計算服務的可靠性?4.2.1云邊協同研究面向海量的物聯網設備與移動終端的大規模數據入云需求,傳統的云計算模型面臨著高響應延遲和帶寬限制的挑戰,而這些新興移動計算任務往往具有時延敏感的特性277。在此情況下,邊緣計算的出現為解決該問題提供了新的思路:將數據在靠近用戶的邊緣設備上進行處理,從而提供更低的延遲,并且優化帶寬的利用率278。邊緣計算具有響應速度快,但計算資源相對有限的特點,與雖有強大的計算能力但難以滿足時延敏感的任務的云計算形成了互補。云邊協同能夠結合邊緣計算的低時延、本地處理優勢與云計算的強大計算存儲能力,讓數據在
247、邊緣端進行預處理與篩選,將重要數據或需要深度分析的數據傳輸至云端進一步處理,實現資源的高效配置與利用,滿足不同類型應用場景對于計算性能、響應速度、數據安全等多方面的綜合需求,推動物聯網、智能交通、工業互聯網等眾多領域的創新發展。在云邊協同的體系架構中,如何進一步提升其運行效率與智能水平成為了關鍵的研究方向。最優化調度旨在根據邊緣設備與云端的實時資源狀況、任務的緊急程度及數據特性等多方面因素,制定出最為合理的任務分配與資源調配策略,確保整個云邊協同系統能夠流暢且高效地運行217。此外,近年來涌現的人工智能技術與機器學習方法也成為了云邊協同下的研究熱點:如何聯合云端和本地的計算資源實現深度學習模型
248、的協同推理,以及如何將云端訓練好的強大模型遷移至資源有限的邊緣設備上提供實時服務 221,225。針對資源分配與任務卸載機制,設計最優化調度算法,優化系統的整體吞吐量、時延、以及整體能耗。為了向數量激增的邊緣設備提供大規模、低時延的云計算服務,近年來海內外研究機構紛紛在最優化調度方面開展研究:如何面向資源差異較大的邊緣節點與云計算中心,設計資源調度算法和任務卸載機制,優化任務的吞吐量、時延、以及整體能耗。最近的研究工作如下:(1)最大化吞吐量。針對海量計算任務的隨機到達與有限的無線信道資源之間的矛盾,研究人員提出了漸進式的任務調度方法,利用李雅普諾夫(Lypunov)函數來實現最優調度,在最大
249、化移動邊緣網絡吞吐量的同時兼顧分配機制的公平性 218。(2)最小化時延。針對不同任務的異質性特征,最近的研究工作提出基于博弈論的任務卸載決策優化算法,減少批量任務的處理時間 219。(3)最小化能量消耗。針對協同計算中的能耗問題和實時性要求,研究人員提出了基于當前任務執行成本的動態計算卸載與資源調度算法,在滿足任務時延需求的前提下,降低整體能耗 220。聯合端云設備實現高效的深度學習模型推理,滿足低時延、高可靠的服務需求。近年來,深度學習模型在終端設備上發揮著重要的作用,支撐著例如人臉識別、異常動作檢測、火災預警等應用。然而,當前無人機等終端設備的計算資源有限,為了在終端設備上實現快速實時的
250、任務響應,近年來國內外的研4.2.研究洞察:面向新興技術的研究熱點和難題45表 4.2:新興技術研究熱點研究方向方向概述代表性技術云邊協同隨著物聯網和移動終端設備的數量劇增,傳統的數據中心節點面臨著傳輸帶寬有限以及響應時延高的挑戰,而邊緣節點雖然響應迅速但是計算資源有限。云邊協同將兩者的優勢結合,在邊緣設備進行數據預處理后,將后續任務卸載至云端快速處理,實現低時延的協同計算。最優化調度:針對邊緣節點和云計算中心的計算資源差異,設計資源調度算法和任務卸載機制,從而實現任務執行吞吐量的最大化、時延以及整體能耗的最小化等目標 217,218,219,220;協同推理:通過將深度學習模型分割后分別部署
251、在邊緣側和云端,實現推理任務的部分卸載,從而聯合利用端云設備的可用資源,實現低延遲的協同推理 221,222,223,224;模型遷移:將部署在云端的深度學習模型通過模型壓縮、知識蒸餾等技術快速遷移至邊緣側,適應其有限的計算資源 225,226,227,228。移動計算隨著智能手機、平板電腦等移動終端的廣泛普及,用戶對于在移動設備上獲得無處不在的云計算服務的需求正急劇增長。借助移動無線網絡技術,使得用戶能夠在任何地點實時、可靠連接到云端資源的移動計算技術正成為近年來的研究熱點??仗斓睾R惑w化:在缺乏地面基礎設施的地區,將衛星側基礎設施作為地面的關鍵補充,從而構建一體化的全空間立體基礎設施,提供
252、全域無縫覆蓋的服務 229,230,231,232;移動自組網:通過將無人機等移動設備作為網絡節點,實現無基礎設施的無線自組網絡,滿足復雜場景下的通信需求 233,234,235,236;霧計算:面向低時延數據傳輸的需求,將計算、存儲和網絡服務拓展至網絡邊緣,使其更靠近用戶與數據側,從而有效降低時延 237,238;Cloudlet:即小型化的云數據中心,能夠部署在更靠近于移動用戶的網絡邊緣,從而緩解云計算遠程訪問帶來的局限性 239,240。邊緣智能為了緩解大規模邊緣設備所產生的海量數據給云計算中心帶來的巨大壓力,在靠近數據源的邊緣設備(如智能網關、邊緣服務器等)上部署智能算法,實現數據的就
253、近預處理與初步特征提取,減少數據傳輸量,降低中心云的負擔,并且提高智能算法的整體響應速度。聯邦智能:在多個邊緣設備上分布式地收集數據并進行本地處理,使本地計算出的特征與參數參與到模型訓練中,在充分利用邊緣設備資源的同時確保數據隱私安全 241,242,243,244;多智能體協同:針對多個分散的邊緣設備,將其建模為多智能體進行整體協調部署與調度,從而解決復雜任務并實現全局最優 245,246,247,248;邊緣智能系統:針對邊緣設備內存有限、設備異構、算力不足等問題,設計面向邊緣設備的定制化智能系統,充分利用有限的資源實現深度學習的模型推理等任務 249,250,251,252。安全性隨著業
254、務的多樣化和復雜化,云服務需要提供更加靈活的計算和存儲能力,同時要保證敏感數據不被惡意訪問或泄露,并持續不斷地優化虛擬化平臺的安全性,進行細粒度的訪問控制。傳統的靜態規則檢測和防護手段顯得力不從心,云服務需要更多智能化、自動化的安全技術來應對動態、復雜的威脅,利用人工智能技術輔助云網安全防護成為近年來的研究熱點。隱私保護與訪問控制:通過加密技術保護數據隱私,同時采用訪問控制技術控制用戶對數據的訪問權限,防止未經授權的訪問和數據濫用,提高了云平臺的安全性和效率 253,254,255;資源隔離:通過虛擬化、TEE等技術確保共享資源(如計算、存儲、網絡等)被嚴格劃分,使得每個租戶或實例僅能訪問其分
255、配的資源 256,257,258;網絡攻擊與防御:針對竊取數據、破壞系統或操控資源的網絡攻擊,不斷發展實時檢測與響應的防御技術,以增強網絡防御能力 259,260,261;人工智能輔助云網安全:通過機器學習和深度學習算法,人工智能能夠從海量日志和網絡流量中快速識別異常行為和潛在威脅,構建更智能、高效和動態的云網安全體系 262,263,264,265,266??煽啃噪S著新興行業的數據劇增,其可靠性面臨諸多新挑戰。通過分析海量系統數據,提前預判潛在故障風險,研究分布式系統的容錯機制,通過冗余設計和動態資源調配,確保在部分組件失效時系統仍能穩定運行,為云計算在復雜多變的新興技術應用中提供可靠保障,
256、滿足不同行業的嚴格需求。故障/災難隔離:面對如硬件漏洞、軟件缺陷、外部攻擊等引發的故障/災難時,防止其在系統中擴散,保障服務連續性和數據安全性,加強應急響應 267,268,269;可觀測性和可預測性分析:針對云計算和微服務系統狀態難以及時精準把控、性能波動難以提前預估等難題,對系統運行數據進行深度采集、分析與解讀,實現對系統潛在問題的洞察和性能預測 270,271,272;智能運維:傳統運維方式在面對新興場景下復雜多變的云計算環境及海量數據時,存在的故障發現與修復滯后、資源調配不靈活、運維效率低下且人力成本高等問題,利用智能方法實現對系統實時監測、故障自動預測與精準定位、資源智能優化調配及運
257、維流程自動化 273,274,275,276。究者提出了協同推理技術,即將神經網絡模型進行分割,并分別部署在終端和云端,將推理任務部分卸載至云端,從而兼顧低延遲和強大計算能力的需求。近年來的研究熱點主要關注網絡動態波動、隨機丟包帶來的挑戰,并且致力于優化批量協同任務的并行效率。(1)動態卸載。針對網絡的動態波動對特征46CHAPTER 4.面向新興技術的研究傳輸帶來的挑戰,研究人員提出了動態卸載的方法,漸進式地向云端傳輸特征的同時在本地繼續執行推理任務,從而在網絡狀態不佳的情況下更多地依賴本地進行推理 222。(2)差錯容忍。針對網絡隨機丟包對特征傳輸造成的干擾,近期的研究工作設計了差錯容忍的
258、協同推理方法,在發送的特征數據上進行隨機交織編碼和不等差錯保護,從而提高對隨機丟包的抵抗性 223。(3)批量重構。針對模型分割方式的差異,研究人員在云端設計了批量重構方法,將大量差異化分割的模型批量對齊,以提高云側大規模并行推理的效率 224。將深度學習模型通過壓縮、蒸餾等方式遷移至端側設備,提供就近的低時延服務。將云端強大的深度學習模型遷移至邊緣設備上部署,能夠提供就近的實時服務,同時也避免了在邊緣設備上重復進行大規模模型訓練,節省了邊緣的計算資源和能源消耗。近年來,許多研究工作關注著模型壓縮、知識蒸餾、遷移學習等技術,為云端深度學習模型的快速化遷移和本地部署提供支持。(1)模型壓縮。為了
259、壓縮神經網絡模型,去除冗余的模型參數,研究人員設計了基于判別感知的模型剪枝方法,利用注意力機制保留神經網絡中最具判別力的通道,自適應地進行模型壓縮,同時保持較好的模型性能 226。(2)知識蒸餾。為了在資源受限的邊緣設備上部署深度學習算法,研究者利用云端服務器模型作為教師模型,在邊緣設備上監督輕量級的學生模型的訓練,降低邊緣模型的由于壓縮帶來的性能損失 227。(3)遷移學習。為了將云端強大的神經模型的能力遷移至邊緣設備上,研究團隊設計了面向工業物聯網系統的遷移學習框架,減少了邊緣模型的訓練時間,同時提高了模型準確性 228。4.2.2移動計算研究隨著智能手機、平板電腦等移動終端的廣泛普及,用
260、戶對于在移動設備上獲取云計算服務的需求急劇增長:借助移動網絡技術,用戶能夠在任何地點即時連接到云端資源,要求云計算服務能夠支持無處不在的可訪問性。然而移動網絡嚴重依賴地面網絡基礎設施,如何在移動場景下更好地提供云計算服務實現移動計算成了近年來的重要研究熱點 279。為了更好地應對移動計算的復雜需求與挑戰,一系列關鍵技術應運而生。其中,空天地海一體化網絡技術構建了全方位、多層次的通信網絡架構,確保移動計算在不同地理環境下都能無縫對接云計算資源 229;移動自組網技術能夠在自然災害救援等缺少網絡基礎設施的特殊場景下滿足大量移動設備的接入需求 233;此外,霧計算與 Cloudlet 技術在移動計算
261、與云計算的協同中發揮著關鍵作用。霧計算將計算、存儲和網絡服務推向網絡邊緣,更靠近移動用戶 237;Cloudlet 則作為一種小型的、部署在靠近移動設備端的云資源,能夠快速響應移動設備的請求,有望推動移動計算在云計算領域的深度應用與創新拓展 239。通過空天地海一體化技術提供全域無縫覆蓋的通信與云計算服務,拓展傳統服務的覆蓋范圍。隨著我國低空經濟和海洋發展戰略的推進實施,云計算的服務區域需要從地面服務擴展到空域、海域等無人區,為多維空間中的用戶與傳感設施提供立體多維、覆蓋全時、全域、全空間的云網服務。然而,現有通信與算力網絡嚴重依賴地面基礎設施,難以在低空、遠海、荒漠等區域提供高質量服務。為了
262、提供全域無縫覆蓋服務,衛星側的計算與通信基礎設施需作為地面的補充,與傳統地面設施共同構建一體化的全空間立體基礎設施,即空天地海一體化。由于傳輸距離較遠、衛星移動較快等問題,空天地海一體化網絡面臨著拓撲復雜、傳輸時延大、部署成本高等問題。針對上述問題,最近的研究熱點如下:(1)流量自適應卸載。針對一體化網絡中日益增長的通信流量需求,來自日本的研究團隊利用深度強化學習中的Q-learning 算法訓練各個節點,使其能夠根據本地歷史信息以及鄰近節點信息智能化選擇流量卸載策略,從而緩解了網絡擁塞 230。(2)動態衛星路由。針對低軌衛星之間復雜多變的路由,研究人員提出一種基于圖神經網絡的分布式動態路由
263、算法,將路由問題建模為部分可觀察的馬爾可夫決策過程,使得每個衛星僅與相鄰一跳的鄰居節點共享信息,隨后利用圖注意網絡得到多跳信息的隱藏特征,從而進行動態路由決策 231。(3)星地協調互聯。針對現有星地互聯方案網絡波動大、時延高的問題,研究團隊利用不同地面站之間可見衛星分布的相似特性,設計了地面站間分布式部署的星地協調互聯算法,協調多地面站之間星地鏈路的建立,從而最小化傳輸延遲,同時保持穩定的路由和高網絡可達性 232。在缺乏基礎設施的極端環境下,利用無人機等移動節點構建移動自組網,提供應急的通信與計算服4.2.研究洞察:面向新興技術的研究熱點和難題47務。隨著移動計算和無線通信技術的飛速發展,
264、云計算的覆蓋范圍得到拓展。移動自組網作為一種沒有基礎設施且自組的無線網絡,其發展滿足了戰場、防災等場合的需求。移動自組網的網絡節點由無人機等組成可以任意移動,網絡的拓撲結構動態變化,這要求網絡能夠適應這種動態變化并保持可靠傳輸。為了應對這種挑戰,最近的研究熱點如下:(1)可擴展式組網。為了提高移動自組網的可拓展性,可以在無人機之間隨機集中和按需聚類,以減少無人機和地面之間的通信需求,從而實現更好的可擴展性 234。(2)移動網元管理。為了管理大規模無人機等組成的網元節點以形成良好的移動自組網,來自加拿大的研究團隊提出了一種基于能量感知的無人機群和移動性預測方案,支持無人機路線和路徑規劃、移動性
265、預測和多跳通信管理,從而實現更高的傳輸效率 235。(3)延遲容忍網絡。為了在拓撲變化頻繁的情況下提高移動自組網對于網元動態移動的魯棒性,延遲容忍網絡(DTN)中的信息傳播技術是值得關注的。美國的研究團隊提出了一種基于軌跡的分布式容忍網絡路由算法以解決車輛的移動隨機性對于網絡的影響,通過預測車輛移動軌跡在車輛到達前調度數據包,從而提高路由性能 236。利用霧計算與 Cloudlet 技術在更接近用戶的位置布置邊緣節點,提供大規模、低時延的云計算服務。移動設備產生海量數據需實時處理與低延遲響應,云計算雖有強大處理能力,但因數據傳輸距離遠,會導致高延遲、網絡擁塞及隱私安全隱患。在此背景下,霧計算與
266、 Cloudlet 受到了關注。霧計算將計算、存儲和網絡服務拓展至網絡邊緣,更靠近數據源與用戶,能有效彌補云計算不足;Cloudlet 是一種位于網絡邊緣的小型云計算數據中心,它將云計算的能力延伸到網絡的邊緣,更接近用戶和終端設備,從而為用戶提供低延遲、高帶寬的計算和存儲服務。當前圍繞這兩種新興技術的研究熱點如下:(1)模糊卸載。由于霧節點數量眾多,將海量物聯網應用任務卸載至霧節點具有較大的決策搜索空間,針對這一問題,研究團隊設計了一種模糊卸載策略,利用多目標分布估計算法來從各種應用程序中學習和優化該策略,從而縮小搜索空間,節省系統資源 238。(2)部署優化。為了使得 Cloudlet 提供
267、最小化延遲、實現負載平衡、最小化成本與能源損耗,近年來很多研究關注 Cloudlet 的部署優化問題。例如美國的研究團隊通過設計雙因子近似算法解決異構 Cloudlet 的部署問題,以保證有限的延遲和放置成本,同時將任務完全映射到適當的 Cloudlet 240。4.2.3邊緣智能研究隨著近年來邊緣設備計算能力的不斷提高,將智能算法部署在邊緣設備提供就近服務的邊緣智能技術得到了國內外研究人員的重視。邊緣智能能夠在靠近數據源的邊緣設備(如智能網關、邊緣服務器等)上能夠實現數據的預處理與初步特征提取,減少了數據傳輸量,降低中心云的負擔,并且提高了整體系統的響應速度。然而,邊緣智能在發展過程中也面臨
268、諸多挑戰,這促使一系列創新技術與協同策略的產生。其中,聯邦智能成為解決邊緣智能數據隱私與協同訓練難題的關鍵 241;多智能體協同則進一步提升了大規模邊緣智能系統的協同能力 245;邊緣智能系統則使得能力有限的邊緣設備能夠更高效地執行深度學習任務,為邊緣智能的更廣泛應用提供了基礎 249。通過聯邦智能技術聯合多個邊緣設備實現數據收集、模型訓練及推理,在保障用戶的數據隱私安全的同時,充分利用邊緣設備的資源。針對海量邊緣設備產生的數據,為了利用海量數據訓練邊緣智能同時保護數據隱私,聯邦智能受到了研究人員的重視:在多個邊緣設備上分布式地收集數據、在本地處理后分布式地參與到模型訓練中,充分利用邊緣設備的
269、資源,同時確保數據隱私的安全。近期的研究熱點如下:(1)分布式數據收集。針對邊緣設備產生的大量數據,如何從多個數據源節點收集數據用于訓練是聯邦智能的主要挑戰之一。針對大量并發設備參與的數據收集過程,研究人員設計了協作式地圖數據收集框架,支持大規模用戶并行收集地圖數據 242。(2)分布式訓練。不同邊緣設備差異化的計算速度,神經網絡的分布式訓練速度會存在差異,導致模型難以聚合。對此,研究人員通過分析異構設備上模型訓練算法的收斂目標不一致的問題,設計了標準化的梯度平均方法,實現訓練過程的快速收斂 243。(3)分布式推理。由于資源受限的邊緣設備難以支持 Transformer 等深度學習模型較高的
270、計算成本,來自加拿大的研究團隊設計了面向通信和計算資源有限設備的分布式推理框架,在多個邊緣設備上均衡負載,提高推理速度 244。48CHAPTER 4.面向新興技術的研究將分散的邊緣設備視作多智能體進行協同部署與控制,從而優化智能系統的整體性能?,F代應用場景往往涉及到復雜的任務,單一的邊緣設備無法獨立完成。以智能交通系統為例,要實現整個城市交通的優化,不僅需要路口攝像頭監測交通流量,還需要車輛自身的智能感知以及可能的無人機輔助進行路況勘查等,需要多種設備協同工作才能達成諸如交通擁堵緩解、事故快速響應等復雜目標。多智能體協同技術將邊緣智能環境中大量分散的邊緣設備,視作多智能體進行協同部署和調度,
271、從而實現全局最優。近期的研究熱點如下:(1)群體控制。針對每個智能體難以獲得全局信息的局限性,研究團隊設計了深度循環圖神經網絡,通過圖卷積實現智能體之間的信息傳遞,從而在動態拓撲下控制多智能體 246。(2)差異化調度。針對不同無人機設備的差異性,近期的研究提出了基于多智能體模仿學習的無人機部署方法,為地面用戶提供差異化的通信服務,同時最大化運營者的效益 247。(3)可擴展式協同。針對多智能體場景中智能體數量的動態增長,研究人員設計了可擴展的多智能體協作 SLAM 框架,通過服務器-客戶端同步機制、優先級感知的任務調度器有效解決智能體數量不斷增長所導致的數據爆炸問題 248。針對異構邊緣設備
272、在內存、算力等方面的瓶頸,設計專門的邊緣智能系統,實現智能算法在邊緣設備上的高效部署與性能優化。受到邊緣設備有限計算資源的制約,在邊緣設備上部署深度學習等智能算法存在著以下挑戰:內存有限,使得現有智能模型難以直接部署在端側;設備異構,不同的邊緣環境往往需要量身定制的模型架構,單一模型難以適應不同設備的異構環境;算力不足,邊緣設備的 GPU 能力往往非常有限,僅能提供與 CPU 相同量級的算力服務。針對上述挑戰,最近的工作設計了以下方法:(1)內存受限下的高效推理。研究人員通過設計一種高效且自適應的內存管理框架,優化神經網絡在邊緣設備上推理任務的內容占用機制,從而適應內存有限的約束 250。(2
273、)異構設備中的自行應推理。研究人員設計了一種深度學習模型的彈性化方法,在邊緣環境上自適應地進行神經網絡結構優化,從而適應不同異構設備的環境 251。(3)邊緣設備上的推理加速。研究人員發現邊緣設備的 CPU 和 GPU 具有相當的算力,但是 GPU 與 CPU 之間的數據共享開銷會導致兩者共同使用時的性能下降,對此提出了基于混合維度劃分和計算鏈優化的數據共享方法,從而實現更高效的 GPU、CPU 協同計算 252。4.2.4安全性研究工業互聯網、智慧交通、智慧醫療、智慧政企等新興產業的發展,帶來了新的技術和安全問題。這些行業的數字化和智能化轉型過程中,數據的集中化與開放性使得隱私保護和數據安全
274、面臨更大挑戰。例如,智慧交通系統收集了大量的車輛和個人信息,如車輛行駛軌跡、車主身份信息、出行習慣等。這些數據的泄露可能會導致車主的隱私被侵犯,同時也可能被用于惡意商業目的或犯罪活動 280。同時,云上租戶數量增加,將要求云服務商提供更安全的計算服務,確保不同租戶之間的資源隔離,防止數據泄露或越權訪問。還需要提升虛擬化平臺的安全性,以防止虛擬機逃逸、惡意代碼注入等攻擊。此外,復雜的系統架構和多樣化的終端設備增加了網絡攻擊的潛在入口,傳統的安全防護手段難以完全覆蓋。不同行業的業務場景和需求各異,對網絡安全技術提出了更加定制化和動態化的要求。因此,在推動新興產業發展的同時,需要加大對技術標準的完善
275、、云網安全技術的創新,傳統的安全檢測方式往往依賴于規則匹配和人工配置,但面對云計算環境中海量、復雜和動態的網絡數據,這些方法的效率和準確性受到極大限制。人工智能技術,尤其是機器學習和深度學習的引入,為安全檢測注入了智能化能力,使其能夠高效、精準地識別潛在威脅,為構建更安全的數字化環境奠定堅實基礎。通過加密和訪問控制技術對云端數據進行安全防護,防止敏感數據泄露或被惡意訪問。隨著數據量的增長,數據的關聯性和多樣性增加,使得匿名化后的信息更容易被重新識別。同時,對于云端存儲的海量數據,使用傳統加密算法進行加密可能導致存儲系統的性能大幅下降。近年來國內外學者紛紛投入到云數據安全的研究中,提出了許多創新
276、性的方法和技術,以應對日益復雜的安全威脅,研究熱點如下:(1)隱私保護。用戶在自身數據的收集和使用上可選項很少,為了解決云-物聯網應用程序中的數據隱私問題,有研究提出新的隱私保護架構和數據共享模型,該架構使用基于類別的數據訪問模型,涵蓋了從物聯網設備的數據收集到云服務共享整個數據生命周期,可以使用戶對其數據進行細粒度的控制 253。(2)密文檢索。敏感數據被上傳到云服務器進行存儲之前往往需要加密,在海量的數據中,如何對加密數據進行4.2.研究洞察:面向新興技術的研究熱點和難題49有效和準確地檢索是一個難題。有研究提出一種基于同態加密的安全高效的相似性檢索方案,設計了雙云服務器協同檢索模型和消息
277、認證方案,能夠保證訪問模式的隱私安全和傳輸數據的完整性。此外,有研究提出一種改進方案,使用 Simhash 算法生成查詢和特征向量,減少存儲開銷 254。(3)訪問控制。多個用戶通過云邊緣共享數據時面臨著數據隱私泄露的問題,因此,不能在發送者和接收者之間任意共享。針對這個問題,面向電子醫療云上多個醫療機構之間共享電子病歷的場景,有研究提出一種跨域內積方案,可以防止單個發送者機構發送密文,同時保護數據和接收者的隱私 255。探索容器等云資源隔離技術存在的脆弱點,并通過可信執行環境構筑安全云。云服務資源隔離是構建安全可信云環境的關鍵,隨著技術的進步和需求的變化,原來的虛擬化隔離策略需要動態調整,否
278、則,容易被攻擊者通過漏洞進行惡意攻擊。為了應對這一挑戰,研究者們從攻防兩個角度出發,一方面,針對現有的虛擬化隔離技術,通過探索新的攻擊手段來發現其脆弱點。另一方面引入更先進的隔離機制,例如基于硬件的可信執行環境(TEE),通過硬件層面提供強制隔離和保護,從根本上防止虛擬機逃逸和側信道攻擊。研究熱點如下:(1)容器隔離。在公有云中,將容器放置在輕量級的虛擬機內運行可以充分利用虛擬機的安全性和容器的高效性。研究人員發現了一種可用于破壞基于輕量級虛擬機容器隔離的新攻擊,稱為操作轉發攻擊。攻擊者可以通過操作轉發來利用主機內核的漏洞并耗盡主機資源。在多個公有云上的實驗結果顯示,這種攻擊可以降低受害容器的
279、 IO 和 CPU 性能,甚至導致主機崩潰 256。(2)機密虛擬機。云平臺上使用基于硬件的 TEE 提供機密虛擬機用于托管安全敏感代碼和數據,這其中有一些不受信任的虛擬機管理程序控制著多個資源管理和配置任務。研究者提出一種新的攻擊,向虛擬機管理程序中注入惡意的非定時中斷來破壞機密虛擬機的機密性和完整性 257。(3)TEE。公有云平臺利用TEE 技術提供機密計算服務。然而,受 TEE 保護的應用程序仍會受到回滾或分叉攻擊,這些攻擊會導致應用程序的狀態回滾到過時的版本或者分叉為多個版本。針對這個問題,有研究提出了一個安全實用的分布式 TEE 系統,該系統使用區塊鏈進行初始化,以較小的交互開銷奠
280、定去中心化信任基礎,同時利用分布式系統的高性能狀態提供連續性保護 258。分析新型網絡攻擊技術,發展更加魯棒、全面、靈活的安全防御技術。隨著新技術的發展,云服務在網絡層面的攻擊和防御進入了更加復雜和動態的博弈階段。攻擊者利用伴隨新技術產生的漏洞發起更具針對性的攻擊,使得拒絕服務(DOS)攻擊、域名服務器(DNS)攻擊等針對云環境的攻擊方式變得更加隱蔽和高效。近年來,針對云服務的網絡攻擊和防御研究熱點如下:(1)DOS。有學者提出了一種新的攻擊,可以導致 Serverless 計算平臺和外部內容服務器中間拒絕服務。Serverless 計算平臺在所有屬于不同用戶的 Serverless 功能之間
281、共享同一組出口 IP,以訪問外部內容服務器。因此,該平臺上的惡意用戶可以故意行為不當,導致這些出口 IP 被內容服務器阻止,從而導致整個平臺的拒絕服務 259。(2)DNS。域名服務器的安全性和穩健性對于互聯網的總體運行至關重要,因此域名所有者需要部署多個候選域名服務器以實現流量負載平衡,一旦負載平衡機制被破壞,攻擊者就可以操縱大量合法 DNS 請求到指定的候選 DNS。有研究團隊報告了一類 DNS 漏洞,并提出了一種新的攻擊,允許攻擊者以低成本秘密破壞權威域名服務器的 DNS 負載均衡 260。(3)網絡側信道。網絡側信道通過數據包時間和大小泄露機密,這使得公有云的 IaaS 層中任何租戶都
282、能夠間接觀察到受害者的流量形狀。最近,研究人員提出了一個端到端消除公有云 IaaS 網絡側信道泄露的系統,該系統使流量形狀在設計上與機密解耦 261。探索 AI 在云安全防御中的應用,構建自動化響應與防御模型,以實現更精準和高效的防御。隨著人工智能技術的發展,其強大的數據處理能力、智能化的學習和適應能力、對復雜模式的理解以及動態環境中的實時響應能力,都將為云網安全檢測注入了前所未有的能力。因此,使用人工智能技術輔助云網安全檢測的研究越來越多,研究熱點如下:(1)圖算法輔助云網態勢感知。從入侵者的視角可以對網絡環境和漏洞信息進行攻擊圖建模,根據攻擊圖類型的不同,頂點可以表示主機、服務、漏洞、權限
283、等網絡安全相關要素,也可以表示賬戶被攻擊者破解、權限被攻擊者獲取等網絡安全狀態,邊用于表示攻擊者攻擊行為的先后順序。在入侵告警關聯方面,一種基于隊列圖的攻擊圖匹配結構框架被提出 262,該結構采用廣度優先搜索算法來遍歷告警節點之間的關聯,查找攻擊路徑,為告警數據的實時處理提供了理論基礎。在風險評估和網絡加固方面,需要著重分析漏洞之間被利用次數及依賴關系,通過圖節點50CHAPTER 4.面向新興技術的研究重要性排序算法辨別需要優先修復的脆弱性節點 263。在攻擊路徑分析方面,有學者提出基于圖神經網絡的可遷移模型 SPGNN-API,通過識別最短路徑來檢測網絡攻擊路徑,并主動調整網絡防火墻規則和
284、零信任策略來切斷關鍵攻擊路徑。(2)LLMs 輔助安全。LLMs 通過預訓練于大規模多模態數據(文本、圖像、視頻、代碼等),具備處理多語言和多媒體內容的能力,可以理解多種數據形式并進行解釋和總結,在有害內容檢測、網絡釣魚防護、安全日志解釋以及內容審核和優先級管理方面展現出重要作用。例如,ChatSpamDetector 264 和 Phishpedia 265 都是研究者提出的基于 LLMs 檢測網絡釣魚電子郵件的系統,結合文本理解和圖像分析可顯著提升檢測效果。HuntGPT 266 被提出用于做可解釋的入侵檢測,旨在以易于解釋的格式提供檢測到的威脅,強調用戶理解并提供流暢的交互體驗。4.2.
285、5可靠性研究隨著新興行業對云計算服務質量要求的不斷提高,對可靠性提出了諸多新要求與挑戰。一方面,云計算環境的復雜性與動態性大幅增加,多種新興技術的集成使得系統架構更為龐大,硬件、軟件及網絡組件之間的交互錯綜復雜,任何一個環節出現故障都可能引發連鎖反應,影響整體可靠性 281。另一方面,數據量呈爆炸式增長且對數據安全性與完整性要求極高,一旦發生數據丟失或損壞,后果不堪設想。此外,新興技術應用場景的多樣性也要求云計算能夠快速適應不同業務需求的可靠性變化,在高并發、低延遲等特殊要求下仍能穩定運行,這無疑給云計算的可靠性保障帶來了前所未有的壓力 282。最近,這些問題得到了國內外研究人員的重視,一系列
286、關鍵技術應運而生。在故障/災難隔離方面,著力于構建全棧隔離機制與災難恢復策略,保障系統安全穩定;通過可觀測性和可預測性分析,聚焦于構建指標體系與預測模型,提前把握系統趨勢;智能運維則借助人工智能與機器學習,實現自動化運維與精準故障診斷,從多維度為云計算的可靠性筑牢根基,推動云計算在新興技術浪潮下持續穩健發展。有效的故障/災難隔離可防止故障在系統中擴散,保障服務的連續性和數據的安全性。故障/災難可能源于硬件漏洞、軟件缺陷或外部攻擊等,一旦發生,若缺乏有效隔離機制,將導致服務中斷、數據泄露等嚴重后果。實現完全可靠的隔離面臨諸多挑戰,如硬件和軟件的復雜性、不斷演變的攻擊手段以及性能與安全性之間的平衡
287、等,以上挑戰受到國內外眾多研究人員的關注。近期主要研究熱點如下:(1)安全隔離架構。GPU 云已成為一種流行計算平臺,眾多云架構也被提出,通過強制實施強安全策略隔離不可信的虛擬機管理程序與客戶虛擬機(VM),以確??蛻魬贸绦虻陌踩珗绦协h境。因此有研究人員針對攻擊目標選擇和故障注入精度在時間和位置上面臨的主要挑戰,提出了敏感目標搜索算法和遺傳故障注入參數搜索算法。揭示了共享 GPU 云安全隔離中存在的潛在嚴重威脅,并提出了一種硬件不可信的安全隔離架構作為應對措施 267。(2)災難恢復層。為了實現業務連續性,有研究人員提出一種災難恢復層(Disaster Recovery Layer,DRL)
288、,其基于自主組件和 OpenStack 模塊擴展,具備可擴展架構,通過分布式災難檢測機制識別災難并告警,利用 BGP 任播在兩個測試數據中心間重定向流量,經實驗驗證該技術能有效保護虛擬機和存儲卷,在故障時服務中斷小且開銷低,為保障數據中心業務連續性提供了有效方案 268。(3)容錯虛擬網絡功能(VNFs)放置。網絡功能虛擬化(NFV)使網絡功能從專用硬件轉移到VM 中的軟件實現,增強了靈活性與經濟性。然而,VNFs 易受多種故障影響,如軟件配置錯誤、VM 故障和軟件故障等,確保其故障容錯和可靠性成為關鍵挑戰。工作 269 針對有限資源下的故障容錯 VNF 放置問題提出基于聯合資源可用性的啟發式
289、算法;針對無帶寬或計算資源約束的問題,分別提出具有特定近似比的近似算法,確保在性能和資源利用間取得平衡??捎^測性和可預測性分析對微服務應用至關重要,前者有助于快速定位和解決故障,后者關乎服務質量、資源管理和風險應對。然而目前實現微服務的可觀測性依賴特定工具且成本相關、缺乏系統方法支持;提高可預測性可能會影響資源利用率,需要在多目標間權衡。針對以上問題,近期主要研究熱點工作如下:(1)軟件設計權衡。研究人員提出一種系統的方法,以達到持續可評估的可觀測性設計決策。重點關注云原生微服務應用的故障可觀測性,并將其轉化為可測試和可量化的屬性,使用一個流行的開源微服務應用程序演示了所提出的方法,并展示了不
290、同可觀測性設計決策所涉及的權衡 270。(2)多云觀測性。智慧城市的高效運作依賴于區域間的溝通與信息共享,尤其在交通管理、應急響應等方面。因此,智慧城市需要云原生技術來整合和分析交通傳感器和公共交通車輛等多源數據。為此,研究人員提4.3.面向新興技術的展望和發展建議51出一種多云觀測性方法來聚合不同地區的數據。該解決方案旨在提供一套完整的可觀測性套件,能夠跨多云的層收集數據并集成現有的開源項目 271。(3)負載平衡策略。在現代分布式計算環境中,計算能力的提供是一個非常重要的問題。云計算雖為開發者提供看似無限的能力,但數據中心的復雜供應和容量短缺風險仍需通過優雅降級技術來應對,這涉及犧牲用戶體
291、驗以換取可預測性,并可能影響基礎設施級別的其他決策,如負載平衡。一種負載平衡策略被提出 272,在必要時處理容量不足和平穩降級。該方法基于一種可靠的控制理論方法,并證明了其在應急管理和用戶體驗方面能實現更高的性能。通過智能故障診斷與資源優化,有力保障系統的穩定高效運行,提升運維效率與系統可靠性、可用性。隨著 IT 系統規模和復雜度劇增,傳統運維方式難以滿足需求,智能運維借助人工智能和大數據分析技術,從海量數據中挖掘模式,通過實時監測系統狀態,實現精準異常檢測和故障定位,被廣泛應用于云服務、數據中心管理、網絡運維等領域 273,274。近年來,該領域涌現出諸多研究熱點:(1)異常檢測。隨著移動感
292、知技術的普及,大量時間序列數據在各領域產生,推動了眾多實際應用的發展。為解決分散數據與集中算法間的差距,并應對隱私問題,研究者提出了聯邦異常檢測框架 PeFAD 283,首次將預訓練語言模型(PLM)作為客戶端模型核心,通過高效聯邦訓練模塊減少通信成本,僅需微調少量參數。同時采用異常驅動掩碼選擇策略和知識蒸餾,解決了數據異構性問題。(2)根因分析。為保證云服務的可靠性和可用性,需要對云事件進行高效的根因分析(RCA),但傳統的 RCA 方法依賴于對日志和軌跡等數據源的人工調查,費時費力易出錯,具有挑戰性 275。最近,有學者提出了一種自動化的端到端云事件根因分析解決方案 284,該方案集成了一
293、個大型語言模型。該模型能夠根據警報類型將傳入事件匹配到相應的處理程序,聚合關鍵的運行時診斷信息,預測事件的根本原因類別,并提供解釋性說明。這一創新展示了大型語言模型在根因分析領域的潛力。(3)告警優化。針對當前網絡系統中由于檢測方法產生的大量錯誤報警現象,有學者提出一種無監督方法 pVoxel,將與告警關聯的流量特征向量視為流量特征空間中的一個點,利用點云分析捕獲點之間的拓撲特征來對告警進行分類??蔀楝F有的基于機器學習的檢測系統識別誤報,而不需要任何關于警報的先驗知識 285。4.3面向新興技術的展望和發展建議最優化調度根因分析技術萌芽期期望膨脹期沉淀低谷期逐漸成熟期生產應用期時間期望值Clo
294、udletAI for 云安全模型遷移災難管理移動自組網霧計算協同推理訪問控制可觀測性分析邊緣智能系統AIOps智慧政務防御容災故障隔離隱私保護攻擊空天地海一體化多智能體協同異常檢測智慧城市智慧金融智慧醫療資源隔離新興技術新興產業多云網絡調度圖 4.2:新興技術研究圖譜技術成熟度曲線 2024本節同樣構建了新興領域關鍵技術的 Gartner 成熟度曲線,如圖4.2所示。通過此分析框架,可以清晰地識別出不同新興關鍵技術所處的發展階段,為新興產業的研究與投資提供決策依據。展望未來,云計算在協同性、移動性、智能性、安全性、可靠性等方面正面臨著前所未有的發展機遇。對新興技術的展望與發展建議如下:52C
295、HAPTER 4.面向新興技術的研究4.3.1新興技術的未來研究方向和關鍵技術展望隨著邊緣終端計算能力的快速發展,將智能算法部署在邊緣從而為用戶提供低延遲、高可靠的智能服務成為可能。邊緣智能有望在未來廣泛應用于工業、交通、醫療等各個重要新興產業中,在靠近數據源或用戶的邊緣設備上執行復雜的智能任務,如實時圖像識別、數據分析與決策等,有效緩解了云計算中心的壓力,并減少了數據傳輸過程中的帶寬消耗和隱私泄露風險。而云邊協同則進一步拓展了這種模式的潛力。通過云計算與邊緣計算的緊密協作,二者優勢互補。云計算憑借其強大的計算資源和海量存儲,可為邊緣設備提供模型更新、數據備份以及復雜任務的二次處理。邊緣設備則
296、利用其本地快速響應能力,對實時性要求高的任務進行即時處理,并將關鍵數據上傳至云端進行深度分析與長期存儲。在未來,邊緣智能與云邊協同將在更多領域展現其價值,如智能交通系統中實現車輛的實時精準導航與交通流量優化;工業生產里達成設備的智能故障診斷與生產流程的高效管控;醫療領域助力遠程醫療設備的精準診斷和治療決策,為各行業的智能化升級提供關鍵支撐,推動整個社會更加智能、高效的發展。隨著 5G、6G、以及衛星通信等新興通信技術的發展,移動計算進一步與云計算深度融合,提供廣域覆蓋的低時延高可靠云服務。特別伴隨著近年來低軌衛星技術的快速發展,更多功能強大、軌道布局合理的通信衛星被發射升空,極大拓展了云計算服
297、務的覆蓋范圍,實現對全球各個角落的無縫覆蓋,將低空、海洋、荒漠等區域納入云服務體系,讓空天地海的信息流通順暢無阻。而近年來無人機組網技術的日益成熟,則使得移動自組網等應急通信技術能夠在災害等極端情況下,提供不依賴基礎設施的應急云服務。在云計算基礎設施方面,隨著各大云廠商也在全球廣泛建設移動邊緣云節點,霧計算與 Cloudlet 也不斷演進,實現多邊緣節點的聯合部署,更智能地分配任務、更高效地管理資源,真正實現低延遲、高性價比的服務,為物聯網時代的海量數據處理和實時響應需求提供堅實保障,推動移動計算與云計算在智能交通、智能家居、工業自動化等領域的深度融合與創新應用,讓人們的生活更加便捷、高效和智
298、能。隨著云服務環境的復雜性增加,零信任架構將成為未來安全體系的核心。隨著新技術的發展,零信任安全架構正逐步從理論走向實踐,并在深化和擴展中不斷演進。未來,零信任的研究將圍繞動態信任評估與實時授權、微分段策略優化以及無邊界安全實踐展開,通過行為分析和多因素信任指標動態調整權限,實現從單點授權到全生命周期持續驗證的轉變。同時,零信任架構將在多云和跨租戶環境中發揮重要作用,重點解決跨云身份與訪問管理、統一策略編排以及威脅情報共享問題。結合人工智能,零信任將進一步提升威脅檢測的智能化水平,通過預測性分析和自適應響應機制增強安全性。在場景化應用方面,不同行業將根據自身需求對零信任架構進行定制化設計,如智
299、慧醫療中的數據隱私保護、工業互聯網中的設備安全管理,以及金融行業中的實時交易驗證。此外,研究還將探索標準化與互操作性、自動化部署和可視化管理,以降低架構復雜性并提升可操作性。盡管零信任的實施面臨高復雜性和性能開銷等挑戰,但其通過動態化、智能化和多層次的安全策略,能夠有效應對云計算環境中的復雜威脅,逐步成為構建安全可信網絡體系的核心支柱。邊緣計算與分布式安全研究將為云服務的安全性、可靠性以及高效性注入新的內涵和保障機制。首先,分布式安全架構將得到優化,研究將探索如何在異構環境中實現統一、安全策略和動態調整,提升威脅檢測與響應效率。其次,輕量化的安全協議與加密技術將成為重點,研究將專注于設計高效的
300、安全協議以適應邊緣設備的資源限制。零信任架構將在邊緣計算中得到廣泛應用。此外,AI 和機器學習驅動的威脅檢測與防御機制將在邊緣計算中得到應用,提升實時分析和響應能力??尚庞嬎慵夹g將確保邊緣設備的安全性,防止惡意篡改和數據泄露,而跨域安全協作與多方數據保護也將成為未來研究的重點,確保數據在不同平臺間的安全傳輸與隱私保護。最后,邊緣計算的標準化將推動跨平臺、跨廠商的安全互操作性,提升分布式防御體系的協同能力。隨著新興產業的蓬勃發展,Serverless 計算架構、多云架構和邊緣計算架構等新興架構的研究顯得至關重要。在這些新興產業中,Serverless 計算的函數級可靠性保障不容忽視。例如在工業生
301、產的實時控制場景以及金融高頻交易場景下,函數冷啟動的高效性和并發執行的正確性直接影響著業務的連續性和準確性,而服務集成的優劣則關系到整個業務生態的協同性。對于多云架構,在智能交通的多區域數據融4.3.面向新興技術的展望和發展建議53合以及醫療的跨機構數據共享等應用中,跨云服務的無縫切換、數據一致性保障以及故障隔離恢復能力,是確保系統穩定運行的關鍵。同時,AIOps 的融入為這些新興架構的可靠性保障帶來了新的機遇和挑戰。借助 AIOps,能夠對海量的運維數據進行智能分析,提前預測潛在的可靠性風險,例如在教育在線學習平臺的服務器負載預測、金融交易系統的網絡故障預警等方面。然而,AIOps 也面臨著
302、數據質量參差不齊、模型可解釋性不足以及與現有架構融合的復雜性等問題??傊?,攻克這些難題將有力推動新興云計算架構在各產業的應用,為其數字化變革筑牢根基,提升用戶信任,繁榮產業生態。4.3.2新興技術的發展建議關注無人區等特殊環境下的服務難題,拓展傳統云計算的服務范圍。針對低空經濟等新興業務需求的涌現,云服務商應當拓展云計算服務的范圍,在低空、海洋、荒漠等無人區提供高可靠的云服務,助力新興業務的快速發展。通過加強空天地海一體化的基礎設施建設,云服務商可以借助衛星側基礎設施,在缺乏地面基礎設施的地區構建一體化的全空間立體服務區域,提供全域無縫覆蓋的服務。此外,通過將無人機、船舶等移動設備作為網絡節點
303、構建移動自組網,能夠在無基礎設施的極端復雜環境下實現高可靠的云服務。隨著這些特殊環境下云計算服務的逐步完善,云服務商不僅能夠開拓全新的業務藍海,更將推動相關新興產業實現跨越性發展,為全球經濟發展注入新的活力。深度挖掘邊緣設備的計算潛力,通過智能化技術推動云邊協同發展。一方面,云服務商應當優化云邊資源的協同調度,設計更加靈活的云邊協同調度方法,針對不同場景的計算任務和多樣化的計算資源實現靈活的動態調度,降低系統的整體延遲并提升計算效率??紤]到優化目標繁多帶來的高復雜性,強化學習等 AI 技術有望成為破局的關鍵利器,通過構建智能模型,學習不同任務的優先級、資源需求以及網絡狀況的實時波動,精準實現資
304、源配置,實現高效協同。另一方面,隨著邊緣設備能力的逐漸提升,云服務商應當重視智能化算法在靠近數據源的邊緣設備上的部署,提供低延遲、高可靠的服務??紤]到邊緣設備的資源局限性,模型壓縮、遷移學習等方案有望快速實現輕量級的邊緣智能模型,而聯邦智能、多智能體協同等技術有望進一步強化多個邊緣設備之間的協同性,實現邊緣設備集群效能的最大化釋放。增強基礎安全能力,提供針對新興技術的定制化安全解決方案。一方面,云服務商需要強化基礎安全能力,構建端到端的數據加密和零信任架構,覆蓋數據的傳輸、存儲和處理環節。要加強數據隱私合規,針對不同國家和地區的法規要求(如歐盟的 GDPR、中國的數據安全法),云服務商應提供多
305、樣化的合規工具和服務,幫助客戶高效滿足本地及國際法律要求。另一方面,隨著攻擊方式的不斷演變,云服務商需持續更新安全技術。針對云邊協同、邊緣智能等新興技術領域的安全需求提供定制化的安全解決方案,重點涵蓋數據傳輸、邊緣節點和設備管理的全方位保護。通過加密通信協議和輕量化的端到端加密技術,確保云邊數據傳輸的安全性;在邊緣節點部署零信任架構和安全網關,防范本地攻擊和未授權訪問;引入基于 AI 的實時威脅檢測系統,動態識別邊緣設備的異常行為。提升智能化運維和管理水平,增強云基礎設施可靠性。一方面,云服務商要引入機器學習與大數據分析等技術構建智能運維工具,全方位、實時監控系統性能指標,如 CPU 使用率、
306、內存占用等,及時發現故障并精準預測潛在問題,通過深度挖掘歷史故障與運行數據,建立預測模型,提前防范硬件故障、軟件漏洞及網絡擁塞等狀況,保障系統穩定,降低停機損失。另一方面,全力發展智能化管理系統,依據實時業務負載智能調配計算、存儲與網絡資源,如電商平臺促銷時自動增加資源,活動后回收,避免資源浪費,幫助客戶降本增效。再者,著重強化運維可視化能力,打造直觀工具,以圖表形式呈現系統運行與資源使用詳情,讓客戶對服務器負載、存儲進度、網絡流量等一目了然,快速決策,增強信任,為新興技術在云服務領域的發展筑牢根基,滿足業務與市場需求。參考文獻1 Gartner.Gartner Says Worldwide
307、IaaS Public Cloud Services Revenue Grew 16.2%in 2023.https:/ 國際數據公司(IDC).2023 年全球公共云服務收入.3 國際數據公司(IDC).中國公有云服務市場(2023 上半年)跟蹤.4 國際數據公司(IDC).中國公有云服務市場(2023 下半年)跟蹤.5 Zhenkun Yang,Chuanhui Yang,Fusheng Han,Mingqiang Zhuang,Bing Yang,Zhifeng Yang,XiaojunCheng,YuzhongZhao,WenhuiShi,HuafengXi,etal.Oceanbas
308、e:a707milliontpmcdistributedrelationaldatabase system.Proceedings of the VLDB Endowment,15(12):33853397,2022.6 Wei Cao,Feifei Li,Gui Huang,Jianghang Lou,Jianwei Zhao,Dengcheng He,Mengshi Sun,YingqiangZhang,Sheng Wang,Xueqiang Wu,et al.Polardb-x:An elastic distributed relational database for cloud-na
309、tive applications.In 2022 IEEE 38th International Conference on Data Engineering(ICDE),pages 28592872.IEEE,2022.7 Amazon.Publications-Amazon Science.https:/www.amazon.science/publications,2022.8 Wei Cao,Yingqiang Zhang,Xinjun Yang,Feifei Li,Sheng Wang,Qingda Hu,Xuntao Cheng,ZongzhiChen,Zhenjun Liu,J
310、ing Fang,et al.Polardb serverless:A cloud native database for disaggregated datacenters.InProceedingsofthe2021InternationalConferenceonManagementofData,pages24772489,2021.9 Alex Depoutovitch,Chong Chen,Per-Ake Larson,Jack Ng,Shu Lin,Guanzhu Xiong,Paul Lee,EmadBoctor,Samiao Ren,Lengdong Wu,et al.Taur
311、us mm:Bringing multi-master to the cloud.Proceedings ofthe VLDB Endowment,16(12):34883500,2023.10 Xinjun Yang,Yingqiang Zhang,Hao Chen,Feifei Li,Bo Wang,Jing Fang,Chuan Sun,and Yuhui Wang.Polardb-mp:A multi-primary cloud-native database via disaggregated shared memory.In Companion ofthe 2024 Interna
312、tional Conference on Management of Data,pages 295308,2024.11 Guoliang Li,Xuanhe Zhou,Ji Sun,Xiang Yu,Yue Han,Lianyuan Jin,Wenbo Li,Tianqing Wang,and ShifuLi.opengauss:An autonomous database system.Proceedings of the VLDB Endowment,14(12):30283042,2021.12 Rentong Guo,Xiaofan Luan,Long Xiang,Xiao Yan,
313、Xiaomeng Yi,Jigao Luo,Qianya Cheng,Weizhi Xu,Jiarui Luo,Frank Liu,et al.Manu:a cloud native vector database management system.arXiv preprintarXiv:2206.13843,2022.13 Tzu-WeiYang,SethPollen,MustafaUysal,ArifMerchant,andHomerWolfmeister.Cachesack:Admissionoptimization for google datacenter flash caches
314、.In Jiri Schindler and Noa Zilberman,editors,Proceedingsof the 2022 USENIX Annual Technical Conference,USENIX ATC 2022,Carlsbad,CA,USA,July 11-13,2022,pages 10211036.USENIX Association,2022.14 Shushu Yi,Shaocong Sun,Li Peng,Yingbo Sun,Ming-Chang Yang,Zhichao Cao,Qiao Li,MyoungsooJung,Ke Zhou,and Jie
315、 Zhang.Biza:Design of self-governing block-interface zns afa for endurance and參考文獻55performance.In Proceedings of the ACM SIGOPS 30th Symposium on Operating Systems Principles,pages313329,2024.15 Su Zhou,Erci Xu,Hao Wu,Yu Du,Jiacheng Cui,Wanyu Fu,Chang Liu,Yingni Wang,Wenbo Wang,Shouqu Sun,et al.SMR
316、STORE:A storage engine for cloud object storage on HM-SMR drives.In 21stUSENIX Conference on File and Storage Technologies(FAST 23),pages 395408,2023.16 Roei Kisous,Ariel Kolikant,Abhinav Duggal,Sarai Sheinvald,and Gala Yadgar.The what,the from,andthe to:The migration games in deduplicated systems.A
317、CM Transactions on Storage,18(4):129,2022.17 Saurabh Kadekodi,Shashwat Silas,David Clausen,and Arif Merchant.Practical design considerations forwide locally recoverable codes(lrcs).ACM Transactions on Storage,19(4):126,2023.18 Yiduo Wang,Yufei Wu,Cheng Li,Pengfei Zheng,Biao Cao,Yan Sun,Fei Zhou,Yinl
318、ong Xu,Yao Wang,and Guangjun Xie.Cfs:Scaling metadata service for distributed file system via pruned scope of criticalsections.In Proceedings of the Eighteenth European Conference on Computer Systems,pages 331346,2023.19 Yiduo Wang,Cheng Li,Xinyang Shao,Youxu Chen,Feng Yan,and Yinlong Xu.Lunule:an a
319、gile andjudicious metadata load balancer for CephFS.In Proceedings of the International Conference for High Per-formance Computing,Networking,Storage and Analysis(SC 21),pages 116.IEEE,2021.20 Dong Du,Tianyi Yu,Yubin Xia,Binyu Zang,Guanglu Yan,Chenggang Qin,Qixuan Wu,and Haibo Chen.Catalyzer:Sub-mil
320、lisecond startup for serverless computing with initialization-less booting.In James R.Larus,LuisCeze,andKarinStrauss,editors,ASPLOS20:ArchitecturalSupportforProgrammingLanguagesand Operating Systems,Lausanne,Switzerland,March 16-20,2020,pages 467481.ACM,2020.21 Alexandru Agache,Marc Brooker,Alexandr
321、a Iordache,Anthony Liguori,Rolf Neugebauer,Phil Piwonka,and Diana-Maria Popa.Firecracker:Lightweight virtualization for serverless applications.In RanjitaBhagwan and George Porter,editors,17th USENIX Symposium on Networked Systems Design and Imple-mentation,NSDI 2020,Santa Clara,CA,USA,February 25-2
322、7,2020,pages 419434.USENIX Association,2020.22 Alessandro Randazzo and Ilenia Tinnirello.Kata containers:An emerging architecture for enabling MECservices in fast and secure way.In Mohammad A.Alsmirat and Yaser Jararweh,editors,Sixth InternationalConference on Internet of Things:Systems,Management a
323、nd Security,IOTSMS 2019,Granada,Spain,October22-25,2019,pages 209214.IEEE,2019.23 ZijunLi,JiaganCheng,QuanChen,EryuGuan,ZizhengBian,YiTao,BinZha,QiangWang,WeidongHan,and Minyi Guo.Rund:A lightweight secure container runtime for high-density deployment and high-concurrency startup in serverless compu
324、ting.In Jiri Schindler and Noa Zilberman,editors,Proceedingsof the 2022 USENIX Annual Technical Conference,USENIX ATC 2022,Carlsbad,CA,USA,July 11-13,2022,pages 5368.USENIX Association,2022.24 Nikita Lazarev,Varun Gohil,James Tsai,Andy Anderson,Bhushan Chitlur,Zhiru Zhang,and ChristinaDelimitrou.Sab
325、re:Hardware-accelerated snapshot compression for serverless microvms.In AdaGavrilovska and Douglas B.Terry,editors,18th USENIX Symposium on Operating Systems Design andImplementation,OSDI 2024,Santa Clara,CA,USA,July 10-12,2024,pages 118.USENIX Association,2024.25 Edward Oakes,Leon Yang,Dennis Zhou,
326、Kevin Houck,Tyler Harter,Andrea C.Arpaci-Dusseau,andRemzi H.Arpaci-Dusseau.SOCK:rapid task provisioning with serverless-optimized containers.InHaryadi S.Gunawi and Benjamin Reed,editors,2018 USENIX Annual Technical Conference,USENIX ATC2018,Boston,MA,USA,July 11-13,2018,pages 5770.USENIX Association
327、,2018.56參考文獻26 Mohammad Shahrad,Rodrigo Fonseca,Iigo Goiri,Gohar Chaudhry,Paul Batum,Jason Cooke,EduardoLaureano,Colby Tresness,Mark Russinovich,and Ricardo Bianchini.Serverless in the wild:Characteriz-ing and optimizing the serverless workload at a large cloud provider.In Ada Gavrilovska and Erez Z
328、adok,editors,2020 USENIX Annual Technical Conference,USENIX ATC 2020,July 15-17,2020,pages 205218.USENIX Association,2020.27 Yanan Yang,Laiping Zhao,Yiming Li,Shihao Wu,Yuechan Hao,Yuchi Ma,and Keqiu Li.Flame:Acentralized cache controller for serverless computing.In Tor M.Aamodt,Michael M.Swift,and
329、NatalieD.Enright Jerger,editors,Proceedings of the 28th ACM International Conference on Architectural SupportforProgrammingLanguages andOperating Systems,Volume4,ASPLOS2023,Vancouver,BC,Canada,March25-29,2023,pages 153168.ACM,2023.28 Guowei Liu,Laiping Zhao,Yiming Li,Zhaolin Duan,Sheng Chen,Yitao Hu
330、,Zhiyuan Su,and WenyuQu.FUYAO:dpu-enabled direct data transfer for serverless computing.In Rajiv Gupta,Nael B.Abu-Ghazaleh,MadanMusuvathi,andDanTsafrir,editors,Proceedingsofthe29thACMInternationalConferenceon Architectural Support for Programming Languages and Operating Systems,Volume 3,ASPLOS 2024,
331、LaJolla,CA,USA,27 April 2024-1 May 2024,pages 431447.ACM,2024.29 Xingda Wei,Fangming Lu,Tianxia Wang,Jinyu Gu,Yuhan Yang,Rong Chen,and Haibo Chen.No pro-visioned concurrency:Fast rdma-codesigned remote fork for serverless computing.In Roxana Geambasuand Ed Nightingale,editors,17th USENIX Symposium o
332、n Operating Systems Design and Implementation,OSDI 2023,Boston,MA,USA,July 10-12,2023,pages 497517.USENIX Association,2023.30 IstemiEkinAkkus,RuichuanChen,IvicaRimac,ManuelStein,KlausSatzke,AndreBeck,PaarijaatAditya,and Volker Hilt.SAND:towards high-performance serverless computing.In Haryadi S.Guna
333、wi andBenjamin Reed,editors,2018 USENIX Annual Technical Conference,USENIX ATC 2018,Boston,MA,USA,July 11-13,2018,pages 923935.USENIX Association,2018.31 Swaroop Kotni,Ajay Nayak,Vinod Ganapathy,and Arkaprava Basu.Faastlane:Accelerating function-as-a-service workflows.In Irina Calciu and Geoff Kuenning,editors,2021 USENIX Annual Technical Con-ference,USENIX ATC 2021,July 14-16,2021,pages 805820.US