1、2目錄網絡加速AI01AI改變網絡02智能化生產力蓄勢待發,AI基礎設施持續夯實趨勢1:智算集群步入超十萬卡時代場景-1 超大單體集群:呼喚新一代算內網絡場景-2 跨DC協同訓練:長距無損聯算網絡,助力分布式算力聚池成海趨勢2:彈性無損入算網絡建設提速,使能智算云服務商業變現場景-1 存算拉遠協同訓練,驅動入算網絡走向長距無損場景-2 海量樣本“極速達”需求凸顯,彈性入算網絡成為建設重點AI為網絡注入新的創新生命力趨勢3:數字孿生和AI融合發展,網絡加速邁向L4高階自動駕駛場景-1 AI Agent與RAG/小模型協同,提升領域問答和決策表現場景-2 網絡變更Agent精準仿真和驗證,配置錯誤
2、不入網場景-3 網絡故障Agent智能巡檢和恢復,靜默故障不沉默趨勢4:網絡安全進入AI對抗時代場景-1 通過輕量級圖AI檢測模型,應對勒索變種難防護難題場景-2 通過自學習AI模型,實現加密攻擊高效檢測場景-3 通過大小模型協同,實現安全事件降噪和智能輔助處置總結:智算網絡和智算算力協同建設,使能企業隨需用智行動建議總結:三層智能架構,加速網安一體的網絡智能化發展行動建議3網絡加速AI014智能化生產力蓄勢待發,AI基礎設施持續夯實 大模型訓練持續提速,智能化生產力蓄勢待發。大模型應用走深向實,已經從2C現象級應用走向2B 通用應用,正在走向場景化2B應用。場景化2B應用是企業的核心生產場景
3、,因此,大模型快速迭代能力非常關鍵,以Tesla為例,需要將自動駕駛訓練過去一個月的工作量縮短到一周內完成,實現23周一次OTA,滿足安全和競爭力需要??梢灶A見的是,千行萬業智能化過程中不斷涌現的新需求,將驅動大模型訓練時長縮短至天級甚至小時級。AI基礎設施投資加碼,算力服務成為新熱點。智能算力投資持續提速,以中國為例,預計2027年智能算力規模達到1117.4EFLOPS,2022-2027年復合增長率達33.9%,同期通用算力規模年復合增長率為16.6%。中國三大T等均已發布相關戰略,將智算云服務(算力服務)作為建設重點。網絡和算力協同建設,為商業閉環夯實基礎。在智算云服務中,算力是關鍵,
4、算網是基礎。例如,中國移動通過建設“4+N+31+X”多級智算中心和九州算力網絡,同時通過百川并網接入第三方算力作為補充,實現“網絡無所不達,算力無所不在,智能無所不及”。Tesla:自動駕駛訓練持續提效中國智能算力基礎設施投資趨勢中國移動智算戰略5趨勢一:智算集群步入超十萬卡時代 集群規模從萬卡快速躍升到十萬卡級:受大模型的“涌現”效應影響,大模型參數持續增長,其增長速度已經超越摩爾定律(單卡算力提升速度),導致集群規模在持續增長,目前已經進入十萬卡時代。Meta在2024年初公布了2個24576塊Nvidia H100集群,用于下一代生成式AI模型的訓練;2024年7月,埃隆馬斯克(Elo
5、n Musk)宣布,xAI團隊已開始在孟菲斯超級集群上進行新版聊天機器人GROK 3訓練,該集群配備了10萬張H100。字節跳動搭建12288卡Ampere架構訓練集群,研發MegaScale生產系統用于訓練大語言模型??拼笥嶏w2023年建成首個支持大模型訓練的超萬卡集群算力平臺“飛星一號”。2024年2月4日“深圳市智慧城市算力統籌調度平臺”打造10萬卡“最強算力”集群(河套-西麗湖-光明科學城)。潤澤(廊坊)國際信息港B區新型智算中心13萬卡已啟動建設,預計25年底交付。61.1-超大單體集群:高質量算內網絡成為釋放算力效率的關鍵要素網絡是決定集群大模型訓練效率的關鍵:AI訓練的通信模式,
6、與傳統的通信模式差異較大,不同大模型架構也存在著通信模式的差異。部分大模型訓練過程中通信占比最大可達50%,模型參數越多,集群規模越大,數據同步耗時越長,網絡的通信效率對模型訓練效率影響越重,尤其十萬卡級大模型需要更高質量的網絡。高質量的網絡,需要無阻塞、低時延,滿足十萬卡級高線性度的算力利用率,大規模AI場景下海量的參數分布于多個服務器的多個GPU之上,需要用到多大十萬個GPU來訓練數十TB級甚至更大的數據,大量GPU之間的通信容易出現由于網絡負載分擔不均或者時延過大導致算力閑置,算法線性度下降甚至出現“飽和”現象。高質量的網絡,需要長穩、健壯,支撐十萬卡級大集群訓練的高可靠,大模型訓練是一
7、個復雜的系統工程,系統穩定運行十分重要,而網絡基礎設施是長穩訓練的關鍵。某個千億大模型總訓練時長65天,由于故障引起的重啟多達50多次,訓練時長只有33天。在十萬卡級集群中,由于規模和復雜度急劇上升,這類故障風險也更加凸顯,并且故障的恢復時間長,導致系統整理可用性低于60%。算力現實計算節點數理想期望通過增加節點數量獲得性能線性增長算力天花板網絡性能帶來算力天花板,投資收益嚴重失衡10萬卡訓練集群,MFU下降到40%百萬器件,網絡可靠性挑戰指數級增長萬卡集群2萬+光纖1000+機柜4萬+端口百萬+器件48.7%47.8%43.3%41.2%59.1%57.3%54.9%54.0%0.0%20.
8、0%40.0%60.0%80.0%30726144819212288Megatron-LMMegaScale模型規模越大,通信占比越高;通信時,計算空等數據,算力浪費22%28%33%17%網絡故障 光模塊 交換機等網絡故障其他故障 作業調度 AI算子 訓練模型故障Source:Meta,OPT公開日志數據計算GPU故障 GPU硬件 Device OS故障計算其他故障 CPU 計算框 Host OS故障7關鍵能力-1:超大規模組網,800GE超高速互聯 需要新的組網架構支持十萬卡級組網:兩層框-盒組網最大支持3.2萬卡(美團),三層(盒-盒-盒)組網可支持50萬卡,該架構未來可支持百萬卡。面向
9、未來的超百萬卡時代,如果繼續增加網絡層次,會帶來跳數多時延大、網絡復雜有效負載低、互聯鏈路過多成本高等一系列挑戰,業界在探索基于DragonFly、Torus 等新架構互聯方案。800GE步入規模商用階段,構建超寬網絡:隨著400GE應用的普及,數據中心網絡正朝著更高的速度發展800GE。根據研究機構DellOro Group發布的數據中心交換機市場五年期預測報告顯示,800GE交換端口的預計2025年將超過400GE。三層CLOS架構NPU/GPU服務器兩層CLOS架構3.2萬卡200GE接入50100萬卡400GE/800GE接入(800GE互聯)(400GE互聯)基于DragonFly的
10、星織網絡架構100萬卡800GE接入(800GE/1.6TE互聯)8關鍵能力-3:與光模塊協同打造長穩可靠網絡,提升算力可用率 光模塊是保證訓練穩定性的關鍵一環:AI訓練中成千上萬張算卡協同完成一項訓練任務,一旦出現單點故障,整個訓練任務都會被迫中斷。根據業界統計,集群穩定運行后光模塊故障率在千分之6.3.其中由光模塊污損帶來的訓練中斷占比30%,光模塊單通道故障占比70%。面對光模塊穩定性這一難題,業界主要探索方向有兩方面:訓前主動巡檢,提前識別污損/松動光模塊:光模塊污染和松動在光模塊問題中占比約30%,網絡通過與AI光模塊的協同,假發光模塊主動測量鏈路質量,發現光污問題和松動隱患,主動消
11、除網絡故障潛在風險,杜絕帶病上崗。訓中光模塊通道級故障隔離,保障AI網絡穩定高效。由于智算數據中心光模塊運營溫度比通算高20攝氏度,智算中心中光模塊失效概率和影響遠大于通算數據中心。分析發現,智算光模塊內激光器件失效是光模塊失效是主要原因(單通道故障占光模塊故障問題90%),也是困擾業界的難題,業界玩家在積極尋找解決方案,華為通過自適應通道關斷技術,結合計算側和交換機側實現端網協同,實現光模塊故障通道的隔離,保證網絡通信系統仍然穩定運行。光模塊23%NPU22%主板14%內存11%其他30%計算節點失效TOP部件光模塊失效模式分布激光器單通道故障占比高達90%9關鍵能力-2:網絡級負載均衡,零
12、擁塞超高吞吐釋放算力 提網絡吞吐是AI訓練效率的關鍵:當前頭部互聯網企業、大型AI研發企業、國內運營商等領先的公司都在通過自建或使用萬卡集群,并積極規劃面向未來的50萬卡算力集群。AI人工智能計算場景的流量特征是流量少、單流帶寬大。網絡經常因為負載不均導致有效吞吐低,一般在50%左右。當網絡架構從二層變成三層,網絡路徑數就呈現幾何倍數的增長,負載不均更嚴重,整網吞吐甚至只有20%(五十萬卡時的實驗室仿真數據)。網絡級負載分擔提升網絡吞吐:為了提升網絡吞吐量,業界主流玩家的優化思路基本一致,針對大模型AI訓練的需求,對端、網和協議進行深度協同以及適配,實現整網負載均衡和90%以上的高吞吐性能,實
13、現通信效率提升。目前華為通過網絡級負載均衡(NSLB)技術,已經實現在兩層CLOS架構下實現網絡有效吞吐達98%(如美團等);面向三層組網,升級版智能負載均衡算法已實現進一步突破和適配。擁塞空閑50%被動-主動 靜態-動態 局部-全局萬卡級模型訓練中:華為網絡級負載均衡技術整網吞吐提升至90%以上90+%NSLB-DP:面向超十萬卡級智能負載均衡技術時間歷史現在X1 DPX2 PPX3 EPX4 SP三層網絡架構,網絡路徑數從450萬激增到300億,負載均衡難度劇增FlowMatrix算法FlowMatrix算法五維建模,復雜度MNM*N,全網鏈路秒級調整101.2-跨DC協同訓練:長距無損聯
14、算網絡,實現分布式算力聚池成海單智算中心規模受限,多DC協同訓練需求涌現:一方面,受機房環境、用電等因素影響,單智算中心規模受限,跨DC協同訓練成為算力聚合的有效方式。例如,Google Gemini Ultra 在模型訓練中已經使用了基于Cloud TPU v4 跨DC協同訓練;微軟OpenAI實驗室發布最新消息,預計2025年發布的GPT-6由于供電問題必須跨Region訓練;另一方面,算力市場主要玩家運營商有大量的存量CO/DC等資源,其期望借助智算建設的機遇、最大化存量CO/DC資源的價值。中國移動、廣東電信等都在積極探索相關方案,以應對未來超大模型訓練需求,提升算力服務的競爭力。30
15、K GPUs40K GPUs30K GPUs40K GPUs40K GPUs跨DC協同訓練協同訓練模式1:區域內算力聚合,聚池成海(粵港澳大灣區,京津冀)協同訓練模式2:樞紐間算力協同,滿足超大模型訓練需要(中國移動)單智算中心多智算中心微軟預計GPT-6受限電網能力,只能通過多區域算力中心協同訓練智算分布部署,突破電力瓶頸GPT-5 十萬卡規模,功耗380MW,年用電量33億度 1/10香港全年用電量750MW GTP-6功耗11聯算網絡關鍵能力:零丟包、高利用率、高效應對高突發 跨DC協同訓練,需要DCI網絡“0”丟包:與傳統業務相比,AI訓練數據對網絡丟包的敏感度顯著提升。即使是0.1%
16、的微小丟包率,也可能導致訓練效率降低50%,嚴重影響協同計算的效果,如何在廣域網中實現無損傳輸,確保協同計算的高效運行,打造“0丟包”的高運力智能廣域網成為關鍵??鏒C協同訓練,需要解決網絡利用率低:AI訓練的流量特點是“業務流數量少、突發大”,也就是業界所稱的大象流,研究表明,萬卡級。大象流會導致網絡中的傳統基于五元組的負載分擔方法失效,鏈路負載不均衡,整網利用率極低??鏒C協同訓練,需要解決流量突發問題:在萬卡集群中,GPU單卡200Gbps 互聯,參數同步時,理論流量速率在51.2Tbps,但由于業務高突發、高并發,實際瞬時并發可高達1600Tbps,現階段,DC間互聯帶寬不可能滿足,需
17、要在網絡設備上完成整形收斂。領先企業已經在落地跨DC協同訓練。北京電信積極探索智算拉遠方案,已在瀛海、武清、永豐三個AI 訓練DC測試百公里協同訓練可行,和單DC相比,線性度下降小于5%;經仿真評估,跨千公里距離時延過大,僅可支持數據并行跨地域的方式進行訓練,50Tbps+DCI互聯帶寬可滿足萬億/十萬億稀疏模型的要求。1000KM vs 2KM丟包率對吞吐影響長距RDMA(1000KM)在萬分之一丟包率下吞吐下降60%數據中心VMVMVMvSwitch數據中心VMVMVMvSwitch傳統網絡易導致鏈路負載不均衡,整網利用率極低理想流量速率51.2Tbps實際流量速率 1600TbpsDCI
18、 收斂比和訓練效率要平衡最優,需收斂至百T級別12趨勢二:高運力入算網絡建設提速,使能智算云服務商業變現 高運力入算網絡,“算力”設施商業變現:算力基礎設施建好之后,擺在眼前的另一個問題是如何“服務海量客戶用好算力”,實現智算中心的商業正循環。在中國,當前已經完成建設的智算數據中心中,可對外提供智算云服務的占比不足25%,缺少一張高質量的網絡將客戶、最終用戶、AI應用和智算中心高效聯接到一起,為數據要素的高效轉運提供超高運力,是一個重要因素。這張高運力的入算網絡,主要服務于行業客戶行業大模型訓練和海量最終用戶的模型推理兩種場景。建設高質量入算網絡成為產業新熱點。中國移動建設并發布九州算力互聯網
19、,發布彈性專線等新業務;中國電信升級云網戰略,上海電信積極探索“樣本數據快遞”等新場景的技術創新和商業導入;中國聯通則以CUBE-Net3.0作為未來5-10年網絡轉型的頂層架構設計,意在打造“連接計算智能”的融合服務中國移動智算框架“九州”算力互聯網Matrixes算力互聯網網絡架構圖131-存算拉遠協同訓練,驅動入算網絡走向無損 敏感數據不出園區,存算拉遠訓練。部分企業或行業客戶由于要保障數據安全性,要求從研究機構到算力中心傳輸過程中數據不在園區外落盤。存算拉遠訓練需要新型網絡能力,一方面,訓練業務對丟包十分敏感、入算網絡需要按需支持無損,另一方面,網絡具備端到端高有效吞吐能力。調研1:上
20、海證券交易所數據中心調研2:GD政數局SG智算中心部署政務類大模型,ZS租用智算中心算力進行大模型訓練,因為涉及敏感信息,用戶希望將數據存在本地,通過網絡拉通遠端算力進行大模型訓練券商數據存儲在私域。在訓練頻次高、訓練數據變化大、增量多的情況下,需要通過加密聯接打通存和算、實現樣本拉遠訓練數據安全驅動敏感數據不落智算中心存儲區公文/公民/法人/地址等敏感信息醫療應用政務辦公電子病歷、流行病數據、基因數據等金融領域銀行/保險/征信/電信/支付等信息涉密保護不出醫院物理隔離政務辦公自動化典型病例自動篩查信貸風險識別智算場景關鍵痛點行業142-海量樣本“極速達”需求凸顯,彈性入算網絡成為建設重點 大
21、模型向超萬億參數、多模態發展,TB/PB級樣本數據快遞成為難題,硬盤+人工方式:效率低,成本高,易丟失;專線傳輸方式:低帶寬等不起,高帶寬用不起。彈性專線(入算網絡)成為熱點:采用基礎套餐+彈性流量計費融合模式,實現任務式大樣本傳輸。上海電信正在和華為針對“數據快遞”進行場景化技術驗證。某大型綜藝(年1220PB)天眼FAST(年15PB)快遞/專人投送,周期不定,每次10T上百T專人運送,23天1次,每次100200T專線傳輸(10TB)100M帶寬(2萬+/月)需12天,10G帶寬(30萬+/月)需3小時算力中心數據某車企智駕(年20PB+)快遞投送,每天1次,每次160T醫療行業:39%
22、交通行業:73%典型客戶:天眼FAST年數據量:15PB典型客戶:上汽總院年數據量:38PB典型客戶:華大基因年數據量:4.5PB科研行業:90%影視行業:42%典型客戶:湖南衛視年數據量:12PB上汽AI訓練中心(上海)路測車(廣州)(8TB/天/車)線下快遞(3天)上汽總部(上海)人工拷貝(3天)標注 訓練 仿真采用線下硬盤快遞+人工拷貝方式,雙向耗時2周(160TB/天)上汽總院智能駕駛案例:4個城市20臺路測車,每月工作20天,每車每天產生8T數據,每天共160T數據(40塊硬盤)需快遞寄往上??偛縄DC(耗時3天),由人工拷貝至智駕訓練中心(耗時3天),上傳完畢后寄回,來返耗時2周1
23、5關鍵能力:彈性高并發 通過網絡能力開放、商業模式創新,實現和算力的協同彈性調度,支持海量樣本的極速達:彈性調度的核心在于其任務式新服務模式。傳統的網絡服務往往按照固定的帶寬資源進行分配,出現“高帶寬用不起、低帶寬等不起”的窘境,而任務式的彈性調度網絡服務,企業可以實現按需彈性的數據傳遞,從而加快 業務進程,提升市場競爭力;要實現彈性調度,網絡能力必須開放,和算力調度協同,同時也必須有創新的商業模式匹配。面向海量智算用戶,通過整網調度提升整網吞吐和服務能力,是算力互聯網絡和算力服務商業閉環的關鍵。傳統網絡負載率一般低于50%,但是智算業務由于高突發并且以大象流為主,需要通過智能調度提升網絡的整
24、網負載能力,在即使80%的負載情況下,智算業務仍然不受影響。如此一來,智算互聯網絡就可以同時為更多智算用戶提供服務。流感知引擎流調度引擎100G 視頻生成大模型GE 推理小模型智算中心16網絡加速AI-智算網絡和智算算力協同建設,使能企業隨需用智400GE/800GE邊緣推理DCA400GE/800GE區域訓推中心企業DCDCI跨DC超集群集群DCN算內網絡算間互聯入算網絡樞紐算力中心(國家級)省市級區縣級智算算力基礎設施建設:基于最終用戶業務的要求以及客戶實際的業務發展需要,綜合考慮機房、電能供應等情況,規劃智算中心布局、建設節奏。智算網絡基礎設施建設:彈性超寬入算網絡、長距無損算間互聯網絡
25、、超大規模零擁塞長穩可靠的算內網絡,實現算力的高效生產和千行萬業用戶隨需的算力消費,加速智算云服務業務和商業模式創新。存算拉遠訓練海量樣本入算應用實時推理17網絡加速AI-行動建議 網絡和算力中心統一規劃,協同建設:首先是從規劃、投資等層面加強網絡和算力中心的協同建設,讓算力能隨需覆蓋到目標客戶;其次是加強網絡和算力在平臺調度層面的全自動化協同,讓用戶可以任務式隨需使用網絡和算力;再次,加強算力和網絡商業模式創新,讓智算云服務易用并且負擔得起。引入新型DCN組網架構,加速800GE導入:要積極引入新型DCN組網架構和800GE等新超高速互聯創新技術導入,以可接受的組網成本和更高的可用性,構建線
26、性度高的超大規模算力集群。加速創新技術導入,促進長距無損算力互聯網絡建設:積極與廠商合作,引入創新技術,打造算力互聯網絡,同時與頭部客戶一起,打造行業標桿,在創新中推進產業發展和方案成熟以及新商業模式孵化。18AI改變網絡0219AI改變網絡-AI為網絡注入新的創新生命力 網絡創新需求從未止步:網絡作為數字世界的基石,在我們邁向全面數智化過程中日益重要,已經成為如同物理世界的水和電一樣,成為不可或缺的基礎設施。網絡聯接對象和承載的業務越來越多樣,從聯接人到聯接物、聯接云,甚至聯接未來的“數字人”。新技術的應用對網絡提出更高的要求,例如:網絡質量、自動化和差異化服務能力,驅動著網絡的發展。另一方
27、面,隨著聯接對象的增多、聯接業務的豐富,網絡本身也越來越復雜,網絡的運營、運維的要求越來越高,然而,可獲取到的網絡人才、以及企業對網絡運維的投入成本并沒有隨之增長,迫切需要網絡走向自智化。還有,隨著云計算和AI技術的進步,網絡攻擊行為更加猖獗,利用新技術、新手段保障網絡自身安全性也越來越重要??傊?,網絡創新需求從未止步,而且更加迫切。AI為網絡創新注入新的生命力:AI技術的發展,可以全方位提升網絡的能力。規劃和建設階段可利用AI技術,基于流量歷史數據和實時數據進行需求預測、指導精準擴容,也可以為企業內網絡如無線網絡進行規劃仿真、指導安裝工人安裝調試。運營運維階段可利用AI技術指導網絡資源的合理
28、利用、自動進行資源的動態調整,以優化網絡性能和用戶體驗,也可以用AI技術進行應用體驗分析、行為識別,進行主動的體驗保障和精準的安全防護,還可以進行故障監測、定界定位、排除和指導網絡能耗優化,這些AI技術已經在網絡中“單點或多點”應用。大模型中的思維鏈技術,可以進行復雜問題分解處理,加速跨域網絡的體驗優化、故障排除,我們相信,未來大模型思維鏈將助力AI技術在網絡中的全面系統化應用,同時也為網絡注入全新的服務能力。20趨勢三:數字孿生和AI融合發展,網絡加速邁向L4高階自動駕駛1、網絡數字孿生(NDT)是網絡智能化的堅實基礎 網絡數字孿生將顛覆傳統網絡管理模式,提供調整、維護、優化等變更操作的試驗
29、和驗證,極大地降低試錯成本,ITU、IETF、ETSI、TMF、CCSA等標準組織積極推進網絡數字孿生的架構、技術、標準定義 中國電信、中國移動、思科、新華三、瞻博網絡等行業頭部企業陸續發布網絡數字孿生架構和產品,根據Gartner的預測,到2026年,50%的網絡供應商將在其解決方案中提供數字孿生功能2、網絡大模型從探索走向落地應用 運營商、設備商等通過自研、采購等形式布局網絡大模型,Gartner預測,到2027年,全球40%的CSP將采用AI和ML,超過90%的企業將在網絡管理工作中采用AI 華為在2024年巴展期間發布了業界首個網絡大模型,憑借其30多年的ICT網絡知識與經驗,該網絡大
30、模型基于50B數通領域語料訓練,覆蓋數通領域6大類44個場景典型網絡大模型產品2022年,華為發布業界首個數字孿生底座泰國AIS、印尼XL、西班牙Orange、浙商銀行等1600+實踐 網絡全息可視:全網SLA可視 網絡性能最優:P3測試網絡時延降低30%網絡自治優化:路徑調優時間 3個月3分鐘自研九天大模型提供網絡智能化能力成立GTAA進行電信行業大預言模型研發基于盤古大模型的NetMaster連接OpenAI提供問答能力連接微軟大模型提供問答能力微軟運營商AI平臺ITU發布智能運維架構2023年12月,ITU正式發布智能運維國際標準ITU-T Y.3550擁有豐富網絡運維數據的企業將在網絡
31、大模型構建中取得優勢21從簡單問答向復雜場景深入,網絡智能化驅動運維模式變革1、人機協同從Copilot到Agent,網絡智能化分階段演進 大模型產業的快速成熟,推動網絡智能化從嵌入式智能走向Copilot和AI Agent智能時代,為網絡大模型補齊手、腳,重構網絡運維模式 基于角色的Copilot帶來全新運維體驗:Copilots 通過智能語言交互能力,理解復雜的技術問題,并給運維人員提供準確的解決方案,幫助運維人員快速閉環網絡問題 基于場景的Agent構建場景自治:AI Agents 針對不同的運維場景,提供不同場景自閉環能力,實現運維流程智能化,LLM-based Agent 是未來51
32、0年 AI創新的主要方向2、主流廠商積極投入Copilot和AI Agent產品開發 Copilot和Agent能力依賴網絡大模型,擁有長期積累的傳統設備商擁有高質量訓練語料,在進行Copilot和Agent產品競爭力構建上擁有先天優勢,可以圍繞網絡生命周期“規-建-維-優”場景靈活進行Copilot和Agent開發 華為網絡大模型基于角色和業務場景陸續發布了一系列的產品,通過可智能組合與泛化的原子能力可以快速構建場景化智能化能力,提升運維效率。例如在智慧綠色園區場景,綠色節能Agent實時檢測園區業務負載情況,并結合企業潮汐預測,實現20%+網絡節能和30%樓宇節能AgentMulti-Ag
33、ent FrameAgentAgentEmbedded模式Copilot模式Agent模式人完成大部分工作人和AI寫作完成工作AI完成所有工作Copilot和Agent是網絡智能化的兩個核心階段華為發布的園區領域Copilot和Agent產品基于角色的Copilots綠色節能Agent人工節能 AI動態節能基于場景的Agents會議重保Agent人工配置 AI故障閉環智能問答Copilot菜單交互 自然語言交互運維成本降低60%智慧運維Copilot人工運維 AI輔助運維運維效率提升10倍智慧運營Copilot人工分析 AI輔助運營數據分析效率提升80%網絡電費節省20%運維效率提升90%22
34、以網絡自動駕駛,重塑企業網絡體驗和運維通過引入通信大模型以及網絡數字孿生,打造基于企業場景的Agent和基于角色的Copilot,實現:全網運行狀態實時可視,主動發現和消除網絡隱患,非硬件類故障自恢復網絡優化Agent網絡故障Agent智能客服Copilot配置生成Agent安全輔助Copilot業務零卡頓 任何用戶、任何設備、任何應用確定性體驗網絡零中斷開通零等待安全零風險 自動生成網絡配置和仿真驗證,新業務部署實時開通 持續提升變種病毒和未知威脅檢出能力,安全威脅自動處置企業網絡面臨的挑戰 全無線化辦公,應用云化、視頻化、協作化、智能化,員工辦公體驗難以全面保障 企業辦公、生產、數據中心、
35、分支及聯接多云等網絡規模越來越大,設備種類越來越多,日常維護范圍和復雜度持續增大 業務部署涉及多個網絡域,從設計、集成到驗證開通周期長 病毒變種數量指數級增長,攻擊智能化,安全運營和未知威脅挑戰增大總部辦公園區Internet生產園區分支園區公有云DCN分支網絡總部辦公網絡生產網絡分支互聯聯接多云分支互聯企業私有云DC23應用場景1:AI Agent與RAG/小模型協同,提升領域問答和決策表現大模型Q:Whats the height of AP363?生成任務幻覺傳統AI優勢任務Fact:35mm:40mm異常檢測調優NodeLink預測1、大模型偶爾“胡說八道”的問題無法消除,RAG是主流
36、規避手段 大模型幻覺問題無法消除:任何大模型的訓練數據都不可能覆蓋全部知識和場景,所以大模型的幻覺問題無法消除 RAG是公認的幻覺規避主要方法:RAG 使用檢索到的數據作為參考來組織答案,從外部知識源中動態檢索信息,大大提高響應的準確性和相關性2、AI Agent協同RAG/小模型,提升問答準確率 利用Agent進行問題規劃,實現多輪對話,以補齊缺失信息;實現按步驟RAG+多步答案綜合,來處理復雜問題 大小模型協同的組合范式,不但繼承領域的復雜業務邏輯,還能借助大模型的理解、表達和泛化能力,為傳統AI注入新的活力問題路由Agent大模型Query分類問題規劃Agent執行鏈/校驗答案生成多輪對
37、話步驟分解反思RAG Engine領域專用模型多步答案綜合As-Is:大模型存在幻覺問題To-Be:AI Agent+RAG/小模型,更快更準24應用場景2:網絡變更Agent精準仿真和驗證,配置錯誤不入網1、網絡配置變更耗時長,出錯概率大,50%以上是人為因素導致 過去兩年,全球有10多個運營商發生重大網絡事故,影響數千萬終端用戶,損失不可估量 50%的網絡事故是人為變更出錯導致,難以從根本上杜絕2、網絡變更Agent實現意圖理解和在線仿真,配置錯誤不入網 網絡數字孿生提供全棧式的在線仿真驗證,以網元配置數據為基礎,模擬設備路由協議的行為,精準生成網元協議路由表、全局路由表,并以路由表項為基
38、礎,展開分析,最終完成對網絡影響分析的驗證 網絡大模型實現交互方式升級,用戶只需要輸入變更意圖,網絡變更Agent根據實際業務場景自動生成網絡變更配置,并能實現自動驗證,智能識別配置隱患,驗證通過后可以自動部署選取POD、IP資源、互訪策略等HLD方案、SCP流程圖多個action、數十個參數多種環境適配驗證SDN網絡傳統網絡云網絡上百設備狀態、CMDB關系等業務部變更訴求網絡設計組ITSM系統網絡數字孿生網絡實時狀態Runbook任務多環境配置生成仿真糾錯網絡未來預測語義理解網絡變更Agent(感知-決策-執行-反思)網絡數字孿生需求對齊現網分析方案設計Action生成仿真驗證AS ISTO
39、 BEAI Agent執行AI Agent執行AI Agent執行AI Agent執行理解業務意圖任務拆解25應用場景3:網絡故障Agent智能巡檢和恢復,靜默故障不沉默故障識別故障診斷分析故障修復閉環大量告警AS ISTO BE業務流階段:AI Agent:告警智能聚合,基于根因,精準派一單AI Agent:自動問答,多輪對話,精簡給出故障根因接收工單Copilot:知識問答,狀態自查詢,協助上站修復回復工單EMOS系統根據規則匹配生成工單,派發XX條工單多系統登錄,基于故障關聯關系確認領域接收工單上站前與NOC詢問派單信息OMC 故障路徑拼接,網元隧道鏈路等逐一排查專家會診,確定故障根因上
40、站中與NOC確認信息上站后確認排查結果1、排障工單驅動,人工定位耗時長,無法主動預防IP網絡協議復雜,數量多,網絡故障原因繁多,例如器件故障、轉發機制故障等,90%的丟包是毫無告警的,只能通過增加人力排查。據統計,15%的靜默故障需要耗費80%人力,MTTR近10個小時2、網絡故障Agent,網絡自巡檢、自分析、自排障,實現靜默故障不沉默網絡數字孿生提供全棧式的在線仿真驗證,以網元配置數據為基礎,模擬設備路由協議的行為,從而精準生成網元協議路由表,全局路由表,并在此基礎上,以路由表項為基礎,展開分析,最終完成對網絡影響分析的驗證網絡大模型實現交互方式升級,用戶只需要輸入變更意圖,網絡變更Age
41、nt根據實際業務場景自動生成網絡變更配置,并能實現自動驗證,智能識別配置隱患,驗證通過后自動部署廣東移動通過部署華為的網絡大模型,實現故障診斷自動化率從60%到90%的跨越式提升26趨勢四:網絡安全進入AI對抗時代 GenAI 應用于安全攻擊,讓攻擊更容易,給網絡安全帶來新的挑戰:AGI工具將黑客生成新威脅的時間由之前的“數個月”縮減至幾小時甚至幾分鐘;同時,攻擊者開始利用大模型迅速發現軟件與服務中存在的漏洞;例如:FraudGPT可以編寫惡意代碼,自動智能創建惡意軟件。WormGPT允許攻擊者輕松創建網絡釣魚和電子郵件攻擊。廠家積極引入AI,重新定義網絡安全防護能力:目前全球網絡安全勞動力缺
42、口超過400萬人,需求增長速度是供應增長的兩倍。同時,GenAI在威脅檢測和響應、安全輔助運營等都有明顯優勢,成為安全廠家的重要選擇。微軟在今年5月份已經正式商用了Microsoft Copilot for Security,旨在“幫助用戶以機器的速度進行防御”;谷歌去年也發布了網絡安全專有大模型,已經應用到云安全能力中心;全球網絡安全巨頭Paloalto、Crowdstrike已經在安全運營平臺上集成了大模型的安全運營能力。安全運營威脅檢測智能防御 智能問答 告警降噪 輔助研判 智能生成報告 智能處置建議 勒索病毒檢測 加密流量分析 釣魚郵件分析 API異常行為分析 自動化攻防演練 安全編排
43、與自動化響應 威脅情報挖掘 智能安全狩獵 AI模型在安全中的應用威脅情報模型情報來源包括但不限于Sumap全球資產雷達、分布式蜜罐系統、國內外200余家威脅情報交換數據,采用多樣分析方式構建高質量威脅情報中心深度感知智能引擎基于攻擊意圖、策略、次數、結果等影響因子構建資產安全狀態評級模型,將最關鍵的告警信息和資產威脅展現給用戶風險置信評價模型基于云端海量樣本和人員分析、研判標定情況,通告風險置信評價模型持續生成風險置信度、風險級別置信度、威脅可利用置信度,聚焦高級威脅機器學習引擎云端海量樣本數據結合具體用戶特征,通過大模型構優化策略自適應發現異常和偏離,發現異常攻擊來源及方式時空特征分析模型基
44、于威脅發生的窗口、位置特征、告警序列向量空間、字典參數空間和資產配置空間構建的威脅分析技術27AI時代威脅高變種、高逃逸,未知威脅檢測和安全運營成為主要挑戰20年來威脅狀況人機對抗時代機機對抗時代AI對抗時代以人工為主,“病毒”量級穩定病毒工業化,樣本數量激增病毒智能化,具備如高繞過、高逃逸特點無法檢測0天90+/周攻擊路徑不可見水坑攻擊社會工程學無法處置分析效率:2人天平均響應時間:7天平均響應時間:7天手動修復/變更實施 病毒威脅指數級增長,未知病毒/變種檢測是業界難題。一方面,未知病毒/變種,難發現,難防護:權威評測機構AV-Test指出每天33萬新病毒,每年上億個新病毒,傳統基于特征庫
45、檢測手段失效,來不及應對;另一方面,加密流量占比高,傳統方式難防御:Zscaler報告95%流量加密,86%攻擊通過加密通道發起,造成傳統的基于內容簽名的檢測能力失效,急需新的技術來應對。海量威脅日志和告警人工無法處置,90%告警被忽略。首先,海量日志/告警誤報,人工難處理。某WA每月上報告警高達百萬,靠人工根本處理不完,并且大量誤報,急需有效的降噪手段。調研發現平均SOC團隊僅能處理9%的告警,大量告警被忽略。其次,人工響應和處理速度慢。安全事件發現后,恢復周期長,無法協同處理。SOC經濟學調研,30%的組織表示2024年的SOC團隊規模將擴大到1015人。28場景-1:通過輕量級圖AI檢測
46、模型,應對勒索變種難防護難題識別快速變種識別未知樣本識別普通變種1CDE簽名檢測AV簽名檢測信譽檢測ELF、啟發式檢測引擎WEB啟發式檢測引擎PE啟發式檢測引擎PDF啟發式檢測引擎專家知識啟發檢測靜態檢測圖AI檢測AI檢測靜態檢測啟發式檢測AI檢測圖AI檢測綜合判定 勒索攻擊專業化、組織化,用AI技術生成變種成為攻擊者對抗勒索防御的重要方式。勒索攻擊經歷過三個階段:1)1989至2009年是勒索攻擊的萌芽期,勒索攻擊軟件數量增長較為緩慢,且攻擊力度小、危害程度低。2)2010年以后,勒索軟件進入活躍期,每年都有變種出現,其攻擊范圍不斷擴大、攻擊手段持續翻新。3)勒索攻擊在2015年后進入高發期
47、,2017年WannaCry勒索攻擊在全球范圍內大規模爆發,至少150個國家、30萬名用戶受害,共計造成超過80億美元的損失。勒索攻擊開始產業化、規?;?、組織化。隨著云計算、人工智能等新技術的快速普及和應用,勒索暴露面增加的同時,勒索變種攻擊的門檻快速降低,勒索變種攻擊持續加速,“Matrix”病毒高達數百種變種。引入AI技術,提升勒索變種檢測準確率。針對勒索病毒,業界經歷過靜態檢測、啟發式檢測、AI檢測和圖AI檢測四個主要階段。在最新的圖AI檢測技術中,通過惡意代碼DNA提取AI算法,提取惡意代碼核心片段實現變種的快速檢測;同時,該技術還可以應對未知威脅攻擊,采用CPU指令流+圖AI算法,自
48、適應學習CPU指令序列基線,降低誤報率和無效告警,實現未知惡意軟件99.9%的檢出率。229場景-2:通過自學習AI模型,實現加密攻擊高效檢測 加密惡意流量隱秘、匿名、檢測難,安全防護挑戰大。加密技術作為一種保護信息安全的有效手段,已被廣泛應用于各種網絡通信場景,Google的報告顯示,當前互聯網加密流量超過90%;據第三方報告顯示,企業內部80%是加密流量。然而,加密流量通常難以直接解析和監控,使得惡意行為者和黑客得以逃避安全檢查,實施各種網絡攻擊,這給網絡安全監測帶來了巨大挑戰。從2020年到2022年,使用加密通道的攻擊占比從57%上升到85%以上。有調查顯示,超過95%的企業明確表示遭
49、遇過加密流量攻擊。機器學習和深度學習,助力加密攻擊高效檢測。業界廠家積極引入AI技術,實現加密流量不解密的威脅檢測。以華為為例,通過基于自研多流ECA專利算法+AI大模型自學習引擎,準確發現藏匿在加密流量中的威脅和攻擊流量,30分鐘內發現100%加密威脅,比業界平均水平(3小時)檢測效率提升了6倍。86%攻擊采用加密手段,基于報文內容的檢測束手無策非加密,基于簽名匹配加密后,無法提取簽名華為:自研多流ECA算法+AI大模型自學習引擎 報文時間間隔字節分布統計TLS協商信息流持續時間訓練輸出檢測模型白樣本黑樣本合作伙伴/高校華為云沙箱Admin US殺毒軟件廠商合作伙伴華為云沙箱公開樣本樣本特征
50、提取30場景-3:通過大小模型協同,實現安全事件降噪和智能輔助處置 海量安全告警,需要智能化分析和輔助決策:隨著網絡攻擊的不斷增加(2023全球網絡攻擊104%增長),安全告警的數量也在同步增加。這給安全團隊帶來了很大的壓力,人工分析已經無法應對,90%的告警被忽略。以華為流程IT為例,每天產生約10億條日志,10 萬條告警,按1個安全分析專家1天最多能處理500條左右評估,全部處理完需要200多個專家。與此同時,安全人才匱乏,全球安全專業分析師缺口高達400萬。通過AI等技術創新,識別高價值安全事件、智能輔助安全處置成為業界的普遍需求。大小模型協同,高效安全事件降噪和智能輔助處置。通過網絡大
51、模型智能調用傳統機器學習算法和運營研判規則,實現大模型與小模型(17+AI小模型)及專家規則(8000+乾坤云規則)的協同工作,安全事件的MTTD從小時降低到分鐘級。AI Agent智能體識別安全事件語義上下文,智能調度和編排各類安全工具和AI小模型、專家規則,自主安全防御和處置,安全事件處置從周縮小到分鐘。研判結果運維人員攻擊成功事件判定結果EDR/NTA安全事件誤報大模型運營專家分析邏輯大模型協同行動任務規劃靜態規則庫安全AI檢測算法CoT判定BAS滲透工具時間減少為7華為AI專家團隊2人AI16小時6分鐘防火墻IPS安全沙箱流量/ECA探針PCServer惡意文件日志日志日志/流量惡意文
52、件EE惡意文件日志/流量日志路由器交換機主機響應動作設備響應動作華為安全AI大模型自動編寫規則自動研判事件輔助事件分析智能防護有效性評估輔助安全評估輔助調查腳本驗證智能威脅狩獵智能生成報告智能生成攻防報告智能解讀安全事件輔助閉環自動編寫規則滲透測試人員客戶側處置人員SOC分析人員31AI改變網絡-三層智能架構,加速網安一體的網絡智能化發展基于腦、圖、網三層協同,實現端到端融合感知、智能推理分析、AI仿真決策、可靠執行,重塑系統能力,實現網安一體的網絡智能化。腦:基于網絡大模型,重塑業務流程、重塑運維,向基于自然語言、意圖驅動的自動化流程和運維模式演進。其中Copilots帶來基于自然語言的交互
53、的全新運維體驗,Agent構建場景自治、故障閉環、威脅事件自動分析與處置。圖:基于全量數據智能分析,構建網絡數字孿生,從靜態可視到多維感知可視、從網絡離線仿真到網絡實時仿真、動單點調優到整網聯動調優。從而打造高清網絡數字地圖,為網絡自動駕駛提供精準導航。智能網元:從接受意圖被動執行到生成意圖主動處置閉環,設備智能是網絡智能的基石。毫秒級微觀感知網絡和業務狀態,精準感知問題溯源定位,進而邊緣推理,實時決策,保障用戶業務0中斷,有效應對AI時代指數級增長的病毒變種和隱匿滲透攻擊。Native AISA 卡算力卡IPv6+協議智能光模塊三層智能架構網:智能網元圖:數字孿生腦:大模型擁塞調優小時級 秒
54、級仿真預知離線 在線融合感知決策執行智能決策業務系統極簡接口,自動調用AI防火墻安全運營手工 自動網絡數字地圖32AI改變網絡-行動建議 采用數字孿生技術實現全面網絡可視:網絡可視是智能化的第一步,網絡數字孿生仿真驗證所有現網需要實施的操作,并基于反饋不斷評估、修正、優化操作方案,最大限度降低對真實網絡帶來的沖擊;同時網絡數字孿生還會實時記錄網絡狀態和行為,支持對歷史的追溯和回放,從而能在不影響網絡運營的情況下完成預驗證,極大地降低試錯成本;通過網絡大模型構建網絡智能化底座:網絡大模型是實現網絡智能化的底座,無論是通過對接現有大模型平臺,還是通過企業自身能力構建網絡大模型,企業需要盡快明確戰略
55、方向,并啟動網絡大模型的部署;圍繞實際業務場景定制開發智能化應用:Copilot和Agent類似智能手機的APP,企業需要圍繞自身高頻業務場景啟動Copilot及Agent能力的構建,以降低風險,提升效率。積極引入AI安全防護技術,提升網絡安全能力:企業需要通過多種途徑,從點到線,逐步形成和建設立體化的安全防護能力,高效應對安全威脅,提高安全檢測能力尤其是勒索變種等未知威脅和加密流量威脅,持續提升安全運營效率。擁抱AI從現在開始:網絡智能化隨著AI技術的不斷進步,部署路徑和應用價值已經顯現,規模部署進入拐點。AI的本身并不是全面取代人,而是更好地輔助人,人工智能網絡將全面提高網絡可用性、優化效率、提高性能,使用相同或者更少的資源做更多的事情。33Thank you.