《中國移動:6G無線內生AI架構與技術白皮書(2022)(28頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動:6G無線內生AI架構與技術白皮書(2022)(28頁).pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、(2022)6G 無線內生 AI 架構與技術白皮書中國移動通信有限公司研究院目錄1前言.12驅動力.12.15G 網絡智能化面臨的挑戰.22.26G 智慧泛在新場景.23定義和內涵.33.16G 內生 AI 的定義.33.26G 內生 AI 的內涵.34新理念.44.1AI 服務質量(QoAIS). 44.2AI 全生命周期編排管理.74.3AI 計算與通信深度融合.85新架構.105.1數據面.115.2智能面.125.3擴展的控制面和用戶面.146新技術.156.1AI 模型的選擇與再訓練.156.2終端與網絡協作的 AI 模型訓練.166.3終端與網絡協作的 AI 模型推理.186.4基
2、于網絡數字孿生的 AI 性能預驗證技術.197總結與展望.21縮略語.23編寫人員.23參考文獻.24中國移動6G 內生 AI 架構與技術白皮書11 1 前言前言人工智能(Artificial Intelligence)在最近十年發展迅猛,在挖掘大數據樣本的非線性規律、與環境交互的在線精準決策等方面快速超越了以人工為主的專家經驗(HumanIntelligence)模式,在計算機視覺、自然語言處理、機器人控制等領域取得了巨大的成功。究其緣由,一方面得益于以深度學習、強化學習等為代表的人工智能算法能力的突破;另一方面,以 GPU 為代表的人工智能算力成本的快速下降和普及,也加速了這一趨勢。從 5
3、G 開始,人工智能在移動通信網絡中逐漸得到了廣泛的應用,比如從網管級別的網絡配置優化到網元級別的資源調度優化, 甚至空口物理層的智能化, 此外終端側的智能化應用也越來越多。面向未來,6G 網絡需要助力千行百業的數智化轉型,需要滿足和提供相比云端智能實時性更高、性能更優的智能化服務。對于運營商而言,需要大幅降低網絡運營成本,網絡運營維護需要從局部的智能化運維向高水平的網絡自治演進。目前的人工智能主要是以云端智能為主, 在云端匯聚大量的數據, 利用集中的算力對數據進行預處理,AI 模型訓練和驗證等。但是在網絡中傳輸大量的原始數據,一方面會對網絡的傳輸帶寬帶、性能指標(比如時延)來巨大壓力,另一方面
4、對數據隱私保護也會帶來很大的挑戰。此外終端側的智能化應用由于算力,算法模型,數據等不足,目前還有較大的提升空間。面對以上挑戰,在網絡中引入內生 AI 的能力,摒棄外掛 AI 打補丁的方式,在架構層面實現通信連接、計算、數據和 AI 算法模型的深度融合,充分利用網絡中分布式的算力和數據,引入多節點間以及終端與網絡間協同機制,實現分布與集中處理的融合。這種方式一方面保護了數據隱私, 另一方面也提升了數據處理效率、 決策推理的實時性和網絡節點的利用效率。本白皮書首先介紹了內生智慧的驅動力和需求場景,從現有網絡智能化現狀,到 6G 時代對網絡高水平自治、智能普惠、高價值的新型業務和極致業務體驗、網絡安
5、全可信等的需求出發引出內生 AI。然后闡述了內生 AI 的定義和內涵,提出了 AI 算力、數據、算法與網絡連接功能的深度融合。接下來從 AI 服務質量、全生命周期編排、計算與通信融合、與數字孿生的融合幾個方面介紹了 6G 內生 AI 的新理念; 隨后詳細介紹了內生 AI 驅動的新架構,包括數據面、 智能面和擴展的控制面和用戶面, 和新技術, 包括模型編排、 分布式模型訓練、分布式模型推理、數字孿生的預驗證和優化,最后對后續研究方向進行了展望。2 2 驅動力驅動力人工智能技術在 5G 網絡中的應用促進了移動通信網絡和垂直行業的智能化發展,但以“打補丁”和“外掛”的應用模式阻礙了 AI 應用效果的
6、發揮。同時,人工智能在各行各業的應用探索,對未來網絡新的基礎能力提出了需求,面向智慧泛在的未來愿景,6G 網絡需要具有內生 AI 能力。中國移動6G 內生 AI 架構與技術白皮書22.12.15 5G G 網絡智能化網絡智能化面臨的挑戰面臨的挑戰5G 時代,網絡智能化需要將 AI 等智能化技術與 5G 通信網絡的硬件、軟件、系統、流程等融合,利用 AI 等技術助力通信網絡實現規劃、建設、維護、優化、運營流程智能化,達到提質、增效、降本的效果,促進網絡自身的技術和體系變革,使能業務敏捷創新,推動構建智慧網絡,包括云網設備智能、網絡運營智能、網絡服務智能。5G 網絡智能化主要面向通信連接及服務過程
7、中進行優化,雖然引入了服務云,但由于 5G 架構、協議功能和流程已經定型,只能在現有架構方案上做增量迭代,網絡和云的融合偏松耦合。5G 網絡智能化大多使用外掛 AI 的模式,基于外掛設計的 AI 應用,一般是采用打補丁等方式進行,面臨如下的挑戰:-缺乏統一的標準框架,導致 AI 應用缺乏有效的驗證和保障手段,AI 應用效果的驗證是在事后進行,這樣端到端的整體流程長并且很復雜,中間過程一般需要大量的人力介入,對現網的影響及改動也比較大,這導致了目前 AI 在應用到現網的過程中難以迅速推廣。-外掛模式難以實現預驗證、在線評估和優化的全自動閉環。AI 模型訓練通常需要準備大量的訓練數據,外掛模式下現
8、網集中采集標注數據困難,傳輸及存儲開銷也大,導致 AI 模型迭代周期較長,訓練開銷較大、收斂慢、模型泛化性差等問題。-外掛模式下,算力、數據、模型和通信連接屬于不同技術體系,體系間并未定義規范的接口和交互規則,對于跨技術域的協同,只能通過管理面拉通進行,通常導致秒級甚至分鐘級的時延,服務質量也難以得到有效保障。2.22.26G6G 智慧泛在新場景智慧泛在新場景內生 AI 是指在架構層面通過內生設計模式來支持 AI,而不是疊加或外掛的設計模式。對于內生設計模式的驅動力,主要包括如下幾個方面:-網絡提供泛在網絡提供泛在 AIAI 服務服務: 面向智慧泛在的未來愿景, 6G 網絡需助力千行百業的數智
9、化轉型,實現“隨時隨地”智能化能力的按需供應。相比云服務供應商,6G 網絡需提供實時性更高、性能更優的智能化能力服務,同時提供行業間的聯邦智能,實現跨域的智慧融合和共享。另一方面,由于終端存在大量數據,終端的計算能力也越來越強,考慮到數據隱私需求,需要內生智能協同網絡和終端的算力、通信連接和算法模型等資源,比如算力卸載、模型編排等,為 2C 客戶提供極致業務體驗和高價值新型業務。-AIAI 為網絡優化提供服務為網絡優化提供服務:6G 網絡需實現高水平自治和安全可信。目前網絡自治水平不高(自動駕駛網絡等級約為 2.2 級),需要引入網絡內生 AI 能力支持實現對運營商和用戶意圖的感知和實現,實現
10、網絡的自我設計、自我實施、自我優化、自我演進,最終實現網絡的高水平自治。此外未來網絡將承載更多樣化的業務,服務更多的應用場景,承載更多類型的數據,因此網絡將面臨大量新的、復雜的攻擊方式?;趦壬?AI 的安全能力在 6G 網絡的各環節嵌入,實現自主檢測威脅、自主防御或協助防御等。從以上驅動力分析可以看出, 6G 網絡除了滿足基本的通信需求之外, 還需要考慮計算、數據、模型/算法等多方面的融合,即 6G 需要通過架構層面的內生 AI 設計,來滿足網絡中國移動6G 內生 AI 架構與技術白皮書3AI 多樣化的新業務場景和網絡自治優化等需求,包括應用于網絡自身優化和用戶體驗的 AI(如用 AI 重寫
11、的空口),也包括第三方所需的各類 AI 服務。3 3 定義和內涵定義和內涵6G 在設計階段考慮和 AI 的深度融合, 不同于 5G 通過 AI 功能疊加、 外掛等方式, 6G AI內生將算力、數據和模型進行端到端編排和控制,在架構層面支持連接、計算、數據和 AI算法/模型等元素的深度融合,支持將 AI 能力按需編排到無線、傳輸、承載、核心等,為高水平網絡自治和多樣化業務需求提供智能化所需的基礎能力。即 6G 的內生 AI 能力,將可以使得網絡智能化更高效、性能更優,同時,網絡智能化的內涵也隨之擴展,不僅能助力網絡性能持續優化,還能提供智能化的服務能力,助力千行百業的數智化轉型。網絡智能化將在
12、6G 時代持續演進,推動構建真正的智慧內生的網絡。3.13.16G6G 內生內生 AIAI 的的定義定義6G 網絡內生 AI 是在 6G 網絡架構內部提供數據采集、數據預處理、模型訓練、模型推理、模型評估等 AI 工作流全生命周期的完整運行環境,將 AI 服務所需的算力、數據、算法、連接與網絡功能、協議和流程進行深度融合設計。6G 網絡內生 AI 為網絡高水平自治、行業用戶智能普惠、用戶極致業務體驗、網絡內生安全等提供所需的實時、高效的智能化服務和能力。3.23.26G6G 內生內生 AIAI 的內涵的內涵現有的移動通信網絡主要是面向連接的數據傳輸,需要實現以 QoS(Quality of S
13、ervice)(比如速率,時延等)為基礎的傳輸鏈路保障,而內生智慧需要實現對算力,模型和數據端到端的控制和編排,這兩者對網絡設計和實現的需求差異巨大,需要在 6G 網絡設計之初就考慮如何融合設計, 一方面考慮引入基于 AI 的服務質量保障體系, AI 工作流的端到端編排,計算與通信連接的融合設計等新理念,另一方面考慮引入數據面,智能面,擴展的控制面和用戶面等新架構設計。內生 AI 需要構建 AI 的服務質量評估和保障體系,在此基礎上實現基于服務質量的 AI全生命周期編排,包括算力、模型、數據和連接。內生 AI 需要實現計算與通信的深度融合??紤]到內生 AI 的能力需要分布到網絡節點中,分布式的
14、網絡節點通常數據、算力、帶寬和時延受限,需要考慮計算和通信資源的深度融合設計。此外,需要重構網絡架構、協議和功能,適應空口傳輸,優化內生 AI 的性能。中國移動6G 內生 AI 架構與技術白皮書44 4 新理念新理念如何在 6G 網絡設計之初將 AI 與網絡進行融合, 從而構建全新的內生 AI 系統是一個多層面的復雜問題,是兩個技術領域的碰撞和滲透。需要打破傳統通信網絡的設計思路,融入AI 元素和理念。我們認為,AI 服務質量的評估與保障、AI 全生命周期編排管理以及 AI 計算與通信的深度融合,將成為構成內生 AI 系統的基本理念。面向不同行業和場景對 6G 網絡內生 AI 千差萬別的需求,
15、我們需回答的第一個問題即是:如何將用戶的需求轉化為網絡可以理解的對網絡 AI 服務能力的要求?對此,我們提出AI 服務質量,即 QoAIS(Quality of AI Service)的概念,并認為網絡應提供對 QoAIS 的評估和保障體系。緊接著,網絡作為 AI 服務的提供者,如何評估和持續地滿足 QoAIS,實施QoAIS 保障,則需要從內生 AI 的管理、控制、業務流等多個層面展開研究。從管理角度,我們提出可以通過對 AI 全生命周期工作流的編排管理,半靜態地使相關資源要素(算力、數據、算法、連接)的配給滿足 QoAIS 要求;從控制和業務角度,則需要多維資源的融合,協同控制前述資源要素
16、的調配,以實時、持續的滿足 QoAIS,其中 AI 計算和通信的深度融合是主要理念。4.14.1AIAI 服務質量(服務質量(QoAISQoAIS)QoAIS(Quality of AI Service)是對 AI 服務質量進行評估和保障的一套指標體系和流程機制1。 6G 網絡將構建內生于網絡的 AI 能力, 形成一套可服務于多種智能應用場景的能力體系,即 AIaaS??紤]到不同的智能應用場景(如網絡高水平自治、行業用戶智能普惠、用戶極致業務體驗、網絡內生安全等)對 AI 服務的質量將有著不同的需求,因此需要一套指標體系通過量化或分級的方式表達用戶層面的需求以及網絡編排控制 AI 各要素 (包
17、括算法、算力、數據、連接等)的綜合效果。6G 網絡內生的 AI 服務可以分為 AI 數據類、AI 訓練類、AI 推理類和 AI 驗證類,每一類 AI 服務均需要一套 QoAIS。傳統通信網絡的 QoS 主要考慮通信業務的時延和吞吐率(MBR、GBR 等)等與連接相關的性能指標。6G 網絡除了傳統通信資源外,還將引入分布式異構算力資源、存儲資源、數據資源、AI 算法等 AI 服務編排的多種資源元素,因而需要從連接、算力、算法、數據等多個維度來綜合評估網絡內生 AI 的服務質量。同時,隨著“碳中和”和“碳達峰”政策的實施、全球智能應用行業對數據安全性和隱私性關注程度的普遍加強, 以及用戶對網絡自治
18、能力需求的提升, 未來性能相關指標將不再是用戶關注的唯一指標,安全、隱私、自治和資源開銷方面的需求將逐漸深化,成為評估服務質量的新維度,而不同行業和場景在這些新維度上的具體需求也將千差萬別, 需要進行量化或分級評估。 因此,QoAIS 指標體系從初始設計時, 即需要考慮涵蓋性能、 開銷、 安全、 隱私和自治等多個方面,需從內容上進行擴展。表 4.1-1 提供了一種針對 AI 訓練服務的設計方式。中國移動6G 內生 AI 架構與技術白皮書5表 4.1-1: AI 訓練服務的 QoAIS 指標體系AIAI 服務類型服務類型評估維度評估維度QoAISQoAIS 指標指標AI 訓練性能性能指標界、訓練
19、耗時、泛化性、可重用性、魯棒性、可解釋性、損失函數與優化目標的一致性、公平性開銷*存儲開銷、計算開銷、傳輸開銷、能耗安全*存儲安全、計算安全、傳輸安全隱私*數據隱私等級、算法隱私等級自治完全自治、部分人工可控、全部人工可控注*:不同類型 AI 服務間的共同評估指標其中, “性能指標界”是評估模型性能好壞指標的上界和下界,如模型錯誤率、查準率、召回率等性能指標的范圍。 “泛化性”指模型經過訓練后,應用到新數據并做出準確預測的能力?!翱芍赜眯浴笔悄P驮趹脠鼍白兓瘯r能夠繼續使用的能力?!棒敯粜浴敝冈谳斎霐祿艿綌_動、攻擊或者不確定的情況下,模型仍然可以維持某些性能的特性?!翱山忉屝浴笔侵改P湍苤С?/p>
20、對模型內部機制的理解以及對模型結果的理解的程度。 “損失函數與優化目標的一致性”是指模型訓練過程中,對損失函數的設計與 AI 用例的優化目標的一致程度,比如函數中考慮的變量個數是否完全覆蓋智能優化場景的優化目標指標?!白灾巍敝笇?AI數據/訓練/驗證/推理服務的工作流中自主運行部分和人工干預部分的要求,反映了用戶對AI 服務自動化程度的要求。自治分為三個等級:完全自治(全流程自動化的 AI 服務,全程無需人工干預)、部分人工可控(AI 服務的工作流在部分環節自動化,部分環節要求人工輔助)、全部人工可控(AI 服務工作流的各環節均要求人工參與)。除了上表所示的評估維度, QoAIS 也可以包括智
21、能應用的性能指標。 以信道壓縮為例2,可以選擇歸一化均方誤差(Normalized mean square error, NMSE)或是余弦相似度作為信道恢復精度的 KPI,也可以選擇鏈路級/系統級指標(如誤比特率或吞吐量等)作為反映信道反饋精度對系統性能影響的 KPI。此外,QoAIS 還可以包括 AI 服務的可獲得性、AI 服務的響應時間(從用戶發起請求到 AI 服務的首條響應消息)等與 AI 服務類型無關的通用性評價指標。QoAIS 是網絡內生 AI 編排管理系統和控制功能的重要輸入,網絡內生 AI 管理編排系統需要對頂層的 QoAIS 進行分解,再映射到對數據、算法、算力、連接等各方面
22、的 QoS 要求上。中國移動6G 內生 AI 架構與技術白皮書6圖 4.1-1:QoAIS 指標分解到各資源維度上的 QoS 指標上圖展示了 QoAIS 各指標維度和各資源維度上的 QoS 之間的映射關系。AI 服務的QoAIS 整體指標拆解到各指標維度上的 QoAIS 指標,再進一步映射到各資源維度上的 QoS指標,由管理面、各資源維度的控制面和用戶面機制進行保障。圖中各資源維度上 QoS 指標可分為適合量化評估的指標(如各類資源開銷)和適合分級評估的指標(如安全等級、隱私等級和自治等級)。在前一類指標中,有部分指標的量化方案已成熟或較容易制定(如訓練耗時、算法性能界、計算精度、各類資源開銷
23、等),部分指標目前尚無定量評估方法(如模型的魯棒性、可重用性、泛化性和可解釋性等),如表 4.1-2 所示。因此,如何在起始階段設計出足夠開放包容的網絡架構以便后續逐步引入上述指標的成熟量化技術是需要思考和研究的問題。表 4.1-2:AI 訓練服務性能 QoAIS 到各資源維度的映射指標維度QoAIS 指標資源維度可量化指標尚無量化方案指標性能性能指標界、訓練耗時、泛化性、可重用性、魯棒性、可解釋性、優化目標匹配度、公平性數據特征冗余度、 完整度、數據準確度、數據準備耗時樣本空間平衡性、 完整性、 樣本分布動態性算法性能指標界、訓練耗時、是否收斂、優化目標匹配度魯棒性、可重用性、泛化性、可解釋
24、性、公平性算力計算精度、時長、效率連接帶寬及抖動、時延及抖動、 誤碼率及抖動、可靠性等中國移動6G 內生 AI 架構與技術白皮書7在質量評估和保障機制上,5G 網絡的 QoS 機制仍存在一些問題,如業務區分顆粒度較粗,優化調整的周期較長,空口資源配置無法靈活適配網絡與業務的實時動態變化等。因此在 6G 網絡中提出評估 AI 服務的 QoAIS 指標的同時, 也需要考慮如何設計端到端 QoAIS 機制和流程以更加高效準確。延伸問題延伸問題:1.網絡在引入 AI 服務后,用戶對 AI 服務安全性和隱私性上存在不同的需求選項,如何打破傳統通信服務中 QoS 體系和安全體系分開獨立設計的模式,使這種需
25、求的差異性得到更好的滿足?2.當前,部分 QoAIS 指標尚無成熟的量化評估方式(如模型的泛化性、可解釋性、可重用性3) , 如何在起始階段設計出足夠開放包容的網絡架構以便后續逐步引入上述指標的成熟量化技術?4.24.2AIAI 全生命周期編排管理全生命周期編排管理AI 生命周期是指網絡中 AI 工作流的生命周期,即一條 AI 工作流的產生、執行、監測、評估、優化、完成及刪除。網絡內生 AI 工作流(Network Native AI Workflow)是指網絡為完成一項 AI 服務需要分步驟完成的一項或多項工作任務。當前,AI 在各行業應用中具有類似的端到端工作流程4,可分為數據管理、模型學
26、習、模型驗證和模型部署四個環節,圖4.2-1 展示了一種網絡環境中通用的 AI 端到端工作流程設計模式。圖 4.2-1:網絡環境中通用的 AI 端到端工作流程當前,在 5G 網絡智能化實踐中,AI 工作流程的大部分環節位于線下,與網絡運行環境割裂, 不同智能應用場景間采用“煙囪式”研發模式 (即針對每個智能應用場景均獨立進行全部環節的研發,不同場景間缺乏資源協同和共享),效率低下,成本高昂。6G 網絡將為AI 工作流的端到端各環節提供完整的運行環境,以一套全新的架構和技術體系,滿足其全生命周期的運行需求,以一套統一的服務需求導入、分解、評估和保障系統,為網絡自身和行業各種智能應用場景提供不同質
27、量的 AI 服務。6G 網絡內生的 AI 工作流依據 AI 服務類型的不同,包含的工作任務也有所不同,任務數量有多有少,“流”有長有短,并非均為端到端工作流。例如,AI 數據服務的工作流僅包含數據管理環節相關任務;AI 驗證類工作流則可以既包含數據管理環節,也包含模型驗證環節的相關任務,或者僅包含模型驗證環節的任務;AI 訓練類工作流則可以僅包含模型學習環節, 也可以同時包含數據管理和模型學習環節, 取決于用戶提供的數據是否已滿足質中國移動6G 內生 AI 架構與技術白皮書8量要求。AI 推理類工作流可以僅包含模型部署相關任務,也可以同時包含數據管理和模型部署環節的相關任務。對于一個同時請求了
28、多項 AI 服務的智能應用場景(例如,同時請求了 AI 訓練、驗證和推理服務),其對應的工作流可能是端到端的。圖 4.2-2 展示了 6G 網絡內生 AI 工作流與 AI 服務的關系。圖 4.2-2:6G 網絡內生 AI 服務及其工作流示意圖6G 網絡為每一項 AI 服務生成其所需的工作流, 對該工作流中每項任務所需的資源 (算力、算法、數據、連接等)進行編排,對工作流的全生命周期進行管理,以保障該 AI 服務的 QoAIS 持續達成。 在這一過程中, 管理面采集工作流各環節的性能監測數據, 評估 QoAIS的達成情況,學習出工作流的任務設計和資源編排方案對 QoAIS 的影響,從而不斷優化方
29、案和策略,實現智能化的編排管理。延伸問題延伸問題:1.為保障 AI 服務的 QoAIS 持續達成,僅依靠管理面對工作流所需資源進行編排是否足夠?是否還需要控制面的參與?管理與控制如何協同?界面如何區分?4.34.3AIAI 計算與通信深度融合計算與通信深度融合為保障 AI 服務的 QoAIS 持續達成,除了在管理面上實現 AI 工作流全生命周期的智能化編排管理,也需要在控制面和用戶面上實現 AI 計算與通信的深度融合。傳統通信網絡中的算力資源主要服務于通信業務, 算力資源集成在設備處理板卡內, 按照通信業務的處理流程進行算力資源的部署和分配。與通信業務不同,AI 業務是高算力需求業務,近年來各
30、種處理器架構(GPU、NPU、DPU、TPU 等)不斷涌現以提高計算效率,降低能耗。6G 網絡內生 AI 服務對算力的核心需求為高計算效率、低能耗和低時延。雖然云端集中式算力資源堆放的計算效率較高, 但往往無法滿足邊緣 AI 應用場景對實時性的需求。端和邊側雖然單節點算力資源有限,但規模龐大,實時性較好,在與云端算力進行協同編排調度后,有望滿足各類 AI 服務對計算性能的需求。5G MEC 方案中引入了邊緣計算能力,用于提供低時延的計算服務,但其網絡和計算部分是松耦合設計, 在效率、 部署成本、 安全和隱私保護等方面存在進一步提升的空間。 例如,在 5G MEC 方案中5,核心網用戶面網元 U
31、PF 可以與 MEC 合設,但在邏輯架構層面,及控制管理機制上,都還是兩套相對獨立的系統,當需要同時調整連接和算力時,是通過管理面進行協同,調整時延較大。另一方面,云、邊和端側部署的算力資源是分布式異構的,其協同調度需要實時適配網絡動態復雜的通信環境,需要深入到控制面和用戶面進行實時支持,這與云端單純的計算環境完全不同。中國移動6G 內生 AI 架構與技術白皮書9以無線網絡為例,AI 計算和通信的深度融合在控制面上存在三種可能的模式,圖 4.2-3是示意圖。圖 4.2-3:AI 計算和通信在控制面上融合的三種模式模式一:無線網架構中引入新的邏輯計算單元,與基站獨立,RRC(Radio Reso
32、urceControl)和 CRC(Computing Resource Control)通過標準接口進行控制面交互。這種模式的好處是允許基站設備和計算單元設備間異廠商連接, 部署方式更靈活, 運營商可選擇范圍更大,缺點是外部接口時延較長,較難滿足控制面實時性要求。模式二:邏輯計算單元內置于基站內,屬于基站功能范疇,RRC 和 CRC 通過內部接口進行控制面交互。 這種模式的好處是基站內部接口實現性能較好, 且無線通信資源和計算資源獨立控制、按需調用,便于依據資源特性設計專用控制流程,也便于統計資源狀態。模式三:邏輯計算單元內置于基站內,屬于基站功能范疇,RRC 和 CRC 融合成統一的資源控
33、制實體(xRC),同時對連接和計算資源進行控制。這種模式的好處是同時決定連接和計算資源的控制決策,資源控制的協同和實時性最佳,但聯合控制機制的設計較復雜,也不便于分別統計資源狀態。管理面基于 QoAIS 需求對算力和連接資源的編排,其優勢在于對網元連接關系、各類資源狀態具有宏觀視角,可保證資源利用率或其他網絡級性能指標較優。計算和通信在控制面上的深度融合為 QoAIS 目標的持續達成提供了較高實時性的保障手段,其優勢在于當發現 QoAIS 指標發生惡化時,可快速調整,例如,當連接帶寬受限,但本地算力充足時,增加本地計算量,對所需傳輸的 AI 數據進行高保真度的壓縮;當連接帶寬充足、質量穩定,但
34、本地算力受限時,減少本地計算量,通過增加周邊節點的協作,共同完成該任務。在用戶面上,AI 計算和通信的深度融合主要體現為對 AI 計算協議和通信協議的聯合設計和優化,以同時滿足性能和開銷上的需求。在計算協議方面,對于同一項 AI計算任務,異構的算力資源在計算精度、架構和流程上均可能存在不同的協議和配置參數,影響計算結果的準確度和計算耗時。 在通信協議方面, 考慮帶寬及信道狀態的不穩定性而對AI 任務數據(如模型參數、模型計算中間結果、模型梯度等)進行的各種處理,如信源和信道的編解碼,也存在多種協議參數的配置選項,影響傳輸時延和質量。由于 AI 任務的計算和通信常在時間上串行, 共同影響 AI
35、任務的質量, 這就為其聯合設計和優化提供了可能,值得進一步思考和研究。延伸問題延伸問題:1.如何將管理面計算與通信的融合機制與控制面計算與通信的融合機制有效的結合起來,以便在滿足 AI 服務 QoAIS 需求的同時,達到網絡資源分配的均衡,資源和能耗效率較優?2.如何在用戶面上對 AI 任務的計算協議和通信協議進行聯合設計和優化,以同時滿足性能和開銷上的需求?中國移動6G 內生 AI 架構與技術白皮書105 5 新架構新架構6G 網絡從架構設計上融入 AI 要素是 6G 內生 AI 的最基本特點。 隨著 AI 三要素 (數據、算法和算力) 與網絡連接一樣成為網絡內部的基本資源, 其在網絡架構的
36、設計中就不能僅體現為局部的機制和流程創新,而是貫穿于 AI 全生命周期中的完備的功能、交互機制和信令流程。每種資源要素在具有自身內部的管理、控制、處理和傳輸機制之外,還會與其他資源之間協同,共同完成 AI 任務,滿足 QoAIS 需求。因此,不同于 5G 網絡,6G 網絡將新增數據面、智能面、計算面,并產生維度大幅擴展的控制面和用戶面。下圖所示為 6G 多維融合網絡的邏輯架構。圖 5-1:維融合網絡邏輯架構在橫向邏輯上,6G 網絡可劃分為資源層、網絡功能層和應用與服務層(“三層”)。資源層提供無線、計算、存儲等底層資源,并為網絡功能層的功能生成提供相應的支持和服務。網絡功能層形成特定的網絡功能
37、,或將一種或多種網絡功能組合在一起,提供最基本的網絡服務能力, 以滿足應用與服務層的需求。 應用與服務層為客戶的業務和應用提供相應支持,實現服務定制化。在縱向邏輯上,除了承載傳統通信業務的“通信面”,6G 網絡將新增數據面、計算面和智能面。數據面負責端到端網絡中數據的采集、清理、處理和存儲,并向其他層和面提供數據服務。計算面提供統一的算力倉庫,感知算力需求,編排計算任務,提供算力路由、算力建模與狀態的感知,為其他層和面提供計算服務。智能面提供內生 AI全生命周期所需的完整運行環境,調用數據面、計算面提供的服務,為其他層和面提供智能服務。管理面則是對其他所有層和面進行管理。對于 6G 內生 AI
38、 系統而言,前述新理念的實現主要體現在“三層”以及智能面、數據面、計算面和管理面上。值得一提的是,控制面和用戶面隸屬于網絡功能層,傳統意義上的控制面和用戶面是網絡功能層為支持傳統通信業務提供的控制機制和業務數據的傳輸機制,在 6G 新增數據面、計算面和智能面后,這些面將產生新的業務數據(如數據面上采集和傳輸的各類數據、計算面上計算任務的輸入輸出和中間數據、智能面上 AI 模型的參數等),成為網絡需要支持的新“業務”,因此網絡功能層需要擴展控制面和用戶面以提供相應的支持。本章節重點介紹其中的數據面、智能面和擴展的控制面和用戶面。中國移動6G 內生 AI 架構與技術白皮書115.15.1數據面數據
39、面5G 網絡智能化實踐經驗8表明,數據的獲取非常困難,數據質量難以保證。因為在先前的網絡架構和協議設計中沒有預定義數據收集的接口, 而當前基于實現的數據收集服務器/設備,例如深度包檢測或數據探測無法及時提供足夠的數據?;诰W管的數據收集也存在數據種類較少,采集周期較長(15min)、異廠商數據格式、命名、計算方式不統一,南向網管數據難以開放的問題。同時,由于數據在設備內部采集的不穩定性、傳輸鏈路有損,網管設備存儲空間有限,標簽難獲得,獲取的數據常存在缺失、串行、無標簽或標簽錯誤等質量問題,在 AI 模型訓練之前,需要花費大量的時間和人力成本對數據進行預處理。針對上述挑戰,6G 將通過在網絡架構
40、中新增“數據面”7來提供解決方案。數據面中的數據元素將涵蓋網絡內部和外部數據,具體包括業務數據、用戶數據、網絡數據、感知數據、外部數據、資源層數據等?;A數據服務包括數據采集、數據預處理、數據存儲、數據訪問、數據共享與協同等,基礎數據服務具有如下技術特征:支持可信的認證、授權、訪問,高效的數據存儲和管理, 按需動態的數據采集、 數據預處理和聚合, 對外能力開放和注入等。圖 5.1-1 展示了 6G 網絡數據面邏輯功能架構。圖 5.1-1:6G 網絡數據面功能架構6G 網絡的數據面架構由中央數據中心和各域本地數據中心組成,是集中式與分布式相結合的架構。中央數據中心存儲網絡端到端全局數據,按需對數
41、據進行全局編排;各域內部的本地數據中心存儲和管理從本地網絡采集到的數據,為域內各類上層應用提供數據服務;中國移動6G 內生 AI 架構與技術白皮書12網元內部存儲和管理網元產生的實時數據,為網元內部和周邊網元的上層應用提供數據服務。由于 AI 服務所需要和所生成的數據也屬于數據面數據元素,比如訓練樣本、AI 模型參數、模型中間計算結果、模型梯度、推理樣本和推理結果等,因此 6G 網絡的數據面為內生AI 提供基礎數據服務,可為各類內生 AI 服務所調用,貫穿于 AI 工作流全生命周期。比如AI 服務通過調用數據面可信服務來保障 AI 服務 QoAIS 中的可信要求9;通過調用按需動態的數據采集和
42、預處理服務,減少計算和傳輸開銷,滿足 QoAIS 中的開銷要求;通過調用對外數據能力開放和注入服務,與行業用戶進行數據交互,導入 AI 服務所需數據,提交服務生成的結果。6G 網絡中, “可信”將成為用戶對數據服務的重要需求10。數據服務的可信主要體現在數據采集、數據存儲、數據訪問、數據共享與協同等階段。數據采集階段需要考慮數據的隱私性、公平性、數據采集的再現性、魯棒性等。數據隱私性主要通過一些數據流程或技術來保障,如 debias 采樣和注釋,追朔數據源(包括數據來源、數據依賴關系等)等定性方法,以及數據匿名化、差分隱私等定量的方法。數據公平性主要通過定量的指標來評估,比如變量的相關系數、損
43、失函數、完整笛卡爾積等。數據采集的再現性和魯棒性可以通過數據朔源來保障。延伸問題:延伸問題:1.如何從網絡架構層面支持網絡和網元深度數據的開放和使用?2.如何從網絡架構層面支持內生 AI 對數據的按需動態提???包括采集數據類型、采集數據量、采集方式、數據預處理方式等。5.25.2智能面智能面我們在上一章中提出的新理念涉及到管理面、 控制面和用戶面上新機制的設計, 這些新機制為各類 AI 工作流的全生命周期提供了完整的運行環境,滿足各類 AI 服務的 QoAIS 要求,我們將這一完整的運行環境稱為 6G 網絡的“智能面”。圖 5.2-1 為 6G 網絡智能面功能架構設計。圖 5.2-1:6G 網
44、絡智能面功能架構6G 網絡內生 AI 的智能面架構具有如下技術特征:中國移動6G 內生 AI 架構與技術白皮書13第一項技術特征是 AI 用例的自生成和導入。AI 用例是用戶向網絡一次性提出的 AI 服務請求,一個 AI 用例可能涉及到一類或多類網絡內生 AI 服務(如 AI 訓練、驗證和推理服務) 的調用。 AI 用例描述是對用戶所需 AI 服務在網絡實操層面的框架性或輔助性信息描述。從該描述中,網絡可獲知在智能應用場景、輸入輸出數據、模型選擇、模型訓練、模型驗證優化、以及實施模型輸出的結論/決策等方面的信息。網絡可通過基于自身數據分析或外部導入的方式,生成 AI 用例描述。管理面負責管理所
45、有 AI 用例,調度實施 AI 用例,生成該用例所需的 AI 服務、AI 工作流和 QoAIS 要求,按需調配網絡元素(包括數據、算法、算力、連接等)。圖 5.2-2 展示了 AI 用例、AI 服務、AI 工作流和 AI 任務之間的邏輯關系。圖 5.2-2:AI 用例、AI 服務、AI 工作流和 AI 任務之間的邏輯關系其次,QoAIS 的生成。QoAIS 是網絡內生 AI 服務的質量評估指標體系。一個 AI 服務對應一套 QoAIS,一個 AI 用例對應的 QoAIS 由其包含的所有 AI 服務對應的 QoAIS 組合構成。當網絡收到一個 AI 用例后,需要獲知該用例對應的 QoAIS 要求
46、,以便分解到對各類資源的編排、調度和控制的具體要求上。獲知的方式有兩種:一種是外部導入,比如在外部導入 AI 用例描述的同時,即包含 QoAIS 要求;一種是內部生成,比如對于網絡根據上層意圖信息生成 AI 用例的場景,網絡也可以根據意圖信息同時生成 QoAIS 的指標要求。第三,AI 工作流全生命周期承載于網絡內部。網絡管理面為 AI 服務生成其所需的各類AI 工作流(包括數據采集、預處理、數據擴展、數據分析;模型選擇、訓練、調參;模型驗證、集成、監測和更新等)、編排所需資源、監測工作流狀態、優化工作流以滿足 QoAIS要求、直至所有任務完成。AI 工作流的全生命周期過程均在網絡內部完成。在
47、要求可信 AI的場景下,需少量的人工干預。第四,管理面、控制面和用戶面協作保障 QoAIS 的持續達成,主要通過對 AI 的三要素(算法、算力、數據)以及網絡要素(連接)的編排和控制達成。管理面負責起始階段的資源編排和過程中較慢速的資源分配調整,控制面和用戶面進行實時的 QoAIS 保障,根據網絡環境的動態變化,進行過程中連接、算法、算力和數據的快速調整。第五,AI 集中式與分布式架構相結合。中央 AI 超腦算力充足,存儲量大,數據抓取范圍大,適用于模型規模大(如大規模通用 AI 模型)、性能要求高、實時性要求較低的智能應用場景,所需數據跨域的場景,包含用戶相關數據的場景。無線、傳輸和核心網各
48、域內AI 小腦作為域內集中式 AI 引擎節點,負責本地域內可完成的 AI 用例。各域內分布式部署的網元節點算力和存儲有限, 將通過網元間協作, 支持本地實時性要求較高的智能應用場景。當本地域內 AI 用例的 QoAIS 無法在域內達成時(比如缺少其他域的特征數據、缺少算力資源),則該用例上升到中央 AI 超腦,通過全局資源編排來達成。這種分級分域的部署架構可減輕單一集中的超腦面臨性能壓力,并兼顧到各種智能應用場景的性能需求。中國移動6G 內生 AI 架構與技術白皮書145.35.3擴展的控制面和用戶面擴展的控制面和用戶面既有移動通信網絡的控制面和用戶面是面向傳統通信業務(包括語音、數據包傳輸、
49、流媒體等)的質量需求設計的,其主要目的是為數據傳輸提供連接、支持用戶移動性、保證其業務體驗。在資源類型上,采用專用算力資源,對計算和存儲資源的需求量均不高。與傳統通信業務不同,AI 服務屬于數據和計算密集型業務,AI 服務的內生將為 6G 網絡引入新的資源維度(包括異構的算力資源和存儲資源、新型的計算任務(AI 算法)以及 AI 所需的和生成的數據(后稱“AI 數據”),因此,需要設計新維度資源的管理和控制機制,同時需要面向 AI 服務的輸入、輸出和過程中數據設計高效的用戶面機制,即 AI 服務將成為 6G 網絡的一種特殊“用戶”。這些將大幅擴展傳統移動通信網絡中的控制面和用戶面。我們將 6G
50、 網絡為了支持 AI 服務質量的達成而設計的新的控制面和用戶面機制、協議和流程分別叫做“AI 的控制面(AI CP)”和“AI 的用戶面(AI UP)”。表 5.3-1 展示了AI CP 和 AI UP 與傳統移動通信網絡中 CP 和 UP 的對比。表 5.3-1:AI CP 和 AI UP 與傳統移動通信網絡中 CP 和 UP 的對比傳統通信傳統通信業務業務內生內生 AIAI 服務服務連接連接算力算法數據多維度資源NF CPAI 連接的控制機制AI 算力的控制機制AI 算法自優化的控制機制AI 按需動態的數據采集和處理控制機制AI CPNF UPAI 數據的傳輸機制AI 計算任務的執行機制A