《6GANA:6G網絡內生AI網絡架構十問(56頁).pdf》由會員分享,可在線閱讀,更多相關《6GANA:6G網絡內生AI網絡架構十問(56頁).pdf(56頁珍藏版)》請在三個皮匠報告上搜索。
1、 2 目錄 文檔作者列表.5 前言.6 概述.7 1.問題一:為什么需要 AI 用例自生成?.9 1.1 技術特征內涵.9 1.2 必要性分析.10 1.3 可行性分析.10 1.4 對網絡架構的影響.11 1.5 本章小結.12 2.問題二:為什么需要 QOAIS?.13 2.1 技術特征內涵.13 2.2 必要性分析.13 2.3 可行性分析.14 2.4 對網絡架構的影響.16 2.5 本章小結.16 3.問題三:如何支持 AI 生命周期管理?.17 3.1 技術特征內涵.17 3.2 必要性分析.18 3.3 可行性分析.18 3.4 對網絡架構的影響.19 3.5 本章小結.19 4
2、.問題四:是否以任務為中心?.20 4.1 技術特征內涵.20 3 4.2 必要性分析.20 4.3 可行性分析.20 4.4 對網絡架構的影響.22 4.5 本章小結.22 5.問題五:如何支持算網融合?.23 5.1 技術特征內涵.23 5.2 必要性分析.23 5.3 可行性分析.24 5.4 對網絡架構的影響.24 5.5 本章小結.26 6.問題六:為什么需要自生長的數據服務?.27 6.1 技術特征內涵.27 6.2 必要性分析.27 6.3 可行性分析.28 6.4 對網絡架構的影響.29 6.5 本章小結.30 7.問題七:為什么需要自生長和可信的算法?.32 7.1 技術特征
3、內涵.32 7.2 必要性分析.32 7.3 可行性分析.33 7.4 對網絡架構的影響.34 7.5 本章小結.35 8.問題八:如何理解分布式 AI 架構?.36 8.1 技術特征內涵.36 4 8.2 必要性分析.36 8.3 可行性分析.36 8.4 對網絡架構的影響.37 8.5 本章小結.39 9.問題九:分布式 AI 架構中不同節點如何協同?.40 9.1 技術特征內涵.40 9.2 必要性分析.40 9.3 可行性分析.41 9.4 對網絡架構的影響.41 9.5 本章小結.43 10.問題十:可以對外開放哪些 AI 能力?.45 10.1 技術特征內涵.45 10.2 必要性
4、分析.45 10.3 可行性分析.47 10.4 對網絡架構的影響.48 10.5 本章小結.49 11.總結.50 參考文檔.51 縮略語.53 附錄.55 5 文檔作者列表 貢獻者 單位 鄧娟、鄭青碧、冷昀橘、李剛、溫子睿 中國移動 王棟、李鵬宇、于夢晗、邢燕霞 中國電信 艾明,孫萬飛、舒敏 中信科移動 李娜 愛立信 楊春剛 西安電子科技大學 趙燕、王達 亞信科技(中國)有限公司 彭程暉、王君、王飛、劉哲 華為技術有限公司 張凱賓、溫海波、沈鋼、陳端 上海諾基亞貝爾 袁雁南 維沃移動通信有限公司 吳連濤、楊旸、李凱 上??萍即髮W 薛妍、謝峰、楊立 中興通訊股份有限公司 周凡欽、豐雷 北京郵
5、電大學 徐勇軍 重慶郵電大學 楊婷婷 大連海事大學 馮鋼、秦爽 電子科技大學 許陽 OPPO 6 前言 人工智能(Artificial Intelligence)在最近十年發展迅猛,在挖掘大數據樣本的非線性規律,與環境交互的在線精準決策等領域快速超越了以人工為主的專家經驗(Human Intelligence)模式,在計算機視覺、自然語言處理、機器人控制等領域取得了巨大的成功。一方面由于以深度學習、強化學習等為代表的人工智能算法能力的突破;另一方面以 GPU 為代表的人工智能算力成本的快速下降和普及,在未來的十年的市場占有率有可能會超越 CPU,也加速了這一趨勢。隨著 ICT(Informat
6、ion and Communications Technology)技術的不斷融合,網絡正朝向深度 IT 化方向發展。在 5G 網絡的演進過程中,AI 技術開始應用在無線網絡信道估計,基站節能減排1和網絡運維等領域。應用方式主要還是以云端智能為主,在云端匯聚大量的數據,利用集中的算力對數據進行預處理,AI 模型訓練和驗證等。但是在網絡中傳輸大量的原始數據,一方面對傳輸帶寬壓力大,另一方面對于數據隱私保護也會帶來很大的挑戰。3GPP 定義了 NWDAF 支持網絡數據的收集和處理,有利于在網絡架構中引入 AI 相關的功能。然而當前的網絡和 AI 技術的結合仍處于初級階段。AI 疊加在網絡之上,AI
7、 在網絡中發揮的作用散落在網絡不同的功能點,其主要目標是利用 AI 提升網絡的性能,運營和價值。未來 6G 網絡的作用之一是基于無處不在的大數據,將 AI 的能力賦予各個領域的應用,創造一個“智能泛在”的世界。6G 應在 5G 基礎上全面支持整個世界的數字化,網絡要助力千行百業的數智化轉型,需要滿足和提供相比云端智能實時性更高,綜合能耗和安全隱私更優的智能化服務2。同時,網絡運營維護也需要從局部的智能化運維向高水平的網絡自治演進。這些都迫切要求網絡與 AI 技術更緊密的結合,將 AI 能力通過網絡架構的革新深度內化到網絡中。為此,6G 網絡提出了“智慧內生”的基本特征構想,即 6G 網絡將在設
8、計之初就考慮與人工智能技術融合的理念,將 AI 和大數據的應用融入網絡的基因當中,形成一個端到端的體系架構,根據不同的應用場景需求,按需提供 AI 能力和服務。通過在 6G 網絡架構的設計中充分考慮 AI 的算法,算力和數據以及網絡連接等諸多要素,6G 將成為融合連接和算力的新型基礎設施,從而極大提高 AI 資源的使用效率并使 AIaaS(AI as a Service)成為可能,AI 能力在網絡中無處不在、無孔不入,并像人體的大腦和神經網絡一樣,以分布式或集中的方式隨時隨地按需提供給網絡自身及第三方,實現智慧的泛在可得、全面賦能萬事萬物。中國移動鄧娟、上海諾基亞貝爾陳端、重慶郵電大學徐勇軍
9、7 概述 6GANA TG2 是 6GANA 下負責研究基礎網絡架構的工作組,其將識別 6G 網絡內生 AI 的基本技術特征,研究其對 6G 網絡架構的影響,對標準化的影響,構建 6G 網絡內生 AI 整體框架,定義基礎架構,并對涉及的關鍵使能技術進行探討。面向該目標,TG2 成員單位經過全面收集和充分探討,凝練出現階段業界廣泛關注的、對 6G 網絡架構存在潛在影響的十大核心技術問題。針對每項問題,從特征內涵、必要性、可行性、對網絡架構的影響等四個方面展開分析,研究該問題所示技術特征是否6G 網絡內生 AI 架構所需,并給出了 TG2 的觀點和建議。這十個問題分別是:一、為什么需要 AI 用例
10、自生成?二、為什么需要 QoAIS?三、如何支持 AI 生命周期管理?四、是否以任務為中心?五、如何支持算網融合?六、為什么需要自生長的數據服務?七、為什么需要自生長和可信的算法?八、如何理解分布式 AI 架構?九、分布式 AI 架構中不同節點如何協同?十、可以對外開放哪些 AI 能力?十個問題間的邏輯關系如下圖所示:承接 TG1 對需求和應用場景的研究,面向不同行業和場景對 6G 網絡內生 AI 千差萬別的需求,TG2 提出的第一個問題即是:如何去表達和導入用戶對 6G 網絡 AI 服務的需求?AI 用例(需求表達形式)的自生成(一種導入方式)為什么會成為 6G 網絡支持的技術特征?進一步地
11、,在服務需求的基礎上,如何去分析和映射到網絡可以理解的 AI 服務的質量需求?針對這一問題,TG2 提出 QoAIS(Quality of AI Service)AI 服務質量的概念,并給出一種供參考的指標體系設計。作為 AI 服務的提供者,網絡如何評估和持續地滿足用戶的上述需求,實施 QoAIS 保障,則需要從網絡 AI 的管理、控制、業務流等多個層面展開思考。需求導入質量評估保障算力數據算法連接底層資源計算存儲通信對外能力開放AIAI工作流工作流3 3集中式集中式AI超腦超腦分布式分布式AI 邊腦邊腦問題一問題二、三問題四問題五問題六問題七問題八問題九問題十AIAI工作流工作流1 1AIA
12、I工作流工作流2 2AIAI工作流工作流4 4網絡執行 8 問題三從網絡 AI 的管理角度提出如何通過對 AI 生命周期的管理來自動化的實現 AI 應用的開發、部署和相關的模型管理,來實現 QoAIS 的保障?問題四則是從多維資源融合的角度,提出是否以任務為中心,協同控制網絡 AI 所需四種資源要素(即算法、算力、數據、連接),以實時的、持續的滿足用戶對 QoAIS 服務質量要求。由于算法、算力和數據將同傳統連接一樣,成為網絡中可管控的新資源維度,資源的異質性及挑戰和需求的差異性使得它們在網絡架構的設計中呈現出不同的技術特征,需進一步展開研究:問題五從算力維度,提出如何深度融合算力和連接資源以
13、實現更高效能的 AI 任務?問題六從數據維度,提出為什么需要通過內生 AI 改善當前數據價值密度低,存取效率低等問題,實現按需動態的數據編排和配置,反哺于內生 AI 的數據服務;問題七從 AI 算法維度,針對當前 AI 領域面臨的兩大挑戰:AI 算法對大數據的過度依賴和 AI 算法的可信?提出為什么可通過基于模型的計算實現 AI 算法的自我進化,以及如何提供可信的 AI 算法?在上述資源的部署架構方面,6G 將呈現集中式和分布式相結合的特點。集中式資源下的 AI 能力供應在 5G 網絡中已有較多的實踐,因此問題八和九提出 6G 如何理解分布式 AI 架構,體現在哪些方面,以及不同節點間如何協同
14、的問題。最后,從資源對外開放的角度,問題十提出 6G 網絡中上述資源可包裝成哪些特定的能力向第三方開放。本白皮書的最后一章總結了現階段 6G 網絡內生 AI 架構需具備的重要技術特征,對下一步工作進行了展望,并呼吁業界聚焦到關鍵技術問題的深入探討和研究上。在本版本的編制過程中,TG2 成員單位經過多次開放性技術探討,對于 6G 網絡內生 AI 的需求、概念和內涵已逐漸達成共識,對上述技術特征的重要度尚無統一意見,在對網絡架構的影響方面仍需深入全面的分析。在 6G 網絡內生 AI 研究伊始,希望本白皮書版本能成為 AI 技術專家和 6G 網絡專家緊密合作的契機,共同助力構建“智慧泛在”的未來社會
15、!中國移動鄧娟 9 1.問題一:為什么需要 AI 用例自生成?1.1 技術特征內涵 AI 用例自生成:網絡自身根據數據分析推演或外部導入,生成關于 AI 用例描述的過程。通過 AI 用例的管理將 AI 用例部署到網絡中,網絡根據 AI 用例的描述按需調配網絡元素(包括數據、算法、算力、連接等)以滿足該用例的性能需求。AI 用例:AI 用例是用戶在智能應用場景下向網絡提出的一次 AI 服務請求,一個 AI 用例可能涉及到一類或多類網絡內生 AI 服務(如 AI 訓練、驗證和推理服務)的調用。如下示例為一個 AI 用例涉及單一類型服務和涉及多種類型服務的情況:-單一類型服務:AI 數據服務 或 模
16、型訓練服務 或 模型驗證服務 或 模型推理服務-多種類型服務:AI 數據服務 和 模型訓練服務 智能應用場景:指應用 AI 用例所生成的智能的場景,一個智能應用場景下可能需實施一個或多個AI 用例才能達到智能化目標。智能應用場景例如網絡自治類場景、行業類場景、未來數據推演出的新場景等3。以網絡自治中的智能應用場景舉例說明智能應用場景與 AI 用例之間的關系:如網絡通過 KPI(Key Performance Indicator)指標監測發現某 CBD(Central Business District)區域語音切換成功率普遍較差,需要進行智能化提升。智能應用場景為提升該 CBD 區域內所有小區
17、的切換成功率,智能化目標為該 CBD 區域內所有小區的切換成功率達到目標值。網絡通過智能分析,診斷出影響該區域切換成功率的因素有部分小區的 SSB 波束覆蓋不佳、部分小區的鄰區配置不準確、部分小區的切換測量參數配置值不佳等三個原因,從而生成此智能應用場景下的三個 AI 用例:AI 用例一:優化部分小區的 SSB 波束覆蓋 AI 用例二:優化部分小區的鄰區配置 AI 用例三:優化部分小區的切換測量參數值 AI 用例描述:AI 用例描述承載了與 AI 用例相關的信息,這些信息是網絡為了滿足用戶提出的 AI服務請求,在實操層面需獲知的框架性或輔助性信息。從描述中,網絡可獲知在智能應用場景、輸入輸出數
18、據、模型選擇、模型訓練、模型驗證優化、以及實施模型輸出的結論/決策等方面的信息?!翱尚行苑治觥辈糠纸o出了針對上述 AI 用例一的一種描述方式。AI 用例管理:AI 用例生成后,針對不同智能應用場景,按需管理和智能部署 AI 用例。10 1.2 必要性分析 面向網絡智能自治,采用人工發現問題并使用 AI 解決問題,始終受到人工認知的局限性,網絡的智能化能力和網絡功能性能潛力也將無法最大化激發4;同時,依賴人工的煙囪式解決問題的方式,往往在不同優化用例之間產生優化效果的沖突,如某小區覆蓋性能的提升導致周邊小區干擾的抬升和業務體驗指標的下降,由此導致往復低效的優化工作;面向網絡全場景,網絡架構及網絡
19、功能、服務等網絡元素需求將千差萬別,基于配置的方式將無法最大化的滿足和適應網絡全場景對網絡和服務的差異需求5;面向未來未知的新行業和新需求,由人工發現和總結未來的需求更不現實,更需要基于網絡內生 AI 的方式,智能化地生成和調度實施 AI 用例,避免 AI 用例之間的沖突,保證疊加效果最優。因此,基于 AI 用例自生成的智能內生網絡,才能體現智能網絡的特征和優勢、展現差異化服務的巨大適應能力以及使能網絡自身具備智慧。綜上描述和分析,AI 用例自生成需要作為 6G 網絡內生 AI 的技術特征之一。1.3 可行性分析 以上述 AI 用例一:優化部分小區的 SSB 波束覆蓋為例,一個 AI 用例描述
20、可包括如下內容:1)智能的實施范圍:包括時空范圍,此例為待優化小區 ID(Identify)。2)智能的實施對象:智能輸出的結論應用的對象。此例中為待優化小區的大規模天線 SSB 波束。3)智能的問題類型:此例中為決策優化問題,網絡據此選擇對應的算法進行智能模型的訓練。4)智能模型的輸入和輸出數據模板:智能模型輸出的數據元素模板和智能模型訓練所需的所有數據元素模板。此列中輸入數據為用戶位置分布數據,輸出數據為待優化小區的 SSB 波束權值,獎勵變量為小區覆蓋性能指標數據。5)智能模型的結構信息和參數值:可選內容,智能模型的結構可以是在 AI 用例中明確定義好,或由網絡選擇。此例中可以是強化學習
21、相關算法模型。6)智能模型的驗證集/場景需求:對于驗證集需求,可以包含對訓練集和驗證集數據量的比例要求、驗證集中樣本的分布要求或某些必須包括的樣本要求等;對于驗證場景,可以包含對驗證場景的數字孿生的需求67。此例中驗證樣本可以是某些特定的用戶位置分布,驗證場景包括用戶位置分布、周邊地理環境、基站配置參數等。7)QoAIS 要求(Quality of AI Service):一個 AI 用例的完成可能涉及到多種 AI 服務的調用,每種 AI 服務都有對應的服務質量評價和保障指標,包括 AI 服務的性能指標8、開銷指標、安全性、隱私性、自動化、可控度等要求,關于 QoAIS 和 AI 服務的具體介
22、紹參見第二章 QoAIS 的定義及指標體系。11 需要說明的是,上述描述是針對一個包含訓練、驗證和推理服務的 AI 用例,若 AI 用例僅需做模型驗證或模型推理,則對應的 AI 用例的描述僅包括上述部分元素。AI 用例生成的方式有兩種:一種是網絡基于數據分析推演的方法生成,另一種是通過對外接口導入 AI 用例描述。通過數據分析推演生成 AI 用例的方式,可基于網絡元數據實現內生意圖精確推理與語義模型自動構建;也可以利用知識圖譜技術,通過構建和持續更新網絡 KPI 和可優化配置參數之間的關聯關系,生成 AI 用例的輸入輸出數據模板。通過對外接口導入 AI 用例的方式,除了人工進行參數配置外,還可
23、基于自然語音處理模型,將用戶通過語音輸入的 AI 用例生成需求,進而實現 AI 用例自生成。從用例的描述方式上,網絡生成的 AI 用例描述可標準化,但由外部導入的 AI 用例描述可能因導入方持有的信息或意愿不同而難于統一要求,因此,可初步分為“面向用戶的描述方式”和“面向網絡的描述方式”:前者用于第三方或普通用戶描述和導入 AI 用例,后者用于研發人員或網絡自身根據標準化的描述模板導入或生成 AI 用例。兩者之間可能需要轉譯。1.4 對網絡架構的影響 對于網絡自治場景下,AI 用例由網絡自生成的情況,網絡 AI 用例生成所需的數據可能跨越多個域,需要設計高效的網絡架構以支持 AI 用例生成對數
24、據采集、存儲、傳輸等方面的性能需求。比如:-AI 用例在網絡運維系統中自生成?;?KPI 歷史監控指標數據、KPI 指標之間以及 KPI 指標與網內各類數據元素間的關聯度知識圖譜,生成 AI 用例描述。該場景下,主要功能邏輯在運維管理系統內,網絡架構需要考慮支持數據知識圖譜的構建、存儲和更新。-AI 用例在網元中自生成。網元的數字孿生體是網元實時狀態在數字域的擬真,其包含網元內部組件拓撲和數據元素間的關聯度知識圖譜。當網元性能惡化時,觸發此場景下的 AI 用例。該場景下,網絡架構需要考慮支持網元內、域內和跨域多層級的集中式和分布式數字孿生體之間的交互與協同,控制面如何支持需要進一步研究。面向
25、網絡全場景的 AI 用例自生成,網絡架構需要能夠靈活拆分組合以及自生成,網絡功能需要能夠按需組合。除此之外,網絡功能與服務的劃分顆粒度等,在架構設計中需要研究。AI 用例自生成除了在網絡架構的研究方面需要開展上述工作外,在今后的標準化工作和產業生態的影響分析中,也需要開展如下工作:在標準化方面,需要進行面向網絡的 AI 用例描述模板標準化的研究。在產業和生態的影響方面,需要在如下幾個方面進行影響分析:AI 用例自生成的優勢在于網絡強大的數據關聯度分析優勢,可跨層級、跨域分析,由此生成的 AI 用例描述比人通過專家知識構造的用例更準確高效。因此,構建能支持網絡數據關聯度分析能力的網 12 絡架構
26、尤其重要。若最終分析認為通過標準化手段無法保證跨層級跨域的數據關聯和協同性能,那么可能導致在一片區域內所有網元網管設備均為同一供應商。對于用戶導入 AI 用例的場景,由于對用戶描述語言的規范化難度較大(用戶背景廣泛,對新鮮事物的接受能力參差不齊),可能會催生從用戶描述語言到機器可理解的 AI 用例描述語言間的轉譯工具/軟件的供應商。比如,該轉譯工具能面向不同的背景的用戶提供不用的用戶描述界面,或通過交互式流程提示用戶需要輸入哪些必選信息和可選信息等。1.5 本章小結 1.5.1 觀點 6G 智能內生網絡將具有為全場景提供最佳適配的強大適應能力。面對千差萬別的巨大差異和細微不同的微小差別,借助內
27、生 AI,6G 網絡通過網絡自生成或對外接口導入的方式,基于 AI用例描述模板,將場景的 AI 需求精準的用例化。通過 AI 用例管理,6G 智能內生網絡對場景所需的資源,進行精準適配和全局最優的調度。因此,6G 內生網絡 AI 架構需要 AI 用例自生成。1.5.2 建議 建議基于 TG1 廣泛收集各類智能應用場景需求,進一步研究完善智能應用場景與 AI 用例的關系、AI 用例的描述模板。建議 TG3 研究可支持 AI 用例自生成的數據采集、存儲、治理、傳輸等數據面架構。建議 TG4 研究可支持 AI 用例自生成的智能算法。中信科移動孫萬飛、艾明、中國移動鄧娟、冷昀橘 愛立信李娜、中國電信王
28、棟、西安電子科技大學楊春剛 13 2.問題二:為什么需要 QOAIS?2.1 技術特征內涵 QoAIS(Quality of AI Service)是評估和保障網絡內生 AI 服務質量的指標體系和流程機制。一個 AI 服務對應一套 QoAIS 指標,一個 AI 用例對應的 QoAIS 指標由其包含的所有 AI 服務對應的QoAIS 指標組合構成。不同 AI 服務的 QoAIS 指標構成可能存在共通的指標部分,也可能存在與服務特性相關的特殊指標部分。AI 用例、AI 服務和 QoAIS 之間的邏輯關系見下圖 2-1。QoAIS 是網絡內生 AI 編排管理系統和控制功能的重要輸入,管理編排系統需要
29、對頂層的 QoAIS進行分解,再映射到對數據、算法、算力、連接等各方面的 QoS 要求上,通過管理面、控制面和用戶面相關機制設計獲得持續保障。QoAIS 獲知的方式有兩種:一種是外部導入,比如在外部導入 AI 用例描述的同時,即包含 QoAIS 要求;一種是內部生成,比如對于網絡根據上層意圖信息生成 AI 用例的場景,網絡也可以根據意圖信息同時生成 QoAIS 的指標要求。圖 2-1:AI 用例、AI 服務、QoAIS 和 AI 工作流間的邏輯關系圖示例7 2.2 必要性分析 6G 網絡將不再只是服務于傳統通信業務的管道,6G 網絡將構建內生于網絡的 AI 能力,形成一套可服務于多種智能應用場
30、景的能力體系,即 AIaaS??紤]到不同的智能應用場景(如網絡高水平自治,行業用戶智能普惠,用戶極致業務體驗,網絡內生安全等)對 AI 服務的質量將有著不同的需求,因此需要一套指標體系通過量化或分級的方式表達用戶層面的需求以及網絡編排控制 AI 各要素(包括算法、算力、數據、連接等)的綜合效果。在具體指標體系設計上,傳統通信網絡的 QoS 主要考慮通信業務的時延和吞吐率(MBR、GBR等)等與連接相關的性能指標9。6G 網絡除了傳統通信資源外,還將引入分布式異構算力資源、存儲資源、數據資源、AI 算法等 AI 服務編排的多種資源元素,因而需要從連接、算力、算法、數據等多個維度來綜合評估網絡內生
31、 AI 的服務質量。同時,隨著“碳中和”和“碳達峰”政策的實施、全球智能應用行業對數據安全性和隱私性關注程度的普遍加強,以及用戶對網絡自治能力需求的提升,未AI 用例描述 QoAIS AI 訓練服務 AI 數據服務 AI 驗證服務 QoAIS QoAIS AI 工作流 1 AI 工作流 2 AI 工作流 3 AI 工作流 4 生成 AI 用例 生成 AI 服務及 QoAIS 要求 生成 AI 工作流和任務 任務 AI 用例描述 AI 服務 QoAIS 14 來性能相關指標將不再是用戶關注的唯一指標,安全、隱私、自治和資源開銷方面的需求將逐漸深化,成為評估服務質量的新維度,而不同行業和場景在這些
32、新維度上的具體需求也將千差萬別,需要進行量化或分級評估。因此,QoAIS 指標體系從初始設計時,即需要考慮涵蓋性能、開銷、安全、隱私和自治等多個方面,需從內容上進行擴展。在質量評估和保障機制上,5G 網絡的 QoS 機制仍存在一些問題,如業務區分顆粒度較粗,優化調整的周期較長,空口資源配置無法靈活適配網絡與業務的實時動態變化等。因此在 6G 網絡中提出評估 AI 服務的 QoAIS 指標的同時,也需要考慮如何設計端到端 QoAIS 機制和流程以更加高效準確。2.3 可行性分析 6G 網絡內生的 AI 服務可以分為 AI 數據類、AI 訓練類、AI 推理類和 AI 驗證類。表 2-1 提供了一種
33、針對 AI 訓練服務的設計方式。表 2-1:AI 訓練服務的 QoAIS 指標體系 AI 服務類型 指標維度 QoAIS 指標 AI 訓練 性能 性能指標界、訓練耗時、泛化性、可重用性、魯棒性、可解釋性、損失函數與優化目標的一致性、公平性 開銷*存儲開銷、計算開銷、傳輸開銷、能耗 安全*存儲安全、計算安全、傳輸安全 隱私*數據隱私等級、算法隱私等級 自治 完全自治、部分人工可控、全部人工可控 注*:不同類型 AI 服務間相同的評估指標 除了上表所示的評估維度,QoAIS 也可以包括智能應用的性能指標。以信道壓縮為例10,可以選擇歸一化均方誤差(Normalized mean square er
34、ror,NMSE)或是余弦相似度作為信道恢復精度的 KPI,也可以選擇鏈路級/系統級指標(如誤比特率或吞吐量等)作為反映信道反饋精度對系統性能影響的 KPI。此外,QoAIS 還可以包括 AI 服務的可獲得性、AI 服務的響應時間(從用戶發起請求到AI 服務的首條響應消息)等與 AI 服務類型無關的通用性評價指標。15 圖 2-2:QoAIS 指標分解到各資源維度上的 QoS 指標 上圖 2-2 展示了 QoAIS 各指標維度和各資源維度上的 QoS 之間的映射關系。AI 服務的 QoAIS整體指標拆解到各指標維度上的 QoAIS 指標,再進一步映射到各資源維度上的 QoS 指標,由管理面、各
35、資源維度的控制面和用戶面機制進行保障。圖中各資源維度上 QoS 指標可分為適合量化評估的指標(如各類資源開銷)和適合分級評估的指標(如安全等級、隱私等級和自治等級)。在前一類指標中,有部分指標的量化方案已成熟或較容易制定(如訓練耗時、算法性能界、計算精度、各類資源開銷等),部分指標目前尚無定量評估方法(如模型的魯棒性、可重用性、泛化性和可解釋性等),如表 2-2 所示。因此,如何在起始階段設計出足夠開放包容的網絡架構以便后續逐步引入上述指標的成熟量化技術是需要思考和研究的問題。表 2-2:AI 訓練服務性能 QoAIS 到各資源維度的映射 指標維度 QoAIS 指標 資源維度 可量化 QoS
36、指標 尚無量化方案 QoS 指標 性能 性能指標界、訓練耗時、泛化性、可重用性、魯棒性、可解釋性、優化目標匹配度、公平性 數據 特征冗余度、完整度、數據準確度、數據準備耗時 樣本空間平衡性、完整性、樣本分布動態性 算法 性能指標界、訓練耗時、是否收斂、優化目標匹配度 魯棒性、可重用性、泛化性、可解釋性、公平性 算力 計算精度、時長、效率 連接 帶寬及抖動、時延及抖動、誤碼率及抖動、可靠性等 16 2.4 對網絡架構的影響 由于 QoAIS 指標體系中增加了新的指標維度,且涉及到多種資源維度,如何將面向用戶需求的QoAIS 指標映射到網絡各資源面上的 QoS 指標,并通過在管理面、控制面和用戶面
37、上設計新的機制進行保障是網絡架構設計需要考慮的問題。具體需要考慮如下幾個方面:1.目前考慮 QoAIS 需求的生成有兩種方式:網絡自生成和外部導入。需研究每種方式在管理面實現和在控制面實現的可能性,及對網絡架構的影響 2.對于在管理面生成的 QoAIS 指標需求,其向各維度資源 QoS 指標的映射機制,以及管理面如何與控制面進行機制協同以保障 QoAIS 達成 3.對于控制面生成的 QoAIS 指標需求,是否需要管理面進行協同保障,如何設計相關機制?2.5 本章小結 2.5.1 觀點 6G 時代將出現各種新型智能應用場景,不同場景對 QoAIS 的需求不同,需要一套指標體系通過量化或分級的方式
38、表達用戶的需求;6G 網絡除了傳統通信資源外,還將引入分布式算力、數據、算法等多維資源,需要從多個維度綜合評估網絡內生 AI 的服務質量。因此我們認為 6G 內生 AI 需要構建一套適用于網絡內生 AI 服務的質量評價指標和保障機制,即 QoAIS(可區分為 QoAIS 指標體系和QoAIS 保障機制)。QoAIS 指標體系需考慮性能、開銷、安全、隱私和自治五個指標維度,由指標維度映射到連接、數據、算力和算法等資源維度上的 QoS 上。2.5.2 建議 網絡在引入 AI 服務后,用戶對 AI 服務安全性和隱私性上存在不同的需求選項,如何打破傳統通信服務中 QoS 體系和安全體系分開獨立設計的模
39、式,使這種需求的差異性得到更好的滿足?當前,部分 QoAIS 指標尚無成熟的量化評估方式(如模型的泛化性、可解釋性、可重用性),建議 TG4 開展相關研究,建議 TG2 后續研究:如何在起始階段設計出足夠開放包容的網絡架構以便后續逐步引入上述指標的成熟量化技術?中國移動鄧娟、冷昀橘 17 3.問題三:如何支持 AI 生命周期管理?3.1 技術特征內涵 1.AI 生命周期是以一種針對特定應用程序開發、部署和管理機器學習模型的過程1112。6G 內生AI 要求自動化 AI 的生命周期管理。機器學習的生命周期包括:-基于業務目標出發構建機器學習問題(場景,QoAIS,KPI,監控需求)。-收集數據、
40、準備數據,包括特征工程、清理等任務。-分析、訓練、測試和評估模型,構建和自動化機器學習管道。-部署模型。靜態部署或動態部署。-模型應用,如預測和推斷。-監控、優化和維護模型。AI 生命周期管理流程如圖所示:圖 3-1:AI 生命周期管理流程 2.自動化 AI 的生命周期要求在其管理流程中支持持續構建、交付、部署的能力。由于 AI 技術的局限性,如數據質量變化,模型衰減,數據局部性等問題,要求模型能夠持續迭代。對于不同的 AI 服務,需要支持不同的 QoAIS,以及基于任務的管道和資源編排。通過在 AI 生命周期管理所有步驟中實現自動化和監控,并建立模型持續優化和改進流程,使能全場景自動閉環,自
41、診斷,自修復和自優化,將促使網絡向 L5 級“自動駕駛”網絡的自治管理模式演進。18 3.2 必要性分析 6G“原生”AI 旨在隨時隨地的提供 AI 服務,并通過持續迭代優化,不斷提升系統性能和用戶體驗。實現深度融合 AI 和智能化無處不在的 6G 網絡,要求相應的算法、數據、可編程能力集成到 6G系統架構,并且構建和管理可重現,可測試和可持續的 AI 能力。6G 網絡可能是由分布式的具有內生 AI 能力的功能節點組成,為智能業務提供原生支持或者支持AI 業務的自演進,要求自動化構建和管理 AI 生命周期,使 AI 能力更加快捷,頻繁,可靠地在系統中迭代。3.3 可行性分析 6G 網絡管理架構
42、將實現以閉環自動化為基本特征的自治網絡運營管理架構,在 AI 的生命周期管理中通過支持持續集成(CI)、持續交付(CD)和持續訓練(CT)的 ML(Machine Learning)管道,可以構建自動化的 AI 的生命周期閉環管理流程,并持續改善工作流各節點的業務質量。下圖提供了一種端到端自動化管道和 AI 生命周期管理示例。圖 3-2:端到端自動化管道和 AI 生命周期管理 這些關鍵組件可實現的功能包括:1)可重現性 ML 管道。為數據準備、訓練、評估驗證過程定義可重復可復用的步驟。2)可重性集成環境。用于訓練和部署模型,跟蹤使用模型時所需的網絡資源模型,支持模型的注冊、打包和部署等操作。3
43、)端到端 ML 生命周期的數據感知。如版本,發布者、更新原因等配置參數,以及運行態模型相關性能指標。19 4)告警管理和可觀測的監控。針對 ML 生命周期中的事件發出通知和警報,例如,模型注冊、模型部署、模型測試和數據偏移檢測等。持續監控模型在運行中的預測性能,監控數據治理、質量和合規性。此外,開放網絡自動化平臺 ONAP(Open Network Automation Platform)1314提供了一種統一的編排、管理和自動化的開源操作框架,通過策略驅動設計、實施、分析和生命周期管理實現AI 大規模負載和服務。通過 ONAP 和 3GPP 系統接口開放和協作,網絡運營商可以實時動態編排物理
44、和虛擬網絡功能以滿足 AI 需求。與此同時,ONAP 的開放性和全球主要網絡供應商的普遍接受加速了網絡功能虛擬化生態系統的發展,進而支持網絡內生 AI 能力增強。3.4 對網絡架構的影響 1)統一 AI 生命周期管理與數據和算力的調度編排;2)支持以工作流和任務為中心的編排機制和 ML 管道機制;3)支持 ML 模型管理架構的集中式,分布式和混合式部署。對于實時 AI 服務,支持控制面和管理面融合;3.5 本章小結 3.5.1 觀點 6G 內生 AI 網絡架構需考慮如何將 AI 生命周期管理以及 ML 管道自動編排技術相結合,并且在基于以任務為中心的架構下,來構建 6G 內生 AI 網絡的使能
45、技術。3.5.2 建議 開展 AI 生命周期相關方案的研究,包括 1)AI 生命周期定義、管理接口以及網絡資源模型定義;2)支持以工作流和任務為中心的自動化編排機制和 ML 管道機制;3)如何實現 AI 算力、算法、數據的管理編排以及與控制面的融合;4)支持 AI 能力開放接口,與 ONAP 等開源平臺接口標準化。中信科移動舒敏、艾明、中國電信王棟 亞信科技(中國)有限公司王達 西安電子科技大學楊春剛 20 4.問題四:是否以任務為中心?4.1 技術特征內涵 針對網絡自用 AI 或第三方的 AI 用例,6G 內生 AI 網絡可以提供所需的計算、算法、連接、數據的協同和調配等融合服務,在這個過程
46、中,將引入如下基礎概念:1)任務:協同計算、算法、連接和數據完成某個特定的目標,該目標來源于 AI 用例,可以是一個或多個 AI 訓練或 AI 推理。AI 用例到任務的映射過程可以是靈活的,如在問題二中描述,AI 用例可以先分解為一個或多個 AI 服務,AI 服務可以進一步分解為一個或多個 AI 工作流,而 AI 工作流可進一步分解為一個或多個任務。2)任務為中心:任務為中心是指以任務為管控對象,支持任務的生命周期管控,通過計算、算法、連接、數據的協同和調配等來保障任務的 QoS、確保任務的順利執行等。其中,任務的 QoS 來源于 AI 服務的 QoAIS 分解和映射,與 AI 用例到任務的具
47、體映射相關。4.2 必要性分析 傳統通信系統是以會話為中心的設計,提供了完整的會話生命周期管理機制(如,E2E 隧道的創建、修改、刪除、錨點遷移等流程);6G 原生支持網絡 AI,涉及到多節點場景下的多算力、多連接、多算法、多數據的協同來完成某個特定的目標,因此網絡需要針對這樣的變化,設計以任務為中心的完整生命周期管理機制,來保障任務的順利執行和 QoAIS 保障。4.3 可行性分析 1)前提假設:a)6G 網元、終端等都具有內生算力,并參與到 AI 任務中。b)6G 網絡為分布式的算力和 AI 系統。2)應用場景:網絡 AI 業務以任務的形式在 6G 網絡內執行。3)設計目標:任務的生命周期
48、管理(如,算力、算法、數據、連接等資源的編管控)、任務 QoS 生成及保障(如,通過 AI 服務 QoAIS 映射到任務 QoS,以及任務執行過程中的實時的任務 QoS 保障)。4)方案設計:為了達成上述設計目標,設計任務為中心架構,其中,引入任務控制和任務執行兩個邏輯功能。21 a)任務控制:在接受任務源(如,服務編排)提供的請求后,任務控制負責對整個任務的生命周期管控,包括調控資源四要素(算力、算法、數據、連接)來進行任務的 QoS 保障。b)任務執行:接受任務控制分配的任務后、負責任務的執行及執行結果上報。c)任務控制與任務源的接口:任務源(如,服務編排)提供 AIaaS 服務。在任務源
49、接受服務請求后,調用對應的 AI 服務、并產生對應的 QoAIS 參數;隨后任務源通過與任務控制之間的接口,將任務控制的輸入(如,工作流)和 QoAIS、傳遞給任務控制。圖 4-1:任務為中心框架圖 任務控制接受任務源(如,服務編排)請求后、將業務需求(如,工作流)分解為一個或多個任務、并映射到一個或多個執行體來共同完成這些任務,以及任務控制基于 QoAIS 產生任務 QoS。由于任務控制具備算力、算法、數據、連接等資源的實時協同和調度功能,以合理、高效地分配任務及執行體映射,以及在任務執行過程中當任務 QoS 無法滿足時、快速調整資源,從而在任務 QoS 保障的前提下順利完成任務。圖 4-2
50、 作為一個示例,描述了 AI 用例、AI 服務、工作流、任務個數、執行體等的對應關系:圖 4-2:AI 用例、AI 服務、AI 工作流和任務的映射關系示意圖 22 上述是以服務編排為任務觸發源、并由任務控制將服務編排觸發并生成的工作流分解為具體任務并映射到具體執行體來執行;除此之外、還可以存在網絡自觸發的任務,此時無需服務編排的參與。4.4 對網絡架構的影響 任務為中心對網絡架構的影響:1)任務控制的引入、及邏輯功能定義,從而支持對算力、算法、數據、連接的統一管控,以任務為對象進行生命周期管理、進行網絡 AI 的 E2E QoS 保障。2)任務源的引入、及邏輯功能定義,從而支持任務的觸發和編排
51、。任務為中心對標準化影響分析:1)任務為中心:6G 網絡通過控制信令支持任務的生命周期管理,網絡 AI 的 QoS 生成、分解和保障,及相關資源(算力、算法、數據、連接)的控制。2)對外接口:服務編排與任務控制之間接口定義,如,服務編排分解后的工作流、以及其對應的QoS 指標傳遞給任務控制。4.5 本章小結 4.5.1 觀點 傳統通信系統是以會話為中心的設計、提供了完整的會話生命周期管理機制(如,E2E 隧道的創建、修改、刪除、錨點遷移等流程);6G 原生支持網絡 AI,涉及到多節點場景下的多算力、多連接、多算法、多數據的協同來完成某個特定的目標,因此網絡需要針對這樣的變化,設計以任務為中心的
52、完整生命周期管理機制,來保障任務的順利執行和 QoS 保障。4.5.2 建議 立即開展任務為中心及相關方案的研究,包括:1)任務為中心:包括管控對象“任務”的定義、以及任務的生命周期管控流程;2)對外接口:服務編排與任務控制間的交互接口。華為技術有限公司彭程暉、王君、王飛 23 5.問題五:如何支持算網融合?5.1 技術特征內涵 6G 移動基礎設施將從單純的提供連接服務發展為同時能提供連接服務+計算服務的基礎設施,可以滿足 AI 所需的連接和分布式計算服務;并可能進一步基于 AI 的連接和計算融合控制需求,支持網算深度融合或算網一體化。算網融合,即網絡中支持算力和網絡相互感知相互融合。具體是指
53、在控制面拉通,包括分布式算力(如,終端算力、基站算力、核心網算力)與連接的相互感知,相互協同,實現實時準確的算力發現、靈活動態算力調度,提供無處不在,滿足計算服務的服務質量需求的計算服務和連接服務,實現算力資源、連接資源的合理分配,從而支撐 AIaaS。算網融合在實現相應功能時能綜合考慮空口狀態信息、網絡狀態、算力分布等信息以達到性能的最優化或者資源最小消耗,例如在分配算力實施業務部署時考慮網絡狀態、用戶分布、用戶空口狀態;在建立 網絡連接、轉發或路由數據時考慮算力分布。算網融合包括的技術內涵包括:1)算網融合網絡架構:網元和計算節點組成可調度的計算和通信節點集群,其計算能力與通信能力相互融合
54、,包括如下特征:算力內生、分布式、算力異構和多層次。算力內生特征具體是指,網元兼具通信和計算能力,計算網元和計算節點產生的算力稱為內生算力;分布式特征具體是指,計算服務部署到多個節點,使得通信、計算和存儲資源得到更充分的利用;算力異構特征具體是指,節點的計算能力、存儲能力、算力類型不同;多層次特征具體是指,算網融合網絡架構是包括云層、霧層、邊緣層和終端層的多層次網絡(端、邊、核心網云),層與層之間相互連接,相互配合,共同為用戶提供服務。2)異構算力的建模、感知、發現。算力感知具體是指,6G 內生 AI 網絡需要感知到算力資源信息,如算力類型、算力資源的數量、算力資源的使用狀態等。算力發現具體是
55、指,網絡在運行過程中,6G 內生 AI 網絡感知到新的算力資源,可以是新的具有算力資源節點發現,也可以是存在的節點的新的算力資源發現。算力注冊具體是指,在網絡發現新的算力資源后,會與該算力資源的節點進行信息交互,并將新的算力資源接入到網絡的過程。3)計算、連接的融合控制;融合控制功能具體包括分布式異構算力資源、連接資源的調度與控制。在資源調度時,融合控制功能會綜合考慮空口狀態信息、延時、算力分布、算力異構情況等信息,從而在保證計算服務 QoS 前提下達到性能的最優化或資源的最小化。5.2 必要性分析 6G 時代的新興 AI 業務如沉浸式 XR、自動駕駛等,對算力和網絡提出更高的要求,如超高算力
56、、超低時延、靈活算力調度等。而傳統集約式的云數據中心與端側算力顯然無法滿足多樣化的業務需求,算力向網絡邊緣側擴散,云、邊、端多級算力結構成為必然。當前分布式的云、邊、端等多級 24 算力互為資源孤島,容易產生資源浪費、算力不足、無法滿足低時延業務要求等問題。如何將利用多級算力資源,以滿足 AI 業務的需求成為一個急需解決的問題。通過網絡連接分布式算力資源,可突破單點算力的性能極限,發揮算力的群體優勢,提升算力規模效能,通過對算力資源、連接資源的全局智能調度和優化,可有效促進算力資源的按需“流動”。計算和網絡深度融合,一方面可以整體提高算力資源的利用率,另一方面可以按需為 AI 業務提供最佳的計
57、算、網絡等資源服務。此外,5G MEC 方案中也引入了邊緣計算能力,用于提供低延時的計算服務,基本是將重點放在了計算能力下沉上,網絡和計算部分相對是松耦合的設計,在效率、部署成本、安全和隱私保護等方面存在進一步提升的空間。例如,在 5G MEC 方案中,核心網用戶面網元 UPF 可以與 MEC 合設,但在邏輯架構層面,及控制管理機制上,都還是兩套相對獨立的系統,當需要同時調整連接和算力時,是通過管理面進行協同,協同調整的時延較大;另一方面,網絡 AI 面對的資源是分布式、異構多類型的,并需要實時適配無線邊緣動態復雜的環境,這和 Cloud AI 情況是完全不同的,也需要在控制面進行實時的協同處
58、理。因此,6G 網絡需要計算和通信深度耦合機制,使能 6G 網絡成為“連接+計算”雙基礎設施,將算力高效連接、靈活調度,以支持內生 AI 所需的強大算力,滿足各種實時的 AI服務。5.3 可行性分析 政策支持:圍繞 AI、大數據、物聯網、工業智能制造、工業互聯等新一代信息技術產業,我國政府已出臺系列政策指引產業發展。這些政策對相關產業的推動,將激發對算網融合的需求。以 2021年 5 月國家發展改革委、中央網信辦、工業和信息化部、國家能源局聯合印發全國一體化大數據中心協同創新體系算力樞紐實施方案為例,明確提出構建數據中心、云計算、大數據一體化的新型算力網絡體系,促進數據要素流通應用,實現數據中
59、心綠色高質量發展。此外在標準上,多個標準化組織一直在推動算網融合,以提升“連接+計算”能力。ETSI NFV 和3GPP SA5 通過標準支持通信和計算在管理功能上進行協作,使得算力服務于移動通信網絡;ETSI MEC 和 3GPP SA2 通過標準支持通信和計算在信息開放上進行協作,使得移動網絡承載管道和計算業務之間更好地匹配。在傳輸領域,IETF 基于 IPv6 協議開展 CFN(computing first network)標準化,通過 SRv6 技術來攜帶算力節點的算力服務信息和算力狀態信息,從傳輸網絡層面解決算力感知,以及連接和算力的良好匹配。政策支持及其他領域算網融合技術快速發展
60、的雙重推動作用下,6G網絡在控制面的功能上協同通信與計算,實現算力資源、連接資源的合理分配,滿足計算服務質量需求成為可能。5.4 對網絡架構的影響 算力對架構的影響包括:算力可能成為 3GPP 的邏輯功能網元;RAN 側(包括基站與終端)的、核心網的算力部署選項,潛在的接口、協議的影響;算力與控制面、用戶面的關系。25 融合控制功能對架構的影響包括:RAN 側、核心網側的計算、連接融合控制機制,例如究竟是在控制面耦合還是在管理面耦合;跨技術域的計算、連接的協同機制,其中技術域包括但不局限于RAN 域、CN 域、管理域等;融合控制與網絡 AI 全生命周期管理編排、任務為中心等關聯關系。核心網部分
61、融合控制的潛在方案包括:1)方案 1,核心網會話控制功能和算力控制功能(包括算力感知、調度、控制等)獨立部署,定義控制信令交互接口。其中會話控制功能包括計算會話的創建、更新、刪除等控制管理功能,計算會話具體是指端到端的計算邏輯節點之間的計算輸入/輸出的數據通道。2)方案 2,核心網會話控制功能、核心網算力控制功能融合為一個控制功能。此外,RAN 側部分融合控制功能的潛在方案包括:1)方案 1,RAN 側引入新的邏輯計算單元 xNC(Computing Node),與傳統連接服務基站xNB 對等,RRC(Radio Resource Control)和 CRC(Computing Resourc
62、e Control)通過標準接口進行控制面交互,其中 RRC 控制部分包括計算承載的創建、更新、刪除等控制管理功能,其中計算承載具體是指終端計算邏輯節點到基站側計算節點的計算輸入/輸出的數據通道。這種方案的好處是允許 xNB 設備和 xNC 設備間異廠商連接,部署方式更靈活,運營商可選擇范圍更大,缺點是外部接口時延較長,較難滿足控制面實時性要求。2)方案 2,邏輯計算單元內置于基站 xNB 內,屬于基站功能范疇,RRC 和 CRC 通過內部接口進行控制面交互。這種方案的好處是基站內部接口實現性能較好,且無線通信資源和計算資源的獨立控制、按需調用,便于依據資源特性設計專用控制流程,也便于統計資源
63、狀態。3)方案 3,邏輯計算單元內置于基站 xNB 內,屬于基站功能范疇,RRC 和 CRC 融合成統一的資源控制實體(xRC),同時對連接和計算資源進行控制。這種方案的好處是同時決定連接和計算資源的控制決策,資源控制的協同和實時性最佳,但聯合控制機制的設計較復雜。圖 5-1:AI 計算和通信在控制面上融合的三種模式7 此外,融合控制功能還包括對異構算力資源進行統一建模與感知,對其進行標識,并能降低用戶移動性對計算服務、連接服務的影響,如計算遷移等等。為了更好的提供計算服務,需要對計算服務的 QoS 進行定義,比如包括性能維度 QoS 的計算時間、傳輸時間;開銷維度 QoS 的計算開銷、傳輸開
64、銷,存儲開銷、計算能耗、傳輸能耗等;是否可以作為 QoAIS 的子集?;谌诤峡刂乒δ?,需要進一步研究計算服務 QoS 的保障機制。26 此外,融合控制功能還需要支撐 UE(User Equipment)相關的算力服務機制,例如 UE 作為算力請求方或提供方時算力資源的請求和協商,運營支撐系統應支持算力服務簽約,并實現與用戶的其他業務一起統一計費;UE 作為算力提供方時,運營支撐系統應支持算力能力開放以及計費結算等。算網融合的融合控制功能使得運營商有能力構建“連接+計算”的雙基礎設施,支持網絡 AI 和AIaaS 等全新的商業模式。5.5 本章小結 5.5.1 觀點 支持算網融合的技術特征,是
65、在架構的控制面支持算力、連接的拉通與融合控制。融合控制功能具體包括:1)分布式異構算力的建模、感知、發現;2)分布式異構算力資源的調度與控制;3)計算服務的 QoS 保障機制。5.5.2 建議 立即開展算網融合相關方案的研究,包括:1)核心網側算力、連接的融合控制功能,功能定義及相關的控制接口;2)RAN 側算力、連接的融合控制功能,功能定義及相關的控制接口。華為技術有限公司彭程暉、劉哲 中國移動李剛、上海諾基亞貝爾沈鋼、中國電信邢文娟 維沃移動通信有限公司袁雁南、上??萍即髮W吳連濤、楊旸、李凱 27 6.問題六:為什么需要自生長的數據服務?6.1 技術特征內涵 數據服務是數據提供者和數據消費
66、者之間的抽象,是對數據消費者和物理數據提供者的解耦。特別是存在多數據提供者或多數據消費者時,數據服務有助于維持數據的統一性、完整性和重用性。在 6G 內生 AI 網絡中,AI 與數據服務緊密結合,在數據采集、處理、存儲、知識轉化、應用等多個方面促使數據服務能力進化,形成自生長的數據服務。通過 AI 與數據服務的結合,AI 為數據服務提供網絡感知能力以及數據采集、處理、流轉等過程的智能策略/算法,為數據應用提供知識關聯。自生長的數據服務具有以下特點:對海量異構數據精準感知、主動推送和動態按需采集,避免數據冗余,提升數據分析能力和價值挖掘能力;使用 AI 手段進行數據價值挖掘并對數據價值進行變現,
67、通過對不同價值的數據進行云邊端分布式存儲和策略優化提升數據服務響應速度;通過模型訓練和知識推理進行場景動態適配,實現數據服務的智能編排調用、配置參數的智能調整。6.2 必要性分析 數據是 6G 的核心生產要素之一,數據服務能力直接影響網絡性能和數據價值。數據服務包括數據采集、數據預處理、數據存儲、數據訪問、數據共享與協同等階段,涉及的數據元素包含業務數據、用戶數據、網絡數據、感知數據、外部數據、資源層數據等。相比于以通信網絡運營數據和用戶簽約數據為主的 5G 網絡數據,6G 數據的范圍和類型從通信擴展至感知、計算和 AI 等領域。面向 6G網絡,當前數據服務存在下列問題:1)數據服務效率低:在
68、數據的采集、存儲和流轉過程中,如果數據服務響應速度過慢,將會直接導致數據失效。6G 網絡存在巨量的連接設備和傳感器,其產生的海量異構數據分散在網絡各層各域。對多源跨層跨域的數據服務,在數據時效性和一致性保證上存在難度,需要結合 AI 提升數據服務效率。2)數據價值局部化:6G 多元異構網絡的數據呈現出海量性、多態性、時序性、關聯性等特點。單一、孤立的數據集往往無法反映內在規律,難以解決復雜多變的網絡問題。對數據的單點采集和單一模型訓練,只能適應于特定問題和應用,局部數據的價值難以推廣。對數據價值深度挖掘實現價值最大化,需要打通各個數據孤島進行知識關聯。3)數據匹配能力差:6G 網絡中海量、異構
69、、跨層跨域數據打通后,盲目的數據采集將會帶來存儲量大、數據冗余度高、難以快速選擇數據訓練集等問題。同時,千行百業個性化特點帶來千差萬別的場景需求,而當前的參數配置和數據服務編排方式難以做到對各種場景的動態適配。打造更為豐富多樣的 6G 場景應用,需要更為靈活的參數配置和數據服務編排方式。28 通過自生長的數據服務,可以對數據價值的分析進行云邊端分布式存儲策略優化,將高價值數據存放在云端,低價值數據存放在邊端,提升數據服務效率;通過集中式與分布式相結合的網絡架構來實現對全局跨域的數據編排、網絡各域/各節點數據協同、本地數據處理和按需共享;在 AI 加持下進行數據價值挖掘、數據按需采集和服務靈活編
70、排。6G 內生 AI 網絡需要自生長的數據服務保證數據的通用性、一致性、時效性、協同性,在安全可信的前提下進行數據流通、精準高效服務和價值挖掘創造。6.3 可行性分析 對 6G 內生 AI 網絡,數據服務能力可以從數據采集、數據中間處理和數據應用三個層面進行提升,實現數據服務的自生長。n 原始數據 原始數據中數據非常龐雜,為了控制數據質量和數量,數據采集要在一定的限制約束前提下進行才能使數據越來越符合特定需求?;A數據可以廣泛應用于多個數據服務,多個數據服務使用也提升了基礎數據的通用性。通過對數據多維度挖掘、對第三方數據采集,可以擴展數據范圍并豐富數據的種類。通過對原始數據的精準感知、高質高效
71、采集,復用性增強和數據增廣等方式,能夠實現數據服務的智能提升。n 中間數據 在數據中間處理部分,數據處理加工方式的智能選擇促進了中間數據的自生長,例如使用 AI 內生架構中的智能策略/算法對數據進行抽取、轉換、計算形成更加簡潔、規范、清晰的樣本數據。中間數據的質量提升使得數據服務效率和準確性得到提升。n 應用數據 應用數據的數據含義明確,能夠直接面向場景業務。通過對應用場景、業務的不斷挖掘以及數據可視化、數據關聯性的提升,數據服務的適配能力和遷移拓展能力也得到智能提升。圖 6-1:數據服務自生長 29 如圖 6-2 所示,通過全生命周期的工作流編排實現對原始數據、中間數據和應用數據的數據服務自
72、生長。圖 6-2:6G 內生 AI 數據服務工作流 數據服務工作流包括數據集成,數據存儲,數據處理,數據治理,數據安全,數據開放幾個關鍵模塊。依托大數據技術,6G 內生 AI 數據服務通過對多源異構數據進行非實時、準實時和實時的數據采集,按照高價值低價值數據的原則進行分布式存儲,將 AI 融入數據分析處理過程,對外形成標準化的數據服務能力(包括數據、AI 模型、預測服務等),向 6G 內生 AI 網絡及外部系統或用戶提供開放服務。同時數據服務生命周期內,數據服務通過數據治理實現數據標準制定、元數據管理及質量稽核等全面數據質量管控工作,通過數據安全管理提供確認、授權、訪問與審計等功能,最大化的保
73、證數據的可管、可控、可用。6.4 對網絡架構的影響 為了實現數據服務的自生長,需要統一的數據服務框架。6G 網絡數據服務框架需要適配終端的多樣性、支持異構多源數據的接入、處理并存儲海量數據,通過數據挖掘、AI 等技術將數據轉化為知識,使能沉浸式 XR、全息通信、感官互聯、數字孿生15、全域覆蓋等全新業務場景。為滿足 2B/2C內生智慧的基本訴求,需要考慮 6G 網絡架構中數據邏輯管理與操作統一化、物理部署分離的“數據面”架構,通過云邊數據協同,實現高效的數據服務。通過在網絡中引入數據面,統一實現對網絡各節點數據的感知、收集、分析、處理和管理,可以支撐數據服務對內和對外功能的提供。30 圖 6-
74、3:網絡數據面架構1 為了支撐自生長的數據服務,還需要搭建“邏輯集中、物理分布”的統一云邊協同平臺,云邊協同配合進行數據管理。云端作為統一采集調度、統一數據處理、統一數據治理入口,負責統一開發調度、跨域多模模型管理、可視化開發、數據稽核與質量管理等功能,邊端負責完成具體采集動作、與云端通過協同計算引擎配合進行下推算子的執行、完成數據治理的執行態。通過云邊協同引擎實現云邊的跨域跨庫查詢與分析,結合統一的 Catalog(實現平臺的數據編目托管)完成兩級的算組與算子的調度。為了支撐自生長的數據服務,6G 網絡架構還需要對數據進行分層存儲和管控,網絡要能夠主動感知發現數據源,在數據服務各環節進行質量
75、保證,對數據格式和分類規范化,對數據服務建立監督和評價反饋機制。在基站或相關無線網元邏輯節點中,要有數據自生長服務功能實體、相關的數據轉發與管控流程??刂泼嫘帕钜軐ι鲜鰯祿D發流程進行編排、配置,實現可管可控和高效轉發。為實現數據服務的可信開放,還需要定義數據對外開放接口,數據服務規范化統一描述和安全訪問授權流程。6.5 本章小結 6.5.1 觀點 31 6G 網絡需要數據服務能夠適應海量、異構、多源、多樣的數據采集、處理、存儲和對數據高效流轉。在內生 AI 的加持下,自生長的數據服務能夠不斷對數據各環節進行質量提升和價值挖掘,并且在安全可信的基礎上不斷提升數據服務效率和數據精準適配能力。因
76、此 6G 內生 AI 網絡需要支持自生長的數據服務。為支持自生長的數據服務,6G 網絡需要引入單獨的數據面來構建統一的數據服務框架,還需要構建云邊協同平臺來對數據進行全面管控和協同。中興通訊股份有限公司薛妍、謝峰、楊立 中國移動鄭青碧 亞信科技(中國)有限公司趙燕、王達 維沃移動通信有限公司袁雁南 32 7.問題七:為什么需要自生長和可信的算法?7.1 技術特征內涵 算法自生長是指 6G 網絡內生智能的算法/模型生成不再僅僅依靠基于大量訓練數據的暴力計算模式,而是也能通過基于已有的算法/模型間的計算來生成新的所需算法/模型,即 6G 通過基于模型的計算來生成新模型。AI 可信不僅僅指 AI 系
77、統的性能,還包含魯棒性、公平性、可解釋性、透明度等方面,并且僅提升系統的性能不足以構建可信的 AI 系統。AI 可信度主要從如下維度來評估,可分為 3 個方面16:表 7-1:AI 可信度維度分類 可信維度 具體解釋 技術方面 準確性 AI 系統的結果應該盡可能接近真實情況 魯棒性 魯棒性是 AI 系統處理數據輸入錯誤、特征改變、執行錯誤等的能力,它直接關系到AI 系統的性能,可以保障系統的安全與可靠 可解釋性 可解釋性要求我們理解 AI 模型做出決策的原理,這是信任 AI 系統的基本因素,可以幫助我們發現 AI 系統的缺陷 泛化性 泛化性要求 AI 系統能夠從有限的訓練數據中提取知識,并且對
78、沒有經過訓練的領域的數據做出準確的預測 再現性 網絡 AI 系統的再現包括數學推導的再現和實際應用的再現,這有助于檢測 AI 系統的潛在風險 用戶方面 隱私保護 AI 系統應該能夠保護所有用戶的隱私,避免未經授權使用可用于識別身份的數據,這是決定 AI 系統可信度的核心因素 自治性 人類擁有對 AI 系統自主活動(如,決策)的控制權 社會方面 透明性 透明性要求對 AI 系統的全生命周期進行信息披露,這已經是公認的要求,是建立公眾對網絡 AI 系統信任的基本要求 審計與問責 AI 系統應當接受審查、評估和審計,并且算法審計已成為公認的審計方法 其中,算法可信包含的維度還沒有定論。7.2 必要性
79、分析 算法自生長方面,主要面向的問題是當前高成本低效率的算法或模型學習方式:需要提供大量訓練數據,從數據中學模型,則數據的采集、存儲、傳輸和計算的開銷都非常明顯,比如,人類平均 1 33 人年的碳排放量是 11023bs,在 GPU 上運行一個大型 Transformer 模型的碳排放量是 626115bs,相當于 56 個人 1 年的碳排放量。對于大型模型,參數的規模為 GB 級,這對于傳輸是極大的負擔,并且大型模型的計算力為 GFLOPS 或者是 PetaFLOPS/s-day,計算開銷很高。比如,OpenAI 提出的基于 Transformer 架構的 GPT-3 模型,參數量高達 17
80、50 億,對算力的消耗更高達3640PetaFLOPS/s-day。為緩解這個問題,算法自生長是必要的。算法可信方面,隨著 AI 技術的快速發展,AI 已經廣泛應用于移動通信中,因此有必要保障 AI 系統的可信,不必擔心其潛在危害。任一單方面的可信度都涉及 AI 全生命周期的多個階段,不同的可信度間還存在著相互作用,因此應該通過共同優化這些可信需求來構建可信的 AI 系統。7.3 可行性分析 在算法自生長方面,已有一些新的學習框架被提出,比如小樣本學習、遷移學習、元學習,其思路為提高已訓練好的模型的可重用性,使得僅通過目標域少量數據的訓練即可獲得新的適配模型,這些方式可以作為“算法自生長”的起
81、始階段,但這些方式并未改變“從數據中學”的學習本質。不同于從數據中學模型,從模型中學模型需要建立起對已有模型的知識體系。最基本的如,模型的元數據(描述該模型的數據,包括模型結構信息、適用場景、部署后的使用性能、訓練過程中的超參等等)。更進一步如解釋模型各種輸出的知識,模型結構中的各個部分對于模型給出某種決策的影響程度。再進一步如建立起通信領域的基礎模型集合,集合中的元素模型(或原子模型)均對應通信領域中某項基本功能或映射,具有很高的可重用性,可以通過調整模型參數值將原子模型適配到某個特定場景下的基本模型,也可以通過模型間的計算(比如拼接、融合、相交等)構建與更大功能相對應的更大模型。算法可信的
82、可行性方面,可信 AI 涉及到 AI 生命周期中各階段。包括數據采集,數據預處理、特征提取、模型訓練、模型測試和推理。其中,數據采集,數據預處理等環節屬于數據服務,數據服務的可信意味著對數據提供者進行隱私保護,采取措施保障數據的公平性等可信特征。數據質量價值的提升有助于算法模型的準確性、可重用性提升,算法的自生長也可以促進數據服務各環節能力提升。數據采集和預處理環節需要考慮數據的隱私性與公平性等可信要求,特征提取階段需額外考慮魯棒性、泛化性、可解釋性等要求。該階段的魯棒性可以通過定性和定量的方法來評估,比如魯棒性測試(功能性測試、性能測試)、數學驗證方法??山忉屝砸话阃ㄟ^定性指標(如,主觀人類
83、評價)和間接定量測量方法(如,近似精度)來評估,目前仍然沒有直接定量測量的方法。模型訓練階段除了需要考慮上述的可信要求外,還需要考慮再現性。該階段的可解釋性的定性方法一般為模型解釋,而定量方法包含可解釋的模型、特征解釋等。魯棒性主要通過額外的技術手段來實現,比如對抗性訓練。泛化性一般通過技術手段來實現,比如預訓練和元學習,也可以采用定量的方法來評估,比如交叉驗證等。模型測試與推理階段也需要考慮上述要求,并需要重點考慮準確性和魯棒性等。34 另外,在 AI 的全生命周期都可以考慮準確性、自治性與審計等。準確度一般定量判斷,自治性可采用定性的方式判斷,比如可不可以人工干預,審計特性一般采用定性的方
84、式評估,比如審計檢查表。7.4 對網絡架構的影響 6G 網絡架構要支持算法自生長,而算法自生長的技術突破主要在于算法/模型本身的研究,當前模型的可解釋性方面的研究進展比較緩慢。因此,可以分階段制定具體目標和技術機制,一種可考慮的方式如下:階段一:基于元數據選擇和重用模型。需要建立起模型的元數據框架,包括元數據包含哪些數據元素、如何采集獲得這些數據,如何管理等。模型重用則可采用已有的具有較高性價比的學習方式(如遷移或元學習等)。模型庫中的模型可以通過相互學習進行模型更新,如果性能不佳,模型庫可以設置對外接口,通過 CI/CD 的方式從對外接口導入模型,進行模型的更新和迭代。該階段所需的邏輯功能實
85、體及交互關系如圖 7-1 所示:圖 7-1:基于元數據的算法自生長與可信功能交互流程示意圖 階段二:基于可解釋模型組件的算法自生長。這個階段的模型知識更加豐富,除了階段一中的元數據,還主要包括模型的不同層或分支的類型、結構和參數值對模型功能和結果的影響,這些解釋模型組件可以通過編號、數學算法等方式來實現,并不代表“模型的可解釋性”。當前已有一些AutoML 框架可以實現基于基礎操作空間搜索的網絡結構自生成了,比如 AutoML zero,而在獲得了更深入的解釋模型組件相關的知識后,模型的生成將不再僅依賴搜索算法,更可能是知識和搜索算法相結合的方式。階段三:基于通信原子模型的算法自生長。經過第二
86、階段,為滿足某項功能生成的模型其結構將更加簡潔精準,模型參數將更加靈活動態(比如模型參數不再是一個具體的值,而是一個函數,根據 35 應用場景的不同,映射出不同的參數值)。最終,會產生針對通信領域基本功能設計的基本模型集合。對于由多個基本功能組成的更大功能,則可以通過基本模型的組合生成對等的智能模型。算法自生長可以根據達到的智力水平高低進行劃分,智力水平依據模型自身性能指標以及應用到use case 性能的好壞來評估,可以設計考慮安全、隱私、開銷等的指標來進一步評估。算法可信評估已經成為算法評估中不可缺少的一部分,在算法自生長的研究中我們也應考慮算法可信對算法的要求,并嵌入相關的技術 提升算法
87、的可信度,比如對 AI 系統進行審計。審計過程可分為內部審計和外部審計,內部審計涉及 AI 系統的全生命周期,使得系統可以自我評估優化,獨立方的外部審計可以更有效地獲得公眾的關注或信任。AI 系統的審計要求會影響移動網絡的生態,未來或許會出現第三方對運營商的 AI 系統進行審計。目前 6G 算法可信的范疇還需要進一步研究,雖然 AI 可信的概念幾乎涵蓋了 AI 領域所有懸而未決的問題,以及對社會有影響的方面,除了魯棒性、可解釋性、再現性等,還有隱私保護、安全性、透明性、審計與問責、倫理與法律、環保等,但是這些內涵是否都要納入 6G 算法可信的范疇?6G 網絡 AI 是否可以提出其他的可信內涵?
88、7.5 本章小結 雖然算法自生長的相關研究較為緩慢,并且算法可信的范疇還未明確,但這兩個特征對 6G 網絡架構有較大的影響,并且對未來的生態應用有較大影響,可能有新的功能性組織機構出現。因此我們認為 6G 內生 AI 網絡架構設計需要重點考慮算法自生長與可信的技術特征。中國移動鄭青碧、鄧娟 36 8.問題八:如何理解分布式 AI 架構?8.1 技術特征內涵 分布式網絡是由分布在不同地點的計算機系統互連而成,通信控制功能可分布在各節點上。6G網絡分布式 AI 架構借鑒分布式網絡的思想,將 AI 能力作為網絡的基本服務,將 AI 能力分布到各個節點,多點協同共同完成 AI 智能分析,使 6G 網絡
89、能夠按需調整、彈性伸縮、自主學習和自主演進,并賦能千行百業,構筑全行業的泛在智能生態系統。6G 網絡分布式 AI 架構將支持各層級節點間的智能協同、數據和知識雙驅動、算力資源靈活調配、數據和網絡復雜異構等17。8.2 必要性分析 設計 6G 內生分布式 AI 總體網絡架構需要從場景需求、業務要求、性能要求等多方面考慮,保證6G 網絡中各節點具備數據感知和處理、知識加工和儲備、信息傳遞和交互、模型訓練和調度、策略制定和輸出等能力。1)多態異構網絡帶來數據安全問題:一方面,6G 網絡海量多態異構的網絡設備接入給集中式的網絡部署帶來大量難題;另一方面,集中式 AI 管理不利于保護網絡設備的數據安全;
90、2)各節點知識差異需要分享協作:6G 網絡將存在大量智能節點,各節點可能需要具備知識加工或儲備能力,即知識可能分布存儲在各個智能節點中,各節點之間可能需要進行知識遷移,共同構建知識圖譜,可使網絡具備自我學習等能力;3)算力需求的增長需要資源的靈活調配:6G 內生智能網絡中的計算需求將大幅度增長,由于云服務器的計算資源限制,可能較難滿足需求,可能將云計算資源下沉到邊緣側和終端側;采用云、邊、端協同的分布式網絡架構更加符合 6G 網絡的總體愿景;4)模型訓練對資源消耗壓力更大:AI 模型規模變得越來越大,參數量越來越多,基于 AI 的應用程序的內存及功率等消耗也越來越大,通過模型拆分存儲和訓練的分
91、布式架構可以降低各節點或終端的存儲、計算、功耗壓力。8.3 可行性分析 目前業界已有很多分布式相關的 AI 學習方法,例如支持隱私保護及終端異構的聯邦學習、更加安全及去中心化的群體學習、多節點協同的多智能體強化學習、小樣本及適應性強的遷移學習和元學習等,均可考慮用于 6G 網絡的分布式 AI 架構。不同的學習方式各有特點,可滿足 6G 網絡中的不同應用場景,因此 6G 網絡的 AI 架構需要滿足各種學習方法的需求,即可根據網絡中不同節點的 AI 能力、AI 模型、數據樣本、分析任務、算力資源、網絡環境等因素,靈活選擇恰當的學習方式。在多個分布式 AI 學習方法中,從網絡架構角度可分為中央與本地
92、協同、去中心化兩種方式,例如聯邦學習主要為中央節點和本地節點協作方式,群體學習為多節點配合的完全去中心化方式,多智能體強化學習可能有中央節點參與也可能各節點協同完成,遷移學習和元學習更強調模型參數等在多節 37 點間的共享來輔助學習,可能需要管理和協調的中央節點。因此在網絡架構中則需要考慮配備不同角色的節點,以及這些節點如何在滿足 AI 訓練及分析的任務下融入 6G 網絡架構中,包括能力的要求、算力的要求、數據的要求、算法及模型的要求等。1)能力方面:6G 網絡中的功能實體或終端應作為哪種角色,具備哪些能力,需要完成的 AI 任務有哪些等;2)算力方面:需要考慮對各節點算力資源的要求,對 AI
93、 任務的算力要求如何準確評估、確定算力要求后如何在節點間進行合理分配、如何滿足實時性要求等;3)數據方面:從哪些可信終端或功能實體獲取數據,如何獲取 AI 分析所需的數據、如何滿足模型訓練和分析,數據的隱私保護及加密等問題、數據樣本的采樣方法和頻率等;4)算法及模型方面:從分布式架構角度看,主要考慮實時性和傳輸壓力等問題,因而更關注模型的共享效率、模型訓練的靈活普適性、模型大小的選擇、模型訓練時間等。8.4 對網絡架構的影響 6G 網絡分布式 AI 架構包括橫向多層、縱向多面、跨域協作,以及分級部署18。1.網絡架構中的層主要從網絡提供服務的視角闡述,不同層形態和功能不同,提供的服務也不同。目
94、前業界普遍認為 6G 網絡架構可能包括以下幾層:1)網絡資源層,主要指基礎設施,例如頻譜資源、異構計算(CPU、GPU、TPU、FPGA 等)、硬盤、內存、傳輸網絡等;2)網絡能力層,主要指網絡邏輯功能(NF),包含 6G 網絡的主要能力,例如信息感知功能、數據處理功能、網絡通信功能(移動性管理、會話管理、策略管理等控制面功能,路由轉發等數據面功能)、計算功能等;3)網絡運營管理層,主要指運營管理相關功能,例如網絡監控管理、云網編排、業務受理、計費結算等。6G 網絡還可能引入數字孿生網絡管理功能、意圖驅動網絡智能中樞等功能;4)應用服務開放層,則功能/能力層提供的服務與應用,例如感知服務、位置
95、服務、低時延高可靠傳輸、確定性傳輸等。2.網絡架構中的面是指縱向貫穿各層,為各層提供的基礎能力。數據面、安全面、智能面是目前業界提及較多的能力。1)數據面實現資源狀態感知(算力等)、網絡狀態感知、業務或場景感知、用戶數據、數據倉庫等;2)安全面提供安全服務及策略等;3)智能面則主要提供 AI 能力調用、知識構建、統一數據模型、大數據分析、算法、策略等;智能面為各層提供服務,例如向資源層提供資源分配建議,向功能/能力層提供數據處理、資源感知、特定功能分析等,向網絡運營管理層提供意圖轉譯、編排分析;向應用服務開放層提供輔助應用的網絡分析、輔助訓練模型、開放資源感知等。38 3.網絡架構中的域主要是
96、用于區分不同專業領域,一般自成體系或網絡,各域融合統一的難度較大,將來在 6G 網絡也可能是分立的,可能涉及的域包括無線接入網域、核心網域、云網承載域、外部網絡域、終端域等。目前各域均在研究 AI 能力,例如核心網域用于網絡服務提升、網絡優化等;無線接入網域用于資源優化、擁塞分析、節能等;云網承載域用于智能路由、資源調配等;外部網絡域和終端域用于應用體驗增強、配置管理等。4.網絡架構中的級主要是網絡服務的分級,即全國級、區域級、網元級、邊緣級等。從部署角度,尤其是規模廣域覆蓋的網絡,無論是對端側實時性、海量計算、不同算法對模型訓練的要求,還是對數據存儲能力、通信傳輸壓力等的考慮,完全扁平化部署
97、難度較大,將來 6G 網絡仍可能包括全國級、區域級(也包含基于服務)、網元級、邊緣級,考慮到 AI 還會涉及終端級,部署上可能會有集中、邊緣和端側等云邊端協同場景。AI 可滲透到各級,每級能力各有差異,將來可能是獨立智能功能實體和內嵌智能功能實體共存的模式,6G 網絡分布式 AI 架構如圖 8-1 所示:圖 8-1:6G 網絡分布式 AI 架構示意圖 1)獨立智能功能實體:指專用于進行 AI 分析的功能實體,依據 AI 系統特點設計,普遍具備算力和性能強、ML 模型豐富、數據和知識全面,支持節點管理協同等特點,因而能夠提供更精準、更復雜、場景更豐富、覆蓋范圍更廣的 AI 分析能力。獨立智能功能
98、實體的具體功能可包括信息和資源狀態等數據的收集、數據的預處理、知識構建及輔助分析、模型訓練、推理或策略建議等。全國級、區域級和邊緣級可以考慮部署獨立智能功能實體。2)內嵌智能功能實體:為了達到 6G 智能內生的目標,已具備特定能力的功能實體或終端,也應設計 AI 能力,即內嵌智能功能實體,一方面根據自身需求完成 AI 分析和推理等,另一方面 39 可輔助獨立智能功能實體提供數據感知、推理、輔助模型訓練等能力,例如核心網會話管理功能實體內嵌 AI 能力進行會話相關信息感知和推理,終端內嵌 AI 能力輔助進行聯邦學習等。內嵌智能功能實體在實時性、隱私保護和安全性方面可能更有優勢,但往往因算力有限、
99、數據和模型單一等問題較難完成大型復雜的分析任務。內嵌智能功能實體的具體功能可包括數據或狀態感知、小型的模型訓練(用于聯邦學習等)、知識存儲、推理及反饋等。網元級和終端級等可考慮使用內嵌智能網元19。8.5 本章小結 8.5.1 觀點 6G 網絡及終端數據異構、服務場景更為復雜、算力及性能指標差異大、模型訓練消耗大,分布式 AI 架構通過支持橫向多層、縱向多面、跨域協作,以及分級部署等可更好的適應未來 6G 網絡內生智能的需求。8.5.2 建議 6G 網絡智能化的目標是滿足內生 AI 的需求,則需要考慮 AI 如何融入網絡,成為網絡的一部分,例如各層、級、域等需要哪些 AI 能力,各節點之間如何
100、進行自主高效的互聯共享等協同。中國電信李鵬宇、于夢晗、邢燕霞 北京郵電大學周凡欽、豐雷 重慶郵電大學徐勇軍、大連海事大學楊婷婷 電子科技大學馮鋼、秦爽、中國移動溫子睿 40 9.問題九:分布式 AI 架構中不同節點如何協同?9.1 技術特征內涵 各層級節點 AI 功能不同是指在各層級節點部署不同的 AI 能力,其中所部署的 AI 能力可以從人工智能實現手段、算力供給需求、整體 AI 能力中的角色等多個角度加以區分。從人工智能實現手段角度看,可分為知識驅動和數據驅動等不同 AI 能力20;從算力供給需求角度,不同的 AI 能力一般具有不同的算力供給需求,需要具體問題具體分析;從整體 AI 能力中
101、的角色角度,不同層級的各節點按需具備 AI 能力,節點的 AI 能力角色可分為獨立智能功能實體和內嵌智能功能實體。AI 節點間協同主要體現在 AI 節點之間進行數據和知識的協同、算力和資源的調配、算法和模型的共享等,從而增強網絡功能、提升網絡性能、優化網絡和應用服務體驗,提升 6G 網絡整體的智能化水平。結合 6G 網絡潛在的分布式 AI 架構,需要考慮域、層、級、面之間或其內部各節點的交互方式和數據傳遞,在滿足實時性要求、減少傳輸壓力、網絡和算力資源分配最合理、隱私保護等前提下,選擇最優方式完成 AI 任務。9.2 必要性分析 關于各節點 AI 功能不同的必要性,可以從以下三個角度分析:1)
102、從節點智能需求角度,各層級節點數據獲取的全面性與時效性不同,例如靠近端側的節點的網絡數據獲取時效性較好,全面性較差;靠近云側的節點可獲取全面性的網絡數據,但時效性較差21;同時,不同人工智能實現手段下AI 能力具有不同特點,因此可在考慮不同網絡優化目標問題時部署有差異的 AI 能力。2)從節點算力供給能力角度,各層級節點存在顯著差別。終端節點計算資源有限且算力供給穩定性差,節點異構性強;邊緣級節點計算能力差異性較大,節點供應商可能來源多樣,異構性強,且數據和資源共享的難度大,成本高;全國級節點能夠提供高質量強穩定的算力,但可能存在一定時延,對實時決策造成影響,因此可根據算力需求部署適當的 AI
103、 能力。3)從節點智能內生角色角度。內嵌智能功能實體的 AI能力嵌入在通信功能網元或終端等,更適合完成數據或狀態感知、數據預處理與特征提取、小規模模型訓練、本地知識抽取、存儲、推理及反饋等任務,獨立智能功能實體往往與多個節點存在數據交互接口,更適合完成大范圍多維度知識融合、大規模模型訓練、全局知識抽取、存儲、推理及反饋等任務,從而整體實現更及時的數據處理和更少的傳輸開銷。6G 網絡分布式 AI 架構需要各節點之間協同完成 AI 任務,主要體現在以下幾個方面:1)場景需求:當前通信網絡中 AI 分析已需要各節點協同,例如網元或切片負載分析,需要從核心網域獲取各網元或切片負載、狀態、資源使用和流量
104、消耗,從終端域獲取終端目的地、速率等,從外部網絡域獲取UE 群體行為信息等;未來確定性網絡、算力網絡、天地一體等新網絡能力,萬物智聯、沉浸式 XR、數字孿生等新應用,更需要端到端、各域配合、資源和能力的統一調配和協同。2)性能要求:未來6G 網絡提出超低時延高可靠、超大帶寬、低成本大連接等愿景,隨之產生的 AI 任務將變得越來越復雜,為了提供更優質的網絡服務質量體驗,各 AI 節點之間需要具備數據知識傳遞、算力資源分配、算 41 法模型共享等 AI 協同能力。3)分布式學習需求:海量異構的 AI 節點的涌現使得 6G 網絡需要分布式AI 架構,分布式學習方式要求 AI 節點必須具備協同能力,例
105、如聯邦學習、群體學習、多智能體學習等。9.3 可行性分析 AI 節點功能差異性可考慮以下幾個方面:1)在架構設計中可能需要定義和增加新的 AI 節點,但隨著 AI 技術向網絡技術滲透,未來網絡技術本身的智能方法和網絡 AI 之間的界限可能變得模糊,進而可能造成網元的重復定義、責任邊界的不清晰或節點資源的浪費,甚至導致決策沖突,可通過標準化工作進行分析和推動解決。2)目前的 AI 技術以數據驅動為主,如何獲取大量實時的 AI 數據,對網絡智能能力的上限存在決定性影響,網絡架構可考慮預留開放的數據接口和專有信令用于支撐和賦能網絡 AI,增強網絡架構設計對 AI 的支撐能力。3)目前 AI 的可靠性
106、和解釋性存在不足,無法保證新增的 AI 模型和方法能夠穩定有效工作在網絡中,在計算機操作系統上沙盒模式是一個常見的解決方案,網絡架構上如何支撐網絡沙盒對 AI 能力落地具有重要意義。6G 網絡 AI 節點協同時可能需要考慮傳輸效率、實時性、移動性、魯棒性、隱私性、能耗成本等因素,聯邦學習、群體學習、多智能體學習等人工智能關鍵技術可作為 6G 網絡各 AI 節點間的協同方式22??紤]到通信網絡存在設備異構性問題,每個 AI 節點可能僅能處理小組高維模型的樣本,因此,一方面需要學習架構可根據網絡狀況,優化參與模型上傳的設備選擇;另一方面,網絡架構也需要靈活重配置異構網絡資源,及時擴展容量,以處理更
107、多的模型;同時還需要靈活的網絡管理規則,考慮多層結構的任務遷移、模型聚合的異步管理等,以協調網絡不同層的節點。9.4 對網絡架構的影響 9.4.1 不同節點的不同 AI 功能 在不同節點部署恰當的、差異化的 AI 能力,應該綜合考慮其智能需求與算力特點,實現計算能耗、時延表現、傳輸開銷三者之間的平衡。1)全國級節點、區域級節點可獲取全局的網絡數據,但可能無法準確獲取實時數據,為全面參與網絡的決策控制,對計算能力要求高,所需數據量大,更適合對全局性的策略或者算法模型集中進行訓練和推理,建議部署包括知識分析推理、模型訓練存儲等知識驅動的 AI 能力,以獨立智能功能實體的能力為主,具備支撐海量數據的
108、完整數據處理、模型離線訓練、策略推理能力。2)邊緣級節點、網元節點能夠獲取一定范圍的網絡數據,但數據時效性不如終端級節點,可為全國級節點、區域級節點提供數據預處理或者扮演 AI 推理執行的角色,對實時性有一定要求,而計算能力要求則滿足業務需求即可,建議部署以數據驅動的內嵌智能功能實體能力為主,以知識驅動的 AI能力為輔,具備輕量級的 AI 推理和訓練能力,可負責所在范圍內的完整數據預處理、模型訓練、策略推理,且具備存儲能力以支撐異構邊緣節點間的協同學習等。42 3)終端級節點可以實時獲取端側本地信息,但獲取數據的范圍很小,建議部署數據驅動的內嵌智能功能實體能力,側重于具備策略應用能力,可參與本
109、地聯邦學習在線訓練,在算力富足時具備一定離線訓練能力。9.4.2 節點間的 AI 協同 移動通信網絡中的 AI 協同包括網絡架構中域內域間、級內級間、層內層間、面內面間的 AI 協同,從差異性角度來說,域內域間、級內級間、層內層間與面內面間的 AI 協同方式四者之間差別不大,下文主要根據實際可能存在的差異性,從域內和域間角度分級進行分析。1)域內同級 AI 協同 主要涉及域內全國級、區域級、邊緣級、網元級內部的橫向 AI 協同,主要考慮采用群體學習等去中心化分布式架構或遷移學習方式等,例如同級不同覆蓋范圍或不同能力的 AI 節點協同進行分析、同級 AI 節點間通過共享模型加速學習等。同級 AI
110、 節點之間的協同可能主要考慮以下幾個方面:1)模型共享:指級內同類型 AI 節點間可進行 AI/ML 模型共享,幫助其他節點進行學習和分析,需要考慮模型的準確性和可靠性等;2)模型拆分:可考慮采用多節點并行的縱向跨層模型拆分方式,需要考慮各節點的計算能力及傳輸效率等;3)協同學習:同級內的 AI 節點可能采用群體學習方式或通過遷移學習、元學習等技術進行知識遷移,需要考慮協同的場景和實時性等。2)域內不同級 AI 協同 主要涉及域內各級之間的縱向 AI 協同、橫向和縱向混合的協同方式,主要考慮通過有中心的分布式架構或者遷移學習方式進行協同。有中心的分布式架構可將上一級的 AI 節點作為中心節點,
111、下一級的 AI 節點作為本地節點,例如不同級各 AI 節點之間可通過聯邦學習進行協同,獨立與內嵌智能功能實體之間協同采用以獨立智能功能實體為中心節點,內嵌智能功能實體為本地節點的聯邦學習等;域內不同級 AI 之間的遷移學習指域內某一級的 AI 節點中的預訓練模型共享給其他級的 AI 節點,該節點根據需要僅用少量訓練數據微調預訓練模型即可得到最終模型。不同級 AI 之間的協同方式主要考慮以下幾方面:a)數據協同:數據服務分布式協同可保證數據的一致性和有效性,網絡數據可在多節點內均存有備份或每個節點存儲部分數據,并需要備份數據的及時更新;b)算力調度:指算力資源可在不同級的 AI 節點之間進行合理
112、再分配;c)模型共享:指不同級之間的 AI 節點可共享 AI 模型,可直接用于任務推理或對模型進行再訓練;d)模型拆分:可考慮采用各節點序貫式的橫向按層模型拆分方式,需要考慮各節點的計算能力及實時性等;e)協同學習:不同級 AI 節點間可運用聯邦學習、遷移學習進行共同訓練或知識遷移,主要考慮實時性、學習效率等。3)域間 AI 協同 通信網絡中不同域面向不同通信專業領域,提供能力的層面或范圍存在較大的差異性,為了滿足用戶端到端的服務體驗,6G 網絡將不可避免的會涉及不同域間的協同問題。由于各域的復雜性、能力差異性、性能需求等,每個領域均有可能提供各自的 AI 能力,如果需要完成端到端或多域共同的
113、智能分析任務,則需要各域 AI 的合作和共享,即域間協同。43 域間協同的協同方式主要考慮以下幾個方面:a)數據協同:各域 AI 從其他域獲取分析所需的元數據或預處理后的數據或知識,用于本域的模型訓練或分析,需要考慮數據獲取的實時性、數據樣本顆粒度等;b)模型共享:本域 AI 的 ML 模型可共享給其他域,輔助其他域 AI 進行模型訓練或分析,需要考慮模型的準確性、時效性、魯棒性等;c)協同學習:例如不同域為相同特征、同一地域用戶群進行智能分析,可能采用聯邦學習、遷移學習等,從而提升以用戶為中心的服務體驗。無論哪種域間協同方式,可能需要考慮統一的協作中心,例如支持聯邦學習的中央服務器,選擇針對
114、不同智能分析任務的域間協作方式等。6G 網絡分布式 AI 節點間協同如圖 9-1 所示。圖 9-1:6G 網絡分布式 AI 節點間協同示意圖 9.5 本章小結 9.5.1 觀點 1)分布式 AI 網絡架構中,各層級 AI 節點具備不同的 AI 能力,服務于不同的業務需求。2)依據 AI 能力設計方案部署 AI 任務,采集類和感知類任務可部署到終端級節點、邊緣節點和網元級節點,大時間尺度和知識化類任務可部署到區域級節點和全國級節點。3)在分布式 AI 架構中,為了高效實現不同需求場景的智能分析需求,需要各節點間相互協同,共同完成 AI 任務。4)各 AI 節點間需要協同,通過數據傳遞、算力調度、
115、模型拆分/共享以及協同學習等方式支持。9.5.2 建議 6G 網絡應支持分布式 AI,支持 AI 節點間協同,但需要從本質上深入了解 AI 性能與資源消耗、通信開銷等方面的關系,在提升資源利用率的同時保證模型學習和訓練的性能,建議持續開展研究,在設計和實現方面提出創新方案。44 中國電信李鵬宇、于夢晗、邢燕霞 北京郵電大學周凡欽、豐雷 重慶郵電大學徐勇軍、大連海事大學楊婷婷 電子科技大學馮鋼、秦爽、中國移動溫子睿 45 10.問題十:可以對外開放哪些 AI 能力?10.1 技術特征內涵 能力開放是移動網絡的重要功能,5G 網絡中就已經存在。到了 6G 時代,AI 相關的能力開放必然是 6G 網
116、絡能力開放的重要組成部分,是實現移動網絡 ICDT 融合的重要切入點。相比 5G 時代下的能力開放的同質競爭,AI 能力開放更著重于 6G 網絡與第三方需求之間的優勢互補,協作共贏23。AI 能力開放是指對于 6G 網絡中的 AI 相關的資源包裝成特定的能力向第三方開放、使用,主要表現在如下三個大方面:數據開放:數據開放是指將 6G 網絡中可以獲得的數據經過加工后共享給第三方使用,包括對于6G 網絡內部的處理后的原始數據的開放以及基于原始數據分析后得到的有價值信息的開放。算力開放:算力開放是指網絡可以充分利用算力資源對外提供計算服務。當收到外部的算力服務請求時,整個網絡的云邊端架構會整合網絡中
117、的空閑算力,通過網絡模型中的功能層實現算力的統籌調度,再結合云邊端自身相應的通信功能來傳輸反饋任務數據,完成整個對外提供算力服務的功能。模型開放:模型即算法,是第三方實現 AI 服務的靈魂。6G 網絡中可以向第三方提供 AI 模型/算法的開放服務,適用的 AI 模型不盡相同。利用 6G 網絡的強大資源(包括數據、算力、通信等資源)打造諸如“AI 模型商店”的模型開放能力,可以服務于廣大的第三方 Network for AI 市場。10.2 必要性分析 n 數據開放的必要性 數據開放可以讓產業鏈所有參與者充分利用已有的數據資源,避免重復的數據采集處理操作。開放數據能夠打破網絡間、行業間的數據孤島
118、和數據壁壘,并為第三方參與提供途徑。數據開放豐富了數據類型,加強了數據之間的聯系,拓展了數據應用空間,讓數據服務更加智能化。數據開放為數據服務提供了數據價值的挖掘拓展和數據資產變現的更多可能。對于數據開放來說,AI 技術之所以能夠大規模普及,其中一個重要的因素就是數據,對于第三方來講,想要訓練出好的模型、產生強大的推理能力,必然需要跨域的數據采集,這里主要指終端、移動網絡和 OTT 三個不同域的數據在安全隱私可接受范圍內的共享。就像人腦做決策一樣,只有考慮的因素越全面,做出的判斷才越合理。因此數據的開放是決定 6G 網絡 AI 功能面強大與否的關鍵因素。46 圖 10-1:從 QoS 到 Qo
119、I 5G 網絡中,為了提升業務的體驗,網絡主要以提供和保障高質量的 QoS 為主,其中網絡切片、TSN 等 5G 的關鍵技術均以提供最佳的 QoS 為目標。也就是說,只要能夠提供最佳的 QoS,就可以足以為第三方的業務體驗保障提供足夠的支持。但是,到了 6G 時代,為了能夠實現最佳的 AI/ML 操作價值,僅有極致的 QoS 是不夠的,AI/ML 能夠實現重要的價值更取決于數據/信息的共享。具體來說,高質量的信息共享可以為第三方提供有效的操作決策、加速訓練過程、提升訓練準確度。因此,在 6G 網絡中,利用意圖網絡等技術,基于信息的能力開放可以以 Quality of Information 的
120、形式呈現給第三方,并與 QoS 一起為第三方 的 AI/ML 操作提升價值。n 算力開放的必要性 很多基于 AI 的服務需要耗費大量的算力資源,大多數的 OTT 廠家都不具有如此龐大的資源體量。運營商網絡可以為 OTT 提供云資源服務,讓 OTT 使用運營商的云資源執行相應的 AI 服務或為OTT 公司執行 AI 服務。人工智能的最新進展推動了網絡邊緣的智能應用,如智能家居、智能工廠和智能城市等等。為了在算力資源緊張的邊緣設備上部署計算密集的深度神經網絡,傳統的方法是將部分神經網絡模型上傳至云端,云端將計算結果反饋回終端,但這種方式缺點是可靠性差且延遲高。因此利用網絡中設備的空閑算力來幫助算力
121、不足設備或對網絡外部提供算力服務是一種新的思路,即算力眾籌/開放的概念。利用算力眾籌可以將網絡中設備閑置算力集中控制再根據網絡中業務需求合理分配,并開放給第三方使用。n 模型(算法)開放的必要性 由于在不同時間、地點、環境、業務、用戶等情況下對于 AI 模型的要求不盡相同,第三方需要按需獲取最佳的 AI 模型進行使用。這里需要消耗大量的資源進行模型的訓練、管理、匹配和調整等,這3 3rdrd partypartyQoS3 3rdrd partypartyQoS常規常規業務業務體驗體驗AI/MLAI/ML操作操作價值價值Q Qo oI I5G5G網絡網絡6G6G網絡網絡 47 無疑對于很多第三方
122、使用 AI 模型是難以克服的門檻。為此,6G 網絡可以具體在如下幾個方面向第三方提供按需、高效的模型開放:-由于第三方一般僅有少量的基于某個特定需求的樣本,少量的樣本無法支持第三方訓練出一個收斂的 AI 模型。為此,通過 6G 網絡提供的泛化能力強的基礎模型,第三方可以在此基礎上通過少量的樣本繼續訓練,得到性能良好且適配于第三方特定需求的 AI 模型;-第三方算力受硬件條件、電量等因素的影響,對于模型選擇和計算層數的分配需要根據算力要求進行確定,發送給第三方,并充分利用分布式算力的優勢,共同承擔 AI 計算需求;-此外,模型大小也是開放給第三方時的一個重要的考量目標,過大的模型不宜安裝在算力和
123、存儲受限得終端或服務器上,而過于簡單地模型又會造成模型推理準確性的缺失,因此需要 6G 網絡通過蒸餾、剪枝、量化等技術幫助第三方實現理想的模型尺寸。10.3 可行性分析 上述必要性分析中提到的 AI 能力開放已經在前面章節提到的問題中的分析中有了充分的理論支持。對于數據開放,在之前的問題六“6G 內生 AI 網絡架構是否需要支持數據服務自生長技術特征?”中已經提到,通過數據的采集、匯聚、加工、訓練、推理、分析等過程,可以對 6G 網絡中獲取的數據進行加工,并在可信開放的原則下按需開放給第三方使用。為此,涉及的數據元素包含業務數據、用戶數據、網絡數據、感知數據、外部數據、資源層數據等,網絡的數據
124、服務能夠實現可信的認證、授權、訪問的功能,以及高效的數據存儲和管理、按需動態的數據采集、數據預處理和聚合、對外能力開放和注入等功能。數據服務的可信開放特性主要體現在數據采集、數據存儲、數據訪問、數據共享與協同等階段。同時,考慮到數據的隱私性問題,6G 網絡可以通過定性方法和定量原則來保障,比如通過數據隱私保護法對數據保護影響進行評估,采用數據匿名化、差異隱私的方法定量證明數據的隱私性。對于算力開放,在之前的問題五“6G 內生 AI 網絡架構是否需要支持算網融合技術特征”中已經提到,云、邊、端多級算力結構和算力資源的按需流動不僅可用于 6G 網絡自身的內生智能需求,同時可以用于向第三方進行算力開
125、放。為此,可以將神經網絡計算任務拆分,拆分要根據當前的通信狀況和可利用的算力來確定,包括對于神經網路的橫向拆分(即按層拆分,拆分后前一部分的輸出是后一部分的輸入,計算需要從前到后)、縱向拆分(即快層拆分,將神經網絡每層中的神經元分配到不同部分,拆分的部分彼此間既有并行關系也有串行關系,計算時需要不同拆分部分間信息交互)以及混合拆分(即橫向和縱向拆分的組合)。48 確定拆分策略后,需要將拆分后的模型分配給不同的設備,同時需要對各設備的計算結果進行匯總以及必要的數據傳輸。通過目前流行的強化學習、聯邦學習、去中心化分布式學習等機器學習方法可以有效實現多節點之間的協作和信息共享。對于模型(算法)開放,
126、在之前的問題七“6G 內生 AI 網絡架構是否需要支持算法自生長和可信”中已經提到 6G 網絡內生智能的算法/模型生成不再僅僅依靠基于大量訓練數據的暴力計算模式,而是也能通過基于已有的算法/模型間的計算來生成新的所需算法/模型。同時,結合問題五和六中提到的數據服務和算網融合服務于 6G 網絡,可以充分利用多級云資源為第三方提供模型存儲、訓練、下載等一系列服務,在這一過程中使用遷移學習中特有的元學習技術可以不斷優化不同情況下的 AI 模型開放能力,為第三方按需提供最佳的預訓練模型,并配以預訓練-微調和知識蒸餾等遷移學習技術為第三方量身定制最佳的 AI 模型使用。在這一過程中,可以充分發揮運營商和
127、第三方各自的優勢,即運營商具有的龐大基礎設施資源得以更加有效地利用,第三方具備的靈活快速特點可以在運營商的基礎設施資源上實現并迭代,形成優勢互補的 AI Model as a Service 的效果。10.4 對網絡架構的影響 為實現數據開放,數據服務要在安全管控、統一管理、可信環境和安全審計上實現可信可管可控。對數據服務,還需要構建整體的數據安全管理體系和提供貫穿數據全生命周期的數據安全防護能力,同時提供數據服務分類、統一標準接口及數據開放管控能力。如圖 10-2 所示,為了實現最上層服務層的 AI 能力開放,對網絡架構的影響可以包括如下幾方面。首先資源層對網絡內各個設備的算力,任務進程進行
128、實時管控。將異構時變的算力資源映射到資源抽象層來為功能層提供可量化的算力資源。功能層進一步將整個系統的各方面狀態如控制面信息,用戶面信息,數據面信息等等匯總并將資源層中的算力資源合理分配調度為最上層的服務層提供算力服務,提高整個系統的算力使用效率。并基于提供的算力實現面向應用的各種 AI/ML 操作 49 圖 10-2:AI 能力開放基礎架構示意 為此,在標準化角度上需要建立標準化的接口實現對外的能力開放,包括標準化的用于第三方的請求/回復流程,用于第三方以格式化的方式提供包括數據、算力、模型的具體條件要求,6G 網絡按需完成資源的劃分。同時,需要以 AI 域的形式對用于特定第三方的 AI 相
129、關資源進行劃分,隔離可能來自于攻擊者的非法資源占用和調取。10.5 本章小結 6G 內生智能網絡包含 AI for Network 和 Network for AI 兩大方面,前者側重于為 6G 網絡降本增效,后者則側重于為借助 6G 網絡的 AI 能力打開更廣闊的第三方市場。問題十著重回答了Network for AI 方面,借助 AI 能力開放如何吸引第三方加入以 6G 網絡為基礎的 AI 生態,實現優勢互補、合作共贏。本章闡述的 AI 能力開放問題與前面章節中對于 6G 內生智能網絡的總體架構、特征密切相關??梢哉f,本章是向外呈現 Network for AI 功能的能力開放出口,而如何
130、實現這些能力是需要 6G 內生智能網絡架構規劃初期進行統籌考慮的問題,滲透在 6G 智能網絡的各個方面,尤其會前面章節中的算網融合和數據服務章節的論述有密切聯系。OPPO 許陽 50 11.總結 6G 要實現普惠智能愿景,從架構層面需要內生 AI 設計,這一點業界已達成共識。然而從端到端視角,包括網絡 AI 用例的產生到網絡的部署應用,其中的很多具體過程還有很多不清楚的地方,涉及的具體技術問題以及對架構的影響,雖然業界已有一些研究和討論,但并未收斂形成有效共識。本白皮書審視網絡 AI 完整的生命周期過程,挑選并重點分析了其中的十大技術問題,包括這些問題的主要技術特征、必要性分析、可行性分析和對
131、 6G 內生 AI 網絡架構的影響,來推進大家對 6G 內生 AI 架構關鍵技術的理解,并通過討論和碰撞,對齊理解,加速形成共識。然而我們也注意到,6G 內生 AI 網絡架構涉及的內容相當廣泛,是跨多個技術領域的融合創新,將引發網絡架構的重大變革,涉及現有網絡架構的所有層面,因此當前本白皮書版本分析的十大技術問題是無法完全覆蓋全面的,從目前看,一些潛在的待未來進一步分析的技術挑戰包括:1)從需求角度,用戶真正需要的是什么 SLA?如何通過 AI 用例表示用戶的需求?從可實現角度,哪些 QoAIS 是可保障的?2)如何將算法、數據、可編程能力集成到 AI 生命周期管理和自動化機器學習管道編排技術
132、之中,構建和管理可重現,可測試和可持續的 AI 能力?3)如何對大任務進行自動分解?如何進行實時協同和調配計算、算法、連接、數據,從而保障任務的 QoS、以及任務的順利執行?4)為了適配邊緣動態、復雜、異構的環境,算網融合控制系統如何實時調度邊緣的異構資源?例如,終端信道狀態快速變化,調度給終端的連接資源可以快速變化,那么算力資源是否也可以快速調整、如何快速生效?5)超大規模模型對網絡架構的影響?移動通信網絡是否需要通用的大規模模型?6)可信 AI 對網絡架構的影響?6G 網絡架構如何為可信 AI 提供支撐?7)AI 如何融入網絡,各層、面、域、級需要哪些 AI 能力,各節點之間如何進行自主高
133、效的互聯共享等協同?8)AI 能力開放在典型業務場景下如何具體落地?我們呼吁業界各方齊心聚力,針對上述技術挑戰展開討論和研究,進一步識別和聚焦對 6G 網絡架構有重大影響的技術問題。同時,6GANA TG2 也將繼續努力,希望在本白皮書下一個版本中能給出 6G 內生 AI 網絡架構的可能答案。中國移動鄧娟 51 參考文檔 1 Liu G,Li N,Deng J,et al.6G Mobile Network Architecture-SOLIDS:Driving Forces,Features,and Functional Topology.2021.2 NGMN,6G DRIVERS AND
134、 VISION v1.0,2021 3 6GANA.6G 應用場景詳解白皮書.2022 4 張彤,任奕璟,閆實,等.人工智能驅動的 6G 網絡:智慧內生J.電信科學,2020,36(9):9.5 劉光毅,鄧娟,鄭青碧,等.6G 智慧內生:技術挑戰,架構和關鍵特征J.移動通信,2021,45(4):11.6 Deng J,Zheng Q,Liu G,et al.A Digital Twin Approach for Self-optimization of Mobile NetworksC/2021 IEEE Wireless Communications and Networking Conf
135、erence Workshops(WCNCW).IEEE,2021.7 中國移動研究院,6G 無線內生 AI 架構與技術白皮書,2022 8 中國移動研究院,6G 物理層 AI 關鍵技術白皮書,2021 9 中國移動研究院,6G 至簡無線接入網白皮書,2022 10 Wen C K,Shih W T,Jin S.Deep learning for massive MIMO CSI feedbackJ.IEEE Wireless Communications Letters,2018,7(5):748-751.11 IBM.AI Model Lifecycle Management.2020 1
136、2 Machine Learning Operations.https:/ml-ops.org/13 ONAP.https:/www.onap.org/14 中國移動研究院,6G 服務化 RAN 白皮書,2022 15 中移動研究院,基于數字孿生網絡的 6G 無線網絡自治,2022 16 Li B,Qi P,Liu B,et al.Trustworthy AI:From Principles to PracticesJ.2021.17 IMT-20306G 網絡架構愿景與關鍵技術展望白皮書,202109 18 IMT-20306G 總體愿景與潛在關鍵技術白皮書,202106 19 IMT-20
137、30通信感知一體化技術研究報告白皮書,202109 20 張鈸,朱軍,蘇航.邁向第三代人工智能J.中國科學:信息科學,2020,50(09):1281-1302.52 21 張嗣宏,左羅.基于人工智能的網絡智能化發展探討J.中興通訊技術,2019,25(02):57-62.22 喬秀全,黃亞坤.面向 6G 的去中心化的人工智能理論與技術J.移動通信,2020,44(06):121-125.23 OPPO.6G AI-Cube Intelligent Networking.White paperR.2021.53 縮略語 縮略語 英文全稱 中文全稱 AI Artificial Intellige
138、nce 人工智能 ICT Information and Communications Technology 信息與通信技術 AIaaS AI as a Service AI 即服務 QoAIS Quality of AI Service AI 服務質量 KPI Key Performance Indicator 關鍵績效指標 CBD Central Business District 中央商務區 SSB System Synchronization Block 系統同步塊 ID Identity 標識 QoS Quality of AI Service 服務質量 NMSE Normalize
139、d mean square error 歸一化均方誤差 ML Machine Learning 機器學習 XR Extended Reality 擴展現實 MEC Mobile Edge Computing 邊緣計算技術 UPF User Plane Function 用戶面功能 CFN Computing First Network 算力網絡 RAN Radio Access Network 無線接入網 NC x Computing Node 計算節點 RRC Radio Resource Control 無線資源控制 CRC Computing Resource Control 計算資源控
140、制 xRC x Resource Control 資源控制實體 UE User Equipment 用戶端 2B To Business 面向行業 2C To customer 面向消費者 GFLOPS Giga Floating-point Operations Per Second 每秒 10 億次的浮點運算數 54 GPT Generative Pre-trained Transformer 生成型預訓練變換器 AutoML Automated machine learning 自動機器學習 FPGA Field Programmable Gate Array 現場可編程邏輯門陣列 TP
141、U Tensor Processing Unit 張量處理單元 OTT Over The Top 越過運營商管道的業務 QoS Quality of Service 業務質量 QoI Quality of Information 信息質量 55 附錄 對其他 TG 工作的技術需求表:TG 組 技術需求 TG1 從需求層面,是否需要有這么多的 QoAIS 指標?從 TG1 的角度,對于服務的具體模式出現的可能性是否有一些研究?(比如 AI 訓練服務中,模型導入網絡的方式是應用層注入還是底層分割?是僅應用層提供服務的模式,還是需要網絡架構改動來提供服務?)廣泛收集各類智能應用場景需求,進一步研究完善智能應用場景與 AI 用例的關系、AI 用例的描述模板。對于 AI for Network 方面,是否對于 6G 內生智能網絡下的 AI 能力開放有具體的業務場景?TG3 研究可支持 AI 用例自生成的數據采集、存儲、治理、傳輸等數據面架構。與 TG3 聯合,協同完成對數據服務架構和相關功能的研究。TG4 研究可支持 AI 用例自生成的智能算法。當前部分 QoAIS 指標尚無成熟的量化評估方式(如模型的泛化性、可解釋性、可重用性),如何在起始階段設計出足夠開放包容的網絡架構以便后續逐步引入上述指標的成熟量化技術?