《6GANA:6G網絡AI概念術語白皮書(2022)(英文版)(37頁).pdf》由會員分享,可在線閱讀,更多相關《6GANA:6G網絡AI概念術語白皮書(2022)(英文版)(37頁).pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、 6G 網絡 AI 概念術語白皮書 6G Network AI Concept and Terminology 6GANA TG1 2022-1-19 摘要 本白皮書介紹網絡 AI 相關概念術語定義,并從需求角度,進一步分析 6G 網絡和計算、數據、AI 融合的不同選項,及網絡 AI 潛在帶來的如 AIaaS 這樣的新服務。通過澄清網絡 AI基礎概念,定義術語及潛在的各類融合選項,支撐 6GANA 各工作組更高效的討論網絡 AI場景需求、架構、算法、管控系統等,加速共識的達成。網絡 AI 概念術語白皮書 Network AI-Concept and terminology 摘要.1 1.背景.
2、5 2.概念術語定義.5 2.1 網絡 AI 概念術語定義.5 2.2 網絡 AI 的 QoS:QoAIS.7 2.3 模型、算法、知識.8 2.4 相關概念澄清.11 2.4.1 網絡智能化.11 2.4.2 內生 AI.11 3.網絡 AI 分級分類定義.13 3.1 網絡 AI 分級定義.13 3.2 S0:AI4NET 類別.15 3.3 S1:連接 4AI 類別.17 3.4 S2:算力融合類別.19 3.5 S3:數據服務類別.22 3.6 S4:算法融合類別.23 3.7 S5:編管服務類別.26 4.總結.29 參考文檔.29 縮略語.30 附錄.30 文檔作者列表:貢獻者 單
3、位 彭程暉,劉哲,王飛,王君 華為 鄧娟,李剛,孫軍帥 移動 李文璟,喻鵬,豐雷,周凡欽 北郵 楊立,謝峰,康紅輝 中興 王達,邊森 亞信科技 段小嫣,艾明 大唐 楊旸,馬牧雷,鞏宸宇 上科大 張凱賓,溫海波,陳端,顧方方 Nokia 上海貝爾 袁雁南,崇衛微 vivo 尤心,陳景然 OPPO 楊婷婷,寧嘉鴻 大連海事大學 夏旭,李鵬宇,王恒 電信 黃兵明 聯通 溫福喜 清華 肖泳 華科大 梁承超 重郵 阮磊峰 Intel 張海君 北科大 馮鋼,秦爽,劉怡靜 電子科大 1.背景 6G 將催化 AI 革命:以深度學習為代表的人工智能技術將走向成熟,而 6G 將成為普惠智能服務的使能器。從以往移動
4、通信斷代的歷史看,一般新的一代移動通信系統的出現,對應會出現一些典型的新業務場景;對應 6G 的新業務場景很可能是源于通信與 AI 的共同設計帶來的,其中涉及 CT、IT、數據、行業等跨不同領域的深度融合,使得 6G 成為一種新型的基礎設施,來滿足未來各 2B 行業從數字化走向智能化的行業發展趨勢,以及未來 2C如元宇宙、觸覺互聯網等新應用走向更極致性能、更智能化和個性化。網絡 AI 是基于這樣的趨勢出發提出的。目前業界對網絡AI大的方向和趨勢有一定的共識,即連接、算力、數據和 AI 在一定程度的融合創新。但對于網絡 AI 具體的內涵、網絡與 AI 相關的各個要素的融合程度等方面還沒有形成統一
5、的理解,相關的概念術語也沒有被清晰、明確的定義出來。本白皮書正是從當前的現狀觸發,來定義網絡 AI 相關的概念術語,并從需求角度進一步分析 6G 網絡和計算、數據、AI 融合的不同選項,及網絡 AI 潛在帶來的如 AIaaS 這樣的新服務,牽引業界相關的討論更有效率,為業界加速相關共識的達成做出貢獻。2.概念術語定義 2.1 網絡 AI 概念術語定義 6G 的重要愿景之一是實現智能普惠和連接智能,因此,6G 除了作為連接基礎設施之外,還應該從架構層基于原生設計支持 AI,例如結合 AI 應用在連接、算力、數據、算法等層面的要求,進行深度融合的優化設計,這個被認為是 6G 架構層面變革的主要驅動
6、力之一。由此,該方向的研究引發了諸多的討論,并引出了一系列的基礎概念和術語,下面整理了主要的相關概念術語定義,澄清其主要內涵:AI for Network(AI4NET):通過 AI 提升網絡自身的性能、效率和用戶服務體驗。AI4NET 主要研究包括利用 AI 優化傳統算法(如空口信道編碼、調制)、優化網絡功能(如移動性優化、會話管理優化)、優化網絡運維管理(如資源管理優化、規劃管理優化)等。Network for AI(NET4AI):通過網絡為 AI 提供多種支撐能力,使得 AI 訓練/推理可以實現的更有效率、更實時,或者提升數據安全隱私保護等。NET4AI 將傳統網絡范圍從連接服務,擴展
7、到算力、數據、算法等層面。AI as a Service(AIaaS):在網絡基礎設施中構建 AI 應用的服務能力,AI 應用包括網絡自用的 AI 或者 AI 新業務,部署 AI 應用可以是運營商或第三方。Cloud AI:AI 在云上執行,AI 和網絡架構是解耦的,只是利用底層網絡將 AI 所需要的數據信息傳遞到云端,而云端是數據處理、訓練和推理的主要智能中心。網絡 AI:在網絡中提供完整的分布式1AI 環境,包括 AI 基礎設施、AI 工作流邏輯、數據和模型服務等。網絡 AI 從概念上包含 AI4NET、NET4AI 以及 AIaaS。NET4AI 將支撐網絡自用的 AI、AI新業務和 A
8、IaaS 的業務能力。網絡 AI 可獨立于 Cloud AI 發展,也可互為補充。關于網絡 AI 和 AI4NET/NET4AI 的關系 從目前普遍上的理解,AI4NET 中的 AI 是指用于網絡自身的優化工具,例如通過 AI 增強網絡的性能、優化網絡運維效率等;而 NET4AI 中的 AI 是指通過網絡承載的 AI 應用業務,例如機器視覺場景等。對于網絡 AI 來說,以上的 2 種不同類型的 AI,都需要提供支持,即對于網絡 AI 來說,AI4NET 和 NET4AI 是不同的場景,都需要從網絡 AI 架構層面,提供各類的優化支持能力。網絡 AI 除了支持 AI4NET 和 NET4AI 場
9、景之外,還需要考慮 AI 能力的運營,即 AIaaS 這樣的服務能力。未來網絡通過提供網絡 AI 的原生支持,自然需要擴展傳統的通信生態體系,引入一個多方協作的生態系統,在商業和技術合作方面做到更簡單、開放、靈活和可信等。1 分布式是對網絡 AI 整體內涵描述,即終端、網元等都具備一定的網絡 AI 相關能力,但不意味著網絡中運行的每個具體的 AI 應用都是分布式的;對于是否增加“分布式”,沒有完全達成一致。2.2 網絡 AI 的 QOS:QOAIS 與傳統通信網絡的 QoS 主要考慮連接相關的性能指標不同,QoAIS 需要從連接、算力、算法、數據等多個綜合維度來考慮評估網絡 AI 的服務質量,
10、因此廣義上的 QoAIS 指標框架體系,將包括性能、開銷、安全隱私和自治等。因此 QoAIS 首先從內容需要進行擴展,除了連接的服務質量外,還將包括:1)算力相關:基于 AI 模型訓練和推理,數據預處理等算力功耗開銷、效率等 2)算法相關:模型性能指標界、訓練/推理耗時、泛化性、可重用性、魯棒性、可解釋性等 3)數據相關:樣本空間平衡性、完整性、分布動態性、準確性、數據準備耗時等 AI 服務與 QoAIS 有一對一的對應關系。從類型上,AI 服務可以包括 AI 數據類、AI 訓練類、AI 推理類和 AI 驗證類。對每一類 AI 服務,均可以從性能、開銷、安全、隱私、自治等多個維度設計評價指標,
11、而每個維度又可以進一步展開設計,下圖為一個示例說明:QoAIS 是網絡 AI 編排管理系統和控制功能的重要輸入,網絡 AI 管理編排系統需要對頂層的 QoAIS 進行分解,再映射到對數據、算法、算力、連接等各方面。另外,QoAIS 也可以包括 AI 應用的業務體驗指標,以信道壓縮為例,可以選擇歸一化均方誤差(Normalized mean square error,NMSE)或是余弦相似度作為信道恢復精度的KPI,也可以選擇鏈路級/系統級指標(如誤比特率或吞吐量等)作為反映信道反饋精度對系統性能影響的 KPI。此外,QoAIS 還可以包括 AI 服務的可獲得性、AI 服務的響應時間(從用戶發起
12、請求到 AI 服務的首條響應消息)等與 AI 服務類型無關的通用的評價指標。2.3 模型、算法、知識 知識 Knowledge 知識是人類在實踐中認識客觀世界(包括人類自身)的成果,是數據和信息加工提煉后的結晶。與數據和信息相比,數據是對客觀事物記錄下來的可以鑒別的符號(包括數字、字符、文字、聲音、圖形、視頻等),它提供了對客觀事物的表示,但不提供判斷或解釋,數據是形成信息的重要原料;信息是對客觀世界各種事物的特征的反映;知識是由信息形成的,對信息進行加工、抽象、分析、提煉和總結形成了知識,知識能夠反映事物的本質。數據、信息和知識是對客觀事物感知和認識的三個階段。模型 Model 模型是為了某
13、種目的,用字母、數字及其它數學符號建立起來的等式或不等式以及圖表、圖像、框圖等描述客觀事物的特征及其內在聯系的數學結構表達式。最優化問題模型用包含變量的目標函數與約束條件來表示,求解最優化問題即為求目標函數的極值,以及求取得極值時變量的取值。機器學習模型的輸入是樣本數據,輸出是期望的結果,同時也設定目標函數(一般是讓模型的錯誤率盡量?。┖图s束條件,機器學習模型中有大量可以調節的參數,這些參數通過訓練得到,從而學習到輸入數據和輸出結果之間人類無法直接理解的復雜關系。算法 Algorithm 廣義的算法指完成某項工作的方法和步驟;數學中的算法指按照一定規則解決一類問題的明確和有限的步驟;計算機中的
14、算法指用計算機來解決一類問題的方法和步驟。算法具有確定性、邏輯性、有窮性、正確性、順序性和普遍性等特征。算法是求解模型的路徑或方法,以機器學習為例,機器學習模型中有大量參數是未知的,通過算法可以訓練出模型中的參數,從而得到一個最優或局部最優的機器學習模型,然后可用該機器學習模型對新的輸入樣本進行計算得到相應的輸出結果。算力 Computing Force/Computing Power 算力指對數據的處理能力。本文中的算力指網絡中的節點通過對數據處理實現特定結果的能力,包括計算能力和存儲能力。智能 Intelligence 智能是“智力”和“能力”的總稱。從感覺到記憶到思維這一過程,稱為“智力
15、”,智力的結果就產生了行為和語言,將行為和語言的表達過程稱為“能力”,兩者合稱“智能”,即感覺、記憶、回憶、思維、語言、行為的整個過程被稱為智能過程,它是智力和能力的表現。廣義的智能指有效實現目標所必需的知識與技能,包括自然智能(生物智能)和人工智能。智能化 Intelligentize 智能化指事物在現代信息通信技術、大數據、物聯網和人工智能等技術的支持下,實現具備能滿足人的各種需求的屬性的過程。人工智能 Artificial Intelligence 人工智能指機器模仿人類利用知識完成一定行為的過程,是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的新的技術科學。(通常
16、將人工智能分為弱人工智能和強人工智能,前者讓機器具備觀察和感知的能力,可以做到一定程度的理解和推理,而強人工智能讓機器獲得自適應能力,像人類一樣可以思考,解決一些之前沒有遇到過的問題。目前的研究都集中在弱人工智能方面。)利用知識的過程包括怎樣表示知識、獲得知識、傳遞知識、以及使用知識。一般認為,推動人工智能發展的三要素包括:數據、算法和算力,其中數據是基礎(原材料),算法是途徑(加工過程),算力是基礎設施(動力)。在這一過程中,如何結合知識、利用知識還需要做更進一步的研究。機器學習 Machine Learning 研究怎樣使用計算機模擬或實現人類學習行為的一門學科,即利用算法解析數據,不斷學
17、習,對世界中發生的事物做出判斷和預測的一項技術(或利用計算機作為工具模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能)。機器學習的一般過程包括:收集數據、識別數據特征、建立模型、通過對數據進行訓練形成有效的模型、使用模型對新數據進行分類/預測。機器學習是實現人工智能的重要手段,按照基本原理或流派分類,可分為符號主義學習、連接主義學習、統計學習和深度學習;按照學習方式分類,可分為有監督學習、無監督學習、半監督學習、強化學習、遷移學習、深度學習等。知識圖譜 Knowledge Graph 知識圖譜是知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構
18、關系的一系列不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。知識圖譜的主要目標是描述真實世界中存在的各種實體和概念,以及他們之間的各種關系,從而構成一張巨大的語義網絡圖,圖中節點表示實體或概念或值,邊則由屬性或關系構成。知識圖譜屬于人工智能的范疇,實現人工智能的思路很多,知識工程是其中之一。知識工程中,知識表示是非常重要的任務,要應用知識,就必須在計算機系統中合理地表示,而知識表示的一種重要方式就是知識圖譜。相關概念之間的關系如圖 1 所示。圖 1:人工智能與知識圖譜的關系示意圖 集中式處理 Centralized Processing 集中
19、式處理指將所有信息放到一個統一的信息中心進行處理。分布式處理 Distributed Processing 分布式處理指將不同地點的,或具有不同功能的,或擁有不同數據的多臺計算機利用通信網絡連接起來,讓各個計算機各自承擔同一個工作任務的不同部分,在控制中心的管理協調下同時運行,共同完成一個工作任務。分布式機器學習 Distributed Machine Learning 人工智能人工智能知識工程知識工程知識表示知識表示知識圖譜知識圖譜分布式機器學習指利用多個計算機節點(或稱為工作者 worker)進行機器學習,以便提高性能、保護隱私、并可擴展至更大規模的訓練數據和更大的模型。在大數據和大模型的
20、雙重挑戰下,大規模機器學習(尤其是大規模深度學習)模型的訓練對計算能力和存儲容量都提出了新的要求:計算復雜度高,導致單機訓練會消耗無法接受的時長,需要使用并行度更高的處理器或計算機集群來完成訓練任務;存儲容量大,導致單機無法滿足需求,需要使用分布式存儲,因此提出了分布式機器學習。分布式機器學習的關鍵任務包括:數據和模型的劃分(數據與模型怎樣分布到各個節點上)、單機機器學習模型的算法及優化(各個節點上的模型如何優化)、節點間通信(各節點之間如何傳遞消息)、以及模型的聚合(各個節點的模型如何聚合成最終模型)。根據對并行任務的不同分解,可分為:數據并行(data parallelism),模型并行(
21、model parallelism),以及模型與數據混合并行(Hybrid parallelism)。典型的分布式機器學習框架有聯邦學習、群體學習和集成學習。2.4 相關概念澄清 2.4.1 網絡智能化 網絡智能化是指將 AI 等智能化技術與通信網絡的硬件、軟件、系統、流程等深度融合,利用 AI 等技術助力通信網絡運營流程智能化,提質、增效、降本;促進網絡自身的技術和體系變革,使能業務敏捷創新,推動構建智慧內生網絡。2.4.2 內生 AI 內生 AI 是指在架構層面通過內生設計模式來支持 AI,而不是疊加或外掛的設計模式。對于內生設計模式的驅動力,主要包括如下幾個方面:1)網絡高水平自治:目前
22、網絡自治水平不高,需要各類網絡內生 AI 能力支持實現對運營商和用戶意圖的感知和實現,實現網絡的自我優化、自我演進,最終實現網絡的高水平自治。2)智能普惠:面向行業用戶,助力千行百業的數智化轉型,實現“隨時隨地”智能化能力的按需供應;相比云服務供應商,提供實時性更高、性能更優的智能化能力服務;另外提供行業間的聯邦智能,實現跨域的智慧融合和共享。3)提供高價值的新型業務和極致業務體驗:終端存在大量數據,終端的計算能力也越來越強,考慮到數據隱私需求,需要內生智能協同網絡和終端,為 2C 客戶提供極致業務體驗和高價值新型業務。4)網絡安全可信:未來網絡將承載更多樣化的業務,服務更多的應用場景,承載更
23、多類型的數據,因此網絡將面臨大量新的復雜的攻擊方式?;?AI 的安全能力在 6G 網絡的各環節嵌入,實現自主檢測威脅、自主防御或協助防御等。從以上驅動力分析可以看出,6G 網絡除了滿足基本的通信連接需求之外,還需要考慮計算、數據、模型/算法等多個方面,即 6G 需要通過架構層面的內生 AI 設計,來滿足網絡AI 多樣化的新業務場景和網絡自治優化等需求,包括應用于網絡自身優化和用戶體驗的AI(如用 AI 重寫的空口),也包括第三方的 AI 新業務。內生 AI 的內涵:6G 網絡內生 AI 為網絡高水平自治,行業用戶智能普惠,用戶極致業務體驗,網絡內生安全等提供所需的實時、高效的智能化服務和能力
24、。是在 6G 網絡架構內部提供數據采集,數據預處理,模型訓練,模型推理,模型評估等 AI 工作流全生命周期的完整運行環境,將 AI 服務所需的算力、數據、算法、連接與網絡功能、協議和流程進行深度融合設計。外掛 AI 模式:基于外掛設計的 AI 應用特征,一般是采用打補丁等方式進行,存在如下幾個方面的挑戰:缺乏統一的標準框架,導致 AI 應用缺乏有效的驗證和保障手段,AI 應用效果的驗證是在事后進行,這樣端到端的整體流程長并且很復雜,中間過程一般需要大量的人力介入,對現網的影響也比較大,這導致了目前 AI 很難真正應用到現網中。外掛模式難以實現預驗證、在線評估和全自動閉環優化。在外掛模式下,AI
25、 模型訓練通常需要預先準備大量的數據,而現網集中采集數據困難,傳輸開銷也大,導致 AI模型迭代周期較長,訓練開銷較大、收斂慢、模型泛化性差等問題。外掛模式下,算力、數據、模型和通信連接屬于不同技術體系,對于跨技術域的協同,只能通過管理面拉通進行,通常導致秒級甚至分鐘級的時延,服務質量也難以得到有效保障。由于外掛 AI 模式存在上述諸多問題和挑戰,因此 6G 網絡采用內生 AI 方式設計已成為業界普遍共識。3.網絡 AI 分級分類定義 3.1 網絡 AI 分級定義 對于網絡 AI 的研究,實質是研究網絡和 AI 相互融合的關系,因此有必要從一開始就先明確網絡和 AI 相互關聯有哪些選項和發展升級
26、路徑。下圖主要是從網絡視角,看網絡與 AI融合不同分級,隨著級別越高,本質是網絡與 AI 相互融合的更緊密和更全面深入,也對6G 網絡需要設計的領域范圍提出個更多的要求。其中 S0 是 AI4NET,S1S4 是NET4AI,S5 是 AIaaS,如下圖所示:S0-AI4NET:在這個分類下,AI 主要作為工具來優化網絡,對原有的網絡架構不一定產生影響,例如用基于數據的 AI 模型替換網絡中的傳統的數值算法來優化網絡性能和用戶體驗,或在運維領域實現智能運維等。AI4NET 在 5G 已開展相關的研究和應用,到了 6G,隨著深度學習為代表的 AI 技術走向成熟,融合連接+算力的新型基礎設施的出現
27、,相關的應用將更豐富和成熟,并可能進一步深化演進,獲得更多增益,出現更多的場景,支撐網絡自身的全智能化。S1-連接 4AI:從網絡的基礎連接服務出發,將 AI 作為一類特殊的業務,分析連接或組網方面的特殊的要求,例如對比 5G 已有的連接 QoS 服務,AI 新業務可能在可達性、計算速度、吞吐量、時延、可靠性、安全隱私等方面有新的訴求,需要研究 6G網絡如何更好的滿足這些新的訴求。S2-(連接+算力)4AI:6G 將成為連接+算力的新型基礎設施,可以滿足 AI 所需的連接和計算服務;并可能進一步基于 AI 的連接和算力融合控制需求,6G 架構內生支持網算一體化或云網端一體化等。S3-(連接+算
28、力+數據)4AI:6G 網絡將提供數據服務,可以滿足 AI 所需的連接、算力和數據服務;并可能進一步基于 AI 對這些方面的融合控制需求,6G 架構內生支持網算數一體化,實現安全可信的廣義數據服務。S4-(連接+算力+數據+算法)4AI:6G 網絡除了可以滿足 AI 所需的連接、計算和數據服務,還對 AI 模型本身有一定程度的感知,并基于對 AI 模型的不同層次的認知,6G 架構內生支持對具體的 AI 模型實施自適應的針對性優化和模型拓展新構建的范式。S5-AIaaS:提供網絡 AI 相關的連接、算力、數據和 AI 工作流的編管,并支持在網絡基礎設施中構建 AI 應用的服務能力。3.2 S0:
29、AI4NET 類別 類別 1:空口物理層 AI 指 AI/ML 在物理層模塊中的應用,例如將 AI/ML 應用于信道建模和估計、信道編碼、調制、MIMO 和波形設計。AI/ML 可以用來提取無線信道的時域、頻域和空域特征,如通過神經網絡學習無線信道的時間相關性,經過訓練后的模型就可以用于提供更準確的信道信息。AI/ML 也可以直接用作譯碼器,一些研究表明神經網絡譯碼器不僅可以降低復雜度,還可以更好的補償非線性。AI/ML 在 MIMO 系統中也有著廣泛的應用,例如將每個天線集和頻段中的信道通過全連接網絡映射到另一個天線集和頻段中的信道,即在 FDD 系統中國可能可以通過上行信道探測直接獲取下行
30、信道信息;還可以通過 AI/ML 壓縮信道狀態信息(CSI),來降低 CSI 上報開銷等等。因此,通過 AI/ML,可以說是為不同物理層功能提供了一種通用的優化模塊,增加了物理層的適應性和靈活度。AI/ML 可以說是為進一步提升無線鏈路性能,挖掘潛在增益提供了新的路徑。類別 2:空口高層 AI AI/ML 應用于空口高層多用戶處理場景,包括功控、QoS 管理、資源分配、自適應調制編碼(AMC)等方面。其中,資源分配是基站 MAC 層的一個重要功能,可分配的資源包括接入機會、傳輸機會、功率或頻譜等,一些研究表明,通過 AI/ML可以優化資源分配算法,提升資源適用效率。傳統的自適應調制編碼大多是被
31、動的,它們根據接收機的反饋來調整調制和編碼方案,通過更廣泛的學習方案選擇經驗,AI/ML 可優化 AMC 來做出更優的選擇。這些應用本質是基于 AI/ML 開展自主和積累式的學習,來優化相關的調度算法,使得基站變得越來越聰明,可以記住經驗教訓來支持未來做出更正確的決策。這樣的方式轉換,可能在小區級控制調度上帶來巨大的性能增益。因此,通過在無線空口物理層、MAC 以及相關的協議信令中大量應用 AI/ML 方法,最終可能出現通過 AI 重構未來無線通信的空口。類別 3:系統 AI AI/ML 應用于接入網 RAN/核心網 CN 系統架構的場景。在 RAN AI 應用場景中,通過在基站之間傳遞切換的
32、回報(reward)信息,可以幫助各基站基于 AI/ML 的切換持續的學習和優化。在 CN 中,3GPP 定義了 NWDAF 來支持 AI/ML 所需的數據收集、處理和 AI/ML 模型應用部署,例如 AI/ML 可應用于合成網絡切片,實現異構網絡,如地面網絡于非地面網絡的一體化,通過 AI/ML 協調復雜的多層次異構網絡,為用戶提供最佳的覆蓋。類別 4:運維 AI AI/ML 在網絡管理運維系統中的應用。網絡管理運維工作伴隨著網絡和業務的各個發展階段,主要包括:規劃、建設、維護、優化、運營 5 個主要環節,這些環節組成了網絡管理全生命周期。運維 AI 是指利用 AI 技術,進行網絡全生命周期
33、的運維和管理,主要包括以下功能:設計編排功能:為了適應 6G 應用場景多樣,業務需求多變的實際情況,通過智能感知,實現資源的自動化勘查,支持快速完成業務功能、網絡能力、資源關聯、調用接口等設計工作。同時基于設計結果自動化的完成業務、網絡、資源的組合和生命周期流程編排。實現靈活的業務發放和網絡資源調用。資源管理功能:通過實現通信網絡資源數據管理、資源入網、調度、分配、核查、變更,端到端網絡資源拓撲視圖等應用,提供數據服務能力統一封裝開放能力,例如利用圖像識別等 AI 技術實現資源管理智能化,大幅降低人力成本。故障管理功能:利用 AI 能力實現網絡集中監控,包括網絡與業務端到端監控和故障閉環管理等
34、應用,提供網絡監控開放能力。性能管理功能:利用 AI 能力實現網絡與業務質量的端到端分析,實現各類容量、質量、效率、效益主題分析應用。網絡規劃優化功能:基于網絡數據中臺,集中于無線網絡規劃與質量優化,結合強化學習等技術,實現多目標多參數聯合優化。開放分析和優化能力,實現智能化的閉環優化。運維調度功能:實現運維人員和任務、網絡割接、運維等統一集中調度管理,流程管理??沙浞掷?RPA 等技術提供自動派單、知識推送等服務,通過統一流程引擎實現進度可視。3.3 S1:連接 4AI 類別 連接 4AI 主要分為如下 2 個方面:1)6G 網絡如何為 AI 提供所需的定制連接服務,即:連接所承載的 AI
35、 服務相關數據的類型;2)6G 網絡如何為 AI 提供所需的組網服務。定制連接 按照連接所承載的 AI 服務相關數據的類型,可以分為以下類別:類別 1:用于傳輸 AI 相關的信令,例如:AI 分析信息請求/回應消息;AI 分析所需算力相關的請求/應答消息。這里,AI 相關信令可能的傳輸方式包括:a)作為用戶面數據傳輸;b)與 NAS 信令相耦合/融合,例如:網絡內生 AI 控制采用 NAS 信令,業務/應用相關 AI信令放在 container 中通過 NAS 信令透明傳輸,等。類別 2:用于傳輸 AI 輸入數據。類別 3:用于傳輸 AI 模型。類別 4:用于傳輸 AI 分析信息,包括中間分析
36、信息(當多實體進行聯合分析時)。以上不同的類別對連接的 QoS、網絡適應能力可能會提出新的要求。對于同一類別,例如類別 4,其中涉及的不用 AI 業務/應用對連接的 QoS、適應能力等也可能存在不同的要求。對于 AI 業務場景以及相關的連接性能需求,3GPP TS 22.261(基于 TR 22.874 的結論)針對 5G 系統也有了一些 KPI 需求層面的分析和結果,主要是吞吐量、時延、可靠性等傳統連接性能指標的影響,即目前 3GPP 標準對 5G 系統如何支持不同的 AI 業務/應用從功能和性能角度進行了分析,但目前還不涉及 AI 內生網絡的設計。定制組網 按照支持 6G 內生 AI 所需
37、的網絡連接的架構與形態,可以分為以下類別:類別 1:集中式 AI 連接組網。采用一個中心 AI 控制功能實體進行 AI 策略控制,包括 AI分析信息收集、決策、下發等。類別 2:分布式 AI 連接組網,例如:邊緣 AI。類似于 MEC,網絡邊緣的一個或多個功能實體(例如終端、網絡功能、應用功能等)由本地的 AI 控制功能實體進行控制和管理。類別 3:子網式 AI 連接組網,例如:多用戶設備(UE)之間組成的子網 AI、虛擬網絡(VN)內的 AI 連接。類別 4:以上連接類型的混合連接組網。以上不同的類別組網形態,可以滿足不同的 AI 業務/應用或控制場景需求。3.4 S2:算力融合類別 未來的
38、網絡架構中,算力將遍布于包括中心云、邊緣云、網絡設備、甚至終端設備在內的各種基礎設施。算力以及附著之上的人工智能算法或功能應用,不僅能服務于網絡或者設備本身用以改善性能優化網絡運維,而且還可能通過統一的接口向外開放、服務于上層應用。算力和網絡需要相互感知,以達到網絡資源、算力資源的最佳利用,同時為用戶提供最佳的體驗。算力網絡融合可以有以下逐步演進的 3 大類:類別 1:網元算力 此類算力通常以專用算力資源的形式服務于移動通信網絡的網元(如基站或核心網),該算力資源僅用于實現網絡功能或網元本身的計算處理;通??捎觅Y源有限,主要用以通信性能提升或者網絡運維優化等等定制化的 AI 應用服務(即 AI
39、 for network),如無線資源管理、信道估計、波束成形等等。此類別的算力典型地由基于通用處理器或可編程器件構成的計算單元和存儲單元組成,對于可通過相應接口呈現在運營商的網管平臺,通過管理面接口可在指定算力單元上完成 AI 算法的加載、更新或銷毀,實現管理面對算力和算法的可管、可控。由于此類算力相對邊緣計算、云計算能力比較有限,因此無法實現大規模計算和訓練要求的 AI 應用,較難服務于第三方應用。類別 2:分布式外掛算力 此類算力通常以分布式的 EC(邊緣計算)/MEC(多邊緣計算)形式存在;作為云計算的演進,將計算從集中式數據中心下沉到通信網絡接入網邊緣,更接近終端用戶。外掛算力以通用
40、處理器 CPU 為主,也可包含高性能處理器 GPU 以及可編程加速卡等,相對豐富的算力為網絡自身優化以及對高計算量和時延要求嚴苛的行業應用提供了可能。外掛算力以分布式的方式在更靠近用戶的網絡邊緣提供算力服務,便于在提供更低時延的同時,減少對網絡資源的消耗,以更好地服務一些行業應用,比如視頻加速、網絡自動駕駛、AR/VR等等低延時高帶寬的場景以及包括非實時的無線協議處理及網絡優化等在內的網絡應用。由于通信網絡能力開放給網管平臺,分布的外掛算力也呈現在網管平臺;因此,AI 應用等服務署可以綜合考慮網絡的信息以及分布的算力資源,進行業務的優化部署、調整等。此類算力上的 AI 等業務部署是通過管理面實
41、現的,動態性不強,無法實現網絡和算力在控制面的統一,無法及時響應用戶的移動以及網絡的變化;網絡連接和業務連接是相對獨立的,屬于疊加模型,因此在資源的使用上有時無法達到最優。類別 3:分布式網絡內生算力 新型網絡架構中,各網元不僅有控制和轉發能力,還兼顧計算能力,除網元之外,網絡中還部署了計算節點,這種算網一體模式產生的算力稱為網絡內生算力。在網絡設計之初,把算力當作網絡的一種基本元素。算力遍布于網絡,即算力廣泛分布于云、邊、端、中間網元,算力融于網絡。算力服務、連接服務、以及綜合考慮算力和連接的服務,都作為網絡對外能提供的基本服務。網絡內生算力可以促進內生智能的發展和部署,可以更好地支持無處不
42、在的具有感知、通信和計算能力的基站和終端,實現大規模智能分布式協同服務,同時最大化網絡中通信與算力的效用,適配數據的分布性并保護數據的隱私性。在新型網絡架構中,網元和計算單元的控制面拉通,可以彌補算力融合類別 2 中的不足,可以及時的響應移動和網絡的變化。網絡內生算力可以促進未來智能應用的產生和發展,例如:沉浸式云 XR、全息通信、感官互聯、智慧交互、通信感知以及數字孿生等。3.5 S3:數據服務類別 數據是 6G 的核心生產要素之一,相比于以通信網絡運營數據和用戶簽約數據為主的 5G網絡數據,6G 數據的范圍和類型將隨著 6G 服務從通信擴展至感知、計算和 AI 服務等而更加豐富。數據服務是
43、數據提供者和數據消費者之間的抽象功能,解耦數據消費者和物理數據提供者。特別是在多數據提供者或多數據消費者時,數據服務有助于維持數據的完整性,通過重用性提高數據服務效率。6G 數據服務旨在高效支持端到端的數據采集、傳輸、存儲和共享,解決如何將數據方便、高效、安全地提供給網絡內部功能或網絡外部功能,在遵從隱私安全法律法規的前提下降低數據獲取難度,提升數據服務效率和數據消費體驗。根據數據服務潛在的功能范圍,可將數據服務分為 5 個類別:類別 1:數據收集/分發,為數據生產者和消費者提供基礎數據收集的發布和訂閱機制,提升數據收集/分發效率。類別 2:數據安全隱私,借助安全和隱私保護技術為用戶和網絡按需
44、提供高質量的可信數據服務,既保證用戶和網絡的隱私保護,又保證數據的安全不可篡改及可溯源性。類別 3:數據分析,疊加利用模型、算法、知識和算力等提供統計信息、預測信息、網絡異常分析和優化建議等信息,提升網絡內部功能和網絡外部功能的數據消費體驗。類別 4:數據預處理,對所收集的數據進行格式轉換、去噪和特征提取等通用工具類預處理滿足智能應用需求。類別 5:數據存儲,存儲和檢索所收集的數據,以及為數據安全隱私、數據分析或數據預處理等數據服務相關處理功能提供存儲支持。3.6 S4:算法融合類別 類別 1:輸入輸出和模型協作 輸入為進行模型訓練的樣本數據集以及進行推理的特定任務數據,在采用協作方式的 AI
45、操作下,各種 AI 操作的上一步輸出結果也將作為下一步協作節點的輸入。輸出為 AI 模型訓練到某一步的輸出結果,包括各種協作方式產生的需要發送給下一個協作節點的中間結果以及最終的輸出結果。如何定義 AI 模型的輸入輸出與 AI 模型的類型以及功能有很大關系,AI 賦能各種功能可以主要通過以下兩大類輸入來幫助其實現智能化的提升:對于決策類AI模型,需要重點定義兩大類輸入和輸出:1)第一大類輸入是通用預測,包括業務預測、位置預測、負載預測和用戶行為預測等;每個具體功能都會使用一種或幾種通用預測作為輸入判決的重要依據;2)第二大類輸入是個性化數據,應用在不同場景時會有不同的個性化輸入參數;3)個性化
46、輸出是AI 模型分析后的輸出結果,需要按需對每個具體的功能點定義個性化輸出,以實現合理、快速、準確的決策。對于非決策類AI模型,其具體形式是通過AI 模型推理的方式將數據處理的部分或全部步驟進行替代,具體場景下,對于輸入和輸出:1)輸入要求對限制因素和期望效果進行個性化定義,AI 模型可根據上述兩個個性化定義執行最佳的數據處理;2)輸出主要是處理后的數據,不需特殊考慮 AI 模型的協作方式包括聯邦學習、多智能體學習、模型分割、遷移學習、群體學習等。6G 網絡感知 AI 模型的輸入輸出以及協作方式,從而合理調整資源,滿足相應的 AI 操作。例如在模型分割的協作方式下,終端將計算到某一層的中間結果
47、發送給網絡,網絡可以感知中間結果以及該 AI 操作采用模型分割的協作方式,從而根據網絡自身情況,網絡和 UE 的通信情況,向終端或應用服務器推薦更合適的分割點,幫助模型分割方式高效執行。類別 2:模型超參 機器學習的模型超參數是指模型外部的配置,主要用于對模型進行優化和調整,一般需要在訓練之前進行手動調整,主要的超參數包括學習率、Batch Size、優化算法、迭代次數、隱藏層數目、隱藏層神經元數目、激活函數的選擇等。學習率(Learning Rate 或作 LR)是指在優化算法中更新網絡權重的幅度大小。學習率可以是恒定的、逐漸降低的,基于動量的或者是自適應的。不同的優化算法決定不同的學習率。
48、當學習率過大則可能導致模型不收斂,損失不斷上下震蕩;學習率過小則會導致模型收斂速度偏慢,需要更長的時間訓練。選擇一個好的學習率不僅可以加快模型的收斂,避免陷入局部最優,減少迭代的次數,同時可以提高模型的精度。批樣本數量(Batch Size)也是非常重要的模型超參數之一,指的是每一次訓練神經網絡送入模型的樣本數,Batch Size 的大小影響模型的優化程度和速度,同時也直接影響到內存資源的使用情況,Batch Size 過小可能會導致梯度變來變去,模型收斂較慢,Batch Size 過大可能會導致內存不夠用或程序內核崩潰。超參數的設置對于模型性能有著直接影響,其重要性不言而喻。合適的超參數設
49、置調整可以最大化模型性能,更科學地訓練模型,從而能夠提高資源利用率?;?6G 網絡和模型的融合,一方面可以對于模型的超參數進行預測,從而協助第三方 AI 確定模型訓練的超參數,最大化模型的性能。進一步的,6G 網絡通過資源開放和模型開放,協助第三方應用進行模型的訓練,例如通過資源開放,提供充足的計算、存儲、通信資源,幫助 OTT在 6G 網絡進行模型的訓練?;蛘咄ㄟ^模型開放,將預訓練好的模型開放給 OTT,OTT 僅需進行微調,從而高效的支持 OTT 的模型訓練。類別 3:模型 KPI 模型的 KPI 主要包括了模型本身的性能指標以及模型對于通信網絡的需求:1.在機器學習中,性能指標是衡量一
50、個模型好壞的關鍵,也是我們進行模型訓練的最終目標,如準確率,精確率,召回率,敏感度等。a)準確率是指在分類中,使用測試集對模型進行分類,分類正確的記錄個數占總記錄個數的比例;b)精確率和召回率是兩個評價指標,但是它們一般都是同時使用。精確率是指分類器分類正確的正樣本的個數占該分類器所有分類為正樣本個數的比例。召回率是指分類器分類正確的正樣本個數占所有的正樣本個數的比例。2.在移動通信系統中,移動設備(如智能手機、汽車、機器人)正越來越多地用 AI/ML 模型取代傳統算法(如語音識別、圖像識別、視頻處理)以實現應用程序。為了滿足AI/ML 的需求,6G 網絡也需要滿足相應的 KPI。模型的種類繁
51、多,且 AI 操作方法也多樣,不同的 AI 操作方法和不同的模型大小,對 KPI 有著不同的需求。比如在聯邦學習架構下,6G 網絡需要保證一組聯邦學習節點的整體 QoS,避免組內節點由于通信和計算能力的差異導致迭代效率低。除此之外,還可以通過模型分割以及調整分割點來保障 KPI,比如可以調整終端和 OTT 服務器間需要轉遞的中間參數的大小,從而滿足不同的 KPI 需求??偟膩碚f,6G 系統至少可以支持以下三種 AI/ML 操作:-AI/ML 在多個節點之間進行拆分;-基于 6G 系統進行 AI/ML 模型/數據分發和共享;-基于 6G 系統的分布式/聯邦學習;為了支持以上三種 AL/ML 操作
52、,保障模型訓練/推理的實時性,模型的傳輸,上傳和下載對于通信網絡的需求也是較高的。目前 3GPP TS22.261 中給出了相應的通信KPI 要求,包括推理功能、模型下載、終端和網絡服務器/應用聯邦學習。類別 4:模型結構 機器學習中最主要的是深度學習,深度學習涉及的神經網絡模型結構主要有全連接神經網絡(MLP),卷積神經網絡(CNN),循環神經網絡(RNN)等。全連接神經網絡相鄰兩層之間任意兩個節點之間都有連接。全連接神經網絡是最為普通的一種模型,由于連接數多,導致大量的模型參數,從而占用更多的內存和計算資源。卷積神經網絡一般是由卷積層、匯聚層和全連接層交叉堆疊而成的前饋神經網絡,使用反向傳
53、播算法進行訓練。卷積神經網絡有三個結構上的特性:局部連接,權重共享以及匯聚。這些特性使得卷積神經網絡具有一定程度上的平移、縮放和旋轉不變性。和前饋神經網絡相比,卷積神經網絡的參數更少。循環神經網絡是一類具有短期記憶能力的神經網絡。在循環神經網絡中,神經元不但可以接受其它神經元的信息,也可以接受自身的信息,形成具有環路的網絡結構。和前饋神經網絡相比,循環神經網絡更加符合生物神經網絡的結構。循環神經網絡已經被廣泛應用在語音識別、語言模型以及自然語言生成等任務上。6G 網絡感知 AI 應用所涉及的模型結構,被認為是網路對 AI 應用最深層次的原生支持。網絡通過感知模型的結構,進而全面感知 AI 模型
54、,實現對 AI 應用全面的支持,靈活的分配資源以及輔助模型的計算等。例如,網絡感知模型采用的是全連接結構,因全連接網絡具有大量的參數,需要網絡提供更多的通信資源。如果采用的是卷積神經網絡,則模型參數較少,需要的傳輸資源也相對較小。3.7 S5:編管服務類別 靈活的網絡 AI 部署主要涉及相關的編管平臺能力的構建,為網絡 AI 按需提供連接、算力、數據、算法等多方面的服務,并支持網絡 AI 業務的部署、測試、管理和運營的自動化等。面向網絡 AI 任務,主要包括如下多種類型的編管服務:類別 1,連接編管:面向網絡 AI 任務,連接編排的一個重要目標是自動執行基于 AI 服務的網絡請求,并最大限度地
55、減少交付應用程序或所需的人工干預,在滿足 AI 服務 QoS 的情況下,最優化網絡資源效率。連接編管將基于網絡能力開放、軟件定義網絡等底層能力,對連接實施編管。要實現編管效率的優化,連接編管需要具備一定的網絡感知能力,并可以借助 AI 算法進行編管,以保持最佳的網絡性能。類別 2,算力編管:算力編管是針對網絡 AI 需求,提供最佳的算力資源分配和網絡連接方案,并實現整網異構資源最優化的解決方案。算力編管通過網絡分發服務節點的算力、存儲信息等,并需要感知網絡相關信息(如路徑、時延等)。為了服務 AI 內生網絡,算力編管將面對邊緣動態、異構、分布式的資源,需要解決:資源標識:通過統一的資源標識體系
56、,來標識不同所有方、不同類型的計算、存儲、網絡等資源,以便于資源信息分發與關聯。算力感知、算力建模及算力評估:面向全網泛在的算力資源,對各類算力資源的狀態及分布進行評估、度量以及建模,以作為算力資源發現、交易、調度的依據。多方、異構資源整合:通過網絡控制面將來自不同所有方的資源信息進行分發,并與網絡資源信息相結合,形成統一的資源視圖。輕量化:針對網絡邊緣動態復雜環境,需要通過輕量化資源技術,解決業務實時遷移的問題。類別 3,數據編管:數據分布式存儲:基于邊緣網絡模型去中心化的特性,處于邊緣端的 AI 模型大多采用分布式計算的方式進行任務訓練和推理,其數據分布亦采用分部署存儲的形式,在未來 6G
57、網絡中,力求高效,準確地將模型數據進行分布式存儲。數據安全隱私:當下,數據被國家認定為繼土地、勞動力、資本、技術之后的“第五生產要素,6G 時代,邊緣產生的數據量將會是呈現數量級的增長。大量的個人數據將被使用于訓練模型和提供服務,如何保障數據安全隱私,是一個十分重要的研究方向。類別 4,AI 工作流編管:在網絡 AI 訓練中,可能同時運行數百個任務和上千個節點,有必要針對這樣復雜的 AI 服務進行多層次的分解,如分解為多個工作流、多任務等形式,減低復雜度。AI 工作流編管可以基于環境和服務來提供的精細化編管服務,具體包括特征提取,模型訓練,模型切割,邊緣模型部署,模型推理,模型量化壓縮等。4.
58、總結 網絡 AI 蘊含的是連接、算力、算法、數據跨技術領域的融合創新,是網絡架構層面的重大變革,6G 網絡的范圍將不局限于連接服務,還包括內生的計算、數據、AI 等服務,這些將使得通信網絡走向全新的領域。在這樣的新領域中,一些新的想法、概念、術語和服務等因著跨技術領域的碰撞產生出來,本白皮書嘗試去總結其中的關鍵部分,基于當前業界的思考和共識,給出定義并闡述其內涵;并以此為基礎,分析網絡 AI 的分級分類定義,包括不同類別下的各類服務描述、潛在的業務場景和需求、關鍵的研究方向等,為業界加速網絡 AI 相關的共識達成做出貢獻。參考文檔 6GANA,6G Network AI 論壇倡議書 6GANA
59、,6GANA 白皮書 Huawei,6G,the Next Horizon:From Connected People and Things to Connected Intelligence IMT-2030(6G)Promotion Group,6G vision and candidate technologies ITU FG-NET-2030,“Network 2030:A blueprint of technology,applications and market drivers towards the year 2030 and beyond IMT-2020,5G 應用創新發
60、展白皮書 Hexa-X,6G Vision,use cases and key societal values Yang,Y.Multi-tier computing networks for intelligent IoT.Nat Electron 2,45(2019).縮略語 3GPP 3rd Generation Partnership Project 6G ANA 6G Alliance of Network AI AI Artificiel Intelligence ML Machine Learning ICT Information and Communication Techn
61、ology 附錄 1.AI 相關概念定義 策略 Strategy/Policy 策略在不同的研究領域中有不同含義。廣義的策略是指為了在不確定環境中實現長期目標或總體目標而確定的總體計劃。策略描述了最終目標是如何通過一定的方法或資源實現的,它可以是專門制定的,也可以是抽象的組織或群體在行動中表現出來的行為模式。策略一詞最早見于軍事和管理領域,經濟領域博弈論中將策略定義為博弈參與者在進行行動選擇時會采用的規則。人工智能領域中不同方法流派對“策略”有不同的理解,其中基于統計學習的機器學習方法,包括監督學習和無監督學習,認為策略是確定機器學習模型的具體方法,如損失函數最小化、經驗風險最小化等;而強化學
62、習中的策略,一定程度上借鑒了博弈論中的概念,即強化學習中的智能體(agent)同環境(包括其他智能體)進行交互,并從中學到長期獎勵最高的行為策略。方法 Method 基于統計學習的機器學習方法由模型、策略、算法三要素構成,即首先考慮要學習的是什么模型,接著需要考慮按照什么策略選擇最優模型,最后再用特定的算法確定模型的參數值,實現模型的最優化。構建一種基于統計學習的機器學習方法就是確定具體的三要素。深度學習 Deep Learning 是機器學習領域的一個研究方向,通過建立模擬人腦思維過程進行學習的神經網絡,來實現對事物的解釋、分析和學習。深度學習一般使用包含復雜結構或由多重非線性變換構成的多個
63、處理層對數據進行高層抽象從而實現任務(但這種抽象一般來說是不可解釋的)。典型的深度學習模型包括:卷積神經網絡模型(CNN),循環神經網絡網絡模型(RNN),深度置信網絡模型(DBN),生成對抗網絡模型(GAN),深度強化學習模型(RL)等。人工智能與機器學習之間的關系如圖 2 所示。圖 2:人工智能與機器學習之間的關系示意圖注 注圖中各機器學習方法之間沒有絕對的界限,各方法分類角度不同,之間會有重疊。強化學習 Reinforcement Learning 強化學習是一個學習最優策略(policy),可以讓智能體(agent)在特定環境(environment)中,根據當前狀態(state),做
64、出行動(action),從而獲得最大回報(reward)的迭代過程。強化學習和有監督學習與無監督學習最大的不同是不需要大量的訓練數據,而是通過自己不斷的嘗試來學會某些知識或技能。按照是否有模型,強化學習可分為有模型學習(Model-based)和免模型學習(Model-free)兩類。人工智能機器學習 有監督學習遷移學習無監督學習半監督學習強化學習深度學習 遷移學習 Transfer Learning 指利用數據、任務或模型之間的相似性,將在源領域學習過的模型,應用于目標領域的一種學習過程。遷移學習的核心是找到源領域和目標領域之間的相似性。根據遷移場景的不同,遷移學習可分為歸納式遷移學習(In
65、ductive TL)、直推式遷移學習(Transductive TL)和無監督遷移學習(Unsupervised TL)等。聯邦學習 Federated Learning 又稱為聯邦機器學習(Federated Machine Learning),是一種分布式機器學習框架。即多個參與方通過協作訓練得到一個共享的全局模型,在這個過程中各參與方無需分享本地數據,該框架能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。聯邦學習可以避免非授權的數據擴散并解決數據孤島問題。根據數據的分布特點,聯邦學習分為橫向聯邦學習、縱向聯邦學習與聯邦遷移學習三類。橫向聯邦
66、學習 Horizontal Federated Learning 又稱為特征對齊的聯邦學習(Feature-Aligned Federated Learning),其本質是樣本的聯合,即聯邦學習參與方的訓練樣本重疊很少,但各樣本的數據特征重疊很多。橫向聯邦學習的一般過程為:中心節點建立一個基本的全局模型,將全局模型的結構與參數告知參與方;參與方利用本地數據訓練模型,并將訓練好的模型參數(加密后)返回給中心節點;中心節點聚合各參與方返回的參數,整合形成更精準的全局模型再分發給各參與方。通過橫向聯邦學習可以增加訓練樣本總量??v向聯邦學習 Vertical Federated Learning 也稱
67、為樣本對齊的聯邦學習(Sample-Aligned Federated Learning),其本質是特征的聯合,即縱向聯邦學習參與方的訓練樣本重疊很多,但各樣本的數據特征重疊很少??v向聯邦學習的一般過程為:首先對參與方數據進行加密樣本對齊,獲得重疊的樣本數據;中心節點生成秘鑰對,并向各參與方發送公鑰用以加密需要傳輸的數據;參與方各自初始化和自己相關的模型參數,然后在本地對所選出的樣本數據進行訓練,分別訓練出和自己相關的特征中間結果;各參與方將訓練出的特征中間結果基于公鑰進行加密(一般為同態加密)后進行交互;各參與方基于交互得到的加密中間結果繼續進行訓練,并將訓練后的模型參數(依然是加密的)發送
68、給中心節點;中心節點進行解密后分別將各自的模型參數再返回給各參與方;各參與方更新各自的模型參數。在整個過程中,各參與方都不知道另一方的數據和特征,且訓練結束后參與方只得到和自己相關的模型參數,即半模型,因此在預測時,需要參與方之間協作完成。通過縱向聯邦學習可以增加訓練數據的特征維度。聯邦遷移學習 Federated Transfer Learning 聯邦遷移學習中各參與方之間的訓練樣本和數據特征的重疊都很少。聯邦遷移學習的一般過程為:不同參與方根據不同來源的數據初始化并訓練各自的模型;然后對訓練出的中間結果進行(同態)加密,使之不能直接傳輸以免泄露參與方的隱私;參與方交互加密后的中間結果以協
69、助對方進行訓練,即雙方對這些模型進行聯合訓練以得到最終的最優模型,再將最優模型返回給各參與方。上述過程與縱向聯邦學習的過程類似,只是交互的中間結果不同。通過聯邦遷移學習可克服數據樣本少或標簽不足的情況。群體學習 Swarm Learning 群體學習是聯邦學習和區塊鏈的融合,主要解決聯邦學習在融合模型時,過于依賴中心節點,以及集中式融合海量本地節點模型時計算和通信開銷大的問題。群體學習相比聯邦學習的顯著特點是,聯邦學習是數據在本地而模型融合在云端(中心節點),群體學習是數據和模型融合都在本地節點,不需要中心節點。群體學習在聯邦學習的基礎上,引入區塊鏈技術,利用去中心化的多節點分布式可信機制,實
70、現 1)通過多節點分布式處理模型數據,減小融合模型時的高計算量;2)通過分布式可信免去對中心節點的依賴,也規避單一中心節點失效風險,提升了習得模型的可信度;3)區塊鏈的防篡改、可追溯特性,可保護模型免受攻擊。集成學習 Ensemble Learning 集成學習是一種分布式機器學習框架,通過構建多個學習器并將其結合起來完成學習任務。由于在實際應用中單一的學習器往往不能達到理想的學習效果,且有時單一學習器會導致過擬合,因此使用多個學習器進行集成學習往往能夠達到更好的學習效果。根據學習器訓練的模型是否為同類模型,集成學習分為同質集成學習和異質集成學習兩類。a)若訓練的多個模型是同一類型的模型,則為
71、同質集成學習,所用算法稱為“基學習算法”,每一個模型稱為“基學習器”。b)若訓練的多個模型非同一類型的模型,則為異質集成學習,每一個模型稱為“組件學習器”或“個體學習器”。根據模型訓練和結合策略的不同,集成學習可分為串行方法(Boosting)、并行方法(Bagging)和堆疊方法(Stacking)三類。Boosting Boosting 的工作機制是:首先基于初始訓練集用初始權重訓練出一個基學習器,再根據基學習器的表現更新訓練樣本的權重(如增大被誤分樣本的權重,減小被正確分類樣本的權重),使得先前基學習器做錯的樣本在后續的訓練過程中受到更多關注,然后基于調整權重后的訓練集來訓練下一個基學習
72、器,如此重復,直到基學習器數目達到事先指定值 T,然后將這 T 個基學習器經結合策略進行整合,得到最終的學習器。Boosting 中的基學習器存在強依賴關系,必須串行執行。典型的 Boosting 算法有:AdaBoosting 算法、梯度提升決策樹(Gradient Boosting Decision Tree:GBDT)算法、xgboost 算法等。Bagging Bagging 的工作機制是:首先從數據集中采用有放回的隨機抽樣來獲取 T 個訓練數據集,然后基于這 T 個數據集獨立訓練出 T 個基學習器,再將這 T 個基學習器經結合策略進行整合,得到最終的學習器。Bagging 中的基學習
73、器不存在強依賴關系,可并行執行。并行執行的典型算法有Bagging 算法和隨機森林(Random Forest)算法,隨機森林的基本思想是構造多棵相互獨立的決策樹,形成一個森林,利用這些決策樹共同決策輸出類別。Stacking 集成學習中的結合策略是將不同基學習器進行整合的方法,一般采用的結合策略包括:對于分類任務使用簡單的投票法(若分類預測時出現兩個類票數一樣時,則隨機選擇一個);對于回歸任務使用簡單的平均法。還有一種結合策略是使用另一個機器學習算法將基學習器的結果結合在一起,這個方法就是 Stacking。Stacking 是一種組合多個模型的方法,其主要思想是:在進行模型結合時,不是對模
74、型的結果進行簡單的邏輯處理(如投票法或算術平均法),而是在模型外增加一層,形成兩層模型。首先從初始數據集訓練出初級學習器(第一層模型),然后將初級學習器的輸出結果作為輸入用于訓練次級學習器(第二層模型),從而得到最終結果。各類分布式機器學習的關系如圖 3 所示。圖 3:各類分布式機器學習關系示意圖 可解釋人工智能 Explainable AI 可解釋人工智能是一套流程和方法,可使人類用戶能夠理解和信任機器學習算法所產生的結果和輸出,有助于描述人工智能模型的準確性、公平性、透明度和結果。關注可解釋性的主要原因有兩方面:1)當前以大數據與深度學習為基礎的人工智能不可解釋和不可理解,就事論事,泛化能
75、力弱。當面對動態變化的環境、信息不完全、或存在干擾與虛假信息時,人工智能系統的性能會顯著下降,這樣的人工智能系統由于不可理解,無法實現人機交互,無法與人類協同工作。2)解決實際應用中人們對人工智能產品的信任問題,即人們需要知道 AI 給出答案的依據是什么,計算的過程是怎么樣的,從而產生信任的依據,同時也促進組織采用負責任的方法進行 AI 開發。人工智能的可解釋性可分為兩個層面:1)解釋:以人類可以理解的方式解釋推理和決策的依據及過程;2)抗辯:針對人類的質疑能進行有效的抗辯??山忉屓斯ぶ悄芫哂袃煞矫婺芰Γ?)自省和可解讀能力:機器和人類可達成共同語言表達;2)自辨能力:機器能向人類解釋其計算的
76、機理與過程,從而產生有依據的可解釋性。2.網絡運維全生命周期管理的 5 個主要環節定義:分布式機器學習聯邦學習橫向聯邦學習縱向聯邦學習聯邦遷移學習集成學習BoostingBaggingStacking群體學習 規劃:支持規劃目標建立、規劃方案設計、規劃仿真全流程。支持從網絡整體表現、產品運營戰略、業務使用體驗提升等角度建立規劃目標;通過連通規劃目標和規劃方案的能力(包括拉通環境數據、業務需求數據、資源數據的多維度分析能力),實現業務覆蓋、容量、帶寬等規劃目標;通過仿真能力,實現規劃目標的仿真驗證。建設:支持建設項目的立項、設計、驗收全流程。根據規劃設計完成交付、配置、以建設目標為基準完成網絡能
77、力、可用性等具體指標的驗收。除以上整體流程外,以上各環節也可以通過自動化工具實現能力提升,包括自動化交付配置、自動化驗收測試和閉環調整。維護:對網絡整體表現、產品運營表現、業務使用體驗、資源健康度進行管理、監控、分析。通過被動的監控和處理,或者通過對故障告警和性能劣化的主動感知分析以及自動化的資源調整實現網絡、業務的恢復。通過售前、售中、售后的端到端支撐能力,提供貫穿于運維各項生產環節的自動化運維感知和決策信息的流轉能力。優化:支持根據規劃部門、市場部門、服務部門、運維部門的需求建立優化目標、輸出優化方案、執行優化流程。支持基于網絡整體表現、業務使用體驗、資源健康度等不同維度設定優化目標;通過優化方案設計能力輸出常態化或專題類優化方案;通過優化分析工具執行優化方案。運營:支持市場部門設定的優化市場戰略,支持產品設計、訂單接收、流程分析以及業務在網絡中的配置、激活、上線、擴縮容以及變更等全生命周期管理業務工作,同時也包含業務上線、變更帶來的業務保障、端到端測試、質量監控、投訴預處理、客戶服務、用戶滿意度保障等工作內容,保障網絡資源對業務的訴求提供可靠的能力支撐。