《IMT-2030(6G)推進組:2022無線人工智能(AI) 技術研究報告(110頁).pdf》由會員分享,可在線閱讀,更多相關《IMT-2030(6G)推進組:2022無線人工智能(AI) 技術研究報告(110頁).pdf(110頁珍藏版)》請在三個皮匠報告上搜索。
1、 I 目目 錄錄 第一章第一章 引言引言 .1 1 第二章第二章 基于基于 AI/MLAI/ML 的物理層技術的物理層技術 .2 2 2.1 基于 AI/ML 的無線環境建模與感知.2 2.2 基于 AI 的信道估計、預測及反饋.4 2.2.1 信道狀態信息估計.5 2.2.2 信道狀態信息預測.12 2.2.3 信道狀態信息反饋.15 2.2.4 導頻、信道估計、信道反饋、預編碼聯合設計.20 2.3 AI 使能的端到端設計.22 2.4 基于 AI/ML 的信道編譯碼技術.24 2.4.1 基于 DNN 的編譯碼算法.25 2.4.2 基于 CNN 的譯碼算法.27 2.4.3 基于 LS
2、TM 網絡的譯碼算法.28 2.4.4 基于對抗生成網絡譯碼算法.29 2.5 基于 AI/ML 的調制與波形技術.30 2.6 基于 AI/ML 的信源信道聯合編碼技術.31 2.7 基于 AI 的 OFDM 接收機設計.33 2.8 基于 AI 的多天線收發技術.35 2.8.1 基于 AI 的 MIMO 檢測.35 2.8.2 單用戶毫米波 MIMO 混合預編碼.37 2.8.3 多用戶毫米波 MIMO 混合預編碼.39 2.8.4 移動自適應協同波束成形.41 2.8.5 基于 AI/ML 的波束漂移抑制技術.43 2.8.6 基于 AI/ML 的波束跟蹤技術.44 2.9 基于 AI
3、 的多用戶接入技術.45 2.10 基于 AI 的活躍用戶檢測.46 2.11 基于 AI 的定位技術.49 第三章第三章 基于基于 AI/MLAI/ML 的鏈路層技術的鏈路層技術 .5151 3.1 基于 AI 的功率分配.51 3.2 基于 AI 的信道分配.52 3.3 基于 AI 的接入控制.53 3.4 基于 AI 的鏈路調度.54 3.5 基于智能體(smart agent)的無線資源調度.54 第四章第四章 基于基于 AIAI 的網絡上層技術的網絡上層技術 .5858 4.1 基于 AI 的無線網絡架構.58 4.2 基于 AI 的傳輸層擁塞控制技術.61 4.3 基于 AI 的
4、業務速率控制.63 4.4 基于 AI 的需求預測與緩存技術.65 4.5 基于 AI 的無線分布式計算.71 第五章第五章 基于基于 AIAI 的語義通信的語義通信 .7777 5.1 基于 AI 的語義通信系統架構.77 第六章第六章 無線無線 AIAI 研究數據集研究數據集 .7979 II 6.1 無線 AI 研究數據收集和利用.79 6.2 無線 AI 研究數據集的共建共享.80 6.3 無線 AI 倫理規范及隱私保護.82 第七章第七章 產業化前景分析與總結產業化前景分析與總結 .8585 7.1 AI 賦能無線技術的潛能及優勢.85 7.2 AI 賦能無線技術的產品成熟度.86
5、7.3 AI 賦能無線技術的標準化和產業化影響.87 參考文獻參考文獻 .8888 附錄:縮略詞表附錄:縮略詞表 .9797 貢獻單位貢獻單位 .100100 III 圖目錄 圖 2-1 無線通信鏈路.2 圖 2-2 基于 CNN 和 LSTM 的無線信道建模與預測.3 圖 2-3 基于 seq-to-seq 模型的信道預測器.3 圖 2-4 多維信道嵌入.4 圖 2-5 系統框架圖.6 圖 2-6 DL 和傳統算法的比較.6 圖 2-7 接收端示意圖.7 圖 2-8 LDAMP 網絡每一層的結構.7 圖 2-9 LDAMP 和其他方法的 NMSE 比較.8 圖 2-10 目標小區與干擾小區中
6、用戶的 DOA 分布圖.8 圖 2-11 不同 SNR 下各方法 MSE 性能對比.9 圖 2-12 復合神經網絡的結構.9 圖 2-13 復合神經網絡仿真結果.10 圖 2-14 估計網絡模型 SRCNN 及 DNCNN 結構示意圖.10 圖 2-15 估計流程示意圖.11 圖 2-16 誤塊率性能指標對比示意圖(SR+DN 和 LMMSE(最小均方誤差).11 圖 2-17 滑窗機制示意圖.12 圖 2-18 模型工作架構示意圖.12 圖 2-19 小樣本 AI 信道估計仿真結果.12 圖 2-20 用于信道預測的 RNN 結構.13 圖 2-21 信道預測結果81.13 圖 2-22 信
7、道映射關系學習網絡.14 圖 2-23 信道預測結果.14 圖 2-24 基于深度學習的信道選擇聯合信道外推網絡.15 圖 2-25 左:均勻選擇圖案 中:信道選擇子網絡學習到的圖案 右:兩種選擇方案信道外推的誤差比較.15 圖 2-26 基于 AI 的全信道信息反饋架構.15 圖 2-27 基于 AI 的隱式反饋架構.16 圖 2-28 32 天線下 UMA 加噪信道數據仿真圖.17 圖 2-29 信道壓縮反饋原理.17 圖 2-30 特征抽取與特征恢復網絡.17 圖 2-31 遷移策略性能比較.18 圖 2-32 最佳性能比較.18 圖 2-33 手動裁剪信道中的近零值來提升基于深度學習的
8、信道壓縮反饋方案性能.19 圖 2-34 基于深度學習的 FDD 下行信道反饋示意圖.19 圖 2-35 結合 FDD 上下行互易性的基于深度學習的 FDD 下行信道反饋示意圖.20 圖 2-36 用 AI 自編碼器的思想進行導頻序列和信道估計的聯合設計.20 圖 2-37 導頻設計、信道估計、信道信息反饋、預編碼的聯合設計.21 圖 2-38 量化函數及其不同的梯度重寫函數.22 圖 2-39 基于 AI 的端到端收發機設計(針對 AWGN 信道).23 圖 2-40 基于 AI 的端到端收發機學習得到的星座圖樣式(針對 AWGN 信道).23 圖 2-41 基于 AI 的端到端收發機學習結
9、果誤消息率性能比較(針對 AWGN 信道).23 圖 2-42 基于 AI 端到端 OFDM 系統與單/雙導頻不同速度下比特誤碼率.24 圖 2-43 DNN Polar 碼譯碼器.25 IV 圖 2-44 基于 AI 方法設計的 Polar 碼性能優于 DE/GA 方法.25 圖 2-45 改進置信傳播算法的性能對比.26 圖 2-46 Polar 碼分段神經網絡譯碼算法.26 圖 2-47 Polar 碼分段神經網絡譯碼算法性能對比.27 圖 2-48 BP-CNN 譯碼算法.27 圖 2-49 BP-CNN 譯碼性能對比.28 圖 2-50 LSTM-aided SCF 算法示意圖.28
10、 圖 2-51 LSTM-aided SCF 性能對比.28 圖 2-52 LSTM-Aided CA-SCLF 算法示意圖.29 圖 2-53 LSTM-Aided CA-SCLF 算法性能比較.29 圖 2-54 基于對抗生成網絡的低密度奇偶校驗碼譯碼模型.30 圖 2-55 對抗生成網絡的 LDPC 碼譯碼結果.30 圖 2-56 基于 autoencoder 的調制解調聯合設計.31 圖 2-57 基于 AE 的低 PAPR 波形設計.31 圖 2-58 基于 AI 的智能波形識別網絡.31 圖 2-59 信源信道獨立編碼域信源信道聯合編碼示意圖.32 圖 2-60 基于 AI 的信源
11、信道聯合編解碼方案的神經網絡結構圖.33 圖 2-61 基于 AI 的信源信道聯合編碼方案的性能.33 圖 2-62 傳統 OFDM 接收機.34 圖 2-63 基于模型驅動的 OFDM 接收機.34 圖 2-64 基于數據驅動的 OFDM 接收機.34 圖 2-65 DetNET 單層的結構圖.35 圖 2-66 時變信道條件下各檢測算法的誤碼率性能比較.36 圖 2-67 BP 迭代 DNN 檢測結構.36 圖 2-68 DNN-dBP 和 DNN-MS 算法性能.36 圖 2-69 MMNet 算法性能.37 圖 2-70 混合預編碼架構的收發機模型圖.38 圖 2-71 基于波束訓練與
12、跟蹤的毫米波單用戶混合預編碼原理圖.38 圖 2-72 不同算法的有效可達速率性能比較.39 圖 2-73 多用戶 MIMO 下行系統框圖.39 圖 2-74 提出的網絡架構.40 圖 2-75 信道數據加噪之后各方案的性能對比.40 圖 2-76 基于智能交互式學習范式的毫米波多用戶預編碼算法.41 圖 2-77 不同算法對應的有效可達速率性能.41 圖 2-78 毫米波協同波束成形系統框圖.41 圖 2-79(左)在線學習階段模型.42 圖 2-80(右)深度學習預測階段模型.42 圖 2-81 提出的深度學習方案的有效可達速率.43 圖 2-82 波束漂移效應抑制的方法原理圖.43 圖
13、2-83 有效可達速率-數據傳輸波束寬度固定與自適應優化.44 圖 2-84 用戶運動預測.45 圖 2-85 基于 AI 方法的多用戶接收機.46 圖 2-86 DNN-MP-BSBL 結構(N=3;K=6;Lt=2;dc=2).47 圖 2-87 活躍用戶檢測錯誤概率性能比較(Nit為迭代次數).47 圖 2-88 D-AUD 網絡結構.48 圖 2-89 D-AUD 與傳統檢測算法性能比較.48 圖 2-90 網絡結構示意圖.49 V 圖 2-91 性能比較.49 圖 2-92 不同場景下 LOS 的概率.50 圖 2-93 AI 在 FR1 和 FR2 下的定位仿真結果.50 圖 3-
14、1 Actor-critic 強化學習框架.52 圖 3-2 物聯網中的聯合信道接入和包轉發.53 圖 3-3 基于學習的隨機接入非授權頻譜策略.54 圖 3-4 基于 MARL 的 D2D 場景功率分配方法.55 圖 3-5 基于 DRL 的 full-buffer 場景用戶調度.56 圖 3-6 可擴展的神經網絡設計.56 圖 3-7 深度強化學習算法性能.57 圖 4-1 無線 AI 架構(示例圖).58 圖 4-2 基于 AI+MEC 的無線接入網架構(基礎設施示意圖).59 圖 4-3 基于 AI+MEC 的無線接入網架構(抽象邏輯示意圖).60 圖 4-4 基于 AI+MEC 的無
15、線接入網架構(反饋機制示意圖).60 圖 4-5 基于 AI 的無線接入網架構.61 圖 4-6 基于深度增強學習的擁塞控制算法.63 圖 4-7 實驗結果.63 圖 4-8 基于 AI 的業務層速率控制.64 圖 4-9 網絡測試結果.64 圖 4-10 適應性緩存方案仿真結果.65 圖 4-11 無線緩存網絡系統圖.66 圖 4-12 仿真驗證示意圖.66 圖 4-13 緩存結構圖.67 圖 4-14 評分矩陣與矩陣分解示例.67 圖 4-15 協同緩存方案仿真結果.68 圖 4-16 邊緣計算網絡系統圖.68 圖 4-17 無線緩存網絡內容推送系統.69 圖 4-18 結構化卷積神經網絡
16、.69 圖 4-19 仿真驗證示意圖.70 圖 4-20 基于相關性和因果性的無線業務預測模型.70 圖 4-21 聯合數據壓縮和傳輸系統模型圖.71 圖 4-22 仿真驗證示意圖.72 圖 4-23 影響數據壓縮決策的重要參數.72 圖 4-24 基本分割 AI/ML 的思路.72 圖 4-25 分割 AI/ML 的不同模式.73 圖 4-26 聯邦學習中的模型聚合.73 圖 4-27 FL 調度流程.74 圖 4-28 聯合調度性能.75 圖 4-29 基于端邊云協同的多層次聯邦學習架構.75 圖 5-1 語義通信模型的一般框架.77 圖 5-2 基于深度學習的語義通信系統架構.78 圖
17、5-3 語義通信模型的準確率.78 圖 6-1 無線 AI 研究數據集的組成示例.79 圖 6-2 無線 AI 研究數據集的收集和利用舉例.80 圖 6-3 內生 AI 架構與無線 AI 研究數據集.81 圖 6-4 基于 RT 仿真信道數據(左:BS/UE 部署;右 BS5 和 UE7 直接射線追蹤仿真結果).81 圖 6-5 基于無線 AI 研究數據集的定位任務訓練結果.82 VI 圖 7-1 手機終端 NPU 能力增長圖.86 VII 表目錄 表 3-1 仿真參數.57 表 4-1 傳輸層擁塞控制主要 AI 算法.62 表 4-2 無線業務預測精度對比結果.70 表 6-2 自定義參數配
18、置.82 表 7-1 典型的復雜神經網絡的復雜度列表.86 表 7-2 主要貢獻單位和貢獻人.100 1 第一章第一章 引言引言 伴隨著人工智能(artificial intelligence,AI)三大驅動力算力、算法和數據相關技術的不斷發展,AI 技術正在人類社會中掀起新一輪的技術革命。特別地,作為 AI 技術的一個重要研究方向,機器學習(machine learning,ML)利用了深度神經網絡(deep neural network,DNN)的非線性處理能力,成功地解決了一系列從前難以處理的問題,在圖像識別、語音處理、自然語言處理、游戲等領域甚至表現出強于人類的性能,因此近來受到了越來
19、越多的關注。AI/ML 技術發展的同時,無線通信系統也在持續高速發展中。第 5 代移動通信(5G)支持增強移動通信(enhanced mobile broadband,eMBB)、超高可靠低時延(ultra-reliable low latency communications,uRLLC)和海量機器類型通信(massive machine type communications,mMTC)等三大應用場景,而未來的無線通信系統必將向更大吞吐、更低時延、更高可靠性、更大連接數、更高頻譜利用率等方向演進。已有的研究工作表明,AI 在復雜未知環境建模、學習,信道預測,智能信號生成與處理,網絡狀態跟蹤
20、與智能調度,網絡優化部署等許多方面具有重要的應用潛力,有望促進未來通信范式的演變和網絡架構的變革,對 6G 技術研究具有十分重要的意義和價值。在 IMT-2030(6G)推進組的統一安排下,無線技術工作組無線 AI 任務組就人工智能技術在 6G 無線空口和無線組網中的應用開展了深入調研分析,以為下一步開展相關研究提供指導和思路。本報告在對當前國內外的主要研究狀況進行調研分析的基礎上,結合部分成員單位在無線 AI 上的一些研究工作,對無線 AI 的若干研究方向及其關鍵技術進行了較為全面地分析和討論,同時探討了無線 AI 的難點、挑戰和產業化前景。2 第二章第二章 基于基于 AI/MLAI/ML
21、的物理層技術的物理層技術 傳統通信鏈路設計時,人們采取分而治之的方法,將各功能模塊進行獨立的設計和優化(如圖 2-1 所示)。在某些功能模塊的設計和優化過程中,可能存在著性能損失。例如,為了降低設計復雜度,將某些非線性處理簡化假設為線性操作。又如,一些模塊的設計理論仍然缺失或難以分析,只能借助于啟發式算法。此時,使用 AI/ML 方法替換這些模塊可以帶來性能的提升以及處理時延的降低。這也是將 AI/ML 方法用于空口技術設計的最直接方式。圖2-1 無線通信鏈路 目前,AI/ML 在無線物理層中的應用包括利用神經網絡來取代傳統發射機和接收機中的基本功能模塊,或者將物理層通信看作一個端到端的信號重
22、構問題,并應用自編碼器概念來表示物理層通信過程,進行端到端通信的聯合優化。AI/ML 在無線物理層中的應用主要可以分為兩種方式。其一為數據驅動方式。目前現有的深度學習網絡大多數是基于這種方式的,它使用標準的神經網絡結構作為黑匣子并通過大量數據進行訓練49123360。訓練標準的神經網絡除了需要龐大的數據集之外,還需要大量的訓練時間。然而這些資源在某些情況下是極其稀缺的,尤其是在無線通信領域。與數據驅動的方法相比,模型驅動深度學習方法基于已知的物理機制和領域知識構建網絡拓撲5。因此需要較少的訓練數據和較短的訓練時間,成為實現智能通信的有效手段?;诖?,研究模型驅動深度學習的無線物理層設計6,也是
23、面向 6G 的智能通信發展提供理論支撐并指明技術方向的一大重要方式。一般構造模型驅動深度學習的方法有一下三種:1)將迭代算法形成信號流圖;2)將算法作為初始化步驟,并將其與神經網絡相結合;3)模仿模型驅動方法中的傳統結構。針對模型驅動深度學習的無線物理層設計問題,研究者分別研究了基于模型驅動深度學習的大規模MIMO 信道估計7576、信號檢測130、信道譯碼2526、CSI 反饋85和多用戶預編碼78。以下將會針對物理層的不同模塊分別詳細介紹基于這兩種方式的各種 AI/ML 實現方案。2.1 基基于于 AI/ML 的無線環境建模與感知的無線環境建模與感知 大部分現有無線環境建模的工作側重于無線
24、信道的建模。傳統的隨機信道建模1歸納總結大量實測信道的統計特性,得到的信道模型主要用于為不同空口技術算法對比提供一致的信道環境。隨機信道模型歸納總結了信道的統計特性,然而無法提供特定場景下的信道信息。另一種傳統的信道建模方式為確定性信道建模2,它基于特定傳輸場景的 3D 地圖,通過射線追蹤的方式得到場景中的無線信道。這種建模方法以給定場景的 3D 地圖為基礎,因此其模型具有場景關聯性,不同場景下的信道模型無法復用。對于未來的無線通信系統,無線信道模型以及無線場景模型將不再簡單地作為各種算法對比的環境基礎。我們期望可以通過對無線傳輸環境的學習和總結,幫助通信系統更加智能地完成調度、功控、波束管理
25、、參數選擇與配置等任務。通過采集大量的傳輸環境信息數據 3(包括信道數據、感知數據等),借助 AI/ML 技術的學習和提煉能力,建立“無線電地圖”,給系統的設計和決策提供輔助信息,并降低系統的測量反饋開銷?,F有工作中,人們嘗試了各種結構的模型對無線信道信息進行學習、總結和建模。例如,在文獻3中,作者使用了自回歸(auto-regressive,AR)模型學習信道的時間相關性,可以將信道作為時間序列,利用這些回歸模型進行建模和預測。圖2-2 基于CNN和LSTM的無線信道建模與預測 多種神經網絡結構都曾被嘗試用于無線信道的建模,以及基于模型的信道估計和信道預測4-20。以文獻20為例,使用了如圖
26、 2-2 所示的網絡結構,其中包含卷積神經網絡(convolutional neural network,CNN)和長短期記憶(long short term with memory,LSTM)模型。將無線信道視為時間序列,在歷史信道數據中抽象和提取信道信息特征,保存在模型中。使用時,將當期信道信息輸入模型,即可得到對未來信道信息的預測。與大部分現有研究工作中使用基于仿真模型生成的信道不同,作者使用樣機平臺和商用設備進行實際信道信息的采集,得到包括室內和室外場景的實際信道信息用于 AI/ML 模型訓練。圖2-3 基于seq-to-seq模型的信道預測器 為了將復值信道信息轉換為易于實值神經網絡
27、處理的數據,作者提出一種信道信息嵌入(embedding)方法,將復值的信道信息通過嵌入處理進行升維,例如將信道沖擊響應值升維到 400 維的實值空間。這種嵌入升維操作一方面將復值信道信息轉變為實值數據,另一方 4 面提升了信道信息的維度,進而可以在高維空間對信道信息進行更準確的表達和特征提取。將升維后的數據輸入神經網絡,可以完成信道建模、預測等任務。如圖 2-3 所示,作者使用seq-to-seq 模型21,將信道信息作為時間序列,進行預測22。實驗發現,當信道存在深衰時,傳統的基于參考信號的信道估計方法將出現明顯的性能下降,因為此時受到深衰的影響,接收到的參考信號能量極低,無法準確估計信道
28、的幅度和相位信息。而基于 seq-to-seq 模型的信道預測器則可以提供較為準確的信道信息,使得系統解調性能優于傳統信道估計算法。進一步的,考慮信道信息在多個維度上的相關性,可以進行多維的信道嵌入操作。如圖2-4 所示,將信道的位置、頻率、時間、空間屬性同時進行嵌入操作。將嵌入升維后的信道信息輸入注意力(attention)網絡,得到信道模型。這一信道模型可以用于多種信道相關的任務,例如定位、信道壓縮、信道指紋等。為了更加快速有效地完成這些任務,可以使用歷史信道數據,對信道模型進行預訓練。預訓練的信道模型連接不同的下游任務網絡,再進行進一步訓練和調優。作者發現,這種預訓練的信道模型具有良好的
29、遷移特性23,即在特定場景下預訓練的信道模型可用于相似場景(例如同一幢建筑的不同樓層)的信道相關任務。圖2-4 多維信道嵌入 2.2 基于基于 AI 的信道估計的信道估計、預測預測及反饋及反饋 在信道狀態信息已知的情況下,MIMO 通信系統的容量會隨著發送或接收天線的數目線性增長。但是要得到這樣的好處,一個很關鍵的要求就是要在接收端和發送端獲得準確的信道狀態信息(channel state information,CSI)。因此信道狀態信息的估計(estimation)以及預測(prediction)是 MIMO 系統中一個非常重要的任務。信道的估計問題主要是在接收端根據導頻序列來估計發送端和
30、接收端之間的信道狀態信息的問題,而信道狀態信息的預測問題主要是根據部分(時間、空間、頻率角度)的信道狀態信息來預測和映射其他信道狀態信息的問題。此外,在頻分雙工(frequency division duplexity,FDD)制式下,下行 CSI 需要先由用戶端(user equipment,UE)通過反饋鏈路傳送回基站。在下面分別介紹信道狀態信息的估計問題、預測問題以及反饋問題。首先,針對信道狀態信息的估計問題。由于傳統的基于壓縮感知,最小均方誤差的方法在 MIMO 中存在很高的計算復雜度,因此近些年來有很多的工作通過人工智能的方法來進行信道狀態信息的估計57-78。同樣地,這些工作也可以
31、被分為兩類:數據驅動(data-driven)的方法57-74和模型驅動(model-driven)的方式75-78。在數據驅動中,57最早提出了用神經網絡估計信道狀態信息的方式,也奠定了之后的大部分工作根據已有信道模型生成訓練數據、離線訓練的思路基礎。在這一類問題中,研究者重點關注的是如何通過改善神經網絡,將這種數據驅動的方式應用在不同要求的場景下58-74。特別地,由 5 于數據驅動方式對訓練數據的較高要求,導致這種74數據驅動的方式在實際的應用中受限,74給出了一種基于強化學習的非監督式的信道估計方法,主要的方式是通過選擇性地探索檢測到的符號向量作為額外的導頻信號,從而來更新最小均方誤差
32、的信道估計,強化學習主要用于最優化對符號向量的選取,以一種高效計算的方式來解決這個問題。這種方式可以降低信道估計的誤差。另一部分是模型驅動的方式,這種方式的特點是會根據模型來應用神經網絡,或是算法來設計神經網絡的結構,他們最重要的是沒有完全地拋棄傳統方法的對應的模塊,而是有選擇地應用在新的算法中。75給出了一種通過學習得到的基于降噪的近似消息傳遞網絡。這個網絡可以從大量的訓練數據中學習到信道的結構并且實現信道估計,給出了波束域的信道信息。77實現了聯合的信道估計和信號檢測,其中信號檢測考慮到了信道估計的誤差和統計信息,同時信道估計通過檢測到的數據以及信號檢測的誤差來進行優化。78首先根據最簡單
33、的最小二乘法得到一個粗略的信道矩陣,然后再使用一個基于 CNN的超分辨率網絡(super resolution network,SPN)來學習他和信道矩陣之間的聯系,從而增加準確性。信道狀態信息的預測問題,根據時間、頻率和空間的關聯性,可以分為四類。第一類是根據前段時間的信道狀態信息來預測下一時間的信道狀態信息,主要是應用在隨時間變化的信道或者高速移動的場景下,這類問題主要是通過神經網絡來刻畫和捕捉信道在時間前后的關聯性81-83,由于 RNN 對時間序列很好的處理屬性,很自然的,有工作8182基于RNN 對信道的前后狀態信息進行了捕捉,基于前幾個時間的信道狀態信息預測出了后一時刻的信道狀態信
34、息。第二類信道預測問題關注于頻率角度的相關性84-87,應用在根據FDD 的上行信道狀態信息來預測下行信道狀態信息的問題上。其中84將遷移學習的方法應用到了 FDD 下行信道的預測問題上,根據全部之前環境中的數據來推測新的環境(頻率)中的數據,86,87則使用了傳統的 CNN 來根據上行信道信息映射和預測下行信道的信息。第三類是根據空間角度的預測問題。87實現了根據基站部分天線與用戶的信道狀態信息來預測和映射全部天線與用戶的信道狀態信息,刻畫了信道的空間關聯性。第四類是根據相鄰用戶的信道信息相關性進行預測。對于在同一個場景中并且在同一個基站服務范圍內的用戶,他們的信道往往也具有很強的相關性,且
35、在不同位置的用戶所享有的信道強弱可能不同。因此可以通過部分用戶的信道來預測區域所有用戶的信道。這一技術在未來萬物互聯時代將有無限的潛力。最后,針對信道狀態信息的反饋問題。傳統反饋方案采用矢量量化或基于碼本的方法減少反饋開銷,主要分為隱式反饋(Implicit Feedback)和顯式反饋(Explicit Feedback)。其中,隱式反饋將預編碼矩陣索引(Precoding Matrix Index,PMI)、信道質量指數(Channel Quality Indicator,CQI)等部分信道信息進行量化后反饋,顯式反饋是對完整信道矩陣進行量化后反饋。上述兩種反饋方案的性能依賴于碼本的設計,
36、且其碼本設計復雜度和相應的反饋量會隨著天線數量增加而顯著增長,因此大規模 MIMO 給基于碼本的反饋方案帶來了極大的挑戰。近年來,隨著人工智能技術的迅猛發展,誕生了基于 AI 的 CSI 反饋方案,并成為當下 CSI 反饋研究的熱點。其中有基于 AI 的全信道信息反饋89909192和基于 AI 的隱式反饋兩種反饋方案,將在以下分別介紹。2.2.1 信道信道狀態信息估計狀態信息估計 首先介紹數據驅動模型的典型工作57。這個工作基于一個正交頻分復用(orthogonal frequency-division multiplexing,OFDM)系統,所提的框架圖如下圖 2-5 所示。在該文獻中將
37、 OFDM 的解調和無線信道都視為黑盒,考慮如何直接從接收到的 6 圖2-5 系統框架圖 數據恢復原始的傳輸數據,其中包括了解調以及信道估計的過程。他將接收到的信號和原始的傳輸數據作為訓練數據,神經網絡的輸入是接收到的數據,訓練的目標是最小化神經網絡的輸出和原始傳輸數據的距離。仿真比較了基于傳統的最小平方差(least square,LS)和最小均方誤差(minimum mean square error,MMSE)的信道估計和檢測方法與這種基于神經網絡的方法,得到的結果如下圖 2-6 所示。從圖中的結果可以看出,LS 表現最差,因為沒有用到信道的統計信息,同時 MMSE 有最好的表現,因為此
38、時二階的信道統計信息假設已知并且被用于檢測,可以看出基于深度學習(deep learning,DL)的方法要比 LS 好很多,并且近似于 MMSE 的表現。這個論文以及論文里的結果最早驗證了將 DL 應用在信道估計以及檢測方面的有效性,具有很強的開創性。之后的很多工作都是基于這種生成數據、離線訓練網絡和在線測試的方法。這一系列的算法都運用了神經網絡來實現信道的估計。相比于傳統的算法來說,訓練好的神經網絡用來進行信道估計具有較快的速度和較低的計算代價,同時能夠保證較高的準確率。但是這些方法都存在的一個問題就是對訓練數據的要求,需要大量的訓練數據來離線地訓練網絡,這就限制了將這些算法運用在實際的通
39、信系統中。圖2-6 DL和傳統算法的比較 7 圖2-7 接收端示意圖 下面介紹一個基于模型驅動信道估計的代表性工作75。這個工作主要是根據接收到的信號來估計波束域的信道向量,解決了在大規模 MIMO 系統中,當接收端的射頻(radio frequency,RF)鏈路很少時對信道估計問題產生的限制??紤]下圖 2-7 所示的一個毫米波接收端,基于波束域的信道矩陣可以知道這個信道向量不是獨立的,即對應的信道矩陣是稀疏的??紤]從接收到的信號來估計信道矩陣。從壓縮圖像恢復的角度收到了啟發,文獻75設計了一種專門解決這個問題的可學習去噪近似信息傳遞網絡(learned denosing-based app
40、roximate message passing network,LDAMP)。這個網絡由 L 層層疊連接構成,每一層的結構都相同,如下圖 2-8 所示。每一層包括相同的降噪器,一個散度估計器和權重。降噪器是有去噪卷積神經網絡(denoising neural network,DnCNN)來實現的,主要用于去更新估計的信道向量。圖2-8 LDAMP網絡每一層的結構 值得注意的是,這個網絡的輸入是加噪的信道,輸出是一個殘差噪聲,而不是估計的信道 h,這個方法是殘差學習的方法,能夠讓網絡移除有很強結構性的網絡,而不是沒有結構的噪聲,最終這個殘差的學習可以提高訓練的時間和網絡的準確率。這個 LDAM
41、P 與三種算法進行了比較,如下圖 2-9 所示??梢钥闯?LDAMP 具有很好的表現。這種算法的優勢在于很好地將神經網絡與迭代信號恢復的算法相結合,從而表現出了很好的效果,同時,實驗結果證明了即使是在 RF 鏈路很少的情況下,其仍然可以有很好地表現。這種模型驅動的算法具有顯著優勢。首先可以很好地降低訓練的數據量和訓練所需的時間。其次通過這種更加特殊的神經網絡設計,使得整個算法具有很好的可解釋性。相比于單純應用 DNN 和 CNN 來說,可以更好地理解網絡的內部結構。其缺點是需要已有較好的傳統算法來借鑒,同時網絡的設計較為困難。8 圖2-9 LDAMP和其他方法的NMSE比較 在移動蜂窩通信系統
42、中,小區間導頻污染問題也是使得基站側難以獲得精確的信道狀態信息的原因之一。根據用戶的活動范圍不同,分為限制模式和非限制模式。用戶的到達角(direction of arrivals,DOA)與基站天線高度以及用戶位置和基站之間距離等物理信息有關,因此目標小區用戶與干擾小區用戶的 DOA 分布具有明顯不同(如圖 2-10 所示)。通過劃分DOA,能夠排除干擾小區用戶即導頻污染的影響。由于利用接收信號獲得的 DOA 估計值不含標簽,因此可利用無監督學習中的 K-means 聚類方法對目標小區用戶與干擾小區用戶的DOA 進行劃分。圖 1-1 展示了不同信噪比(signal-to-noise rati
43、o,SNR)下各種方法的 MSE性能。在限制模式下,利用 K-means 進行 DOA 聚類方法的信道估計性能明顯優于傳統的LS、MMSE 方法以及利用高斯混合模型的期望最大算法(Gaussian mixture model-expectation maximization algorithm,GMM-EM)進行聚類的方法,由遍歷搜索得到的最佳劃分性能曲線表明 K-means 聚類方法仍具有提升空間。圖2-10 目標小區與干擾小區中用戶的DOA分布圖 9 圖2-11 不同SNR下各方法MSE性能對比 近期,諾基亞上海貝爾研究如何在高多普勒的場景下,把輔助信息耦合入信道估計中,從而在對信道進行完
44、美估計的同時,減少對參考信號開銷的需求。進而提出一種基于超分辨率神經網絡的復合結構,僅使用一個參考信號,在時、頻維度上對信道進行準確估計,并對多普勒效應進行自適應補償,如圖 2-12 所示。方案 1 的特點是與特定環境高度相關,并且支網絡結構簡單,我們僅使用若干 FC/CNN。方案 2 以欠完美的星座圖像作為神經網絡的輔助信息,通過機器學習圖像識別的方式,對多普勒進行自適應補償。方案 1 是在 ray tracing 的信道模型中進行驗證的,如圖 2-13 的左圖所示,無論是傳統方法或者單一的超分辨率神經網絡,在僅用一個 DMRS 的情況下,都無法很好地處理多普勒效應。然而在語義信息輸入的復合
45、結構中,即使是未經訓練的條件下,多普勒影響可以被很好的補償,對星座圖旋轉進行有效修正。方案 2 是在 38.901 定義的信道模型上進行的仿真驗證的如圖 2-13 的右圖所示仿真結果證實,通過對星座圖識別,可以有效對多普勒影響進行補償,對星座圖旋轉進行有效修正,達到接近基于完美信道估計的表現,并優于傳統的信道估計方法。圖2-12 復合神經網絡的結構 10 圖2-13 復合神經網絡仿真結果 但是在基于導頻的信道估計問題中,通過維納濾波插值估計信道的方法存在一些不足。主要有以下兩個方面:第一,線性插值估計精度下降:導頻密度稀疏時,目標信道與導頻的時頻相關性并非線性,采用線性插值估計并不準確。第二,
46、DMRS(解調參考信號)資源開銷增加:為確保插值時相鄰導頻點的線性相關性,需要時頻域導頻達到一定的數量。為了解決上述問題,下面介紹一個基于 AI 的信道估計方案。利用 CNN(卷積神經網絡)恢復圖像分辨率和降噪的性能,使用 CNN 擬合信道時頻點間的非線性關系,提升插值估計精度,降低導頻開銷。其網絡模型如圖 2-14 所示,該方案基于圖像分辨率恢復和圖像降噪算法進行信道估計。該網絡主要分為兩個部分,第一個部分為 SRCNN79(高分辨率卷積神經網絡),該網絡原用于恢復圖像分辨率,在信道估計算法中用于初步恢復信道響應值。第二個部分為 DNCNN80(降噪卷積神經網絡),原用于圖像去噪,在信道估計
47、算法中用于對 SRCNN 的估計結果降噪,進一步提高估計精度。圖2-14 估計網絡模型SRCNN及DNCNN結構示意圖 該算法的估計流程如圖 2-15 所示:(1)獲取導頻 DMRS:獲取的同時不要改變導頻原有的時頻域位置;(2)DMRS 實部虛部分離:使網絡輸入變為實數,模型參數可導;(3)線性插值:對輸入數據做簡單預處理,保證模型輸入輸出維度一致;(4)AI 插值:SRCNN+DNCNN 進行非線性擬合,估計數據符號處的信道響應值。11 圖2-15 估計流程示意圖 圖 2-16 展示了所提出的算法與傳統算法的誤塊率性能指標對比。需要注意的是,訓練神經網絡時的標簽數據是信道的理想估計值,那么
48、神經網絡法的估計性能不會超過理想信道估計法的估計性能。我們可以看到,信噪比較高或較低時,受限于理想信道估計法和 LMMSE法估計性能相近,神經網絡估計法不會有明顯的性能增益。而在其它信噪比區間,理想信道估計法的性能同 LMMSE 法之間拉大,神經網絡表現出較明顯的性能增益。圖2-16 誤塊率性能指標對比示意圖(SR+DN和LMMSE(最小均方誤差)此外,就現有的信道估計方法而言,有粗略型和精準型兩種形態。粗略型計算相對簡單粗暴但精準度相對較差,實際應用廣泛。精準型估計的計算量非常大,特別是信道矩陣 H求逆過程十分復雜,實際的總時延會使信道估計的意義降低,實戰意義較低。隨著通信的發展,導頻開銷日
49、益嚴重,如果單純的依賴增加導頻密度來應對更多場景的信道估計方面的挑戰,代價是很大的。設計一種 AI 算法,降低對信道測量數據的依賴,比較高效精準的實現信道預測是我們研究的焦點。小樣本 AI 應用于信道估計的思路如下。單純的 HI 算法(傳統經驗公式法)隨著導頻稀疏程度增大誤差也隨之增大。通過小樣本 AI 算法可以快速捕獲信道變化特點,配合 HI(以曲率圓估計方法為例)來實現信道的快速準確估計。曲率圓估計方法應用在由信道 H的實部、虛部以及時間構成的三維空間坐標系上,通過曲率圓弧的插值方式實現信道估計。小樣本 AI 算法重點學習曲率圓的主要特征為:(1)曲率半徑;(2)波動周期“T”;(3)曲率
50、圓心位置;(4)包絡。小樣本 AI 需要通過鄰近的歷史數據學習這四方面的特征及變化趨勢,但是區別于傳統 AI,這種抽象學習不需要大量歷史數據,因為大量的歷史數據(時間或空間差異大)對當前信道估計有效性差。12 滑窗機制下的小數據量 AI 工作原理如圖 2-17 所示。通過幾個臨近“周期”的數據量,快速學習出曲率半徑、曲率圓心、波動“周期”及包絡的變化趨勢并給出判斷。該方法對數據的依賴非常小。圖2-17 滑窗機制示意圖 模型工作框架如圖 2-18 所示:圖2-18 模型工作架構示意圖 最后,仿真結果如圖 2-19 所示,其中,混合速度(50、60、70KM/h)+多徑+噪聲(10dB)+節省導頻
51、開銷(25%,50%、75%、95%。結果顯示,HI+AI 模型顯然對抗導頻超稀疏場景的能力更強。多項實驗證明該模型在傳統導頻減少超過 90%時,性能還能保持優良。同時,該工作也給出了未來深度探索的方向。包括(1)相同開銷的導頻,不同發送策略會產生不同性能效果;(2)不同場景動態調整不同的導頻;(3)導頻開銷節省的極致邊界。圖2-19 小樣本AI信道估計仿真結果 2.2.2 信道狀態信息預測信道狀態信息預測 考慮隨時間變化的信道,由于反饋的延遲會導致得到的信道狀態信息不再準確,尤其是在快衰落的信道中。為了解決這個問題,81應用 RNN 網絡來建立一個長范圍的信道預測器。對于一個快衰落信道,通過
52、應用一個多步 RNN 就可以準確地預測信道的增益以及系數。13 其 RNN 網絡的結構如下圖 2-20 所示,其中的外部輸入是對應前幾個時刻的信道狀態信息,輸出是下一時刻的預測的信道狀態信息。圖2-20 用于信道預測的RNN結構 圖2-21 信道預測結果81 如上圖 2-21 所示,基于 RNN 的方法給出了一種較好的信道預測器,從信道增益的角度,其較好地擬合了信道隨時間的變換曲線。這很大程度上來源于 RNN 網絡對時間序列的良好處理能力。和現有的 AI 預測器相比,他的計算代價更小同時可以有很好的準確率,如果用多步預測的話可以實現一個長范圍的預測。14 同樣是從已知信道預測未知信道,文獻87
53、則考慮了信道在空間和頻率上的相關性,應用這種相關性實現了信道的映射和預測。這個工作解決的問題是如何根據一部分天線和一部分頻帶的信道狀態信息,預測或映射得到全部天線、全部頻帶的信道狀態信息,并且證明了這種映射的可實現性。主要的方法是引入了一個全連接的神經網絡(如下圖 2-22 所示)對這些映射關系進行學習。圖2-22 信道映射關系學習網絡 網絡的輸入是部分天線或頻帶對應的部分信道狀態信息,輸出是全部的天線和頻帶的對應信道狀態信息。訓練數據通過實際的 DeepMIMO 數據集基于 ray-tracing 的方法生成。需要注意的是,這個模型是場景特定的,因為神經網絡學習的映射關系是和場景緊密聯系的,
54、因此對于不同的場景需要進行新的訓練和學習過程。經過離線地學習過程之后,得到的結果如下圖 2-23 所示。其中的下界是僅僅根據部分的天線信道狀態信息得到的系統可達頻譜效率。圖 2-23 展示了隨著已知信道狀態信息的天線數目的增加,系統的可達頻譜效率逐步提高,直到最終接近最優的結果。有趣的是,可以看出僅僅 4 個天線的時候(總天線數目的6%)就可以達到超過 4bits/sec/Hz 的容量,同時距離上界僅僅相差 7%。在僅僅 8 個天線信道狀態信息已知的情況下,就可以近似到上界。值得一提的是,這些已知的天線都是隨機選擇的。圖2-23 信道預測結果 這個工作具有很好的意義,它揭示了信道在頻率和空間上
55、的相關性。而事實上,考慮到時間角度的信道預測,這些工作都說明了信道在時間、空間、頻率上的相關性,通過合理運用這些相關性或學習這些相關性,能夠在較低代價的情況下實現信道的預測。15 文獻88同樣也考慮了信道時域相關性,即通過一部分天線的信道,去預測所有的天線信道。不同的是,作者同時提出了一個基于深度學習的信道選擇子網絡,在訓練信道預測網絡的同時訓練最優的天線選擇方案。所提的網絡結構如圖 2-24,其中信道選擇子網絡實現天線子集的選擇,而信道外推子網絡則實現從這一天線子集的信道信息到全部天線信道信息的預測。仿真結果如圖 2-25 所示。圖2-24 基于深度學習的信道選擇聯合信道外推網絡 圖2-25
56、 左:均勻選擇圖案 中:信道選擇子網絡學習到的圖案 右:兩種選擇方案信道外推的誤差比較 這個工作所提出的信道選擇聯合信道外推技術減少了大規模天線系統的導頻開銷,節約了頻譜資源和能效。其所使用的信道選擇方法也可以用于其他需要進行選擇操作的通信問題中。但該信道選擇方法仍有待進一步改進,如信道選擇網絡輸出一個信道選擇向量,與按元素相乘后得到的信道向量包含大量 0 元素,這給信道外推子網絡帶來了一定程度的冗余,可以進一步研究可以消除這些 0 元素的方法來降低信道外推子網絡的規模。2.2.3 信道狀態信息信道狀態信息反饋反饋 基于 AI 的信道狀態信息反饋方案有全信道信息反饋和隱式反饋兩種方式。首先介紹
57、基于 AI 的全信道信息反饋方案。這種方案將通信系統建模為端到端的 CSI 圖像重構任務。其結構如圖 2-26 所示,是一個基于自編碼器(autoencoder,AE)的網絡架構。位于 UE 端的編碼器將完整 CSI 視為圖像并壓縮為一個滿足反饋比特要求的壓縮編碼,再通過反饋鏈路反饋到基站(base station,BS)端;BS 端則利用譯碼器進行解壓和重建任務,輸出為 CSI 的重建圖像。使用 AE 實現端到端的無線通信系統,在訓練過程中能夠通過優化器共同優化編碼器與譯碼器網絡,從而獲得最優的 CSI 重建模型。圖2-26 基于AI的全信道信息反饋架構 16 基于 AI 的全 CSI 反饋
58、架構 CsiNet89,其編碼器包括特征提取、特征壓縮兩個模塊,譯碼器包括特征解壓縮和信道重建兩個模塊,其中全連接層完成特征壓縮與解壓任務,信道重建部分則包含兩個由三層卷積組成的殘差模塊,用于細節上的重建。實驗表明,相較于基于壓縮感知的反饋方案,其重建精度大幅提升,同時運算速度提升近 100 倍。面對時變信道,CsiNet-LSTM90在CsiNet的譯碼器中利用LSTM的記憶特性有效提取CSI序列的時間相關性,進一步提升了網絡的重建性能。CsiNet+91提出了一種多速率反饋架構,并對編碼器輸出的壓縮編碼進行非均勻量化,生成比特流便于實際傳輸。CsiFBnet 92則是提出了一種結合波束成型
59、技術的反饋模型,最大化利用波束成形技術帶來的性能增益來提升系統表現。接下來介紹基于 AI 的隱式反饋方案?,F有 5G 系統的 CSI 反饋依賴特征向量等間接信息的反饋與利用,從經典模型的角度出發,利用 Type I/II 碼本實現特征向量的反饋與恢復。為了更直觀平等地比較基于 AI 的反饋方案和 5G NR 中基于碼本的反饋方案,考慮將 AI 與隱式反饋相結合,通過提取完整信道矩陣的特征向量,并送入神經網絡進行壓縮反饋,從而減少反饋開銷。圖2-27 基于AI的隱式反饋架構 圖 2-27 所示為基于 AI 的隱式反饋架構,在信道信息壓縮反饋前,需要先利用奇異值分解(singular value
60、decomposition,SVD)等算法提取原始全信道信息的特征向量,再將特征向量作為神經網絡的輸入。UE 端的編碼器網絡用于對特征向量進行特征提取和壓縮,再通過一個量化模塊生成傳輸的比特流并反饋回 BS;BS 端的譯碼器網絡用于解壓縮和重建特征向量。實驗結果表明,基于 AI 的隱式反饋方案在相同余弦相似度下,所需反饋比特數明顯少于 Type I/II 碼本。為了驗證基于 AI 的隱式反饋性能,中興移動通信設計了接近于實際情況的加噪信道隱式反饋實驗:仿真場景為3GPP中系統級UMA(urban macro honeycomb)信道,天線采用 32T1R 配置,對不同信噪比的高斯白噪聲污染的信
61、道數據情況下進行仿真,如圖2-28 所示。結果表明,AI 網絡對不同噪聲功率污染下的 CSI 反饋性能均有魯棒性,AI 方法在反饋準確性與開銷性能上均超過 eTypeII 碼本反饋方式??傮w來說,基于 AI 的 CSI 反饋方案為進一步降低 CSI 反饋開銷與提升反饋精度提供了新的可能性,具有極大的研究價值和發展前景。另外有一個工作是有關遷移學習在解決空口 AI 模型泛化性中的應用研究,并且以信道壓縮反饋為用例驗證遷移學習應用在解決 AI 模型泛化性方面的效果。用例原理示意圖如圖2-29 所示:原始信道經編碼網絡的特征抽取網絡與量化層后壓縮為一系列比特流,比特流傳輸至收端后經解碼網絡的解量化層
62、與特征恢復往后輸出回復后的信道。本次實驗中使用全連接網絡作為特征抽取網絡與特征網絡恢復網絡的主要結構,如圖 2-30 所示。我們設置特征抽取網絡的全部全連接層與特征恢復網絡的前兩層全連接層為預訓練層,在遷移模型時預訓練層權重將保持凍結無法訓練,同時設置特征恢復網絡的后兩層全連接層為適配層,在模型遷移后可進行訓練。本實驗模型中的量化層使用矢量量化方法。具體參數如表 1 所示。17 圖2-28 32天線下UMA加噪信道數據仿真圖 圖2-29 信道壓縮反饋原理 圖2-30 特征抽取與特征恢復網絡 在仿真環境中采集源域(UMA)和目標域(UMI)的 LOS 信道數據,采用第二節 2 的思路進行遷移學習
63、,即在源域訓練模型完成后凍結前 n 層預訓練層,在目標域只訓練最后 k層后測試結果,源域基礎模型的預訓練采集 20000 數據,訓練的 NMSE 為 0.03006。在目標域上選取了大數據集(20000),中數據集(10000)和小數據集(1000)分別進行測試,驗證目標域不同數據樣本集的快速遷移的性能增益。驗證結果如圖 2-31 和圖圖 2-32 所示。從圖 2-32 中可以看出,遷移學習對于所有的場景(不同的目標域數據集大?。┫露寄苋〉酶玫男阅?。對于中小數據集場景下,遷移學習能更快速的收斂。為解決 AI 模型的泛 18 化性提供了一種新的思路。而圖 2-31 的結果則顯示 AI 模型對目
64、標域的遷移存在較優的訓練策略,本實驗中,訓練最后一層的 NMSE 較高,但訓練最后兩層后 NMSE 快速下降,之后的邊際效應遞減。遷移訓練最后 1-2 層是平衡效率和性能較優的選擇。00.050.10.15不同遷移策略下的性能比較大中小00.050.10.150.20.25未遷移遷移未遷移與遷移的最佳性能比較大中小 圖2-31 遷移策略性能比較(左圖)圖2-32 最佳性能比較(右圖)面向 UMA LoS 與 UMI LoS 兩種場景的泛化性實驗表明,遷移學習可以使 AI 模型獲得較好的泛化性能,并存在最佳的訓練策略平衡效率和性能。但 UMA LoS 與 UMI LoS 兩種場景本身比較相似,遷
65、移難度較低,未來應該針對區別更加明顯的場景(如 UMA NLOS 到UMI LOS)進行進一步實驗。實驗中使用的遷移學習策略較為直接,仍有大量優化空間,如根據遷移學習框架設計更精細的預訓練模型結構等。此外,另一個工作對融合專家知識的無線 AI 設計進行了討論。作者指出,早期的無線AI 方案大多采用較為直接的設計思路,即在無線系統中尋找與經典機器學習問題相似的用例,再使用已有的機器學習工具解決。例如,編碼調制方式識別就是一類典型的模式識別問題,而使用深度神經網絡解決該問題也相應地具備較高的可行性。隨著無線 AI 研究的不斷深入,早期“1+1 式”拼合思路在方案性能提升方面逐漸遭遇瓶頸,無線 AI
66、 方案設計需要新的思路。需要根據無線系統特點設計相應的無線 AI 方案已逐漸成為業界的一種共識,而無線系統的特點則集中體現在已有的專家知識積累中,因此產生了融合專家知識(HI)的無線 AI模型設計思路。值得一提的是,業界關于該思路的稱呼方式多種多樣,“數據與模型雙驅動”、“白盒方案與黑盒方案的融合”等說法實質上都在談論類似的思路。然而,業界仍須解決如何具體實現融合專家知識的無線 AI 模型設計的問題。該問題的挑戰性在于無線 AI 在數據特點與模型應用環境方面與傳統機器學習大不相同,導致傳統機器學習研究中的成果不能簡單拓展至無線場景,需要同時對機器學習與無線通信兩個領域都有深入了解才能設計出較好
67、的無線 AI 方案。在本報告中,將介紹兩種實現融合專家知識的無線 AI 設計思路,即基于專家知識設計更優的數據特征與基于專家知識尋找更具價值的用例。首先是基于專家知識設計更優的數據特征。數據特征設計在機器學習方案設計中具有重要地位,良好的數據特征設計可以在不明顯增加模型開銷的前提下提升方案性能。以基于深度學習的信道壓縮為例,已有的方案大多圍繞增強模型本身來提升性能(例如使用更深、結構更復雜的模型等),而圍繞信道稀疏特征設計方面提升方案性能的工作較少。事實上,已有實驗表明良好的信道稀疏特征設計在提升方案性能方面的貢獻要高于單純的模型改進。接下來我們將具體介紹一種基于裁剪的信道稀疏特征設計方法。頻
68、率選擇性多天線信道在時延-角度域呈現的稀疏性是信道壓縮-恢復方案的理論基礎。在傳統信號處理中,從時延-角度域提取信道稀疏特征時主要關注信道的高值部分,對接近零的低值部分自動舍棄。然而,在設 19 計深度學習模型的輸入時反而需要關注低值部分,其原因在于神經網絡在處理低值部分時難以做到自動舍棄,反而會將本來信息量較少的低值部分也納入特征提取的對象中,導致低值部分成為影響性能的干擾項。因此,如圖 2-33 所示,可以使用手動裁剪的方式提前濾除干擾神經網絡的低值區域,降低輸入信道的維數,從而取得更好的壓縮性能。需要指出的是,對信道中近零值裁剪并非傳統信號處理方法中常規思路,因為這種方式無助于提升性能,
69、反而可能破壞信道原有的結構特征;然而裁剪卻是一種對深度學習模型十分有效的技巧。這表明在設計更優的數據特征時,有時需要跳出傳統的信號處理思路,根據 AI 模型本身的特點設計數據處理的方式。圖2-33 手動裁剪信道中的近零值來提升基于深度學習的信道壓縮反饋方案性能 其次是基于專家知識尋找額外信息。專家知識還可以幫助尋找額外信息,從而提升目標任務的性能。舉例來說,目前業界圍繞 FDD 系統下行信道信息的獲取展開大量研究,提出了諸多基于深度學習的信道壓縮反饋方案的設計。但考慮到 AI 模型的特征提取能力存在一定上限,僅靠終端反饋的有限信息恢復下行信道終將會到達性能瓶頸。如果想進一步提升FDD 下行信道
70、的獲取精度或降低反饋開銷,可以考慮利用其他信息作為信道恢復時的補充,尤其是利用傳統信號處理方法無法充分挖掘的信息。例如圖 2-34 所示,FDD 上下行存在部分互易性,但該互易性在實際系統中如何建模與利用尚未完全研究清楚。但如果將 FDD 上行信道作為補充信息用于下行信道的恢復(如圖圖 2-35 所示),則不僅可以避開互易行建模問題交給深度學習網絡自行學習,而且可以以近乎不增加任何空口開銷的方式提升下行信道恢復精度。圖2-34 基于深度學習的FDD下行信道反饋示意圖 20 圖2-35 結合FDD上下行互易性的基于深度學習的FDD下行信道反饋示意圖 基于 AI 的全信道信息反饋方案,能夠利用 A
71、I 在圖像等領域表現出的優異性能,對全信道信息進行高效反饋。然而,目前 3GPP 標準并未對全信道信息反饋做專項研究和標準化,如何有效利用反饋得到的全信道信息仍需開展深入研究?;?AI 的隱式反饋方案,對提取出的特征向量進行壓縮反饋,可更為公平地與現有標準中的碼本方案進行比較,但還需額外開銷反饋特征值等信息。針對現有通信系統的需求與特征,設計基于 AI 的特征向量反饋可進一步減少反饋開銷,且重建得到的特征向量可直接用于預編碼??偟膩碚f,基于 AI 的 CSI反饋方案相比于傳統算法具有明顯的性能優勢,且具有極大的研究價值和發展前景。2.2.4 導頻、導頻、信道估計、信道估計、信道反饋、預編碼聯
72、合設計信道反饋、預編碼聯合設計 在無線通信系統中很多模塊實際上都是關聯的,如 MIMO 系統的系統容量與預編碼有關,預編碼是基于信道估計(TDD 系統基于互易性、FDD 系統基于信道信息反饋)生成,信道估計又與導頻序列的設計相關。單模塊的 AI 優化雖然可以提升每個模塊的性能,但從整體系統性能來講并不能實現全局最優。因此,可以考慮將多個相關的模塊用一個 AI 網絡進行聯合模擬并優化,實現多個參數的聯合設計。文獻71考慮一個 FDD massive MIMO 系統,實現導頻序列設計和信道估計的 AI 網絡聯合優化。如圖 2-36 所示,在信道估計過程中將導頻發送過程定義為一個編碼器網絡,將收端的
73、信道估計過程定義為一個解碼器網絡,基于自編碼器的思想,實現聯合優化。文獻中的神經網絡以信道作為訓練數據,發送端用一層的全連接網絡模擬導頻序列經過信道的過程(網絡的神經元系數就是導頻序列),接收端用一個全連接網絡串聯多個卷積神經網絡來獲得信道估計。整個自編碼器的優化采用監督學習的方式,采用 Adam 算法實現接收端的輸出(即信道估計結果)和發送端的輸入(即訓練用的信道)之間的均方誤差的最小化。圖2-36 用AI自編碼器的思想進行導頻序列和信道估計的聯合設計 21 文獻72將導頻設計、信道估計、信道信息反饋、預編碼等模塊進行了聯合設計。首先,文獻72通過理論分析證明,在 FDD 多用戶 massi
74、ve MIMO 系統中,上述“導頻設計、信道估計、信道信息反饋、預編碼”是一個分布式源編碼(distributed source coding)問題,在多個用戶端分別進行信道估計且不做信息交互,也可獲得逼近多用戶聯合編碼反饋時的最優性能。但目前分模塊優化的方案相比上述最優性能還有一定的差距,多模塊聯合設計有較大的性能提升空間。文獻72的工作不僅是更多模塊的擴展,其使用的學習思路也有很大區別。區別于現有很多方法采用最小化損失函數的監督學習的思路,文獻72采用非監督學習,以最大化頻譜效率為目標進行網絡的訓練。文獻72考慮一個FDD多用戶massive MIMO系統,其中基站天線數為 M,用戶是單天
75、線,基站為 K 個用戶提供服務,導頻長度為 L,用戶用于信道信息反饋的比特數為 B。AI 網絡的結構如圖 2-37 所示,整個可視為“下行導頻傳輸”、“上行信道信息反饋”和“預編碼設計”三個子網絡的串聯。以每個用戶的信道(訓練數據)作為輸入,基站端用一層的全連接網絡模擬導頻過信道的過程(導頻是該網絡的神經元系數),并將每個用戶過完信道的導頻加噪聲作為“信道信息反饋子網絡”的輸入。這里需要強調的是“導頻傳輸子網絡”的神經元系數要做歸一化,進而滿足導頻的功率約束?!靶诺佬畔⒎答佔泳W絡”模擬在多個用戶端的信道估計和信道信息反饋過程,這里信道估計過程是隱式地包含在網絡中的。值得注意的是,信道信息反饋子
76、網絡的最后一層是一個量化函數,該函數只有在輸入為0 時有梯度(且梯度為無窮大),在其他輸入處梯度為 0。因此,在反向梯度傳播時會造成無梯度可以傳的問題。對此,需要對該函數進行梯度重寫,正向傳遞的時候仍進行正常的量化,但在反向梯度傳播時以重寫的函數的梯度替代原函數的梯度。常用的重寫方法有直通估計器(straight through estimator,STE),sigmoid 調整的直通估計器和退火 sigmoid 調整的直通估計器等,其具體函數形式如圖 2-38 所示??筛鶕炕瘮档妮斎肴≈捣秶陀柧毜氖諗克俣鹊染唧w情況,選擇不同的梯度重寫方法。圖2-37 導頻設計、信道估計、信道信息反饋、
77、預編碼的聯合設計 22 圖2-38 量化函數及其不同的梯度重寫函數 2.3 AI 使能的端到端設計使能的端到端設計 此類研究的目的是在特定的信道環境下聯合優化發射機和接收機939495。與傳統人工設計相比,基于 AI 的端到端收發機設計往往呈現出不太一樣的編碼和/或調制樣式9495。端到端優化設計更適合于具有各種非線性效應的非典型信道,因為神經網絡可以學習這些非理想的信道效應,而傳統優化方法面對較多的非線性因素時往往出現性能下降的現象939495。最初的基于 AI 的端到端收發機設計示意圖如圖 2-39 所示。該系統考慮一種在加性高斯噪聲信道上進行通信的場景,其中收發兩端的信號處理都通過神經網
78、絡實現。具體來說,發端網絡完成將待發送的消息映射為發送符號的過程,而收端網絡則完成相應的逆過程。負責收發信號處理的網絡都采用簡單的全連接結構,層數為 3 層。由于信道為加性高斯白噪聲(additive white Gaussian noise,AWGN)信道,所以我們可以將信道嵌入該網絡中,作為網絡的一層。該網絡的結構與深度學習中的自編碼十分類似,兩者都具有輸出與輸入信號(近似)等價的特點。但自編碼器側重于學習信號的低維稀疏表示,而該網絡則側重于學習代表收發機的神經網絡。整個神經網絡可以通過端到端的方式進行優化,即損失函數設為檢測消息的錯誤概率或相似性(用如交叉熵等方式進行度量),通過梯度下降
79、或是相關變種優化算法優化各個權重。在僅考慮高斯信道時,我們可以直觀地將神經網絡學習的信號處理過程理解為編碼加調制的結合,通過調整輸入消息的種類和輸出符號的比,可以實現不同碼率的傳輸,圖 2-40 展示了該網絡學習的星座圖結果??梢园l現,神經網絡學習的星座圖與傳統意義上的正交幅度調制(quadrature amplitude modulation,QAM)星座圖會有一定的差別,這種區別在調制階數較高的時候會更加明顯。圖 2-41 給出簡單的誤消息率結果,可以發現神經網絡學習得到的信號處理過程可以達到甚至能夠超過一些人類專家設計。相關思路不僅可以實現在 AWGN 信道下的消息傳輸,還可以實現在典型
80、衰落信道下的消息傳輸11。在實現基于 AI 的端到端收發機設計9394的基礎上,實現了對端到端 OFDM 系統進一步去冗96,即同時消除了循環前綴(CP)及導頻(Pilot),其仿真結果如圖 2-42 所示。仿真證實,與使用傳統的 LMMSE 接收機比較,無循環前綴及導頻端到端系統有著相近或更好的比特誤碼率(BER)。而與使用基于神經元網絡的接收機比較,有著相近的比特誤碼率(BER)。但是,無循環前綴及導頻端到端系統卻提供了至少 18%有效輸出的增益。更進一步地,神經網絡還可以學習傳輸過程中的同步、信道估計、幀結構設計等內容,但學習不同模塊的開銷不同,例如對于同步與幀結構的學習往往較為困難95
81、。23 圖2-39 基于AI的端到端收發機設計(針對AWGN信道)圖2-40 基于AI的端到端收發機學習得到的星座圖樣式(針對AWGN信道)圖2-41 基于AI的端到端收發機學習結果誤消息率性能比較(針對AWGN信道)24 2.4 基于基于 AI/ML 的信道編譯碼技術的信道編譯碼技術 自香農提出信道編碼定理以來,學界致力于尋找能夠逼近香農限的編碼方案。隨著時間的推移,學者們提出了漢明碼、循環碼、卷積碼、Turbo 碼、低密度奇偶校驗(low density parity check,LDPC)碼以及極化碼(Polar code)2。其中 LDPC 碼能夠在碼長趨于無限時,性能無限逼近香農限;
82、而 Polar 碼是目前唯一一種被證明能夠在特定信道下達到香農限的編碼方案。隨著深度學習在無線通信物理層研究中的逐步應用,深度學習在信道編譯碼問題上已經有了一定的突破。與傳統的信道譯碼方法相比較,基于深度學習的譯碼器在性能上有顯著的改善,但同時由于維度爆炸,深度學習應用于編碼技術也存在一定的局限性。圖2-42 基于AI端到端OFDM系統與單/雙導頻不同速度下比特誤碼率 目前,學界涌現出一批性能優異的基于深度學習的編譯碼算法。Nachmani 等提出了一種基于深度學習的改進置信傳播算法(belief propagation,BP)98104.Cammerer 等提出了一種基于深度學習的 Pola
83、r 碼分段譯碼算法105。Liang 等提出了一種基于 CNN 的迭代BP-CNN 結構106,用于相關噪聲下的信道譯碼。Wang 等提出了一種 LSTM 網絡輔助的SCF 譯碼算法107。Chen 等提出了一種低復雜度的 LSTM 網絡輔助的 CA-SCLF 譯碼器108。25 AI/ML 在信道編譯碼方面的應用主要體現在兩個方面。一方面,可以將 AI/ML 算法和神經網絡直接嵌入通信鏈路,替代譯碼器。例如,在文獻24中,如圖 2-43 所示的 DNN 被用于 Polar 碼和隨機碼的譯碼,可以以更低的復雜度達到最大后驗概率算法(maximum a posteriori,MAP)性能。文獻2
84、5使用 DNN 進行 turbo 碼譯碼,解決傳統 max-log-MAP 算法將非線性簡化為線性導致的性能損失問題。另一方面,也可以利用 AI/ML 方法進行信道編碼方案的設計。例如,文獻27使用遺傳算法(genetic algorithm,GA)進行 Polar 碼設計,而文獻28利用 RNN 進行 LDPC 碼的度數分布設計。圖2-43 DNN Polar碼譯碼器 注意到利用 AI/ML 方法的學習能力,可以設計信道編碼方案,特別是在一些沒有理論指導的場景中(例如在列表譯碼算法下的 Polar 碼設計),AI/ML 可以找到比人工設計性能更好的碼。在文獻4445中,作者使用遺傳算法和強化
85、學習(reinforcement learning,RL)框架進行 Polar 構造序列的設計。如圖 2-44 所示,AI/ML 方法得到的 Polar 碼性能在絕大部分碼率下優于使用傳統的密度進化(density evolution,DE)/高斯近似(Gaussian approximization,GA)方法得到的 Polar 碼。圖2-44 基于AI方法設計的Polar碼性能優于DE/GA方法 2.4.1 基于基于 DNN 的編的編譯碼算法譯碼算法 Nachmani 等提出了一種基于深度學習的改進 BP 算法98104,該方法通過對 Tanner圖的邊賦予權值,推廣了標準的置信傳播算法。
86、然后,作者使用深度學習的方法訓練這些邊緣的權值。置信傳播算法的一個眾所周知的特性是性能對傳輸碼字的獨立性?;谏疃葘W習的改進 BP 算法的一個關鍵特性就是譯碼器保留了這個特性。此外,此屬性允許網絡只學習單個碼字,而不需要學習隨碼長增加數量指數級增加的全部碼字,能夠很大程度上解決編譯碼過程中的唯獨爆炸問題。26 圖 2-45 顯示了該算法的位誤碼率(bit error rate,BER),在高信噪比的情況下,誤碼率提高了 0.75dB。此外,深度神經網絡的誤碼率始終小于或等于 BP 算法的誤碼率。這一結果與觀察到的網絡性能不會比 BP 算法差的結論吻合。圖2-45 改進置信傳播算法的性能對比 C
87、ammerer 等提出了一種基于深度學習的 Polar 碼分段譯碼算法105。在這項工作中,作者證明了當譯碼器的子塊被神經網絡取代時,能夠提升傳統的極化碼迭代譯碼算法的性能。因此,作者將編碼圖劃分為更小的子塊,并分別對它們進行訓練,接近每個子塊的 MAP性能,系統示意圖如圖 2-46 所示。圖2-46 Polar碼分段神經網絡譯碼算法 所得到的解碼算法是非迭代的,并且固有地實現了高水平的并行化,同時其誤比特率(BER)性能十分優異,如圖 2-47 所示。27 圖2-47 Polar碼分段神經網絡譯碼算法性能對比 2.4.2 基于基于 CNN 的譯碼算法的譯碼算法 Liang 等提出了一種基于
88、CNN 的迭代 BP-CNN 結構106,用于相關噪聲下的信道譯碼。本文設計了一種新的接收機結構來解決信道噪聲中存在相關性時的譯碼問題。這種結構將一個經過訓練的 CNN 與一個標準的 BP 譯碼器連接起來,接收到的符號在 BP 和 CNN之間迭代處理,因此被稱為迭代 BP-CNN。在接收端,首先由 BP 解碼器對接收到的符號進行處理以獲得初始解碼結果。然后,從接收到的符號中減去估計的發射符號,而得到信道噪聲的估計。由于編碼誤差的存在,信道噪聲估計不準確。然后,將信道噪聲估計輸入到 CNN中,進一步消除了 BP 譯碼器的估計誤差,并利用噪聲相關性得到更準確的噪聲估計。BP和 CNN 之間的迭代將
89、逐步提高譯碼信噪比,從而獲得更好的譯碼性能。其算法示意圖如圖2-48 所示。圖2-48 BP-CNN譯碼算法 為了訓練一個性能良好的 CNN 模型,作者定義了一個新的損失函數,它不僅涉及噪聲估計的精度,而且還涉及估計誤差的正態性檢驗,即測量估計誤差服從高斯分布的可能性。在 CNN 訓練中引入正態性檢驗,與使用標準二次損失函數相比,進一步降低了迭代譯碼的誤碼率。該算法性能如圖 2-49 所示??梢钥吹交€ BP-CNN 和增強后的 BP-CNN 在相關噪聲下都取得了顯著的性能提升。在強相關情況下,當=0.8時,BP-CNN 在誤碼率為-410時可將譯碼性能提高約 3.5dB。需要強調的是,在標準
90、 BP 譯碼器中,這種性能增益不能通過更多的迭代來補償,因為 BP(50)已經達到飽和性能。在=0.5的中等相關性情況下,性能增益變小,因為相關性較弱,采用 CNN 的好處較小。對于=0且噪聲變為獨立同分布(即標準 AWGN 信道)的特殊情況,所提出的方法與標準 BP 譯碼的性能類似。28 圖2-49 BP-CNN譯碼性能對比 2.4.3 基于基于 LSTM 網絡的譯碼算法網絡的譯碼算法 Wang 等提出了一種 LSTM 網絡輔助的 CA-SCF 譯碼算法107。極化碼串行抵消(successive cancellation,SC)翻轉譯碼的關鍵是準確識別第一個錯誤位。由于缺乏解析解,最優翻轉
91、策略被認為是難以實現的。為解決這個問題,作者提出了一種深度學習輔助的SC-flip 算法。其系統示意圖如圖 2-50 所示。圖2-50 LSTM-aided SCF算法示意圖 具體地說,在每次 SC 譯碼嘗試之前,利用 LSTM 網絡來定位第一個錯誤位,或者撤消先前的“錯誤”翻轉。在每次 SC 譯碼嘗試中,利用在上一次 SC 譯碼嘗試中導出的對數似然比(log likelihood ratios,LLRs)序列來決定要采取的操作。據此,作者提出了一種 LSTM 網絡的兩階段訓練方法,即在第一階段學習定位第一個錯誤位,然后在第二階段學習撤銷“錯誤”翻轉。仿真結果如圖 2-51 所示。顯然,與傳統
92、 SCF 算法相比,該方法能更準確地識別錯誤比特,并獲得更低的快錯誤率(block error rate,BLER)。圖2-51 LSTM-aided SCF性能對比 29 Chen 等提出了一種低復雜度的 LSTM 網絡輔助的 CA-SCLF 譯碼器108。其將LSTM 應用于 CA-SCLF 譯碼器,可以有效地從順序譯碼的過程中產生的 LLR 中提取特征,增強誤碼預測能力。算法示意圖如圖 2-52 所示。圖2-52 LSTM-Aided CA-SCLF算法示意圖 實驗結果如圖 2-53 所示,該算法能有效地提高 BLER 性能 0.11dB。同時,對輸入數據進行預處理和輸出降維,可以顯著降
93、低 30%以上的內存需求和計算復雜度,使其設計更適合于硬件實現。圖2-53 LSTM-Aided CA-SCLF算法性能比較 2.4.4 基于基于對抗生成網絡對抗生成網絡譯碼算法譯碼算法 針對 DNN 信道解碼的局限性,小米公司提出一種基于生成對抗神經網絡進行低密度奇偶校驗碼譯碼的方法。提出的基于對抗生成網絡的低密度奇偶校驗碼譯碼模型如圖 2-54 所示。生成器接收到經過 BPSK 調制后通過 AWGN 信道的含有噪聲的碼字,在生成網絡端學習低密度奇偶校驗碼的譯碼規則,并生成譯碼結果。初步生成譯碼結果。并將此結果輸入辨別器,對譯碼結果和真實信息序列進行比對,判別器給出是或非的結果,得到結果后進
94、行反向傳播,進行反向傳播時首先判別器不更新,生成器更新,更新之后對判別器更新,生成器不更新。生成端和辨別端更新后,繼續輸入數據來訓練對抗生成網絡的低密度奇偶校驗碼譯碼算法。對譯碼生成器以及譯碼辨別器進行更新后,如果用于本輪訓練的一個或多個信息序列樣本中存在尚未經過譯碼生成器和譯碼辨別器處理的信息序列樣本,則將從尚未處理的信息序列樣本中任意一個獲得的接收碼字樣本輸入譯碼生成器以獲得與該信息序列樣本對應的譯碼碼字樣本,并將該信息序列樣本和譯碼碼字樣本輸入譯碼辨別器以確定能夠區分該二 30 者,如果能夠區分,則再次對譯碼生成器和譯碼辨別器進行更新,直至用于本輪訓練的一個或多個信息序列樣本中沒有未經過
95、譯碼生成器和譯碼辨別器處理的信息序列樣本,即用于本輪訓練的所有信息序列樣本均已被使用,則可以開始下輪訓練。如果確定無法區分譯碼碼字樣本和信息序列樣本,結束迭代訓練并獲得預訓練的 GAN 模型。如果譯碼辨別器無法區分出譯碼碼字樣本和信息序列樣本,這表明譯碼生成器能夠根據接收碼字樣本還原信息序列樣本。圖2-54 基于對抗生成網絡的低密度奇偶校驗碼譯碼模型 仿真結果如圖 2-55 所示,結果表示了基于對抗生成網絡的 LDPC 碼的譯碼結果,并與 LDPC 碼傳統的譯碼算法 BP、LLR-BP、Min-Sum 譯碼進行了比較。通過仿真圖可以看出,網絡實現了對 LDPC 碼的譯碼,其譯碼誤碼率優于傳統譯
96、碼算法。圖2-55 對抗生成網絡的LDPC碼譯碼結果 2.5 基于基于 AI/ML 的調制與波形技術的調制與波形技術 早期的工作中,AI/ML 方法主要用于在多種調制方式混合的信號中識別調制方式29,這種應用在無線通信領域實際場景并不多。和信道譯碼一樣,神經網絡也被用于替代通信鏈路的解調模塊30。對調制解調模塊的優化還體現在星座圖的設計上,此時,調制和解調常常聯合優化。文獻31使用如圖 2-56 所示的自編碼器進行調制星座的位置整形和概率整形聯合優化,并得到相應的解調神經網絡。這個方法得到的調制解調模塊性能非常接近香農極限。AI/ML 方法還可以針對特定場景進行星座圖設計,例如文獻32中,使用
97、 AE 結構設計光纖通信中使用的調制星座圖,以對抗光纖信道的非線性。31 圖2-56 基于autoencoder的調制解調聯合設計 AI/ML 方法可以用于直接進行類似 OFDM 波形的設計,例如文獻38中,不使用 DFT操作,可以直接用 DNN 得到信號的波形。AI/ML 方法也用于低峰均功率比(peak to average ratio,PAPR)波形的設計,例如,文獻39使用如圖 2-57 所示的 AE 結構,設計得到低 PAPR波形。此外,AI/ML 方法也被用于作智能波形的識別網絡,如圖 2-58 所示。圖2-57 基于AE的低PAPR波形設計 圖2-58 基于AI的智能波形識別網絡
98、 2.6 基于基于 AI/ML 的的信源信道聯合編碼技術信源信道聯合編碼技術 傳統的通信系統通過信源編碼、信道編碼分別實現圖像/視頻的壓縮和傳輸,并將信源和信道編碼劃分為兩個模塊獨立設計。信源信道分別獨立編碼具有設計簡單、模塊化的特點?;谙戕r分離定律,信源信道獨立編碼在碼長無窮大的條件下是理論最優的。然而,包括物聯網,自動駕駛和觸覺互聯網在內的許多新興應用都要求極低延遲,帶寬和能量約束的條件下傳輸圖像或視頻數據,這限制了在計算上需要依賴較長編碼的信源信道獨立編碼技術的使 32 用。對此,Gamal-Kim 從理論上闡述了多種信源信道聯合編碼模式,可以利用信源的相關性將通信系統的信源編碼和信道
99、編碼作為一個整體來進行優化設計,取得比信源信道獨立編碼更好的性能40。圖 2-59 中分別描述了信源信道獨立編解碼(圖 2-59(a)和信源信道聯合編解碼(圖 2-59(b)的框圖。圖2-59 信源信道獨立編碼域信源信道聯合編碼示意圖 傳統的信源信道聯合編碼允許用戶根據信道或網絡條件改變信源編碼參數,或是根據信源特性選擇信道編碼、調制及網絡參數。其本質是研究人員使用專家知識精巧的設計信源信道編碼方案。其中的代表是由 Wu 團隊和 Katabi 團隊在 2010 年提出的 Softcast 模式4142,通過變換對輸入圖像或視頻進行處理,并將系數直接調制為密集的星座圖進行傳輸,須進行常規的量化、
100、熵編碼和信道編碼。Softcast 方案的局限性在于需要提前獲得確定的信道模型,而真實環境下的信道特性往往是不可預測的。近年來,深度學習技術在圖像、語音壓縮等領域的發展為 JSCC 的設計提供了新的思路。其中,自編碼器作為神經網絡的一種,經過訓練后能嘗試將輸入復制到輸出。自編碼器內部有一個隱藏層,可以產生編碼表示輸入。該網絡可看做由兩部分組成:一個由函數 h=f(x)表示的編碼器和一個生成重構的解碼器 r=g(h)。在這種結構的啟發下,近期有研究提出用深度神經網絡代替傳統編解碼,設計端到端的信源信道聯合編碼結構43。鑒于自編碼器編解碼器無監督聯合優化的特點,可以考慮使用人工神經網絡對信源壓縮和
101、信道編碼進行聯合設計,從而使通信系統達到端到端的最優性能。具體的,文獻43受無編碼傳輸的啟發,編碼器完成信源編碼+信道編碼+調制的功能,解碼器完成解調+信道解碼+信源解碼的功能,其系統模型如圖 2-60 所示。該網絡的編碼器由 5 個卷積層+PRELU 激活函數的模塊組成,解碼器由 5 個轉置卷積層+PRELU/Sigmoid 激活函數的模塊組成。信道層作為不可訓練層位于編碼器和解碼器之間。33 圖2-60 基于AI的信源信道聯合編解碼方案的神經網絡結構圖 錯誤錯誤!未找到引用源。未找到引用源。對比了 CIFAR10 數據集下評估了在不同的壓縮比(k/n)條件下基于 AI 的信源信道聯合編解碼
102、和 JPEG/JPEG200+方案的峰值信噪比(Peak Signal to Noise Ratio,PSNR)性能。該性能仿真表明:在惡劣的信道條件下(SNR=0dB),信源信道獨立編碼方案無法進行無差錯傳輸導致譯碼失敗,基于 AI 的信源信道聯合編碼方案的 PSNR 高于 20dB,可以較好地進行傳輸。在中(SNR=10dB)、高(SNR=20dB)性噪比和有限的信道資源條件下,k/n 0.3,基于 AI 的信源信道聯合編碼方案的性能也顯著優于 JPEG 和JPEG2000 方案。圖2-61 基于AI的信源信道聯合編碼方案的性能 2.7 基于基于 AI 的的 OFDM 接收機設計接收機設計
103、 由于無線信道的隨機衰落、多徑、干擾和噪聲等因素的影響,傳統的基于信號相干檢測的接收機性能較差,誤碼率較高。因此面對 5G 及未來移動通信系統中越來越復雜的無線信道環境,設計誤碼率和復雜度更低的接收機,實現接收信號的高效檢測至關重要。以傳統的OFDM 系統的接收機為例,其主要分為信道估計和符號檢測兩個模塊。首先,利用接收到的參考信號與預先定義的參考信號序列,采用最小二乘法、最小均方誤差等線性信道估計方法插值得到每個子載波的頻域信道系數,并通過迫零和 MMSE 等信道均衡方法進行符號檢測,得到估計比特流。采用如上的線性信道估計和檢測方案,復雜度較低,但性能較差。而 34 采用最大似然檢測等非線性
104、接收機算法,在多輸入多輸出(MIMO-OFDM)系統中,當天線數增加、調制階數較高時,復雜度太高,難以應用。而基于 AI 的 OFDM 接收機設計,利用神經網絡擬合接收機中的非線性映射,以最小化接收機的誤比特率。同樣也包括基于模型驅動的 OFDM 接收機和基于數據驅動的 OFDM 接收機?;谀P万寗拥脑O計中,利用神經網絡對傳統 OFDM 接收機中的部分模塊進行替代或增強。通過設計合適的神經網絡,可以有效降低接收機的誤碼率。傳統的 OFDM 收機主要包含信道估計和符號檢測兩個模塊,結構框圖如圖 2-62 所示。信道估計信道估計符號檢測符號檢測pXYHX 圖2-62 傳統OFDM接收機 基于模型
105、驅動的 OFDM 接收機方法結構框圖如圖 2-63 所示。2.2.1 節中提到的去噪卷積神經網絡 DnCNN 對接收信號 和估計信道 進行去噪,能夠顯著提高信道估計準確度,進而降低接收機誤碼率?;谀P万寗拥慕邮諜C對傳統接收機進行分模塊化增強,每個網絡具有明確的物理意義,網絡復雜度較低,參數集較小。但該方案受限于傳統信道估計算法和符號檢測的性能。通常,信道估計利用參考信號和 MMSE 插值濾波得到所有時頻位置的信道。當參考信號密度較大時,MMSE 信道估計性能較高;當參考信號密度過低時,MMSE 信道估計性能較差,因此基于模型驅動的接收機性能也受限。信道估計信道估計符號檢測符號檢測pXYHX去
106、噪網絡去噪網絡DnCNNDnY去噪網絡去噪網絡DnCNNDnH 圖2-63 基于模型驅動的OFDM接收機 接收信號 是由來自于有限固定集合的星座點經信道和噪聲后得到的數據,因此接收機的設計可以等效處理為圖像的分類識別問題。為解決基于模型驅動的 OFDM 接收機在參考信號密度過低時的性能問題,提出基于數據驅動的 OFDM 接收機,其結構框圖如圖 2-64 所示。這種接收機方案采用端到端的設計方法,輸入為接收信號,輸出為估計的發送符號。該方案中沒有顯式地信道估計與符號檢測模塊,所采用的 CNN 網絡復雜度較高,參數集較大,但是能顯著改善低參考信號密度下的接收機性能。端到端端到端CNNYX 圖2-6
107、4 基于數據驅動的OFDM接收機 35 2.8 基于基于 AI 的多天線的多天線收發收發技術技術 神經網絡算法由于其強大的高維特征提取和表示能力在大維度的多天線技術領域中也受到了廣泛的關注。深度學習輔助技術實現了離線學習過程,然后在線部署了經過訓練的深度神經網絡,不僅有效提取和表達了大維特征空間,與迭代算法相比,還大大降低了時間復雜度。因為訓練后的網絡僅包含簡單的線性和非線性變換單元,所以它具有極低的復雜度和良好的性能。深度學習在混合預編碼問題上的應用也由此受到關注。受致密全連通層啟發,109110111中提出了多層感知器(multi-layer perceptrons,MLPs)。具體地說,
108、在109和110中,MLP 僅用于單用戶場景下預編碼器的設計。在文獻111中,MLP 結構被考慮用于協同波束訓練,并假設完全信道信息是已知的。而在文獻112和文獻113中,基于不完全信道狀態信息的魯棒的深度學習方案被提出。在文獻112中,提出了一種基于卷積神經網絡(CNN)的方法來解決聯合預碼器和組合器的設計問題。在文獻113中,量化和非量化的 CNN被用于混合預編碼。此外,對于常見的多用戶 MIMO 場景,文獻114給出了基于深度學習的混合預編器的設計方案,具有很高的實際意義。2.8.1 基于基于 AI 的的 MIMO 檢測檢測 早在 1994 年,就有學者提出基于 Hopfield 神經網
109、絡的碼分多址制式(code-divison multiple access,CDMA)通信系統下的多用戶檢測框架5,但受到當時 CPU 計算能力的限制,進展緩慢,隨著近年來深度學習領域的飛速發展和大規模 MIMO 技術在通信中的應用,研究者們提出了許多基于 AI 的 MIMO 檢測方案。2017 年,耶路撒冷希伯來大學的學者 Neev Samuel 依據投影梯度下降法推導設計出了用于 MIMO 檢測的深度神經網絡 DetNet((Detection Network))127128,并驗證了其在時變和非時變信道下的性能,引起了學術界的廣泛關注。DetNET 每一層的結構如圖 2-65 所示。圖2
110、-65 DetNET單層的結構圖 仿真結果如圖 2-66 所示,可以看出該算法在高斯信道條件下的 BER 性能及運算速度均優于現有的幾種方法,包括迫零算法(zero forcing,ZF)、近似消息傳遞算法(approximate message passing,AMP)和半定松弛算法(semidefinite relaxation,SDR)。36 圖2-66 時變信道條件下各檢測算法的誤碼率性能比較 文獻129中提出了基于 DNN 的 BP 用戶檢測算法,通過對 BP 迭代過程的展開,分別設計了基于 Damped BP 算法和 Max-Sum BP 算法的 DNN MIMO 檢測器,迭代相關
111、的校正因子也在訓練的過程中不斷地更新優化。圖 2-67 給出了進行 3 次 BP 迭代過程的 DNN 檢測器的框架示意圖。圖2-67 BP迭代 DNN檢測結構 (a)Rayleigh 信道下各類算法性能比較 (b)不同相關信道下各類算法性能比較 圖2-68 DNN-dBP和DNN-MS 算法性能 圖 2-68 所示的仿真結果表明了基于 DNN 的 BP 檢測算法在不同信道條件下都具有良好的魯棒性,且在較高的信噪比下,DNN-dBP 的性能優于其他 BP 算法變體(如 heuristic 37 automatic damping,HAD)以及 MMSE 等線性檢測器??梢钥吹?,由于先驗近似的存在
112、,MS 檢測算法的性能很差,但基于DNN 改進后其性能獲得了很大的改善,進一步驗證了DNN的有效性。文獻130提出基于 OAMP(Orthogonal AMP)算法設計的 OAMPNet 檢測網絡,并對其在Rayleigh信道和基于指數分布的Kronecker模型下的小型空間相關信道下的性能進行了驗證,在計算復雜度相似的情況下,OAMPNet 實現了比傳統 OAMP 算法更低的 BER。然而,DetNet、DNN-dBP 和 OAMPNet 的訓練過程都是離線進行的,通過單一信道模型訓練得到的網絡難以適應實際的時變衰落信道。在這種情況下,文獻132提出了一種支持在線學習的 MIMO 檢測網絡M
113、MNet,基于迭代軟閾值算法(ISTA)理論,MMNet 利用信道在時域和頻域上的局部化特性來加速網絡的訓練過程,使接收機可以根據實際的信道自適應地調整檢測器的參數,MMNet 無論是在計算復雜度還是模型的魯棒性上均超越了DetNet 和 OAMPNet。各類算法在誤符號率(symbol error rate,SER)上的性能對比如圖 2-69所示。(a)高斯信道下不同檢測算法的 SER 性能比較 (b)3GPP MIMO 信道下不同檢測算法的 SER 性能比較 圖2-69 MMNet算法性能 2.8.2 單用戶單用戶毫米波毫米波 MIMO 混合預編碼混合預編碼 文獻115提出了基于深度神經網
114、絡的毫米波 MIMO 混合預編碼方案,其架構如圖 2-70所示。主要的設計目標是,在保證最小化信道訓練開銷的基礎上,通過最大化系統可達速率直接對混合預編碼器以及合并器進行設計。38 圖2-70 混合預編碼架構的收發機模型圖 在經典的非機器學習信號處理中,信道估計和混合預編碼設計通常經過三個階段。首先,利用 mmWave 信道的稀疏特性,使用壓縮測量對信道進行感知。然后,利用壓縮感知對信道進行重構。最后,利用重構的信道設計混合預編碼的設計。而在文獻115所提的方案中,其處理方法是:(a)不同于在壓縮感知中的隨機測量,該方案能夠基于用戶分布和周圍環境,學習如何優化測量向量,從而將測量功率集中于最可
115、靠的空間方向。(b)基于深度學習的模型會記憶并學習如何直接從壓縮的測量值中預測混合波束成型向量。從而大大減少了訓練開銷并實現近似最優的可達和速率。文獻99 利用 mmWave 信道的稀疏特性以及考慮到直達徑(或路徑增益最強的徑)往往起主導作用,提出只需搜索出路徑增益最強的徑并使得波束形成向量(記作f)與之相匹配即可,即只需要使得信道與波束方向乘積的模最大化??紤]到毫米波通信的特點,可以將波束形成向量離散化(即f選自于預先指定的碼書),相應地,混合預編碼設計問題便轉化為波束訓練問題,如圖 2-71 所示。最優波束形成向量取決于信道環境,盡管信道環境不斷變化因而最優波束也不斷變化,但是信道環境或最
116、優波束方向在相鄰的兩個時隙內的變化是有限的,因此無需搜索整個波束空間,只需搜索以前一時隙的最優波束方向為參考點的一個較小的局部范圍。局部搜索范圍的大小與信道環境變化模式密切相關,為了優化搜索范圍以減小訓練開銷,文獻101提出了波束指標差分技術及相應的學習算法。波束指標差分技術的核心是定義整數對(,)a b,其中a表示相鄰兩個時隙最優波束指標的偏移量,用于刻畫信道環境變化的快慢程度,0b 刻畫需要進行局部掃描的波束子空間的大小。圖2-71 基于波束訓練與跟蹤的毫米波單用戶混合預編碼原理圖 最優的波束掃描方案(即整數對)與環境相關,可通過使用交互式在線機器學習方法(即Bandit Learning
117、 方法)實現,而 Bandit Learning 方法的核心是定義行動空間和獎勵函數。圖 39 2-72 比較了不同算法的有效可達速率性能,Algorithm 1 和 2 基于波束指標差分技術并通過Bandit-learning 實現,Bandit-learning 分別采用 貪婪搜索與置信區間上界(upper confidence bound,UCB)算法實現。由圖 2-72 可以看出提出的算法可以獲得接近理想算法(即Oracle-Aided 算法,波束訓練開銷為零且獲得最優性能)且遠優于其他算法的性能。圖2-72 不同算法的有效可達速率性能比較 2.8.3 多用戶毫米波多用戶毫米波 MIM
118、O 混合預編碼混合預編碼 多用戶情況則更為復雜。文獻114研究了基于 AI 的多用戶毫米波 MIMO 系統混合預編碼問題。系統模型如圖 2-73 所示。圖2-73 多用戶MIMO下行系統框圖 基于不完全的信道狀態信息,通過最大化可達速率來設計混合預編碼器和合并器。具體的過程如下。首先解決混合預編碼問題,得到訓練數據樣本標簽,接著向網絡提供不完全 CSI 來預測混合預碼器與合并器。也就是說深度學習的網絡提供了一種信道矩陣與預編碼器之間的非線性映射關系。為了獲得魯棒的性能,在離線訓練階段向網絡提供了一定比例的被噪聲破壞的信道實現。因此,在測試階段,當網絡預測預碼權重時,則不一定需要完美的CSI。通
119、過該方法能較好地處理信道矩陣損壞的情況,并實現較好的可達速率。所提方案的網絡結構如圖 2-74 所示。40 圖2-74 提出的網絡架構 在圖 2-75 中模擬了不同 SNR 下算法的性能??梢钥闯?,擁有完整信道狀態信息的算法獲得了最優的性能。與其他方法相比,CNN-MIMO 在輸入數據有噪聲干擾的情況下更具魯棒性,這是因為在 CNN-MIMO 中預編碼向量與合并向量集合只在訓練階段被使用,在預測階段不被需要,而僅根據信道信息就可以自動進行預測?;谕ㄐ疟举|是與時變環境持續交互這一基本事實,文獻102提出了一種基于智能交互式學習范式的毫米波多用戶預編碼算法如圖 2-76 所示。相應的通信模型模塊
120、與自適應學習模塊主要組成部分及作用如下:a)通信模型模塊主要由波束掃描模塊和數字預編碼器優化模塊構成,主要任務是確定模擬與數字預編碼器,其中模擬預編碼器通過波束掃描的方式確定,而數字預編碼器通過成熟的優化技術獲得。由于波束掃描的范圍與信道環境變化密切相關,因而由自適應學習模塊提供。b)自適應學習模塊基于積累的歷史經驗信息實時預測最優波束子空間,由于最優波束子空間受到不斷變化的物理環境的影響且不斷變化,自適應學習模塊必須能夠實時感知環境變化的規律并從中提取所需要的概率統計信息。智能交互式學習范式可通過強化學習算法具體實現,核心是定義行動空間、狀態空間及回報函數,行動空間可以通過波束指標差分技術實
121、現102,狀態空間通過波束圖像技術實現,回報通過求解相應優化問題獲得。圖2-75 信道數據加噪之后各方案的性能對比 41 圖2-76 基于智能交互式學習范式的毫米波多用戶預編碼算法 圖 2-77 比較了不同算法的有效可達速率性能,包括基于窮盡搜索(ExSeBT)、分層搜索(HSBT)和基于隨機 Bandit 學習(SBLBT)三種算法,也提供了理想算法(OABT,其訓練開銷為零且獲得最優性能)的仿真結果。由圖 2-77 可以看出,文獻102提出的多用戶混合預編碼算法(ESBT)與理想算法之間的性能間隙較小且優于其他 3 種預編碼算法。圖2-77 不同算法對應的有效可達速率性能 2.8.4 移動
122、自適應移動自適應協同協同波束成形波束成形 移動情況下的自適應波束成形也有學者開展了一些探索111。圖 2-78 給出了所考慮的移動系統框圖。圖2-78 毫米波協同波束成形系統框圖 42 由于多個基站同時為用戶提供服務,協同波束成型系統提供了抗阻塞的能力、多樣性和魯棒性,這直接提高了系統的覆蓋率、可靠性和延遲性能。然而,該系統設計的主要挑戰是實現高數據速率的要求,因為訓練和設計 RF 波束成型的時間開銷可能非常大,特別是對于高移動用戶?;谶@一動機,該方案著重于開發有效的信道訓練和波束成型設計策略,以最大限度地提高系統的可達速率,并使高速移動場景下的 mmWave 應用成為可能。直觀上,波束訓練
123、的結果是一個關于環境設置(譬如用戶/BS 位置,房間家具,街道建筑和樹木等整個場景)的函數。然而,這些函數難以刻畫,因為它們會涉及到很多的參數,且對于每種環境設置都是惟一的。因而文獻111所提方案將深度學習模型與通信系統設計相結合,就是要學習波束訓練結果與相關環境設置的隱式映射函數。該機器學習模型利用基站端接收到的全波束模式或準全波束模式的導頻信號,預測出最優的射頻波束成型矢量。這些在 BSs 接收到的導頻信號是來自用戶的傳輸信號與環境中不同元素相互作用的結果,通過傳播、反射和衍射。因此,這些在不同的基站端聯合接收的導頻信號,刻畫的是環境和用戶/BS 位置的一個特征,也就是我們學習波束成型方向
124、所需要的特征。該系統分為兩個階段運行,即在線學習和深度學習預測階段。圖2-79(左)在線學習階段模型 圖2-80(右)深度學習預測階段模型(a)如圖 2-79 所示,在學習階段,用戶發送導頻信號,基站端使用波束成形碼本中的向量以及全向波束進行接收。因此,深度學習模型可以學習所有 BS 上聯合捕獲的 OFDM 全向接收信號與不同射頻波束形成矢量帶來的系統速率之間的隱式關系。(b)如圖 2-80 所示,在預測階段,系統依據訓練好的學習模型,基于基站端接收到的全向信號來預測使得系統可達速率最大的最優波束成形矢量。43 圖 2-81 中考慮的是在 NLOS 場景中,展示了對于不同大小的訓練數據集,用戶
125、端以30mph 速度運行時的有效可達速率。它顯示了該深度學習模型不僅可以學習 LOS 場景下的波束成形同時還可以預測 NLOS 場景下的最優波束成形矢量。該方案依賴于多路徑衰落,而不是僅僅是通過用戶位置/坐標來預測波束。圖2-81 提出的深度學習方案的有效可達速率 2.8.5 基于基于 AI/ML 的波束漂移抑制技術的波束漂移抑制技術 現行的毫米波波束形成方案通常假設在給定的時隙中,信道路徑的到達角/分離角是不變的,因此最優的波束方向也是不變的。但是由于用戶不斷移動等導致的信道環境快速變化,信道的到達角/分離角實際上是連續變化的,又由于實際波束的非理想性,已經對齊的波束的主瓣中心角很快偏離實際
126、的信道方向,導致系統性能的下降,這一現象被稱之為波束漂移。需要指出的是,即使環境變化極慢,波束漂移效應相對較弱,但只要發生波束切換,波束漂移效應便不可避免,因而為了獲得更好的性能需要抑制波束漂移效應。在現行的技術方案中,當通過波束訓練或其他方法估計出信道路徑的到達角或分離角后,便基于估計的信道方向設計波束形成向量/矩陣進行數據傳輸,典型的方案是使用主瓣中心角匹配估計的信道方向的窄波束進行數據傳輸。這一方案忽略波束漂移效應會引起系統性能的下降,因而需要進一步優化波束形成方案。圖2-82 波束漂移效應抑制的方法原理圖 由于波束漂移效應與環境變化密切相關,感知環境變化的快慢便成為抑制波束漂移效應的基
127、礎和關鍵。為了抑制波束漂移現象,文獻100提出了如圖 2-82 所示的通信方案,主要包括兩個模塊,即波束對齊/訓練模塊與數據傳輸模塊。波束對齊/訓練模塊主要用于估計信 44 道的方向,依據波束變化的局部性原理,即波束切換通常僅僅在以當前波束為中心的一個較小的范圍內,故可以使用窄波束進行波束訓練以提高角度估計的精度。數據傳輸模塊設計的核心是感知信道環境變化的快慢,并結合估計的信道方向選擇/設計適當的波束或波束子集進行數據傳輸,主要方法有兩種:(1)依據感知的信道環境變化的快慢,自適應地調整數據傳輸波束的寬度,典型方法是使用多分辨率碼書;(2)數據傳輸波束的寬度不變,但采用更高的頻率進行切換,且切
128、換的頻率由信道環境變化的快慢決定。具體的實現方法是使用基于上下文的 Bayes Bandit 算法,核心是定義行動空間、狀態空間和獎勵等。具體而言,行動空間由數據傳輸波束寬度或波束切換頻率構成,狀態空間由發送功率、等效信道系數、發送功率和波束寬度等構成,獎勵由感興趣的性能指標構成,如有效可達速率。圖 2-83 提供了數據傳輸波束寬度固定方案(SCB)與為抑制波束漂移效應而設計的數據傳輸波束寬度自適應優化方案(BWO)的仿真性能比較,即采用第一種方法設計并通過多分辨碼書實現。由圖可以看出由于能夠有效地抑制波束漂移效應,與波束寬度固定的方案相比,波束寬度自適應的方案可以獲得更好的有效可達速率性能。
129、圖2-83 有效可達速率-數據傳輸波束寬度固定與自適應優化 2.8.6 基于基于 AI/ML 的波束的波束跟蹤跟蹤技術技術 雖然波束成形可以增強用戶端的信號強度,提高覆蓋,但前提是波束方向需要和目標用戶對準。這一點需要通過波束訓練實現。一旦波束的指向偏離用戶,用戶反而接收不到高質量的無線信號,可謂是差之毫厘,謬以千里。在移動通信場景下,用戶移動與隨機遮擋導致信道時變,需要反復的進行波束訓練獲取實時準確的信道信息;但是工作在毫米波和太赫茲頻段的大規模天線陣列規模較大,傳統窮舉式的波束訓練方式會產生巨大的導頻開銷。因此常采用波束跟蹤輔助波束訓練的方式。根據信道的時變規律,以低開銷快速的獲取信道信息
130、,大開銷的波束訓練僅在追蹤失敗后重新開始??梢哉f,快速高效的波束跟蹤算法是保證移動通信質量的關鍵。波束跟蹤的關鍵在于精準的信道預測,對信道如何隨時間變化進行一定的預測,以預測的結果作為先驗知識,進行波束跟蹤。文獻117提出來一種簡單的線性運動預測法,該方法主要應用于存在 LOS 的情況。如圖 2-84 所示,假設用戶做勻速直線運動,以線性運動為例,x 軸為基站天線,藍色虛線為用戶在兩個時隙內的移動情況,用戶由 A 點移動到 B 點,再移動到 C 點。45 圖2-84 用戶運動預測 根據這個模型我們可以由 t 時刻的發射角和角速度推導出 t+1 時刻的發射角和角速度。由此來根據用戶過去狀態 LO
131、S 徑預測發射角,降低導頻開銷。但是該方案,需要對用戶移動性做一定假設,無法滿足用戶移動較復雜的場景;另外,該方法僅僅限于存在 LOS 的情況下,對 LOS 進行預測。對于上述問題,為了減少訓練開銷,一個可行的方法是從以往的波束訓練中提取和利用信息,以減少波束搜索空間,并為以后的訓練做準備。這種想法和機器學習相結合,產生了基于 ML 的波束訓練算法118119120。但是這些方法都是基于監督學習,事先需要大量的數據做神經網絡的訓練。最近,文121提出來基于強盜測試算法(Bandit learning)的波束跟蹤算法121:該文將波束跟蹤建模為一個隨機 bandit 問題。為了感知環境的變化,利
132、用最優波束序號的偏移,提出了基于 Bandit learning 的波束跟蹤算法。該算法針對基于碼本的波束跟蹤。波束成形的預編碼取自一個預先設計的碼本。一般該碼本的碼字是按照角度排列的 DFT 向量。該方法利用這兩個序號之間的差值來感知環境變化。令 u 表示相鄰兩個時刻的最優波束序號指數的差值(或偏移量),b 表示下個時刻進行波束掃描需要考慮的波束個數。該方法的關鍵就是如何根據以往的行動空間和最優的波束,找到下一時刻最優的u和b。文121將該優化問題建模為隨機 bandit 問題(賭博中的老虎機模型)?;谠撃P?,文121采用 Bandit learning 的方法,對其進行優化。Bandit
133、 learning 是一種簡單而強大的在線學習算法,一切通過數據收集而得到的概率預估任務,都能通過 Bandit 系列算法來進行在線優化。算法的框架包含兩個部分,一是探索未知(explore),二是利用已知(exploit)。文121中以最大化系統的傳輸速率,通過 Bandit learning 的框架,分別利用 Bandit learning常用的 Epsilon-Greedy 算法和 UCB 算法(Upper Confidence Bound,置信區間上界),利用以往的u和b,推斷出下一時刻的波束掃描范圍,在大大降低訓練開銷的情況下,使得系統性能接近最優。2.9 基于基于 AI 的多的多用
134、戶用戶接入接入技術技術 隨著設備數量的爆發式增長以及大規模 MIMO 系統的廣泛應用,傳統的多接入技術無法滿足大規模設備的接入要求,非正交接入技術通過對時、空、頻和功率等多個維度資源的復用,可以保證用戶的接入性能,同時也使得多用戶檢測的計算復雜度問題變得極具有挑戰性。傳統的壓縮感知(compressed sensing,CS)方法雖然能利用稀疏性減少復雜度,但其 46 性能和復雜度還有很大的改進空間?;谏疃葘W習的多接入技術122是近年來 AI 在無線通信中應用的研究熱點之一,國內外眾多研究機構均對該方向開展了深入探索,相關工作集中于依據各類信號檢測算法的特性設計神經網絡,以實現智能化的多用戶
135、檢測、用戶活動性(用戶激活)檢測2-4、多用戶 MIMO 檢測5-11或多用戶干擾分離133,提高檢測性能的同時極大地降低了計算量。如前文所述,基于 AI 的多接入技術可分為模型驅動方法和數據驅動方法。模型驅動方法的網絡結構由可訓練變量的迭代算法設計而成,學習時使用現有算法的結果作為初始起點,并基于反向傳播算法優化變量,如智能用戶活動性檢測網絡 DNN-MP-BSBL123以及前文提到的智能 MIMO 檢測網絡 DetNet127和 OAMPNet130。而數據驅動方法的網絡學習過程是模型不斷擬合現實數據的過程,如智能用戶活動性檢測網絡 D-AUD124和BRNN131 以及智能 MIMO 檢
136、測網絡 DNN-dBP129和 MMNet132。圖2-85 基于AI方法的多用戶接收機 針對非正交接入(non-orthogonal multiple access,NOMA)系統中的多用戶干擾問題,華為使用 AI/ML 方法設計了如圖 2-85 所示的多用戶接收機46,其性能優于傳統接收機。2.10 基于基于 AI 的活躍用戶檢測的活躍用戶檢測 在物聯網場景下的免授權隨機接入系統中,基站需要進行用戶活動性檢測來使識別有哪些用戶處于激活狀態,以便后續對傳輸數據進行解碼,確?;竞陀脩糁g的有效通信,因而其檢測的準確度大大影響著系統的整體性能。目前有關活躍用戶檢測算法的大量研究仍是基于傳統的壓
137、縮感知算法進行改進,性能提升非常有限。為克服傳統壓縮感知算法的技術限制,解決大規模免授權接入系統的活躍用戶檢測問題,國內學者在深度學習的基礎上構建了 LDS-OFDM(Low-density signature-OFDM)系統的活躍用戶檢測(active user detection,AUD)與信道估計(channel estimation,CE)方案,根據基于塊稀疏表示的貝葉斯學習算法設計了 DNN-MP-BSBL(deep nneural 47 network-aided message passing-based block sparse bayesian learning)框架123。
138、該算法迭代一次的網絡結構及其每層實現的操作如圖 2-86 所示。圖2-86 DNN-MP-BSBL結構(N=3;K=6;Lt=2;dc=2)由網絡結構可知,DNN-MP-BSBL 將消息傳遞的迭代過程從因子圖轉移到神經網絡中,因此促進算法收斂的同時也提高了檢測結果的準確度。其性能如圖 2-87 所示,基于 DNN 的MP-BSBL 算法在不同活躍用戶概率下檢測的準確度均高于傳統算法,尤其是在迭代次數較少時,其優勢更為顯著。但隨著迭代次數和系統參量的增大,網絡的規模也不可避免地越來越大,會造成巨大的訓練開銷。圖2-87 活躍用戶檢測錯誤概率性能比較(Nit為迭代次數)DNN-MP-BSBL 解決
139、的是聯合 AUD 和 CE 問題,針對 AUD 問題,近期,精通壓縮感知理論的韓國學者B.Shim的團隊提出了基于 AI 的上行鏈路免授權 NOMA 系統的活躍用戶檢測方案D-AUD(deep active user detection)125,如圖 2-88。利用某一個時刻活躍用戶的稀疏性,活躍用戶檢測問題可以轉化為支持向量檢測的問題,并用神經網絡直接學習接收信號到活躍用戶索引集合間的映射關系。48 圖2-88 D-AUD網絡結構 D-AUD 的訓練是監督學習的過程,基于人工生成的大量訓練數據,網絡最終能收斂到一個較為穩定的狀態。從圖 2-89 中可以看出,在不同的過載條件下(過載因子=用戶
140、數/子載波數),D-AUD 的活躍用戶檢測成功率均明顯優于傳統的 LS-BOMP、MMSE-BOMP 和AMP 算法,尤其是在過載因子較大的時候,傳統算法由于感知矩陣的欠定程度嚴重,性能也急劇惡化,而 D-AUD 則在過載因子增大和活躍用戶數目增多時表現出了較強的魯棒性。(a)不同過載因子下 AUD 成功概率比較 (b)AUD 成功概率隨活躍用戶數目變化曲線 圖2-89 D-AUD與傳統檢測算法性能比較 基于固定網絡長度的 AI 的算法無法有效適應海量機器通信中動態激活用戶數的需求。文獻116提出了一種根據稀疏度動態調整 AI 網絡深度的方法,與固定長度的 AI 算法比,在相同的迭代次數下獲得
141、了更好的性能。以 LISTA 為列,圖 2-90 展示了相應網絡結構。具體的方式是在現有的 deep unfolding network 的每一次迭代后增加一個分支,這些分支會衡量x 求解的情況,給出停止分數(halting score).當某次迭代的停止分數小于給定的門限值時,x就會從當前的迭代下輸出。這些分支構成了 halting score network。49 圖2-90 網絡結構示意圖 仿真結果如圖 2-91 所示,展示了動態網絡深度和固定網絡深度在性能上的差異。圖中虛線是使用了 halting score network 的性能,可見當 deep unfolding network
142、 一樣時,在相同的迭代次數下此方案提出的方法獲得了更小的均方誤差(MSE)。圖2-91 性能比較 2.11 基于基于 AI 的定位技術的定位技術 目前,消費者市場,比如商場導購、停車場反向尋車、家人防走散、展廳自助導游等,垂直行業,如人流監控和分析、智慧倉儲和物流、智能制造、緊急救援、人員資產管理和服務機器人等,都對定位服務提出了更高精度的需求??傊?,高精度定位是未來智能生活和智能工廠普及化的基石。然而,在很多應用場景中,多徑,NLOS,室內覆蓋和同步問題都是實現高精度定位難以跨越的障礙。3GPP 在 NR Rel-16 標準中引入了多種定位方法,包括基于時間測量的方法和基于角度的方法。之后,
143、3GPP 在 R17 通過定位增強的立項,旨在滿足消費者市場和企業市場的高精度位置服務需求。3GPP NR Rel-17 標準的應用場景主要是商業場景以及 IIOT 場景。精度要求非常高,最高達到分米級。特別是在 IIOT 場景,水平方向要求定位精度小于 0.2m。然而,目前經典的定位算法,比如 TDOA 算法,比較依賴場景中的 LOS 基站個數,當 LOS 基站的個數少于 4 個時,定位的精度一般都很難達到要求,而在 IIOT 某些場景中,LOS 概率都是比較小的。因此很難 50 達到 0.2m 的定位精度要求。比如 DH(3GPP 仿真場景之一)在各種參數配置下的 LOS 概率如圖 2-9
144、2。圖2-92 不同場景下LOS的概率(左)圖2-93 AI在FR1和FR2下的定位仿真結果(右)也就是說在 InF-DH 和 InF-DL 下,最多只能保證 1-2 個 LOS 基站,在這種情況下,定位的精度誤差一般在 16m 以上。因此需要進一步研究新的定位算法,比如利用 AI 的高效的特征提取功能,來提取基站到用戶信道測量信息的抽象特征,可能會對上述問題帶來重大的突破。利用神經網絡的非線性優勢,可借助所有信道測量信息,包括非直射徑的信道信息進行特征提取并訓練,達到更高的定位精度要求。從上面的仿真結果可以看出,在 InF-DH 場景且極端 NLOS 環境下,對比傳統的經典算法(十幾米定位誤
145、差),AI 定位的精度達到了分米級,如圖 2-93 所示。51 第三章第三章 基于基于 AIAI/ML/ML 的鏈路層技術的鏈路層技術 未來無線通信系統將由不同的接入制式,多樣的網絡部署方法和混合異構網絡共同組成,旨在實現數據傳輸速率、網絡覆蓋率和可連接設備數量等方面的大幅提升以及網絡時延和設備能耗的持續降低。在未來無線通信系統中,無線資源分配以及系統內部與系統之間的干擾協調是業界關注的一大研究熱點。面對狀態多變、架構復雜的未來網絡,傳統模型和算法難以提供高效可靠的技術支撐?;谌斯ぴO計的傳統的資源管理方法將很難滿足日益苛刻的通信服務質量需求。同時,下一代無線網絡期望更多地考慮用戶環境以及行為
146、特征,從而提供更高質量的個性化的通信服務11。為解決這些問題,面向下一代無線網絡的資源管理方法亟需理論和范式上的創新與突破。另一方面,基于 AI 的最優控制方法在近幾年有著迅猛的發展,其中最主要的發展方向為強化學習。強化學習能夠通過與環境的交互,學習環境的特征,從而自適應地實現最優決策。特別是深度強化學習(deep reinforcement learning,DRL),能夠以極低的計算成本智能地處理復雜系統的最優控制問題12。不同于傳統模型和算法,AI 技術對復雜多變的網絡環境和網絡結構具有很好的適應性,并且能從已有數據和先驗信息中提取出未知特征以推演出高效的資源調度和干擾協調方案。由此,應
147、用先進的 Al 技術解決異構無線資源調度和干擾協調問題逐漸發展為無線網絡技術研究中一類新興的研究手段。因此,基于強化學習的無線資源管理具有很大的研究空間與發展潛力。其有望替代基于人工設計的傳統方法進行無線資源管理,協助無線網絡智能地學習和自適應地決策?;趶娀瘜W習的無線資源管理作為當前的研究熱點,得到國內外諸多著名研究團隊與企業的推進和發展13-23。目前,在頻譜資源分配13,車聯網14,無人機通信16,綠色通信17等諸多方面,已有較為成熟的研究成果。這些研究成果表明,相比基于人工設計的傳統方法,基于強化學習的無線資源管理在計算成本與服務質量上的表現均有提升。在無線通信干擾協調、資源調度(包括
148、功率分配、信道分配、接入控制)和集中式分布式架構方面,AI 已經有了各種研究和應用,詳細如下所述:3.1 基于基于 AI 的功率分配的功率分配 文獻143中,作者考慮了由單個 MBS 和若干個 SBSs 構成的混合供能異構網絡,基站可以消耗傳統電網的能量也可以消耗可再生的新能源。由于在移動環境中準確和完整的環境模型是未知的,論文構建了基于無物理模型(model-free)的強化學習模型用于指導網絡的用戶調度和能源分配,最大化系統的能量利用率。具體的,作者提出利用參與者-批評者(actor-critic)強化學習算法來得出最優隨機策略。其示意圖如下:52 圖3-1 Actor-critic 強化
149、學習框架 該算法由于結構特征具有收斂性。仿真結果證明當網絡提供更多的可再生能源時,所提出的算法可以提高資源利用率。文獻145中,作者提出一種分布式 model-free 強化學習算法實現所有發送機的加權效用和最大化目標。具體的假設信道 CSI 的隨機變化和延遲都是固有的,每個發送機收集鄰居的 CSI 和 QoS,采用深度 Q-learning 決定自身的發送功率。論文提出的算法可以得到一個相比于集中式算法更快的次優算法。文獻150在進行功率分配的同時,考慮了信道間存在干擾,并基于此提出了一種基于Q-learning 的功率分配策略。該策略根據所觀察到的無線電環境狀態和干擾功率以及描述每個狀態作
150、用對的折扣長期回報的質量函數或 Q 函數來選擇發射功率。該方案在不考慮信道模型和干擾模型的情況下,在 MIMO NOMA 動態抗干擾博弈中推導出多用戶最優策略。3.2 基于基于 AI 的信道分配的信道分配 文獻146研究了毫米波超密集網絡中的頻譜管理問題,并將時空復用作為提高頻譜利用率的一種方法。作者將頻譜管理問題歸結為設備間的非合作博弈,證明了該問題是一個保證納什均衡(nash equilibrium,NE)存在的一般潛在博弈。為了幫助設備在沒有全局信息的情況下實現 NE,作者設計了一種新穎的分布式 Q-learning 算法,使得設備能夠從個體獎勵中學習環境。每個設備的動作和回報分別是信道
151、選擇和信道容量。經過分析得出學習主體間的耦合有助于加速學習的收斂。仿真結果表明,該方案比多條對比基準線收斂更快、更穩定,且延遲小。不同于已有工作中直接利用經典的強化學習方法,文獻147則設計了一種全新的包含遞歸神經網絡的強化學習方法來處理 LTE-U 系統中許可和未授權頻帶的管理。該問題被描述為一個以 SBSs 和 MBS 為博弈參與者的非合作博弈,且每個 SBS 已知的網絡信息有限。為了實現混合策略的 NE,提出了一種基于回聲狀態網絡(echo state networks,ESNs)的多智能體強化學習方法。與傳統的 RL 方法相比,該方法可以在不需要太多訓練數據的情況下快速地學會分配資源。
152、在算法執行過程中,每個 BS 只需要廣播當前所采取的動作及其最佳動作。仿真結果表明,與 Q-learning 相比,該方法下第 50 百分位用戶的速率總和提升達到 167%。在部署異構網絡時,干擾是實現高頻譜效率的最大限制因素之一。文獻151研究了一個異構網絡中的多目標、頻譜訪問問題,旨在實現 QoS 約束下同時最小化在微蜂窩處接收的幀內/層間干擾以及從微蜂窩到演進基站(evolved node B,eNB)的層間干擾。由于缺乏全局完整的信道信息,節點數量未知等因素,作者提出了一種基于聯合效用和策略估計的強化學習方法,該方法包含兩個序列層次,第一級的目的是為飛蜂窩識別可用的頻譜資源,第二 53
153、 級負責資源的優化選擇。仿真結果表明,該方法使得層內和層間干擾的顯著減少,從而實現更高的小區吞吐量。文獻142提出了一個基于機器學習的多無人機管理框架減輕無人機小區之間的干擾,旨在保證地面用戶所需的數據率的同時,最大限度地提高無人機小區的能源效率。該框架的關鍵技術包括用于控制發射功率的親和傳播干擾管理(APIM)方案和用于位置重排的 K-means 位置調整方案。與已有的方案相比,該方案減少干擾并提高 25的能效。3.3 基于基于 AI 的接入控制的接入控制 接入控制的本質是復用,根據資源復用時是否有可能會發生碰撞沖突,我們將接入控制分為無沖突的調度和基于競爭的隨機接入。文獻15提出了一種基于
154、深度 Q-learning(deep Q-learning,DQL)的物聯網傳感器的動態信道接入方案。在每一個時隙,傳感器選擇 M 個信道中的一個來傳輸它的數據包。信道狀態低干擾,即表示成功傳輸,反之高干擾,代表傳輸失敗。由于傳感器在選擇了通道后只知道通道狀態,因此傳感器的優化決策問題可以表述為部分可觀察馬爾可夫決策過程。文獻149中則考慮了一種多傳感器場景,并使用 DQL 處理聯合信道接入和包轉發。該模型如圖 3-2 所示,其中一個傳感器作為中繼,將從鄰近傳感器接收到的數據包轉發給接收器。該傳感器裝有緩沖區以存儲所接收的數據包。傳感器在每個時隙中選擇一組信道進行數據包轉發以最大化其效用,即傳
155、輸數據包的數目與傳輸功率的比率。本文證明了傳感器的效用函數是有界的,保證了算法的收斂性。圖3-2 物聯網中的聯合信道接入和包轉發 盡管調度可以完美規避沖突,但其需要預先設計策略,導致自適應能力與可擴展性較差。相反,基于競爭的隨機接入算法往往無需中心控制節點或者少量中心控制信號,通過精巧設計的分布式算法實現在復雜網絡環境中的接入控制。文獻153中,作者提出了一種基于學習的二進制指數回退算法,用以解決無線局域網內的沖突問題。不同于傳統回退算法中隨機選擇后退時長,新算法會根據上一次成功發送選取固定值,進而可以有效減少沖突的發生頻率,提升整體性能。文獻21中,作者引入隱馬爾可夫模型(hidden Ma
156、rkov model,HMM),并通過對頻譜參數的學習,解決了次級用戶接入空閑頻譜資源的沖突問題。相比較次級用戶而言,初級用戶的突發傳輸會導致頻譜檢測誤差大大增加,并嚴重影響次級用戶隨機接入的成功率。作者通過對初級用戶的特征建立 HMM,設計了一種信道學習算法,可以有效的識別出初級用戶的傳輸模式,其基本框架如圖 3-3 所示。54 圖3-3 基于學習的隨機接入非授權頻譜策略 3.4 基基于于 AI 的鏈路調度的鏈路調度 文獻145研究了在密集部署的無線網絡場景下無線調度問題,利用空間深度學習,對具有全頻率復用的多個干擾鏈路提出了最佳調度的解決方案。針對此問題的經典優化方法通常有以下模式:首先估
157、算所有干擾信道強度,然后使用該模型找到最佳解決方案。然而,傳統的調度方法是計算密集的,尤其是在密集網絡中,信道估計成本很高,并且鏈路調度的優化通常是非凸問題。研究人員采用一種深度空間學習方法來解決調度問題。完全繞過信道估計階段,并使用深度神經網絡僅基于網絡中發送器和接收器的地理位置來產生接近最佳的調度。使用神經網絡架構將受干擾的節點和相鄰節點的地理空間卷積作為多個反饋階段的輸入,以學習最佳解決方案。用地理位置信息(GLI)替代每個發射機和接收機的信道狀態信息作為神經網絡的輸入,將問題的復雜度由變成。將一個網格區域的連續變量離散量化發射機和接收機的網格密度作為輸入。其相比傳統方法的優勢在于通過使
158、用地理空間卷積來估計每個鏈路周圍的干擾鄰居的密度以及用于逐步調整鏈路活動模式的反饋結構。深度神經網絡實際上可以學習網絡干擾拓撲并僅根據地理空間信息就可以執行調度到接近最佳狀態,從而省去了昂貴的信道估計階段。3.5 基于基于智能體智能體(smart agent)的無線的無線資源調度資源調度 為了應對無線傳輸環境的高度動態性和未來無線通信用戶的需求多樣性,靈活高效一直是空口技術設計的原則。當通信算法設計從單鏈路擴展到網絡級、系統級時,問題的復雜度程度往往急劇上升。大量傳統算法為了在可接受復雜度范圍內工作,不得不進行簡化和假設,使得系統性能受損,因此這類問題往往有著更大的增益空間。AI/ML 方法中
159、的 RL 算法可以通過智能體與環境交互,動態調整自身的決策策略,獲得最優的期望收益。它無需對系統進行顯式建模,因此非常適合用于解決復雜通信系統中的參數選擇、跨模塊聯合優化、跨層資源分配和決策類任務?,F有工作中體現的 RL 對空口的影響主要體現在將其用于解決功控、調度、資源分配等決策類任務時,空口參數的優化配置。例如,文獻47使用 DRL 方法解決車輛到基礎措施(vehicle to infrastructure,V2I)場景下設備調度問題,通過控制設備開啟和休眠,使得系統在滿足 QoS 需求的情況下延長路邊單元的電池使用時間。文獻48使用 DRL 方法實現 IoT設備的調度,在不影響正常語音業
160、務的情況下,最大化 IoT 業務的吞吐。文獻49聯合優化了調度和內容緩存策略。文獻50則在給定功率限制下優化用戶的上行調度流程,最大化系 55 統的上行吞吐。這類問題常??紤]多個小區,因此需要使用多智能體 RL(multi-agent RL,MARL)。根據多智能體的實現方式不同,可以將這些工作大致分為兩類。第一類工作中,多個智能體采用各不相同的神經網絡參數。這些智能體在同一個環境中進行訓練,它們各自的決策需要考慮其他智能體可能的動作情況,同時會對其他智能體產生影響。例如文獻51基于 MARL 中常用的單 critic 網絡+多 actor 網絡結構解決異構網絡中的功控問題。中心式的訓練過程中
161、,中心 critic 網絡可以獲得全局信道,多個 actor 被部署在多個網絡 AP 上,各自根據 critic 的指導和本地信息進行訓練。文獻52中,各用戶基于深度 Q-learning 網絡(deep Q-learning network,DQN)訓練自身的智能體,完成 AP 關聯和資源分配。圖3-4 基于MARL的D2D場景功率分配方法 另一類工作中,多個智能體使用相同的神經網絡結構和參數。不同智能體從本地局部環境中收集的經驗增加了神經網絡的訓練樣本,幫助網絡更快收斂。訓練好的神經網絡也可以直接下發給新入網的智能體,解決了擴展性問題。如圖 3-4 所示,文獻53使用這種方法解決了物與物(
162、device-to-device,D2D)場景中的功率分配問題。文獻54則用于解決蜂窩網絡多小區聯合調度和功控問題,建模過程中,考慮系統狀態收集和交互的時延,即智能體智能通過一些過期的信息進行決策。作者嘗試使用 DRL 方法解決蜂窩網絡用戶調度問題??紤]了兩種流量模型,其中全緩存(full-buffer)流量模型下,可以通過優化算法得到問題的最優解;而非全緩存(non-full-buffer)流量模型下,最優解則無法顯式獲得。56 圖3-5 基于DRL的full-buffer場景用戶調度 對于full-buffer流量模型,作者基于DRL框架,設計了如圖3-5所示的三種學習方法55。在直接學習
163、方法中,使用常規的 DRL 算法,一個智能體通過和環境交互,調制調度策略。這種方法極易落入局部最優點。在對偶學習方法中,作者采用兩個智能體,固定智能體 0,訓練智能體 1 以實現由于智能體 0 的性能,一段時間后,固定智能體 1,開始訓練智能體 0,使其性能優于智能體 1。通過多次迭代,實現兩個智能體之間的相互學習,最后可以收斂到最優性能。專家學習方法則采用最優算法作為專家知識,訓練智能體,最后也可以達到最優性能,且收斂速度更快。對于 non-full-buffer 流量模型,無法獲得顯式的最優算法。作者使用 DRL 方法,結合 n步回退、熵正則化、動作掩碼(masking)等訓練方法,可以得
164、到優于現有算法的性能:在不損失公平性的情況下,實現吞吐的提升和丟包率的下降56。作者還將在單 RBG(resource block group)條件下訓練的智能體用于多 RBG 場景的調度推理,同樣可以獲得類似的優于傳統算法的性能,這說明了這種方法的泛化性能有一定保證。另一個工作同樣提出了智能無線資源管理的問題?;谏疃葟娀瘜W習的調度設計可以建模為一個馬爾科夫決策過程(Markov decision process,MDP),針對 MDP 問題的求解,可以采用基于策略的 advantage actor-critic(A2C)架構。其中包含兩個待訓練神經網絡,即策略網絡和價值網絡。如圖 3-6
165、所示,我們提出了一種可擴展的神經網絡設計方法,其中同一個策略網絡被重復使用 K 次,用以處理用戶設備的每一個狀態;價值網絡則只被使用一次,用以處理所有用戶設備的平均狀態。所有用戶設備共享同一個策略網絡。策略網絡和價值網絡都是全連接的神經網絡,其激活函數設置為:策略網絡和價值網絡的所有隱藏層的激活函數均使用 ReLU 函數,策略網絡輸出層的激活函數使用 softmax 函數,價值網絡輸出層的激活函數使用線性函數。因此,策略網絡和價值網絡的輸入層的維度均為 4,輸出層維度均為1。用戶設備的數量值只影響策略網絡的使用次數,這稱為用戶調度的置換不變性。圖3-6 可擴展的神經網絡設計 57 深度強化學習
166、中智能體的訓練需要很長時間,且在探索新的動作過程中會使得系統性能和魯棒性下降。因此,通過隨機初始化并從零開始訓練的在線訓練方法效率很低。對此,我們采用離線訓練的方式,并將訓練完成后的參數設置為智能體的初始參數。在離線訓練過程中,先從實際系統中采集數據,包括信道狀態和緩沖區狀態,并存儲在數據庫中。當智能體完成相應動作后,將被調度到的用戶設備的估計速率加入到系統吞吐量中,并計算每個用戶設備的丟包數的方法,可以計算出相應的獎勵值。通過上述離線訓練的方法,可以有效地加快智能體的訓練速度。首先驗證基于深度強化學習的調度方案的可擴展性。其他仿真參數如 0 所示。圖 3-7 刻畫了在單蜂窩、5 用戶設備、單
167、蜂窩、50 用戶設備、3 蜂窩、每個蜂窩 10 用戶設備三種場景下可擴展神經網絡的性能。相比于傳統的 PF 調度算法,基于深度強化學習的調度算法可以在幾乎不損失公平性的前提下達到更高的吞吐量和更低的丟包率。相同的神經網絡設計用于不同場景可以獲得類似的性能增益,體現了基于強化學習方的資源調度的有效性和可擴展性。表3-1 仿真參數 圖3-7 深度強化學習算法性能 利用智能體/多智能體技術,完成參數配置、跨模塊優化、資源分配等任務一直是研究的熱點和方向。58 第四章第四章 基于基于 AIAI 的網絡上層技術的網絡上層技術 AI 在無線通信網絡的應用層和網絡層主要有兩方面的應用。首先,它們可以用于預測
168、、推理和大數據分析。在此應用領域,AI 功能與無線網絡從其用戶、環境和網絡設備生成的數據集學習的能力有關134135136137。例如,AI 可以用來分析和預測無線用戶的可用性狀態和內容請求,從而使基站能夠提前確定用戶的關聯內容并進行緩存,從而減少數據流量負載。在這里,與用戶相關的行為模式(如移動方式和內容請求)將顯著影響緩存哪些內容、網絡中的哪個節點以及在什么時間緩存哪些內容。第二,AI 在無線網絡中的另一個關鍵應用是通過在網絡邊緣及其各網元實體(如基站和終端用戶設備)上內嵌 AI 功能來實現自組織網絡操作。這種邊緣智能是資源管理、用戶關聯和數據卸載的自組織解決方案的關鍵促成因素。在這種情況
169、下,AI 可以學習環境,并隨著環境的變化采用不同的解決方案,使得設備自主決策成為可能,從而實現網絡智能化。4.1 基于基于 AI 的的無線網絡架構無線網絡架構 未來網絡演進的目標是通過人工智能的引入實現網絡的自主決策和自主演進,達到無人自治的完全智能化網絡。對現有 5G 架構,應盡量將影響降低至最小化,盡量不引入新增接口,并且能夠實現和當前 RAN 的兼容和共存。此外,還需在研究中考慮到人工智能相關數據在接口上的安全性要求,保證人工智能相關數據傳輸的健壯性和可靠性?;?6G 網絡的無線人工智能架構在設計時,不僅需要考慮后向兼容,即兼容基于 5G 網絡的無線人工智能架構,還需要適當地考慮前向兼
170、容,即在包括 6G 在內的未來網絡中運行人工智能時,避免因未來網絡演進而產生各層網元設備無法實現相關功能而進行大量改動。具體來說,未來的無線人工智能架構至少需要滿足如下需求:1)大量不同類型數據的統一化獲取、預處理、管理、共享、存儲以及安全傳輸。2)增強接口功能,能夠實現節點間人工智能功能的開啟與關閉、人工智能模型獲取和測量結果報告。3)能夠根據應用場景和用例需求選擇不同的人工智能訓練模型,包括監督學習、非監督學習、強化學習等,并可以確定對應的輸入與輸出。4)支持不同應用的統一化架構,包括節能、負載平衡、資源分配、移動性管理和覆蓋范圍優化等。5)人工智能功能邊緣化,從邊緣獲取數據后可以利用邊緣
171、資源進行實時化決策制定,提高系統能效并減少數據傳輸帶寬需求,滿足變化快、實時性較高的業務控制需求。根據上述需求,未來的無線 AI 架構的實例圖之一如圖 4-1 所示:圖4-1 無線AI架構(示例圖)59 具體而言,接入節點對算力需求比較低,需要處理的數據量較小,重點實現網元級人工智能策略的執行,提供實時性 AI 處理能力。同時,需支持接入節點之間的人工智能互操作性,實現分布式的 AI/ML 算法。邊緣節點實現輕量級 AI,運行輕量級的機器學習模型,具有一定的計算和決策的能力,以滿足敏捷連接、實時業務、安全與隱私保護等方面的需求。RAN 側的人工智能功能從層次上來說分為:通用 AI 處理和特定用
172、例 AI 處理。通用 AI 處理包括根據特定用例進行的模型選取和調用、底層軟硬件資源的統一分配和算力編排等。特定用例 AI 處理包括:針對特定用例(移動軌跡預測、Massive MIMO 增強等)進行數據規范化處理和智能分類等?;诖?,南京郵電大學周亮教授課題組提出了一個基于云計算、移動邊緣計算和 AI 技術的分層網絡架構,該架構重點優化了無線網絡底層向云端服務器傳輸訓練數據的環節,并通過設計無線接入網、邊緣計算節點和云計算服務器之間的循環反饋機制,實現可動態更新與自組織優化的無線網絡調度系統。圖 4-2 所示的基礎設施架構分三層,接入網層面所涉及的空口技術和組網方式仍遵照5G 或 B5G 的
173、標準,其部分網絡優化功能或通信功能的算法將替換為 AI 驅動的模塊來實現;核心網層面則仍遵照 3GPP 的標準實現,并可以結合 SDN 與 NFV 的手段來提升核心網平面的配置彈性和性能;云端深度學習訓練平臺則特化為專門訓練用于無線接入網的 AI 模型,即學習用戶端或基站傳來的諸多原始信息(如網絡流量、信號狀態、用戶狀態等)來優化網絡調度功能。整個接入網架構的抽象邏輯示意圖如圖 4-3 所示。所提架構充分利用了 AI 技術訓練收斂時間長(計算量大)和執行速度快(計算量?。┑奶攸c,并結合云計算和移動邊緣計算的技術特點,設置了 AI 訓練分步學習的流程。部署于邊緣計算節點的數據預處理平臺主要負責接
174、收底層原始數據并輔助基站執行最終 AI 模型。來自無線接入網的數據會先由邊緣服務器進行預處理,以避免海量數據全部上傳云端帶來不必要的巨額通信開銷。云計算節點則會根據不同網絡優化問題的特點和篩選后數據的情況,輸入到合適的深度神經網絡中,進行AI 模型的訓練。而訓練好的模型則會傳回基站直接使用,此時執行模型的速度則可以滿足無線接入網嚴苛的實時性要求。圖4-2 基于AI+MEC的無線接入網架構(基礎設施示意圖)60 圖4-3 基于AI+MEC的無線接入網架構(抽象邏輯示意圖)圖4-4 基于AI+MEC的無線接入網架構(反饋機制示意圖)圖 4-4 所示為所提接入網架構中循環反饋機制示意圖??紤]到無線網
175、絡環境的復雜性和動態性,一個可動態更新和循環反饋的調度系統是必不可少的。因此,在無線接入網中應用AI 技術,就需要向訓練模型長期反饋大量樣本數據用于升級算法,而非一勞永逸。進而使基于 AI 的無線網絡調度系統既能做出實時決策,又具有足夠魯棒性應對可能的突發變化。并且這一反饋更新機制也可根據不同網絡優化議題設置為小時級、分鐘級或其他時間尺度。為了最大化 AI 對無線網絡潛在的增益,圖 4-5 中提出一種基于 AI 的無線接入網架構,有如下特征:1)接入網(RAN)AI 部署在基站(包含 CU 和 DU)內部,與核心網、網管、應用服務器有相應的接口用于數據交互.2)接入網 AI 和核心網 AI、網
176、管 AI、應用服務器 AI、以及終端 AI 互相配合,聯合優化系統性能。61 3)基于采集的數據,接入網 AI 學習與預測移動業務的特征、用戶移動性規律、用戶業務行為、信道與干擾情況、業務質量(QoS)、業務體驗(QoE)等信息;并把分析的結果通過接口傳遞到核心網、網管、應用服務器、以及接入網功能(RRC、RRM、協議棧功能等),支持網絡的優化和業務的優化。4)接入網 AI 負責所有必要的接入網 RRC、RRM、協議功能配置、MAC 層調度和物理層算法等。與傳統方案相比,基于 AI 的 RAN 架構有更智能的算法:1)智能業務識別:通過深度學習、強化學習、Q 學習等多種人工智能技術學習業務特征
177、,這些信息將使 MAC 調度器能夠采取更智能的策略和算法;2)智能協議功能選擇:針對不同的用戶或者業務采用最合適的協議棧功能組合與處理算法,提高效率;3)強大的 MAC 調度:基于對信道狀態、業務特征、移動性、緩存狀態和 QoE/QoS 等的預測,調度程序可以更加高效和智能。4)智能物理層功能:可以針對現有的物理層模塊進行功能增強或者鏈路整體增強,包含智能的導頻、MCS 選擇、MIMO 模式選擇等。5)開放的接口:接入網 AI 的算法可以是運營商、設備商、或者第三方設計,并通過接口作用到系統的 MAC 調度器,推動接入網的開放和智能。RRC RRC 連接管理連接管理 接入控制接入控制無線資源管
178、理無線資源管理HARQ HARQ 移動性管理移動性管理安全控制安全控制MACMAC調度調度QoS QoS 流控流控安全安全頭壓縮頭壓縮ARQARQ塊分割塊分割RRC RRC&RRM RRM 物理層功能物理層功能高層協議棧功能高層協議棧功能接入網接入網AIAI信道編碼信道編碼調制調制交織交織MIMOMIMO波形波形幀結構幀結構雙工雙工端到端端到端AIAI網絡網絡參考信號參考信號應用服務器數據采集數據采集、處理處理模型訓練模型訓練、推理推理RANRAN功能配置功能配置業務交互參數業務交互參數輸入輸入輸出輸出核心網核心網AIAI網管網管AIAI基于基于AI的接入網的接入網 圖4-5 基于AI的無線接
179、入網架構 4.2 基基于于 AI 的傳輸層擁塞控制技術的傳輸層擁塞控制技術 傳輸層擁塞控制技術作為網絡領域最重要的技術之一,對于提升網絡效率和降低時延起著至關重要的作用。最早擁塞控制是從傳輸控制協議(transmission control protocol,TCP)開始的,TCP Tahoe 于 1988 年由 Jacobson 提出,是最經典的傳輸層擁塞控制算法,引入了慢啟動和擁塞避免,快速重傳等機制。后來 TCP Reno 引入了快速恢復機制。TCP new Reno維護了快速恢復狀態,避免了因為連續丟包導致的連續砍窗口的問題。TCP SACK 加入了選 62 擇確認(selective
180、 ACK,SACK)與重傳機制,避免了累計確認(cumulative ACK)與重傳機制帶來的低效的回退問題。后來數據中心的興起,由于數據中心屬于單一自治域的同構網絡環境,有相對固定的拓撲和相同的網絡配置,比如顯式擁塞通告(explicit congestion notification,ECN),于是基于數據中心的擁塞控制技術研究成為熱點,比如最有代表性的 DCQCN155算法,實現了交換機端的 ECN 標記和主機端的速率控制。但是仍然存在以下問題:1)已有的方法只考慮了有限的輸入和數學建模,比如 ECN,丟包,往返時延(round-trip time,RTT),實際網絡非常復雜,需要考慮更
181、多因素(比如動態業務模型)和復雜建模。2)由于獲取的網絡信息有限,導致收斂速度慢,容易導致網絡排隊時延增大。3)由于算法的狀態多和優化的參數眾多且復雜,使得算法調優非常復雜。為了解決存在的問題,由于 AI/ML 技術可以解決多維度復雜場景下的建模,開始引入AI/ML 到傳輸層擁塞控制算法的研究中。主要的研究方法包括基于離線訓練的有監督學習、深度強化學習、在線訓練的學習?;?AI 的傳輸層擁塞控制技術主要有以下方向:離線訓練的有監督學習、深度強化學習、在線訓練的學習。每種算法主要的區別在于不同的目標函數的選擇,不同的輸入輸出和AI/ML 模型的選擇。下表列出了主要 AI 算法的比較156:表4
182、-1 傳輸層擁塞控制主要AI算法 Remy 和 Indigo 算法是典型的基于離線訓練的有監督算法,把業務模型和對網絡資源消耗作為先驗信息,在離線訓練階段,將吞吐率和時延最優作為目標函數,將最優的擁塞窗口作為訓練模型的輸出。深度增強學習的引入可以將已經訓練好的模型與實際的運行環境結合,通過反饋不斷優化模型。如下圖 4-6 所示,將帶寬,RTT,丟包率,擁塞窗口等作為輸入,AI 模型輸出是發送窗口或者是擁塞窗口的選擇。結合實際運行環境的反饋,將累積的收益函數作為優化目標,優化 AI 模型。Aurora 和 Custard 是其中典型的采用深度增強學習的算法。63 圖4-6 基于深度增強學習的擁塞
183、控制算法 基于離線學習的算法好處在于收斂速度快,但由于需要獲取較多的離線數據用于模型的訓練,完整的數據集成為了在實際應用過程中的一個瓶頸。從下圖的實驗結果表明146,基于 AI 的擁塞控制方法在不同的帶寬,時延,隊列大小,丟包率下,相比傳統 TCP CUBIC 而言,性能都有了不錯的提升。圖4-7 實驗結果 PCC 和 Vivace 是在線學習的典型算法。它們采用了不斷試錯的機制來確定發送窗口。PCC 的目標函數跟吞吐率和時延相關。Vivace 采用了 RTT 梯度來替代 RTT 實現對網絡擁塞更精確的感知。在線學習對網絡的反應非常迅速,但是由于沒有先驗信息,很難獲取全局最優,通常來說,整體的
184、收斂速度較慢。中國移動研究院面向 6G 移動網絡,研究 HI+AI 結合傳輸層擁塞算法,并研究與移動網絡融合設計的方案,包括:1)研究 HI+AI 結合的傳輸層擁塞控制算法,并擴展到業務層速率控制算法;2)研究與移動網絡深入融合進行聯合設計和優化的方法,一方面考慮對移動網絡的實時感知,另一方面考慮與移動網絡資源調度機制相結合。4.3 基于基于 AI 的業務速率控制的業務速率控制 類似的思路還可以用作業務層的速率控制,比如 Pensive144,視頻碼率的動態選擇。如下圖 4-8 所示,帶寬、速率、終端緩存作為碼率選擇模型的輸入,輸出為動態碼率選擇。然后與實際的視頻體驗質量(quality of
185、 experience,QoE)運行環境結合,將 QoE(考慮視頻碼率、視頻卡頓率和碼率切換)作為收益反饋到 AI 模型中,不斷完善碼率選擇模型。通過實際網絡的測試結果如圖 4-9 所示,結果表明從視頻碼率,卡頓率和視頻切換順暢度各維度進行評估,都表現出了良好性能。64 圖4-8 基于AI的業務層速率控制 圖4-9 網絡測試結果 65 4.4 基基于于 AI 的需求預測與緩存技術的需求預測與緩存技術 隨著智能終端設備的快速發展與普及,諸如短視頻等新型移動多媒體業務不斷地涌現,人們對于無線數據服務的需求呈現出爆炸式的增長160。然而,由于頻譜的稀缺性,現有的無線網絡難以支撐移動多媒體業務的持續增
186、長,需要我們提出新的解決方案。得益于大數據技術的高速發展,廣義認知網絡可以將認知對象從電磁環境拓展到用戶需求。同時,也得益于存儲技術在過去二十年中的長足進步,目前的網絡邊緣設備均配置了一定容量的存儲介質。因此,可以將熱門文件與用戶未來可能請求的文件主動緩存至移動網絡邊緣的存儲介質中。在用戶發起真實請求后,可以直接從網絡邊緣的存儲介質或本地緩存區中讀取,從而降低用戶的請求時延和移動網絡的峰值功率。要想盡可能地提高緩存系統的能效與譜效,需要解決的問題包括:如何提高文件熱度預測與用戶請求預測的準確性?如何基于預測的文件熱度和用戶請求在有限的緩存區內制定緩存策略?如何基于緩存策略制定相應的推送與服務策
187、略?國內外眾多學者圍繞上述問題以 AI 為手段開展大量的研究,下面簡要介紹。a)a)蜂窩網絡內容熱度預測和緩存策略設計蜂窩網絡內容熱度預測和緩存策略設計 在文獻161中,康奈爾大學的 Krishnamurthy 教授提出了一種適應性緩存方案以解決蜂窩網絡中的文件緩存問題,首先通過機器學習方法,基于用戶行為和文件特征等估計內容熱度,再結合蜂窩網絡相關參數,通過解混合整數線性規劃問題得到具體的緩存策略,該方案得到的緩存策略可以根據網絡參數如網絡拓撲、通信鏈路、路由策略的變化而進行調整,如圖 4-10 相比于單一固定的緩存策略,該方案可以更好地適應復雜的網絡環境變化。文獻158提出一種面向內容緩存的
188、基于加權用戶聚類的內容流行度預測算法。為了克服實際情況中用戶請求過于稀疏對流行度預測帶來的影響,并探索不同用戶之間內容流行度演變趨勢的多樣性,首先給出基于用戶聚類的內容流行度預測框架。接著,其分析了單個內容的預測誤差分布,并通過設計緩存閾值來刻畫不同類型內容的預測誤差對緩存性能的影響,從而得到預測準確度和緩存性能之間的閉式關系。在此基礎之上,此研究通過分析用戶相似度和不同內容對內容緩存性能的影響關系,提出了一種基于緩存內容加權的用戶聚類策略。圖4-10 適應性緩存方案仿真結果 66 圖4-11 無線緩存網絡系統圖 基于兩類真實數據集對所提出的方案和一些已有方案進行了性能比較。如圖 1-1 仿真
189、結果表明在不同場景下,該方案產生的緩存命中率損失低于其他對比方案,表明緩存性能相較于其他方案有了較大提升。圖4-12 仿真驗證示意圖 b)b)霧霧無線接入網絡用戶偏好預測和緩存策略設計無線接入網絡用戶偏好預測和緩存策略設計 在文獻162中,東南大學尤肖虎教授團隊研究了霧無線接入網絡中的緩存問題,文中考慮了內容流行度在時間和空間上的變化,使用在線梯度下降(online gradient descent,OGD)方法和 FTRL-Proximal 方法提出了對用戶偏好的低復雜度在線學習算法,更準確高效地預測用戶需求的變化,進一步以用戶個體的偏好為基礎,預測給定空間范圍或時間范圍內的內容流行度,從而
190、得到有效的緩存策略。67 圖4-13 緩存結構圖 c)c)D D2D2D 通信中用戶偏好分析通信中用戶偏好分析 在文獻164中,悉尼大學 Branka Vucetic 教授考慮基于個人的內容請求概率,而非整體的內容請求概率來設計緩存策略,以此更準確地反應用戶個人的偏好而非整體的內容熱度,從而實現更準確高效的緩存策略。作者引入了評分矩陣的概念,并對矩陣進行分解得到內容特征與用戶偏好的對應關系,通過貝葉斯學習方法預測用戶個人對不同特征的偏好程度,并據此設計緩存策略。該方案還可擴展到 D2D 通信中以進一步降低延時,提高預測準確度。圖4-14 評分矩陣與矩陣分解示例 d)d)協協同緩存的最優策略同緩
191、存的最優策略 在文獻166中,倫敦瑪麗皇后大學的 Yue Chen 教授研究了協同緩存中內容放置的優化問題,其目的是最大化移動用戶的總平均意見得分(MOS)。首先,作者利用遞歸神經網絡(RNN)來預測用戶的移動性和內容的熱度。然后,作者提出了一種基于學習自動機的Q-learning 協同緩存算法,該算法通過調用學習自動機進行 Q-learning 來獲得在隨機和平穩環境下的最優決策。仿真結果顯示協同緩存優于非協同緩存和隨機緩存。68 圖4-15 協同緩存方案仿真結果 e)e)移移動邊緣網絡文件熱度預測與緩存設計動邊緣網絡文件熱度預測與緩存設計 在文獻167中,德克薩斯 A&M 大學的 Ning
192、 Zhang 助理教授使用循環神經網絡模型對內容熱度進行預測,并基于熱度的預測更新緩存策略,通過緩存降低核心網的擁擠程度和降低用戶服務延時。循環神經網絡模型可以有效捕捉用戶請求在時間上存在的內在關聯性,并依據用戶請求在時間上的相關性更準確地預測用戶未來的請求。仿真結果表明該方案會隨著更深的神經網絡層數以及更長的時間步長而提升性能。f)內容推送技術內容推送技術 利用無線傳輸的多播特性將內容推送到多個用戶設備端進行主動緩存,能夠有效緩解中心網絡負載,提升用戶體驗。有限的無線傳輸資源和緩存資源導致內容推送決策之間相互耦合。有限的無線傳輸資源下,系統每個時隙內只能推送有限的內容到特定的用戶設備端。過早
193、的內容推送將帶來用戶設備端額外的緩存代價,而過遲的內容推送將面臨錯過用戶請求的風險。亟需利用有限的網絡資源,實現最大化數據卸載量和最小化緩存代價的平衡。文獻163提出了一種基于結構化卷積神經網絡的內容推送策略。圖4-16 邊緣計算網絡系統圖 69 圖4-17 無線緩存網絡內容推送系統 具體地,文獻163通過分析內容緩存時長對推送性能的影響,設計了一種用于提取單內容的不同推送決策之間的耦合特性的卷積層。與此同時,進一步設計了用于探究有限傳輸信道下不同內容推送決策之間空間耦合關系的全連接層。此外,作者通過松弛原問題的傳輸約束并提出相應最優策略,得到了用于監督學習的推送性能上界。圖 4-19 對所提
194、出的策略和一些已有策略進行了性能比較。仿真結果表明在不同場景下,該策略獲得的推送性能優于其他對比策略。此外,在面對不確定的用戶請求預測信息時,該算法相較于已有策略具有更加穩健的性能。g)g)基于相關性和因果性的業務預測技術基于相關性和因果性的業務預測技術 文獻165提出利用無線業務的兩個本質屬性,相關特性和因果特性,以準確預測無線業務。1)無線業務相關特性:無線業務具有空時相關特性,即相同小區不同時間段以及不同小區業務之間的相互關系。人們一般使用相關系數來衡量兩個變量之間的相互關系,其取值范圍在-1,1之間,其中 1 代表完全正相關,而-1 代表完全負相關,而 0 意味著沒有相關性。根據實測無
195、線網絡業務的相關性分析可知,無線網絡業務在同一地點不同日期的同一時段的業務量呈現很強的相關性(時間相關性),相鄰小區同一時段的業務量呈現一定的相關性(空間相關性),因此有效利用無線業務的時空相關性有助于預測無線業務的規律項,提高預測精度。2)無線業務因果特性:無線業務因果特性揭示了網絡業務變化的原因。根據格蘭杰因果檢測方法可知,如果一個平穩時間序列 X 的歷史值有助于提高另一個平穩時間序列 Y 的預測值,則 X 是 Y 的格蘭杰因果,也稱預測性因果。例如,大型活動、上課、航班起飛/降落等都是無線網絡業務變化的原因,具備一定的因果性。探索和利用無線業務的因果性將有助于預測無線業務的變化量,提高預
196、測精度。圖4-18 結構化卷積神經網絡 70 圖4-19 仿真驗證示意圖 在充分探索無線業務的相關性和因果性的基礎上,文獻165提出了如圖 4-20 所示的基于業務相關性和因果性的業務預測模型,其由基于相關性的子預測器和基于因果性的子預測器組成。上述兩個子預測器分別對業務的規律項和變化趨勢進行預測,最終的預測結果將由兩個子預測器的輸出融合而得?;谙嚓P性的子預測器,其輸入為待預測的目標小區和其相鄰小區的業務量以及小區位置等信息,經過取平均、取中位數、求方差等特征工程,形成新的特征以豐富訓練集,然后選擇差分整合移動平均自回歸模型(autoregressive integrated moving
197、average model,ARIMA)、深度神經網絡(DNN)、梯度提升決策樹(gradient boosting decision tree,GBDT)等預測算法進行預測?;谝蚬缘淖宇A測器,在充分利用無線業務的因果特性的基礎上,還利用數據分集、特征分集、方法分集等來獲得分集增益,從而提高預測精度。具體而言,與業務因果性相關的特征,如公共事件和移動信息將作為輸入,經過因果性的分析,提取因果系數,然后再利用輕量級預測算法 LightGBM 進行預測。通過真實網絡實測業務流量數據測試發現,相比于基于時空相關性的業務預測方法,所提的基于相關和因果特性的業務預測模型的預測精度提升了 10%。圖4
198、-20 基于相關性和因果性的無線業務預測模型 表4-2 無線業務預測精度對比結果 71 4.5 基于基于 AI 的無線的無線分布式分布式計算計算 隨著移動互聯網的飛速發展,各類互聯網應用產生的數據量呈爆炸式增長。面對如此巨大的數據量,傳統的依托于數據中心進行集中數據分析與處理這種模式逐漸難以滿足業務需求。在傳統模式中,網絡的邊緣節點只負責數據收集與用戶交互行為,并將所有原始數據上傳到數據中心進行處理,這將導致巨大的通信消耗例如帶寬占用和能量消耗等,此外,對原始數據的上傳還可能導致用戶的隱私泄露。目前移動設備的快速發展與普及使得網絡的邊緣節點具有較強的計算能力與儲存能力,可以勝任針對本地的小規模
199、數據量的分析與計算。因此,為了解決這些問題并且更高效地完成大規模數據的分析與處理,我們可以采用分布式計算的思想,借助移動邊緣計算和人工智能算法,將龐大的計算任務分發給網絡邊緣節點完成,而后由中心服務器將各個節點的計算結果進行整合統一,從而形成全局的計算模型。因此,AI 在未來無線計算中的應用成為了一個重要的研究課題,而聯邦學習(federated learning,FL)能夠在無線計算任務中實現分布式訓練與訓練結果的集中整合,有望有效地解決大規模數據處理的資源消耗與隱私保護問題。聯邦學習避免了對邊緣節點和設備收集到的大量的原始數據進行傳輸,而只對各個節點訓練完成的本地模型進行傳輸。通過這種方法
200、,一方面,傳輸的數據量得到顯著的降低,因此可以顯著地降低邊緣設備與中心服務器之間的通信代價。另一方面,由于原始數據僅保存在本地,因此用戶的隱私能夠得到保護,解決了原始數據上傳可能導致的用戶隱私泄露問題。聯邦學習在無線計算中的研究主要包括對模型聚合的策略研究和對本地模型的調度策略研究。具體來說,聯邦學習中的模型聚合策略應該結合各個邊緣節點的模型結果,將各個節點在計算、傳輸等方面的差異充分考慮,從而聚合出適應全局的模型。聯邦學習中,本地模型的計算受到節點間不同的存儲和計算能力的影響,模型的上傳受到通信資源的限制,因此需要仔細考慮眾多本地模型的調度問題,以最優化全局系統的整體性能。當前的研究主要包括
201、如下方面:a)a)基于基于 A AI I 的移動邊緣計算技術的移動邊緣計算技術 在邊緣節點執行數據壓縮可以有效地減少需要傳輸的數據量,大大緩解了網絡負載。如何聯合優化系統中的數據壓縮和傳輸成為了一個亟待解決的問題。以往的研究工作解決的都是單時隙之間數據壓縮和傳輸的耦合問題。然而在大數據背景下,考慮到數據壓縮時間不可忽略,數據需要在壓縮完成后的時隙傳輸,因此時隙間耦合使數據壓縮和傳輸問題更為復雜。文獻172在考慮傳輸資源和計算能力受限的情況下,提出了一個分布式的數據壓縮和傳輸調度算法。為了描述實際等待的數據包數量,此研究建立了原始數據隊列和壓縮數據隊列之間的隊列映射關系。以吞吐量最優為目標,其利
202、用原始數據隊列設計了基于李雅普諾夫優化的傳輸調度算法。為了解決數據傳輸決策與數據壓縮決策解耦過程中產生的長期收益問題,利用深度 Q 網絡估計每個節點對壓縮方案的偏好,并提出一種最優的數據包替換算法。圖4-21 聯合數據壓縮和傳輸系統模型圖 72 文獻185對所提出的算法和一些已有工作進行了性能比較。圖 4-22 和圖 4-23 仿真結果表明與已有的工作相比,該研究在不同場景中取得了更低的平均傳輸時延性能。此外,吞吐量最優算法下不同場景對不同的壓縮方案選擇次數也有不同。圖4-22 仿真驗證示意圖 圖4-23 影響數據壓縮決策的重要參數 b)b)針針對對 AI/ML AI/ML 模型分割的需求模型
203、分割的需求 在許多情況下,有必要在終端設備和遠端算力之間進行針對神經網絡的分割訓練及推理,以使智能應用在廣泛擴展的同時最大程度地規避上述問題。一個基本的分割 AI/ML 的描述如圖 4-24 所示,整體的網絡結構可被分割為三段并分別作用于終端與網絡設備之間。圖4-24 基本分割AI/ML的思路 不同的 AI/ML 分割模式如圖 4-25 所示。這些模式重點考慮了不同網絡直接做 AI/ML 分割的可能性。例如圖 4-25(a)和(b)是基本的云計算及模型下載利用模式,圖 4-25(c)至圖 4-25(g)所示的分割結構則嘗試根據當前任務和環境將 AI/ML 推理甚至模型拆分為多個部分,以減輕終端
204、設備和不同網絡節點的計算、存儲、功耗和所需數據速率的壓力,并獲得更好的模型推理性能,準確性和隱私保護。73 圖4-25 分割AI/ML的不同模式 c)c)聯聯邦學習中的邦學習中的模模型型聚合策略聚合策略 在文獻186中,傳統聯邦學習方法往往采取對模型更新進行數字傳輸,并在服務器端進行模型聚合計算這一流程,而模型聚合的操作往往會耗費相當的時間,作者提出采空中計算(over the air computation)的方法,通過利用模擬信號在多接入信道中疊加的特性,進行快速的全局模型聚合,省去了在服務器端顯式地計算模型聚合的時間。同時,由于數據集越大通常機器學習模型效果越好,作者提出了在均方誤差約束
205、條件下最大化參與聯邦學習的設備數量這一優化問題,并使用凸差分算法(DCA)進行求解,實驗結果表明提出的 DC 算法相比于其他方法可以提高模型的預測精度。聯邦學習的流程如圖 4-26 所示。圖4-26 聯邦學習中的模型聚合 d)d)聯聯邦邦學習學習中的中的調度策略調度策略 74 最小化損失函數最小化損失函數/最大化模型精度:最大化模型精度:在文獻25中,由于無線網絡中的聯邦學習需要通過無線連接來傳輸參數,所以會受到無線資源的限制,需要選擇合適的用戶子集、資源分配方式以及學習的策略。針對 OFDMA 傳輸,作者提出了一個存在誤包的情況下的本地模型丟棄策略,和一個在延時、功率以及能量約束條件下的最小
206、化損失函數的優化問題,并使用二分圖匹配算法進行了求解,得到了用戶選擇和資源配置策略。實驗結果表明作者提出的算法和基線方法相比,損失函數更小,預測精度更高。最最大化大化收斂收斂速度:速度:在文獻26中,同樣由于無線資源的限制,需要選擇合適的用戶子集和資源分配方式。針對 OFDMA 傳輸,作者提出了一個概率用戶選擇策略,對全局模型有較大影響的用戶被選擇的概率較高,且每個用戶被選擇的概率均大于 0 的。同時作者還提出利用神經網絡來表示不同的用戶本地模型之間的關系,并利用它來估計那些未被選擇的用戶的本地模型,以此利用更多的用戶數據集信息。在給定用戶子集的基礎上,優化無線資源塊的分配,最小化收斂時間。流
207、程如圖 4-27 所示。仿真實驗表明提出的方法在預測精度和收斂速度上高于基線方法。e)e)計算資源與通信資源聯合調度計算資源與通信資源聯合調度 在文獻190中,作者研究了在聯邦學習中如何有效利用邊緣節點有限的計算資源與通信資源達到最優的學習性能。模型聚合的頻率是可以控制的,而非最優的聚合頻率可能導致大量的資源浪費。作者從理論角度分析了基于梯度下降算法的聯邦學習收斂界,并據此提出了一種控制算法來動態控制模型聚合的頻率,以在有限的資源預算下最小化損失函數。通過實際數據集仿真驗證,該控制算法在多種不同情況下都能達到近乎最優的性能。圖4-27 FL調度流程 在文獻191中,作者研究了在無線通信網絡中的
208、聯邦學習延時最小化的問題。在聯邦學習中,本地計算時延與通信時延都取決于目標學習準確度,通過聯合考慮這兩方面的時延,作者建立了一個聯合傳輸與計算優化問題以最小化聯邦學習延時,并理論證明了延時是學習準確率的凸函數。而后,基于這一凸函數性質,作者提出一種二分查找算法得到最優的學習準確率。75 圖4-28 聯合調度性能 f)f)基基于端邊云協同的多層次于端邊云協同的多層次聯邦學習機制聯邦學習機制 為了緩解傳統的端云協同的聯邦學習在流量開銷、能耗開銷和訓練延遲等方面的劣勢,文189提出基于端邊云協同的多層次聯邦學習機制。架構如圖 4-29 所示,相比于傳統的端云協同的聯邦學習,該架構進一步引入了鄰近終端
209、的邊緣節點來參與模型訓練,并且在模型訓練過程從傳統的“本地訓練+全局聚合”兩階段擴展到“本地訓練+邊緣局部聚合+云端全局聚合”的三階段。上述三階段的具體工作流程如下,(1)本地訓練階段:終端設備基于本地數據訓練對應的本地模型參數,并將本地模型參數上傳至鄰近的邊緣節點;(2)邊緣局部聚合:邊緣節點在接收到鄰近的多個終端設備上傳的本地模型參數后,對這些模型參數進行聚合,并將聚合后的局部模型參數進一步上傳至云端;(3)全局模型聚合:云端在接收到多個邊緣節點上傳的局部模型參數后,對這些模型參數進行聚合,從而得到全局模型參數,最后進一步將全局模型參數通過邊緣節點下發到所有的終端設備,以便進行下一輪模型訓
210、練。圖4-29 基于端邊云協同的多層次聯邦學習架構 76 不難發現,在上述“本地訓練+邊緣局部聚合+云端全局聚合”的三階段過程中,大量終端設備參數的海量模型參數在鄰近的邊緣節點即被聚合,考慮到終端設備通常與鄰近的邊緣節點通過局域網相連,那么通過邊緣局部聚合即可降低大量的廣域網流量開銷。以 10000臺設備同時訓練 VGG-19 模型為例,若引入 100 個邊緣節點參與局部模型聚合,那么理論上廣域網流量可降低 99%。此外,由于局域網引起傳輸延遲也相應降低,終端設備傳輸本地模型參數的能耗開銷也進一步降低。在引入邊緣節點參與模型聚合后,上述端邊云協同的多層次聯邦學習架構的異構性進一步加強,除了不同
211、的終端設備具有不同的計算能力和能效之外,不同邊緣節點的接入帶寬與最大連接數也不同。此外,不同的終端節點能夠通過局域網互聯的邊緣節點的數量可能同樣存在差異性。在實際部署中,這些異構性可以優化以下決策從而被優化利用,以達到進一步降低端邊云協同的多層次聯邦學習架構的訓練延遲與能耗開銷的目的。(1)計算資源分配決策:不同的終端設備具有不同的計算能力(即 CPU 頻率),計算能力的決策不僅會影響終端設備的能耗,同時還是影響本地模型訓練的計算延遲。在決策計算資源分配時,需要平衡優化能耗開銷和模型計算延遲。(2)網絡資源分配決策:當多個終端設備向某個邊緣節點上傳本地模型參數時,需要優化該邊緣節點的接入帶寬在
212、這些終端設備間的分配,從而平衡不同終端節點的模型傳輸延遲。(3)端邊匹配決策:考慮到單個終端設備可以通過局域網與多個邊緣節點相連,因此在邊緣局部聚合階段,需要優化決策終端與邊緣節點的匹配關系,從而優化全局模型訓練延遲和能耗開銷。上述協同優化計算和網絡資源分配以及端邊匹配決策從而最小化能耗開銷與訓練延遲的問題可以在理論上建模成一個非線性的混合整數規劃問題,難以利用現有的求解器求解,因此需要進一步設計高效的近似優化算法來求解。77 第五章第五章 基于基于 AIAI 的語義通信的語義通信 近年來,隨著人們對無線通信智能化需求的迅 速提升,各種基于無線通信技術的新興智能業務(如工業互聯網、智能網聯車、
213、遠程醫療/手術、虛 擬現實及全息投影技術等)層出不窮。這些新興業 務不再僅僅依靠高速率的數據傳輸,而逐漸對網絡 智能化和服務多樣性等方面提出更多要求。在這一 發展趨勢的推動下,未來通信網絡將開始逐步向高 度自動化、智能化且可提供更貼近人類用戶需求和 體驗的萬物智聯全新架構轉變。語義通信是一種全新的通信架構,它通過將用 戶對信息的需求及語義融入通信過程,將有望大幅 度提高通信效率、改進用戶的體驗質量(QoE,quality of experience),并從根本上解決基于數據的 傳統通信協議中存在的跨系統、跨協議、跨網絡、跨人機不兼容和難互通等問題,真正實現“萬物 透明智聯”的宏偉愿景,即通信網
214、絡、計算和存儲 等軟/硬件設備無縫融入人們的生活。人們無須攜帶 手機或計算機等專屬計算和通信設備也可以享受 無處不在的計算、存儲和通信等服務。5.1 基于基于 AI 的的語義通信系統架構語義通信系統架構 語義通信模型的一般框架如圖 5-1 所示,與傳統通信系統相同,語義通信系統包含發送端、信道與接收端三個部分,主要區別在于語義通信系統所采用的編解碼方式。語義通信系統的發送端包含語義編碼與信道編碼部分,接收端包含信道解碼與語義解碼部分。在已有的工作中,文獻 196將深度學習與聯合信源信道編碼結合,通過語義信息的傳遞在接收端恢復文本信息。文獻197 將聯合信源信道編碼用于圖像的傳輸中,并取得了較好
215、的效果。文獻198出了內容為語音的語義通信方式,驗證了語義通信對語音的有效性。圖5-1 語義通信模型的一般框架 進一步,上海交大陳文團隊提出了基于深度學習的語義通信系統模型,將文本作為傳輸內容,實現從發送端到接收端的傳輸。采用 Transformer 模型作為語義編解碼的核心部分,用于語義信息的提取與理解。如圖 5-2 所示,網絡的整體結構包含編碼器、信道、解碼器三部分。采用歐洲議會語料庫作為文本數據集,其中包含 220 萬個句子以及 5300 萬個單詞。對數據集進行預處理,選擇長度為 430 個單詞的句子并分為訓練集與測試集。處理后的訓練集包含 116 萬個句子,測試集包含 1.2 萬個句子
216、。仿真結果如圖 5-3 所示。該圖比較了在平均每單詞比特數一定時,本文提出的基于深度神經網絡的語義通信模型與兩種傳統通信模型在不同信噪比下的詞準確率。所提模型能夠利用有限的平均每單詞比特數進行編碼,并取得比傳統通信模型更高的準確率。78 圖5-2 基于深度學習的語義通信系統架構 圖5-3 語義通信模型的準確率 79 第六章第六章 無線無線 AIAI 研究數據集研究數據集 無線 AI 研究需要高質量的數據,如何共建共享無線 AI 研究數據集是無線 AI 研究向前推進需要迫切解決的問題。如圖 6-1 所示,一種典型的無線 AI 研究數據集可以包括如下 5個子數據集:1)信道數據集,包括對信道狀態的
217、記錄 2)環境數據集,包括對客觀環境的描述 3)經驗數據集,包括無線網絡狀態、決策和性能的記錄 4)用戶畫像數據集,包括對用戶屬性、行為的描述 5)預訓練模型數據集,包括預先訓練好的可用于通信任務的神經網絡模型及參數 圖6-1 無線AI研究數據集的組成示例 其中,信道狀態可以是信道估計得到的信道系數,也可以是 CSI 測量信息等信道相關的信息。環境數據則可以包括用于描述客觀傳輸環境的圖像、點云數據等。用戶畫像可以包括用戶使用的終端型號、位置等用戶屬性和行為信息。而預訓練模型則可以是不同場景下的信道預訓練模型、信道數據的分布模型或無線網絡優化模型等可用于特定場景特定任務的預先訓練的神經網絡模型集
218、合200201。6.1 無線無線 AI 研究數據收集和利用研究數據收集和利用 無線 AI 研究數據集中的各個子數據集在無線通信的過程中實時收集,甚至通過預訓練模型的訓練和推理,這些數據可以用于輔助通信中的各個任務,讓網絡變得更加智能。圖6-2 展示了一個實時收集并利用各個子數據集的例子,通信中歷史采集得到的信道數據可以預先訓練好一個信道模型,這個信道模型學習了信道狀態在時、頻、空域的變化規律,根據實時信道狀態的輸入,可以輸出信道的壓縮表示。該信道表示數據再拼接環境數據、用戶畫像等信息,就可以足夠充分的表達當前場景,輸入下游用于具體任務的神經網絡模型,可以輸出智能決策用于執行智能空口配置、資源管
219、理調度及智能環境感知等任務。收集這些任務執行后的狀態、決策和性能指標等可以得到經驗數據集,經驗數據集可反饋用于模型的持續在線訓練過程。80 圖6-2 無線AI研究數據集的收集和利用舉例 6.2 無無線線 AI 研究數據集的共建共享研究數據集的共建共享 無線 AI 研究在數據集的建立上也面臨很大的挑戰。不同于互聯網上隨處可見的圖像、語音、文本等數據,真實無線傳輸環境下的數據采集往往需要昂貴的專用設備和大量的人力和時間。而采集到的數據也面對著諸如數據種類繁多,數據質量參差不齊,數據處理方法和數據格式多種多樣,體量巨大等一系列問題。在此種情況下,討論如何共建共享無線 AI 研究數據集,并發展一套與之
220、匹配的系統性的評估理論和方法,是需要各研究單位協同參與并一起解決的關鍵問題。結合無線通信系統的特點,如圖 6-3 所示,內生 AI 網絡架構中所涉及到的無線數據集主要可分為五類:信道數據集信道數據集、環境數據集環境數據集、經驗數據集經驗數據集、用戶畫像數據集用戶畫像數據集和預訓練模型預訓練模型數據集數據集。在內生 AI 網絡中的相關建立和部署方法可以分為以下四個步驟:步驟步驟 1:建立多場景仿真信道數據集。:建立多場景仿真信道數據集。首先建立統一的大規模仿真信道數據集,用于AI 算法的驗證以及模型的預訓練。仿真信道數據的產生可以采用射線追蹤(Ray-tracing)方法,并在信道數據產生的同時
221、記錄反映通信場景的信息,例如環境中的建筑物布局、設備位置等。步驟步驟 2:引入實采數據和仿真鏈路與系統。:引入實采數據和仿真鏈路與系統。在少量實測場景中采集實際數據,驗證在該場景下信道預訓練模型的性能,并嘗試在真實數據上進行模型遷移,提升當前場景下的模型性能。同時,研究實采數據的分布,校正仿真信道數據生成模型,提升仿真數據集的真實性。81 圖6-3 內生AI架構與無線AI研究數據集 步步驟驟 3:單站真實系統部署:單站真實系統部署。通過單站、小規模真實系統的部署,對預訓練的模型和算法進行初步驗證、調優,并把經驗數據收集起來。步驟步驟 4:多站多用戶系統部署。:多站多用戶系統部署。將模型部署在多
222、站多用戶真實系統中進一步驗證模型的泛 化 能 力 以 及 多 站 多 用 戶 之 間 的 聯 合 學 習、多 智 能 體 強 化 學 習 等 算 法。圖6-4 基于RT仿真信道數據(左:BS/UE部署;右BS5和UE7直接射線追蹤仿真結果)在示例中,相關數據集的建立過程如:1)通過在全球 40 多個大城市的公開地圖上進行采樣,可獲得 10000+真實建筑物布局,每一個建筑物布局可以看作一個環境;然后在每個環境里隨機撒點,可獲得 5 個基站和 30 個終端的位置;2)利用射線追蹤方法仿真基站和終端的所有 150 種組合,得到 150 個組合場景的數據。這樣,我們可以得到了 150 萬+的場景,每
223、個場景包括環境信息(建筑物布局)、基站和終端的位置,以及仿真信道。其中,仿真信道包括了當前基站和終端鏈路的所有的射線信息,每條射線又包括出發角、到達角、時延以及不同頻點的頻率響應等。如圖 6-4 所示,在給定建筑布局場景中進行 BS 和 UE 撒點,其中 UE 的撒點位置為隨機,BS 的撒點則要求在建筑附近的街道上,以保證一定的合理性。3)獲得 BS 和 UE 之間的射線追蹤仿真結果。如圖 6-4 中所示的 BS5 和 UE7 之間的射線情況,其中,顏色越深代表射線的路損越小。采用該方法獲得的信道數據除了具有場景多樣、貼近真實的特點,還可以提供和數據集配套的數據預處理代碼,對頻點、系統帶寬、O
224、FDM 參數、天線數、天線間隔等參數進行自定義配置,并輸出與此參數對應的信道沖擊響應。以定位任務為例,由于多徑信道受到通信設備周邊的環境影響,理論上結合環境信息,即使只有單站的信道,也可以實現具有一定精度的定位。定位實驗的參數配置如表 6-1 所示,數據集中的每份數據包含:時延角度域的信道沖擊響應、當前的環境以及設備位置等信息。82 讀取的數據按照 9:1 的比例分成訓練集和測試集,訓練時以信道沖擊響應、環境、發射設備位置作為神經網絡的輸入,以接收設備位置作為神經網絡的輸出。表6-2 自定義參數配置 頻點 帶寬 載波數 接收天線數 發射天線樹 天線間距 2.16GHz 5M 25 2/4 8/
225、32 半波長 示例中的訓練可采用卷積神經網絡和全連接網絡提取信道、環境和發射端位置的特征,并輸出預測的接收端位置。用于定位的神經網絡的從數據集預處理得到的輸入數據經過DNN 或 CNN 后得到不同特征并拼接,再經過 DNN 推演,得到接收端的預測位置。訓練使用 Adam 優化器,并以接收端位置的真實值和預測值的 MSE 作為損失函數,batch size 設置為 500。其中 CNN1 和 CNN2 采用傳統的卷積神經網絡,卷積核尺寸為 3,特征 A、B 和 C的維度為 512,拼接后維度為 1536,經過 DNN2 后得到維度為 2 的接收端預測位置。在對比實驗中,我們嘗試了有環境信息和沒有
226、環境信息、以及 8T2R 和 32T4R 的天線數組合。在沒有環境信息的實驗中,為公平起見,仍然保持神經網絡大小不變,只是將環境信息置為全零。從圖 6-5 中可以看出,有環境信息的實驗無論是訓練集還是測試集,定位精度都要高于沒有環境信息的實驗。當天線數從 32T4R 降為 8T2R,由于角度分辨率降低,定位精度下降,但是有環境信息的實驗訓練集下降很少,測試集的定位精度下降也少于沒有環境信息的實驗。另外從上述實驗結果中可以看出,環境信息的引入對于定位精度的提升有一定幫助。圖6-5 基于無線AI研究數據集的定位任務訓練結果 高質量的無線 AI 研究數據集中含有豐富的信道、環境、場景信息等,對于未來
227、無線 AI的研究有極其重要的基礎價值。6.3 無線無線 AI 倫理規范及隱私保護倫理規范及隱私保護 隨著無線通信網絡的迅速發展,未來無線網絡的規模、接入量及復雜度將會呈指數增長。因此,無線通信網絡一直在探尋將人工智能引入網絡,為無線網絡賦能的道路。然而,伴隨著人工智能在各行各業的大規模應用,除了人工智能帶來的巨大收益之外,也催生了人機關系的新變化和新挑戰。隨意濫用人工智能帶來了一系列惡果,如深度偽造(deep fake),自動生成虛假新聞等。一些組織和機構已經開始重視應用人工智能過程中的正確態度,并對人工智能的行為規范展開了研究,總結出了人工智能的倫理規范。由于無線通信網絡屬于基礎設施,處于強
228、監管領域,用于無線通信網絡的人工智能需要滿足嚴格的倫理規制和監管要求,保證其安全可靠,確保人工智能的應用受到合理約束,才能夠在無線通信領域順利應用,使人工智能真正助力無線通信系統的發展。83 目前,對人工智能進行約束的首要目標是構建人工智能倫理規范及倫理體系,眾多國際組織、政府機構、及公司等均發布了人工智能倫理相關文件。從發布主體分類,可大致分為三種文件:國際組織文件、政府文件、產業界文件,包括宣言、原則、指南、白皮書等多種形式。截止目前,約有 74 份人工智能倫理相關文件已經發布,雖然出發點不同,但最終落腳點均落在對人類有益、保護數據安全及隱私、可靠、可解釋等特點上。我國從 2017 年便開
229、始重視人工智能面臨的倫理及隱私保護問題,國務院在 2017 年 4月發布了新一代人工智能發展規劃,明確指出要“制定促進人工智能發展的法律法規和倫理規范”205。2019 年 6 月,國家新一代人工智能治理專業委員會發布了新一代人工智能治理原則發展負責任的人工智能,提出了人工智能治理的框架和行動指南,其中第四條提到“尊重隱私:人工智能發展應尊重和保護個人隱私,充分保障個人的知情權和選擇權。在個人信息的收集、存儲、處理、使用等各環節應設置邊界,建立規范。完善個人數據授權撤銷機制,反對任何竊取、篡改、泄露和其他非法收集利用個人信息的行為”206。2020年 8 月,我國國家標準化管理委員會、中央網信
230、辦、國家發展改革委、科技部、工業和信息化部等五部委聯合發布了國家新一代人工智能標準體系建設指南,提到要“建立人工智能標準體系結構”,其中一個重要方面就是建立倫理與安全隱私保護標準,包括“基礎安全,數據、算法和模型安全,技術和系統安全,安全管理和服務,安全測試評估,產品和應用安全”等六個部分,貫穿整個人工智能標準體系207。由此可見,我國對于人工智能倫理規范建設的需求已經刻不容緩。世界范圍內也對人工智能的倫理規范和隱私問題進行了廣泛探討,期望規范人工智能的行為。舉例來說,2020 年 2 月,歐盟委員會發布了人工智能白皮書208,在人工智能白皮書中,歐盟提出要建立一個“受信任的人工智能環境”,要
231、求確保隱私和個人數據在使用人工智能的產品和服務中受到合理保護,因為人工智能增加了跟蹤和分析人們日常習慣的可能性。此外,通過分析大量數據并識別數據之間的關聯,人工智能還可以用于對個人的數據進行回溯和去匿名化處理,這對即使本身不包含個人數據的數據集,也帶來了新的個人數據保護風險。斯坦福大學在 2019 年 3 月成立了以人為本人工智能研究院(HAI),旨在減少人工智能的危害,認為“把倫理研究納入人工智能的研究和開發的基礎中是當務之急?!碑斎斯ぶ悄鼙粦糜跓o線通信系統時,其應當遵守的倫理規范和確保的隱私保護原則應更為嚴格。無論是 5G 或者未來的 6G 無線通信系統,最終愿景是從人人互聯、人物互聯,
232、到物物互聯,再到人網物三者的結合,最終構建萬物互聯的智能世界。由于未來的 6G 無線網絡將支持豐富的應用服務,因此會涉及到大量的用戶隱私數據,如終端硬件標識、用戶的身份證(ID),以及用戶的行為偏好等。同時,由于數據挖掘技術進步,使得隱私信息的提取方式變得更加強大。因此,人工智能應用于無線通信網絡時,應遵守以下倫理守則:保護數據安全及隱私 魯棒性 透明性 可解釋性 由于無線通信系統的高度重要性,無論是無線通信系統內部或者垂直應用場景下的數據安全和隱私均應當得到充分的保護:傳統意義上的無線通信網絡用戶隱私數據,如用戶數據、位置、行蹤、通信內容、通信行為、通聯關系、賬號等;84 垂直應用場景中的隱
233、私數據,如智慧工廠、智慧海洋、智慧物聯中的相關敏感信息等。這些隱私信息的敏感和需要保護的程度將更為嚴格;未來無線通信網絡中的隱私數據,此時無線通信網絡接入的設備多樣化,支撐多種業務,如無人駕駛,智慧城市,工業自動化,及超大規模物聯網等。在此階段,人工智能將會收集、存儲、處理海量的數據,其數據安全和隱私保護要求將會上升到一個更高的高度??傊?,無線通信網絡的智能化是大勢所趨,通過人工智能賦能,運用人工智能優化管理的通信網絡將獲得提高網絡性能,降低運維開支等眾多優勢。但是,由于人工智能的應用伴隨著大量的數據收集、存儲、處理過程,數據安全和隱私保護是一個無法回避,且亟待解決的問題。無線通信系統作為基礎
234、設施,承載著海量數據傳輸的任務,數據安全和隱私保護應當受到高度重視,讓安全,可靠,可信的人工智能系統助力無線通信系統發展,實現無線通信網絡的高度智能化。85 第七章第七章 產業化前景產業化前景分析分析與與總結總結 在本報告中,我們在結合現有的一些研究工作的基礎上,對無線 AI 這個研究領域上涉及到的研究內容進行了討論。主要討論總結了現有的基于 AI/ML 的物理層技術,鏈路層技術以及網絡上層技術,并探討了無線 AI 的一個關鍵性問題,即研究數據集的獲取和共享問題。本章將總結全文內容,概述 AI 賦能的無線技術的潛能和優勢,分析其產業化前景、現有的技術成熟度及其對標準化和產業化應用的影響。7.1
235、 AI 賦能無線技術的潛能及優勢賦能無線技術的潛能及優勢 現有無線通信系統基于模塊化系統設計,各個功能通過獨立的不同模塊來實現。模塊化系統設計只以某個模塊的性能為目標,難以實現整個系統的最優設計。其次,通信系統中存在多樣的非線性器件和非線性傳輸問題,很難用數學模型精確描述。再次,現有 5G 無線通信系統支持 eMBB,mMTC,URLLC 三大場景,針對不同場景的不同性能指標需求,無線空口和技術特征的設計也不同,未來會出現越來越多的新興場景,5G 的系統設計思路對新興場景的支持缺乏靈活性。相反,無線 AI 可以實現多模塊聯合優化甚至端到端通信的整體優化;數據驅動的無線AI 模型可有效地逼近與擬
236、合任意復雜的輸入輸出關系,提取與處理隱含的特征;無線 AI(如強化學習)可在多種場景和情況下不斷調整、演進、修復,基于無線 AI 的系統設計思路能更好的兼容未來的多種新型場景;無線通信系統中智能化設備越來越多,數據收集和處理能力也有了質的提升;此外,網絡設備可以通過各類參考信號以及終端設備的反饋信息,非常方便地獲得海量的無線環境數據;最后,可以通過通用硬件實現多種功能的神經網絡,并支持未來網絡的平滑升級和替換,降低網絡部署和維護的成本。AI/ML 在物理層的應用已有大量的成功案例。本報告的第二章節討論了 AI 在物理層的各個模塊,包括無線環境建模與感知、信道估計預測及反饋、編譯碼、調制與波形技
237、術等方面的現有研究成果。這些成果顯示 AI 特別是深度學習由于其具有端到端優化的能力可以避免傳統通信鏈路的模塊化設計,同時由于其的非線性處理能力,帶來了顯著的性能提升。AI 特別是強化學習,能夠通過與環境的交互,學習環境的特性,從而自適應地實現最優決策,已被廣泛地應用到無線鏈路層的資源分配與調度中。本報告的第三章節概述了 AI在干擾鏈路調度、功率分配、信道分配、接入控制、頻譜資源檢測等方面的成功應用。這些成果顯示,AI 技術,特別是深度強化學習,對復雜多變的網絡環境和網絡結構具有很好的適應性,能夠以極低的計算成本智能地處理復雜系統的最優控制問題。AI 在應用層和網絡層的應用主要有兩方面。一是用
238、于預測、推理和大數據分析。在這一方面,本報告的第四章介紹了基于 AI 的擁堵控制技術、業務速率控制技術、需求預測與緩存技術等。二是通過在網絡邊緣及其各網元實體上內嵌 AI 功能來實現自組織網絡操作。第四章也討論了相關的無線分布式計算技術,包含移動邊緣計算技術、AI/ML 模型分割技術、聯邦學習等。這些邊緣智能可以學習環境,并隨著環境變化而改變策略,從而實現網絡智能化。通過上述討論可以發現,AI/ML 方法已經被用于無線技術研究的多個方面,并且相較于傳統算法獲得顯著的性能提升。AI 的一些技術與模型(如 CNN,RNN,DRL 等)與無線技術深度融合,尤其是與物理層/鏈路層空口技術的結合和后續發
239、展值得重點關注。此外,如本報告的第五章節中所探討的,如何獲取和利用研究數據集是無線 AI 研究的關鍵和難點之一。86 此外,AI 應用到無線移動通信網絡中主要采用:固化推演方式和系統外推演方式。固化推演方式即通過離線訓練獲得推演階段所使用的機器學習模型后,將其固化到系統中,系統在運行時,應用固化在系統中的機器學習模型進行推演,實現相應的功能。系統外推演方式即機器學習的訓練和推演均在無線移動通信系統之外進行,機器學習推演機構利用系統提供的數據進行推演,并將推演的結果應用到目標系統之中。本報告中所介紹的大部分工作主要考慮這種方式,其對當前標準架構影響較小,僅涉及測量、統計量層面的豐富化。采用系統外
240、推演的方式,需要無線移動通信系統分別向機器學習訓練機構和機器學習推演機構提供大量用于訓練和推演的數據,隨著所需要解決問題的復雜化,特別是將機器學習用于無線信號處理時,大量的訓練和推演數據向系統外提供將成為一種負擔。同時,系統內外的數據交互會增加處理時延,限制了機器學習技術的應用場景。將無線移動通信系統內部的數據提供給系統外的機器學習機構使用,還可能引發數據安全的問題。因此,有必要將機器學習的訓練和推演引入到無線網絡內部,構造具備內生智能的新一代無線移動通信系統204。采用內生智能的方式,可以降低系統內外傳遞的數據量的需求,降低處理時延,從而更有利于采用機器學習技術解決無線移動通信系統內部的問題
241、。但是內生智能同樣引發一系列問題,包括機器學習模型部署/更新問題、標準化問題等。這些問題需要在無線網絡智能化進程中被持續關注和研究。特別地,在標準化方面,由于網絡內生智能將影響不同網元、單元的功能與接口的變化,這將導致無線網絡架構的變革。在下一代無線通信系統中,如何在設計之初就考慮原生支持 AI 技術,實現未來萬物智聯的美好愿景,是本專題任務組關注的重點課題。7.2 AI 賦能無線技術的產品成熟度賦能無線技術的產品成熟度 目前手機終端的嵌入式神經網絡處理器(Neural-network processor unit,NPU)的處理能力與日俱增,具體數據如下圖 7-1 所示。在 2018 年以前
242、,手機終端尚無專門的 NPU 模塊,從 2018 年開始,手機終端的 NPU 處理能力每年都提升數倍。按照這個速度,2030 年手機終端的 NPU 處理能力將持續高速提升。圖7-1 手機終端NPU能力增長圖 表 7-1 列出了一些典型的復雜神經網絡的復雜度,以及這些神經網絡占據目前典型芯片的 NPU 1 秒計算能力的比例。通過將現有手機 NPU 的處理能力與經典的神經網絡的復雜度進行比較,可發現目前手機 NPU 處理能力已經非常強大。神經網絡的復雜度一般以 OP 為單位計算,即一次實數乘法或一次實數加法為一個 OP。以 GoogleNet 為例,它的復雜度為2G OPs,但它只占據目前典型芯片
243、的 NPU 1 秒計算能力的 1.3e-4(即 1 秒可以計算 7500 次,或執行一次網絡只需 0.13 毫秒)。表7-1 典型的復雜神經網絡的復雜度列表 87 神經網絡復雜度(OPs)神經網絡占據目前典型芯片的NPU 1 秒計算能力的比例 Inception V2 4.1G 2.7e-4 Inception V3 12G 8.0e-4 CaffeNet 724M 4.8e-5 GoogleNet 2G 1.3e-4 MobileNet 1.15G 7.7e-5 無線 AI 中使用的神經網絡一般是輕量級神經網絡,復雜度不高。因此,在手機終端上執行基于神經網絡的運算已成為現實。隨著手機終端 N
244、PU 處理能力的快速增長,在手機上支持更復雜的無線 AI 成為可能。7.3 AI 賦能無線技術的標準化和產業化影響賦能無線技術的標準化和產業化影響 無線 AI 中的數據獲取和 AI 模型參數更新,可能需要通信標準定義相應的流程,或者部分功能基于終端和網絡設備的實現,并且要從法律法規和隱私保護方面進行慎重探討。3GPP 當前的標準討論中,在核心網側,增加了 NWDAF,用于進行數據收集和分析。并且在 RAN 工作組和 SA 工作組上分別設立了一個 SI(Study Item),分別對數據采集和 AI/ML模型傳輸進行研究,并討論下一步標準化的可能,相關的進展情況可以參考 3GPP TR 37.8
245、17“Study on enhancement for data collection for NR and ENDC”和 TR22.874“Study on traffic characteristics and performance requirements for AI/ML model transfer”。由于無線 AI 可以實現相關通信模塊的聯合優化,傳統通信標準中所涉及的內部接口將被簡化,相關的信令過程也會有一定的改變,信令、參考信號的開銷也將會降低。同時,不同階段的無線 AI 對標準化和產業化的影響不同。在初始階段,無線 AI 將會以輔助工具或優化方案來提升現有無線通信系統的性
246、能,其標準化影響相對較小。隨著無線 AI 技術的成熟和無線通信系統對 AI 的開放性和支持度的提高,多個功能模塊會逐漸被性能更好的無線 AI 模塊所替代,其標準化影響將會更大。88 參考文獻參考文獻 1 Kermoal,Jean-Philippe,et al.A stochastic MIMO radio channel model with experimental validation.IEEE Journal on selected areas in Communications 20.6(2002):1211-1226.2 Hur,Sooyoung,et al.Proposal on
247、millimeter-wave channel modeling for 5G cellular system.IEEE Journal of Selected Topics in Signal Processing 10.3(2016):454-469.3 Sternad,Mikael,and Daniel Aronsson.Channel estimation and prediction for adaptive OFDM downlinks vehicular applications.2003 IEEE 58th Vehicular Technology Conference.VTC
248、 2003-Fall(IEEE Cat.No.03CH37484).Vol.2.IEEE,2003.4 Q.Bai,J.Wang,Y.Zhang and J.Song,Deep Learning-Based Channel Estimation Algorithm Over Time Selective Fading Channels,in IEEE Transactions on Cognitive Communications and Networking,vol.6,no.1,pp.125-134,March 2020.5 Z.Xu and J.Sun,“Model-Driven Dee
249、p-Learning,”National Sci.Rev.,vol.5,no.1,2018,pp.2224.6 H.T.He,S.Jin,C.-K.Wen,F.Gao,G.Y.Li,and Z.Xu,“Model-driven deep learning for physical layer communications”,IEEE Wireless Communications,vol.26,no.5,pp.77-83,Oct.2019.7 H.T.He,M.Zhang,S.Jin,C.-K.Wen and G.Y.Li,“Model-driven deep learning for mas
250、sive MU-MIMO with finite-alphabet precoding,”IEEE Commun.Lett.,vol.24,no.10,pp.22162220,2020.8 Y.He,H.He,C.-K.Wen,and S.Jin,“Model-driven deep learning for massive multiuser MIMO constant envelope precoding,”IEEE Wireless Commun.Lett,vol.9,no.11,pp.1835-1839,Nov.2020.9 W.Jiang and H.D.Schotten,“Recu
251、rrent neural network-basedfrequency-domain channel prediction for wideband communications,”inProc.IEEE Veh.Technol.Conf.(VTC),Kuala Lumpur,Malaysia,Apr.2019,pp.16.10 T.Ding and A.Hirose,“Fading channel prediction based on com-bination of complex-valued neural networks and chirpZ-transform,”IEEE Tran
252、s.Neural Netw.Learn.Syst.,vol.25,no.9,pp.16861695,Sep.2014.11 W.Jiang and H.D.Schotten,“Multi-antenna fading channel prediction empowered by artificial intelligence,”inProc.IEEE Veh.Technol.Conf.(VTC),Chicago,IL,USA,Aug.2018,pp.16.12 Y.Sui,W.Yu,and Q.Luo,“Jointly optimized extreme learning machine f
253、or short-term prediction of fading channel,”IEEE Access,vol.6,pp.4902949039,2018.13 J.Yuan,H.Q.Ngo,and M.Matthaiou,“Machine learning-based chan-nel estimation in massive MIMO with channel aging,”inProc.IEEE20th Int.Workshop Signal Process.Adv.Wireless Commun.(SPAWC),Cannes,France,Jul.2019,pp.15.14 M
254、.Mehrabi,M.Mohammadkarimi,M.Ardakani,and Y.Jing,“Decision directed channel estimation based on deep neural networkk-step predictor for MIMO communications in 5G,”IEEE J.Sel.AreasCommun.,vol.37,no.11,pp.24432456,Nov.2019.15 J.Wang,Y.Ding,S.Bian,Y.Peng,M.Liu,and G.Gui,“UL-CSI datadriven deep learning
255、for predicting DL-CSI in cellular FDD systems,”IEEE Access,vol.7,pp.9610596112,2019.16 M.Arnold,S.Drner,S.Cammerer,S.Yan,J.Hoydis,and S.T.Brink,“Enabling FDD massive MIMO through deep learning-based channel prediction,”Jan.2019.Online.Available:arXiv:1901.036.17 W.Liu,L.-L.Yang,and L.Hanzo,“Recurren
256、t neural network based narrowband channel prediction,”in Proc.IEEE 63rd Veh.Technol.Conf.(VTC),Melbourne,VIC,Australia,May 2006,pp.21732177.18 T.Ding and A.Hirose,“Fading channel prediction based on combination of complex-valued neural networks and chirp Z-transform,”IEEE Trans.Neural Netw.Learn.Sys
257、t.,vol.25,no.9,pp.16861695,Sep.2014.19 J.Yuan,H.Q.Ngo and M.Matthaiou,Machine Learning-Based Channel Prediction in Massive MIMO With Channel Aging,in IEEE Transactions on Wireless Communications,vol.19,no.5,pp.2960-2973,May 2020,doi:10.1109/TWC.2020.2969627.20 Luo,Changqing,et al.Channel state infor
258、mation prediction for 5G wireless communications:A deep learning approach.IEEE Transactions on Network Science and Engineering(2018).21 Sutskever,Ilya,Oriol Vinyals,and Quoc V.Le.Sequence to sequence learning with neural networks.Advances in neural information processing systems.2014.22 Huangfu,Your
259、ui,et al.Predicting the mumble of wireless channel with sequence-to-sequence models.2019 IEEE 30th Annual International Symposium on Personal,Indoor and Mobile Radio Communications(PIMRC).IEEE,2019.23 Huangfu,Yourui,et al.Realistic Channel Models Pre-training.2019 IEEE Globecom Workshops(GC Wkshps).
260、IEEE,2019.24 T.Gruber,S.Cammerer,J.Hoydis,and S.t Brink,“On deep learning-based channel decoding,”in 2017 51st Annual Conference on Information Sciences and Systems(CISS),Mar.2017.25 He Y,Zhang J,Wen C K,et al.TurboNet:A model-driven DNN decoder based on max-log-MAP algorithm 89 for turbo codeC/2019
261、 IEEE VTS Asia Pacific Wireless Communications Symposium(APWCS).IEEE,2019:1-5.26 Y.He,J.Zhang,Shi Jin,C.-K.Wen,G.Y.Li,“Model-Driven DNN Decoder for Turbo Codes:Design,Simulation,and Experimental Results,”IEEE Trans.Commun.,vol.68,no.10,pp.61276140,Oct.2020 27 Elkelesh A,Ebada M,Cammerer S,et al.Deco
262、der-tailored polar code design using the genetic algorithmJ.IEEE Transactions on Communications,2019,67(7):4521-4534.28 Nisioti E,Thomos N.Design of Capacity-Approaching Low-Density Parity-Check Codes using Recurrent Neural NetworksJ.arXiv preprint arXiv:2001.01249,2020.29 OShea T J,Corgan J,Clancy
263、T C.Convolutional radio modulation recognition networksC/International conference on engineering applications of neural networks.Springer,Cham,2016:213-226 30 Shental O,Hoydis J.Machine LLRning:Learning to Softly DemodulateJ.arXiv preprint arXiv:1907.01512,2019.31 M.Stark,F.A.Aoudia,and J.Hoydis,“Jo
264、int Learning of Geometric and Probabilistic Constellation Shaping,”in 2019 IEEE Globecom Workshops(GC Wkshps),Dec.2019.32 R.T.Jones,T.A.Eriksson,M.P.Yankov,and D,Zibar,“Deep Learning of Geometric Shaping Including Fiber Nonlinearities,”in 2018 European Conference on Optical Communication(ECOC),Sep.2
265、018 33 C.Wen,et al,“Deep Learning for Massive MIMO CSI Feedback,”in IEEE WCL,vol.7,no.5,pp.748-751,Oct.2018 34 J.Joung,“Machine Learning-Based Antenna Selection in Wireless Communications,”IEEE Communications Letters,vol,20,no,11,pp.2241-2244,Nov.2016.35 F.Sohrabi,H.V.Cheng,and W.Yu,“Robust Symbol-L
266、evel Precoding Via Autoencoder-Based Deep Learning,”in 2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),May 2020.36 H.He,C.-K.Wen,S.Jin,and G.Y.Li,“A Model-Driven Deep Learning Network for MIMO Detection,”in 2018 IEEE Global Conference on Signal and Information Pr
267、ocessing(GlobalSIP),Nov.2018 37 J.R.Hershey,J.L.Roux,and F.Weninger,“Deep Unfolding:Model-Based Inspiration of Novel Deep Architectures,”Online https:/arxiv.org/abs/1409.2574.pdf,Nov.2014 38 Z.Zhao,M.C.Vuran,F.Guo,and S.Scott,“Deep-Waveform:A Learned OFDM Receiver Based on Deep Complex Convolutional
268、 Networks,”Online https:/arxiv.org/pdf/1810.07181.pdf,Nov.2018.39 M.Kim,W.Lee,and D.-H.Cho,“A Novel PAPR Reduction Scheme for OFDM System Based on Deep Learning,”IEEE Communications Letters,vol.22,no.3,pp.510-513,Mar.2018.40 A.E.Gamal,Y-H.Kim.Network information theoryM.Cambridge:Cambridge Universit
269、y Press,2011.41 H.Cui,C.Luo,C.W.Chen and F.Wu,“Robust uncoded video transmission over wireless fast fading channel,”IEEE INFOCOM 2014-IEEE Conference on Computer Communications,Toronto,ON,Canada,2014,pp.73-81.42 S.Jakubczak and D.Katabi,SoftCast:Clean-slate scalable wireless video,2010 48th Annual A
270、llerton Conference on Communication,Control,and Computing(Allerton),Monticello,IL,USA,2010,pp.530-533 43 Bourtsoulatze E,Kurka D B,G nd z D.Deep joint source-channel coding for wireless image transmissionJ.IEEE Transactions on Cognitive Communications and Networking,2019,5(3):567-579.44 L.Huang,H.Zh
271、ang,R.Li,Y.Ge,and J.Wang,AI Coding:Learning to Construct Error Correction Codes,IEEE Transactions on Communications,vol.68,no.1,pp.26-39,Jan.2020.45 Huang,Lingchen,et al.Reinforcement learning for nested polar code construction.2019 IEEE Global Communications Conference(GLOBECOM).IEEE,2019.46 Wang,J
272、un,et al.Artificial intelligence and wireless communications.Frontiers of Information Technology&Electronic Engineering(2020):1-13.47 R.Atallah,C.Assi,and M.Khabbaz,“Deep reinforcement learningbased scheduling for roadside communication networks,”in 2017 15th International Symposium on Modeling and
273、Optimization in Mobile,Ad Hoc,and Wireless Networks(WiOpt).IEEE,2017,pp.18.48 S.Chinchali,P.Hu,T.Chu,M.Sharma,M.Bansal,R.Misra,M.Pavone,and S.Katti,“Cellular network traffic scheduling with deep reinforcement learning,”in Thirty-Second AAAI Conference on Artificial Intelligence,2018.49 Y.Wei,Z.Zhang
274、,F.R.Yu,and Z.Han,“Joint user scheduling and content caching strategy for mobile edge networks using deep reinforcement learning,”in 2018 IEEE International Conference on Communications Workshops(ICC Workshops).IEEE,2018,pp.16.50 M.Chu,H.Li,X.Liao,and S.Cui,“Reinforcement learning based multi-access
275、 control and battery prediction with energy harvesting in iot systems,”IEEE Internet of Things Journal,2018.51 Zhang,Lin,and Ying-Chang Liang.Deep Reinforcement Learning for Multi-Agent Non-Cooperative Power Control in Heterogeneous Networks.arXiv preprint arXiv:2004.12095(2020).90 52 Zhao,Nan,et al
276、.Deep reinforcement learning for user association and resource allocation in heterogeneous cellular networks.IEEE Transactions on Wireless Communications 18.11(2019):5141-5152.53 Nasir,Yasar Sinan,and Dongning Guo.Multi-agent deep reinforcement learning for dynamic power allocation in wireless netwo
277、rks.IEEE Journal on Selected Areas in Communications 37.10(2019):2239-2250.54 Naderializadeh,Navid,et al.Resource Management in Wireless Networks via Multi-Agent Deep Reinforcement Learning.arXiv preprint arXiv:2002.06215(2020).55 Wang,Jian,et al.Deep reinforcement learning for scheduling in cellula
278、r networks.2019 11th International Conference on Wireless Communications and Signal Processing(WCSP).IEEE,2019.56 Xu,Chen,et al.Buffer-aware wireless scheduling based on deep reinforcement learning.2020 IEEE Wireless Communications and Networking Conference(WCNC).IEEE,2020.57 H.Ye,G.Y.Li and B.-H.Ju
279、ang,“Power of deep learning for channel estimation and signal detection in OFDM systems,”IEEE Wireless Communications Letters,vol.7,no.1,pp.114-117,February 2018.58 D.Neumann,T.Wiese and W.Utschick,“Learning the MMSE channel estimator,”IEEE Transactions on Signal Processing,vol.11,no.66,pp.2905-2917
280、,June 2018.59 X.Cheng,D.Liu,C.Wang,S.Yan and Z.Zhu,“Deep-learning based channel estimation and equalization scheme for FBMC/OQAM systems,”in IEEE Wireless Communications Letters,2019.60 Y.Yang,F.Gao,X.Ma and S.Zhang,“Deep learning-based channel estimation for doubly selective fading channels,”in IEE
281、E Access,2019.61 A.Aboutaleb,W.Fatnassi,M.Soltani,and Z.Rezki,“Symbol detection and channel estimation using neural networks in optical communication systems,”IEEE International Conference on Communications(ICC):Wireless Communications Symposium,2019.62 E.Balevi and J.G.Andrews,“Deep learning-based
282、channel estimation for high-dimensional signals,”preprint arXiv:1904.09346,2019.63 T.-H.Li,M.R.A.Khandaker,F.Tariq,K.-K.Wong and R.T.Khan,“Learning the wireless V2I channels using deep neural networks,”preprint arXiv:1907.04831,2019.64 S.Han,Y.Oh and C.Song,“A deep learning based channel estimation
283、scheme for IEEE 802.11p systems,”in Proc.IEEE International Conference on Communications(ICC),2019.65 H.Mao,H.Lu,Y.Lu and D.Zhu,“RoemNet:Robust meta learning based channel estimation in OFDM systems,”in Proc.IEEE International Conference on Communications(ICC),2019.66 E.Balevi,A.Doshi and J.G.Andrew
284、s,“Massive MIMO channel estimation with an untrained deep neural network,”preprint arXiv:1908.00144,2019.67 S.Gao,P.Dong,Z.Pan and G.Y.Li,“Deep-learning based channel estimation for massive MIMO with mixed-resolution ADCs,”preprint arXiv:1908.06245,2019.68 Q.Bai,J.Wang,Y.Zhang and J.Song,“Deep-learn
285、ing based channel estimation algorithm over time selective fading channels,”preprint arXiv:1908.11013,2019.69.T.Demir and E.Bjrnson,“Channel estimation in massive MIMO under hardware non-linearities:Bayesian methods versus deep learning,”preprint arXiv:1911.07316,2019.70 M.B.Mashhadi,and D.Gndz,“Dee
286、p learning for massive MIMO channel state acquisition and feedback,”preprint arXiv:2002.06945,2020.71 X.Ma and Z.Gao,“Data-Driven Deep Learning to Design Pilot and Channel Estimator For Massive MIMO,”IEEE Transactions on Vehicular Technology,vol.69,no.5,pp.5677-5682,May 2020.72 Foad Sohrabi,Kareem M
287、.Attiah,Wei Yu,“Deep Learning for Distributed Channel Feedback and Multiuser Precoding in FDD Massive MIMO”,arXiv:2007.06512 73 M.Soltani,V.Pourahmadi,and H.Sheikhzadeh,“Pilot Pattern Design for Deep Learning-Based Channel Estimation in OFDM Systems,”preprint arXiv:2003.08980,2020.74 Y.-S.Jeon,J.Li,
288、N.Tavangaran,and H.V.Poor,“Data-Aided Channel Estimator for MIMO Systems via Reinforcement Learning,”preprint arXiv:2003.10084,2020.75 H.He,C.Wen,S.Jin and G.Y.Li,Deep Learning-Based Channel Estimation for Beamspace mmWave Massive MIMO Systems,in IEEE Wireless Communications Letters,vol.7,no.5,pp.85
289、2-855,Oct.2018,doi:10.1109/LWC.2018.2832128.76 H.T.He,R.Wang,S.Jin,C.-K.Wen and G.Y.Li,“Beamspace channel estimation in Terahertz communications:A model-driven unsupervised learning approach,”2020,arXiv:2006.16628.77 H.He,C.-K.Wen,S.Jin and G.Y.Li,“Model-driven deep learning for joint MIMO channel e
290、stimation and signal detection,”preprint arXiv:1907.09439,2019.78 X.Ru,L.Wei,and Y.Xu,“Model-driven channel estimation for OFDM systems based on image super-resolution network,”preprint arXiv:1911.13106,2019.91 79 Dong C,Loy C C,He K,et al.Image Super-Resolution Using Deep Convolutional Networks.IEE
291、E Trans Pattern Anal Mach Intell,2016,38(2):295-307 80 Kai Z,Zuo W,Chen Y,et al.Beyond a Gaussian Denoiser:Residual Learning of Deep CNN for Image Denoising.IEEE Transactions on Image Processing,2016,26(7):3142-3155.81 W.Jiang and H.D.Schotten,“Neural Network-Based Channel Prediction and Its Perform
292、ance in Multi-Antenna Systems,”in 2018 IEEE 88th Vehicular Technology Conference(VTC-Fall),Aug.2018,pp.16,doi:10.1109/VTCFall.2018.8690590.82 W.Jiang and H.D.Schotten,“Recurrent Neural Network-Based Frequency-Domain Channel Prediction for Wideband Communications,”in 2019 IEEE 89th Vehicular Technolo
293、gy Conference(VTC2019-Spring),Apr.2019,pp.16,doi:10.1109/VTCSpring.2019.8746352.83 J.Ahrens,L.Ahrens and H.D.Schotten,“A machine learning method for prediction of multipath channels,”preprint arXiv:1909.04824,2019.84 Y.Yang,F.Gao,Z.Zhong,B.Ai,and A.Alkhateeb,“Deep transfer learning based downlink ch
294、annel prediction for FDD massive MIMO systems,”preprint arXiv:1912.12265,2019.85 Y.Wang,X.Chen,H.Yin,and W.Wang,“Learnable sparse transformation based massive MIMO CSI recovery network,”IEEE Commun.Lett.,vol.24,no.7,pp.1468-1471,Jul.2020.86 M.Safari and V.,“Deep UL2DL:Channel knowledge transfer from
295、 uplink to downlink,”preprint arXiv:1812.07518,2018.87 M.Alrabeiah and A.Alkhateeb,“Deep learning for TDD and FDD massive MIMO:Mapping channels in space and frequency,”preprint arXiv:1905.03761,2019.88 F.Gao,title to be updated by Feifei Gao 89 C.K.Wen,W.T.Shih,and S.Jin,“Deep learning for massive M
296、IMO CSI feedback,”IEEE Wireless Commun.Lett.,vol.7,no.5,pp.748-751,Oct.2018 90 T.Wang,C.Wen,S.Jin and G.Y.Li,“Deep learning-based CSI feedback approach for time-varying massive MIMO channels,”IEEE Wireless Commun.Lett.,vol.8,no.2,pp.416-419,Apr.2019.91 J.Guo,C.Wen,S.Jin,and G.Y.Li,“Convolutional neu
297、ral network-based multiple-rate compressive sensing for massive MIMO CSI feed-back:Design,simulation,and analysis,”IEEE Trans.Wireless Commun.,vol.19,no.4,pp.28272840,2020.92 J.Guo,C.Wen,S.Jin,“Deep Learning-Based CSI Feedback for Beamforming in Single-and Multi-cell Massive MIMO Systems,”IEEE Journ
298、al on Selected Areas in Communications,2021.93 Y.Jiang,H.Kim,H.Asnani,S.Kannan,S.Oh,and P.Viswanath,“Turbo autoencoder:Deep learning based channel codes for point-to-point communication channels,”arXiv preprint arXiv:1911.03038v1,2019.94 T.OShea and J.Hoydis,“An introduction to deep learning for the
299、 physical layer,”IEEE Trans.Cog.Commun.Netw.,vol.3,no.4,pp.563575,2017.95 S.Dorner,S.Cammerer,J.Hoydis,and S.T.Brink,“Deep learning based communication over the air,”IEEE J.Sel.Topics Signal Process.,vol.12,no.1,pp.132143,Feb.2018.96 F.Ait Aoudia and J.Hoydis,“Trimming the Fat from OFDM:Pilot-and CP
300、-less Communication with End-to-end Learning,”arXiv:2101.08213v3,Apr.2021.97 E.Arikan,Channel Polarization:A Method for Constructing Capacity-Achieving Codes for Symmetric Binary-Input Memoryless Channels,in IEEE Transactions on Information Theory,vol.55,no.7,pp.3051-3073,July 2009.98 E.Nachmani,Y.B
301、eery and D.Burshtein,Learning to decode linear codes using deep learning,2016 54th Annual Allerton Conference on Communication,Control,and Computing(Allerton),Monticello,IL,2016,pp.341-346.99 J.Zhang,Y.Huang,Y.Zhou,and X.You,“Beam alignment and tracking for millimeter wave communications via bandit
302、learning,”IEEE Trans.Commun.,vol.68,no.9,pp.5519-5533,2020.100 J.Zhang,Y.Huang,Q.Shi,J.Wang,and L.Yang,“Codebook design for beam alignment in millimeter wave communication systems,”IEEE Trans.Commun.,vol.65,no.11,pp.49804995,Nov 2017.101 J.Zhang,Y.Huang,J.Wang,X.You,and C.Masouros,“Intelligent inter
303、active beam training for millimeter wave communications,”IEEE Trans.Wireless Commun.,pp.1-1,2020.102 J.Zhang,Y.Huang,J.Wang,and X.You,“Intelligent beam training for millimeter-wave communications via deep reinforcement learning,”in 2019 IEEE GLOBECOM,Dec 2019,pp.17.103 J.Zhang,Y.Huang,J.Wang,X.You,a
304、nd C.Masouros,“Intelligent interactive beam training for millimeter wave communications,”IEEE Trans.Wireless Commun.,pp.11,2020.104 E.Nachmani,E.Marciano,L.Lugosch,W.J.Gross,D.Burshtein and Y.Beery,Deep Learning Methods for Improved Decoding of Linear Codes,in IEEE Journal of Selected Topics in Sign
305、al Processing,vol.12,no.1,pp.119-131,Feb.2018.105 S.Cammerer,T.Gruber,J.Hoydis and S.ten Brink,Scaling Deep Learning-Based Decoding of Polar 92 Codes via Partitioning,GLOBECOM 2017-2017 IEEE Global Communications Conference,Singapore,2017,pp.1-6.106 F.Liang,C.Shen and F.Wu,An Iterative BP-CNN Archit
306、ecture for Channel Decoding,in IEEE Journal of Selected Topics in Signal Processing,vol.12,no.1,pp.144-159,Feb.2018.107 J.Wang,Y.Ding,S.Bian,Y.Peng,M.Liu,and G.Gui,“UL-CSI datadriven deep learning for predicting DL-CSI in cellular FDD systems,”IEEE Access,vol.7,pp.9610596112,2019.108 C.Chen,C.Teng a
307、nd A.A.Wu,Low-Complexity LSTM-Assisted Bit-Flipping Algorithm For Successive Cancellation List Polar Decoder,ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Barcelona,Spain,2020,pp.1708-1712.109 H.Huang,Y.Song,J.Yang,G.Gui and F.Adachi,Deep-Learning-B
308、ased Millimeter-Wave Massive MIMO for Hybrid Precoding,in IEEE Transactions on Vehicular Technology,vol.68,no.3,pp.3027-3032,March 2019.110 T.Lin and Y.Zhu,“Beamforming design for large-scale antenna arrays using deep learning,”IEEE Wireless Commun.Lett.,vol.9,no.1,pp.103107,Jan.2020.111 A.Alkhateeb
309、,S.P.Alex,P.Varkey,Y.Li,Q.Z.Qu,and D.Tujkovic,“Deep learning coordinated beamforming for highly-mobile millimeter wave systems,”IEEE Access,vol.6,pp.3732837348,Jun.2018.112 M.Elbir,“CNN-based precoder and combiner design in mmWave MIMO systems,”IEEE Commun.Lett.,vol.23,no.7,pp.12401243,Jul.2019.113
310、M.Elbir and K.V.Mishra,“Joint antenna selection and hybrid beamformer design using unquantized and quantized deep learning networks,”arXiv:1905.03107,May 2019.114 M.Elbir and A.K.Papazafeiropoulos,Hybrid Precoding for Multiuser Millimeter Wave Massive MIMO Systems:A Deep Learning Approach,in IEEE Tr
311、ansactions on Vehicular Technology,vol.69,no.1,pp.552-563,Jan.2020.115 X.Li and A.Alkhateeb,Deep Learning for Direct Hybrid Precoding in Millimeter Wave Massive MIMO Systems,2019 53rd Asilomar Conference on Signals,Systems,and Computers,Pacific Grove,CA,USA,2019,pp.800-805.116 Chen,Wei,et al.Solving
312、 Sparse Linear Inverse Problems in Communication Systems:A Deep Learning Approach With Adaptive Depth.IEEE Journal on Selected Areas in Communications,2021.117 X.Gao,L.Dai,Y.Zhang,T.Xie,X.Dai and Z.Wang,Fast Channel Tracking for Terahertz Beamspace Massive MIMO Systems,in IEEE Transactions on Vehicu
313、lar Technology,vol.66,no.7,pp.5689-5696,July 2017.118 A.Alkhateeb,S.Alex,P.Varkey,Y.Li,Q.Qu,and D.Tujkovic,“Deep learning coordinated beamforming for highly-mobile millimeter wave systems,”IEEE Access,vol.6,pp.37 32837 348,2018.119 V.Va,J.Choi,T.Shimizu,G.Bansal,and R.W.Heath,“Inverse multipath fing
314、erprinting for millimeter wave V2I beam alignment,”IEEE Trans.Veh.Technol.,vol.67,no.5,pp.40424058,May 2018.120 J.C.Aviles and A.Kouki,“Position-aided mm-wave beam training under nlos conditions,”IEEE Access,vol.4,pp.87038714,2016.121 J.Zhang,Y.Huang,Y.Zhou,and X.You,“Beam Alignment and Tracking for
315、 Millimeter Wave Communications via Bandit Learning,”IEEE Transactions on Communications,Apr.2020.122 G.Gui,H.Huang,Y.Song and H.Sari,Deep Learning for an Effective Nonorthogonal Multiple Access Scheme,in IEEE Transactions on Vehicular Technology,vol.67,no.9,pp.8440-8450,Sept.2018,doi:10.1109/TVT.20
316、18.2848294.123 Z.Zhang,Y.Li,C.Huang,Q.Guo,C.Yuen and Y.L.Guan,DNN-Aided Block Sparse Bayesian Learning for User Activity Detection and Channel Estimation in Grant-Free Non-Orthogonal Random Access,in IEEE Transactions on Vehicular Technology,vol.68,no.12,pp.12000-12012,Dec.2019,doi:10.1109/TVT.2019.
317、2947214.124 W.Kim,Y.Ahn and B.Shim,Deep Neural Network-Based Active User Detection for Grant-Free NOMA Systems,in IEEE Transactions on Communications,vol.68,no.4,pp.2143-2155,April 2020,doi:10.1109/TCOMM.2020.2969184.125 W.Kim,G.Lim,Y.Ahn and B.Shim,Active User Detection of Machine-Type Communicatio
318、ns via Dimension Spreading Neural Network,ICC 2019-2019 IEEE International Conference on Communications(ICC),Shanghai,China,2019,pp.1-6,doi:10.1109/ICC.2019.8761407.126 G.I.Kechriotis and E.S.Manolakos,Hopfield neural network implementation of the optimal CDMA multiuser detector,in IEEE Transactions
319、 on Neural Networks,vol.7,no.1,pp.131-141,Jan.1996,doi:10.1109/72.478397.127 N.Samuel,T.Diskin and A.Wiesel,Deep MIMO detection,2017 IEEE 18th International Workshop on Signal Processing Advances in Wireless Communications(SPAWC),Sapporo,2017,pp.1-5,doi:10.1109/SPAWC.2017.8227772.128 N.Samuel,T.Disk
320、in and A.Wiesel,Learning to Detect,in IEEE Transactions on Signal Processing,vol.93 67,no.10,pp.2554-2564,15 May15,2019,doi:10.1109/TSP.2019.2899805.129 Tan,Xiaosi,et al.Improving massive MIMO belief propagation detector with deep neural network.arXiv preprint arXiv:1804.01002(2018).130 He H,Wen C K
321、,Jin S,et al.A model-driven deep learning network for MIMO detectionC/2018 IEEE Global Conference on Signal and Information Processing(GlobalSIP).IEEE,2018:584-588.131 Bai Y,Ai B,Chen W.Deep learning based fast multiuser detection for massive machine-type communicationC/2019 IEEE 90th Vehicular Tech
322、nology Conference(VTC2019-Fall).IEEE,2019:1-5.132 Khani,Mehrdad,et al.Adaptive neural signal detection for massive MIMO.IEEE Transactions on Wireless Communications(2020).133 Zhang C.Deep Learning Based Multi-user Interference Cancellation TechnologyJ.Science Discovery,2019,7(6).134 Q.Zhang,M.Lin,L.
323、T.Yang,Z.Chen and P.Li,Energy-Efficient Scheduling for Real-Time Systems Based on Deep Q-Learning Model,in IEEE Transactions on Sustainable Computing,vol.4,no.1,pp.132-141,1 Jan.-March 2019,doi:10.1109/TSUSC.2017.2743704.135 Atallah,Ribal et al.“Deep reinforcement learning-based scheduling for roads
324、ide communication networks.”2017 15th International Symposium on Modeling and Optimization in Mobile,Ad Hoc,and Wireless Networks(WiOpt)(2017):1-8.136 Haoran Sun,Xiangyi Chen,Qingjiang Shi,Mingyi Hong,Xiao Fu,and Nikos D Sidiropoulos.Learning to optimize:Training deep neural networks for wireless re
325、source management.In Proc.18th IEEE International Workshop on Signal Processing Advances in Wireless Communications(SPAWC),pages 16,2017.137 Zhiyuan Xu,Yanzhi Wang,Jian Tang,Jing Wang,and Mustafa Cenk Gursoy.A deep reinforcement learning based framework for power efficient resource allocation in clo
326、ud RANs.In Proc.2017 IEEE International Conference on Communications(ICC),pages 16.138 C.Pandana and K.J.R.Liu,Near-optimal reinforcement learning framework for energy-aware sensor communications,in IEEE Journal on Selected Areas in Communications,vol.23,no.4,pp.788-797,April 2005,doi:10.1109/JSAC.2
327、005.843547.139 G.Naddafzadeh-Shirazi,P.Kong and C.Tham,Distributed Reinforcement Learning Frameworks for Cooperative Retransmission in Wireless Networks,in IEEE Transactions on Vehicular Technology,vol.59,no.8,pp.4157-4162,Oct.2010,doi:10.1109/TVT.2010.2059055.140 N.Mastronarde and M.van der Schaar,
328、Fast Reinforcement Learning for Energy-Efficient Wireless Communication,in IEEE Transactions on Signal Processing,vol.59,no.12,pp.6262-6266,Dec.2011,doi:10.1109/TSP.2011.2165211.141 L.Liang,H.Ye and G.Y.Li,Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning,in IEEE Jou
329、rnal on Selected Areas in Communications,vol.37,no.10,pp.2282-2292,Oct.2019,doi:10.1109/JSAC.2019.2933962.142 S.Maghsudi and S.Staczak,Hybrid CentralizedDistributed Resource Allocation for Device-to-Device Communication Underlaying Cellular Networks,in IEEE Transactions on Vehicular Technology,vol.6
330、5,no.4,pp.2481-2495,April 2016,doi:10.1109/TVT.2015.2423691.143 Y.Wei,F.R.Yu,M.Song and Z.Han,User Scheduling and Resource Allocation in HetNets With Hybrid Energy Supply:An Actor-Critic Reinforcement Learning Approach,in IEEE Transactions on Wireless Communications,vol.17,no.1,pp.680-692,Jan.2018.1
331、44 L.Xiao,Y.Li,C.Dai,H.Dai and H.V.Poor,Reinforcement Learning-Based NOMA Power Allocation in the Presence of Smart Jamming,in IEEE Transactions on Vehicular Technology,vol.67,no.4,pp.3377-3389,April 2018.145 W.Cui,K.Shen and W.Yu,Spatial Deep Learning for Wireless Scheduling,2018 IEEE Global Commun
332、ications Conference(GLOBECOM),Abu Dhabi,United Arab Emirates,2018,pp.1-6,doi:10.1109/GLOCOM.2018.8647453.146 C.Fan,B.Li,C.Zhao,W.Guo and Y.Liang,Learning-Based Spectrum Sharing and Spatial Reuse in mm-Wave Ultradense Networks,in IEEE Transactions on Vehicular Technology,vol.67,no.6,pp.4954-4968,June
333、 2018.147 M.Chen,W.Saad and C.Yin,Echo State Networks for Self-Organizing Resource Allocation in LTE-U With UplinkDownlink Decoupling,in IEEE Transactions on Wireless Communications,vol.16,no.1,pp.3-16,Jan.2017.148 S.Wang,H.Liu,P.H.Gomes and B.Krishnamachari,Deep Reinforcement Learning for Dynamic Multichannel Access in Wireless Networks,in IEEE Transactions on Cognitive Communications and Network