《中國聯通研究院:2023新一代AI計算基礎設施白皮書(28頁).pdf》由會員分享,可在線閱讀,更多相關《中國聯通研究院:2023新一代AI計算基礎設施白皮書(28頁).pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、中國聯通新一代 AI 計算基礎設施白皮書中國聯通新一代 AI 計算基礎設施白皮書中國聯通研究院2023 年 6 月中國聯通新一代 AI 計算基礎設施白皮書版權聲明版權聲明本報告版權屬于中國聯合網絡通信有限公司研究院,并受法律保護。轉載、摘編或利用其他方式使用本報告文字或者觀點的,應注明“來源:中國聯通研究院”。違反上述聲明者,本院將追究其相關法律責任。中國聯通新一代 AI 計算基礎設施白皮書目錄目錄一、AI 計算基礎設施的發展簡介.3(一)AI 計算基礎設施是人工智能快速發展的實現基礎.3(二)人工智能產業對 AI 計算基礎設施的算力需求激增.4(三)國家產業政策積極鼓勵發展新型 AI 計算基
2、礎設施.5二、運營商應積極布局新一代 AI 計算基礎設施.5(一)運營商建設新型 AI 計算基礎設施的需求.5(二)新一代 AI 計算基礎設施的功能架構簡介.6三、新一代 AI 計算基礎設施發展的關鍵技術突破點.9(一)高性能計算能力.91.處理器性能.92.并行協同策略.103.分布式通信.11(二)異構并行計算能力.13(三)安全可信能力.14(四)資源彈性調度能力.16(五)綠色低碳計算能力.18四、AI 計算基礎設施商業模式簡析.18五、展望未來.19參考文獻.21縮略語.23中國聯通新一代 AI 計算基礎設施白皮書-1-前 言人工智能是當今世界發展的重要領域之一,對推動人類科技經濟發
3、展起著加速作用。人工智能產業化落地也是推動我國戰略新興產業實現融合集成、促進我國科技高水平自立自強、提振數字經濟高質量發展的重要推動力。隨著新技術的不斷演進,人工智能發展呈現出應用場景多元化拓展、數據體量爆發式增長、算法模型參數量指數級增加的發展態勢,這對支持大規模 AI 計算的基礎設施提出更高的性能要求。高性能的 AI 計算基礎設施應支持大規模、多任務的算法模型訓練與推理部署,滿足高并發、高彈性、高精度的計算需求;具備兼容異構底層硬件的生態對接能力以實現上層應用和底層硬件的解耦;還需提供安全可信的計算環境以保障數據隱私;并且能夠合理地分配計算資源以實現綠色低碳目標。中國聯通作為數字信息基礎設
4、施運營服務國家隊,攜手產業鏈凝聚共識,突破 AI 計算基礎設施的發展瓶頸,為 AI 服務于千行百業提供靈活高效的計算基座發布此中國聯通新一代 AI 計算基礎設施白皮書。白皮書分析了當前 AI 計算基礎設施的發展趨勢以及規?;渴鹈媾R的挑戰,系統性地介紹了 AI 計算基礎設施的發展背景、總體架構、關鍵技術、商業模式和未來展望,呼吁產業鏈攜手共建標準化的、開放的 AI 算力生態,加快輸出具有中國經驗的標準化體系。中國聯通新一代 AI 計算基礎設施白皮書-2-編寫組成員編寫組成員(排名不分先后):葉曉煜、郭熹、程新洲、賀鳴、馬瑞濤、王鑫、李貝、徐樂西、趙慧英、謝志普、秦守浩中國聯通新一代 AI 計算
5、基礎設施白皮書-3-一、AI 計算基礎設施的發展簡介一、AI 計算基礎設施的發展簡介(一)(一)AI 計算基礎設施是人工智能快速發展的實現基礎計算基礎設施是人工智能快速發展的實現基礎人工智能(Artificial Intelligence)起源于 20 世紀五六十年代,歷經符號主義、連接主義和行為主義三次浪潮的相互交織發展,到如今作為一項新興的通用技術,正推動著社會生活與各行各業的巨變。數據、算力、算法是人工智能發展的三要素,也被譽為數字經濟時代發展的三駕馬車。其中,數據是生產資料,海量優質數據是驅動算法持續演進的基礎養料;算法是生產關系,是處理數據信息的規則與方式;算力是生產力,體現為數據處
6、理與算法訓練的速度與規模1。作為人工智能三大基礎要素之一,算力是決定 AI 產業變革的關鍵承載基礎?;仡櫲斯ぶ悄艿难葸M歷程,就曾多次遇到因基礎設施運算能力不足而無法突破技術瓶頸的案例,例如深度學習早在上世紀80 年代就已被人工智能專家提出,由于訓練深度學習模型需要循環迭代上千次,當時的計算機的運算性能不足以支撐上千次的迭代,導致深度學習模型的發展經歷數年寒冬。直到 21 世紀高性能計算硬件的出現,加速了人工智能的訓練迭代速度,使得大規模的數據訓練效率大大提升,才極大地促進了人工智能的快速發展?,F階段 AI 基礎設施的概念已不僅僅是承載計算的硬件設備,其范圍已經擴展到高速互聯網絡、資源管理與調度
7、、分布式策略、計算框架、訓練/推理相關應用等一套完整的 AI 基礎服務體系。大力發展中國聯通新一代 AI 計算基礎設施白皮書-4-新型的 AI 計算基礎設施可以有效推動技術資源向創新領域集聚,助力實現智能產業化與產業智能化協同并進。中國聯通作為數字信息基礎設施運營服務的國家隊,需要在構建新一代 AI 計算基礎設施方面找到著力點,聯合產業鏈各方一同推動 AI 計算基礎設施的自主創新。(二)人工智能產業對(二)人工智能產業對 AI 計算基礎設施的算力需求激增計算基礎設施的算力需求激增近年來,人工智能產業對 AI 基礎設施運算能力的需求更是顯性化激增,具體表現在以下三個方面:一是 AI 場景的復雜多
8、樣化提升了對 AI 計算基礎設施算力通用性的需求。人工智能技術正在加速與千行百業的融合并因此創造出了豐富的行業應用場景,據國際數據公司(IDC)測算,我國人工智能行業應用不斷深入,已有 58%的企業在使用人工智能,遠遠高于全球平均水平2,領跑全球。而復雜多樣的 AI 場景落地必將依托 AI 基礎設施提供的通用性運算能力;二是5G、AI、大數據、云計算、物聯網等技術的加速發展將會帶來大量的數據。預計到 2025 年,中國的數據量將達到 486 萬億億字節3,海量數據的計算分析必然離不開高性能的 AI 計算基礎設施;三是 AI模型越來越龐大,模型的參數規模也在快速增長,隨著量級從千億級到萬億級的發
9、展,模型的結構也將越來越復雜。OpenAI 發布的一份關于 AI 算力增長趨勢的分析報告顯示自 2012 年以來,AI 訓練所需算力每3.5個月增長一倍(對比摩爾定律翻倍需要18個月),自2012年以來,該指標已增長 30 萬倍以上4。由此可見,在復雜場景、海中國聯通新一代 AI 計算基礎設施白皮書-5-量數據、超大模型的需求背景下,各個行業對于 AI 計算基礎設施算力的需求迫切增長。(三)國家產業政策積極鼓勵發展新型(三)國家產業政策積極鼓勵發展新型 AI 計算基礎設施計算基礎設施在 2021 年底,中央網絡安全和信息化委員會印發“十四五”國家信息化規劃,著重提出要著力夯實數字基礎設施建設水
10、平,部署了建設泛在智聯的數字基礎設施體系任務,適度超前部署下一代智能設施體系,深化公共設施數字化、智能化轉型升級。2022 年底,中共中央、國務院印發了擴大內需戰略規劃綱要(20222035年),也再次明確前瞻布局創新基礎設施。支持有條件的地方建設區域性創新高地,適度超前布局建設重大科技基礎設施,強化共性基礎技術供給。由此可見,數字經濟時代,作為產業智能化底座的 AI計算基礎設施方面的競爭力予國家和產業的戰略價值。截至 2022 年我國算力總規模達到 180EFlops5,全球占比約 33%,保持 50%以上的高速增長,遠超全球平均水平。面向 AI 計算基礎設施的智能算力占比由 2016 年的
11、 3%提升至 2020 年的 45%6,預計未來新增算力中 AI 算力規模增速將進一步擴大。二、運營商應積極布局新一代 AI 計算基礎設施二、運營商應積極布局新一代 AI 計算基礎設施(一)運營商建設新型(一)運營商建設新型 AI 計算基礎設施的需求計算基礎設施的需求2022 年 11 月,OpenAI 基于大規模預訓練模型 GPT-3.5 和自然語言生成技術發布了大模型 ChatGPT,實現多輪對話問答。據估中國聯通新一代 AI 計算基礎設施白皮書-6-算,GPT-3 訓練一次的成本約為 140 萬美元,對于一些更大的大型語言模型(LLM),訓練成本介于 200 萬美元至 1200 萬美元之
12、間。在推理方面,以 ChatGPT 在 2023 年 1 月的獨立訪客平均數 1300萬來計算,其對應芯片的需求量大約為 3 萬多片英偉達 A100 GPU7。面對大模型發展帶來的算力需求,建設面向 AI 的新一代計算基礎設施成為關鍵的一環。電信運營商作為 ICT 基礎設施算力的建設者和運營者,擁有全國跨域網絡互通、云網融合統一納管的資源優勢,也擔當著使能全社會數智轉型主力軍的重任,因此在人工智能產業飛速發展的過程中,也應抓住新機遇加快構建新一代 AI 計算基礎設施,為千行百業提供高性能的智能算力。運營商未來在構建新一代 AI 計算基礎設施時,將通過引入異構計算的方式,打造高性能并行、異構兼容
13、、安全可信、綠色低碳能力的新架構,滿足用戶高并發、高算力的需求。重點考慮:對大規模算力集群的組網,需滿足超高帶寬、超低時延、超高穩定性的網絡質量要求;對硬件資源的整合,實現異構 AI 芯片的融合,并根據業務場景的需求靈活調度計算資源;針對對大規模模型的分布式訓練,可根據任務選擇所需資源類型和算力規模,創建集群組網并匹配相應的并行計算模式。(二)新一代(二)新一代 AI 計算基礎設施的功能架構簡介計算基礎設施的功能架構簡介新一代的 AI 計算基礎設施,可以分為 AI-IaaS 層、AI-PaaS 層中國聯通新一代 AI 計算基礎設施白皮書-7-以及 AI-SaaS 層,總體架構如圖 1 所示。圖
14、 1新一代 AI 計算基礎設施功能架構AI-IaaS 層主要包括異構 AI 算力資源、云化管理和網絡互聯功能,為上層的 AI-PaaS 以及 AI-SaaS 層提供計算能力、數據處理能力以及超大模型的訓練和推理能力。異構 AI 算力資源包括通用算力CPU 以及不同種類的智能算力如 GPU、NPU 等。由于傳統的 CPU計算基礎設施無法承載 AI 大模型完成高性能計算,而智能算力芯片有大量計算單元和超長流水線,更適合處理大量類型統一的數據并行計算,因此多元異構 AI 芯片成為提升算力的關鍵要素。云化管理主要完成對于異構 AI 算力的虛擬池化、集群調度以及容錯容災管理。網絡互聯旨在為構建大規模智能
15、算力集群提供高性能算力網絡,基于遠程直接數據存取(RDMA)、IPv6、智能 ECN(明確的擁塞通知)、高中國聯通新一代 AI 計算基礎設施白皮書-8-精度擁塞控制(HPCC)等技術構建超大帶寬、超低時延和高穩定性的無損網絡,實現數據、模型、應用服務等多要素的共享、流通與調度。AI-PaaS 層是 AI 計算基礎設施的中臺聯動層,包括了集合通信、異構資源管理、異構并行訓練引擎、分布式策略和兼容多種計算框架等能力。集合通信提供了跨不同類型加速設備的通訊支持,完成異構算力節點之間的數據交換,能夠發揮所有芯片的效能。異構資源管理實現了異構計算芯片的融合,完成了資源的統一調度和監控。異構并行訓練引擎根
16、據業務場景的需求靈活調度計算資源,實現異構算力集群環境下高效的并行分布式訓練。分布式策略實現根據任務所需資源和算力資源情況,自適應選擇并行計算策略。AI 計算框架向下調用底層 AI 芯片、向上承載算法模型,是執行計算任務的關鍵部分,AI-PaaS層支持Pytorch、TensorFlow、PaddlePaddle、MindSpore等多種計算框架,實現計算統一的標準接口和工具包,集成算法的封裝、數據的調用以及計算資源的使用。AI-SaaS 層是具體的服務應用層,包括可視化的用戶服務界面、各類應用的開發和管理界面等,用戶在 AI-SaaS 層也可以對底層AI-IaaS 進行可視化的納管,同時還包
17、括面向人工智能應用的在線開發、并行訓練、遷移學習、聯邦學習、模型倉庫、模型壓縮、AutoML、MLOPs 等功能。面對人工智能算法開發場景,具備從在線開發、并行訓練功能的基礎上引入自動機器學習和遷移學習等技術解決模型中國聯通新一代 AI 計算基礎設施白皮書-9-的設計和重訓練等問題,加快并優化模型的學習效率,降低 AI 技術的應用和遷移成本。通過聯邦學習解決計算節點之間的數據差異,數據不出域即可實現基于全局數據的模型訓練,發揮數據資產的最大效能以賦能生產。通過 MLOPs、模型倉庫、模型壓縮實現工具體系、開發流程、模型管理全生命周期的高效耦合,賦能企業更高效地利用AI 創造價值。三、新一代 A
18、I 計算基礎設施發展的關鍵技術突破點三、新一代 AI 計算基礎設施發展的關鍵技術突破點新一代 AI 計算基礎設施應具備以下五項關鍵能力:高性能計算能 力(High Performance Computing)、異 構 并 行 計 算 能 力(Heterogeneous Computing)、安全可信能力(Secured andTrusted)、資源彈性調度能力(Elastic Resource Scheduling)以及低碳綠色計算能力(Green Computing)。(一)高性能計算能力(一)高性能計算能力1.處理器性能1.處理器性能現階段主流方案都采用 AI 加速芯片來處理深度學習的模型
19、訓練任務。相較于 CPU,GPU 擁有大量的算術邏輯單元(ALU)和帶寬,并支持半精度、單精度或雙精度的浮點運算,在各種精度下都可實現更高的 FLOPS(每秒浮點數運算次數),從而提升深度學習模型的訓練的速度和精度8。NPU 采用“數據驅動并行計算”的架構,專門為深度神經網絡計算而設計,具有更高的性能和更低的能耗。此外,中國聯通新一代 AI 計算基礎設施白皮書-10-AI 加速芯片都配有獨立的內存,由比系統總線更高帶寬的通訊連接方式與 AI 加速芯片互聯,可存儲訓練樣本數據和模型數據,進一步提升速度。由于受到高端芯片進口的限制和制約,大力推動國內高性能 AI加速芯片的研發是突破這一瓶頸的關鍵因
20、素。目前國內持續涌現華為、寒武紀、燧原科技等新興 AI 芯片,正逐步提升與英偉達高端 GPU 的競爭的實力。補足這些差距需要芯片制造、芯片設計、算力服務運營,乃至用戶的通力合作,加之國家層面的政策性支持,逐步打造完善的國產化 AI 生態,以推動行業的持續發展。2.并行協同策略2.并行協同策略當模型規模較大或者訓練樣本數據量較大時,模型訓練會非常耗時,可能經過長時間的訓練之后才發現模型構建、超參數選擇、樣本處理等環節需要調整,然后重新開始,如此反復。因此,大模型的訓練一般都會使用分布式并行的方式來提高訓練效率。根據任務的特點,并行策略可分為數據并行、模型并行和流水線并行等。數據并行模式適用于樣本
21、量大但模型規模不大的情況。數據并行中每個計算節點擁有完整的模型參數,將數據切分并分發到各計算節點進行本地訓練,然后匯聚各節點的梯度并更新模型參數,再將參數廣播到各個節點上做下一輪更新。數據并行的實現方式也有很多,從傳 統 的 Parameter Server 架 構 到 更 高 效 的 All-Reduce 和中國聯通新一代 AI 計算基礎設施白皮書-11-Ring All-Reduce 架構等。模型并行適用于模型規模較大的情況,是將神經網絡模型拆分成不同部分并分發到各計算節點。每次前向計算和反向傳播時,前一部分模型所在節點的輸出即為后一部分模型所在節點的輸入,串行的將所有節點進行連接完成一次
22、參數的更新。流水線并行結合了數據并行和模型并行,將訓練數據中的每一個小批次劃分為多個微批次,并在模型并行的每一層中再進行數據并行。并行策略的選擇一方面要結合訓練任務的特點,另一方面還要結合集群的結構與網絡情況,復雜度高的并行策略對網絡的壓力非常的大,一旦網絡的擁塞達到一定程度就會出現節點間相互等待的狀況,將極大的降低計算效率。未來 AI 計算基礎設施服務應可以根據任務的情況,靈活的構建集群結構和彈性的資源分配,也就是說用戶只需要表明要使用何種并行策略,系統即可自動的創建相應結構的邏輯集群,用戶不再關心該如何創建集群資源等基礎設施等層面的問題。3.分布式通信3.分布式通信分布式系統所采用通訊方式
23、極大的影響著系統的整體性能。傳統方式下集群由以太網進行互聯,AI 加速卡通過 PCIe 到服務器 HOST(CPU)端再通過網卡進行數據交換。為了降低多卡之間互聯通信代價高的問題,大多數 AI 加速芯片制造商都提出了直連的通訊解決方案。并行訓練過程中跨服務器的 AI 加速芯片(DEVICE)之間的數據通訊由單獨的參數面交換設備組網互聯,數據不需要經服務器中國聯通新一代 AI 計算基礎設施白皮書-12-HOST 端(CPU)通過以太網絡互通,繞開了系統總線及 I/O 通訊瓶頸,大大提升了訓練過程中的通訊效率。圖 2新一代 AI 計算基礎設施通信架構新一代 AI 計算基礎設施通信架構如圖 2 所示
24、,AI 服務器的DEVICE 之間通過 Infiniband、RoCE 等遠程直接內存訪問(RDMA)技術獨立組網,用于模型參數的數據交換。RDMA 通訊是一種直接內存訪問技術,它可以讓一個計算機直接訪問另一個計算機的內存,而不需要經過操作系統的處理,這樣可以提高網絡的吞吐量和降低延遲,極大的提升了并行訓練效率?,F階段 RDMA 組網需要專用的網卡和交換機,如果組建一個超大規模的模型參數交換網絡是非常昂貴的。未來,還需要不斷的進行技術突破與革新,實現 AI 高速網絡的提質降本增效,推動 AI 基礎設施的發展。中國聯通新一代 AI 計算基礎設施白皮書-13-(二)異構并行計算能力(二)異構并行計
25、算能力根據IDC官方數據,智能算力GPU市場份額幾乎被英偉達壟斷,占據 95%以上市場份額9。在智能算力市場幾乎被英偉達壟斷的宏觀背景下,運營商已具備的 AI 算力也基本全部為英偉達芯片,主要包括 T4、A100 和 V100 等。與此同時,在先進 AI 芯片進口受限的背景下國內 AI 芯片的持續涌現,逐步引入信創 AI 芯片已成為趨勢,底層算力的異構狀況在所難免。另一方面,目前以 ChatGPT 為代表的通用大模型的應用,也驅動著對超大規模 AI 計算集群的需求。但是運營商已有算力分布在各地且性能各異,不能滿足大模型訓練所需的集中算力規模需求。如何通過技術手段整合現有跨域 AI 算力資源并支
26、持異構并行計算,成為了不得不面對的問題。異構并行能力指的是 AI-PaaS 平臺可以兼容不同品牌和型號的AI 加速芯片并可創建異構集群進行并行計算?,F階段,PaaS 平臺可以適配不同品牌和型號的 AI 加速卡,但無法實現異構的并行計算。用戶在使用資源時需要事先指定使用何種類型的資源,并且只能在該資源池內創建任務,跨品牌的資源無法實現并行計算。實現異構并行計算的難點在于各 AI 芯片廠商所支持的算子庫、通信庫、計算框架,計算精度等方面都存在差異,導致模型無法移植、AI 加速芯片間無法進行通訊。一種解決方式是在 AI-PaaS 平臺側建立“轉譯”機制,拉齊各異構 AI 芯片體系的算子、加速指令、通
27、信中國聯通新一代 AI 計算基礎設施白皮書-14-步調等,使得模型參數與計算框架指令可在異構 AI 芯片之間進行傳遞并統一執行。另一種方式是創建 AI 芯片通訊、算子、計算框架等關鍵技術環節的標準體系,使 AI 芯片生態各層級之間相互解耦并遵循統一標準,從而實現異構并行能力。計算性能差異上的異構,需通過并行策略上的優化來降低性能的損失。例如數據并行時,根據各節點處理能力強弱的標簽來分配各節點樣本量的大小,以保證各節點在相近的時間內完成每輪的梯度計算,避免高算力節點的等待與閑置。針對模型訓練的異構并行計算現階段還存在較大的不確定性,也不一定能勝任所有類型的訓練任務,這些也都有待于進一步的研究與探
28、索。未來的 AI 模型規模會越來越大,如何利用好異構 AI 算力、整合 AI 計算資源將會是運營商搶占的下一個制高點。(三)安全可信能力(三)安全可信能力AI 計算基礎設施的安全可信要求貫穿數據采集、傳輸、存儲、治理、計算、應用的全生命周期。深度學習需要大量的樣本數據用于模型的訓練,樣本可能涉及不同種類的敏感數據,例如用戶個人信息、通話/對話記錄、企業經營數據、基礎研究實驗數據等。因此,如何保證數據安全必定是 AI 基礎設施建設中重要的考慮因素。聯邦學習是一種使用多方數據進行協同訓練的機器學習方式,也是對安全性最為敏感的方式。(聯邦學習架構見圖 3)為了確保各方數據隱私的安中國聯通新一代 AI
29、 計算基礎設施白皮書-15-全,它采用多個分布式的邊緣設備或服務器在不共享本地數據樣本的情況下訓練一個全局模型。圖 3 聯邦學習架構圖雖然在聯邦學習本身就是一種保證數據安全的共享機制,但仍然存在風險,其中最具有代表性問題就是梯度泄露問題。梯度泄露是在聯邦學習中參與方之間通過交換梯度信息進行協作訓練時,可能會暴露或泄露自己的本地數據信息,從而導致數據隱私和安全的威脅。比如獲取方能通過交互數據中包含的梯度信息反向計算還原樣本數據的部分信息,從而導致數據泄露。聯邦學習基于多方計算的已有研究,利用多方計算的密碼學方法來保護數據和模型的隱私和安全,以及確保訓練過程和結果的正確性和可信性。針對聯邦學習中存
30、在的各種攻擊威脅,主要幾種解決方案包括10:(1)差分隱私(DP),在原始數據或模型參數中添加隨機噪聲,中國聯通新一代 AI 計算基礎設施白皮書-16-從而使數據無法恢復以保護數據屬主的隱私。(2)同態加密(HE),重點在于對密文計算后的結果再解密和直接對明文計算的結果一致,在保證數據隱私性的前提下可將密文計算委托給第三方完成。(3)安全多方計算(MPC):讓多方參與者可以在不泄露各自數據的情況下,協同完成某個計算任務。通常以兩方安全協議與多方秘密共享協議為基礎,再結合同態加密技術實現對數據的保護。(4)可信執行環境(TEE):利用硬件支持,為計算任務的執行提供一個隔離和安全的環境。雖然通過一
31、些安全機制可增加反推樣本信息的難度,但很難做到絕對安全。未來,新一代 AI 基礎設施的安全機制的完善有待于對網絡安全、數據安全、算法安全等多領域進行更加深入的研究,以確保在各種場景下 AI 應用的安全與可信。(四)資源彈性調度能力(四)資源彈性調度能力AI 計算基礎設施中的 AI 芯片成本極高,占整個基礎設施一半以上的成本。并且當前國產化 AI 芯片虛擬化能力存在局限性,物理資源只能以獨占式的分配方法提供給用戶實例使用,無法實現動態調整和靈活調度,導致底層資源無法被充分利用。如在 AI 推理場景下,單用戶、單任務運行在獨立AI加速卡上,卡算力使用率往往不到20%,會造成大量的資源浪費以及與之相
32、關的電費、運維費用的額外開支。中國聯通新一代 AI 計算基礎設施白皮書-17-因此為了有效提升 AI 加速芯片的使用效率,需要對底層 AI 芯片硬件資源進行虛擬化處理。將 AI 芯片的固定物理資源通過虛擬化、池化技術靈活擬合為虛擬的邏輯單元,為不同的任務匹配合理的虛擬計算資源(如圖 4 所示),這樣可以有效的避免算力與任務不匹配而導致資源浪費問題。圖 4不同計算任務匹配差異化的虛擬資源AI 芯片的虛擬池化能力是將單張 AI 芯片的計算能力通過虛擬化技術劃分為多個更小的邏輯單元,由此可將不同的推理任務分配到這些邏輯單元中進行并行運算,以按需分配方式為小粒度應用提供計算資源,實現多用戶對單塊 GP
33、U 資源的共享,此類場景適用于計算量較低但并發量較大的 AI 推理任務。在虛擬化能力的基礎上,對 AI 芯片計算資源的合理編排也是新一代 AI 計算基礎設施中必不可少的能力,例如根據任務規模自動評估并匹配合理的計算資源,優化邏輯、運算、存儲資源的配比,合理中國聯通新一代 AI 計算基礎設施白皮書-18-設計任務排隊機制等都是運營商在面向用戶提供公共 AI 基礎設施服務時需要進行精細化管理的內容。(五)綠色低碳計算能力(五)綠色低碳計算能力綠色低碳計算是未來算力網絡發展的一大趨勢。當前 AI 智算中心的綠色低碳節能方案主要采用液冷或風冷配套設施來對服務器進行散熱、冷卻,從而降低 PUE 數值,或
34、者逐步引入可再生能源、清潔能源來擴大綠色電源接入。為了控制 AI 智算基礎設施或 AI 智算中心的能源消耗,從根本上來講還是需要降低 IT 系統本身的單位任務能耗,即提高大規模 AI 模型在并行訓練過程中的算力效率。在保證用戶業務需求、模型訓練精度的基礎上,優化計算資源分配效率,根據上層任務的差異化需求,對服務器算力資源進行分層彈性調度。AI 計算基礎設施 SaaS 層需要集成綠色低碳管理系統,該系統應具備評估各任務所需的時間、資源、能耗及費用能力,并建立合理的能耗優化算法和任務排隊機制,提升 AI 基礎設施的整體利用率,降低單位能耗。四、AI 計算基礎設施商業模式簡析四、AI 計算基礎設施商
35、業模式簡析人工智能需要的計算資源昂貴,伴隨著 ARVR、元宇宙、全息視頻等 To C 應用的繁榮,AI 計算基礎設施的應用需求也逐步從 B 端走向 C 端。因此,電信運營商作為數字信息基礎設施運營服務的國家隊,在構建 AI 計算基礎設施時,需要集約化建設、服務化供給,針對 B中國聯通新一代 AI 計算基礎設施白皮書-19-端以及 C 端用戶分別提供差異化的商業供給模式,為不同的 AI 應用提供高精度與低精度、通用與專用的計算服務能力。在進行 AI 計算中心的規劃時也應深入考慮當地區域的產業發展需求,匹配契合度更高的 AI 計算資源供給模式,方可打造高質量、可持續發展的 AI 計算基礎設施產業體
36、系。在國內產業鏈,可以對外提供 AI 計算服務的公司已不在少數,但是不同品牌的 AI 計算平臺之間也存在差異化的能力與優勢,因此電信運營商在構建新一代 AI 計算基礎設施商業平臺時,一是可以發揮云網深度融合的優勢,自建自營全國跨域的 AI 計算基礎設施,直接面向 To C 或者 To B 用戶提供 AI 計算服務。電信運營商可以提供分時、分區域的 AI 基礎設施資源服務為不同地域、不用類型的 C 端、B 端 AI 應用需求提供服務,從而降低了運營成本和能耗。另一方面,電信運營商也可以以“搭臺唱戲”的角色匯聚其他的 AI 計算服務商的能力,與其他 AI 科技企業一同構建聯合運營的商業模式,為客服
37、提供 AI 計算服務。五、展望未來五、展望未來為面向未來大模型快速發展帶來的潛在算力需求,運營商應該積極承擔建設新型 AI 計算基礎設施,在算力側、平臺側、模型側、應用側進行全方位一體的布局,為用戶提供低門檻、高性能的 AI 模型研發與應用能力。中國聯通新一代 AI 計算基礎設施白皮書-20-在算力側,整合已有的分散資源,進一步引入新的信創 AI 芯片,逐步向“通用算力+智能算力+超算算力”的異構模式發展,適度超前構建超大規模、超高帶寬、超低時延組網的算力集群,滿足 AI 訓練、AI 推理等大規模計算需求。在平臺側,聚焦異構并行計算技術,從硬件、軟件、軟硬協同等層面進行多方優化,對下完成高效、
38、便捷的異構算力管理,對上提供彈性、可靠的計算業務資源調度能力,實現模型構建、分布式訓練、部署開發全流程的支持。在模型側,自主掌控大模型的關鍵技術,構建電信特色大模型及及行業領域大模型,對內集約化賦能各專業線規?;慕当咎豳|增效,對外為千行百業的客戶提供先進的 AI 落地方案和能力。在應用側提供可視化的友好操作界面,降低模型研發和應用的門檻,便于用戶聚焦垂直領域的業務邏輯和數據,通過預置的 API、模塊化代碼等資源實現個性化 AI 應用。同時運營商應構建開放合作生態,匯聚行業領先企業的力量,創新算法賦能服務的模式,基于新型 AI 計算基礎設施提供彈性的智能算力、便捷的建模工具、多樣的模型訓練和推
39、理服務、豐富的算法應用,滿足內外部人工智能業務的規模應用發展需求。人工智能是引領未來的戰略性技術,是全球新一輪信息產業發展和產業競爭的核心驅動力,人工智能全面創新發展也對 ICT 基礎設施中國聯通新一代 AI 計算基礎設施白皮書-21-提出了新的需求。電信運營商作為數字信息基礎設施運營服務的國家隊,大力發展新型的 AI 計算基礎設施可以有效推動技術資源向創新領域集聚,助力實現智能產業化與產業智能化協同并進。因此,電信運營商需要在構建新一代 AI 計算基礎設施方面找到著力點,聯合產業鏈各方一同攻關當前 AI 計算基礎設施中的技術難點,實現科技創新的自立自強。借助 AI 計算基礎設施的核心支撐,通
40、過人工智能人才帶來創新力量,培育規?;?AI 應用市場,推動我國成為人工智能的超級大國。參考文獻參考文獻1令才科技.算力升級為企業數字化轉型提供新動能EB/OL.2022-10-27.https:/ andcomputeEB/OL.2018-05-16.https:/ AI 計算基礎設施白皮書-22-ch/ai-and-compute.5國家互聯網信息辦公室.數字中國發展報告(2022 年)EB/OL.2023-04-27.http:/ 需要多少算力EB/OL.2023-02-13.http:/ 年)R/OL.2022-07.https:/ AI 計算基礎設施白皮書-23-縮略語縮略語英文縮
41、寫英文全稱中文全稱AIArtificial Intelligence人工智能ALUArithmetic and Logic Unit算術邏輯單元AutoMLAutomatic Machine Learning自動機器學習CPUCentral Processing Unit中央處理器DPDifferential Privacy差分隱私ECNExplicit Congestion Notification明確的擁塞通知FLOPSFloating Point Operations PerSecond每秒浮點運算次數GPUGraphics Processing Unit圖形處理器GPTGenerati
42、ve Pre-trainedTransformer生成預訓練變壓器HEHomomorphic Encryption同態加密HPCCHigh Precision CongestionControl高精度擁塞控制IaaSInfrastructure as a Service基礎設施即服務ICTInformation and CommunicationsTechnology信息和通信技術IPv6Internet Protocol Version 6互聯網協議第 6 版中國聯通新一代 AI 計算基礎設施白皮書-24-LLMLarge Language Model大型語言模型MLOpsMachine L
43、earning Operations機器學習運維MPCSecure Multi-party Computation安全多方計算NCCLNVIDIA CollectiveCommunicationLibraryNVIDIA 聚合通信庫NPUNeural network Processing Unit神經網絡處理器TPUTensor Processing Unit張量處理單元PaaSPlatform as a Service平臺即服務PCIePeripheral ComponentInterconnectExpress高速串行計算機擴展總線標準RDMARemote Direct Memory Ac
44、cess遠程直接數據存取SaaSSoftware as a Service平臺即服務TEETrusted Execution Environment可信執行環境中國聯通新一代 AI 計算基礎設施白皮書-25-戰略決策的參謀者技術發展的引領者產業發展的助推者戰略決策的參謀者技術發展的引領者產業發展的助推者態度、速度、氣度有情懷、有格局、有擔當中國聯通研究院是根植于聯通集團(中國聯通直屬二級機構),服務于國家戰略、行業發展、企業生產的戰略決策參謀者、技術發展引領者、產業發展助推者,是原創技術策源地主力軍和數字技術融合創新排頭兵。聯通研究院以做深大聯接、做強大計算、做活大數據、做優大應用、做精大安全
45、為己任,按照4+1+X 研發布局,開展面向 CUBE-Net 3.0 新一代網絡、大數據賦能運營、端網邊業協同創新、網絡與信息安全等方向的前沿技術研發,承擔高質量決策報告研究和專精特新核心技術攻關,致力于成為服務國家發展的高端智庫、代表行業產業的發言人、助推數字化轉型的參謀部,多方位參與網絡強國、數字中國、智慧社會建設。聯通研究院現有員工近 700 人,平均年齡 36 歲,85%以上為碩士、博士研究生,以“三度三有”企業文化為根基,發展成為一支高素質、高活力、專業化、具有行業影響力的人才隊伍。中國聯通研究院是根植于聯通集團(中國聯通直屬二級機構),服務于國家戰略、行業發展、企業生產的戰略決策參
46、謀者、技術發展引領者、產業發展助推者,是原創技術策源地主力軍和數字技術融合創新排頭兵。聯通研究院以做深大聯接、做強大計算、做活大數據、做優大應用、做精大安全為己任,按照4+1+X 研發布局,開展面向 C3 網絡、大數據賦能運營、端網邊業協同創新、網絡與信息安全等方向的前沿技術研發,承擔高質量決策報告研究和專精特新核心技術攻關,致力于成為服務國家發展的高端智庫、代表行業產業的發言人、助推數字化轉型的參謀部,多方位參與網絡強國、數字中國、智慧社會建設。聯通研究院現有員工近 700 人,平均年齡 36 歲,85%以上為碩士、博士研究生,以“三度三有”企業文化為根基,發展成為一支高素質、高活力、專業化、具有行業影響力的人才隊伍。中國聯合網絡通信有限公司研究院地址:北京市亦莊經濟技術開發區北環東路 1 號電話:010-87926100郵編:100176