《國家信息中心:2022國家“東數西算”工程背景下新型算力基礎設施發展研究報告(77頁).pdf》由會員分享,可在線閱讀,更多相關《國家信息中心:2022國家“東數西算”工程背景下新型算力基礎設施發展研究報告(77頁).pdf(77頁珍藏版)》請在三個皮匠報告上搜索。
1、 1國家“東數西算”工程背景下新型算力基礎設施發展研究報告單志廣 何寶宏 張云泉 著國家“東數西算”工程背景下新型算力基礎設施發展研究報告出品單位:支持單位:3國家“東數西算”工程背景下新型算力基礎設施發展研究報告P04“東數西算”定義和解讀P08 前言P09 第一章 東數西算對算力新基建的影響 P10數據中心布局向供需協調有序、綜合能效優化演進P13東數西算向時延要求低、存算要求高類型應用場景拓展P15算力結構呈現多元算力協同、算網一體化發展態勢 P16 產業鏈上下游集聚發展,生態體系逐步壯大完善P16綠色低碳技術推廣應用,清潔能源供給不斷加大P18新老節點加快有序銜接,強化算力網絡智能調度
2、P19數字技能水平要求提升,技能人才需求不斷凸顯P21 第二章 算力新基建呈現的 10 大挑戰和實踐P23算力基礎設施化保障資源多元供給P32關鍵信息基礎設施的安全性要求P36信創產業化:國產化、自主化P38算力設施整體能耗偏高,綠色低碳應用仍需持續推廣P43高密度機柜功率密度提升P46算力智能調度:跨區域、跨云、云邊調度P50多元算力多樣計算P52算力服務成為新業態P54原生應用:云原生、AI原生P57規?;退憔W融合P63 第三章 展望面向 2030 年的算力基礎設施P64數字文明時代加速到來,要求算力基礎設施資源充沛、泛在普惠P65隱私計算為代表的技術為組織間數據流通提供解決方案P67可
3、信隱私計算是未來數據要素化的理想技術方案之一P69Web3.0驅動規?;?、泛在化的智能算力構建P71第五范式AIforScience對算力的需求P73大模型成為人工智能工程化重要方向,智能算力需求幾何級增長P75邊緣創新與新興應用P76自動駕駛進入無人化新階段,云邊端高效協同目錄 CONTENTS 4“東數西算”定義和解讀一、東數西算工程今年 2 月,國家發展改革委會同中央網信辦、工業和信息化部、國家能源局等有關部門,同意在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏 8 地啟動建設國家算力樞紐,并設立 10 個國家數據中心集群,正式啟動“東數西算”工程,構建全國一體化大數據中
4、心協同創新體系。與“西氣東輸”“西電東送”“南水北調”等工程相似,“東數西算”是一個國家級算力資源跨域調配戰略工程,針對我國東西部算力資源分布總體呈現出“東部不足、西部過?!钡牟黄胶饩置?,引導中西部利用能源優勢建設算力基礎設施,“數據向西,算力向東”,服務東部沿海等算力緊缺區域,解決我國東西部算力資源供需不均衡的現狀?!皷|數西算”定義和解讀圖片來源:https:/ 5國家“東數西算”工程背景下新型算力基礎設施發展研究報告二、東數西算內涵“東數西算”是“全國一體化大數據中心協同創新體系”的一個下轄概念,而后者旨在推進技術、業務、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的數據協同管理和
5、服務,其實現方式不是固定不變的。因此,不一定過度強調“東數西算”,面對不同應用場景,還可能有東數東算、南數北算等模式,應因地制宜。但無論哪種模式,都有著共同的目標:一是促進數據中心資源最大化共享、流通和利用,二是通過數據中心的系統化布局,促進國家碳達峰、碳中和戰略實現。三、東數西算與算力基礎設施化 算力代表了對數據的處理能力,是數字化技術持續發展的衡量標準,也是數字經濟時代的核心生產力。東數西算項目是促進算力、數據流通,激活數字經濟活力的重要手段。東數西算首次將算力資源提升到水、電、燃氣等基礎資源的高度,統籌布局建設全國一體化算力網絡國家樞紐節點,助力我國全面推進算力基礎設施化。算力基礎設施化
6、并不簡單等同于算力總量的拉升。算力的基礎設施化并不是簡單的算力堆砌,當前各類機構的算力總量測算方式都是將各行業、各公司的私有算力進行累加,甚至還會加上手機終端等移動端的算力,這些算力確實能夠服務一定的群體,但算力資源并不能面向全社會提供統一一致的服務。6四、東數西算與綠色節能東數西算是促進綠色節能,助力實現碳達峰、碳中和目標的重要手段。目前東部算力需求旺盛,但東部地區在氣候、資源、環境等方面不利于低碳、綠色數據中心的建設。通過算力基礎設施的西部遷移,可以充分發揮西部區域氣候、能源、環境等方面的優勢,引導數據中心向西部資源豐富地區聚集,擴大可再生能源的供給,促進可再生能源就近消納,加強數據、算力
7、和能源之間的協同聯動,助力我國數據中心實現低碳、綠色、可持續發展,完成碳達峰、碳中和目標?!皷|數西算”工程聚焦創新節能,在集約化、規?;?、綠色化方面著重發力,支持高效供配電技術、制冷技術、節能協同技術研發和應用,鼓勵自發自用、微網直供、本地儲能等手段提高可再生能源使用率,降低數據中心電能利用率(PUE),引導其向清潔低碳、循環利用方向發展,推動數據中心與綠色低碳產業深度融合,建設綠色制造體系和服務體系,力爭將綠色生產方式貫徹數據中心全行業全鏈條,助力我國在 2060 年前實現碳中和目標。五、“東數西算”工程“五個一體化”的目標建設東數西算把東部地區的非實時算力需求以及大量生產生活數據輸送到西部
8、地區的數據中心進行存儲、計算并反饋。在其上則是希望構建更綠色、更平衡和更高效的國家算力網絡體系,以滿足新時代各行各業數字化轉型、數字技術與生活場景加速融合所帶來的海量計算、傳輸、存儲需求,最大化實現數據中心產業綠色集約發展,推動資源統籌利用和西部數字經濟建設?!皷|數西算”定義和解讀 7國家“東數西算”工程背景下新型算力基礎設施發展研究報告 網絡一體化 圍繞集群建設數據中心直連網,建立合理網絡結算機制,增大網絡帶寬,提高傳輸速度,降低傳輸費用。圍繞集群穩妥有序推進新型互聯網交換中心、互聯網骨干直連點建設。能源一體化 從國家雙碳戰略整體規劃出發,充分發掘西部豐富的風光等可再生資源,應對好可再生能源
9、波動性問題,擴大清潔能源市場化交易范圍,促進建立清潔能源消納的市場化機制。從整體規劃層面對數據中心集群進行統一能耗指標調配。算力一體化 在集群和城區內部的兩級算力布局下,推動各行業數據中心加強一體化聯通調度,促進多云之間、云和數據中心之間、云和網絡之間的資源聯動,構建算力服務資源池。數據一體化 建設數據共享開放、政企數據融合應用等數據流通共性設施平臺。試驗多方安全計算、區塊鏈、隱私計算、數據沙箱等技術模式,構建數據可信流通環境。應用一體化 開展一體化城市數據大腦建設,選擇公共衛生、自然災害、市場監管等突發應急場景,試驗開展“數據靶場”建設,探索不同應急狀態下的數據利用規則和協同機制。關于“東數
10、西算”工程“五個一體化目標”闡述來源:中國工程院院士、清華大學計算機科學與技術系教授鄭緯民https:/ 8前言2022 年初,國家發展改革委、中央網信辦、工業和信息化部、國家能源 局聯合印發通知,同意在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴 州、甘肅、寧夏等 8 地啟動建設國家算力樞紐節點,并規劃了 10 個國家 數據中心集群,標志著“東數西算”工程正式全面啟動。數據中心不僅是算力的聚集地,也是數據應用的發祥地,更是企業數字化 轉型的根據地。2022 年發布的“十四五”數字經濟發展規劃第一條支線即為底層信息網絡基礎設施建設領域,包括 5G、數據中心、光纖寬帶等,可以理解為此前反復強調
11、的“新基建”的延續。東數西算工程從國家戰略、技術發展、能源政策等多方面綜合考慮,將算力資源提升到水、電、燃氣等基礎資源的高度,統籌布局建設全國一體化算 力網絡國家樞紐節點,在實現數據中心一體化協同創新的要求方面,給出了高質量的解決方案,助力我國全面推進算力基礎設施化,其戰略價值已經被大家認同。但在具體實施落地過程中,需要解決諸多問題,諸如實現數據中心有效整合、優化算力布局,降低算力成本、完成算力調度、實現算網融合、政府作用與市場力量有機結合等關鍵問題。為此,中國智能計算產業聯盟、益企研究院基于實踐調查、探索研究后提 出了幾個維度的洞察,并分析東數西算對新型算力基礎設施發展的影響、新型算力基礎設
12、施的技術架構的迭代和演進,以及如何通過技術驅動提升算力新基建的競爭力。9國家“東數西算”工程背景下新型算力基礎設施發展研究報告CHAPTER1東數西算對算力新基建的影響國家“東數西算”工程背景下新型算力基礎設施發展研究報告 10數據中心布局向供需協調有序、綜合能效優化演進數據中心按照規模,分為超大型數據中心、大型數據中心和中小型數據中心。按照主要處理的業務類型,又可分為邊緣計算類、低時延類、中時延類和高時延類。數據中心建設作為資本密集、技術密集型投資,數據中心地理位置的選擇與其投資規模、投資成本、數據中心類型、服務質量、經濟效益等因素緊密相關。隨著全國一體化大數據中心體系總體布局的實施,在京津
13、冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏啟動建設 8 個國家算力樞紐節點,并規劃了張家口集群、長三角生態綠色一體化發展示范區集群、蕪湖集群、韶關集群、天府集群、重慶集群、貴安集群、和林格爾集群、慶陽集群、中衛集群等 10 個國家數據中心集群。重點從頂層設計層面加強數據中心布局、算力、數據、網絡、電力、能耗等方面的全國性統籌規劃、一體化發展,數據中心的布局也將更加規范和優化。數據中心在選址布局時也將呈現如下變化。一是數據中心選址向算力需求中心聚集。當前我國數據中心分布以大灣區、長三角、京津冀經濟人口等較發達地域為主,在用數據中心中約 80%集中在用戶規模較大、應用需求強烈的互聯網
14、骨干節點所在省市及周邊人口稠密、經濟發達、總部企業密布一線城市。截至 2021 年底,北京及周邊、上海及周邊的數據中心機架數量排列分列一二。CHAPTER1 東數西算對算力新基建的影響圖片來源:2021 中國云數據考察報告 11國家“東數西算”工程背景下新型算力基礎設施發展研究報告但是隨著北京、上海、廣州等一線城市土地、能耗指標日益縮緊,對數據中心的政策 約束愈加嚴格,已建數據中心已遠遠不能滿足城市經濟發展對算力的需求,一線城市 周邊地區逐漸成為互聯網數據中心的首要選擇。例如,緊鄰北京的張家口、廊坊,靠 近上海的南通、昆山,距離廣深不遠的韶關、云浮、清遠等都是數據中心密集落戶的地區。阿里云五大
15、超級數據中心選址烏蘭察布、張北、南通、杭州、河源,均位于在 中心城市周邊。隨著 10 個數據中心集群的規劃建設,數據中心供給結構優化,擴展算力增長空間,政策方面也明確要求對于符合條件且納入國家樞紐節點數據中心集群范圍的建設項目,積極協調安排能耗指標予以適當支持,實現大規模算力部署與土地、用 能、水、電等資源的協調可持續。二是數據中心選址向綜合能效最優聚集。數據中心的主要運營成本包括土地、水、電、運 維等要素,運營成本因為區位的不同有顯著的差異,其中,高能耗導致的高電力成本 是制約數據中心發展的主要因素之一。在土地、氣候、政策、能源供給等優勢加持下,數據中心建設選址向可再生能源豐富、氣候適宜、數
16、據中心綠色發展潛力較大、綜合能 效最優的節點城市聚集,著重提升算力服務品質和利用效率,充分發揮資源優勢,夯 實網絡等基礎保障,積極承接全國范圍需后臺加工、離線分析、存儲備份等非實時算數據中心選址向算力需求中心聚集數據中心選址向綜合能效最優聚集數據中心選址向用戶終端靠近010203 12力需求,打造面向全國的非實時性算力保障基地。通信運營商、互聯網企業等也紛紛 將數據備份存儲、大數據處理等對網絡時延要求較低的業務向綜合能效優勢地區轉移。例如,內蒙古烏蘭察布“草原硅谷”,吸引了華為、阿里、快手等知名企業來此設立數據中心。西南地區的“云上貴州”吸引了蘋果、騰訊、華為等企業,2021 年貴陽貴安成為全
17、球集聚超大型數據中心最多的地區之一,數字經濟占比達 34%。甘肅的“云天中衛”建成了亞馬遜、美利云、中國移動、中國聯通、天云網絡、創客超算 6 個大型、超大型數據 中心,中國電信、炫我科技、愛特云翔、中國廣電 4 個數據中心也在加快建設。三是數據中心選址向用戶終端靠近。隨著超高清視頻、虛擬現實/增強現實(VR/AR)、金融支付、金融證券、自動駕駛、工業制造、遠程醫療等對網絡時延要求較高的業務的廣泛應用,靠近用戶側,作為算力“邊緣”端的邊緣計算型、中小型數據中心建設逐漸成為趨勢。廣東省 5G 基站和數據中心總體布局(2021-2025)提出,原則上只可建中型及以下的數據中心,承載邊緣計算和低時延
18、業務,中時延業務逐步遷移至粵東粵西粵北地區,高時延業務更要求遷移至省外。北京市數據中心統籌發展實施方案(2021-2023 年)提出,適度利用騰退后資源和空間改造建設邊緣計算中心,支撐低時延業務應用,服務智慧城市、車聯網等重點應用場景落地。除邊緣計算中心外,東、西城區禁止新建或擴建數據中心。因此,數據中心選址時還會考慮數據CHAPTER1 東數西算對算力新基建的影響 13國家“東數西算”工程背景下新型算力基礎設施發展研究報告中心功能定位、數據處理要求、所承載業務的時延敏感性等因素合理選擇新建數據中心的地理位置,例如自動駕駛(車聯網)、工業制造(機器人)、遠程醫療、金融證券等對時延非常敏感的網絡
19、應用的數據中心,可以選擇在節點城市內部發展,服務后臺加工、離線分析、冷數據存儲備份等對時延不敏感的網絡應用的數據中心,就可以優先向貴州、內蒙古、甘肅、寧夏節點轉移,實現資源優化配置,提升資源使用效率。東數西算向時延要求低、存算要求高類型應用場景拓展帶寬和時延是信息傳輸的兩個關鍵指標,受限于物理規律,無論網絡帶寬多大,傳輸速度多快,傳輸時延都是客觀存在的。因此,在“東數西算”中,工業互聯網、災害預警、遠程醫療、自動駕駛等需要被計算節點頻繁訪問、網絡時延要求高的實時在線類“熱數據”不適合“西算”,而離線分析、后臺加工、存儲備份等離線類訪問頻率低、網絡時延要求不高的“冷數據”以及介于兩者之間的“溫數
20、據”,則更適合“西算”。雖然“東數西算”在網絡時延上的限制使其不適用于時效緊迫型的數據應用,但是“東數西存”“東數西渲”“東數西訓”,以及未來的“東云西庫”等對存力、算力要求高,但對數據實效性要求不高的應用場景將成為“東數西算”未來應用的重要支點。一是“東數西存”應用空間極其廣闊。數字經濟的發展推動海量數據的產生,這些數據的存儲需要有強大的存力支持。從一般的統計來看,社會運行所產生的數據中,冷、溫、熱數據的占比分別為 80%、15%、5%,其中冷數據是存量最多的數據1。對于冷數據來講,計算不是常態,其最主要的需求還1.鄔賀銓:東數西算實為“東數西存”如何處理冷熱數據值得研究 https:/ 東
21、數西算對算力新基建的影響 15國家“東數西算”工程背景下新型算力基礎設施發展研究報告模擬、材料計算、生物信息等開始探索適用于“東數西算”場景。如格點量子色動力學的大規模數值模擬,涉及場景多、應用廣,是最耗費計算資源的科研領域之一,其運算過程以及運算后海量組態數據分析,就適合于東數西算場景。又如材料基因組工程的各類高通量計算,每個計算任務之間無耦合,可以分配到任何可用節點,因此可以充分利用超算互聯網連接的各超算中心的閑置資源。目前,中西部地區新建的數據中心已經開始面向全國科研用戶提供綠色普惠的高性能一體化算力服務??偟膩碚f,“東數西存”“東數西渲”“東數西訓”等應用場景是推動“東數西算”均衡發展
22、的有效途徑,通過對東西部算力、存力等資源供需關系的合理匹配,讓“東數西算”融入到各個實際業務場景中,賦能千行百業的高質量發展。算力結構呈現多元算力協同、算網一體化發展態勢一是算力設施多元化布局加快推進。一方面,“東數西算”工程布局空間跨度大,增加 了數據傳輸時延,為有效解決這一問題,不僅需要高效靈活的東西部算力資源調度機 制,也需要對東西部各類算力資源,包括通用算力、智算算力、超算算力、邊緣算力 等的配比進行優化,算力設施的異構化、多樣化供給需求將明顯增強。另一方面,智 能化正以前所未有的速度在我國重塑各行各業,人工智能應用場景呈現出多元化、規 ?;l展趨勢,除了通用算力,對智能算力的需求與日
23、俱增。工信部新型數據中心 發展三年行動計劃(2021-2023 年)提出,到 2023 年底,全國數據中心總算力超 過 200EFLOPS,高性能算力占比達到 10%。綜上,我國算力基礎設施迎來了大規模需求的繁榮期,結合不同應用場景需求的多元化布局將加快推進。二是算力網絡一體化格局加速形成。全國一體化大數據中心協同創新體系算力樞紐 實施方案提出要構建一體化的新型算力網絡體系,在通用算力方面,工信部數據顯 示,截至 2021 年底,我國在用數據中心機架總規模超過 520 萬標準機架,平均上架 率超過 55%。在智算算力方面,公開資料顯示,當前全國智算中心已超過 20 個,主 要分布在東部和中部地
24、區。在邊緣算力方面,我國還處于起步階段,但在工信部公布的 2021 年國家新型數據中心典型案例名單中,已有 12 個邊緣數據中心入選。隨著“東數西算”工程的推進,以及多元算力適配與調度、算網融合等關鍵技術的突破,全國算力網絡一體化格局將加速形成。16產業鏈上下游集聚發展,生態體系逐步壯大完善算力新基建產業鏈條長、覆蓋門類廣、投資規模大、帶動效應強,“東數西算”工程將推動新建數據中心尤其是大型、超大型數據中心向中西部地區以及北上廣深等一線城市周邊布局,同時帶動相關產業有效轉移集聚,促進東西部數據流動、價值傳遞。如中科曙光近年來在重慶、太原等地積極布局,探索實現了“以算促用”、“以算帶動創新”。一
25、方面,從中短期看將直接拉動產業鏈上游和中游發展?!皷|數西算”工程的啟動實施,將直接拉動新一輪數據中心建設投資,IDC 基建率先受益。據統計,自 2022 年以來,全國 10 個數據中心集群中,新開工項目達到 25 個,數據中心規模達 54 萬標準機架,帶動各方面投資超過 1900 億元2。網絡建設是算力均衡布局的基礎,符合“東數西算”需求的網絡特別是西部網絡建設將全面提速,加速光纖通信向全光網演進。此外,在全球數據激增和“雙碳”戰略的大背景下,“東數西算”工程對數據中心建設標準更為嚴格,平均上架率至少要達到 65%以上,對 PUE 也提出了更高的要求,綠色、低能耗的數據中心基建設備、邊緣計算等
26、環節將迎來持續發展機遇,溫控散熱技術有望實現升級。另一方面,從長期看將逐步壯大完善產業生態體系?!皷|數西算”工程實施后將加速推動數據中心上游設備制造業和下游數據要素流通、數據創新型應用和新型消費產業等集聚發展,西部地區有望吸引數據加工、數據清洗、數據內容服務等偏勞動密集型產業落地。此外,隨著數據規模和算力水平的提升,將有效激發數據要素創新活力,培育涌現出一批數據交易所、算力運營商、余熱利用經銷商、綠色數據中心評價機構等新模式新業態。綠色低碳技術推廣應用,清潔能源供給不斷加大因此,不一定過度強調“東數西算”,面對不同應用場景,還可能有東數東算、南數北算等模式,應因地制宜。但無論哪種模式,都有著共
27、同的目標,一是促進數據中心資源最大化共享、流通和利用,二是通過數據中心的系統化布局,促進國家碳達峰、碳中和戰略實現。2.國家發展改革委高技術司負責同志就“東數西算”投資建設進展相關問題答記者問https:/ 東數西算對算力新基建的影響 17國家“東數西算”工程背景下新型算力基礎設施發展研究報告一是數據中心綠色低碳發展。數據中心作為“東數西算”工程重要算力基礎設施,高能 耗是其顯著特征。面向“碳達峰”“碳中和”發展目標,國家和地方持續出臺一系列政策,進一步規范了數據中心的能耗管理和 PUE 值,如圖所示,明確要求全國新建大型、超大型數據中心平均電能利用效率(PUE)降到 1.3 以下,國家樞紐節
28、點進一步降到 1.25 以下,綠色低碳等級達到 4A 級以上。北京根據數據中心建設規模,將 PUE 準入水平分別設定為 1.3、1.25 和 1.15。上海數據中心新建項目 PUE 控制在 1.3 以下,改建項目控制在 1.4 以下,集聚區新建大型數據中心綜合 PUE 降至 1.25 以下。旨在有序推動數據中心綠色高質量發展。二是推動清潔能源有效利用。據統計,2021年,我國數據中心年耗電量2161億千瓦時,約占全國總用電量的 2.6%。且我國當前在用數據中心機架主要分布在北上廣及其周邊地區,能源使用壓力巨大。從一體化大數據中心算力樞紐節點來看,內蒙古、甘肅、寧夏、貴州等省份是我國清潔能源大省
29、,除貴州擁有豐富的水電資源外,其他三地都是風光資源的“富集區”,“東數西算”工程實施,承接東部算力需求的潛力,將大幅提升綠色能源PUE值要求年份201720182019202020212022國家和地方政策對數據中心 PUE 值要求演變圖 18的需求,提高西部地區的綠色能源消納水平。三是節能減排實踐加速涌現。液冷、蓄冷、高壓直流、余熱利用、蓄能電站等技術應用,以及太陽能,風能等可再生能源利用,進一步降低數據中心能耗及碳排放。中科曙光經過十年研制成功的浸沒式相變液體冷卻技術可以將計算系統的 PUE 值降到 1.04,達到全球領先水平。建設運營綠色低碳數據中心實踐不斷涌現,百度云計算(陽泉)中心應
30、用市直供+HVDC、自研“零功耗”置頂冷卻單元及 AI 調優技術,年均達到 1.08。西部(重慶)科學城先進數據中心通過采用浸沒液冷、光伏發電、微模塊等技術,整體綜合 PUE 低至 1.14。新老節點加快有序銜接,強化算力網絡智能調度一方面,將加快新建算力設施和已有算力設施銜接配合?!皷|數西算”工程是一個讓算力資源從過去的分散到相對集中,從個體運營到國家統籌的過程?!皷|數西算”不是單CHAPTER1 東數西算對算力新基建的影響圖片來源:2021 中國云數據考察報告 19國家“東數西算”工程背景下新型算力基礎設施發展研究報告純的覆蓋原有的算力設施,按照算力設施目前布局情況,除了“東數西算”要建設
31、的節點集群外,原來各個地方已經有大量的數據中心、超算中心和智算中心,將促進新建和已有算力設施的有機融合。當前,京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏、山東等地出臺了一體化算力網絡建設方案,通過科學規劃布局,使國家數據中心的集群和現有的各地各類型的算力設施統籌銜接和配合,從而形成合理分工、科學聯動、高效協作的機制。另一方面,將推動東西部算力設施供需匹配和智能調度?!皷|數西算”要面臨很多類型的數據處理需求,以及多樣化的業務需求,如何保證東數和西算形成有效的供需匹配成為一個重要難題。如果沒有業務保障,算力設施就無法發揮應有作用,從而造成設施空置和能源空耗。算力設施供需匹配將會在
32、國家層面、省市級層面、企業層面、業務層面等多個層級開展面向性能、面向價格、面向效益的多方面測算,從而形成真正的應用需求供給和可持續的勞動力機制。進一步地,作為“東數西算”未來的神經中樞,算力網絡的集中化調度是重中之重,有利于將所有的網絡資源包括帶寬資源和云資源進行統一調度,實現算力網絡的云網協同。數字技能水平要求提升,技能人才需求不斷凸顯一方面,算力基礎設施規?;G色化智能化趨勢明顯,數據中心運營人才短缺。數據中心是數字技術創新的高地,隨著數據中心綠色低碳、智能運營、算網調度等要求的不斷升級,將加大對大數據、云計算和人工智能等相關高技術領域的人才需求。人社部中國就業培訓技術指導中心的新職業在線
33、學習平臺發展報告指出,未來 5 年,大數據、云計算產業人才缺口將高達 150 萬。掌握云架構、云配置管理、IT 基礎設備管理、信息安全、數據中心綜合管理以及節能減排等技能人員成為未來數據中心最為搶手的技術“東數西算”工程是一個讓算力資源從過去的分散到相對集中,從個體運營到國家統籌的過程。20領域人才。目前,就業與招工難在數據中心行業同時并存,數據中心權威機構 Uptime Institute 的報告顯示,調查的受訪人當中,有一半表示目前很難找到空缺職位,遠遠高于 2018 年的 38%;從企業端看,數據中心對復合人才需求巨大,很多求職者并不符合招聘職位的要求,高等院校目前難以培養出足夠的技術人
34、才。另一方面,算力設施普及將加速各領域數字化轉型步伐,數字技能人才需求加大?!皷|數西算”不僅有助于改善數字基礎設施不平衡的布局,而且有助于企業更好地提供云存儲、云計算、數據工具、研發平臺、AI 技術等服務,進一步降低上云用數成本,加快更多傳統企業及中小企業實現數字化轉型。數字化人才儲備是數字化轉型的關鍵,當前中國勞動力市場的數字化人才短缺。根據 IDC中國中小企業調查企業數字化挑戰,2022報告顯示,超 10%的企業不具備數字化的 IT 能力,15%的企業不了解如何進行數字化轉型,超 20%的企業存在員工 IT 技能不足的問題。數字經濟就業影響研究報告指出,2020 年中國數字化人才缺口接近
35、1100 萬。根據人社部發布的相關報告測算,我國人工智能人才目前存在較大缺口,國內供求比例為 1 10,供需比例嚴重失衡。10%15%20%超 10%的企業不具備數字化的 IT 能力超 20%的企業存在員工 IT 技能不足的問題15%的企業不了解如何進行數字化轉型 IDC中國中小企業調查企業數字化挑戰,2022CHAPTER1 東數西算對算力新基建的影響 21國家“東數西算”工程背景下新型算力基礎設施發展研究報告CHAPTER2算力新基建呈現的 10 大挑戰和實踐國家“東數西算”工程背景下新型算力基礎設施發展研究報告 222021 年 12 月,國務院印發“十四五”數字經濟發展規劃提出,到 2
36、025 年,數字經濟邁向全面擴展期,數字經濟核心產業增加值占 GDP 比重達到 10。發展數字經濟,已經成為中國經濟戰略的重中之重。發展數字經濟,算力又是重要支撐,算力作為核心生產力成為共識。2018 年,中國科 學院計算技術研究所研究員張云泉提出算力經濟概念,指出以計算為核心的算力經濟 將成為衡量一個地方數字經濟發展程度的代表性指標和新舊動能轉換的主要手段,算 力經濟涵蓋算力基礎設施、算力資源、算力服務和算力應用等產業。從中國信通院發 布的數據來看,在算力中每投入 1 元,帶動 3-4 元經濟產出;算力發展指數每提高 1 點,GDP 增長約 1293 億元。數據來源:中國算力發展指數研究報告
37、同樣,將羅蘭貝格算力估算結果同 IMD 智能化水平評估結果進行比對,發現國家分類結果基本吻合,從而證明人均算力與國家智能化水平正相關。算力在生產生活中的應用越來越多,數據潛力才會不斷被挖掘,因此加快算力基礎設施建設,優化算力資源布局、支持跨區域算力網絡實時、靈活調度運營,提升算力應用強度至關重要。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 23國家“東數西算”工程背景下新型算力基礎設施發展研究報告一、算力基礎設施化 保障資源多元供給綜合來看,算力是硬件和軟件配合共同執行某種計算需求的能力。算力服務是提供算力的一種商業模式,是包括算力生產者、算力調度者、算力服務商以及算力消費者在內的
38、算力產業鏈上算力經濟模式的統稱。在加速算力服務核心技術創新發展方面,未來需要加強算力網絡、基礎設施化、開放應用模型、云邊協同、云原生等算力服務核心技術布局,打造開放靈活的算力服務用戶平臺,推動算力經濟供給側改革,激發算力服務的范式創新。讓算力像水、電資源一樣隨取隨用,使算力服務成為一種公共服務,是 61 年前“人工智能之父”約翰麥卡錫的預測。但不同于標準化的電力,因為數據來源、結構存在多樣性和復雜性,一些特定場景對計算能力的要求或者對計算特性的要求會越來越多,如 24云計算的推廣,使得算力得以普惠化。用戶按需采購算力、存儲、帶寬即可開展業務,可以將精力集中在拓展、開發新的應用,專注于本行業的知
39、識創新AI 服務、音視頻服務等場景有足夠的市場,顯然通用計算無法滿足其效率需求。與此同時,企業為尋求更加敏捷、靈活和高效的應用開發模式,以加速應用的創新和快速上市,如容器、微服務和 DevOps,這些應用開發模式拉近了業務和計算平臺之間的聯系,應用開發團隊將定義基礎設施的性能、可用性和規模,直接推動計算平臺架構的變革和創新。算力基礎設施化并非易事,隨著多樣性技術路線的引入和發展,以GPU、FPGA 為代表的異構計算與以 ARM 為代表 CPU 架構的兼容性問題更加突出,多樣性算力的標準化度量與輸出成為挑戰。不同算力平臺(超級計算中心、云數據中心、智能計算中心)的技術方案、系統架構、軟件平臺、硬
40、件設備、服務保障存在很大差異。要加快算力基礎設施化進程,需要多類算力基礎設施并行發展,保障算力資源的多元供給,圍繞強化數字轉型、智能升級、融合創新支撐來統籌布局云數據中心、智能計算中心,超級計算中心等算力基礎設施建設。1)算力服務能力是云數據中心的基石云計算的推廣,使得算力得以普惠化。用戶按需采購算力、存儲、帶寬即 可開展業務,可以將精力集中在拓展、開發新的應用,專注于本行業的知 識創新,而不必在基礎硬件、系統、網絡、安全等需求上重復建設,也不用擔心業務快速發展時受困于系統瓶頸。自此,不論是大中小型企業,亦 或是個人,都可以通過不同形式的云(IaaS、PaaS、SaaS)獲得需要的服務。我國的
41、云數據中心作為數字化基礎設施的核心節點,這幾年飛速發展。云數據中心不僅是算力的聚集地,還是數據應用的發祥地,更是企業數字化CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 25國家“東數西算”工程背景下新型算力基礎設施發展研究報告轉型的根據地。益企研究院在實地考察 8 個國家算力樞紐節點、7 個數據中心集群后發現,算力基礎設施的使用效率,會直接影響到云服務商的創新能力和盈利能力。全方位的計算力服務能力是云服務商競爭力的基石,云服務商不斷優化硬件基礎設施提升算力效率,尤其在服務器產品層面,通過高計算密度提供高算力和能效比,通過高速互聯技術提升集群的擴展性,通過高度集成化設計、模塊化和冗余設
42、計簡化交付部署流程,通過高效率散熱系統打造綠色節能的集群系統。在數據中心內部,基于云數據中心規?;瘍瀯?,云服務商通過規?;?、定制化能力支撐各項新型業務,將新的技術應用于云服務器來適配云端業務場景,通過完善從底層到應用層的自研技術體系,不斷優化硬件基礎設施提升算力效率,快速靈活對市場做出反應。為通用算力輸出單元的 CPU 也走向多元化:ARM 陣營百花齊放。對云服務商而言,一方面需要 CPU 有更強的核心和更多的核心數,另一方面需要不同的 CPU 滿足客戶多元化細分場景的需求,都與效率有著密不可分的關系。最大的變化是,在自主可控的大潮推動下,中國“芯”力量正在崛起,國產 CPU 龍頭海光信息成功
43、登陸科創板,成為2022 年半導體領域知名的 IPO 事件,海光、龍芯、飛騰等產品的技術成熟度和應用范圍正在追趕主流。26從數字中國萬里行的洞察中發現,云數據中心完成多元算力的布局,但多元算力的多元的開發生態體系相對獨立,應用的跨架構開發和遷移困難,亟需通過開源、開放的方式建立可屏蔽底層硬件差異的統一異構開發平臺。在數據中心基礎設施層面,新基建、雙碳、東數西算,每年都有新熱點,背后的指導思想則是一以貫之,兼顧效率與均衡、可持續的發展。從國家戰略層面來說,希望通過建設高效集約、普適普惠的新型基礎設施,推動計算力向綠色化和集約化方向加速演進。2)智算中心成為新熱點人工智能需要海量的計算資源和存儲空
44、間,再加上非結構化數據的大爆發以及 AI 算法的快速演進,對傳統計算范式造成了巨大的沖擊,很多特定計算任務開始涌現,且需要在并行度、吞吐量和時延上做到極致。無論是智慧城市還是智能制造、無人駕駛、數字孿生等場景,除了要有數據支撐以外,還要和各領域、各場景的知識模型、機理模型甚至物理模型相疊加,形成基于人工智能的新應用和場景實現。復雜模型、復雜場景勢必需要面向 AI 的算力基礎設施,即智算中心,智能計算中心。集約化成為“智算中心”算力基礎設施的趨勢,通過 AI 服務器把算力高密度地集中在一起,解決了調度和有效利用計算資源、數據、算法等問題,同時減少閑置浪費,通過算力共享模式,大幅降低 AI 算力成
45、本,支持更廣泛的 AI 創新研究和應用。作為城市級公共算力平臺,智算中心支撐類似大模型訓練等大算力需求,滿足區域內政府、企CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 27國家“東數西算”工程背景下新型算力基礎設施發展研究報告業、高校等各類用戶的算力需求,以 AI 專用芯片為計算算力底座,使用算力單位略有不同,集約化成為“智算中心”算力基礎設施的趨勢,通過 AI 服務器把算力高密度地集中在一起,解決了調度和有效利用計算資源、數據、算法等問題,同時減少閑置浪費,通過算力共享模式,大幅降低 AI 算力成本,支持更廣泛的 AI 創新研究和應用。作為城市級公共算力平臺,智算中心支撐類似大模型
46、訓練等大算力需求,滿足區域內政府、企業、高校等各類用戶的算力需求,需要配備多元融合算力。以曙光5A級智算中心為例,其通過分布式異構并行體系結構,搭載多類型芯片,實現全精度、多樣性算力供應,滿足包含數值模擬、AI 訓練、AI 推理在內的不同應用場景需求。目前智算中心發展尚處于初期階段卻發展迅速,智算中心圍繞模型算法來提供更好的數據和算力支持,需要將算法、模型、算力三者有機融合起來,輸出 AI 的數據庫、AI 的模型、AI 的開放平臺等多種 AI 產品,讓人工智能應用透明化,為政府、企業和科研院所提供普惠 AI 算力服務,真正支持數字經濟的技術創新、平臺創新、應用創新、生態創新和監管創新。3)超算
47、 2.0:賦能產業超算算力是基于超級計算機等計算集群所提供的高性能計算能力,可進行普通計算機無法完成的工作,芯片以 CPU 為主,可含部分GPU加速器,以提供雙精度浮點數(64位)計算能力為主。28截至目前,已批準建立的國家超級計算中心共有十所,分別是國家超級計算天津中心、廣州中心、深圳中心、長沙中心、濟南中心、無錫中心、鄭州中心、昆山中心、成都中心。而從 2021 年 11 月發布的中國 TOP100 的行業應用領域趨勢圖和 Linpack 性能份額圖來看,除了超算中心、人工智能、科學計算領域之外,高性能計算逐漸在生物制藥、基因測序、動漫渲染、數字電影、數據挖掘、金融分析以及互聯網服務等領域
48、中擴展。中國 TOP 100 行業應用領域機器 Linpack 市場份額圖(2021.11)數據來源:2021 年中國高性能計算機發展現狀分析與展望 在應用領域新增算力服務,充分反映了在大數據、人工智能算法和算力三駕馬車協同配合時代中算力經濟的發展,算力的多樣化正成為高性能計算領域的發展趨勢。目前,國家也重視超算互聯網工程,整合多個超算中心包括云計算中心的軟硬件資源,平衡算力的需求與供給,通過建設超算資源共享與交易平臺,支持算力、數據、軟件、應用等資源的共享與交易,同時向用戶提供多樣化的算力服務。金融2%科學計算3%短視頻4%云計算5%人工智能9%電信1%工業/制造1%政府1%電子商務1%能源
49、/石油1%教育科研1%互聯網1%算力服務46%超算中心24%CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 29國家“東數西算”工程背景下新型算力基礎設施發展研究報告4)云邊融合 邊緣暨核心邊緣計算可代表一類場景,基礎需求是算力盡量地靠近用戶。通常情況下,這些需求可以通過固網、光纖等技術來滿足,但很多場景無法用“有線”來解決,比如在工業互聯網、物聯網、車聯網等領域。在不同場景下,人們對邊緣的理解不同,就運營商而言,一是從行政區劃角度,從全國到省一級,再到地市級、縣鄉級,越遠就相對越邊緣;另一個角度是從運營商組網層面,從接入網到核心網,再到數據中心內部,靠近接入網的站點,就可定義為邊緣站
50、點。而從應用的角度,除了大型數據中心以及云計算中心節點之外,都可以稱作邊緣。比如從最接近用戶側的家用路由器或者工廠里的工控機,到園區的計算以及數據處理設備,以及一些區域數據中心,都可以稱作邊緣的數據中心。無論是 5G 還是邊緣計算,主要目標就是為行業用戶提供服務,尤其是算力服務。但中國的行業種類繁多,不同的應用場景必然導致不同的算力需求,邊緣計算的業務差異性大,這些差異性的業務在一個相對規模不是很大的匯聚節點要去呈現,在一個資源相對有限的邊緣數據中心去滿足不同業務提出的算力需求,需要邊緣數據中心的設備能夠盡量通用、開放。這就需要積極構建城市內的邊緣算力供給體系,支撐邊緣數據的計算、存儲和轉發,
51、滿足極低時延的新型業務應用需求。引導城市邊緣數據中心與變電站、基站、通信機房等城市基礎設施協同部署,保障其所需的空間、電國家超級計算中心共有十所,分別是國家超級計算天津中心、廣州中心、深圳中心、長沙中心、濟南中心、無錫中心、鄭州中心、昆山中心、成都中心 30力等資源,需求牽引,在工信部發布的新型數據中心發展三年行動計劃(2021-2023年)中提到,深化協同,推動新型數據中心與網絡協同建設,推進新型數據中心集群與邊緣數據中心協同聯動,促進算力資源協同利用,加強國際國內數據中心協同發展。5)算網協同 算網融合無論是邊緣數據中心間,邊緣數據中心與核心數據中心集群間的組網、還是不同算力集群之間組網,
52、提升算力網絡支撐能力,構筑新型的算力網絡基礎設施是推動算力基礎設施化的重要前提和舉措。強化算網的協同融合發展,優化東西部數據資源的結構,需要一體化、高質量的數據中心集群和互聯網絡協同支撐。從工信部在 新型數據中心發展三年行動計劃(2021-2023年)中提到的目標來看,到2023 年底,全國數據中心機架規模年均增速保持在 20%左右,平均利用率力爭提升到 60%以上,總算力超過 200 EFLOPS,高性能算力占比達到 10%。國家樞紐節點算力規模占比超過 70%。新建大型及以上數據中心 PUE 降低到 1.3 以下,嚴寒和寒冷地區力爭降低到 1.25 以下。國家樞紐節點內數據中心端到端網絡單
53、向時延原則上小于20 毫秒。這其中,算力網絡是一個系統工程,包括算力供給、算力管理、算力服務等多個方面。一方面要盡快補足算力樞紐節點間網絡薄弱環節,另一方面,逐步建立算網協同聯動CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 31國家“東數西算”工程背景下新型算力基礎設施發展研究報告機制,推動算力網絡需求和供給有效對接。加快實現算力網絡高效、智能、敏捷的調度與應用。算力網絡使能各行各業數字化轉型,需要各方共同打造新架構和底層技術,構建靈活敏捷的算力底座,打造泛在多維立體的算力網絡,來滿足算力資源高效連接,按需分配,靈活調動。為此,可充分發揮我國的體制優勢和市場優勢,提升自主創新能力。加
54、快算力網絡智能運維和融合架構等領域的創新突破,通過算力設施由東向西布局,帶動相關產業有效轉移,促進中西部地區數據流通、價值傳遞,推動算力設施能效水平和綠色用能水平的提升。國家算力網絡是一個系統工程,包括算力供給、算力管理、算力服務等多個方面。一方面要盡快補足算力樞紐節點間網絡薄弱環節,另一方面,逐步建立算網協同聯動機制,推動算力網絡需求和供給有效對接。32二、關鍵信息基礎設施的安全性要求數字世界有多高效,可能也就有多脆弱。安全問題近些年變得愈演愈烈,勒索病毒與黑客攻擊無時無刻不在進行。受新冠疫情流行和全球數字化進程加快的驅動,一定程度上因網絡開放度的提升和接口的增多,給勒索病毒提供了新的攻擊面
55、。2021 年美國最大的成品油管道運營商科洛尼爾管道運輸公司(Colonial Pipeline)就遭受病毒勒索,隨后,科洛尼爾主動切斷了某些系統的網絡連接,造成油料運輸不正常,導致東海岸 45%的汽油、柴油等燃料供應受到影響,最后公司無奈支付了 500萬美元的贖金得以“釋放”。就在2022年3月,豐田汽車供應商小島工業(KojimaIndustries Corp)公司同樣受到“勒索軟件”攻擊,導致豐田在日本所有的 14 家工廠 28 條產線全面停產,導致豐田當月產能下降 5%,損失上億美元。當惡意攻擊行為的攻擊面擴大,客戶希望得到從芯片到安全 OS、軟件接口、安全應用等業務的全流程、全生命周
56、期的數據安全服務,基于硬件的可信執行環境 TEE(Trusted execution environment)在云計算環境中成為趨勢,算力提供商正努力在源頭上封堵可能存在的漏洞。1、獨立的安全子系統從算力基礎單元 CPU 來看,當 CPU 的核心越來越強大,L3 Cache 的容量也一直在成倍增長。這些核心功能的持續進步,容易讓人忽略,其安全特性也在不斷完善。以 AMD 第三代 EPYC 處理器為例,其安全性建立在一個獨立的安全子系統之上,其核心是 CPU 集成的安全協處理器,這是一個基于 Arm Cortex-A5 的 32 位微控制器。安全協處理器運行一個安全的操作系統/內核,安全的片外非
57、易失性存儲(如 SPI ROM)保存固件和數據,提供安全密鑰生成和密鑰管理等加密功能,啟用經過硬件驗證的引導。在硬件驗證的引導過程中,安全協處理器加載片上引導 ROM,該 ROM 加載并驗證片外引導加載程序。引導加載程序在 x86 核心開始 執行 BIOS 代碼前驗證 BIOS,也驗證和加載安全協處理器使用的代碼以提供密鑰管理。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 33國家“東數西算”工程背景下新型算力基礎設施發展研究報告EPYC 處理器的 SME 設計 圖片來源:2021 中國云數據考察報告安全加密虛擬化(Secure Encrypted Virtualization,SE
58、V)在云計算時代的重要性不言而喻,它在虛擬機以及 hypervisor 之間提供強加密隔離,根據虛擬機 ID 選擇活動的加密密鑰。在安全性方面,Confidential Compute Architecture(CCA),中文名稱為機密計算架構,這是一種基于架構層面的安全防護能力,通過打造基于硬件的安全運行環境來執行計算,保護部分代碼和數據,免于被存取或修改,乃至不受特權軟件的影響。34Arm 機密計算架構(左),Android 11 和 OpenSUSE 引入的內存標簽擴展技術(右)圖片來源:2021 中國云數據中心考察報告為此 CCA 引入了動態創建機密領域(Realms)的概念:一個安全
59、的容器化執行環境,支持安全的數據操作,可將數據與 hypervisor 或操作系統隔離。Hypervisor 的管理功能由“領域管理器”(realms manager)承擔,而 hypervisor 本身只負責調度和資源分配。使用領域的優勢在于極大地減少了在設備上運行給定應用程序的信任鏈,操作系統在很大程度上對安全問題變得透明,也允許需要監督控制的關鍵任務應用程序能夠在任何設備上運行。在實際應用中,內存是非常容易被攻擊的一環,內存安全也一直成 為行業的關注點,如何在內存安全漏洞被利用之前就能發現問題,是提高全球軟件安全的重要一步。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 35國家
60、“東數西算”工程背景下新型算力基礎設施發展研究報告2、從硬件直達云上的內生安全能力從數據中心的角度,需要實現從數據中心的防護到數據防護的一體化解決方案,這意味著從數據中心的設計規劃到建造到使用和運維,需要從生命周期安全、技術安全、管理安全、安全運維等多維度層面保證安全。而從云平臺的角度,通過對計算、存儲、網絡、安全、基礎軟件等軟硬件資源的統籌管理,借助 IaaS 和 PaaS 的資源實現安全能力,發揮云計算的優勢,實現物理安全、網絡安全、應用安全和數據安全。尤其在 2021 年 9 月國家數據安全法頒布后,在如何實現數據流通和數據安全的平衡方面,開始探索數據治理的新理念和新方法,從法律、技術、
61、安全、制度等多個角度,為部委、省市政府、央企等客戶系統性地推進數據治理工程提供有效支撐與服務。以數字中國萬里行考察的數字大理蒼洱云平臺為例,該平臺通過物理安全、硬件安全、系統安全、虛擬化安全建設,聚焦云平臺安全監控和安全運營、身份訪問控制和全鏈路數據保護,采用架構服務器構建可信云底座,構建以“本質+過程”的全棧云原生安全防護體系,滿足大理州云上應用系統安全防護需求。圖片來源:2021 中國云數據考察報告 36三、信創產業化:國產化、自主化從 2020 年開始,信創趨勢越發明確,站在用戶角度,信創落地最佳的方案是通過云計算的方式,建立一云多芯的混合 IT 體系,同時基于信創平臺進行可進化云原生研
62、發。2021 年,一個新的現象是全棧國產化云在政府、物流、金融、交通、電力等行業應用落地速度加快,為網絡信息體系建設提供完全自主可控的基礎支撐環境。國產化云采用自主和安全的架構體系搭建,從底層芯片、服務器的底層硬件與操作系統、數據庫到云服務的全棧打通,整合集成、監理、運維、安全、項目管理等服務,既滿足行業的數字化升級需求,還有效保證國家和企業云服務的安全性和可控性。在自主可控的大潮推動下,算力成為了企業發展的核心助力之一?;A設施的技術架構迭代中,中國“芯”力量開始登上舞臺,國產技術的成熟度和應用程度正在提升,從傳統的電腦到服務器,從芯到云,信創產業化加速進程中,“承上啟下“的適配作用不可忽視
63、,如果數字底座全為國產化,需要全流程的適配服務,包括為國產信創云的遷移適配提供組織規劃、適配認證服務、資源保障、人才保障以此來支撐云平臺上的不同智慧場景。這樣國產化從“可用”邁向“好用”。中國電子信創云基地(順義)圖片來源:2021 中國云數據考察報告CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 37國家“東數西算”工程背景下新型算力基礎設施發展研究報告在順義,中國電子按照國家關鍵信息基礎設施的標準打造了中國電子信創云基地,支撐異構多節點云的管理,整體架構基于飛騰ARM架構和x86架構構建云平臺資源池,其中國產化飛騰ARM體系滿足國家安全規定,自主安全要求的信創基礎設施資源池,x86
64、體系的資源,作為現有部分適配難度較大的業務運行的非信創過渡資源池,服務諸多央企和政府用戶。長沙人工智能計算平臺核心模塊,采用曙光 5A 級智算中心建設方案。一方面基于自主硬件構建異構計算平臺,確保實現混合多元算力覆蓋,滿足不同需求的計算模擬仿真、人工智能模型訓練推理、大數據分析與可視化等多類應用場景;另一方面,基于全棧軟硬件技術,包括操作系統、深度學習框架、管理平臺、開發平臺、大模型等,促進自主硬件與學習框架的深度適配與優化,支撐企業用戶進一步開發、移植和優化算法模型和應用軟件。38四、算力設施整體能耗偏高,綠色低碳應用仍需持續推廣新型節能新技術的應用程度有待提高。我國數據中心總體上還處于小而
65、散的粗放建設階段,大型、超大型數據中心占比僅為 12%。大部分中小數據中心多依賴空調、冷水機等設備來降溫,受自然冷源、氣候等環境因素影響,解熱極限相對較低。據數據中心綠色能源技術聯盟統計,2021 年度全國數據中心平均 PUE 為 1.49,并且有相當數量的數據中心 PUE 超過 1.8甚至 2.0。隨著 ICT 設備器件性能提高和單機柜功耗的增加,發熱量隨之上升,數據中心制冷系統的電能消耗還在不斷持續增高。由于早期政策相對寬松,精確監管存在困難,市場應用規模有限,產業鏈成熟度不足,可靠性不足和不合理等原因,相關創新節能技術并未大規模應用。新型液冷技術有待加大推廣應用。液冷是指借助高比熱容的液
66、體作為熱量傳輸介質滿足服務器等 IT 設備散熱需求的一種冷卻方式。有數據顯示,液冷比傳統風冷具備更強的冷卻能力,其冷卻力是空氣的 1000-3000倍,熱傳導能力是空氣的 25 倍。同等散熱水平時,液冷系統噪音比風冷低 25-35 分貝,相比傳統風冷系統約節電 30%-50%,數據中心 PUE 值可降至 1.2 以下,甚至接近于 1。例如在北京冬奧云數據中心部署了浸沒式液冷集群,對數據設備采用了環保節能的自然冷卻技術,年平均 PUE 低于 1.2,大幅度降低了碳排放量。受限于我國數據中心建設規模和政策要求,液冷技術尚未得到廣泛應用。在東數西算的布局中,從雙碳角度看,西部的數據中心,從雙碳角度應
67、該有兩大優勢:一是就地消納豐富的能源供給,特別是可再生能源(如風能和太陽能);二是氣候條件好,可以充分利用自然冷源,降低對電能的消耗。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 39國家“東數西算”工程背景下新型算力基礎設施發展研究報告求是雜志 2022 年第 2 期稿件配圖,攝于中科曙光北京一數據中心從我國數據中心的實踐來看,這個問題可能更加棘手。統計數據顯示,目前我國僅有41%的數據中心 PUE 在 1.4 以下。而在“東數西算”工程發布的文件中可以看到,此次各地區 PUE 目標東部地區不超過 1.25,西部地區不超過 1.2,能效指標更嚴格。如何通過技術方案有效降低 PUE
68、是溫控系統發展的重點。為了給數據中心計算節點的核心部件降溫,技術專家們嘗試了風冷、水冷、溫水冷卻、冷板式液冷,最后將目光投向了浸沒式液冷。這些特殊液體沸點較低,通過遇熱氣化將設備內部的 CPU、內存、電源系統等發熱部件產生的熱量轉移出 IT 設備,再與水做熱交換,最終將熱量排出,以達到良好的降溫節能效果。圖中液冷計算節點能夠將數據中心能效比 PUE降至 1.1 以下,比傳統風冷技術節電 20%。這是曙光自主研發的浸沒式相變液冷技術,曙光浸沒圖片來源:2021 中國云數據考察報告 40式相變液冷技術可助數據中心實現全地域全年自然冷卻,PUE 值最低可降至 1.04。液冷方案的優勢主要是靠近熱源、
69、溫度均勻、能耗低,其方案占比正在快速提升。當然任何技術的發展不是一蹴而就,十年前曙光開始探索液冷技術,并率先在全國開始浸沒式液冷服務器大規模應用的研發。截至目前,曙光擁有液冷核心專利超60項,部署的液冷服務器節點已達數萬臺,居國內市場份額之首。另外,數字中國萬里行團隊考察阿里巴巴浙江云計算仁和數據中心發現,采用了服務器全浸沒液冷等多項節能技術進行規劃設計與建造,運算產生熱量可被直接吸收進入外循環冷卻,全程用于散熱的能耗幾乎為零,PUE 低至 1.09。在東數西算的布局中,從雙碳角度看,西部的數據中心,從雙碳角度應該有兩大優勢:一是就地消納豐富的能源供給,特別是可再生能源(如風能和太陽能);二是
70、氣候條件好,可以充分利用自然冷源,降低對電能的消耗。其中,很多符合“西算”標準的數據中心,廣泛應用了以間接蒸發制冷為代表的節能方案,在張家口數據中心集群、和林格爾數據中心集群的數據中心,一年有 10 個月以上的時間可以使用自然冷源,年均 PUE 可達 1.2。大型互聯網和云計算公司主導的超大規模數據中心,將對液冷服務器的大規模應用產生決定性影響。因為他們既有足夠的體量和應用需求,對數據中心建設也有足夠的掌控能力。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 41國家“東數西算”工程背景下新型算力基礎設施發展研究報告以“東數西算”成渝樞紐節點內的曙光承建的西部(重慶)科學城先進數據中心
71、為例,該數據中心采用了浸沒液冷技術、余熱回收、綠色建筑、清潔能源(光伏)等多種相關技術,項目年均 PUE 可達到 1.144,年節省用電約為 14624.8 MWh,年節省標準煤4870 噸,年減少二氧化碳排放 13149 噸。真正做到了從能源的使用、機架的合理選用、到散熱的合理規劃、機房設計、布局和使用等多方面的合理布局,全面提高機房散熱效率,降低機房的整體能耗,最終達到節能減排的目標。對清潔能源的開發利用還有較大提升空間。數據中心面臨著區域性發展不均衡的問題,東部地區供給不足和西部地區供給過剩的結構性矛盾較為突出。據測算,由于光伏和風力等可再生能源的不穩定特點,我國西北部地區每年棄風棄光電
72、量約 125 億度,如果在這些地方依托電廠和電網布局就近建設大型以上數據中心,并利用儲能系統和調度系統創新解決穩定負載的柔性供能問題,可以促進可再生能源開發利用,有效降低中西部地區棄風和棄光電量,進一步減少碳排放。綠色低碳循環發展需要持續推進。目前,數據中心節能減排主要集中在前端綠電應用、制冷系統節能減排、IT 系統降耗等方面,余熱回收利用方面因大多數數據中心采用風冷降溫,攜帶熱量介質為空氣,存在余熱流動緩慢、不適合長距離運輸等缺陷,余熱收圖片來源:2021 中國云數據考察報告 42集及運輸難度較大,成本較高、回收利用率低,所以,絕大部分余熱直接排向空氣。2021 年 7 月,國家發改委印發“
73、十四五”循環經濟發展規劃,提出將“推進工業余壓余熱、廢水廢氣廢液的資源化利用,實現綠色低碳循環發展,積極推廣集中供氣供熱”作為重點任務。數據中心余熱回收利用也是通過梯次綜合能源利用,是促進全行業節能降碳重要探索方向。通過對來自數據中心的熱量進行回收再利用,為附近住宅、醫院、辦公、酒店等用熱單位持續供暖,替代其他用于供暖的能源。據測算,從數據中心總耗電量中,可大約提取回收 11.2%電力消耗產生的余熱。以我國 2020 年數據中心耗電量 2000 億千瓦時估算,如果這些余熱被完全利用將減少約2230 萬噸二氧化碳排放。在數據中心節能方面,目前業界對清潔能源利用、機房建筑節能設計、余熱回收、服務器
74、硬件節能等方面進行了較多的探討。除此之外,對于軟件復合節能優化的研究開始在起步階段,如數據庫作為云計算的基礎服務之一,其性能的提升將會直接影響硬件設備的使用效率。今年 8 月,騰訊云聯合多家產業機構與中國電子節能技術協會發CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 43國家“東數西算”工程背景下新型算力基礎設施發展研究報告布國內首個數據庫節能減排報告鍵值型數據庫技術及節能要求,這個標準的應用,讓騰訊數據中心的節能能夠達到 30%以上,為行業內軟件的節能減排提供了解題新思路。騰訊云全網超過 100 萬臺服務器,1.5 億核 CPU,相當于 2500 萬臺主流配置的個人 PC,超過 2
75、021 年中國臺式 PC 全年出貨量,通過騰訊云遨馳分布式云操作系統的高效調度,可以提升 30%以上利用率,相當于節省了 30 萬臺服務器,一年可以節電約 2.5 億度,減排二氧化碳量達 5.24 萬噸,碳排放當量約為種植 286 萬棵大樹,約合 2500 個足球場面積的森林。五、高密度 機柜功率密度提升數據中心的生命周期包括規劃、設計、建設、運行和評估等階段,功率密度是數據中心在規劃和設計階段需要明確的一個重要參數,當前業界普遍接受用“單機架用電”參數來表示數據中心功率密度。通過梳理全球數據中心產業的發展情況,發現近年來數據中心作為信息基礎設施,其功率密度在逐年上升。據 Uptime Ins
76、titute 發布的2020 全球數據中心調查報告顯示,2020 年全球 71的數據中心平均功率密度低于 10 kW/機架,最常見的密度是 59 kW/機架,平均功率密度高于 20 kW/機架的數據中心約占 16。雖然整體功率密度相較高性能計算(HPC)等領域還不高,但總體上升趨勢明顯。2020 年數據中心平均單機架功率2021 年 7 月,國家發改委印發“十四五”循環經濟發展規劃,提出將“推進工業余壓余熱、廢水廢氣廢液的資源化利用,實現綠色低碳循環發展,積極推廣集中供氣供熱”作為重點任務。數據中心余熱回收利用也是通過梯次綜合能源利用,是促進全行業節能降碳重要探索方向。44為8.4kW/機架,
77、相比于2017年的5.6kW/機架、2011年的2.4 kW/機架有明顯提高,年復合增長率達到 15%,預計未來數據中心的功率密度還將繼續上升?;A電信運營商、第三方數據中心服務商及大型互聯網企業是我國數據中心的主要參與者。目前在我國數據中心市場中基礎電信運營商仍占據主要市場,第三方數據中心服務商是除基礎電信運營商外的重要組成部分,BAT 等大型互聯網企業也成為重要的數據中心持有和運營主體。經過統計分析,基礎電信運營商、第三方數據中心服務商和大型互聯網企業的數據中心功率密度情況為:1)我國三大基礎電信運營商建設數據中心主要滿足通信建設需要及帶寬租用、云計算服務等業務。根據中國信通院對截至 20
78、20 年已用情況進行調研統計,當前三大基礎電信運營商在用數據中心功率密度平均約為 4.46kW/機架。同時發現基礎電信運營商數據中心功率密度與數據中心規模呈正相關關系,數據中心規模越大,部署功率密度相對也越高。2)除基礎電信運營商外,數據中心租賃和服務市場最大的參與群體是第三方數據中心服務商,目前我國第三方數據中心服務商數量多、分布零散。通過分析,第三方數據中心服務商數據中心功率密度與服務的客戶和承載的業務緊密相關,當數據中心的用戶群體集中為互聯網企業、云服務商,主要提供批發服務時,功率密度受上層密集的計算業務影響會相對較高。當數據中心的用戶群體較分散,或主要面向中小企業提供零售型服務時,功率
79、密度則會相對較低。3)隨著互聯網業務復雜度不斷提高和需求量的快速擴張,互聯網企業開始自建自運營數據中心,并自研適合業務定位的關鍵設備和系統,積累了眾多技術創新成果,如整機柜服務器、微模塊、HVDC、間接蒸發冷卻、液冷等。4)在高端計算領域,中科曙光基于浸沒液冷技術和高密度刀片系統高密集成設計,已經將單機柜功率做到了驚人的 160Kw,同時又創新性地將浸沒液冷計算系統與立體模塊化組裝設計相結合,將單位機房計算密度提高了 30 倍,形成了獨具特色的算力中心方案,在合肥、蘭州等十多個地方都實現了落地部署。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 45國家“東數西算”工程背景下新型算力基
80、礎設施發展研究報告經過分析,造成數據中心高密度發展趨勢的原因主要有以下幾個方面:1)IT 硬件產品迭代。芯片是數據中心 IT 設備的重要基礎組件,芯片的性能與功耗極大影響了數據中心的功率密度與運行處理效率。當前人工智能、物聯網、超級計算及其相關應用對芯片提出了更高的性能要求,高算力已成為芯片的主要突破方向,為了滿足高算力負載的需求,需要疊加多核處理器,或者提高單核心的主頻,無論哪種方式,都會顯著增加 IT 硬件的處理器功耗,從而使得數據中心功率密度越來越高。2)承載業務的計算需求變化。近年來科學技術發展日新月異,計算密集型應用場景(例如 AI、IoT、區塊鏈以及 AR/VR 等)的激增導致承載
81、這些應用負載的服務器設備(虛擬機、刀片機、多節點服務器等)功耗也大幅增加,從而導致數據中心功率密度呈現逐年增大的趨勢。曙光相變液冷技術 463)投資回報的統籌考量。部分城市和地區土地資源緊張、費用高昂,如何利用更小的空間、盡可能低的成本滿足更多的業務需求是數據中心建設主體必須考慮的問題,在此情形下,數據中心的密度不得不被設計得越來越高。另外,數據中心運營成本中電費是最大的開支,提高功率密度可一定程度上提升配套設施的利用效率,降低PUE,節省電費開支。當前“新基建”“東數西算”等政策正在持續促進數據中心市場規模擴大,并逐步引導數據中心產業發展格局完善。無論是從發展現狀還是驅動因素來看,功率密度提
82、升將成為未來數據中心一個重要演進趨勢,并將引起建筑、供電、制冷等多個系統的變革。六、算力智能調度:跨區域、跨云、云邊調度縱觀我國算力經濟發展情況,當前算力基礎設施規模已位居世界前列,但人均算力尚低,亟需算力服務靈活地為算力資源供需者協調、匹配、調度算力資源,實現算力資源最大化的利用,其中算力智能調度是衡量算力服務水平的關鍵。從國家層面來看,“十四五”規劃明確指出,要加快構建全國一體化大數據中心體系,強化統籌算力智能調度,建設若干國家樞紐節點和大數據中心集群。工信部印發新型CHAPTER2 算力新基建呈現的 10 大挑戰和實踐圖片來源:2021 中國云數據考察報告 47國家“東數西算”工程背景下
83、新型算力基礎設施發展研究報告數據中心發展三年行動計劃(2021-2023 年),明確用 3 年時間,基本形成布局合理、技術先進、綠色低碳、算力規模與數字經濟增長相適應的新型數據中心發展格局。在“東數西算”工程正式啟動的背景下,算力智能調度的重要性凸顯,云廠商、運營商等在該方向上進行了初步探索,未來在跨區域、跨云、云邊等方面還存在諸多挑戰。一是算力跨區域調度與網絡協同難度大,智能化程度不足。當前的算力資源提供商大多以地理區域為單位,部署服務管理平臺,主要為特定地理區域范圍內的用戶提供算力服務。當涉及到跨區域的算力調度時,首先,需要保障各區域之間算力樞紐的協同聯動,推動跨區域的算力資源與網絡的供需
84、對接,實現算力資源的敏捷、智能化的調度;其次,目前算力資源智能化調度模型整體調試、測試周期較長,對于資源請求響應較慢,業務調度效率較為低下;最后,由于我國不同地區之間網絡基礎建設程度層次不齊,存在算力樞紐節點之間網絡薄弱的問題,這將有可能導致算力資源傳輸時間、響應時間過長等問題。針對跨區域的算力資源調度面臨的協調、管理難度較大的問題,需要建立起算力、算網的跨區域協同聯動機制,在資源方面,算力資源提供方可以通過在調度的各區域之間建立起統一的算力資源管理平臺的方式解決,平臺需要建立算力資源與網絡地址的映射機制,當算力資源的需求方需要跨區域的算力資源時,算力資源管理平臺將解析出符合算力需求方要求的算
85、力資源所在的地址,通過建立需求方與提供方的網絡聯接實現資源的智能化調度。在智能化調度模型方面,通過彈性可伸縮架構、低延遲輕量化設計、A/B測試滾動發布、多模型加權評估等技術創新,優化智能調度模型,實由于邊緣計算節點所處位置一般較為分散且偏遠,而運維中心一般集中在地市、云端,這就需要邊緣云平臺具備自動維護、自愈、修復等能力,保證在無人力值守的情況之下仍然能夠具備智能化的健康監測、邊緣自治能力。48現計算資源的高效利用和快速部署。面對跨區域調度的網絡傳輸問題,需要建立算網一體化協同調度能力,例如通過引入 AI、SRv6 等技術構建新一代承載網絡,實現通過網絡智能化感知業務需求、網絡資源和算力資源;
86、另外,運營商應當結合“東數西算”的背景,在算力樞紐節點之間強化網絡建設,保障資源在算力樞紐之間的快速調用。二是算力跨云調度面臨不同云廠商和云形態兩方面異構的問題,難以統一管理。隨著業務發展帶來的數據量的增加,用戶對于計算資源的需求開始呈現多樣化的趨勢,單一的云環境逐漸難以滿足多樣的計算需求,跨云環境下的計算資源調度開始被廣泛應用。當涉及到的算力資源屬于不同提供商時,一方面,多個服務管理平臺需要進行接口的打通對接,另一方面,也涉及到不同算力資源的安全性的認證保障的問題;當涉及到不同云形態的資源調度時,一方面,算力資源存在異構化、差異化的特點,導致資源的統一分配、調度、部署較為困難,另一方面,由于
87、不同的云環境之間存在網絡隔離,如何實現跨云組網,在不同的云服務商之間部署工作流,避免網絡結構過于臃腫,請求無法敏捷快速響應,將是面臨的又一挑戰。針對跨云調度面臨的問題,目前產業內企業、第三方服務商等,開始建設大型多云管理平臺,用以屏蔽底層異構資源的差異性,實現跨云資源的無差異調度。目前較為通用的多云管理技術架構能夠支持多種云資源池的接入,實現對多云資源的統一納管、認證和監控。多云管理技術能夠實現對于虛機和容器的統一編排調度,提供無服務器模CHAPTER2 算力新基建呈現的 10 大挑戰和實踐圖片來源:2021 中國云數據考察報告 49國家“東數西算”工程背景下新型算力基礎設施發展研究報告式的業
88、務訪問能力,使用戶不需要關注底層資源的調度、分配,主要關注業務流程的開發上。三是算力云邊調度面臨節點統一管控難度大、邊緣節點自治能力待提高的問題。在云邊協同的背景之下,邊緣計算節點能夠將云計算中心的計算和存儲能力下沉,屏蔽掉資源的異構化和地理位置差異,提供資源一致化的服務。但由于邊緣計算節點較為分散,所處環境、網絡、穩定性等存在不一致的情況,因此,如何將單個節點的能力與其他節點共同整合并與中心云聯動,進行統一的管控調度是一個難題。另外,由于邊緣計算節點所處位置一般較為分散且偏遠,而運維中心一般集中在地市、云端,這就需要邊緣云平臺具備自動維護、自愈、修復等能力,保證在無人力值守的情況之下仍然能夠
89、具備智能化的健康監測、邊緣自治能力。但由于當前邊緣側面對的場景大多呈現碎片化的特點,因此在網絡問題、攻擊問題等方面仍存在較大的治理壓力,實現全方位智能化的平臺保護、自治存在較大難度,邊緣節點自治能力仍有待提高。針對邊緣計算資源分散,難以統一管理的問題,目前邊緣計算節點多數采用Kubernetes 多集群的方式,來實現多個邊緣計算集群的協同管理和計算資源的管理。在分布式計算節點的健康監測方面,應建立健康能力檢測的可視化平臺,分布式健康監測節點,在邊緣側持續收集節點的故障信息,快速定位并及時報告。在邊緣節點自治能力方面,面對碎片化的場景,需要進行分層的應對方案設計,包括設備層、網絡層、數據層和應用
90、層,提供針對性的解決方案。例如,以 SuperEdge 為代表的邊緣容器方案提供的邊緣自治能力,能夠保障當邊緣節點與云端網絡連接不穩定或處于離線狀態時,邊緣節點仍可以自主工作,化解由于網絡波動帶來的不利影響。50七、多元算力 多樣計算多元算力技術和服務不斷成熟,產業生態有待完善。隨著5G、人工智能、云計算、大數據等新一代信息技術的廣泛應用,行業應用的多樣性日益豐富,現有主流算力難以滿足多樣化的場景需求。計算密集型應用需要計算平臺執行邏輯復雜的調度任務,而數據密集型應用則需要高效的海量數據并發處理,算力需求和供給結構之間的矛盾逐步顯露。單一計算架構和平臺難以適應所有計算訴求,面向未來多樣化的業務
91、需求,多樣性算力成為必然。而多樣性算力在形勢、產業、技術、市場等方面,面臨著如下挑戰。一是國產化計算芯片的性能及工藝仍需提高,自主研發刻不容緩。在 CPU領域,部分國產 CPU(例如龍芯)已具備自主指令架構系統,同時可兼容已有的基礎軟件或平臺,但仍面臨應用生態的挑戰,在國產化開源操作系統、自主編程語言和編程框架的推廣普及等方面任重道遠。同樣是國產 CPU 的海光處理器,因兼容 x86 指令集,具備成熟而豐富的應用生態環境,可支持云計算數據中心、大數據分析、邊緣計算等多領域應用,滿足互聯網、電信、金融、交通、能源等行業廣泛需求。在 FPGA 領域,AMD 作為行業頭部企業完成對賽靈思的合并后,將
92、其CPU 與賽靈思的 FPGA 結合為了 CPU+FPGA 的異構計算模式。而國產FPGA 目前主要集中在中低端市場,仍需約三到五年達到 16nm/28nm 工藝水平,與國際先進工藝有 2-3 代的差距。針對多元算力領域當前的挑戰,需共建多樣性算力產業體系,打造多元產業生態、推動產業協同,才能為東數西算提供強有力的新型算力基礎設施。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 51國家“東數西算”工程背景下新型算力基礎設施發展研究報告在 GPU 領域,部分國內 GPU 企業通過購買國外公司的 IP 授權,成功流片或量產,邁出了 GPU 國產化第一步。GPU IP 自研需要大量的時間與
93、人力,芯動科技等企業采用外購 IP 加上自研設計的方式實現商業變現,極大降低研發周期和風險。二是亟需構建高效、系統化的協調統一的異構算力系統。異構計算一般指在完成一個計算任務時,采用一種以上的硬件計算單元、互聯協議、差異化架構、軟件接口等。異構算力包括CPU、GPU、DPU、FPGA等,可提高算力和性能,同時降低功耗和成本,又具備多類型任務處理能力。但不同的硬件設備、協議、軟件應用層接口等差異較大,異構算力在流程協同、芯片互連和軟件適配方面均面臨挑戰,亟需構建高效、協調統一的異構算力系統,推動算力經濟供給側改革。在技術設計流程的協同上,需保證不同廠商芯片的互聯互通,可正常協同工作;在互聯標準上
94、,需統一各廠商芯片之間的互連標準。在軟件層面上,不同廠商的計算芯片之間需搭建適配的 I/O、內存通道。三是多元算力的供給形態不斷豐富,需適配高性能計算、超算、智算等算力服務平臺。多樣性算力服務如何輸出是算力服務的核心問題之一,當前算力服務的主要供給形態包括虛擬機、容器、API 等。虛擬機方面,虛擬機是通用計算云服務的主要服務形態,但針對超算平臺的虛擬化難度較大,難以使用 x86 虛擬機架構適配。虛擬化提供算力資源 是未來算力發展的固有趨勢,但虛擬機的表現形態可能發生改變,適配異 構硬件。容器方面,容器技術屏蔽了底層不同的硬件,實現微服務化調用,有益于 算力合理分配。容器技術生于云長于云,對于超
95、算、智算等暫未完成適配,可能會出現算 力異構方面的問題,特別是對于超算平臺。API 方面,當前較少服務商使用 API 供給的方式提供服務,API 的方式提 供服務對算力服務使用者來說門檻較高,但也會獲得更好的靈活性。針對多元算力領域當前的挑戰,需共建多樣性算力產業體系,打造多元產 業生態、推動產業協同,才能為東數西算提供強有力的新型算力基礎設施。52一是標準引領。建立多元算力標準與測評體系,推動通用算力、異構算力、智能算力等規范化建設與落地實踐。二是服務升級。提升各類社會算力的資源利用率,提升多樣化算力效率,做到“物盡其用”,利用算力網絡形成算力、網絡、人工智能、區塊鏈等多要素融合的一體化服務
96、,推動算力服務全面升級和產業數字化轉型,激發算力服務的范式創新。三是共建生態。打造多樣性算力應用與工具體系,在硬件架構、算法、軟件等方面實現全鏈條自主可控,統一標準規范,共建共享豐富多彩的軟硬件適配生態。八、算力服務成為新業態算力是信息時代的新生產力,是支撐數字經濟發展的堅實基礎,算力的發展推進了技術的升級換代、應用的創新發展、產業規模的不斷壯大,而云計算作為算力的生產工具,推動了算力向服務化邁進。算力新基建熱潮則進一步推動了算力服務商的發展,如中科曙光專門成立了曙光智算信息技術有限公司,以統籌各地算力中心的一體化運營和對外服務。隨著 5G、工業互聯網、人工智能、云計算等新技術快速發展,GPU
97、、FPGA、AI 芯片等異構算力迎來繁榮期,滿足各場景計算需求的同時,從成本的角度大幅度降低計算門檻。算力的服務對象也將從企業和大客戶擴展至小微企業及個人,真正推動算力成為觸手可及的普惠資源。隨著算力泛在性程度的不斷加深,算力逐步從中心側向邊緣側、端側擴展,形成了云-邊-端三級算力架構,以支撐智能安防、游戲、視頻等多樣化智能應用場景的不斷落地。算力和網絡的發展日益呈現一體共生之勢,從網隨算動到算網融合再到算網一體,網絡從支持連接算力,演進為感知算力、承載算力,實現網在算中、算在網中。與此同時,算力度量、算力原生、算力路由等算網一體技術日益受到產學研各界重視,相關技術的成熟將持續推動算網融合向縱
98、深發展。一是計算服務化在架構方面具有靈活的擴展性。首先,算力服務將通用計算、智能計算、并行計算等多樣性算力統一納管和調度,屏蔽不同硬件架構差異,實現大規模異構計算資源的統一調度,適應不同需求,實現算力的普惠化。其次,計算服務化是將中心算力協同算力節點,構建算力管理多級架 構,提升算力的覆蓋范圍和調度能力,實CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 53國家“東數西算”工程背景下新型算力基礎設施發展研究報告現算力的泛在化。再者,計算服務化通過整合算力資源,以統一的標準輸出服務,避免算力應用被固定形式的算力需求所捆綁,實現算力的標準化。二是計算服務技術上不斷創新。網絡控制與轉發方面,
99、算力網絡等技術滿足算力對網絡感知和自智等需求;算力編排與度量方面,通過分布式操作系統、基礎設施即代碼(IaC)、算力建模形成標準可量化的算力單元,對泛在算力進行整體度量、編排與調度;算力運營與服務方面,云原生、開放應用模型(OAM)等技術對跨域和跨多樣性算力進行整體封裝,并以服務的形式對外提供,實現隨需隨用的算力應用“插座”。三是計算服務化生態已成形。首先,以 IaC 為代表的新型算力管理技術快速發展,突破了超算、智算、云計算等異構算力難以標準化的技術瓶頸,新型算力管理服務商應運而生;其次,由企業數字化帶來的云邊協同、高性能等算力服務需求,云服務商開始提供高性能以及分布式算力等應用服務;再者,
100、與人工智能、大數據、區塊鏈等新一代信息技術融合的算力服務將展現雛形,實現數據分析、科學計算、工程計算等領域算力應用部署。圖片來源:2021 中國云數據考察報告 54可以看到,算力服務作為一種新興的業態,我國已取得初步進展,但目前算力服務發展仍存在幾點不足:第一,算力服務認知水平尚淺。我國算力基礎設施規模已位居世界前列,但整體算力服務化水平尚低,在算力經濟全面升級和產業數字化轉型的背景下,對算力服務的定位、要求與實施路徑重視程度不足,無法充分發揮算力服務對算力經濟發展的支撐作用。第二,算力服務化技術水平不足。一方面,算力網絡、IaC、OAM、云邊一體分布式操作系統等算力服務核心技術目前仍在初步發
101、展階段,尚不能滿足產業上下游企業對算力服務的需求;另一方面,當前我國只實現了以云服務為代表的通用計算服務化,尚未建立對高性能計算、智能計算、并行計算等多樣性算力服務的技術積累。第三,算力服務化新業態發展緩慢。傳統的一對一租賃的云服務提供模式不能滿足算力消費方與算力提供方的需求,需要集中算力提供方的各類算力資源,統一出售給算力消費方,但“算力供給-算力交易平臺-算力需求”的交易分配模式存在參與角色較多、供給關系復雜、缺乏產業組織引導等問題,導致算力服務新業態發展無法跟上快速增長的算力需求。在算力服務的實踐過程中,曙光公司積極參與東數西算工程與算力網絡布局,目前實現了與 10 余家計算中心(先進計
102、算中心、智能計算中心、一體化大數據中心)的極速互聯與融合調度,并初步建設集算力、存儲、數據和增值服務為一體的全國一體化算力服務平臺,配備面向算力服務的應用支持、技術服務相關運營及運維團隊,共助公共算力服務事業。目前,曙光算力平臺已服務國內外 10 萬+用戶,作業提交量突破 3000 萬。九、原生應用:云原生、AI 原生數字宇宙時代,云智應用需求極劇攀升。中國信息通信研究院發布的全球數字經濟研究報告(2022 年)顯示,2021 年,全球 47 個主要國家數字經濟增加值規模 38.1 萬億美元,同比名義增長15.6%,占GDP比重為45.0%。其中,中國數字經濟規模達到7.1CHAPTER2 算
103、力新基建呈現的 10 大挑戰和實踐 55國家“東數西算”工程背景下新型算力基礎設施發展研究報告萬億美元,同比名義增長 16.2%,高于同期 GDP 名義增速 3.4 個百分點,占 GDP 比重達到 39.8%?!皵底侄x世界、軟件定義未來”的時代正朝我們加速走來,工業互聯網、車聯網、智慧城市、智慧政府等以云計算為關鍵技術底座的應用場景在不斷被挖掘,數據指數級爆發式增長,IDC 發布的數據時代 2025報告顯示:未來一家數字化工廠一天可能產生超過1PB的數據;一輛聯網的自動駕駛汽車每運行8小時將產生4TB的數據。在萬物智聯的數智時代,企業對數據挖掘和人工智能的需求極速提升,對應用的敏捷性要求持續
104、攀升,以期在企業“競存游戲”中,通過高效預測、高速分析、高頻迭代,高質創新,提升企業的預見性和決策力,獲取比較優勢,以更快的速率感知市場、占領市場。而企業應用的云智化離不開強大算力的支撐,這對算力基礎設施提出了新要求。軟件系統面臨新挑戰,應用呈現云原生化趨勢。未來企業都將是軟件企業,IDC預測,到2024 年數字經濟的發展將孕育出超過 5 億個新應用/服務,這與過去 40 年間出現的應用數量相當。到 2025 年 2/3 的企業將每天發布新版本軟件產品。這對應用軟件提出了簡化、標準化、自動化、智能化、敏捷性、穩定性、低成本、高效率等更為嚴苛的要求,而云原生以業務應用為中心,通過剝離軟件中非業務
105、邏輯的成分,實現聚焦價值、敏捷交付的目標,呈現出軟件元素間關系的松耦合、結構的分布式、屬性的高韌性的特征,賦予應用標準化封裝部署、聲明式描述、持續集成持續交付、按需彈性的能力恰好符合應用進化的需求,故而應用呈現出云原生的技術傾向,Gartner 預測到 2025 年,云原生平臺將成為 95%以上新數字倡議的基礎。彈性按需是云原生的資源利用優勢,但如果資源配置策略設置不合理可能會導致資源的浪費,同時如果云原生資源利用的計量方式不夠靈活,會使得企業難以準確調控用云成本,造成能耗的浪費。在萬物智聯的數智時代,企業對數據挖掘和人工智能的需求極速提升,對應用的敏捷性要求持續攀升,以期在企業“競存游戲”中
106、,通過高效預測、高速分析、高頻迭代,高質創新,提升企業的預見性和決策力,獲取比較優勢,以更快的速率感知市場、占領市場。56通過云原生技術的應用,對云資源規格、數量進行靈活調整,利用對業務的架構優化、以及通過彈性能力和資源混部等手段提升資源利用率。比如騰訊云推出碳排放優化器Crane,就是首個開源云原生應用碳排放優化器。該優化器基于運行在 Kubernetes 平臺上的應用的實際資源消耗,計算對應服務器功耗,進而計算出應用運行所產生的碳排放量。為了最大化享受人工智能技術紅利,AI 和云原生的聯動也成為最佳選擇,AI 開始步入面向業務應用的 AI 原生時代,運用松耦合、分布式的云原生特征,實現算法
107、組件化,通過流水式編排開發降本增效,提供面向 AI 場景的彈性高性能異構算力,屏蔽底層資源異構性,提供低門檻的開放平臺,最大化降低開放難度,加速 AI 能力的應用和落地。應用進化帶來新機遇,算力呈現算網原生趨勢。應用的原生化演進對服務于應用數據的算力系統提出了新的挑戰,算力新基建呈現出算網原生的發展趨勢。一方面,為全面適配應用的原生化技術傾向,需要屏蔽底層資源細節,將算力資源池化,全面整合底層基礎設施的計算、網絡存儲、GPU 等資源,實現 GPU 的靈活調度,讓應用用戶可共享數據中心內所有服務器上的 GPU 算力,提升企業應用開發敏捷性。另一方面,為解決算力自身的發展需求。由于數據計算波峰波谷
108、效應明顯,所以傳統算力架構資源浪費、彈性不足的問題凸顯,而算網原生正是最佳解決方案。結合資源池化,將算力向水、電一樣按需供給,即用即取。這需要算力系統滿足兩個要求,一是敏捷感應上層應用的工作負載,智能匹配最佳算力,二是現底層器件高效協同,充分釋放算力潛能。算網原生可以通過 Kubernetes 的容器編排技術,實現各應用 GPU 需求的充分感應與最佳分配,通過提供多元異構算力服務,和大數據計算、深度學習計算、業務計算等場景深度融合,實現大規模的 GPU 集群的高效計算,有效降低應用開發、應用難度,縮短產品上線周期,加速敏捷迭代。算力新基建的原生化,實現了算力資源與算力需求的最優匹配,同時微服務
109、容器化松耦合實現了應用的安全隔離,以響應用戶對流量的不同需求,將強大算力和云服務的安全性易用性相結合,其在智能制造、證券金融等領域均有良好應用。舉例來說,證券公司提供的“智能投顧”,“智能投研”等人工智能預測服務,在傳統架構下,業務并發量受限于集群內物理 GPU 的數量,業務伸縮能力受阻。而算網原生則通過資源池化實現了 GPU 資源的統一調度、納管,支持不同代的算力卡混合池化,基于容器編CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 57國家“東數西算”工程背景下新型算力基礎設施發展研究報告排技術實現跨域調度 CPU 和 GPU 資源的能力,充分滿足業務高并發場景需求,系統彈性顯著增強
110、。十、規?;退憔W融合國家發展改革委會同有關部門研究制定的全國一體化大數據中心協同創新體系算力樞紐實施方案指出:起步階段,京津冀、長三角、粵港澳大灣區、成渝等跨區域的國家樞紐節點(“東數”區),原則上布局不超過 2 個集群;貴州、內蒙古、甘肅、寧夏等單一行政區域的國家樞紐節點(“西算”區),原則上布局 1 個集群。以“充分發揮本區域的優勢”為例,京津冀、長三角、粵港澳大灣區、成渝列舉的都是“市場、技術、人才、資金”,貴州、內蒙古、甘肅、寧夏列舉的都是“氣候、能源、環境”;在發展數據中心集群的要求上,除了高能效、低碳、優化東西部間 互聯網絡和樞紐節點間直連網絡這些共性,貴州、內蒙古、甘肅、寧夏強
111、調“高可靠”,京津冀、長三角、粵港澳大灣區、成渝則強 調“高密度”,還多一條“提升數據供給質量”。結合相對的地理位置,在全國一體化大數據中心協同創新體系中:京津冀、長三角、粵港澳大灣區、成渝 4 大樞紐是“東數”,自給而不自足,內部消化為主,對外轉移部分需求(優化數據中心供給結構,擴展算力增長空間,滿足重大區域發展戰略實施需要);貴州、內蒙古、甘肅、寧夏 4 大樞紐是“西算”,定位在供給方,主要承接轉移過來的需求(積極承接全國范圍需后臺加工、離線 分析、存儲備份等非實時算力需求,打造面向全國的非實時性算力保障基地)。以粵港澳大灣區國家樞紐節點為例,根據 南方都市報 等媒體的 報道:到 2025
112、 年,廣東省 70%的數據中心在省內建設,30%的數 據中心通過“東數西算”向西部地區國家樞紐節點轉移;韶關數據中心集群將建成 50 萬標準機柜、500 萬臺服務器規模,投資超 500 億元(不含服務器及軟件)。在“東數西算”工程的 8 個國家樞紐節點中,如果嚴格按照地理位 置來劃分,總會由于成渝、貴州兩個樞紐的特殊性,呈現“5+3”而非“東西各 4”的格局:58 從東、西部的角度,成渝和貴州都位于西部,結果是“西 5 東 3”;用“胡煥庸線”來切割,成渝和貴州都在東南,就變成“西 3 東 5”1935 年提出的“胡煥庸線”(見下圖)從黑龍江省的黑河(璦琿)到云南省的騰沖劃一條直線,將中國地圖
113、一分為二:右側(東南方向)地勢較低,多平原和水網,平均氣溫和人口密度較高;左側(西北方向)地勢較高,多草原和沙漠,平均氣溫和人口密度較低。10 個國家數據中心集群(起步區)大致位置,“長三角”是長三角生態綠色一體化發展示范區的簡寫 圖片來源:2021中國云數據考察報告這條斜線的劃分也只是相對準確,譬如貴州位于胡煥庸線的東南側,反而是成都地區壓在線上,成都市甚至還“越線”到了西北側 在一些解讀中,成渝樞紐也被劃為既向甘肅樞紐和貴州樞紐轉移數據,又承接長三角樞紐算力需求的“中間地帶”。但在實際資源稟賦上,成都平原眾所周知,貴州境內 90%以上的面積是山地和丘陵;從人口分布和經濟發展狀況等方面來看,
114、相對偏西北的成渝樞紐屬于“東 數”,位在其東南的貴州樞紐屬于“西算”,確實是合理的。胡煥庸線的“相對”還在于,其劃分方式在很多區域內部同樣適用,譬如京津冀、長三角、粵港澳大灣區的內部,也是東南部的經濟發 展更好。像張家口數據中心集群之于CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 59國家“東數西算”工程背景下新型算力基礎設施發展研究報告京津冀、韶關數據中心集群之 于粵港澳大灣區,基本都處在多山地的西北部?!皷|數西算”的目的是將東部地區過于旺盛的算力和數據處理需求,轉移一部分給更具成本效益、更可持續發展的西部地區承接,其中的關鍵是“國家樞紐節點之間進一步打通網絡傳輸通道”“優化東西部
115、間互聯網絡和樞紐節點間直連網絡”,才能“提升跨區域算力調度水平”。從國家層面來看,2020 年提出了算力基礎設施這一概念,推動算力網絡的發展,并根據技術演進和事件陸續推出了算力網絡研究報告。電信運營商算力網絡看成是 6G 的一部分,希望在云的連接上,加上計算一體化的服務場景實現業務的拓展,重視算力的感知,避免被管道化。從 2020 年開始,中國電信和中國移動已經為“東數西算”工程調整了規劃,分別推出了 “2+4+31”和“4+3+X”的全國數據中心布局,其中“4”都對應京津冀、長三角、粵港澳(大灣區)、(陜)成渝,“31”和“X”對應多個省級中心,“2”是內蒙信息園和貴州信息園,“3”是呼和浩
116、特、哈爾濱、貴陽三大跨省中心。60算力網絡的發展可以分為三個階段:起步階段(算網協同)、發展階段(算網融合)和成熟階段(云網一體),從目前來看,發展算力網絡要解決幾個矛盾:算力資源布局與需求之間的矛盾;算力效率水平與算力規模之間的矛盾;雙碳目標與算力提升的矛盾;算力信息互通和調度與算力網絡標準不完善的矛盾。建設算力網絡,需要加強技術投入和創新,在具體實踐層面,超聚變建議用“算網九階”模型來評估算力網絡的能力階段,設定算力、網絡、融合三個維度,九大因子對算力網絡發展的三個階段能力進行綜合評估,從而形成對算力網絡的一致性標尺,助力各企業明確自身發展階段,進行合理的規劃與預測。同時,東數西算作為前所
117、未有的算網融合工程,東西橫跨上千公里,接入全國各地的算力節點,對管理框架提出了新的挑戰。各算力節點的建設周期不同步,算網架構需要逐步迭代、分級分區域演進;東數西算集群間龐大的算網,對算力調度的計算和維護量巨大,計算和管理工作需要分層分解;不同區域和集群間的云專網由不同廠商的設備組成,廠商之間接口不兼容,對算網統一調度的需求,需要大量的對接測試,需要兼顧不同廠商的設備能力。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 61國家“東數西算”工程背景下新型算力基礎設施發展研究報告要實現算力和網絡的融合運營、智能編排、統一服務,也需要建立完善的評價體系和算網融合產業生態,目前看算力、網絡廠商
118、從芯片級、設備級、集群級、地域級 4 個維度尋找突破口,通過核心技術攻關解決從芯片到廣域的 IO 不均衡問題,助推算力產業高質量發展。在芯片級,目前“存算一體”的發展思路可以有效平衡計算和內存的配比,縮短數據搬運路徑,降低搬運功耗,實現芯片級算力與 IO 的平衡,為算網融合構建算力基石。在設備級,業界已經開始嘗試多種總線互聯和擴展技術,從內存、GPU、存儲等多個角度入手,從互聯設計角度出發,對資源進行分布式池化設計,從而平衡數據 IO 和計算密度。在集群級,運用 AI 技術和網絡設備的在網計算能力,可以實時收集并分析組網、設備、流量等綜合信息,并通過強化學習對業務流量模型進行算力拓撲規劃和動態
119、調整,從而保障算力拓撲始終處于最優狀態,滿足大規模計算集群的部署需求。最后在地域級,目前以新華三為代表的企業提出“確定性網絡”確定性服務是廣域算力互聯及調度的關鍵點,在實際應用中具備諸多優勢。在網絡傳輸層面,傳統的廣域網傳輸是盡力而為的轉發方式,通過引入確定性網絡技術,可以保證網絡層面全方位確定性傳輸,數據跨區域傳輸時延確定可控;在算力調度層面,通過分布式算網大腦統籌考慮可用算力容量、成本、網絡傳輸效率等多維屬性,可以為客戶提供確定性有保障的服務。和交通和能源網絡相比,算力網絡要復雜多,網絡體系結構的調整與演進,算網融合與算力調度體系的構建,需要做很多基礎性的原始創新,還得做大量的技術攻關和事
120、件,最終形成東西互補,南北貫通的一體化的算力網。62和交通和能源網絡相比,算力網絡要復雜多,網絡體系結構的調整與演進,算網融合與算力調度體系的構建,需要做很多基礎性的原始創新,還得做大量的技術攻關和事件,最終形成東西互補,南北貫通的一體化的算力網?!皷|數西算”戰略和“一體化大數據中心體系”把算力架構擴展至多數據中心的全局范圍。這些為行業的信息系統體系結構的改進和發展提供了引領方向,比如氣象業務是高度信息化和特性化的業務。在氣象業務體系中存在一部分和其他行業類似的業務模式,但也具有非常鮮明的個性化的業務特性,與其他行業相比有明顯的差異。例如處于核心地位的數值預報業務,需要極強的高性能算力支持,在
121、常規行業中很難找到可復用的需求和解決方案;而氣象數據在種類、使用方式的高度復雜性、應用時效等方面的個性化特征,以及其體積的巨大,使得氣象大數據與氣象高性能計算資源之間至今無法實現物理空間上的遠距離分離?!皷|數西算”的資源布局趨勢,對氣象業務信息系統在設計實現和發展演進中提出了巨大的挑戰?!八懔w系結構”在氣象行業的應用中具備一定的特殊性。首先,數值預報對算力資源有著特殊的需求,主要體現在大規模高密度浮點運算能力和計算節點間高性能緊耦合通信能力等方面,因此高性能計算支撐能力必不可少。第二,氣象數據資料類型復雜、種類多樣、數據收集、處理、存儲和應用等各個環節的數據量巨大、時效要求高,從而導致氣象數
122、據資源與高性能計算資源之間的高速、高效、高可靠性等的個性化需求。第三,各類氣象業務應用,主體上具有高強度數據 IO 密集型的特性,對存儲和通信資源及其支撐能力要求較為苛刻。高性能計算、常規計算和數據分析處理在資源和應用方式等層面雖然存在較大差異,但業務應用的流程是需要總體貫通的,在控制調度上必須以“一體化”的視角將三者緊密銜接。因此,“東數西算”背景下氣象部門的“算力體系結構”,主要包含“超級計算能力”,“常規通用計算能力”,“超級數據處理能力”,“超級通信傳輸能力”這四個部分,可簡稱之為“超常算數通”。其核心思想是以“超級計算能力”支撐數值預報等核心氣象業務,以“常規通用計算能力”支撐氣象各
123、單位常規型業務應用,以“超級數據處理能力”支撐大規模數據處理和存儲以及數值預報周邊的所有輔助型業務,以“超級通信傳輸能力”實現“東數西算”中數據在東西數據中心節點間以及數據中心內部穩定高速流動傳輸。CHAPTER2 算力新基建呈現的 10 大挑戰和實踐 63國家“東數西算”工程背景下新型算力基礎設施發展研究報告CHAPTER3展望面向 2030 年的算力基礎設施國家“東數西算”工程背景下新型算力基礎設施發展研究報告 64數字文明時代加速到來,要求算力基礎設施資源充沛、泛在普惠當今世界正經歷百年未有之大變局,互聯網、大數據、云計算、人工智能、區塊鏈等技術加速創新,日益融入經濟社會發展各領域全過程
124、,以信息技術和數據作為關鍵要素的數字經濟成為全球新一輪科技革命和產業變革的重要引擎。習近平總書記在 2021年在致世界互聯網大會烏鎮峰會的賀信中指出,“要激發數字經濟活力,增強數字政府效能,優化數字社會環境,構建數字合作格局,筑牢數字安全屏障,讓數字文明造福各國人民?!苯鼛啄?,人類向數字文明的過渡大幅增進,特別是遠程醫療、在線教育、共享平臺、協同辦公、網絡直播、以 NFT 為代表的數字資產等數字化新事物、新業態、新模式,推動各個領域加快邁向數字文明時代?!叭f物互聯”“萬物智聯”“人人享聯”成為數字文明的基本特征。一是“萬物互聯”對算力設施供給總量提出了更高要求。近年來,我國數字經濟發展迅猛,帶
125、動數據量年均增速超過 50%,我國已成為全球數據資源規模最大、增長最快的數據圈,預計到 2025 年數據總量將躍居世界第一,全球占比有望達到 27%以上。算力成為影響數字經濟發展的核心要素。IDC 發布的2021-2022 全球計算力指數評估報告 顯示,計算力指數平均每提高1點,數字經濟和GDP將分別增長3.5和1.8。信通院發布的中國算力發展指數研究報告指出,2016-2020 年期間,我國算力規模平均每年增長 42%,數字經濟規模增長 16%,在算力中每投入 1 元,將帶動 3-4 元經濟產出。據測算,到2025年我國數字經濟規模有望突破80萬億,2030年破百萬億,數字經濟快速增長、萬物
126、皆可“云”的時代要求算力供給資源充沛。3.51.8計算力指數平均每提高 1點,數字經濟和 GDP 將分別增長3.5和1.8。IDC2021-2022 全球計算力指數評估報告42%80萬億100萬億16%2016-2020 年期間,我國算力規模平均每年增長42%,數字經濟規模增長 16%到 2025 年 我 國 數 字 經 濟 規 模 有 望 突 破 80 萬億,2030 年破百萬億信通院中國算力發展指數研究報告CHAPTER3 展望 面向 2030 年的算力基礎設施 65國家“東數西算”工程背景下新型算力基礎設施發展研究報告二是“萬物智聯”讓智算中心成為算力設施“主力軍”。未來社會 80%的應
127、用場景都是基于人工智能,無論是智慧城市還是智能制造、無人駕駛、數字孿生等場景,除了要有數據支撐以外,還要和各領域、各場景的知識模型、機理模型甚至物理模型相疊加,形成基于人工智能的新應用和場景實現。復雜模型、復雜場景勢必需要面向 AI 的算力基礎設施,智算中心將算法、模型、算力三者有機融合起來,向外界、向園區、向企業、向政府輸出 AI 的數據庫、AI 的模型、AI 的開放平臺等多種 AI 產品,讓人工智能應用透明化,進一步讓算力基建化、算法基建化。未來,人工智能計算需求將占據 80%以上的算力資源,主要由智算中心承載。三是“人人享聯”要求算力設施更加泛在普惠。數字文明時代,隨著人類更加便捷地進入
128、虛擬空間,信息網絡空間將從以“物”為核心的“賽博空間”向以“人”為中心的“智能化數字空間”轉變。一方面,要求算力泛在化。根據第 49 次中國互聯網絡發展狀況統計報告顯示,截至 2021 年 12 月,中國網民人均每周上網時長達到 28.5 個小時,平均每天上網超過 4 個小時。隨著數字時代的發展,人們在“智能化數字空間”中的工作學習生活時間進一步變長,隨地接入、隨時訪問要求算力無處不在。另一方面,要求算力普惠化。數字文明時代要求把發展數字經濟的出發點和落腳點聚焦到人民對美好生活的向往上,推進數字城鄉區域融合發展,通過算力調度和補償機制,讓廣大人民群眾共享算力建設成果。隱私計算為代表的技術為組織
129、間數據流通提供解決方案在提升組織內部數據管理能力的基礎之上促進各主體間的數據的有序流通是釋放數據價值的關鍵階段,數據會在此階段通過開放、共享和交易等方式實現真正意義上的價值釋放。以隱私計算為代表的價值流通技術體系為數據流通提供核心動能。隱私計算是指在保證數據提供方不泄露原始數據的前提下,對數據進行分析計算的一系列信息技術,保障數據在流通與融合過程中的“可用不可見”。從技術角度出發,目前主流的隱私計算技術可分為三大類:第一類是以多方安全計算為代表的基于密碼學的隱私計算技術;第二類是以聯邦學習為代表的人工智能與隱私保護技術融合衍生的技術;第三類是以可信執行環境為代表的基于可信硬件的隱私計算技術。隱
130、私計算的應用主要集中在金 66融、互聯網和擁有大量數據源和數據流通需求的醫療、政務領域,應用場景則聚焦在聯合風控、營銷、智慧醫療和電子政務。聯合風控方面,以銀行機構為例,隱私計算技術可以實現跨機構間數據價值的聯合挖掘,更好地進行客戶檢測,降低欺詐及合規風險,從而綜合提升風控能力。2021 年,招商銀行深圳分行發布行內首個運用聯邦學習技術的貸款產品,產品對接了深圳市公共信用中心的系統和模型,在無需各方披露底層數據的前提下實現聯合運算并進行風險控制。聯合營銷方面,隱私計算技術可以幫助機構在不輸出原始數據的基礎上共享各自的用戶數據,提升建模結果準確度并根據模型制訂營銷策略,提高營銷轉化率。2020
131、年,建設銀行聯合子公司建信基金成功部署了行內首套聯邦學習環境,通過“速盈客群價值提升場景”,實現跨雙方模型訓練,定位目標客群,助力客戶價值提升,在實際的營銷中針對目標客群的響應率相對提升 34%。智慧醫療方面,隱私計算技術可以實現醫療數據在“可用不可見”的前提下在機構間共享,推動各醫療機構的臨床研究,解決醫療系統數據孤島難題。如歐盟通過“機器學習分類賬編排藥物發現”項目構建了 Owkin Connect 平臺,讓各醫療機構利用制藥企業的脫敏數據創建更有效的模型。在中國,多地醫療機構也開始運用隱私計算技術解決臨床研究的問題。廈門市基于隱私計算的健康醫療大數據應用開放平臺已完全落地,做到了數據“可
132、用不可見”“可算不可識”;上海長寧區搭建了健康大數據開發平臺;福建省也在籌備打造基于隱私計算的防疫平臺和智能系統。電子政務方面,隱私計算技術典型應用實踐就是電信反詐騙,如中國移動基于 CMBaaS 平臺建立針對電信反欺詐識別的聯邦模型,將運營商的用戶靜默等級、交際圈穩定程度、運營商業務CHAPTER3 展望 面向 2030 年的算力基礎設施 67國家“東數西算”工程背景下新型算力基礎設施發展研究報告量變化情況等數據、公安的詐騙號碼庫進行聯合建模,實現電信欺詐聯合預測,降低財產損失。此外,以區塊鏈、數字簽名、數字水印、數據指紋為代表的追溯審計技術體系為數據流通提供了重要保障;以數據脫敏、數據失真
133、、態勢感知等為代表的數據安全與信息保護技術體系為數據流通各環節保駕護航,與隱私計算技術體系共同為數據流通提供價值流通、追溯審計、數據安全與信息保護等方面的相關解決方案??尚烹[私計算是未來數據要素化的理想技術方案之一可信隱私計算在應用過程中,其安全性、可用性和隱私保護能力等應符合設計聲明預期,以滿足數據需求方、數據提供方和監管方等各方的需求,一般包含安全可證、隱私保護、流程可控、高效穩定、開放普適等基本特征。圖 2 給出了可信隱私計算的總體框架??尚烹[私計算總體框架支撐技術層面,圍繞著安全可證、隱私保護、流程可控、高效穩定、開放普適等可信的基本特征,以理論研究為抓手,彌補當前技術的不足,縮小應用
134、的差距。例如研究能抵抗惡意攻擊、合謀攻擊的安全保護技術、研究保證精度損失可接受條件下性能有效提升的技術方法、研究保證計算全流程可審計的技術方法等,都需要學術界和工業界的積極探索。68企業實踐層面,隱私計算從概念驗證到應用落地依賴于企業將技術產品化。因此,企業在可信隱私計算的應用實踐是可信方法中至關重要的環節。同時,應該注意到沒有完美的技術,關鍵在于如何正確的使用技術,需要在產品研發使用的全生命周期過程中貫徹可信特征的要求,從產品源頭保證“可信”。行業組織層面,可信隱私計算需要整個行業的參與,包括可信隱私計算標準體系的建設、可信隱私計算評估測試等,通過可度量可驗證的方式來減輕隱私計算技術和系統應
135、用帶來的風險。第一要素:安全可證安全可證是可信隱私計算的第一要素。隱私計算通過只輸出中間參數、標簽等信息,或通過在可信受控環境中對數據進行處理的方式,保障了數據的安全性,提高了數據流通的主動性。但隱私計算的安全性自證是技術應用過程中面臨的難題,隱私計算產品安全邊界的界定需要考慮不同行業、不同場景和不同技術的差別,也需要平衡計算準確性和計算效率的要求。因此,如何評價和驗證系統的安全性亟需明確。核心要素:隱私保護隱私計算的核心目標是要保護隱私。個人隱私信息如個人身份標識、屬性行為、位置軌跡等一旦泄露、非法提供或濫用將會危害個人或組織的相關權益??尚烹[私計算通過技術手段對數據隱私進行保護,并將進一步
136、保障數據使用可控,有效防止了數據的盜用、濫用和誤用??尚烹[私計算要對全周期隱私信息有保護。數據在不同參與方實體之間流轉時,應采用隱私計算等技術措施,增強個人對處理者的信任度,應履行采取相應的隱私保護技術措施的義務,防止未經授權的個人信息泄露、篡改和丟失。信任基礎:流程可控隱私計算雖有不同的技術路線,但是由于涉及多個參與方、普遍依賴密碼學方法進行計算,所以數據使用的可控可計量、計算流程的可監控、全流程的可審計等至關重要,這些也是用戶信賴隱私計算產品的基礎。CHAPTER3 展望 面向 2030 年的算力基礎設施 69國家“東數西算”工程背景下新型算力基礎設施發展研究報告落地抓手:高效穩定除了具備
137、安全可證、隱私保護、流程可控,想要實現隱私計算系統的真實可用和場景落地,高效穩定是可信隱私計算應用的重要抓手。規?;疤幔洪_放普適日漸增加的隱私計算產品在豐富市場選擇的同時也帶來了新的需求,一是技術實現方法的多樣化使得不同技術平臺所托管的數據無法跨平臺交互,可能造成“計算孤島”現象,由此市場對平臺的開放擴展兼容能力、互聯互通能力提出了新的要求;二是系統操作簡便、容易部署、容易運維也是實現各行業場景落地、規?;瘧帽夭豢缮俚那疤釛l件。Web3.0 驅動規?;?、泛在化的智能算力構建Web3.0時代加速到來,元宇宙將成為主要形態和入口。一方面,隨著非同質化通證、隱私增強技術等新一代關鍵技術的發展,一
138、個以用戶為中心,強調用戶擁有身份、數據、算法、收益、協作等方面的自主權,打破了中心化模式下互聯網平臺對數據、交互天然壟斷的下一代互聯網發展形態 Web3.0 時代正加速到來,這將有利于釋放數據要素價值,催生數字經濟發展新模式。另一方面,元宇宙作為數字世界和現實世界融合的載體,既有現實世界的數字化復制物,也有虛擬世界的創造物,是 Web3.0 的特定應用形態。Web3.0 在沉浸式 AR/VR 終端、觸覺手套等先進設備,以及動作捕捉、空間感知、數字孿生等相關技術的加持下,將為用戶提供前所未有的交互性、高度的真實性以及深度的沉浸感和參與感。依托元宇宙這一關鍵入口,Web3.0 將“飛入尋常百姓家”
139、。規?;悄芩懔κ?Web3.0 時代構建元宇宙不可或缺的基礎。一是元宇宙將產生人類歷史上前所未有的對規?;悄芩懔陀嬎阗Y源的巨大需求,如為達到理想的沉浸式體驗效果,VR/AR需要實現更高的視網膜分辨率、更廣的觀察視角、更精準的位置感應(如 3D 音頻動態跟蹤、手勢位置動態追蹤、眼球追蹤等),而這是傳統數據中心和云服務商難以滿足的。例如,即便是最初搭建在 AWS 上的元宇宙游戲 Roblox,也因為網絡容量不足而不得不建立自己的數據中心1。二是算力不足帶來的延遲、覆蓋率低下等問題1.金色財經.CCN 測試網 2.0 啟動在即:CCN 將為 Web3 和元宇宙的建構提供算力基礎 EB/OL.2
140、022.8.4.https:/ 通過聚合來自世界各地的計算資源可提供規?;悄芩懔Ψ?,夯實元宇宙發展基礎,以此確保了 Web3.0 時代處理海量數據處理需求的“游刃有余”“運轉自如”。從“單點突破”邁向“泛在智能”,泛在智能算力是 Web3 應用場景落地的敲門磚。一是面向虛擬世界中更真實體驗的機器學習、計算機視覺、自然語義處理等訓練模型架構設計上趨向大規模并行,數據量已達千G量級,參數量邁向萬億級2。AR/VR云游戲、元宇宙等場景對數據傳輸處理速度和快速分析、推理、決策能力也提出了更高要求。二是通過完善在云、邊緣、現場終端不同層級的泛在智能算力體系,有助于實現更快、更低時延、更低成本的算力輸
141、出。2020 年中國總算力規模中智能算力占比達到 41%,預計到 2023 年智能算力的占比將提升至 70%3。據 Intel 測算,到 2030 年,每人擁有1Petaflops 的算力和 1PB 的數據,時延不到 1 毫秒,元宇宙得到充分發展4。三是泛在智能算力牽引效率和創新能力加速突破。構建多元化、規?;?、泛在化的智能算力,有效拓寬應用場景的邊界,促使元宇宙從“單點突破”邁向“泛在智能”,助推隨地、隨需、隨形的多元場景應用落地,引領 Web3.0 未來發展潮流。3.中國算力發展指數研究報告.中國信通院4.Web3.0 時代,得算力者得未來.雨晴,陸玖財經.EB/OL.https:/ 展望
142、 面向 2030 年的算力基礎設施2.中國移動.算力網絡技術研究報告(2022)71國家“東數西算”工程背景下新型算力基礎設施發展研究報告第五范式 AI for Science 對算力的需求2020 年 5 月,OpenAI 發布了當時全球規模最大的預訓練語言模型 GPT-3,具有 1750 億參數,數據量達到 45TB,訓練費用超過 1200 萬美元。GPT3 的出現意味著 AI 對算力的需求進入新階段!谷歌在 2021 年初推出超級語言模型 Switch Transformer,將參數量提升至萬億級別。據預測,GPT4 將至少有 2.5 萬億參數,比人類寫得更好,當對答案不確定時,還可以進
143、行研究。MIT 預測,訓練 GPT-4 預計會花費 26 億美元,2032 年才能降低到 5 百萬美元。當計算改變了科學,催生了數據密集型科學發現的第四范式。機器學習是第四范式中日益重要的組成部分,能對大規模實驗科學數據進行建模和分析。72現在,深度學習的一個新用途是兼顧科學發現的速度與準確性的強大工具。這種使用機器學習的新方式與第四范式數據建模截然不同,因為用于訓練神經網絡的數據來自科學基本方程的數值解。在精確程度和計算速度兩難困局下,“AI+Science”被稱之為第五范式,帶來了兩種范式結合的可能性:將 AI 的復雜數據處理能力和 Science 的第一性原理的結合,是兩種傳統研究范式的
144、結合。以機器學習為代表的 AI 具備復雜數據處理的能力,可以使得訓練出來的物理模型兼具微觀尺度的精度和宏觀尺度的效率,能夠真正有效解決科學計算中的“維度災難”問題:CHAPTER3 展望 面向 2030 年的算力基礎設施 73國家“東數西算”工程背景下新型算力基礎設施發展研究報告 處理海量數據所面對的維度災難斬獲 2020 年戈登貝爾獎的 Deep Potential 方法,展示了 AI 和分子動力學模型的有效結合;在保證精度的同時,指數級地提升了物理模型的效率;復雜場景中求解物理模型所面對的維度災難:系統性地解決藥物設計、材料設計和化工設計等領域中的微觀設計層面問題,實現既快又準的計算模擬;
145、在宏觀的飛機、汽車、火箭設計領域也將有豐富的應用。采用深度學習等 AI 方法來處理數據,最成功的例子當屬 AlphaFold2。蛋白質結構預測問題是一個典型的高維問題,AlphaFold2 直接將蛋白質一級序列和三維結構通過一個精妙的深度神經網絡關聯了起來,這就像是 DeepMind 找到了一個優美的數學公式,可以將蛋白質的序列和結構用等號連接起來,AlphaFold2 徹底改變了蛋白質結構解析的技術路線。AI for Science 的數據來自各個學科的數據積累,模型來自各領域科學家發現的科學原理和規律;算法源自機器學習算法和數值方法等方面的創新;需要多樣算力融合的綜合型智能計算平臺,通過分
146、布式異構并行體系結構,實現多樣算力的融合、優勢互補,為 AI 訓練、AI 推理、數值模擬等不同應用提供不同算力,實現高精度到低精度算力的全覆蓋、多種計算類型的全覆蓋,以及 AI 訓練+推理全覆蓋。大模型成為人工智能工程化重要方向,智能算力需求幾何級增長一方面,人工智能大模型成為世界性趨勢。人工智能落地面臨長尾場景應用的“碎片化”和應用開發的“高門檻”等挑戰。為了增強 AI 通用性、加速 AI 工程化,“超大規模預訓練模型”成為世界性趨勢。自 2011 年以來,全球人工智能模型參數急劇增長,已突破千億級。2019 年谷歌推出的 BERT 大模型擁有 3.4 億個參數,使用了 64 個 TPU。2
147、020 年,OpenAI 推出的 GPT-3 深度學習大模型擁有 1750 億參數,是當時全球最大的 AI 巨量模型。2021 年浪潮發布的“源 1.0”參數升至 2457 億,是當前全球最大規模的中文 AI 巨量模型。同年,微軟和英偉達使用了 4480 個 GPU 訓練出的擁有 5300億參數的 MT-NLG 大模型。通過構建大模型提升人工智能處理性能,已成為未來模型發展的重要趨勢。74另一方面,模型超大規?;龠M智能算力網絡發展。據OpenAI統計,自2012年以來,業界最復雜的 AI 訓練任務所需算力每 3.43 個月就會翻倍。AI 大模型對算力的需求遠遠超過了芯片產業長期存在的摩爾定律
148、(每 1824 個月芯片的性能會翻一倍)。當 AI大模型成為推動 AI 能力提升的重要工具和手段,其非線性甚至幾何式高速增長的參數數量,導致 AI 大模型、巨量模型的計算規模越來越大,需要的硬件資源(內存、GPU)越來越多,對算力的需求極其巨大,一般的算力基礎設施很快將難以勝任。建立以 AI芯片為主的高效率、低成本、大規模的智能算力基礎設施將成為訓練 AI 大模型的前提。為了提供相匹配的超大規模的算力支撐,亟需構建云化的智能算力網絡,通過在區域內感知、分配、調度人工智能算力,根據各中心算力資源的情況和各地區的需求情況進行算力動態調配。CHAPTER3 展望 面向 2030 年的算力基礎設施當
149、AI 大模型成為推動 AI 能力提升的重要工具和手段,其非線性甚至幾何式高速增長的參數數量,導致AI 大模型、巨量模型的計算規模越來越大,需要的硬件資源(內存、GPU)越來越多,對算力的需求極其巨大,一般的算力基礎設施很快將難以勝任。75國家“東數西算”工程背景下新型算力基礎設施發展研究報告邊緣創新與新興應用云化 5GC 時代到來,邊緣計算迎來爆發式增長。在行業垂直領域,用戶的信息數據使用需求,往往先通過邊緣點、邊緣云來收集;然后再通過大批量的復雜計算,傳輸到中心云進行處理,從而完成邊緣云與中心云的聯動協同。而 5G 網絡所具備的種種優勢,能大幅提升傳輸數據、響應需求的速度;同時,也能進一步保
150、障用戶存儲數據的安全性。因此,5GC 可以使得整個邊緣云和中心云之間的聯動過程比以往更加順暢高效,也可以更好地滿足不同用戶的多樣化邊緣場景業務需求。云邊端部署模式將支撐未來新興應用發展。在算力方面呈現海量計算需求和快速實時響應兩個方面的特點。因此,傳統計算技術及計算架構需要進行變革,云邊端相結合的模式是算力體系支撐的新興應用的重要方式,需要各類計算處理能力融于一體。在此基礎上,需要大型數據中心承載集中算力,需要邊緣數據中心承載實時算力。在產業橫向拓展中,云游戲、自動駕駛、VR/AR、物聯網及工業互聯網新型應用對網絡時延、數據安全提出了更高要求。以云游戲為例,其背后所代表的是終端算力云化的大趨勢
151、,Arm 架構等移動終端等通過與云計算的結合,突破終端算力性能、功耗的瓶頸,進一步擴展高算力覆蓋場景與需求,而在云計算的角度,端云的融合也產生了對通用計算、渲染、視頻編解碼、網絡處理等算力的新組合與應用,引入新的架構,多元發展。技術層面,如何更好的調度、融合不同的計算資源,需要芯片、操 76作系統、虛擬化等技術協同,組合新的參考架構助力行業發展。生態/應用層面,以Android、鴻蒙、國產 Linux 為代表的操作系統也迎來了新的發展機會,移動/PC/云操作系統產生融合。而業務層面,端云硬件組合的變化,也打破了不同廠商業務邊界,終端廠商布局云端,而云廠商也可以觸達終端用戶。產業需要芯片、方案、
152、云、業務等分屬不同生態位的廠商共同配合、摸索新的技術組合。比如工業制造、醫療健康等注重精細和實時性要求的場景對 AR 應用需求的不斷增加,需要平臺部署更有力的軟硬件,來提供高強度的音視頻編解碼和渲染能力,從而避免出現抖動、扭曲和畫面丟失問題。同時 AR 應用在成為業務效率倍增器的同時,也需要更強的實時 AI 算力,因此,圖像識別、邊緣檢測等計算機視覺 AI 算法正被引入 AR 應用中,當然也對 AR 平臺的算力提出了更高要求,需要實施 AI 加速優化,以避免使用時出現數據不同步、卡頓、超時等問題。因此,未來基于 MEC 技術的 AR 可視化方案將會在更多場景中得到應用。自動駕駛進入無人化新階段
153、,云邊端高效協同展望 2030 年,按照我國自動駕駛產業的頂層設計和路線圖規劃,高度自動駕駛汽車CHAPTER3 展望 面向 2030 年的算力基礎設施 77國家“東數西算”工程背景下新型算力基礎設施發展研究報告將從 2025 年的限定區域和特定場景商業化應用,向高度自動駕駛汽車實現規?;瘧棉D變。部分和有條件自動駕駛級智能網聯汽車市場份額超過 70%,高度自動駕駛級智能網聯汽車市場份額將達到 20%,并在高速公路廣泛應用、在部分城市道路規?;瘧?。自動駕駛產業是技術密集型產業,其發展離不開技術的創新與突破。這其中涉及到復雜環境融合感知、智能網聯決策與控制、車載智能計算平臺、高精度動態地圖與
154、定位、安全測試與驗證等關鍵核心技術,而這些技術的研發與應用需要新型算力基礎設施的有力支撐。我國應加快推動自動駕駛產業與“東數西算”戰略布局融合,以新型算力基礎設施支撐自動駕駛各環節技術加速創新應用,構建“車-路-云”一體化高效協同體系,助力我國智能網聯汽車產業快速發展。自動駕駛各環節技術創新應用需要新型算力的強力支撐。對于自動駕駛而言,算力不足是最為關鍵的發展瓶頸。從 L1 到 L5,每增加一個級別,計算的復雜性就會增加一個數量級,對算力的需求將會成 100 倍的增長。在自動駕駛智能模型構建方面,隨著自動駕駛場景的日益豐富,自動駕駛訓練模型也日益復雜化和規?;?,需要足夠的算力對算法與模型的開發
155、應用提供支撐。在“東數西算”戰略下,利用西部地區數據中心目前較高的能源使用效率,在西部建立更加先進的自動駕駛智算中心,實施自動駕駛的“東數西訓”,在西部地區進行更大規模智能模型訓練與學習,在自動駕駛的實際應用場地進行算法與模型應用。在自動駕駛精準感知與識別技術方面,感知與識別能力需要基于 AI 芯片的智能駕駛座艙系統和車載智能計算平臺提供強大的海量數據計算、高精度、低延遲(毫秒級)的計算能力,對各種駕駛與交通環境類目標進行實時、動態、精準捕獲與識別。同時,對車內駕駛員狀態、語音和動作等進行實時監測與分析,為自動駕駛決策與控制提供判斷依據。在自動駕駛本質安全方面,智能網聯汽車預期功能安全需要經過
156、測試、評估和驗證等多個階段,這需要具備具有強大算力的智能化虛擬仿真和測試驗證平臺的有力支撐,從而提升自動駕駛汽車性能評價與檢測認證能力,從本質上確保自動駕駛的安全。5.智能網聯汽車技術路線圖 2.0 78“車-路-云”高效協同需要AI和云邊協同新算力的支撐。自動駕駛的未來是智能網聯,智能網聯的核心是構建一體高效協同的“車-路-云”高效協同體系。而支撐“車-路-云”高效協同運行的關鍵是對多源異構和多層級數據資源的融合和計算能力。因此,建設海量異構數據融合與計算處理平臺支撐自動駕駛上層應用場景的構建就至關重要。自動駕駛的高精動態地圖就是“車-路-云”協同體系下的一種典型應用。高精地圖融合應用 AI 和邊緣計算等技術,利用道路側智能設備與移動車提高數據采集和更新效率,提升自動駕駛車輛的定位、導航、控制、決策和安全行駛水平。高精地圖的構建極具挑戰。高精地圖包含海量異構數據,涉及路面結構、道路標識、道路環境模型、交通信號和可行駛路面等數據。多源異構數據的融合計算對終端設備的計算和存儲能力要求極高。為此,高精地圖的構建需要利用更加高效的 AI 制圖、AI 智能圖像精準識別、三維道路場景智能語義分析與重建等技術,同時,支持云邊協同計算與存儲模式,利用云邊協同新算力支撐海量地圖數據的動態計算與實時更新。CHAPTER3 展望 面向 2030 年的算力基礎設施