《中國信通院:2023面向算力應用環節的計算綠色化白皮書(38頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:2023面向算力應用環節的計算綠色化白皮書(38頁).pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、面向算力應用環節的 計算綠色化白皮書 面向算力應用環節的計算綠色化白皮書 螞蟻集團 信通院 2023.08 面向算力應用環節的 計算綠色化白皮書 摘 要 數字經濟時代,算力作為重要底座支撐,價值日益凸顯。尤其是近年來人工智能、元宇宙、數字孿生等新技術的快速發展和應用,對計算的需求更是呈百千倍遞增。當前,全球各主要大國紛紛加快算力建設戰略布局,全球算力競爭不斷加劇。但與此同時,伴隨算力規模的快速增長,算力能耗總量也在急劇攀升。在全球都在關注“碳達峰、碳中和”的今天,推動算力的綠色低碳發展已成為了行業共識和時代需求,也是企業降本增效和實現社會責任的重要手段。目前,行業在推動算力綠色低碳發展過程中,
2、關注點仍主要停留在可再生能源生產和綠色數據中心建設上。為更為全面、系統地分析綠色算力產業鏈,實現更大程度的總體節能減排效果,本白皮書提出了端到端的綠色算力端到端的綠色算力框架,覆蓋到從電力生產、算力生產到業務應用的各個環節,并著重分析當前尚未被產業界足夠重視的業務應用環節中算力利用效率較低問題,提出了面向應用環節的計算綠色化概念。面向應用環節的計算綠色化,面向應用環節的計算綠色化,是指面向規?;?、數字化的業務計算需求,通過計算平臺系統架構升級、業務軟件更新以及業務應用與平臺系統協同設計等方法,提升硬件算力資源在使用過程的效用,從而實現節能減碳的綠色計算技術。其中,實現計算綠色化的關鍵技術要素主
3、要包括支持多供應鏈、全面云原生化、轉向無服務器化(Serverless)、實施平臺工程,并建立綠色連續觀測機制等。目前行業中的部分領先科技公司,尤其是需要支持海量業務規模、對算力使用需求較大的互聯網公司,已經在不斷地探索和實踐計算綠色化技術,并取得了較好的應用實施減碳效果??傮w來看,面向應用環節的計算綠色化還處于發展早期階段,仍有待包括政府機構、行業聯盟、產業智庫、技術廠商、應用企業等生態各方進一步協作,從產業政策引導、產學研用聯合、產業聯盟構建、行業標準制定、綠色度指標評價設定和評估評測體系搭建、技術開源開放等角度,共同推動計算綠色化的技術聯合創新和產業規?;l展。為此,本白皮書也從行業視角
4、和企業視角分別提出了可供參考的產業實踐路徑,以期為加快推進綠色算力產業發展提供助力。面向算力應用環節的 計算綠色化白皮書 1 目 錄 第一章第一章 發展背景發展背景 .2 2(一)發展數字經濟需要算力基礎設施為底層支撐.2(二)算力能耗總量快速攀升,實現“雙碳”戰略需要算力產業向綠色發展.3(三)需求層面來看,算力投資增加和節能減排壓力成為企業重點關注問題.4 第二章第二章 端到端的綠色算力概念及內涵端到端的綠色算力概念及內涵 .6 6(一)行業現有綠色算力研究概述.6(二)端到端的綠色算力.6(三)端到端的綠色算力內涵.7 第三章第三章 應用環節計算綠色化的行業問題分析應用環節計算綠色化的行
5、業問題分析 .9 9(一)行業需要關注面向應用的算力效用提升.9(二)算力應用企業尚未廣泛應用綠色計算的問題分析.10 第四章第四章 應用環節計算綠色化的技術分析應用環節計算綠色化的技術分析 .1212(一)應用環節計算綠色化的定義.12(二)企業在算力應用環節面臨的算力效用提升挑戰.14(三)算力應用環節計算綠色化的關鍵技術要素.16(四)綠色計算行業實踐案例.25 第五章第五章 應用環節計算綠色化產業實踐路徑應用環節計算綠色化產業實踐路徑 .2626(一)行業視角的產業實踐路徑.26(二)企業視角的產業實踐路徑.27 第六章第六章 總結與展望總結與展望 .3636 面向算力應用環節的 計算
6、綠色化白皮書 2 第一章 發展背景(一)發展數字經濟需要算力基礎設施為底層支撐 數字經濟時代,算力作為重要底座支撐,價值日益凸顯。數字經濟時代,算力作為重要底座支撐,價值日益凸顯。算力是數字經濟時代新的生產力,已成為支撐數字經濟發展的堅實基礎,對推動科技進步、促進行業數字化轉型以及支撐經濟社會發展發揮重要的作用。當前,我國數字經濟賦能實體經濟的作用日趨凸顯,數字產業加快增長,產業數字化全面提速。算力基礎設施作為支撐數字經濟發展的重要資源,正成為推動我國經濟轉型升級和培育新動能的重要力量。萬物智能時代,對計算的需求呈百千倍遞增,人工智能、數字孿生、元宇宙等新興領域的快速崛起,推動全球算力規??焖?/p>
7、增長,驅動算力技術與產品多元創新,帶動產業格局重構重塑。以元宇宙為例,英特爾預估元宇宙需要將計算能力提升一千倍1。全球算力競爭不斷加劇,各主要國家地區紛紛加快戰略布局。全球算力競爭不斷加劇,各主要國家地區紛紛加快戰略布局。全球主要國家和地區深化算力發展路徑。算力成為各國搶占發展主導權的重要手段,全球主要國家和地區紛紛加快戰略布局進程。美國高度重視算力新興技術發展,通過更新技術清單引領技術創新方向,持續鞏固美國在算力技術領域的全球領導地位。2022 年 2 月美國白宮發布新版關鍵和新興技術清單,涵蓋先進計算等 14個關鍵技術和 5 個新興技術領域,其中先進計算包括超級計算、邊緣計算、云計算、數據
8、存儲、計算架構、數據處理和分析六大子領域。歐盟不斷加大算力基礎設施建設和關鍵技術研發的投入力度。2021 年 9 月歐盟計劃為數據基礎設施、5G、量子計算等領域投資 1770 億美元;2022 年 2 月歐盟發布投資金額超過 430 億歐元的歐洲芯片法案,提出聚焦新一代處理器、人工智能和邊緣計算等芯片技術,強化歐盟各國在高端芯片設計和半導體生產工藝方面的競爭優勢。中國算力白皮書(2022)提到,2021 年美國、中國、歐洲、日本在全球算力規模中的份額分別為 34%、33%、14%、5%,其中美國和中國位列第一梯隊。在當前復雜嚴峻的國際環境下,全球算力競爭愈加白熱化,世界各國加快本土算力產業建設
9、,重塑全球產業鏈供應鏈競爭格局,給我國算力技術創新及產業生態帶來新挑戰。我國高度重視算力基礎設施建設,多舉措全面推動。我國高度重視算力基礎設施建設,多舉措全面推動。近年來,我國出臺了一系列重大方針政策,將算力基礎設施的重要性提升到新的高度。2020 年 4 月,國家發改委明確算力基礎設施是“新基建”的發力方向之一。2021 年 5 月,國家發改委等四部委聯合印發全國一體化大數據中心協同創新體系算力樞紐實施方案,提出建設全國一體化算力網絡國家樞紐節點的思路,強調要優化數據中心基礎設施建設布局,加快實現數據中心集約化、規?;?、綠色化發展,形成“數網”體系。2021年 7 月,工信部發布新型數據中心
10、發展三年行動計劃(20212023 年),明確了新型數據中心建設的總體要求和重點任務。2023 年 2 月,中共中央、國務院印發 數字中國建設整體布局規劃,明確要打通數字基礎設施大動脈,系統優化算力基礎設施布局。從“新基建”戰略到“東數西算”1 https:/ 面向算力應用環節的 計算綠色化白皮書 3 工程,再到“數字中國”建設規劃,在國家政策的大力推動下,我國算力基礎設施建設進入全面加速期。全國各地積極響應政策號召規劃建設數據中心、智能算力中心、超算中心。中國信通院統計數據顯示,截至2022年底,我國在用數據中心機架總規模超過650萬架,算力總規模超過180EFlops,近五年平均增速超過了
11、 30%,算力規模位居全球第二。(二)算力能耗總量快速攀升,實現“雙碳”戰略需要算力產業向綠色發展 算力規模增長的同時,算力能耗總量也在快速攀升。算力規模增長的同時,算力能耗總量也在快速攀升。隨著數字經濟的發展,數字政府、工業互聯網、智慧交通、智慧醫療、金融科技等創新應用場景催生出對算力的巨大需求。根據信通院數據中心白皮書(2022)顯示2,2021 年,我國數據中心行業收入達到 1500 億元,近三年年均復合增長率達到 30.69%。此外,隨著人工智能發展,行業對智能算力的需求成為算力需求增長的主要動力,尤其是隨著 AIGC 風靡全球,領先企業紛紛布局大模型以構建比較競爭優勢,大模型的訓練對
12、智能算力消耗遠超過其它人工智能模型。GPU 是智能算力的動力來源,但一臺 GPU 服務器的成本是普通服務器的 10 倍以上,智能算力需求高漲直接帶動算力成本顯著上升。與此相對應的是算力所帶來的能耗總量的快速攀升。根據國際能源機構(IEA)的數據顯示3,2022 年全球數據中心用電量為24003400 億千瓦時,約占全球最終電力需求的 1%1.3%。根據信通院統計,我國 2022 年數據中心能耗總量 1300 億千瓦時,同比增長 16%,預計到 2030 年,能耗總量將達到約 3800 億千瓦時,如圖 1 所示。來源:中國信息通信研究院 圖 1 我國數據中心耗電量(億千瓦時)在在“雙碳”“雙碳”
13、目標引領下,推動算力的綠色低碳發展成為了行業共識和時代需求。目標引領下,推動算力的綠色低碳發展成為了行業共識和時代需求。我國在第 75屆聯合國大會上正式提出力爭 2030 年前實現“碳達峰”,2060 年前實現“碳中和”的重大戰略決策?!疤歼_峰、碳中和”目標是中國經濟走上高質量發展道路的戰略之舉,也是推動經濟社會綠色 2 http:/ 3 https:/www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks 824939111613003800050010001500200025003000
14、3500400020192020202120222030面向算力應用環節的 計算綠色化白皮書 4 低碳轉型、應對氣候變化目標的重要機會和抓手?!疤歼_峰、碳中和”是經濟社會發展的綜合戰略,覆蓋范圍廣、牽涉面寬,系統性和全局性強,算力產業作為數字產業的重要組成部分也正朝著綠色低碳、節能增效、減排降耗等方向發展。從電力生產源頭降低碳排放量,提高算力基礎設施使用可再生能源電力比例,正成為算力產業鏈整體實現綠色低碳的前提。當前,我國數據中心企業正積極與電力、電網、儲能企業共同探索“源網荷儲一體化”模式,既能助力新能源消納,促進儲能技術發展,也可以充分發揮數據中心負荷側的調節能力,提高數據中心電力供應的穩
15、定性,有效降低數據中心用電成本。(三)需求層面來看,算力投資增加和節能減排壓力成為企業重點關注問題 企業企業 ITIT 基礎設施投入持續上升,面臨降本增效壓力基礎設施投入持續上升,面臨降本增效壓力。隨著企業數字化進程深入,企業內數據量快速增長,算力需求規模的增長速度遠遠大于企業實際業務增長的速度。算力需求增長同步推動企業 IT 開支持續增加,尤其是包括服務器采購在內的 IT 硬件的投入比例持續攀升。隨著全球經濟進入新常態,企業收入規模增長逐漸放緩,持續飆升的企業成本讓管理層重新評估 IT 投入背后的業務價值,并考慮采取行動控制 IT 成本。根據 BCG 于 2022 年在全球開展的調研結果4,
16、企業對擴大 IT支出的態度愈發謹慎,在展望 2023 年 IT 投入時,有 75%的企業認為 IT 支出仍將繼續上升,這一數據在 2022 年調查時為 82%。另外 15%的企業認為 IT 支出將有所下降。受全球經濟波動影響,企業希望通過更高的投入和產出比來應對為未來高度不確定的市場環境。企業面臨“雙碳”的政策要求和社會責任。企業面臨“雙碳”的政策要求和社會責任。在“雙碳”大背景下,在行業層面,碳減排成為企業 ESG 戰略中重要組成部分,同時,企業為獲得更高的 ESG 評價,紛紛對外披露“雙碳”工作以及經過第三方鑒證或認證的范圍一、二、三碳排放量。在算力第一大應用領域的互聯網行業,為踐行社會責
17、任,螞蟻、阿里、騰訊、百度等科技企業以及數據中心企業陸續發布“碳中和”目標和路徑,同時通過科技手段實現節能減排,如表 1 所示。4 BCG,中國科技綠色化發展報告,2023 年 5 月發布,https:/web- 面向算力應用環節的 計算綠色化白皮書 5 表 1 主要互聯網企業和數據中心企業“碳中和”計劃 企業名稱 公布時間“碳中和”路線圖 螞蟻集團 2021 年 3 月 承諾自 2021 年起,實現運營排放的碳中和(范圍一、二)、2030 年實現凈零排放(范圍一、二、三)。秦淮數據 2021 年 4 月 到 2030 年,中國所有新一代超大規模數據中心 100%采用“可再生綜合能源解決方案”
18、2040 年全球所有新一代超大規模數據中心 100%采用“清潔能源解決方案”。百度 2021 年 6 月 到 2030 年實現集團運營層面碳中和(范圍 1/2)。萬國數據 2021 年 11 月 到 2030 年實現碳中和以及 100%使用可再生能源。阿里巴巴 2021 年 12 月 阿里巴巴集團目標于 2030 年前實現范圍 1/2 碳中和,以及范圍 3 碳排放強度較 2020 年減半。阿里云將致力率先在 2030 年實現范圍 3 碳中和。騰訊 2022 年 2 月 2030 年前,實現現自身運營及供應鏈(范圍 1/2/3)的碳中和。世紀互聯 2022 年 4 月 不晚于 2030 年,實現
19、運營層面范圍 1 和范圍 2 碳中和,實現運營層面 100%可再生能源使用。資料整理:中國信息通信研究院 面向算力應用環節的 計算綠色化白皮書 6 第二章 端到端的綠色算力概念及內涵(一)行業現有綠色算力研究概述 算力是數字經濟時代的主要生產力和重要驅動力,包含了計算能力、存儲能力、網絡運載能力、服務能力等多個方面能力。算力產業具有產業鏈條長、參與主體多、應用范圍廣泛等特點。當前,業界以自身業務實踐出發,從不同角度闡述了綠色算力的內涵,可大致分為以下三類:第一類關注數第一類關注數據中心據中心建設布局建設布局,以推進建設“綠色數據中心”為目標,充分考慮數據中心在規劃、設計、建設、采購、運維的全生
20、命周期中的綠色化;第二類關注硬件算力輸出能力第二類關注硬件算力輸出能力,以特定硬件為管理單元,如服務器、AI 芯片、存儲芯片等,強調設備性能高效集約,選型節能減排,構建與其相適配的上下游生態,從而實現節能減排的生態體系建設;第三類關注軟件平臺計算特征,第三類關注軟件平臺計算特征,以云計算為例,更關注通過可持續性的云計算的運營、交付與云服務的使用,起到節能增效的效果重點優化升級。綠色算力現有研究主要圍繞數據中心、以硬件為主的 IT 基礎設施、以及以云計算為主的軟件平臺展開,聚焦在電力生產/能源使用、算力供給環節,強調從能源使用效率角度優化數據中心的選址、設計、采購、管理,從計算資源角度優化 IT
21、 基礎設施的設計、建設、使用和回收過程,從而減少對于環境的影響,實現可持續性發展。為了牢牢把握“雙碳”戰略為我國綠色低碳創新發展帶來的空前重要的歷史機遇,算力發展呼喚全流程一體化的產業協同發展,實現端到端的綠色算力。(二)端到端的綠色算力 為支持環境保護、促進資源節約高效利用,應從端到端的視角,覆蓋從電力生產、算力生產到業務應用各個環節,通過上下游合作、軟硬件協同的方式,推動算力更高效、更節能地支撐業務并產生價值,如圖 2 所示。圖 2 端到端的綠色算力示意圖 面向算力應用環節的 計算綠色化白皮書 7 端到端的綠色算力主要包括三個環節:一是在電力生產環節,一是在電力生產環節,通過優化用能結構,
22、實現數據中心清潔能源和新型儲能的合理利用,圍繞源網荷儲一體化的微電網并網模式,探索數據中心與能源融合發展的綠色新場景;二是算力生產環節,二是算力生產環節,通過應用高能效綠色硬件技術與產品,以及從選址、設計、施工、運營等環節入手提高數據中心全生命周期綠色化水平,推進節能減排改造與綠色低碳化重構,采用高效 IT系統、制冷系統、供配電系統以及輔助系統,協調促進算力綠色生產與綠色傳輸;三是業務應用環節,三是業務應用環節,提高軟件平臺對計算資源的利用率,提升應用與算法效率,將固有計算資源通過動態、彈性方式進行調配,減少算力應用側能源消耗,實現算力在服務環節的綠色低碳。(三)端到端的綠色算力內涵 相比于綠
23、色數據中心的概念,端到端綠色算力實現了流程環節、實現方式和目標三方面的擴展:流程環節拓展為面向業務應用的端到端全流程流程環節拓展為面向業務應用的端到端全流程。從電力生產、算力生產到業務應用環節,本質上是由對于能源、IT 基礎設備的關注,邁向了面向業務的全流程算力應用綠色化時代。實現方式更強調一體化的解決路徑實現方式更強調一體化的解決路徑。端到端的解決路徑設計更關注算力的一體化與互補化的視角,從綠色可再生能源的應用,到機房內設備的綠色設計、綠色采購和高效管理,到國產軟硬件的一體化綠色、高效設計,并強調通過創新軟件技術充分釋放硬件計算能力,從而實現業務的綠色應用。目標從節目標從節能向增效擴展能向增
24、效擴展。在數字經濟發展的未來,“節能增效”是實現環境和業務雙重可持續發展的重要路徑。綠色算力更強調通過高質量軟件的調度優化能力、軟硬協同方式實現業務的高效應用,提升效率的同時支撐不同的業務場景。在算力多元化和異構化的時代,面向不同類型的業務場景都需要行之有效的數據處理能力來支撐上層應用的爆發式增長。端到端的綠色算力圍繞電力生產-算力生產-業務應用三大環節展開,如表 2 所示對比介紹了在每個環節的目標、價值、關鍵問題和主要解決路徑等。面向算力應用環節的 計算綠色化白皮書 8 表 2 端到端的綠色算力各環節詳解 電力生產環節 算力生產環節 業務應用環節 機房 IT 設備 目標 提高數據中心用電中可
25、再生能源的使用比例,降低每度電碳排放 減少電力供給給非 IT 設備的比例 提升度電的硬件算力生產 提升單位算力消耗下,各種業務類型的數據處理能力 價值 從能源供給源頭上直接減少碳排放 降低能耗,削減數據中心運營成本 應用國產低功耗硬件提升算力,實現數據中心內的綠色IT 軟件層面提高資源利用率,軟硬協同提升算力效用5 轉換 能源(碳)數據中心電力(kWh)數據中心電力非 IT 設備電力(kWh)IT 設備電力硬件算力(IOPS、FLOPS 等,芯片指令級算力)硬件算力(IOPS、FLOPS 等,芯片指令級算力)業務價值 關鍵問題 非清潔能源比重大 能源效率低 算力效率低 算力效用低 主要解決路徑
26、 可再生能源的使用 機房內設備的綠色設計、綠色采購和高效管理 低功耗 IT 硬件產品的創新研發、軟硬件聯合調優 創新軟件技術應用、軟硬件聯合設計和調優 產業現狀 發展成熟期,產學研投入高 發展成熟期,產學研投入高 發展蓬勃期,產學研大量投入在硬件層 發展起步期,相關研究較少,缺乏軟硬協同關注視角 主要參與方 能源廠商 制冷散熱廠商、供配電廠商、管理和軟件廠商、第三方數據中心服務商、三大運營商、云廠商 IT 和網絡設備提供商、管理和軟件廠商、第三方數據中心服務商、三大運營商、云廠商 行業下游使用方、IaaS廠商、PaaS 廠商、SaaS廠商、AI 廠商、云廠商 5 算力效用:用于實際產生業務價值
27、的有效算力/數據中心所供給的硬件算力,即算力利用效率。面向算力應用環節的 計算綠色化白皮書 9 第三章 應用環節計算綠色化的 行業問題分析(一)行業需要關注面向應用的算力效用提升 當前行業重點關注數據中心當前行業重點關注數據中心電能利用效率電能利用效率 PUEPUE 等指標等指標,但優化空間在逐漸縮小,但優化空間在逐漸縮小。數據中心是算力生產環節的主要載體,其能源利用效率一直是產業關注的重點。如圖 3 所示,是目前全球數據中心的 PUE 的平均值變化情況。當前,國家鼓勵高效 IT 設備、高效制冷方案、高效供配電系統、先進儲能裝置等技術方案應用于數據中心創建、運維、改造的全過程,降低以 PUE
28、為代表的能耗指標。截至 2023 年 6 月,我國累計建成 196 家國家綠色數據中心,行業內先進綠色中心電能利用效率降至 1.08 左右,達到世界領先水平。但伴隨產業蓬勃發展,PUE 指標優化空間不斷減少,局限性逐漸顯現。來源:互聯網公開資料整理 圖 3 全球數據中心 PUE 平均值變化情況 與此同時,行業對于通過數據中心所產生算力的利用效率的關注度尚且不夠與此同時,行業對于通過數據中心所產生算力的利用效率的關注度尚且不夠,存在較大優化,存在較大優化空間空間。麥肯錫早期曾做過一個調研6,商用和企業數據中心的服務器很少超過 6%的利用率,而高達30%的服務器處于“昏睡”狀態,一直在耗費電力但沒
29、有提供有用的信息服務。國際數據中心認證標準組織 Uptime Institute 的數據7也提到美國 30%的服務器實際上處于“休眠”狀態。站在端到端綠色算力視角來看,在應用環節提升算力利用效率從而實現碳減排有著很大的優化空間。但是,目前綠色算力相關行業組織及相關標準主要的關注點都在數據中心及其相關設施能效,對于面向應 6 McKinsey and Company,Revolutionizing Data Center Efficiency,https:/www.sallan.org/pdf-docs/McKinsey_Data_Center_Efficiency.pdf 7 The Upti
30、me Institute,https:/ 面向算力應用環節的 計算綠色化白皮書 10 用環節的算力效用關注很少。以標準為例,目前與綠色算力相關的節能減排標準多集中在數據中心環節,例如 ISO/IEC 30134 系列標準8和 GB/T 40879-20219中主要定義各種與數據中心能效、算效相關指標和評測方法。隨著算力產業鏈條脈絡逐漸明晰,針對算力資源進行合理分配逐漸成為產業關注重點和綠色化發展的關鍵??傮w來看,當前業界尚沒有相應的組織或者標準,聚焦在應用環節的算力浪費問題,并提出系統性的解決方案或評估體系。如何精細化的利用算力,提升算力利用效率,是端到端綠色算力的一個重要方面。(二)算力應用
31、企業尚未廣泛應用綠色計算的問題分析 1 1.應用環節企業尚缺乏綠色意識應用環節企業尚缺乏綠色意識 在這里,我們將綠色意識分為三個階段。處于第一階段的企業尚未樹立節能減排意識,以高能耗為代價一味追求高速發展。隨著國家“雙碳”戰略的推進以及各類政策文件要求落實,企業開始向下一階段過渡。處于第二階段的企業,逐步建立減碳、節能、降本的目標,但綠色意識與業務目標和技術應用相分離,綠色意識成為孤立的一環,甚至成為額外的負擔。近年來,許多領先企業開始向第三階段跨越。這些企業意識到,包括綠色減碳在內的 ESG 可持續發展理念,需要和業務發展深度結合,將可持續發展作為商業目標、技術發展以及核心競爭力構建的一部分
32、。ESG 與戰略的融合,推動企業將綠色理念應用于不同場景并貫穿業務發展的始終,這也是企業采取行動,通過治理和技術手段實現綠色的前提條件。2 2.在應用環節尚缺乏有效的算力綠色度量框架和工具在應用環節尚缺乏有效的算力綠色度量框架和工具 對于建立綠色意識的企業來說,另一個挑戰來自于如何評估綠色度,也就是建立對于有效算力進行衡量的指標。這其中包括兩個層面,一個是在業務層面,如何評估單位業務價值創造消耗的能源和碳排放量;另一個是在技術層面,如何衡量不同技術解決方案的算力利用效率。目前,綠色計算相關行業組織及相關標準主要的關注點都在于數據中心及其相關設施能效,提出包括電能利用效率 PUE、水資源利用效率
33、 WUE、碳利用效率 CUE 等被行業普遍采用的指標。但對于算力應用環節的效率評估,行業尚缺乏通用指標。無法從算力應用角度評估綠色度,便無法在業務量增長的情況下,判斷算力開銷增長是否合理,難以明確問題所在和提升路徑。8 https:/www.iso.org/standard/63450.html 9 GB/T 40879-2021 數據中心能效限定值及能效等級 面向算力應用環節的 計算綠色化白皮書 11 3 3.應用環節的企業缺乏行之有效的綠色優化解決方案與實施路徑應用環節的企業缺乏行之有效的綠色優化解決方案與實施路徑 提升綠色度是一項系統性工作,涉及到從頂層戰略、業務設計、治理模式到技術支撐
34、的全面規劃與協同。處于不同行業的企業,由于其業務特征、基礎設施、技術能力等差異,面臨不同的導致算力利用效率低的問題,其解決路徑也各異。對于非云基礎設施的企業來說,存在算力資源利用缺乏彈性、資源獨占造成浪費等問題。因此,許多企業通過基礎設施云化或者上云,實現資源共享、彈性伸縮、按需付費等,在提升靈活性的同時降低算力資源成本。但隨著企業上云實踐深入,發現在云的基礎架構下,仍有大量資源被浪費,如何通過工具有效管理云成本是許多上云企業面臨的難題。除了基礎設施之外,企業也面臨大量軟件工作負載優化的問題。例如,如何改進代碼邏輯以提升業務實現效率,如何實現數據庫計算和存儲提效、縮短資源占用時間,如何通過優化
35、人工智能建模和訓練框架降低對智能算力的消耗等問題。目前,業界普遍缺乏自上而下系統化的綠色優化解決方案和實施路徑,且缺乏具有指導價值的各行業標桿落地案例。面向算力應用環節的 計算綠色化白皮書 12 第四章 應用環節計算綠色化的技術分析(一)應用環節計算綠色化的定義 針對前述的行業痛點,在此提出在應用環節中面向算力效用向算力效用提升提升的計算綠色化的計算綠色化定義,具體如下:l 目標:目標:在滿足業務需求的前提下,通過提升算力利用效率實現節能減碳;l 定義:定義:面向規?;?、數字化的業務計算需求,通過計算平臺系統架構升級、業務軟件更新以及業務應用與平臺系統協同設計等方法,提升硬件算力資源在使用過程
36、的效用,從而實現節能減碳的綠色計算技術。進一步展開來看,企業可通過實現以下四方面能力來持續提升自身在應用環節的計算綠色化水平:1 1綠色監測評估能力:具備從數據中心碳強度感知、全局資源和單個工作負載等多個維度,綠色監測評估能力:具備從數據中心碳強度感知、全局資源和單個工作負載等多個維度,對算力效用水平和碳排放量進行持續評估的能力對算力效用水平和碳排放量進行持續評估的能力 對企業來說,可持續的算力效用提升需要具備“可視化”能力,即:第一需制定可量化的綠色計算目標,并建立全面的綠色度評價指標、監測和度量體系;第二通過綠色計算工具從全局資源和單個工作負載維度,持續監測和度量不同方案對算力利用效率的提
37、升程度,評估方案的有效性、目標達成情況以及企業投入產出的效果等。全面的綠色度指標體系需能夠對于數據中心的碳強度感知(是否選擇了更低碳成本算力)、集群全局的算力資源利用率、工作負載層面的算力消耗情況等的實現效果都進行度量。同時,指標體系還需要考慮到不同行業和場景對于算力需求差異性帶來的影響,并具有較低的持續監測和評估實施成本,才能融入企業生產經營中,成為綠色計算工作的度量尺和指揮棒。2 2低碳低碳算力選擇算力選擇能力:能力:具備更低碳成本算力具備更低碳成本算力供應商供應商的選擇能力的選擇能力及及遷移能力遷移能力 隨著數據中心和云計算的發展,企業可以選擇自建數據中心或使用云計算廠商服務來滿足算力需
38、求。過去,選擇自建或外采,主要是從安全、合規、性能以及成本等因素進行考量,現在在“雙碳”目標大背景下,企業在進行算力供應商選擇時,也需要逐漸考慮算力供應商的算力碳強度,并能夠以較低成本遷移到更綠色低碳的算力供應商。其中包括兩個維度的能力:第一,感知供應商的算力碳強度的能力。企業或基于供應商的主動披露、或基于碳效評估指標以及相應的監測工具計算,能夠有效感知和衡量不同數據中心、不同云廠商、不同算力硬件廠商的面向算力應用環節的 計算綠色化白皮書 13 能耗和碳排放水平等,幫助企業從綠色采購的角度來評估不同供應商的算力碳強度水平,支撐后續算力供應商的選擇決策。第二,具備向更低碳綠色算力供應商遷移的能力
39、。企業在進行算力供應商選擇時,應綜合評估性能、安全、算力碳強度等指標,并形成有效的決策機制,當有更低碳綠色的算力來源時可以低成本進行遷移或者切換。在遷移或切換時,根據實現方案不同,企業可以是將全部業務工作負載、或部分業務工作負載的應用、數據等在有限時間內平滑地在不同數據中心之間、或在不同云廠商之間、亦或在多樣化硬件算力服務器之間進行遷移,并同時保障業務連續性。3 3 全局資源調度優化能力:全局資源調度優化能力:具備全局算力資源分配和優化的能力,具備全局算力資源分配和優化的能力,能能通過全局的分配與調度,通過全局的分配與調度,提升算力提升算力效用效用 在選擇更低碳強度數據中心的基礎上,下一步則是
40、對物理資源進行靈活管理以提升硬件算力資源的利用效率。靈活管理的前提是能夠讓算力擺脫硬件算力產品的物理限制,實現更細顆粒度的管理和分配,具備可全局資源調度的基礎。例如,通過虛擬化等技術,企業可以把不同硬件基礎設施資源池化,從而可支持將一份物理硬件分解成多份進行復用,也可以將多份物理硬件抽象為一份統一調用,構建出資源彈性伸縮、業務按需使用、用量可度量的基礎能力。在具備全局資源調度能力的基礎上,基于容器化等技術,在保障隔離性、安全性、穩定性等前提下,可以根據不同業務算力需求特征,進行混合部署、統一管理,從而實現全局資源利用效率優化。4 4.工作負載優化能力:工作負載優化能力:具備持續優化工作負載算力
41、使用的能力,通過更低的算力消耗完成相具備持續優化工作負載算力使用的能力,通過更低的算力消耗完成相應的業務功能應的業務功能 工作負載是指一系列資源和代碼,面向應用場景完成承載商業價值的業務計算任務,如面向客戶的應用程序等。對企業來說,除了全局層面的資源調度和優化能力外,還可以針對具體工作負載進行優化,從而進一步提升整體的算力資源利用效率。一般來說,一個完整的應用場景需要多種不同的工作負載相互組合來實現。目前常見的工作負載類型包括智能計算(如 AI 模型訓練和推理)、數據庫存儲、大數據分析、在線任務等。值得關注的是,今年以來伴隨 ChatGPT 的火爆出圈,帶動了 AI 大模型技術和產業應用的爆發
42、式增長,其對智能計算的工作負載算力需求明顯增長,底層算力的資源約束已成為企業發展和使用大模型的關鍵卡點,并由此也帶來了智能計算能耗和碳排放的急劇提升。因此,如何通過更為綠色低碳的 AI 技術來優化智能計算工作負載,既是行業共同關心的話題,也是制勝大模型時代的關鍵能力。面向算力應用環節的 計算綠色化白皮書 14 (二)企業在算力應用環節面臨的算力效用提升挑戰 當前企業在算力應用環節的資源利用率普遍較低,背后原因主要來自于業務需求波動導致預留資源浪費、任務調度不合理導致資源分配浪費、系統架構和應用軟件設計不完善導致資源使用效率低等,具體到不同的行業和應用場景中存在一定差異性??紤]到當前算力第一大應
43、用領域是互聯網行業,對算力的需求占整體算力的約一半份額,且當前互聯網公司也是在應用環節采用計算綠色化技術推動算力效用提升的主要實踐者。因此本節將主要結合互聯網公司的典型業務需求特征,來分析在業務應用環節進一步提升算力利用效率的主要挑戰,具體可分為下述三類:1.1.互聯網互聯網業務業務特征:需要特征:需要過多資源過多資源預留預留導致浪費導致浪費 不同類型不同類型業務業務在不同時段存在業務量潮汐在不同時段存在業務量潮汐波動波動屬性。屬性。以在線服務類業務為例,需對用戶使用需求進行及時響應,因此對產品服務的實時性、可用性的要求較高。而在線產品服務又通常具有時間維度的流量特征,即在不同的時段業務服務流
44、量有波峰和波谷相對規則的潮汐波動屬性,如圖 4 所示。面對流量波動,為保證業務穩定性,一般需要在資源上預留出較大的剩余空間以應對,帶來服務器算力資源的浪費。圖 4 不同類型業務的業務量潮汐波動屬性示意圖 面向算力應用環節的 計算綠色化白皮書 15 互聯網業務經營活動互聯網業務經營活動中中存在臨時性高峰期。存在臨時性高峰期。由于業務需要,互聯網業務經營需支持臨時性高并發運營活動,例如電商業務的大促活動等,帶來短期內服務流量的聚集,在某一時刻或者時間段部分業務服務具有臨時的服務峰值。業務服務峰值具有流量大、持續時間短等特點,對臨時性資源消耗較大,目前一般通過增加服務容量云資源購買、降級或限流部分服
45、務質量等方式以支持整體業務服務的可用性和性能穩定性等?;ヂ摼W業務多樣,包含多種工作負載類型,存在異構算力需求降低硬件資源復用程度的情況?;ヂ摼W業務多樣,包含多種工作負載類型,存在異構算力需求降低硬件資源復用程度的情況?;ヂ摼W已深入到多種業務場景,并在不斷朝向智能化升級,由此也帶來了多樣性的工作負載類型。不同工作負載類型具有各自屬性特征,例如,在線業務工作負載具有高敏感和低時延的屬性要求,離線計算(如 AI 模型訓練、數據挖掘等)對時延和敏感性要求低,但對計算能力和存儲空間要求較高等。由此,不同工作負載類型對硬件算力需求不一,如在線業務 CPU 利用率不高、離線計算 CPU利用率高、智能計算業務
46、對于 CPU 要求不高但對于 GPU 要求高等,給異構硬件算力資源的采購、調配和復用等帶來一定挑戰。2.2.互聯網互聯網架構特征:架構特征:分布式、虛擬化等設計分布式、虛擬化等設計帶來資源浪費帶來資源浪費 互聯網企業常見的分布式架構帶來資源互聯網企業常見的分布式架構帶來資源冗余浪費冗余浪費問題。問題。隨著業務的快速發展,軟件技術和架構也在日新月異,軟件從集中式單體架構演進到分布式架構,分布式架構解決了單體集中式服務耦合度高、容錯率低、并發性差等問題的同時,也帶來了系統調用復雜、網絡開銷高、服務器資源冗余浪費等問題。分層分層抽象后的抽象后的計算架構會降低計算架構會降低總體計總體計算效率。算效率。
47、隨著云原生技術的發展,為提升架構清晰度、擴展性和接口標準化,互聯網平臺的架構設計一般會進行分層抽象,由此在基礎服務層承載了大量的分布式協調、服務監控、服務管理、虛擬化運行態支撐等基本能力,這些系統服務能力本身也會帶來較高的算力消耗,并降低整體在面向業務服務邏輯處理的有效算力占比,如圖 5 所示。面向算力應用環節的 計算綠色化白皮書 16 圖 5 計算架構示意圖 出于安全合規等需求在出于安全合規等需求在部分業務部分業務中中需需采用采用資源獨占設計資源獨占設計,也會帶來資源浪費問題。也會帶來資源浪費問題。在一些情況下,或出于符合監管合規要求、或是為確保核心業務系統的高可用等原因,在部分工作負載或業
48、務服務中,采用了服務器算力資源獨占的設計方式,與其他工作負載或業務進行隔離從而增加穩定性和安全性。但相應地,這種設計方案也會喪失被獨占資源調配的靈活性,資源無法共享帶來硬件資源浪費。3 3互聯網系統互聯網系統實現實現:軟硬件結合上仍有較大優化空間軟硬件結合上仍有較大優化空間 融合異構硬件算力融合異構硬件算力、充分發揮軟硬件結合潛力,、充分發揮軟硬件結合潛力,對對互聯網系統架構的設計和實現有一定門檻互聯網系統架構的設計和實現有一定門檻要求。要求。軟硬件的結合程度未能充分發揮硬件的性能潛力,如很多企業還沒能根據服務框架、計算框架、存儲引擎的屬性進行硬件性能動態調節優化(如動態調節硬件電壓頻率等)來
49、發揮其潛力。此外,融合異構硬件算力需要面對不同的系統架構、指令集和編程模型,并要實現性能的多樣性合一,使其同時滿足在線、人工智能訓練、推理、圖像視頻處理等各種不同業務需求,也具有較高的技術門檻。平臺架構和算法設計的智能化程度平臺架構和算法設計的智能化程度還有待進一步還有待進一步提高。提高。對于一些領先企業來說,目前已經開始在算力資源調度中,運用 AI 和大數據能力進行歷史數據、趨勢和歸因分析,通過建立場景模型來預測未來業務流量對資源的需求、并驅動調度智能化來進一步提升算力利用效率。但這種智能化的平臺架構和算法設計目前還沒有得到普及,有待進一步從應用廣度和深度上不斷深化。(三)算力應用環節計算綠
50、色化的關鍵技術要素 算力應用環節計算綠色化的關鍵技術要素如圖 6 所示,主要包括建立連續觀測機制、支持多供應鏈、全面云原生化、無服務器化和實施平臺工程等。從技術實現角度看,可參考的技術框架如圖 7所示。面向算力應用環節的 計算綠色化白皮書 17 圖 6 計算綠色化關鍵技術要素概覽 圖 7 計算綠色化技術實現參考框架 面向算力應用環節的 計算綠色化白皮書 18 1.1.建立連續觀測機制建立連續觀測機制 該技術要素主要是為了支撐綠色監測評估能力的實現。該技術要素主要是為了支撐綠色監測評估能力的實現。綠色計算要求企業在數據中心層面,一方面對于數據中心的碳效進行持續的監測和評估,另一方面對數據中心的工
51、作負載做持續的算力消耗優化,降低工作負載的處理成本,而這正是連續觀測機制所解決的問題。面向數據中心層面,企業需要將相關監測指標與碳排放相關聯,以此度量業務運行時硬件層面的碳強度。目前,隨著業務發展中的低能耗要求提升,常見的監測指標從 CPU 利用率、存儲利用率、網絡利用率等延伸至面向業務的綜合算力效用指標。企業一般依據業界標準統計數據中心碳強度,或通過算力供應商的碳強度查詢 API 接口獲取。面向數據中心工作負載層面,企業同時關注面向業務的算力利用效率優化與其所對應的能耗觀測。一般而言,在完成同一件事情的情況下,工作負載所消耗的資源越小,其計算綠色化的水平就越高。從持續改進優化的需求來看,需要
52、通過監測工具實時地、清晰地針對各種類型的工作負載構建出資源消耗的觀測能力和合理性評估能力,常見技術路徑包括性能持續分析(Continuous Profiling)等。具體而言,企業可通過建設持續性能分析(Continuous Profiling)技術,實現實時地、低開銷、可持續地觀測和分析工作負載的資源消耗,識別性能瓶頸,優化系統的性能表現,提升工作負載的處理速度和降低處理成本。相比可觀測領域 Metrics/Logging/Tracing 等基于事件日志和指標采集進行觀測的方式,Continuous Profiling 可以深入到系統內部,對應用程序、服務內部的行為以及執行過程進行剖析,獲取
53、更底層、更細微的觀測數據,提供快速定位資源瓶頸以及根因分析能力。一方面,Continuous Profiling 比 Metrics/Logging/Tracing 具備更加白盒化的能力,如線程、代碼、函數級別的消耗分析;另一方面,Continuous Profiling 的消耗遠低于傳統的 Profiling 或者Debugging 技術,且功能更為豐富。此外,在互聯網業務使用最廣泛的 Java 場景實踐中,在基于業界常用 Java 性能分析工具(如JFR+Async-profiler 方案)基礎上,企業還可使用 JVMTI(Java 虛擬機工具接口)、Linux kernel x86 in
54、struction decoder(x86 指令譯碼器)、Linux GOT(全局偏移表)等一系列動態追蹤技術機制,結合中間件、內核、微架構實現更全面、更精準且額外消耗更低的性能分析方案,持續幫助核心業務降低頭部應用的資源消耗,并致力于服務的耗時優化、日常的故障排除(Trouble shooting)。2 2.支持多供應鏈支持多供應鏈 該技術要素主要是為了支撐低碳該技術要素主要是為了支撐低碳算力選擇算力選擇能力的實現。能力的實現。多供應鏈概念的提出是為了企業能夠通過多供應鏈來屏蔽不同廠商的技術細節,從而具備更靈活的技術選擇能力和更強的供應鏈韌性。發展至今,多供應鏈的內涵已經進一步延伸到“對算力
55、供應商碳強度的靈活選擇能力”。具體而言,不同算力供應商的算力碳強度存在較大差異性,差異性來自于多種因素,比如所使用的上游可再生綠面向算力應用環節的 計算綠色化白皮書 19 色能源占比、算力產生過程中所使用的不同硬件基礎功耗水平及硬件利用率上升帶來的功耗增長速率等。當前,部分算力供應商也在把低算力碳強度作為其產品服務的差異化競爭點之一,例如 Google Cloud 就對其云客戶開放了碳強度的查詢 API 接口10,可以讓客戶對使用其云服務的碳排放情況進行監控和核算。對于算力使用方而言,在服務器等硬件設備采購以及云廠商選擇時考慮算力碳強度等指標,已成為企業實現綠色計算的重要手段之一。面對不同算力
56、碳強度的數據中心和云廠商,企業可以通過算力歸一、多云技術等,實現統一和集約化的管理,對更低碳強度的數據中心或云廠商具備算力遷移的能力,從而降低企業自身的碳排放總量。數據中心遷移:數據中心遷移:對于企業而言,需要綜合評估算力供應商的算力服務能力與算力碳強度指標,具備平滑遷移能力,實現在不同碳強度算力供應商之間的靈活選擇和平穩過渡。數據中心遷移需涵蓋算力基礎設施之上的系統、數據與業務的遷移,在遷移時需根據原有及目標算力基礎設施的具體情況來評估相應的技術路徑,并使用數據同步工具、云遷移工具等進行配套實施。在此過程,數據安全、備份和容災機制、業務連續性等都是需要著重考慮的因素。算力歸一:算力歸一:對于
57、直接采購算力硬件自建數據中心的企業來說,不同算力硬件存在異構、異芯的差異,以及對應的算力碳強度不同。對于數據中心而言,為支持更靈活的低碳算力選擇和遷移能力,需要屏蔽底層算力差異,實現更統一化和集約化的管理,即通過算力歸一的方式,統一管理來自多方供應鏈的算力資源,實現應用與芯片架構的徹底解耦,推動業務應用層面的無感知使用和低成本切換。具體而言,以 CPU 的算力歸一為例,隨著企業服務器規模的持續擴大,以及 CPU 硬件架構的持續迭代,服務器可能會涵蓋多種品牌和類型的 CPU 硬件,包括 Intel、AMD、ARM 等,不同 CPU 廠家/品牌的各種 CPU 型號在性能上存在明顯差異,且不同代的
58、CPU 之間存在較大的算力差異。如不進行歸一化處理,較早代的 CPU 提供的算力明顯低于較新代的 CPU,對運行在較早代 CPU 上的業務會帶來較大影響。通過把不同硬件架構的 CPU 算力歸一化,對上可屏蔽不同 CPU 的架構差異,體現出統一的計算能力。此外,算力歸一化后,運行在不同的 CPU 上的業務會被分配不同的 CPU 核數,比如原來性能較好的 CPU 會被分配更少的核數就可以滿足業務性能需求,而性能較差的 CPU 則會被分配更多的 CPU 核數來滿足業務性能需求,如圖 8 所示,這種方式可讓業務性能得到統一,運行在不同CPU 上的業務性能都保持一致,充分使用每款 CPU 的資源,有效提
59、升混合集群資源的效率。10 https:/ Google 云碳足跡查詢接口服務 面向算力應用環節的 計算綠色化白皮書 20 圖 8 不同硬件芯片的算力歸一化 3 3.全面云原生化(全面云原生化(CloudCloud-NativeNative)該技術要素主要是為了支撐全局資源調度優化、低碳該技術要素主要是為了支撐全局資源調度優化、低碳算力選擇算力選擇/遷移等能力的實現。遷移等能力的實現。云原生的本質是實現業務與資源的匹配、靈活調度并按需分配計算、存儲、網絡等基礎設施資源。全面云原生化可充分利用云的彈性避免非峰值時期的硬件資源效率過低,從而帶動技術架構、應用效能等方面的綠色低碳。一方面,通過配置和
60、調度對象的標準化來提升資源調度層面的普適性,并在此基礎上通過全局的資源配置和調度以更高效地提升數據中心整體的資源利用率和計算綠色化水平;另一方面,可利用云的彈性提升在不同時間段和工作負載下的硬件資源效率。在云原生計算基金會(CNCF)的定義中,云原生主要包含了如下關鍵技術:容器化、服務網格(Service Mesh)、容器編排(Kubernetes)等,能夠從資源和流量調度的角度,助力數據中心實現全局資源的合理配置。容器化:容器化:當需要在整個數據中心的維度,通過全局的資源配置和調度來提升整個數據中心的資源利用率時,被配置和調度的對象的標準化就顯得特別重要。容器是一種輕量化的計算單位,它以抽象
61、和標準化的形式賦予應用獨立運行的能力,并具備在不同計算環境當中可移植、可拓展的能力。未來,云原生技術將逐漸向數據中心下沉,通過全面擁抱容器化,把數據中心的調度對象標準化為統一單位,實現全局資源配置和調度,從而可提升整個數據中心的資源利用效率,實現綠色減碳。服務網絡:服務網絡:當涉及到調度的時候,除了資源的調度還要配合流量相關的調度。服務網格作為微服務時代的 TCP/IP 協議,能夠面向云原生應用實現服務間可靠的通信請求傳遞,并做到應用程序的無感知與治理能力獨立。相較于 SOA、微服務等架構,服務網格不僅強調業務邏輯的解耦和復用,更強調基礎設施的解耦與復用,實現服務間通信通過網格進行代理。一方面
62、使得業務開發與基礎技術開發分離,提高研發效能;另一方面當涉及到調度時,能夠通過 Sidecar 實現對于應用的透明代理,無縫的應用流量調度,快速的微服務彈性管理,從而提升資源管理能力和利用效率,助力計算的高效。面向算力應用環節的 計算綠色化白皮書 21 容器編排容器編排:Kubernetes 作為容器集群調度管理引擎的事實標準,未來也將從應用的托管擴展為算力基礎設施的托管。它提供了基礎的容器調度能力和自動彈性伸縮的能力,并提供了足夠的開放性,支持算力使用方根據自身業務特點進行定制化的開發,能夠進一步提升數據中心的資源利用效率。隨著可持續軟件等概念的發展,Kubernetes 的構建方式也會更關
63、注低碳意識和系統技術間的平衡,在調度時納入對于碳強度指標的關注,從而實現資源分配時高效與低碳的兼具性。具體而言,企業可以基于開源的 Kubernetes 打造容器調度平臺,通過統一容器應用接口、彈性調度架構等技術為業務應用提供智能彈性容量、分時智能調度以及在離線混合部署等云原生容器編排能力,幫助企業上層各類業務實現資源統一管理、應用容量高可用保障、異構硬件無感知屏蔽、基礎資源最大化分時復用等效果。在資源管理上,在資源管理上,可以基于 Kubernetes 定義一套統一的容器應用接口 API,上層業務通過標準化的容器 API 對集群資源進行管理和使用,簡化大規模集群資源管理的復雜度,精細化異構算
64、力資源管理,實現算力資源按需分配和高效利用。在應用容量保障上,在應用容量保障上,結合人工智能和大數據資源畫像能力,可以對上層業務應用未來 24 小時資源的使用需求進行預測,再通過水平彈性伸縮技術(Horizontal Pod Autoscaling,簡稱 HPA)和垂直彈性伸縮技術(Vertical Pod Autoscaling,簡稱 VPA)來實時調整應用的數量和規格,做到每個業務應用容量的秒級高可用保障,實現業務穩定性為前提的綠色化。在基礎資源調度上,在基礎資源調度上,可結合服務網格(Service Mesh)帶來的流量快速調度技術,通過分時智能調度技術把同一份資源以小時為粒度切割成可供
65、調度的 24 份資源,再將不同時序特征的在線應用編排在同一份資源上,做到一份資源多次分時復用,最大化利用資源。此外,在節點部署上還可運用在離線混合部署在離線混合部署技術,將在線應用和離線任務編排部署在一個節點,通過安全容器隔離、資源共享、資源搶占等技術保障在線應用運行時不受離線任務干擾,利用離線任務充分使用在線應用空閑資源提升機器資源利用率。4 4.轉向轉向無無服務器化(服務器化(ServerlessServerless)該技術要素主要是為了支撐全局資源調度優化、工作負載優化等能力的實現。該技術要素主要是為了支撐全局資源調度優化、工作負載優化等能力的實現。Serverless 是云原生技術發展
66、的高級階段,讓開發者可以更聚焦在業務邏輯,而減少對基礎架構的關注如服務器的配置、擴展和運維等。Serverless 主要是指應用軟件與服務器的物理限制解耦,利用包括資源池化、存算分離等技術,避免硬件資源例如內存大小、存儲帶寬等成為應用軟件的瓶頸。在算力資源調度過程中,調度算法的能力和被調度對象的大小、伸縮能力都會影響調度的效果。一般而言,被調度的工作負載所需的資源規格越小、啟動速度越快、伸縮能力越強,就越容易被調度。結合Serverless的理念以及企業內部應用發布模式的現狀,可以把在線應用分為三種發布模式:面向算力應用環節的 計算綠色化白皮書 22 應用級發布模式應用級發布模式、模塊級發布模
67、式模塊級發布模式、函數級發布模式函數級發布模式,并同時推進三種發布模式的 Serverless 化演進。具體而言:針對應用級發布模式的 Serverless 化,企業可以在基礎設施平臺實現三個能力:流量驅動實例流量驅動實例分組能力分組能力,規范應用的流量入口,在不修改代碼的情況下,平臺提供按流量入口啟動、按需加載功能的能力,不同的流量入口可以調度到不同的實例分組內;自動化運維的能力自動化運維的能力,平臺提供了配置代碼化和運維自動化能力,應用可以托管整個部署過程以及部署后的引流、應急、成本等決策項,常見的有應用發布、擴縮容、編排、彈性伸縮、限流、故障自愈等,應用可以按需接入托管;資源調資源調度托
68、管能力度托管能力,平臺提供軟硬件資源的申請、分配、使用、調度等決策項,應用無需關心實際的資源使用。針對模塊級發布模式模塊級發布模式 ServerlessServerless 化,化,企業可以將一個完整應用拆成基座應用和不同應用模塊。通過這種靈活的結構,上層應用模塊可以直接安裝/發布到基座應用上,獲得非??焖俚膯铀俣纫约?Serverless 的研發體驗,可降低業務使用上的消耗。更進一步,對于一些新的業務和場景,企業可以實現函數級發布模式函數級發布模式 ServerlessServerless 化,化,把部署運維粒度從微服務級別降低到函數級別,以此來實現極簡研發、快速部署、免運維,從而進一步提
69、升研發和運維效率,也進一步提升部署的密度,提升 CPU 利用率。此外,除了在線業務的 Serverless,企業也可推進存儲系統的 Serverless 化工作,以存儲計算分離為基本,對存儲層在 Kubernetes 上構建適合存儲的 Stateful 的 Workload 的能力,使得存儲層可以做到一定程度的彈性伸縮,對計算層,相對無狀態,采用快速的彈性伸縮的手段,在一定程度上可實現存儲系統的 Serverless 化。5 5.實施實施平臺工平臺工程程 該技術要素主要是為了支撐該技術要素主要是為了支撐低碳算力選擇、全局資源調度優化、低碳算力選擇、全局資源調度優化、工作負載優化等能力的實現。工
70、作負載優化等能力的實現。平臺工程(Platform Engineering)主要指應用與系統軟件協同設計、透明研發、部署解耦,系統軟件以模塊化、平臺化方式交付,從而提升產研效率,加快業務迭代速度。平臺工程是一門設計和構建工具鏈與工作流的學科,可以為云原生時代的軟件工程組織提供自助服務能力。對于企業而言,往往會面臨這樣的問題:各類業務應用的運維配置是散落分布在各個系統里面,一個完整的業務在數據中心部署時,往往需要對各個散落的系統配置進行處理和同步,這里面的系統之間的協調工作往往非常復雜。十多年前,DevOps 理念被提出,其能夠以可持續的方式交付價值,協助產研團隊從效率和質量兩方面進行提升。從基
71、于內核的虛擬機(Kernel-based Virtual Machine,簡稱 KVM)到容器再到云原生時代,大量企業投入 DevOps 運動以期望解決內部規?;\維效率和平臺建設效率的困境。但是在企業內規?;?DevOps 卻難以推行,特別是在企業內自持基礎設施、同時采用云上技術平臺的公司阻力最大。原因多種多樣,如研發團隊和運維團隊存在部面向算力應用環節的 計算綠色化白皮書 23 門墻、各自為政、領導者缺少洞察等原因,都可導致 DevOps 實施有巨大阻力。平臺工程作為 DevOps 理念的演進,本質目標是讓開發人員自助服務從而達到降本增效的目的。在云原生理念和技術廣泛應用的今天,面向大量高
72、度開放、可配置的平臺技術,帶來了成百上千的應用配置,對 PaaS 領域的業務復雜性、高穩定性和統一治理提出更高的要求。平臺工程的目的正是為了讓應用研發者盡可能簡單、無痛地參與到這種規?;?DevOps 工作中。平臺工程一般可對應到能涵蓋應用程序整個生命周期的內部開發平臺產品(Internal Developer Platform,簡稱 IDP)。以平臺工程的產業實踐為例,企業可通過強化客戶端的工作方式,將圍繞應用運維生命周期的模型、編排、約束和策略穩定、可擴展性,通過專用語言 KCL(一種聲明式的云原生配置策略語言)編寫維護在共享代碼倉庫中。共享代碼庫作為內部工程平臺向研發者開放的編程界面和
73、工作空間,可以幫助應用研發者以統一的編程界面編寫圍繞應用運維生命周期的配置和策略,并編排和使用存量和新增的平臺基礎設施,按需創建管理云原生環境以及基于 RBAC(Role Based Access Control,即基于角色的訪問控制)的權限,并通過 GitOps 方式(一種持續交付方式)管理交付過程。同時,通過 monorepo 的代碼管理方式提供分治的、可組合的工程結構設計、代碼組織、建模方式、工作流程定義和配置(Provision)技術選擇支持,并以一致的研發模式和工作流承載可擴展的業務需求。在上述的計算綠色化關鍵技術要素基礎上,企業還可結合自身業務情況和技術發展方向,著重對主要工作負載
74、進行優化,從而進一步提升計算綠色化的整體效能。此處主要對行業中較為常見的智能計算智能計算、在線業務在線業務等工作負載優化方法進行介紹。智能計算工作負載優化方面智能計算工作負載優化方面,該類型工作負載主要是指需要進行大量計算、分析和處理的人工智能應用程序或服務,一般需要使用大量的數據和復雜的算法來進行機器學習、深度學習、自然語言處理等任務。隨著 ChatGPT 引發的 AI 大模型技術爆發式發展和應用,AI 相關能耗和碳排放問題也愈加突出。該方向上行業中已有科技企業探索了綠色 AI 體系,主要包含算法提效和工程提效兩個方面。算法提效算法提效上,通過在算法生命周期各階段(數據-訓練-實驗-推理)的
75、優化措施來提升整體算力效能(單位算力所帶來的業務價值提升),開發了 PV 間(即 Persistent Volume,持久卷)以及場景間的智能算力分配的能力,使得算力能夠往更加有業務價值的地方傾斜。在對算法綠色衡量方面,嘗試定義了一個PFEC PFEC 指標指標,即 PFEC=效果(Performance)+算力(FLOPs)+能耗(Energy)+CO2排放量(CO2 Emission),如圖 9 所示,通過自動化的數據采集能力,評估算法在單位能耗下的效果。在工程提效工程提效上,覆蓋了從初始化到運行時的任務全生命周期覆蓋,包括從初始化的參數配置到運行時的并發和資源多目標動態算力優化、從單任務
76、算力優化到多任務聯合的調度優化、混合部署 GPU 中長生命和短生命周期計算任務的動態分時調度等,以實現全局和全天的算力優化。面向算力應用環節的 計算綠色化白皮書 24 圖 9 算法綠色度衡量指標示意圖 在線工作負載優化方面,在線工作負載優化方面,該類型工作負載主要是指需要進行實時通信和處理的應用程序和服務,如支付、移動應用程序、在線游戲等。在線工作負載有非常高的穩定性和連續性要求,且因內部流量和外部用戶行為存在經常性突變,導致業務流量來源和模型復雜,一般來說需要通過預留資源來應對,存在較大的算力浪費。企業可通過 AI 彈性容量、分時調度技術實現在線工作負載的優化。AI彈性容量主要是指通過積累生
77、產環境的業務流量歷史數據,基于 AI 算法刻畫出在線業務的流量畫像和應用畫像,并對接下來的在線業務資源需求進行預測,結合自動資源擴縮容(AutoScaler)方案執行相應的資源水平彈性伸縮或垂直彈性伸縮的變更。同時,面對在線應用在同一天內有不同流量峰值的特點,可采用云原生分時調度技術,基于 Service Mesh 的精細化流量調撥、ElasticHeap JVM、容量平臺資源彈性伸縮和 Sigma 調度器等技術,可以靈活控制節點上資源的使用,在不同的時間段把資源分配給需要的應用(激活態應用),限制不在流量峰值的應用資源使用(?;顟B應用),從而達到將一份資源在不同的時間段提供給多個應用共享的目
78、的,可以極大提高資源效率。面向算力應用環節的 計算綠色化白皮書 25 (四)綠色計算行業實踐案例 實現計算綠色化需要以四大能力為核心方向,持續構建綠色計算關鍵要素體系,并不斷優化更新。伴隨越來越多的企業關注可持續發展,并陸續發布自己的“碳中和”路線圖,國內外科技企業均在通過多種方式探索企業的綠色低碳實現路徑,其中的重要措施之一就是應用綠色計算技術來提升算力在應用環節的效用。國外企業以 Google 為例,其“碳中和”目標是到 2030 年實現在所有業務和價值鏈中的凈零排放11。為了實現這一目標,Google 采取了多種措施來降低其算力生產和算力應用環節中的碳排放,包括:盡量采購和使用可再生能源
79、,并應用于數據中心中產生更為清潔的算力12;建立綠色監測評估體系,通過碳強度感知(Carbon Awareness)能力持續監測服務器所使用算力的碳強度,并結合數據分析和 AI 技術實現工作負載層面的低碳算力選擇13;通過虛擬化、云原生等技術實現資源的全局調度優化,并支持不同工作負載(如搜索、支付、視頻等)的混合部署,提升服務器的算力利用效率14等。國內企業以螞蟻集團為例,為了實現 2030 年達成凈零排放的公司 ESG 目標,螞蟻從 2019 年開始探索綠色計算技術,具體包括:通過綠色觀測和優化體系持續探測工作負載的資源消耗并進行資源優化;通過池化等技術手段把異構服務器算力歸一,以標準化的方
80、式提供統一算力服務,隔離異構算力的復雜性;通過彈性算力統一調度、性能優化等,提升系統性能,并通過容器化減少設備依賴,虛擬化平臺將上層的應用軟件和下方的物理設備隔離開,上層應用無需關心物理設備的具體細節,只需要對標準化環境部署應用;通過實踐平臺工程和配置代碼化高效快速的進行資源彈性伸縮,提高運維效率和業務峰值活動支撐能力;通過 Serverless 化,讓工作負載本身更加容易被彈性伸縮和被調度;結合螞蟻自身業務需求,著重對存儲工作負載、AI 智能計算工作負載以及在線工作負載進行了優化等。11 https:/sustainability.google/operating-sustainably/n
81、et-zero-carbon/12 Google 2023 年環境可持續報告,https:/ 13 https:/blog.google/inside-google/infrastructure/data-centers-work-harder-sun-shines-wind-blows/14 How are Google data centers powered sustainably?,https:/ 面向算力應用環節的 計算綠色化白皮書 26 第五章 應用環節計算綠色化產業實踐路徑 面向應用環節的計算綠色化是未來綠色算力發展的重要組成部分和發展趨勢,需要包括政府機構、行業聯盟、產業智庫、
82、技術廠商、應用企業等生態各方共同協作,才能有效推動該領域的技術創新和產業落地,加快該環節的提效節能、綠色減碳發展步伐。(一)行業視角的產業實踐路徑 產業政策方面,可結合我國“雙碳”和算力新基建戰略,在算力產業發展政策中增加對于應用產業政策方面,可結合我國“雙碳”和算力新基建戰略,在算力產業發展政策中增加對于應用環節計算綠色化的政策引導。環節計算綠色化的政策引導。近幾年,為進一步促進新型基礎設施高質量發展,深化大數據協同創新,工信部、發改委分別印發新型數據中心發展三年行動計劃(2021-2023 年)、全國一體化大數據中心協同創新體系算力樞紐實施方案等多個產業政策文件,關注重點是數據中心的綠色可
83、持續發展、以及優化算力資源需求結構并構建一體化算力服務體系等,尚沒有對應用環節的算力利用效率較低問題產生足夠重視。建議應站在端到端的全鏈條綠色算力視角,在后續算力產業發展政策中提出對于應用環節的計算綠色化的相關產業推進政策或工作要求,進一步完善我國綠色計算產業的相關政策,使其更為全面、體系更為完整,從而帶動實現更大程度的總體節能減排效果,支撐我國“雙碳”戰略發展落地。行業落地方面,宜總結行業應用試點案例,形成可借行業落地方面,宜總結行業應用試點案例,形成可借鑒和規?;瘧玫膮⒖贾改?。鑒和規?;瘧玫膮⒖贾改?。如前所述,總體來看當前行業整體的服務器算力利用效率仍處于較低水位。對于下游算力應用企業
84、,在逐漸具備了綠色意識之后,對于如何采用有效的措施來實現計算綠色化仍缺乏可供借鑒的參考案例。因此,現階段打造或者遴選行業應用試點案例,形成可借鑒和規?;瘧玫膮⒖贾改?,對于推進綠色計算技術的應用和落地具備較大標桿性意義??紤]到不同應用場景對于綠色計算的需求有所不同,建設應用試點案例時還需結合行業和實際應用場景,例如可先從互聯網、金融等當前數字化程度或者基礎設施云化程度較高的行業切入。此外,統籌規劃綠色計算全產業鏈條和區域分布,在一些綠色計算產業基礎較好的地區,可考慮納入到先導產業范疇并加以引導,出臺地方綠色計算產業政策,重點彌補短板和卡脖子環節,做到技術鏈、產業鏈、創新鏈自主可控等。實施效果衡
85、量方面,需進一步研究實施效果衡量方面,需進一步研究能能有效衡量算力效用有效衡量算力效用水平水平的計算綠色化評價指標,并構建的計算綠色化評價指標,并構建和落地和落地相應評估評測體系。相應評估評測體系。19 世紀的物理學家開爾文曾說過“如果不能測量,就難以改進”。當前,行業中比較關注數據中心的綠色度指標,并且已經制定了一系列比較成熟的評價指標及相應的評估體系,如電能利用效率 PUE、水資源利用效率 WUE、碳利用效率 CUE 等,并在推動數據中心綠色化過程中發揮了巨大作用。同樣,面向應用環節的計算綠色化,也需要制定出相應的評價指標和評估體系,才能有效幫助算力應用企業一方面更好評估自身當前算力效用水
86、平,另一方面也可以更好的評估出在該領域的投入產出效果。在這個環節,當前已有一些嘗試,包括 ISO/IEC 23544:2021 面向算力應用環節的 計算綠色化白皮書 27 制定的 Application Platform Energy Effectiveness(APEE)指標15、開放數據中心委員會在數據中心算力碳效白皮書16中定義的算力碳效指標,以及國家人工智能總體組在計算中心有效算力評測體系白皮書17中提出的有效算力指標及評測體系等。不過總體來看,由于算力應用的行業和場景需求多樣性,目前仍需要產業各方共同協作在已有工作基礎上進一步深化,并推動構建出可落地的評測數據集以及評測方法等。生態合
87、作方面,應推動產學研用聯合,支持發揮綠色技術創新團體組織作用,通過標準開源等生態合作方面,應推動產學研用聯合,支持發揮綠色技術創新團體組織作用,通過標準開源等方式推動產業創新協同。方式推動產業創新協同。一是鼓勵構建垂直領域的“綠色技術創新聯盟”或“綠色技術創新中心”等團體組織,通過發揮垂直領域的綠色技術創新團體的組織作用,促進產學研用等生態各方在關鍵技術上的協同創新,可以更好地加快綠色技術創新進程,實現技術創新的快速擴散和應用;二是基于綠色技術創新團體組織,支持產業鏈上下游共同制定關鍵技術標準和產業落地最佳實踐,研制綠色技術評價指標和評測體系,降低技術落地成本和使用門檻;三是鼓勵開源創新,并可
88、從開源領軍人才引入、開源平臺搭建、開源人才教育等方面提供支持,以開源開放為抓手,推動綠色計算產業的規?;l展和技術創新,充分發揮開源在云原生領域中的類似創新推動作用。(二)企業視角的產業實踐路徑 正如成功的數字化轉型離不開業務和科技的深度結合,綠色計算的實踐同樣需要企業自上而下的參與,明確組織層面的愿景和目標,并根據自身算力需求和基礎設施所處階段,制定與企業自身情況相符的能力建設路徑,并配套相應的資源以保障項目落地。如圖 10 所示,在企業內部推動綠色計算,可以依次從頂層設計、核心能力構建、實施保障等維度開展。15 ISO/IEC 23544:2021 Information Technolo
89、gy Data centres Application Platform Energy Effectiveness(APEE),https:/www.iso.org/standard/76000.html 16 開放數據中心委員會發布數據中心算力碳效白皮書,https:/ 17 計算中心有效算力評測體系白皮書,https:/ 面向算力應用環節的 計算綠色化白皮書 28 圖 10 企業綠色計算建設路徑圖 1 1.規劃規劃企業的綠色計算頂層設計企業的綠色計算頂層設計 對于企業而言,實現端到端的綠色計算,不僅是響應國家“雙碳”政策,履行企業 ESG 目標所需進行的實踐,更是在業務量劇增情況下,謀求高
90、效、降本、可持續的科技發展路徑的重要探索。在規劃企業的綠色計算愿景目標時,核心應關注:量體裁衣量體裁衣。綠色計算作為企業科技可持續化的重要組成部分,不應孤立存在,需在公司業務與ESG 目標框架下,基于企業實際情況制定出可感知、可衡量的指標體系,發揮出鏈接業務和環境的雙重價值。一號位工程一號位工程。企業推進綠色可持續發展,需要自上而下的戰略拆解與機制保障,并能提供充分預算、組織、人才、流程保障等,應是一號位(CEO、CSO、CTO、CFO 協同)工程,并由此配置跨部門的虛擬組織體系和流程保障機制,以在執行層面貫徹落地。企業在面向算力應用環節的計算綠色化建設過程中,根據內部對于計算綠色化的認知程度
91、、執行程度和發展程度,大致可以分為表 3 所示的四個階段。在實踐過程中,企業需明確自身所處階段,并結合企業綠色化目標,不斷動態調整路徑和行動,持續向更高階發展階段演進。面向算力應用環節的 計算綠色化白皮書 29 表 3 企業開展綠色計算建設的發展階段 所處階段 核心特征 可采取的關鍵行動 階段 1:樹立計算綠色化心智 該階段的企業通常已具備 ESG 目標,基于企業經營訴求明確降本增效的主要投入方向,并開始關注算力應用環節的提效節能,且初步設定有計算綠色化目標,能圍繞綠色供應鏈等環節初步進行簡單易行的優化。但由于尚未形成體系化的綠色計算指標體系,該階段的優化具有散點化、簡單化、難以全局感知與度量
92、等特征。確立綠色計算作為企業長期發展愿景之一,并拆解成量化目標;感知算力供應商的算力碳強度,并設計和落地供應鏈采購綠色度標準。階段 2:建立綠色度體系 該階段的企業針對應用環節的計算綠色化建立了完整的規范體系、指標度量和觀測機制,并以此為牽引,開始針對全局和工作負載的算力進行監測和評估,能夠根據業務需求匹配所需算力,及時發現并通過試點形式優化過高能耗的算力服務。引入外部評估體系或通過內部自建,開始設計全面、清晰可衡量的綠色度指標體系;通過工具形式,對于軟硬件層面的計算綠色化進行感知和度量;根據計算觀測結果,進行試點性的算力服務調優。階段 3:投入綠色計算技術 該階段的企業在計算綠色化可感知、可
93、度量的基礎上,通過自研/外部引入等形式,進一步投入綠色計算技術核心能力建設,并不斷推動原有技術體系向綠色提效的方向迭代,以實現企業全局層面更高效的綠色計算實踐和降本增效優化。推動基礎設施升級,以實現更精細顆粒度的全局資源管控和優化能力;推動原有的數據庫、大數據平臺、中間件等朝綠色節能的方向升級;升級運維、研發理念和體系,實現無人化、自動化、數字化。階段 4:引導綠色產業發展 該階段的企業聯合供應鏈上下游合作伙伴、行業內相關方,聚焦產業生態,將自身的綠色計算實踐和工具向外輸出,以推動綠色計算在行業內的規?;瘧?,共建端到端的綠色計算生態格局。推動行業制定面向算力效用的計算綠色化標準體系;通過開源
94、/商業化等形式,對外開放綠色計算核心技術能力;搭建行業交流平臺,為企業間交流和分享實踐與應用提供橋梁;推動行業綠色計算相關人才體系的建設與人才培養。面向算力應用環節的 計算綠色化白皮書 30 2 2.打造企業的打造企業的綠色化核心能力綠色化核心能力 企業的綠色化核心能力由“企業的綠色化核心能力由“1 1 個評估體系個評估體系+4+4 個關鍵能力個關鍵能力”組成組成?!? 個評估體系”指的是建立體系化的綠色度評估指標,用于評價和指導企業綠色計算整體工作;“4 個關鍵能力”指的是從企業在供應鏈選擇、算力平臺服務提供、算力工作負載優化以及算力資源利用監測等維度建立綠色化能力。(1 1)綠色度評估體系
95、)綠色度評估體系 對于企業而言,根據計算綠色化的整體目標,需要進行配套落地指標體系的拆解,并以綠色度指標為核心,進行可溯源、可持續化的長期運營,關鍵任務和行動如表 4 所示。表 4 企業建立綠色計算長期運營的關鍵任務和行動 關鍵任務 關鍵行動 任務 1:建立指標體系和配套機制 基于企業 ESG 和業務降本增效兩方面目標,拆解具體指標體系到清晰可量化的顆粒度;設置配套計算綠色化的治理策略,包括具體實施項;根據協同部門和成員,確定治理虛擬項目組,并形成可常態化的評估和運行機制。任務 2:定期追蹤指標,了解進展和識別問題 建立基于指標的定期追蹤和溯源機制,并通過橫向對比等方式,了解進展并溯源發現推進
96、過程中存在的問題,采取針對性的優化措施。任務 3:根據常見問題,梳理并確定標準 在階段性運營后,應進行總結并沉淀出企業內部計算綠色化的建設標準與規范,包括但不限于:根據業務運行與問題情況,調整指標具體項和目標,并確定重點治理項和投入資源;在解決路徑上,把面向關鍵業務時如何規避問題、解決問題的最優實踐沉淀為標準規范。任務 4:根據標準,投入新一輪實施落地 在流程機制上,基于標準規范,按優先級進行資源再分配和再投入;在新一輪實施周期內觀察綠色度指標進展,持續改進優化。面向算力應用環節的 計算綠色化白皮書 31 (2 2)綠色觀測感知綠色觀測感知 端端到端的觀測能力和機制對企業可持續地投入和推進計算
97、綠色化治理優化至關重要。通過綠色觀測感知能力,可以提供效果層面的監控和回溯,實現對于綠色計算的全鏈路可追蹤及優化體系,幫助企業管理層“可視化”地看到投入產出效果,并能夠持續投入。一般而言,企業在進行綠色觀測感知時,可分為以下三個階段:(1 1)綠色感知:)綠色感知:能夠對于算力供應商的資源使用情況和碳成本進行有效的感知,為低碳算力供應商的選擇提供判斷依據,綠色度觀測感知的層次如表 5 所示;(2 2)綠色優化:)綠色優化:面向業務場景時的資源利用率低、能耗高的問題,能進行精準化問題的識別與針對性的優化;(3 3)綠色設計:)綠色設計:能夠將碳效/能耗指標融入到軟件設計中,實現計算層面綜合考慮能
98、耗情況進行最優調度。表 5 綠色度觀測感知層次 觀測層次 觀測內容 面向硬件層 資源使用情況:常見指標包括 CPU 利用率、GPU 利用率、I/O 利用率等;能耗情況:常見指標包括服務器算力碳效、云廠商碳賬單等。面向軟件層 算力使用情況:主要通過監測算力對于上層業務的使能情況,判斷算力被業務應用的效率;性能:對于觀測和分析工作負載的資源消耗,識別性能瓶頸,優化系統的性能表現,提升工作負載的處理速度和降低處理成本;能源/碳效:將軟件執行所需的能源/碳效作為觀測依據。(3 3)算力供應鏈算力供應鏈綠色綠色化化 企業需建立算力供應鏈的綠色化管理,并分規劃、選型、遷移等階段進行相關能力建設,以實現低碳
99、算力成本的選擇能力。每一個階段的考慮點具體如下:規劃:規劃:企業在規劃數據中心整體方案時,應在滿足業務需求前提下,建立對于不同云廠商/不同數據中心等算力供應商的算力碳強度感知能力,并形成綠色、多元化的供應鏈,盡量實現多技術路線/多供應商靈活選擇,從而能夠實施兼顧性能與能耗的綜合性價比最高的方案。應用應用:在數據中心運行過程中,企業應對數據中心和 IT 設備在運行過程中的能耗情況進行持續性的監測,從單一產品的碳成本和數據中心整體碳排放等不同維度進行衡量和評估,并采取優化措施進行動態調整。面向算力應用環節的 計算綠色化白皮書 32 遷移:遷移:在滿足業務發展需求前提下,結合公司綠色度目標,在不同業
100、務量影響范圍內進行算力供應商的低成本平滑遷移。根據實現方案不同,企業可以是將全部業務工作負載、或部分業務工作負載,在部分時間、或永久地,在不同數據中心之間、或在不同云廠商之間、亦或在多樣化硬件算力服務器之間進行遷移。(4 4)算力平臺服務綠色化算力平臺服務綠色化 企業應根據自身的業務特征和算力基礎設施情況,選擇相應的算力平臺服務綠色化實施路徑,如表 6 所示。業內常見的演進路徑為:單體服務虛擬化-微服務-云化基礎設施-容器化-服務網格-無服務化。一般而言,算力平臺服務綠色化的基礎是算力資源池化,即能夠將算力資源像水資源一樣自由調配、按需供給。在此基礎上,通過微服務、云化基礎設施、容器化&服務網
101、格、無服務化等技術路徑,實現不同程度的綠色效益。表 6 企業算力平臺服務綠色化實施路徑 基礎設施升級路徑 綠色效益 實施方案關鍵點 微服務(1)微服務系統通過遠程調用降低了系統耦合,提升了研發效率和運維效率;(2)微服務具備了服務實例彈性部署擴展的架構能力,并在宕機等故障場景下具備很好的穩定性保障。系統能力解耦,通過中間件實現分布式系統架構,拆分成微服務;建設適應微服務體系的研發和運維平臺,具備規?;?、快速的運維能力;資源服務依賴的基礎設施標準化,提升組件化交付能力。云化基礎設施(1)實現資源池化,使得資源可以按需分配和釋放,業務間相互獨立,互不影響,實現了資源整合提高利用率;快速部署彈性擴容
102、、高效維護降低成本的業務價值,并且具備良好的兼容性;(2)通過大規模資源混部技術,構建統一的資源視圖,將在線業務、實時業務、離線業務以及獨立集群的部署架構,演進到統一集群,提高單位算力利用效率。通過云化基礎設施,提供算力服務單元的標準服務;逐步從非云遷移到云環境,在此期間兩者共存,形成混合云模式。面向算力應用環節的 計算綠色化白皮書 33 容器化&服務網格(1)容器啟動速度快,適應分布式微服務場景的技術要求;(2)對全站資源統一調度,支撐不同業務場景的資源運行時的全局資源預算和節點運維管控,提升全局資源利用效率;(3)將業務服務容器化,建立標準化和自動化的部署能力、一致的運行界面、不可變基礎設
103、施、資源的統一調度和管控;(4)通過服務網格提升基礎設施運維效率,打通異構系統通訊,提升了服務和資源的彈性能力,重塑軟件生命周期。通過容器化實現系統的可移植性,并完成云基礎設施的適配,實現配置和調度對象的標準化;服務網格化,實現基礎設施和業務邏輯的解耦;根據系統特點采用安全性更好的容器,并進行混部、分時、超賣等技術,提升算力的效能。無服務化(1)Serverless 架構具備全托管、免運維、高彈性的平臺能力,極大提升了服務效率,降低了系統架構和運維復雜性,Serverless 架構將成為云的默認編程范式。從簡單場景入手,逐步進行平臺建設,包括容器、調度、存儲、服務框架、運維研發平臺等。(4 4
104、)工作負載綠色化工作負載綠色化 結合業務情況,有針對性地對主要工作負載進行算力效用提升,使得資源占用更少。在具體實施過程中,首先需站在全局視角,實現資源利用效率和服務質量、性能可靠性的平衡;其次,讓工作負載與業務掛鉤,實現資源的“開源”、“節流”,從而減少浪費,實現更加精細化的資源治理。其中,開源指通過架構、技術創新等形式,更高效地提升資源利用率;節流指降低不必要工作負載的算力開銷。針對不同典型工作負載類型的優化策略如表 7 所示。表 7 針對不同典型工作負載類型的優化策略 典型工作負載類型 優化策略 綠色效益 存儲 存儲資源治理的核心策略:讓表更少、存儲周期更短、數據壓縮比更高。存儲服務機型
105、往往是最貴的,并且是有狀態的,在綠色化過程中有天然的難度,通過存儲 Serverless 化可以降低存儲的運維成本,實現存儲的合理化度量和使用。在線業務 在線業務治理的核心策略:在保證業務高可持續性前提下,解決內部流量和外部用 在線往往是一個企業規模最大的集群規模。通過建設基于智能畫像的Serverless 彈性伸縮工程,提升在面向算力應用環節的 計算綠色化白皮書 34 戶行為突變的不確定問題。應對不確定流量的情況,實現無風險的精準資源調度和穩定性防控,可以有效的提升企業應對活動突發,流量突增的風險場景,同時實現規?;当?。智能計算 智能計算一般分為 AI 在線推理和離線訓練任務??赏ㄟ^分布式
106、訓練框架和彈性調度實現對于智能計算工作負載的實時感知和智能調度,讓AI 任務實現資源的最優化,同時能夠最快讓任務跑完。建立智能計算的算法量化效果評估和優化體系,提升同等算力下的算法效果。3.3.落實企業的綠色化保障機制落實企業的綠色化保障機制 企業可從組織、人才、文化、生態等多個方面落實企業的綠色化保障機制。組織協同組織協同方面,方面,企業的綠色化治理不僅涉及到戰略方向的目標規劃、落地指標的拆解與執行,更涉及到面向業務資源利用率為核心的 IT 核心能力的優化,整體過程涉及部門眾多,設計與落地理念復雜,因此需要從上而下的組織機制作為保障,將綠色計算治理作為一號位工程,融入到 IT 管理和工作方式
107、中,推動企業 IT 的整體變革。人才匹配人才匹配方面,方面,一是站在行業視角,由于 ESG 戰略推行,全球范圍內企業對于綠色人才的需求都在顯著增加,對于綠色人才的招募和培養將成為企業綠色化建設、提升自身科技可持續能力和綜合競爭力的重要一環。二是站在企業視角,綠色計算治理需要具備綠色+IT+業務技能的復合型人才,企業可考慮成立專項工作組,進行定期、定向培訓的形式提升企業內部綠色人才綜合素質,加強企業內部綠色人才隊伍建設。文化建設文化建設方面,方面,綠色計算與企業的 ESG 理念、降本增效方向相輔相成,背后包含的是計算可持續發展以長遠賦能業務的理念。對于企業而言,綠色計算絕不是孤立化存在的,需要設
108、計整體的綠色企業經營理念和文化體系,并將綠色計算作為科技可持續化的核心文化理念而推行。需要將科技綠色化的理念作為企業價值觀,根植在日常辦公、運營、管理的過程中,從而真正踐行綠色計算。生態合作生態合作方面,方面,綠色計算不僅是企業內部治理,更是行業共建以推動該環節整體發展的過程,可包括:(1 1)技術治理技術治理,綠色計算涉及到軟件與硬件協同的優化建設,因此在企業綠色計算技術治理過程中,應積極與供應鏈上下游企業交流共創,從軟硬協同視角,攜手引進行業內先進的相關解面向算力應用環節的 計算綠色化白皮書 35 決方案或產品,推進上下游的兼容適配和優化,以實現更高效的治理;(2 2)生態建設:生態建設:
109、目前行業在面向算力效用的環節關注度較低,并缺失體系化的標準與生態。對于有良好踐行成效的企業而言,一方面應將自身實踐通過商業化/開源等形式積極輸出,構建自身綠色影響力,另一方面應聯合產業相關方,包括聯盟、標準機構、測評認證機構和上下游綠色合作伙伴,共建綠色計算生態體系。面向算力應用環節的 計算綠色化白皮書 36 第六章 總結與展望 數字經濟已成為當前全球各主要國家的發展戰略和產業競爭高地,而支撐數字經濟發展的重要底層基座是算力基礎設施,在全球“碳達峰、碳中和”大背景下,站在算力全產業鏈視角、實現端到端的綠色算力已是產業關注重點和未來發展趨勢。當前,產業對于上游的可再生能源生產和中游的綠色數據中心
110、關注度較高,并且通過政策推動、技術創新等方式不斷提升可再生能源使用比例、降低數據中心的 PUE、WUE 等。相比之下,行業對于下游的在應用環節的算力利用效率關注度尚顯不足,而該環節恰恰還存在著巨大的提升優化空間,可以通過計算綠色化來進一步提高算力服務器的利用效率,達到節能降碳的目標。在此背景下,本白皮書初步分析當前行業中普遍面臨的服務器算力利用率不高的問題所在,并提出了面向應用環節的計算綠色化的概念、內涵,以及關鍵技術要素,并以當前算力應用占比較高的互聯網行業作為主要研究對象,進一步分析了應用環節提升算力利用率所面臨的挑戰,以及典型互聯網公司已有的產業實踐和解決方案,以期為其他算力應用企業實施計算綠色化所參考借鑒。當前,面向應用環節的計算綠色化仍有待包括政府機構、行業聯盟、產業智庫、技術廠商、應用企業等生態各方進一步協作,從產業政策引導、產學研用聯合、產業聯盟構建、行業標準制定、計算綠色度指標評價設定和評估評測體系搭建、技術開源開放等角度,共同推動計算綠色化的技術聯合創新和產業規?;l展。