《浪潮云海:2025一云多芯算力調度研究報告(34頁).pdf》由會員分享,可在線閱讀,更多相關《浪潮云海:2025一云多芯算力調度研究報告(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、一云多芯算力調度研究報告12024年12月一云多芯算力調度研究報告Research Report on Computing Power Scheduling in Multi-Arch Cloud Systems一云多芯算力調度研究報告02目錄CONTENTS 前言一云多芯的背景和意義一云多芯的發展路徑和產業現狀一云多芯發展理念計算場景多樣化驅使算力體系架構向異構多元化發展一云多芯成為解決多芯共存問題的必然要求一云多芯內涵深入演進,對算力調度提出了更高的要求算力量化成為重要關注點,是應用跨架構等價運行的基礎國家支持云計算產業高質量發展,一云多芯成為業內關注熱點0607070708一云多芯的發展
2、路徑一云多芯發展面臨的挑戰0810121313場景驅動、系統設計分層解耦、開放標準迭代創新、持續演進04060811一云多芯算力調度研究報告03一云多芯算力調度實踐探索案例實踐總結與展望芯片及整機層服務器操作系統層云操作系統層基礎應用層業務應用層1517202325通信云農信云機場云272931132733一云多芯算力調度研究報告04PREAMBLE智慧時代,計算力就是生產力。計算場景多樣化驅使算力體系架構向異構多元化方向發展,“一云多芯”成為解決多芯共存問題的必然選擇,成為云計算產業的核心關注點。隨著近年來信息技術產業發展邁入新階段,業內對于一云多芯相關技術的研究及實踐也在不斷深入,用戶對于
3、一云多芯的要求也在不斷提升。但是,由于異構芯片間指令集千差萬別、性能差異顯著,異構節點間呈現非對等的特性,其落地挑戰巨大。一云多芯的最終目標是支撐業務應用在不同架構處理器之間低成本、自由切換。在此背景下,本報告基于“場景驅動、系統設計”、“分層解耦、開放標準”以及“迭代創新、持續演進”的發展理念,描繪了三階段持續演進的一云多芯發展路線。為實現一云多芯的最終目標,算力作為一項核心資源,其調度能力至關重要。一云多芯算力調度倡導構建分層解耦、開放標準的整體架構,從基礎設施到應用層的各層級能夠獨立運行、獨立演化,同時支持開放的協議、標準實現層間高效協同,兼容多樣化的硬件平臺,從而提升整體系統的靈活性與
4、可擴展性。本報告針對算力調度架構中的各個層級的實踐探索進行了分析研究。最后,本報告對一云多芯的未來進行了展望。一云多芯勢在必行、任重道遠,不僅需要持續的原創性、引領性技術創新,也需要業內廣泛聯合和生態共建,形成標準規范,共同推進“一云多芯”向第三階段邁進。前言一云多芯算力調度研究報告05本報告參與編制單位(排名不分先后)濟南浪潮數據技術有限公司浪潮電子信息產業股份有限公司中國軟件評測中心(工業和信息化部軟件與集成電路促進中心)騰訊云計算(北京)有限責任公司麒麟軟件有限公司飛騰信息技術有限公司浪潮計算機科技有限公司龍芯中科技術有限公司統信軟件技術有限公司瀚高基礎軟件股份有限公司金風慧能科技有限公
5、司江蘇博云科技股份有限公司編寫人員(排名不分先后)張東莫映華亓開元劉健劉俊強徐冠群田峰邱運濤韓君輝顧劍黃爽左德華魏磊高雪玉李志鵬張百林張遠斌郭振呂廣杰趙志祥鄭文帥孫銳克都靜妍湯飛胡曉英喬霖甄鵬王偉林培峰焦磊胡海泉潘雅辰一云多芯算力調度研究報告06一云多芯的背景和意義計算場景多樣化驅使算力體系架構向異構多元化發展智慧時代,計算力就是生產力。隨著行業“上云用數賦智”進程的不斷加速和深化,應用場景呈現多樣化趨勢,大數據、科學計算、人工智能訓練、人工智能推理等新型計算模式不斷涌現。數據精度橫向擴展、數據量級縱向增長,對計算的實時性要求也不斷提升,傳統的通用處理器難以滿足高精度、高數據量及實時性需求,給
6、計算架構帶來了巨大的挑戰。在計算場景多樣化的需求驅使下,計算架構朝向多元化方向演化。通用處理器、通用加速處理器、神經擬態芯片、可編程芯片、領域專用加速芯片等多種計算單元不斷發展,以滿足不同場景下的計算需求。異構多元的算力體系架構不僅能夠充分發揮不同計算單元的優勢,提升計算效率,也能夠構建靈活互補的計算體系,成為越來越多客戶的選擇。數據量級不斷提升,類型復雜 AI引入新計算類型,跨度更大計算芯片種類多INT1/2 INT4 INT8 FP16 BF16 FP32 INT32 INT64/FP64PB級TB級GB級MB級數據量級計算類型大數據OLAP、全文檢索等科學計算VASP GRAPES.地震
7、波、基因樣本等AI訓練Resnet,DeepSpeech,GPT等語音、文本、視頻、圖像等AI推理圖像識別、語音識別、NLP等關鍵計算OLTP.交易數據語音、文本、視頻、圖像等專用加速芯片可編程芯片 神經擬態芯片通用處理器通用加速處理器 ASICX86ARMGPUFPGAs圖 1 計算場景多樣化、架構多元化一云多芯算力調度研究報告07一云多芯成為解決多芯共存問題的必然要求一云多芯內涵深入演進,對算力調度提出了更高的要求算力量化成為重要關注點,是應用跨架構等價運行的基礎中央處理器(CPU)作為應用最廣泛的算力器件,多廠商、不同架構疊加組合造成的多元異構現象尤為突出。Intel、AMD 等 X86
8、 架構仍是數據中心的主導力量,但占比逐步縮減;ARM 架構憑借運算核心多、功耗低等優勢,發展勢頭強勁;RISC-V 架構憑借其開源架構及靈活可定制性受到關注。伴隨計算場景的多樣化,數據中心正從以 CPU 為中心,向 GPU、DPU、XPU 等多種加速計算芯片共存的異構算力體系發展。同時,在全球產業鏈重構的背景下,我國核心計算器部件也迎來黃金發展期,但因起步較晚、技術路線各異、發展水平不一,多元異構并存的情況將會長期存在。隨著近年來生成式人工智能等技術的爆發式增長,利用云操作系統實現對算力的動態調整和彈性供給、提升資源利用率成為重要趨勢。云計算作為一種追求性價比的算力供給模式,在多元異構處理器功
9、能、性能和可靠性存在差異的情況下,為滿足高效穩定的技術需求、實現應用跨處理器低成本或自由切換,規避供應風險,保障關鍵業務長期穩定運行,“一云多芯”成為云計算發展的必然趨勢。隨著多元異構算力逐漸向縱深發展,行業客戶對一云多芯提出了更高的要求,支撐應用高效適配、無損遷移與性能調優成為重要關注點。行業客戶對于一云多芯的需求不再限定于基礎的多芯資源的管理和調度,而是衍生了因不同架構之間差異導致的應用性能優化需求、低成本的應用跨架構遷移需求,以及眾多金融客戶關注的“算力標準化”問題,即希望提供面向應用的資源供給分配標準以及不同技術路線之間的高可用遷移方法,從而降低應用適配改造成本、提升資源彈性供給效率。
10、應用的跨架構等價運行中的“等價性”主要體現在功能的等價性和性能的等價性,其目的是保障應用的跨架構高效穩定運行,從而實現用戶體驗的一致性。功能的等價性主要面臨的挑戰是異構處理器之間指令集的差異,對于操作系統及應用程序的跨架構可運行性提出了更高的要求;性能的等價性主要面臨的挑戰是異構處理器之間性能的差異,通過建立科學、全面的算力量化評估模型,準確分析不同架構的處理能力、運算速度等方面的特性,為應用在跨架構運行時提供資源分配(例如 CPU、內存、副本數等)的依據,成為保障其在不同架構下性能等價的有效方法。一云多芯算力調度研究報告08國家支持云計算產業高質量發展,一云多芯成為業內關注熱點一云多芯的發展
11、路徑早在 2021 年,工業和信息化部制定的新型數據中心發展三年行動計劃中就提出,要推動 CPU、GPU 等異構算力提升,逐步提高自主研發算力的部署比例,推進新型數據中心算力供應多元化;2023 年 10 月,工業和信息化部等六部門印發算力基礎設施高質量發展行動計劃,提出要推動算力結構多元配置,推動不同計算架構的智能算力與通用算力協同發展,滿足均衡型、計算和存儲密集型等各類業務算力需求。中國人民銀行印發的金融科技發展規劃(2022-2025)中提出,要切實保障供應鏈穩定可靠,不斷拓寬和加固多元化供應渠道,避免“單點故障”。國務院關于加強數字政府建設的指導意見中提出,要加強自主創新,加快數字政府
12、建設領域關鍵核心技術攻關,構建智能集約的平臺支撐體系。業內也逐漸對“一云多芯”形成了廣泛共識,并成為近年來的熱點話題。浪潮云海首席科學家張東強調,“一云多芯”要解決不同類型芯片共存所帶來的多云管理問題,真正形成一朵云,成為未來云計算平臺的核心能力之一。賽迪顧問發布的 2023中國私有云市場研究報告中指出,“一云多芯”成為私有云的主流架構。一云多芯的最終目標是支撐用戶業務在不同架構處理器之間的低成本切換或者自由切換。因此,基于以系統設計為核心的理念,采用以場景驅動的“硬件重構+軟件定義”的融合架構,是數據中心體系結構的發展方向。一云多芯可以分三個階段逐步演進,如下圖所示。一云多芯的發展路徑和產業
13、現狀一云多芯算力調度研究報告09第一階段異構節點統一池化管理,通過離線遷移,手動切換等方式實現應用跨架構資源層、平臺層和應用層分層解耦,廠商共同配合實現應用平滑切換及彈性伸縮產業鏈上下游協同配合,打造標準、共建生態,打造垂直一體化方案第二階段第三階段發展層次混合部署、統一管理、統一視圖業務遷移、分層解耦、架構升級軟件定義、算力標準、全棧多芯時間維度圖 2 一云多芯“三階段”發展路線混合部署、統一管理、統一視圖業務牽引、分層解耦、架構升級資源混部,即在同一個云平臺中實現不同廠商、不同架構基礎設施資源的統一部署,并實現統一池化管理、統一服務目錄和統一監控運維,以可管理性為主要目標?;旌喜渴鹉軌虺浞?/p>
14、利用不同架構芯片的優勢,滿足不同類型業務對計算能力的差異化需求,為客戶提供更加靈活、高效的資源調度策略,實現業務的靈活部署和快速迭代,從而提升資源的整體利用率,降低運營成本,增強市場競爭力。對于一些對信息安全要求較高的行業(例如金融、政務等),多芯策略可以避免單一架構的依賴,多樣化的技術路線有助于保障系統安全性、可靠性的底線。在第一階段,用戶通過離線遷移、手動切換等方式實現應用的跨架構遷移,這需要云廠商、操作系統廠商、應用廠商、數據庫/中間件廠商的廣泛配合。用戶通常難以預估應用遷移的效果,用戶體驗的一致性難以保障,且操作復雜、運維低效,困難重重。在第一階段的基礎上,為進一步滿足應用的低成本跨架
15、構切換,第二階段通過分層解耦和架構升級,實現應用的跨架構遷移、多架構混合部署和流量切分。一云多芯算力調度研究報告10在第二階段中,通過資源層、平臺層和應用層的“分層解耦”設計,實現架構升級。在資源層面,通過跨平臺的資源封裝分發和遷移實現應用跨架構部署和遷移;在平臺層面,實現有狀態/無狀態應用的跨架構混合部署;在應用層面,可通過服務網格等技術實現應用的跨架構流量切分。在該階段,通過建立面向動態異構特征的算力量化框架,支持規格層、服務級、應用級算力測算,解決跨架構算力表征及等價刻畫問題;設計等價切換調度方法,基于同構節點優先及應用副本數/規格動態調整策略,保障算力一致;基于優雅退出、探針、重試、預
16、熱等技術實現應用跨架構平滑切換及線性彈性伸縮。系統定義、建立標準、全棧多芯一云多芯是芯與云的融合,是平臺和生態的協同。在第三階段,通過處理器、整機、云操作系統、數據庫、中間件和應用等產業鏈上下游的共同配合,實現應用與處理器架構的徹底解耦,保障業務長期穩定運行,是一云多芯最終目標。產業鏈上下游協同配合是第三階段的核心驅動力。從上游的芯片及整機制造商,到中游的基礎軟件提供商,再到下游的各類應用企業及終端用戶共同協同。芯片制造商及整機廠商進一步提升性能及 RAS(即可靠性、可用性和可維護性)設計,推動開放標準;基礎軟件提供商整合硬件資源,優化平臺架構,實現對多芯資源的高效管理與調度,支撐應用的跨架構
17、等價運行;下游應用企業及終端用戶則從業務需求與使用體驗角度出發,作為業務話語權的所有者,推動整個體系的優化。在算力評估、標準和測評方面,研究多元異構算力量化評估方法,聯合專業測評機構及產業鏈上下游,建立一云多芯行業標準。建立行業大生態,共同探索新的業務模式與應用場景,提升整個云計算產業鏈的活力。促進一云多芯的泛在落地,為數字經濟的蓬勃發展提供堅實支撐。一云多芯發展面臨的挑戰一云多芯產業的發展面臨技術、生態、應用等多方面的挑戰,具體如下。異構芯片指令集千差萬別,應用適配效率低不同芯片架構在指令集、寄存器、內存管理等方面存在顯著差異,應用適配時,雖然可以通過交叉編譯等方式實現面向不同架構的二進制的
18、構建,但程序本身源碼中架構相關部分一云多芯算力調度研究報告11異構芯片性能參差不齊,跨架構切換時性能難以保障異構節點之間呈現非對等性,對分布式系統的一致性保障帶來挑戰不同架構的芯片不僅在指令集方面存在千差萬別,在性能方面也存在巨大差異。一方面,當應用跨架構遷移時,性能可能會出現較大波動,導致服務質量降低,無法達到預期;其次,遷移過程中,在新老副本切換流量過程中可能引發短暫的延遲、中斷或錯誤,造成應用響應異常。因此,建立多層次的算力衡量體系,實現應用性能的精確衡量,并實現應用跨架構平滑切換及線性彈性伸縮,成為一云多芯面臨的重要挑戰。由于不同架構芯片之間指令集及性能存在的巨大差異,相比于傳統分布式
19、系統內節點間的對等性,一云多芯場景下異構節點間的非對等性不容忽視。針對非對等分布式云原生應用,實現有狀態任務在異構節點間高效一致性共識協商和數據同步,以及無狀態任務的非侵入流量動態控制和平滑切分,成為跨架構云原生應用編排的關鍵技術難點。往往需要依靠專家經驗人工識別并修改,導致效率低下。例如,C 語言中未明確規定“char”具體為“signedchar”還是“unsignedchar”,因此不同編譯器對于該數據類型具有不同的實現,并且不會產生編譯時錯誤。使用了該數據類型的代碼構建的面向 X86 平臺的二進制程序在運行時,可能會與 ARM 平臺產生截然不同的結果。程序排錯依賴于專家經驗,導致應用適
20、配效率低、難以推動。一云多芯發展理念為解決數據中心多芯共存場景下高效穩定技術挑戰,并且規避供應風險、滿足性價比要求,“一云多芯”成為必然選擇。其重要意義不僅在于解決多芯共存的問題及技術挑戰、推進生態建設、激發產業鏈協同創新活力,也能夠實現應用在不同處理器架構間的低成本切換,保障關鍵業務長期穩定安全運行。目前,“一云多芯”在業內已經形成了廣泛的共識,但在產業落地過程中也存在多方面挑戰。首先是理念上的轉變,IT 基礎設施經過長期的發展,從大機、小機時代逐步演進到云計一云多芯算力調度研究報告12算時代,開放計算理念深入人心。但直至今日,芯片指令集、操作系統架構上的差異化依然制約著架構的橫向協同,應用
21、同時適配多個指令集和操作系統的問題依然很普遍。因此,IT產業需要新的理念、新的路徑、新的設計,即以 CPU 為核心的設計模式轉變為以系統為核心的設計,以“以應用為導向,以系統為核心”理念構建新一代產業生態。其具體理念包括“場景驅動、系統設計”、“分層解耦、開放標準”以及“迭代創新、持續演進”。場景驅動、系統設計“一云多芯”的首要理念就是以應用為導向,以系統設計為核心。一云多芯的最終目標是支撐用戶業務在不同架構處理器之間的低成本切換或者自由切換,因此,基于以系統為核心的設計模式,采用以場景驅動的“硬件重構+軟件定義”的融合架構,是數據中心建設的發展方向。場景驅動的軟件定義,是實現一云多芯的核心。
22、以應用為導向、以系統設計為核心、場景驅動的軟硬件協同設計,可以從應用、系統、硬件設計等幾個層面開展。首先,在需求層面,基于 OLTP、OLAP、深度學習、流式計算、圖計算等面向不同場景的業務需求驅動軟硬協同的系統設計,包括模型、架構、規范等,形成接口標準、交互規范、算力規格、能效規范等標準或規范。其次,基于系統規格推導/定義芯片指令集標準和融合架構整機系統設計,實現資源融合池化、多元異構協同、綠色節能高效。在異構加速層面,結合智能網卡、加速卡等異構加速設備,實現軟硬協同的設計與優化,進一步提升能效比。OLAPOLTP流式計算圖計算深度學習場景驅動軟硬協同設計接口標準 交互規范 算力規格 能效規
23、范需求決定系統系統決定芯片模型架構規范面向一云多芯的軟硬協同設計與優化融合架構整機系統多元異構芯片/加速卡圖 3 以系統設計為核心理念一云多芯算力調度研究報告13分層解耦、開放標準迭代創新、持續演進“分層解耦,開放標準”是推進一云多芯的重要核心理念。分層強調芯片/整機層、操作系統/云操作系統層、數據庫/中間件層、應用層各司其職,承擔其相應的職責和功能。層與層之間通過標準協議實現協同和解耦。通過分層解耦,不同的層次實現了邏輯上的分離,每一層都可以獨立于其他層進行開發、部署和擴展,消除單一技術生態的封閉性和離散性,避免單一廠商鎖定。與“分層解耦”相對應的是“開放標準”,強調在分層解耦的基礎上,通過
24、開放標準和接口,實現不同技術、平臺和應用之間的互操作性和可集成性,進而實現產業鏈整體的標準規范。例如,芯片/整機層與 OS 之間通過形成統一指令集/虛擬指令集標準支撐上層應用的運行,并基于 IPMI 等標準管理協議提供統一管理接口;OS 層為云操作系統/應用層提供標準的應用程序接口(ApplicationBinaryInterface,ABI)以及通用的虛擬化類庫或機制(例如 KVM、cgroup 機制等);云操作系統為上層應用提供支持 AMQP、SQL 等業內通用協議的 PaaS 服務,并為應用程序的運行提供云主機、容器、云物理機等標準化資源封裝。一云多芯的最終目標是支撐用戶業務在不同架構處
25、理器之間的低成本切換或者自由切換。但最終目標的達成并非一蹴而就,而是要形成明確清晰的發展路線圖,并進行迭代創新、持續演進。從混合部署、離線遷移和手動切換,到基于架構升級的平滑切換和彈性伸縮,再到算力標準和全棧多芯迭代演進。在演進過程中,不斷積累創新技術,完善解決方案,推動一云多芯向更高階段發展。一云多芯算力調度實踐探索一云多芯算力調度研究報告14為實現一云多芯的最終目標,算力作為一項核心資源,其調度能力的重要性不言而喻。算力調度通過智能感知的分配策略實現算力的靈活調配,滿足應用多樣化的算力需求。一云多芯算力調度基于上述理念,倡導構建分層解耦、開放標準的整體架構,從基礎設施至應用層的各層級能夠獨
26、立運行、獨立演化的同時,通過標準化、規范化的協議、標準實現層間協同,并且兼容多樣化的硬件平臺,從而提升整體系統的靈活性與可擴展性?;A應用及業務應用 跨架構可運行性 分布式系統數據狀態同步 跨架構流量分發治理 運行時等價封裝 架構感知的算力有向調度 層次化算力量化分析方法 應用跨架構等價調度 跨架構可運行性 算力測算方法 跨架構運行調優方法 性能及RAS設計 推動垂直生態繁榮 構建整機開放標準分層解耦開放標準服務器操作系統層芯片及整機層云操作系統層圖 4 一云多芯算力調度參考設計一云多芯算力調度整體參考架構如上圖所示,整體包括基礎設施層、服務器操作系統層、云操作系統層、基礎應用層、業務應用層等
27、,圍繞多芯場景下的資源可管理性、程序可運行性及狀態可遷移性三個核心方面開展最佳實踐的探索。其中,基礎設施層是整個架構的基礎,是算力的“源泉”;服務器操作系統和云操作系統層南向對接多元異構資源,北向為基礎應用、業務應用的運行提供基礎運行環境,是承上接下的關鍵核心;云操作系統層本身作為分布式系統,是生態矩陣的核心交叉點,通過云操作系統層拉通垂直生態意義重大,如下圖所示;基礎應用和業務應用層代表了用戶真實的業務需求,是整個系統的最終目標和價值體現。一云多芯算力調度研究報告15圖 5 層次化參考設計芯片及整機層作為算力的“源泉”,計算芯片廠商、整機廠商積極擁抱“一云多芯”新業態,首先是提升處理器效能及
28、可靠性,不斷縮小與國際領先水平的差距;其次,打造安全供應鏈,推動生態繁榮,建立良性循環;最后,構建整機開放標準,實現業內普惠共贏。性能及 RAS 設計計算芯片層面,各計算芯片廠商通過自主設計指令系統和架構、優化內核設計、參數規格提升、生產工藝提升等方式,不斷提升性能規格及穩定性,并在實際落地應用過程中不斷迭代優化。例如,龍芯研制了 LoongArch 指令系統,具備高度的自主性與安全性,采用了高性能超線程設計,處理器設計能力與芯片總體性能方面取得了突破。整機層面,基于計算芯片的整機廠商采用了原創設計的高品質主板、創新的結構設計和先進的散熱設計優化產品質量,提升整機的 RAS 特性和能效。采用先
29、進的測試與驗證標準,采用模式識別等智能化技術實現高精度檢測,確保整機在生產過程中的質量控制。業內也倡應用廠商1應用廠商2應用廠商3跨架構主備應用(架構A,主)應用(架構B,備)跨架構混部應用(架構B組件、架構C組件)單架構部署應用(單架構A)云平臺1云平臺2一云多芯云操作系統芯片廠商甲芯片廠商乙芯片廠商丙芯片廠商丁芯片廠商乙芯片架構A芯片架構B芯片架構C芯片廠商丙芯片廠商丁OS發行版1OS發行版2OS發行版3?整機廠商1整機廠商2整機廠商3芯片廠商甲芯片A-1芯片A-2芯片C-1芯片B-2芯片B-1一云多芯算力調度研究報告16推動垂直生態繁榮構建整機開放標準生態的繁榮與否決定了芯片的生命力,芯
30、片廠商成為垂直生態繁榮的核心推動力。首先是推動與主流操作系統的編譯適配和性能調優。很多廠商不僅提供原廠適配的基礎版本操作系統,也得到業內主流上游操作系統發行版的原生支持;同時積極推動特性代碼向 Linux 內核中合入。其次是推動主流編程語言和應用框架的適配,例如 JDK 等,以支持開發人員快速構建相應架構的應用,并提供應用跨架構遷移和調優的最佳實踐及便捷工具。最后是工具及社區的建設,聯合操作系統廠商維護軟件包鏡像站點,并建設開發者社區,借鑒“UGC 模式”推動生態的繁榮發展。作 為 國 內 領 先 的 自 主 核 心 芯 片 提 供 商,飛 騰 參 與 了 openEuler、openAnol
31、is、OpenCloudOS、openKylin、deepin 等國內主流開源 OS 社區的建設,牽頭創立社區 ARMSIG。社區代碼推送 commit 超 300 個,涉及飛騰全系平臺內核驅動及應用層軟件的適配?;?GCC 推出了 PhyGCC 高性能編譯器,針對飛騰微架構進行了定向優化,內置了寄存器分配算法的優選器,引入了數組重新映射特性,支持對特定負優化組合的禁用,集成了優化的數學庫和內存分配庫,在典型基準測試程序上實現了進一步的性能提升。推出適用于飛騰全系列處理器的 PhyTune 性能分析工具,通過監視硬件事件并與軟件運行情況相結合,可以評估負載是否高效運行,幫助用戶識別性能瓶頸并
32、發現優化點。但值得指出的是,現階段芯片廠商主導建立的生態往往更加聚焦于基于自家產品構建,而將分散垂直的生態進行橫向立體的拉通,則需要更高級別的技術棧推動。開放化標準化逐漸成為整機廠商的共識。早在 2011 年,國際上就發起了開放計算項目(OpenComputeProject,OCP),推動可擴展、靈活、高效的硬件的標準化,孵化 OCP網卡等成功案例。2023 年,中國電子技術標準化研究院、浪潮電子信息產業股份有限公司等牽頭的開放計算標準工作委員會(OpenComputeTechnologyCommittee,OCTC)成立,以開放共建、協同創新為宗旨,構建全球領先的規范和標準,全力打造開放、協
33、同、繁榮、具備全球影響力的產業生態。同年,OCTC 發布了首個面向通用市場建立的整機柜服務器的標準T/CESA12932023 整機柜服務器通用規范,對推動實現標準化具有重大意義。2024 年,開放算力模組(OpenComputeModel,OCM)規范正式啟動立項,旨在建立基于處理器的標準化算力模組單元,通過統一不同處理器算力單元對外高速互連、管理協議、導制定標準規范為相關工作提供指導和依據,例如強制性國家標準GB43630-2023 塔式和機架式服務器能效限定值及能效等級、行業標準YD/T4415-2023云數據中心服務器測試方法等。一云多芯算力調度研究報告17供電接口等,實現不同架構處理
34、器芯片兼容,構建 CPU 的統一的算力底座,以解決 CPU 生態挑戰問題,方便客戶根據人工智能、云計算、大數據等多樣化應用場景,靈活、快速匹配最適合的算力平臺,推動算力產業高質量快速發展。主要廠商通過構建更加開放的標準,堅持“拆墻而不筑墻、開放而不隔絕”理念,推動計算產業生態朝向“開放、包容、普惠、平衡、共贏”的方向不斷發展??缂軜嬁蛇\行性服務器操作系統是硬件與軟件之間的紐帶,是承載云操作系統、上層應用的基礎軟件環境。多芯場景下,要求服務器操作系統廣泛兼容不同的硬件平臺,并為承載的上層系統提供透明的、一致性的應用程序接口(ABI)或依賴庫。然而,不同架構的處理器在指令集、寄存器、微架構等方面存
35、在天壤之別,如何在操作系統內核層面兼容多種架構,在保障內核高效穩定運行的同時能夠在 Shell 層面提供一致性的應用程序運行環境成為挑戰。此外,不同架構、不同廠商的處理器的核心數、工作頻率、生產工藝、散熱設計以及工況的差異導致處理器提供的計算能力存在巨大差異,如何針對算力進行客觀準確的衡量、并提供應用調優的最佳實踐成為挑戰。操作系統自身的跨架構可運行性由構建時指定的指令集決定,即通過面向不同架構構建與之匹配的鏡像,實現操作系統本身在不同硬件平臺上的可運行性,這涉及到操作系統內核本身、相關設備驅動程序以及 Shell/應用的適配。目前,操作系統在跨架構適配中面臨的挑戰主要集中在多指令集支持上,不
36、同指令集的差異導致內核、驅動和應用需要重構或優化。例如,部分第三方硬件廠商不提供原廠驅動(尤其是GPU和NIC驅動)源代碼,或適配成本高,也有第三方廠商硬件自身支持的架構有限,適配情況參差不齊,成為瓶頸。一些架構生態建設不完善,增加了部分基礎庫(如 glibc、OpenSSL)和框架(如 GTK 等)在芯片上優化和調試的難度。為驗證適配效果,主流操作系統提供了測試套件(例如 LTP、KUnit 等項目)用于驗證典型硬件下的系統的穩定可靠性。除自身的可運行性之外,操作系統也支撐應用的可運行性。首先對應用程序本身的跨架構可運行性提出了要求。一般而言,使用更高層級語言(例如 C 語言、Java 語言
37、等)編寫的程序往往具有更好的跨架構兼容性,可通過交叉編譯等方式實現一套源代碼面向不同架構的二進制文件的構建;而使用了低層級語言(也包括內聯匯編等技術)編寫的程序往往需要進行一定的適配工作。其次,需要操作系統提供跨架構等價一致的應用運行環境或運行時依賴,用于支撐架構匹配應用的直接運行,主要面臨如下困難:一是系統調用的接口差異,不服務器操作系統層一云多芯算力調度研究報告18同架構的內核可能具有不同的系統調用約定,例如 X86 架構下,參數通過寄存器傳遞,而ARM 架構下則結合堆棧實現;二是浮點計算與對齊問題,不同架構的浮點計算方式和數據對齊要求存在差異,導致同樣的程序在不同架構上行為不一致甚至崩潰
38、;三是運行時環境的兼容性,如動態鏈接器、C 標準庫和應用依賴的第三方庫,需在跨架構場景下提供一致的行為表征,用于支撐架構匹配應用的可運行性。此外,操作系統也與處理器協同,提供二進制翻譯方法,使應用能夠無需重新編譯即可跨架構運行。但是二進制翻譯方法存在較高的性能損耗,也存在一些高級復雜指令無法直接翻譯的問題。因此目前基于軟件或軟硬協同的指令集翻譯技術更多的應用于終端應用,距離穩定性、可靠性要求極高的企業級應用落地尚存差距。場景化算力測算方法跨架構運行調優方法基于操作系統層的性能測試是對器部件或整機進行算力測算的最常用方法。常用的性能測試工具包括面向CPU的stress、面向內存的stream、面
39、向磁盤I/O的fio、面向網絡的iperf等,以及一些更加綜合的測試工具,例如 sysbench、unixbench 等。這些工具提供了面向通用計算場景(例如 Web 應用)的算力測算方法,為系統及應用性能調優提供了直觀的依據。而面向于特定的場景,業內也有更加專業的測算方法或工具。例如 SPECPower 是由SPEC 組織開發的一種基于 Java 應用程序評估服務器性能/功耗比的基準測試工具,可以為能耗分析與控制、機房供電設備規劃等提供依據。AIperf、MLPerf、AI-Benchmark 等是面向人工智能計算場景的測算工具,以 MLPerf 為例,作為一款用于衡量機器學習硬件、軟件和服
40、務性能的基準測試平臺,受到浪潮等業內頭部廠商的關注。此外,針對高性能計算、大數據等場景,也有 Linpack、HPCC 等對應的工具套件。擴大到數據中心場景,不僅有對應的測試工具,也有相應的衡量指標,例如電源使用效率(PUE)、碳使用效率(CUE)等?;诜掌鞑僮飨到y的算力測算工具能夠直接反映各器部件或整機的實際性能情況。但是面向復雜的分布式系統時,面臨擴展能力差等問題,可通過云操作系統提供層次化的算力測算框架解決,在后文中將會詳述。服務器操作系統在保障系統自身的跨架構可運行性、并無差別支撐上層應用實現跨架構運行的同時,也需要針對不同架構的差異進行定向優化,為應用提供最佳運行環境。在多芯場景
41、下,由于異構芯片之間指令集及性能存在的差異,穩定性及性能的保障及調優成為重中之重。一云多芯算力調度研究報告19首先是操作系統自身及支撐的應用程序的穩定性的保障,主要體現在如下方面。一是操作系統提供了統一的抽象接口,通過抽象硬件層(HAL)對底層硬件細節進行一定程度的屏蔽,為上層操作系統及應用提供一致抽象的接口,減少硬件架構變化對系統穩定性的影響;二是針對操作系統自身,提供內核參數調優、文件系統優化、網絡棧優化、并發鎖機制優化等方法,保障系統的可靠穩定運行。并通過在線升級的方式,為用戶及時推送系統補丁。操作系統內核熱升級技術近年來成為研究的熱點,能夠實現業務無感知的操作系統內核升級,保障業務的連
42、續性;三是針對可能出現的硬件錯誤提供應變機制,例如針對內存不可糾正故障(UCE,UncorrectableMemoryError)場景,優化內核處理邏輯,實現用戶態與內核態進行數據拷貝、寫時拷貝、讀緩存等場景下的降級運行。其次是性能的保障,除了一些通用的調優方式(例如 RDMA 加速、NUMA 拓撲親和、TCP 參數調優、異步讀寫優化、編譯器參數優化、CXL 分級內存等),針對不同架構的特點,操作系統也提供對應的優化策略。例如針對 ARM 架構,可充分利用其核心數量多的特點,通過增加并行線程數提升 CPU 密集型應用的并行執行能力(例如,在 PostgreSQL 中可以適當增加 max_wor
43、ker_processes 和 max_parallel_workers 的值對查詢性能進行優化)。此外,操作系統通過專業性能分析工具,提供多芯場景下的系統指標采集和智能分析能力,有效識別和解決性能瓶頸,提高性能優化的效率,例如浪潮信息云巒操作系統提供的全棧式智能調優工具 KTuning。KTuning-BenchBenchmark工具KTuning-Target系統參數配置KTuning-Daemon用戶字符界面工具性能評估Benchmark壓測KTuning-Brain壓測控制調優配置靈敏度識別參數調優圖 6 操作系統調優工具設計一云多芯算力調度研究報告20云操作系統層根據相關標準定義,云
44、操作系統用于將物理設備以共享、彈性和可伸縮的方式供應和管理,提供人機界面以按需自服務可計量的方式為用戶提供計算、存儲和網絡等基礎云服務資源,可支撐 PaaS,SaaS 等服務執行的一種云計算系統軟件。云操作系統南向適配支持各類異構計算資源,北向提供高效靈活的混合任務調度能力,通過對算力任務的動態調整和資源的彈性供給,解決算力資源利用不均衡的問題,是云計算數據中心最核心、關鍵的基礎軟件,也是拉通垂直生態的最有效的層級。在云操作系統層面,一云多芯技術的實踐主要圍繞資源的可管理性、程序的可運行性和狀態的可遷移性三個核心維度展開,具體包括應用運行時的資源封裝、架構感知的有向調度、層次化的算力量化分析方
45、法及應用跨架構等價調度等幾個方面。運行時資源封裝架構感知的算力有向調度跨平臺語言解決了應用的跨架構問題,但依賴跨架構的運行時環境;交叉編譯實現了應用跨架構的編譯,但也存在運行時的動態庫依賴問題。因此,程序在多芯系統中的運行不僅需要考慮自身的可運行性,對于現代化的復雜應用,還應綜合考慮其依賴的運行時?;谠撇僮飨到y提供的調度能力,結合標準化的容器方式對應用程序及其運行時依賴進行封裝,形成原子性的資源封裝,成為實現應用跨架構部署及切換可行的路線。具體的,基于同一套應用程序源代碼,針對不同的架構構建不同的容器鏡像,如果程序是基于跨平臺的語言構建,則將程序腳本或中間代碼與運行時封裝為容器;如果程序是基
46、于非跨平臺的語言構建的,則可以通過交叉編譯,構建各種架構下的二進制文件,然后將其與依賴庫等封裝為容器。此流程可以通過一套流水線作業自動構建,并推送至鏡像倉庫。在應用編排時,云操作系統根據資源請求動態感知節點架構,實現底層硬件架構與鏡像架構的最佳匹配。架構感知是一云多芯實現算力調度、界面功能自適應展示的關鍵,是支撐程序的可運行跨架構的安全等效性也是需要操作系統廠商重點關注的點。例如,不同架構處理器對于可信執行環境的實現并沒有統一的標準,因此操作系統層需要通過軟硬協同的方法為應用程序提供安全等價的運行環境。云巒操作系統在社區版基礎上增強內生安全機制,通過 eBPF安全技術、可信計算及機密計算方面技
47、術創新,構建并升級了雙保險、可信任、高隱私的內生安全智能防護系統,有效防御 bootkit 攻擊、數據竊取和勒索軟件等高級威脅。一云多芯算力調度研究報告21層次化算力量化分析方法為實現算力調度,分別設計了規格算力、有效算力和業務算力,用于對不同層級的算力進行刻畫,具體如下:類型規格算力定義測算對象量化方法測算工具從服務器系統資源層面測試評估計算能力處理器、內存、磁盤和網絡等系統整機規格性能基準測試SPEC CPU,UnixBench,Stress有效算力從平臺層面測試評估中間件的資源封裝性能Redis、MySQL、Kafka等中間件針對中間件的并發性能、響應延遲、吞吐量等指標進行量化評估Red
48、is-Bench-mark,Mysqlslap業務算力從應用層面使用真實業務負載測試評估資源封裝計算能力客戶關系管理(CRM)、電商、AI推理/訓練等業務應用針對業務事務處理能力(TPS)、響應時延、迭代時間等指標進行量化評估Jmeter,LoadRunner表 1 層次化算力量化方法性、實現資源封裝生命周期管理的基礎,可通過收集器、調度器、攔截器實現。收集器采集并上報各節點的 CPU 架構、硬件特性等信息,建立包含架構特性的主機列表。調度器為各種粒度的資源封裝選擇匹配的主機節點,采用級聯過濾器機制,加載多個獨立的過濾器,依次對創建請求與主機進行匹配。在一云多芯場景下,通過級聯架構感知過濾器,
49、識別資源封裝創建請求中的鏡像架構標簽,根據 CPU 架構特性匹配結果過濾出主機節點。攔截器用于建立可動態擴展的“架構-功能”映射矩陣,解析資源封裝管理請求的動作及架構特征,執行攔截請求并將結果反饋展示,從而實現不同架構功能差異化的自動識別、動態擴展,屏蔽底層實現差異,提供統一的資源管理視圖。云操作系統層通過應用程序的跨架構編譯、構建資源的標準化封裝,并通過云資源的編排調度技術實現了程序的跨架構可運行性。一云多芯算力調度研究報告22算力量化是實現應用等價遷移的基礎,包括基于測評反饋的算力量化方法和基于性能模型的算力量化方法?;跍y評反饋的算力量化方法分別針對不同層級的算力,定義其量化方法及工具,
50、采用基于實際測量的方式對其算力進行量化。具體的,面向規格算力,采用基于 SPECCPU、UnixBench 等工具,對處理器等器部件的基礎性能進行量化評估;面向有效算力,采用Redis-Benchmark、Mysqlslap 等工具,對特定負載類型下的數據庫、中間件等基礎應用的實際處理能力進行衡量;面向業務算力,則需要聯合應用廠商,制定應用算力衡量方式,一般采用 Jmeter、LoadRunner 等工具,通過 TPS、響應時延等指標,對資源封裝的計算能力進行測算。云操作系統支持提供面向動態異構特征的算力量化框架,支持規格層、服務級、應用級算力需求測算,以支撐應用的跨架構等價調度。算力量化的另
51、一種方式是基于性能模型的算力量化方法,對于某些典型應用,可以通過建立性能模型的方式,避免在線測評的開銷(包括硬件成本及性能開銷),實現跨架構資源封裝規格的快速推理?;谛阅苣P偷姆椒▽τ谒懔R筝^高,浪潮云海云操作系統通過提供算力評估工具,初步實現了基于性能模型的規格算力評估。平臺內置了整機性能模型,并使用智能化的計算工作流對影響整機性能的因子進行綜合計算,定義了通用性能調度指數(GenericIndexforPerformanceBasedScheduler,GIPS),實現了支持一云多芯算力調度場景的整機性能評估。應用跨架構等價調度基于云操作系統提供的面向動態異構特征的算力量化框架,設
52、計基于測評反饋的等價算法,以算力量化結果作為性能得分損失函數,采用坐標下降、步長優化方法,調整遷移前后圖 7 浪潮云海算力評估工具一云多芯算力調度研究報告23資源容器配置,應用跨架構切換后性能指標(ServiceLevelAgreement,SLA)不降低,從而實現了等價調度。算力測算框架基于節點事件監聽的算力自動測算和上報機制,并對算力測算工具進行了容器化封裝,解耦操作系統依賴。當節點發生故障或計劃內維護時,針對應用遷移過程中可能面臨服務性能基線降低的問題,實現了等算力調度器,支持應用優先調度至等算力節點,當等算力節點不滿足要求時(例如無法發現等算力節點),則跨架構調度到異構節點,并基于節點
53、算力動態調整目標架構上的資源封裝規格或副本數,保持應用總算力不變,實現應用SLA 不降低?;A應用層基礎應用層(即PaaS層),泛指數據庫、中間件等用于支撐上層業務應用的通用應用程序?;A應用層的實踐主要圍繞其跨架構可運行性及分布式系統一致性問題開展??缂軜嬁蛇\行性基礎應用一般為多節點部署的分布式系統,以 X86 及 ARM 架構為例,根據其具體的部署形態,具體包括如下幾類典型場景。單架構集群模式數據庫集群1數據庫集群2x86架構節點1節點2.ARM架構節點1節點2節點n節點n數據庫集群主數據庫集群備x86架構節點1節點2.ARM架構節點1節點2節點n節點nx86架構節點1節點2.ARM架構節
54、點n跨架構主備模式跨架構混合模式數據庫集群(跨兩種架構)圖 8 基礎應用部署模式一云多芯算力調度研究報告24單架構集群模式跨架構主備部署模式跨架構混合部署模式即整個應用服務部署在面上特征相同或相近的環境中,節點間指令集一致、規格算力差距小、網絡同域,部署形式不限于虛擬機、裸金屬或者容器化等形式。其優點顯而易見,即能夠快速標準化構建生產級高可用集群,因此這也是生產環境中最常見的部署方式。為便于部署,應用廠商可能提供二進制安裝包、虛擬機鏡像等不同的資源封裝形式。隨著云原生技術的不斷成熟,越來越多的廠商也選擇提供容器鏡像以及對應的編排腳本的方式?;?Operator 的編排方式則不僅能夠提供應用的
55、編排,也能夠實現應用的高階運維能力,也逐漸成為開發運維工程師的首選。目前越來越多的開源應用提供了官方或社區版本的Operator,是一云多芯開放標準理念的體現,其發展思路值得商業廠商借鑒。在單架構集群模式的基礎上,新建異構資源池作為備集群。典型的,主集群基于 X86架構構建,而備集群基于 ARM 集群構建,集群之間通過架構無關的網絡通訊協議進行指令協同及數據同步。其優點在于采用性能較優的集群以保障系統性能及穩定性,同時能夠降低備集群的整體功耗及成本。然而,當備集群承接流量時,系統可能面臨降級運行的挑戰,可結合規格算力度量工具進行評估,以便確定備集群的副本數量或規格。該模式不僅滿足用戶對技術多樣
56、性的期望,同時具備可靠且可行的生產級能力,是緩解客戶對于芯片架構穩定性和可靠性顧慮的方案之一。應用提供商應當持續加強其在多架構上的穩定性可靠性測試,實現應用真正的跨架構等價(不僅包括性能上的等價,也包括穩定性、可靠性等方面的等價),以徹底打消用戶疑慮。即相同角色的節點分別分布在多種架構上。以一個三節點集群為例,其 X86 節點作為主節點,而 ARM 節點作為從節點(或備節點)。該方案適用于小型利舊資源池的構建。但是,由于節點間在指令集、算力等方面存在的差異,面臨非對等架構下的分布式應用狀態一致性保證問題,給其穩定性及可維護性帶來巨大挑戰。在一云多芯的當前發展階段,往往僅在小規模試驗場景下使用,
57、但放眼未來,相關研究及應用將會與日俱增。數據狀態同步非對等架構下的分布式應用狀態一致性保證問題可通過分布式一致性算法解決。ACM圖靈獎獲得者萊斯利蘭伯特(LeslieLamport)提出了基于消息傳遞且具有高容錯性的一云多芯算力調度研究報告25業務應用層業務應用層承載具有實際業務價值的應用程序,是一云多芯技術棧的最終目標。業務應用層的實踐也圍繞其跨架構可運行性及其數據狀態的治理開展??缂軜嬁蛇\行性基于分布式一致性協議的基礎應用簡化了業務應用的構建,因此典型的業務應用為無狀態的工作負載,與復雜分布式的基礎應用層相結合,組成了完整的業務應用。如下是幾種典型的架構。應用x86架構單架構模式OS/Ru
58、ntime/Lib模塊A模塊B應用ARM架構OS/Runtime/Lib模塊A模塊B應用x86架構跨架構遠程調用OS/Runtime/Lib模塊A模塊AARM架構OS/Runtime/Lib模塊B模塊B應用x86架構跨架構混合部署OS/Runtime/Lib模塊A模塊BARM架構OS/Runtime/Lib模塊A模塊B圖 9 業務應用部署模式Paxos 共識算法,Raft 等主流分布式一致性算法都基于其核心思想實現了數據狀態一致性。在此基礎上,跨架構的數據狀態同步需要進一步考慮節點的非對稱特征。以 Raft 協議為例進行說明。在選舉(LeaderElection)過程中,主節點(Leader)
59、向所有的從節點(Follower)周期性發送心跳來保證主節點地位,當一個從節點在一個超時周期內沒有收到心跳,則該節點轉化為候選(Candidate)節點參與選舉。多芯系統中各節點的處理能力、網絡條件等不同導致超時影響差異化,可采用基于極大似然估計的適應性方法,避免心跳延遲大、處理能力弱的節點頻繁觸發選舉,同時保證處理能力強的節點可快速發起選舉。對于投票策略,采用節點優先級或縮小隨機超時取值范圍機制,使強節點更容易獲得多數票。一云多芯算力調度研究報告26單架構模式跨架構遠程調用跨架構混合部署即應用整體部署在單一架構上。當有跨架構需求時,應用整體進行遷移(遷移過程中,通過一致性的存儲保障數據不丟失
60、,但是業務可能會中斷),適合于新舊硬件替換升級場景。當代復雜應用通常采用模塊化設計以提升系統的靈活性、可擴展性及可維護性。該模式下,不同模塊分別運行在不同架構中,并通過架構無關的網絡通訊協議或私有通訊協議進行互聯互通互操作。典型的,高性能的 X86 架構被用于部署數據庫集群,而擁有更多核心的ARM 架構則被用于部署無狀態的業務應用,構建整體的跨架構應用(集群),成為目前主流的跨架構部署方式之一。與基礎應用的跨架構部署類似的,該模式下所有的模塊均跨架構部署,是一種高度復雜的部署模式。不僅面臨非對等架構下的分布式應用狀態一致性保證問題,也面臨無狀態應用的流量治理問題,目前更多的處于探索和試驗階段。
61、需要基于云原生技術,并借助云操作系統提供的應用治理能力完成整個跨架構復雜應用的編排與調度??缂軜嬃髁糠职l云原生應用通過網關或負載均衡器將流量分發至各無狀態副本實例,流量成為無狀態工作負載的“狀態”。在多芯系統中,當應用在異構節點間遷移或彈性伸縮時,需要切分流量,并引流至對應節點的副本上。為保證服務質量不降級,根據有效算力、業務算力量化分析確定等價目標副本的規格和數量,并分配其承擔的流量比例。流量切換應與業務邏輯充分解耦,可采用服務網格的思想實現??刂泼娓兄北咀兓闪髁壳蟹植呗?,下發至網絡代理和網關。對于東西向流量,網絡代理劫持流量并根據切分策略按比例轉發到不同的副本。對于南北向流量,網關在
62、流量轉發時根據切分策略轉發到不同副本。在流量切分的瞬時過程中,受目標節點副本未啟動、TCP 連接延遲等因素的影響會出現無法響應、丟包等應用服務質量下降的情況,可以通過預熱、探針、重試、排水等技術保障應用跨架構的平滑切換。一云多芯算力調度研究報告27場景介紹方案介紹通信行業業務具有較為鮮明的特點,一是地域跨度大,二是設備數量多,三是數據類型復雜且海量。如何管理利用好海量數字基礎設施,通過新一代信息通信技術賦能千行百業,實現數字化轉型,成為通信云面臨的首要挑戰。具體需求包括:一、一云多芯,全棧融合。通信云業務場景豐富,覆蓋地理范圍廣,設備類型多樣,多元異構情況突出,涉及到不同廠商、多種架構的 CP
63、U、GPU、FPGA 等算力資源,需要通過一云多芯實現多元異構資源的統一調度管理。二、跨域一體化。通信云的鮮明特點是地域跨度極大,動輒跨越數百公里的范圍。如何管好、用好“點多面廣”的異構資源成為最核心的需求之一。三、易管理易運維。地域跨度大也給管理運維增加了難度?;诮y一云平臺實現業務快速上線,并實現跨域多數據中心的統一監控、故障預警、快速響應和協同工作,挑戰巨大、需求強烈。通信云基于“開放兼容、分層解耦”的技術路線,通過構建一云多芯的分布式資源池,支持多元異構資源的混合部署、統一調度、統一分發,實現資源靈活調度及業務高效上云。其整體架構如下:案例實踐通信云一云多芯算力調度研究報告28安全保障
64、體系運維運營體系跨域分布式云統一管理敏捷SAAS自用業務辦公類運營類.對外業務外網服務 生態合作.融合PAAS自建通用資源數據庫服務中間件服務容器服務數據庫服務中間件服務容器服務行業生態資源異構IAAS計算資源池存儲資源池網絡資源池異構處理器GPUFPGA內存自建機房租賃機房圖 10 通信云參考設計該架構具有如下特點。首先,以一云多芯為理念,以云原生技術為底座,建設統一的算力資源池,實現多元異構算力資源的打通和共享,避免資源孤島和重復建設。其次,實現了高效的云邊協同,構建“云-邊-端”跨域立體的分布式算力系統,強化聯動機制,實現統一管理、統一監控、統一運維。最后,針對多元異構計算資源的業務連續
65、性挑戰,通過建設統一運維管理平臺,將業務監控信息統一推送至告警平臺,實現“724 小時”全天候運維響應。一云多芯算力調度研究報告29農信云場景介紹方案介紹農信是金融體系的重要組成部分,農信的改革與建設,是健全農村金融服務體系、增強高質量農村金融供給的重要內容,對強化鄉村振興金融服務具有重要意義。農信網點分布廣泛,服務種類多樣,在金融行業數字化轉型的背景下,農信云的建設面臨諸多挑戰。首先,農信云原有的技術架構在靈活彈性和跨域調配等方面顯現出了局限性,制約著創新金融業務的發展。此外,現有資源類型較為單一,存在“單點故障”風險,難以支撐創新型應用。盡管云數據中心已具備基礎的運維監控管理能力,但在多維
66、度、高效、立體的自動化、智能化運維管理方面仍有待提升。因此,亟需優化資源類型及利用率,構建多元化的應用運行環境,通過“一云多芯”理念,實現農信云的整體轉型升級。具體需求包括:一、一云多芯改造。通過建設更加多樣化架構的資源池,滿足技術多樣化的需求,同時通過云平臺實現對異構資源池的統一納管以及應用跨架構編排部署的支撐。二、應用架構升級。傳統的農信業務系統多以集中式架構為主,為提升系統的可擴展性和可靠性,可采用更加現代化的應用設計理念,逐步完成業務系統的微服務化、分布化改造。三、可繼承可演進。由于硬件設備采購批次不同、品牌多樣、架構不一,產生應用適配難度大、業務上線速度慢、建設維護成本高等問題。因此
67、,采用“由易到難,小步快跑”的建設模式,采用全棧輕量化的架構,建設可繼承、可演進的云平臺,滿足資源業務持續增長需求的同時,實現高性價比的目標。通過一云多芯技術路線,農信客戶構建穩定可靠的金融云底座。通過一套云操作系統實現多種異構算力資源的統一調度管理,并將算力進行標準化、等價封裝,提供一致的云計算服務體驗。通過此架構,實現了多技術路線的共存,同時能夠加速金融業務上云,提高資源利用率和業務響應速度,簡化運維復雜性。其整體架構如下:一云多芯算力調度研究報告30計量計費服務編排流程審批用戶管理租戶管理配額管理訂單管理權限管理運營管理基礎服務備份服務虛擬機虛擬機裸金屬快照備份云硬盤網絡中間件東方通To
68、mcatNacos數據庫達夢MongoDBGBase云平臺虛擬機/裸機管理虛擬化/裸金屬集群WebDB容器容器集群統一網絡平面網絡設備異構服務器集中式存儲陣列App運維管理標簽管理資源管理規格管理鏡像管理工單管理報表管理監控告警安全管理圖 11 農信云參考設計該架構具有如下特點。首先,在IaaS資源層,構建了多芯混部的資源池,實現鯤鵬、海光、飛騰等多種異構算力資源的統一管理,屏蔽底層硬件差異,實現資源按需提供、動態擴展、均衡配置。其次,實現了 IaaS 層與 PaaS 層的解耦,先期建設以 IaaS 資源池為主,并按需部署提供支持標準協議的 PaaS 組件,實現能力的持續演進。在此基礎上,進行
69、辦公自動化一云多芯算力調度研究報告31機場云場景介紹隨著航空業的快速發展,各大機場集團正著手建設機場云平臺,旨在承載和整合機場數據總線,實現信息的高效流通和業務的協同管理。機場數據總線連接機場運營系統、弱電系統、安全系統、管理系統、商業系統、外聯系統等多個關鍵系統,涉及各個分散的網絡,需要進行統一的云平臺規劃設計。同時,機場的云平臺需要提供業務級、應用級、數據級的容災能力,以滿足機場核心、重要、一般業務連續性需求。綜上,機場云的具體需求包括:一、一體化云平臺。機場相關的業務系統大多分散部署,構建一體化的云平臺、實現現有數據中心資源的統一納管是目前機場云的首要需求。二、安全可控?!笆奈濉泵裼煤?/p>
70、空發展規劃中明確指出,要推進民航重要信息系統關鍵技術和核心設備的安全可控。在此要求下,機場云采用“一云多芯”建設理念,支持多種異構計算芯片及加速設備,優化異構算力調度能力,滿足安全可控需求。三、高可靠高穩定。高可靠、高穩定性的信息系統是機場安全生產的重要保障。一方面要要對芯片及整機的可靠性、穩定性進行充分的驗證測試,另一方面,通過云操作系統構建層次化的容災體系,彌補硬件高可用的不足,滿足業務高可靠的需求。機場云平臺聚焦于機場核心業務,包括機場數據總線、安檢信息、航班查詢、運行監管等,探索“一朵云”建設。首先,實現對不同廠商、不同架構的服務器、存儲、交換機等數據中心硬件設備的納管,基于開放兼容的
71、理念,避免單一廠商綁定。其次,通過云平臺實現對底層異構資源的池化及抽象,屏蔽底層硬件基礎設施架構差異,為應用的運行提供一致性的運行環境。其整體架構如下:方案介紹/郵件等辦公系統、風險管控等一般業務系統,以及信貸/互聯網等核心系統的改造?;谧灾鲃撔碌能浻布A設施,建設了“一云多芯”的農信云平臺,有效降低了軟硬件的兼容性適配復雜度和業務系統改造過程中的資源使用不確定性,以最小的投資滿足業務持續增長的目標。一云多芯算力調度研究報告32機場云平臺(服務中心、運營中心、運維中心)云服務資源管理計算服務彈性伸縮資源調度異構納管多云管理安全服務備份服務容災服務存儲服務網絡服務云服務監控告警自動化運維運維
72、大數據服務健康異構虛擬化資源統一納管新建虛擬化資源池T2聯合設備機房管理節點計算節點分布式存儲節點未來按需新增容器節點管理節點計算節點分布式存儲節點未來按需新增GPU節點管理節點未來按需擴容未來按需擴容未來按需新增新創節點T1/T2生產網原有虛擬化系統通用服務器通用服務器陣列存儲T1/T2安防網原有虛擬化系統通用服務器通用服務器陣列存儲信息管理網原有虛擬化系統通用服務器通用服務器陣列存儲原有系統集中納管存儲分離,靈活擴展一云多芯,兼容適配異構加速,服務拓展原有孤立虛擬化系統,可統一管理,可按需遷移架構開放解耦,計算存儲資源可按需拓展,可支持超大規模領先的多架構技術能力,平滑演進至一云多芯算力G
73、PU等異構加速算力擴展,大數據/AI等服務支撐拓展原有虛擬機按需平滑遷移圖 12 機場云參考設計該架構具有如下特點。首先,基于穩定可靠的軟硬件基礎設施構建一云多芯的統一資源管理調度平臺,支持多元化的計算芯片及加速卡,兼容原有虛擬化系統,建設機場“一朵云”。其次,建設自動化運營中心及可視化運維中心,支持全鏈路自動化運維,實現全棧監控、拓撲展示、智能預測,保障系統持續穩定運行。第三,基于異構基礎設施構建分層容災體系,實現業務與數據主備“雙保險”,RPO=0、RTO 達到分鐘級,容災等級達到 6 級。一云多芯算力調度研究報告33總結與展望一云多芯雖然已經成為業內共識,并逐步向成熟方向發展,但整體上還處于第一階段向第二階段過渡的時期。在當今加快實現高水平科技自立自強的基本要求下,一云多芯將會持續演進。展望未來,一方面要加強原創性、引領性技術創新,建立一云多芯發展的中國技術路線。遵循以應用為導向,以系統設計為核心的理念,堅持分層解耦、開放標準的原則,建立多元異構融合、軟件定義和軟硬協同的技術發展路線。另一方面,上下游廠商廣泛聯合,推動生態建設,推動“一云多芯”向第三階段邁進,真正實現應用跨處理器架構低成本或自由切換的最終目標。一云多芯算力調度研究報告34掃碼關注 浪潮云海公眾號