《北京金融信息化研究所:金融算力基礎設施發展報告(2024)(65頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融信息化研究所:金融算力基礎設施發展報告(2024)(65頁).pdf(65頁珍藏版)》請在三個皮匠報告上搜索。
1、金融算力基礎設施發展報告(2024)金融算力基礎設施發展報告(2024)北京金融信息化研究所2025 年 3 月北京金融信息化研究所2025 年 3 月編委會主任:編委會主任:翟象暉副主任:副主任:周夕崇黃程林編委會成員編委會成員(排名不分先后,按姓氏拼音排序)(排名不分先后,按姓氏拼音排序):儲量董曉杰封銓賢蔣懷深王文志俞楓張樂賓張志鵬鄭金橋周慧編寫組成員編寫組成員(排名不分先后,按姓氏拼音排序)(排名不分先后,按姓氏拼音排序):安思錦白陽常偉程小丹從平平高坤谷文寬郭偉安黃湘武李慧李侃侃李彥新李一昂劉文清劉楊蘇東明孫英明譚澤廷王愛玲王浩人王帥強王旭東楊明楊韜楊希袁佳張蕾張鵬南張世澤趙義斌周輝
2、主編單位:主編單位:北京金融信息化研究所參編單位:參編單位:中國農業銀行股份有限公司中國銀行股份有限公司交通銀行股份有限公司中國郵政儲蓄銀行股份有限公司中信銀行股份有限公司平安銀行股份有限公司渤海銀行股份有限公司北京農村商業銀行股份有限公司國泰君安證券股份有限公司萬國數據服務有限公司華為技術有限公司海光信息技術股份有限公司新華三技術有限公司北京中科仙絡智算科技股份有限公司版權聲明本報告版權屬于北京金融信息化研究所有限責任公司,并受法律保護。轉載、編摘或利用其他方式使用本報告文字或觀點的,應注明來源。違反上述聲明者,將被追究相關法律責任。前言隨著金融行業數字化轉型加速,金融算力基礎設施作為支撐這
3、一轉型的重要基石,正經歷著前所未有的變革。本報告旨在全面梳理金融算力基礎設施的發展現狀,分析其在智算化變革、存算網融合、綠色低碳發展、產業鏈供應鏈安全等方面的趨勢與挑戰,并提出針對性的發展建議,以期為金融科技的可持續發展與金融業高質量發展提供參考。目錄一、總體情況.1(一)定義范疇.1(二)背景意義.1(三)發展概況.2二、智算變革加速金融機構數智化轉型.7(一)AI 應用持續催生大規模智算需求.7(二)智算中心成為我國數字基建新熱點.8(三)金融業加快算力基礎設施智能轉型.9三、存算網協同構筑一體化金融算力網絡.11(一)算力高效管理支撐算力資源高可用.11(二)先進存力應用保障數據價值化基
4、礎.12(三)網絡技術創新應用促進算力互聯互通.14(四)存算網協同促進算力基建一體化發展.16四、節能降碳促進金融算力中心綠色發展.17(一)金融算力中心發展面臨嚴監管約束.17(二)新技術促進綠色低碳算力中心發展.19(三)有序推進金融算力中心綠色化發展.20五、信創提速增強金融算力產業鏈供應鏈安全.22(一)我國算力設施設備供應形勢嚴峻.22(二)國產算力產業生態持續優化升級.24(三)金融算力信創應用加快探索與實踐.25六、金融算力基礎設施發展建議.27(一)加強金融算力建設統籌規劃.27(二)強化金融算力關鍵技術攻關.27(三)引導金融業公共算力平臺建設.27(四)推進金融算力基建標
5、準化建設.28(五)營造金融算力開放發展生態.28附錄:典型案例及解決方案.301一、總體情況(一)定義范疇一、總體情況(一)定義范疇算力是集信息計算力、網絡運載力、數據存儲力于一體的新型生產力,主要通過算力基礎設施向社會提供服務。算力基礎設施是新型信息基礎設施的重要組成部分,呈現多元泛在、智能敏捷、安全可靠、綠色低碳等特征,對于助推產業轉型升級、賦能科技創新進步、滿足人民美好生活需要和實現社會高效能治理具有重要意義1。金融算力基礎設施金融算力基礎設施是指支持金融機構進行大量數據處理、分析以及決策支持的信息技術基礎架構,包括數據中心、云計算平臺、高性能計算(HPC)系統等。隨著金融科技及金融高
6、質量發展,金融業對高效能、高可靠性算力需求日益增加,同時對于綠色低碳的要求也越來越高,實現金融算力基礎設施高質量發展勢在必行。(二)背景意義1.發展新質生產力的代表性力量。(二)背景意義1.發展新質生產力的代表性力量。新質生產力是以“自主創新”為內核,具有高科技、高效能、高質量特征的生產力形態。目前,算力已成為衡量一個國家或地區科技創新能力和經濟實力的重要指標,算力基礎設施通過提供強大計算、存儲和網絡能力,為科技創新和產業升級提供了堅實的基礎。一是一是算力基礎設施作為算力、存力、運力等主要承載實體,有效支撐了大數據、人工智能等前沿技術研發和應用;二是二是算力基礎設施智能化促進了傳統產業數字化轉
7、型升級以及云計算、物聯網、區塊鏈等新興產業崛起和發展。三是三是算力基礎設施的發展帶動了芯片、服務器、存儲設備、網絡設備1來源:工業和信息化部等六部門發布的算力基礎設施高質量發展行動計劃。2等硬件設備以及軟件開發、系統集成、運維服務等軟件和服務發展,促進形成上下游協同的良好產業生態。2.賦能數字經濟增長的核心引擎。2.賦能數字經濟增長的核心引擎。數字經濟是以數字化的知識和信息作為關鍵生產要素,以數字技術創新為核心驅動力,以現代信息網絡為重要載體,通過數字技術與實體經濟深度融合,不斷提高傳統產業數字化、智能化水平,加速重構經濟發展與政府治理模式的新型經濟形態。金融算力作為數字經濟的重要組成,一是一
8、是促進了數字技術的研發與應用,推動數字產業化和產業數字化進程;二是二是為數字經濟發展提供了高效、可靠的計算和存儲能力,支撐數字經濟快速發展;三是三是通過算力基礎設施普及和應用,降低數字技術使用門檻和成本,推動數字經濟普惠化發展。3.支撐數字金融工作的重要底座。3.支撐數字金融工作的重要底座。當前數字金融已成為金融業的重要趨勢和發展方向。算力基礎設施為數字金融提供了強大的數據處理和計算能力支撐,保障金融業務的穩定、高效運行。一是一是為數字金融提供了海量數據的高效處理能力,如交易數據、用戶行為數據等,為金融風控、客戶服務等提供有力技術支持。二是二是為數字金融所需的復雜計算和分析工作,如風險評估、信
9、用評級等,提供強大的計算能力支撐。三是三是通過算力基礎設施的監控和管理功能及時發現和處理金融系統異常情況保障金融系統的安全穩定運行,提供數據加密、訪問控制等安全機制保障金融數據的安全和隱私。(三)發展概況1.金融算力總規模不斷擴大。(三)發展概況1.金融算力總規模不斷擴大。金融算力基礎設施作為金3融業數字化轉型的核心支撐,隨著數字經濟時代加快到來,對算力尤其高頻交易、大數據分析、人工智能等關鍵領域算力需求不斷增長,以滿足金融機構實時、高頻、智能、個性金融服務算力需求。在計算力方面,在計算力方面,目前金融算力基礎設施浮點運算能力已達到 PFLOPS 級別,部分領先金融機構甚至開始部署 EFLOP
10、S 級別的超級計算機,以滿足日益增長的計算需求。算力基礎設施高質量發展行動計劃(以下簡稱行動計劃)提出,2025 年我國算力規模將超過 300EFLOPS,智能算力占比要達到 35%,這需要金融行業在機架規模擴大、上架率提升等方面做出努力。在存儲力方面,在存儲力方面,金融業需要處理數據量持續爆炸性增長,為滿足大數據、云計算等技術對存儲需求,金融算力基礎設施的存儲規模不斷擴大,同時通過采用先進的存儲技術和優化存儲架構使得金融算力基礎設施的存儲效率和可靠性也得到了顯著提升。在運載力方面,在運載力方面,新一代網絡建設,包括 5G、6G 技術的應用,以及 SD-WAN、NFV 等網絡虛擬化技術使用,大
11、幅提升金融算力基礎設施的網絡傳輸速度和穩定性,為金融業務提供更加可靠的網絡支持。在業務承載方面,在業務承載方面,隨著金融科技快速發展與升級,金融算力基礎設施不僅能夠支持傳統金融服務,還能夠承載區塊鏈、數字貨幣等新興金融科技業務以及如智能投顧、量化交易等創新應用,為金融業發展提供了強大的技術支持??傮w而言,總體而言,近年來金融算力基礎設施在總體算力規模、業務承載能力等方面均取得了顯著發展成果,同時通過采用先進計算技術、優化存儲解決方案、搭建高效網絡架構以及引入人工4智能、機器學習等技術,推動金融算力基礎設施整體效能不斷提升,為金融業創新發展提供有力支撐。展望未來,展望未來,金融算力基礎設施將繼續
12、擴大規模、提升性能,為金融業數智化發展提供更強大動力。隨著技術進步和市場需求擴大,金融算力基礎設施也將為金融業帶來更多創新和可能性。2.金融算力大格局不斷優化。2.金融算力大格局不斷優化。金融算力基礎設施的布局對于確保金融服務的連續性、穩定性和安全性起著至關重要作用。在數字化時代,金融機構對于算力的需求不斷增長,促使金融機構越來越重視算力基礎設施布局規劃。在建設方式方面,在建設方式方面,金融業主要采用自建、租用、自建與租用相結合等方式,其中大型金融機構以自建為主,大中型金融機構以自建與租用結合為主,中小型機構以租用為主,云廠商等金融科技企業加快提供第三方算力租賃服務,未來隨著分布式、大數據、A
13、I 等技術發展及算力需求大幅提升,租用方式將成為后續擴展主要方式。在連續性和安全保障方面,在連續性和安全保障方面,為應對潛在的自然災害和技術故障,金融機構普遍采取了“兩地三中心”的策略保護關鍵數據和服務不受損失,同時開始采用“雙活”布局以提高了業務的可用性和靈活性,此外“多活”布局也有一定程度發展,進一步提高了業務的可用性和靈活性。據調研2,60%的金融機構實現“兩地三中心”布局,20%的金融機構采用了多地多中心布局,反映金融機構普遍建成了有較高災備能力的算力基礎設施。在地域分布方面,在地域分布方面,隨著國家東數西算工程推進,全國性金融機構采取了以一線城市為主2數據來源:北京金融信息化研究所面
14、向金融機構組織的關于金融算力基礎設施調研問卷,下文如無特殊說明,涉及調研數據均同此來源。5向二線城市及西部發展的整體布局策略,越來越多將算力中心布局或規劃布局至西部地區,尤其大數據類、AI 類應用向西部遷移趨勢明顯,而區域性金融機構算力中心則主要部署在本地區。展望未來,展望未來,面向更加數字智能時代需要,金融算力基礎設施布局將繼續朝著更加靈活、高效和安全方向發展,更加重視綠色節能技術應用,并加強與云計算、大數據、人工智能等技術融合,以適應不斷變化市場需求和技術進步。此外,金融算力基礎設施直接影響金融機構未來金融服務的質量和競爭力,其布局規劃不僅需要技術層面考量,也將上升至機構戰略規劃層面,得到
15、更高層級總體設計與資源支持。3.金融算力供需鏈不斷暢通。3.金融算力供需鏈不斷暢通?!八懔磭Α?,隨著國家競爭日益激烈,算力既成為衡量一個國家綜合實力的重要指標,也成為大國博弈焦點。例如 2021 年美國推出新版本無盡前沿法案即2021 年美國創新和競爭法案,被稱為美版“核高基”十四五計劃;同年中國宣布“東數西算”工程;2022 年日本政府計劃將云計算服務列為涉及國家安全的“特定重要物資”;此外美國頻頻出臺關稅、禁運等政策對中國進行算力核心部件的供應限制,國際算力競爭范圍和力度持續加大。為此,近年來各國政府都在加大對算力的投入和支持力度,通過制定相關政策、建設算力基礎設施等方式推動算力產業快
16、速發展。從需求端看,從需求端看,隨著人工智能尤其DeepSeek 等大模型技術與產品逐步成熟,大模型加快從實驗室走向產業端應用,推動金融業算力需求爆發增長,為金融算力基礎設施建設提供了有力內生驅動。數據顯示,被調研6金融機構過去三年算力增長率平均約為 44%,而部分算力薄弱機構為縮小差距也計劃在未來實現超過 100%算力增長,以應對快速增長的業務需求。從供應端看,從供應端看,國內算力行業正迎來歷史性機遇,雖然高端 AI 算力芯片和服務器市場被國外巨頭壟斷,但隨著國內企業在芯片設計、制造等領域不斷突破,國產算力產品正在逐步替代進口產品,例如華為、寒武紀等企業在 AI 芯片領域取得顯著進展,其產品
17、性能逐漸接近國際領先水平;國內數據中心和云計算服務商也加速布局,推動國產算力生態完善。從算力來源從算力來源3 3看,看,當前金融算力供給仍以通用算力為主,但通用算力中 CPU 是主要的算力提供者,預計 2030 年會接近硅工藝極限,通過工藝提升帶來性能提升可能實現但帶來成本急劇上升,摩爾定律放緩,而面向人工智能需要的智算增長更迅猛,或超越通用算力成為金融算力主要來源和支撐,此外超算、量子計算、光子計算等算力在金融算力基礎設施中的應用探索正處于起步階段但已展現巨大的潛力和價值,將為金融業帶來更多創新和變革。展望未來,展望未來,在國際算力競爭激烈、算力供需兩旺、傳統與新興算力競相發展背景下,我國算
18、力產業鏈、供應鏈將仍將保持較快發展速度,加快夯實金融業算力基礎設施底座,為我國金融算力需要提供有力保障。為更深入和針對性探討我國金融算力基礎設施發展情況,結合以上分析和研判,下文將重點圍繞金融算力基礎設施建設的智能化、一體化、綠色化、信創化等四個趨勢分別展開論述,并提出針對性政策建議,供金融業參考。3算力來源主要包括基礎通用算力、智能算力、超算算力等三類,以及量子計算、光子計算等前沿算力。7二、智算變革加速金融機構數智化轉型二、智算變革加速金融機構數智化轉型隨著數字經濟尤其人工智能時代的加快到來,金融業智能轉型趨勢明顯,發展智算成為金融業共識并獲得積極實踐。(一)AI 應用持續催生大規模智算需
19、求AI 應用持續催生大規模智算需求隨著人工智能時代漸行漸近,生成式人工智能(AIGC)快速崛起帶來算力尤其是智算需求的迅猛增加,推動算力規模持續擴張。據統計4,2024 年,中國智能算力規模達 725.3百億次/秒(EFLOPS),同比增長 74.1%,增幅是同期通用算力增幅的3倍以上;市場規模為190億美元,同比增長86.9%。未來,隨著 AI 技術的進一步深化以及應用場景的持續拓展,AI 算力正不斷從互聯網領域向不同行業數字化轉型以及基礎研究等領域滲透,人工智能算力需求將持續攀升,預計2030 年我國人工智能算力需求將達到 16206EFLOPS,約是2018 年的 390 倍5。行動計劃
20、中也明確提到,到 2025 年算力規模超過 300EFLOPS,智能算力占比達到 35%。近年來,隨著大模型快速迭代尤其是 DeepSeek 的出現,以及應用場景的復雜多樣,大模型規模和需要學習數據呈現爆發式增長,算力需求逐步從 TFLOPS 增加到 PFLOPS 級別,甚至進入 EFLOPS 級別,AI 算力需求遠超摩爾定律增長速度。以 OpenAI 的 GPT 系 列 為 例,GPT-3 的 訓 練 需 要 約3640PFLOPS-day 的算力(即以 1PFlops 算力計算 3640 天),而 GPT-4 參數量是 GPT-3 的 500 倍,算力需求將進一步大幅增加;雖然 DeepS
21、eek 模型通過動態路由機制和稀疏化設計,4數據來源:國際數據公司(IDC)與浪潮信息聯合發布的中國人工智能計算力發展評估報告。5數據來源:國家工業信息安全發展研究中心發布的智能計算中心 2.0 時代展望報告。8有效降低了算力消耗,但隨著其應用的廣泛落地和用戶規模持續擴大,將使得整體算力需求不降反升。此外,DeepSeek應用的成功,將推動大模型在 2C 領域大規模落地并促進 2B領域不斷成熟,從聊天類應用到智慧辦公類再到文生圖應用,帶動推理算力需求爆發增長,持續增加智能算力消耗和需求。(二)智算中心成為我國數字基建新熱點政策支持方面,(二)智算中心成為我國數字基建新熱點政策支持方面,智算中心
22、作為我國新型基礎設施的重要組成部分,近年來受到國家和地方政府的高度重視,相關支持政策不斷出臺。比如“十四五”數字經濟發展規劃提出推動智能計算中心有序發展,打造智能算力、通用算法和開發平臺一體化的新型智能基礎設施;“十四五”國家信息化規劃強調統籌建設面向區塊鏈和人工智能等的算力和算法中心;工信部發布新型數據中心發展三年行動計劃(20212023 年),強調加快高性能、智能計算中心的部署,推進智能計算中心標準建設;國家信息中心發布智能計算中心規劃建設指南,明確智算中心作為新型公共算力基礎設施的重要性,強調其在推動 AI 產業化、產業 AI 化以及社會治理智能化中的關鍵作用。市場驅動方面,市場驅動方
23、面,自ChaptGPT 引發的新一輪人工智能技術突破以來,全球算力需求呈現井噴式增長,同時相比小模型,大模型需要大量 AI芯片組成大集群進行分布式并行訓練計算,其快速應用推動智算中心邁向萬卡集群時代,以更好支持大規模 AI 模型的訓練與應用。比如美國的谷歌、Meta、微軟、亞馬遜、特斯拉不斷擴大其萬卡集群規模,提升智算能力;我國的騰訊、9字節跳動、三大運營商等知名企業逐步建成萬卡集群,迎頭趕上萬卡集群算力發展步伐,為用戶提供一站式智算服務;特別是大型金融機構,其集群規模需要上千張甚至上萬張加速卡、數百臺高性能計算設備。在政策與市場雙重驅動下,在政策與市場雙重驅動下,各地方政府、運營商、金融機構
24、、互聯網企業等紛紛啟動智算中心建設。據工業和信息化部部長金壯龍表示,我國數據中心規模近五年年均增速達近 30%。據統計,截至 2024 年上半年,國內已經建設和正在建設之中的智算中心超過 250 個,僅 2024 年前七個月就涌現 140 個新中標項目;截至 5 月底,全國規劃具有超萬張 GPU 集群的智算中心已有十多個。這些智算中心不僅覆蓋了北京、上海、南京等一線城市,還在鄭州、武漢等中部城市以及內蒙古、寧夏等西部地區加速落地。(三)金融業加快算力基礎設施智能轉型在智算建設策略方面,(三)金融業加快算力基礎設施智能轉型在智算建設策略方面,金融機構為保障安全合規多數采用了自建及私有化方式部署智
25、算能力,據調研,85%的金融機構采用自建智能算力的方式,不租用第三方資源,展現出對智能算力的重視。同時,根據各機構自身實力和業務需求實際,在智能算力基礎設施建設上呈現明顯差異化策略。其中,大型金融機構特別是國有銀行和跨國金融企業,通常具備雄厚資金和技術實力,更傾向于選擇自建強大智能算力基礎設施:采用私有云或混合云架構,以確保數據的安全性和系統的穩定性;投入大量資源建設專用的數據中心,確保高并發、低延遲的計算需求得到滿足;同時基礎設施在風險管理、合規性及業務連續性方面的設計也更穩健和冗余。相比10大型機構,中小金融機構資源相對不足,在智能算力基礎設施建設方面投入有限,傾向于依賴第三方服務提供商的
26、解決方案,借助云計算平臺快速部署所需計算資源,通過較低成本獲取先進智能算力,同時縮短技術落地時間。在智算規模提升方面,在智算規模提升方面,隨著金融業數字化轉型邁向深水區,作為數據與技術雙輪驅動的金融業日益依賴智能算力底座支撐,金融智能算力建設成為當前熱點,特別是近一兩年大模型在金融業快速應用推動行業智能算力需求快速增長。據統計6,截至2023 年末,200 多家銀行總算力規模達到約 4423PFLOPS,以CPU 為代表的通用算力規模約約 2492PFLOPS,以 GPU、FPGA為代表的新型算力基礎設施算力規模約 1931PFLOPS,同比增長 2.36 倍,新型算力規模占總算力規模的比重從
27、 2022 年的18.05%增長至 43.65%,遠超行動計劃對 2025 年智能算力占比要求的 35%水平。此外,據調研,有 70%的金融機構通過采購智能算力服務器來構建集群,但金融機構智能算力集群規模相對不足,最大規模均不足千卡,調研數據也顯示未來 GPU 采購需求超過 1000TFLOPS 的金融機構占比超過了50%。在基礎設施智能化方面,在基礎設施智能化方面,隨著數字化轉型深入,金融算力基礎設施的運維復雜度明顯上升,倒逼算力基礎設施運維智能升級,比如建設運維數據中臺、研發高效運維工具、應用人工智能等新技術來保障算力基礎設施安全可靠運營,但智能水平仍待進一步提升。根據調研顯示,有 85%
28、的金融機構擁有專門的基礎設施運維團隊,但多數機構基礎設施存在運維團隊人員規模?。ń?0%機構運維人員規模不足50人)、6數據來源:北京金融科技產業聯盟金融科技發展指數(FTDI)報告(20232024)。11運維智能化不足(實現運維智能化占比不足 20%)等問題。三、存算網協同構筑一體化金融算力網絡三、存算網協同構筑一體化金融算力網絡面向更高效、泛在、普惠、安全等金融算力應用需要,支撐算力基礎設施的算力、存力、運力等一體化融合進程將加快,促進東中西、云邊端、通智超量等多源異構泛在算力融合成網,提升金融算力有效性與可用性,加快滿足金融業智能化升級需要,并促進不同區域和機構公平普惠應用算力。(一)
29、算力高效管理支撐算力資源高可用(一)算力高效管理支撐算力資源高可用目前,金融算力基礎設施多數通過私有化方式部署,由于算力類型多元、投入成本高昂、機構實力懸殊等原因,導致金融業算力存在著可用性、易用性以及發展均衡性不足等問題,影響了算力資源的高效利用。據調研顯示,金融機構數據中心服務器的平均 CPU 利用率在 50%以下的機構占比達87.88%,其中又有近四成機構使用率在 20%以下。針對上述問題,金融業主要通過算力資源池化、異構并行、智能管理、云化服務等方式探索推進算力高效利用。在在資源池化方面,資源池化方面,金融業積極探索算力資源虛擬化、容器化、池化、云原生混合部署等技術應用,支持算力資源顆
30、粒歸倉,促進算力資源統一規劃和應用,支撐算力資源利用效率提升。在異構并行方面,在異構并行方面,加強多芯算力規劃部署,通過搭建“一元多芯”算力架構,促進多元異構算力的兼容和統一納管,進一步提高算力資源可用性,打造更加多元靈活算力供應格局。在智能管理方面,在智能管理方面,探索負載感知調度、訓推一體化、跨集群調度等工具和機制,促進算力資源在不同業務場景和時段的合理調配,12并采用智能管理軟件進行算力應用資源智能畫像,提供更精確應用資源需求描述,讓負載分布更合理。在云化服務方面,在云化服務方面,當前金融云服務成為金融服務創新的重要支撐,隨著金融業務系統云化升級,金融算力基礎設施云化趨勢日益明顯,金融業
31、積極探索通過微服務、云服務等方式以及采取多云策略,為金融服務提供更加易用和靈活的算力支撐。據調研,70%的金融機構建立了覆蓋全業務系統的云平臺,且 70%以上金融機構采用了多云策略,有 36.36%的金融機構采用了多云管理軟件進行多云管理。云服務基礎也加快夯實,截至 2023年末7,200 余家銀行云納管物理服務器規模達 41.87 萬臺、云服務器規模達 197.05 萬節點、容器規模達 284.18 萬個,近五年云服務器和容器規模均保持 40%以上增速。(二)先進存力應用保障數據價值化基礎(二)先進存力應用保障數據價值化基礎數字經濟時代,隨著海量數據指數增長、數據流動加速,數據存儲的數字基石
32、作用日漸突出,金融業數據價值化保障對于高性能存儲需求不斷提升。在存儲需求方面,在存儲需求方面,數據價值發揮前提是被存儲,據 全國數據資源調查報告 顯示,2023年全國數據生產總量達 32.85ZB,但累計數據存儲總量為1.73ZB,占比不足 3%,未來海量數據價值挖掘需求將帶來海量存儲需要。同時,隨著技術進步及以 DeepSeek 等為代表的生成式人工智能應用,對存儲尤其是高性能存儲需求顯著增加。據 Recon Analytics 調查顯示,AI 普及將推動未來數據生成爆炸式增長,到 2028 年存儲需求將至少翻一番;同時涉及 AI 數據安全的 LLM 檢查點與數據復制等保護措施也7數據來源:
33、北京金融科技產業聯盟金融科技發展指數(FTDI)報告(20232024)。13會進一步助推數據存儲增長。從金融業看,根據調研,金融機構存儲資源利用率超過 60%的機構占比接近 50%,近三年存儲資源增速超過 10%的機構占比達 81.82%,其中增速超過30%的機構占比達 24.24%;未來三年存儲資源計劃提升百分比超過 20%的機構占比接近 70%,金融業存儲需求十分旺盛。在存儲性能提升方面,在存儲性能提升方面,隨著技術進步,傳統的數據存儲效率難以滿足數據應用實時性需求、低效率的存儲設備無法匹配高要求的存儲場景要求等問題日益凸顯,而通過高能效、高可靠存力可實現“以存強算”“以存補算”,發展先
34、進存力日益迫切。以 AI 應用為例,GPU 算力發揮需要高性能存儲來高效提供數據并在整個過程中保持高利用率,存儲性能不足會導致 GPU 長時間處于空閑狀態;Meta 和斯坦福大學發布白皮書指出,在特定應用場景中存儲消耗了整個服務器功耗的35%。在存儲產業實力方面,在存儲產業實力方面,我國存儲產業水平不斷提升。從產業鏈看8,上游中我國企業研發的 232 層三維閃存芯片與美光同系列產品相當,代表業界最先進水平,其中已有十幾家廠商自主研發的 SSD 主控芯片成功商用;中游的存儲整機和存儲系統整體技術達到國際領先水平,其中華為位居 2023年全球企業級存儲設備市場第二位;下游的應用與服務中國產品牌在國
35、內市場占比達 85%,在全球市場占比達 20%。在金融業存儲發展方面,在金融業存儲發展方面,當前數字金融成為主流,實時交易、海量數據、持續創新的金融服務模式不斷催生具有金融業特點的存儲技術創新與應用,實現金融業務與存儲產業的互相促進、共同發展。比如存儲架構形成集中式、分布式、超融8倪光南:我國數據存儲產業現狀、問題及對策,中國網信2024 年第 11 期。14合等多元體系,確保傳統業務持續穩定同時支持金融業務創新發展;存儲組網架構衍生 FC-SAN、iSCSI、NAS、RDMA 等各類架構,以滿足不同金融業務場景需要;存儲介質應用從機械硬盤向固態硬盤等閃存技術發展,以響應高頻交易、數據分析和快
36、速檢索等要求更快訪問速度和低延遲的金融業務場景需要,據調研顯示,僅有不足 10%的金融機構采用純粹傳統磁盤存儲(HDD),采用傳統磁盤和固態硬盤混合的機構占比 57.58%,實現完全全閃存儲的機構占比 18.18%;存儲資源部署方面,存算資源逐步分離并建立獨立硬件資源池,以實現各類硬件靈活擴展和應用等。未來,金融業將繼續圍繞實時交易、AI 推理等數據快速訪問,大數據分析、AI訓練、跨域共享等數據分析共享,以及容災備份、價值挖掘等數據安全保存,加快推進先進存儲技術與產品創新應用,不斷夯實金融高質量發展的數據存儲和價值轉化支撐。(三)網絡技術創新應用促進算力互聯互通(三)網絡技術創新應用促進算力互
37、聯互通隨著金融業務日益多元以及對人工智能、云計算、邊緣計算等技術應用加速,數據中心向兩地多中心甚至多地多中心演變,云邊端算力服務需求加快涌現,突破算內網絡與算間網絡等技術,提升算力高效運載質量,促進算力資源的高速互聯顯得越發重要。在算力互聯需求方面,在算力互聯需求方面,隨著金融業務日益復雜化、多元化,尤其金融服務向線上服務、24 小時不間斷服務以及面向更多長尾或偏遠地區客戶發展,線上金融場景向高頻市場交易、多元理財服務等領域拓展,推動東中西、云邊端等各類算力加快融合與互聯互通,以滿足日益旺15盛的底層算力需求。在算力互聯網絡需求方面,在算力互聯網絡需求方面,面向用戶高品質入算、城市內算力互聯、
38、樞紐間算力互聯等算力互聯需求對網絡提出了新要求,如面向用戶入算需要便捷接入、安全可靠及靈活敏捷,面向算力互聯需要大容量、低時延及云邊協同,面向一體化算力調度需要算網協同及算力資源智能管理,超大帶寬、超低時延、安全可靠、泛在覆蓋、靈活敏捷、智能管控等成為算力網絡互聯創新的重要方向。在網絡技術創新重點方面,在網絡技術創新重點方面,面向前述算力互聯需求,支持算力高效運載互聯互通的網絡創新技術包括:提升算力中心基礎設施處理能力和數據傳輸能效比的高性能數據處理器(DPU)研發,滿足數據中心內部高效數據傳輸和低延遲交互需要的基于 RoCE 的智算網絡建設,支持智算集群低功耗、高帶寬、低延遲需求的光交換組網
39、關鍵技術,支撐分布式智算中心間業務高可靠傳輸的網絡關鍵技術等。通過以上網絡技術攻關與創新發展,將有效支撐算力資源的高速互聯。在金融網絡創新發展方面在金融網絡創新發展方面,金融機構普遍積極提升網絡承載能力,同時加強 IPv6、SD-WAN 及算力智能調度等網絡創新技術應用,不斷夯實金融算力互聯互通網絡基礎。調研數據顯示,不足10%的金融機構網絡帶寬超過 40Gbps,30%的機構網絡帶寬介于 1040Gbps,35%的機構帶寬介于 110Gbps,剩余機構帶寬低于 1Gbps;有 85%的機構支持超過 10000 個并發連接;金融機構普遍應用 IPv6、SD-WAN 等技術,應用機構占比達70%
40、及以上,其中 SD-WAN 部署完成度超過 75%的機構占比已過半;實現算力自動化調度的機構占比超過 30%,算力調度16應用場景集中于大數據處理、平滑業務峰值、AI 訓練、AI推理等領域。(四)存算網協同促進算力基建一體化發展(四)存算網協同促進算力基建一體化發展金融算力基礎設施涉及算力、存力、運力三大支柱,要將算力打造成為“一點接入、即取即用”的社會級服務,需要算力、存力與運力協同發展并構建一體化算力服務網絡。從存算網協同看,主要包括存算融合設計、存儲與網絡協同、算力與網絡融合等三方面協同。一是存算融合設計一是存算融合設計,促進存算合理配比,進而提升算力效率?!按嫠惚取笔呛饬恳粐虻貐^ I
41、T 基礎設施效能的重要指標,據統計存算比每提高 0.1個百分點就能帶來約 5%的算力利用率提升。倪光南院士指出為提高算力利用率,需合理配置存力資源,目前美國存算比達 1.11TB/GFlops,而中國僅為 0.42TB/GFlops。二是存儲與網絡協同,二是存儲與網絡協同,實現存儲資源智能感知、編排與調度。隨著金融科技發展尤其人工智能應用,存儲系統既要應對海量數據、多模態數據等復雜數據處理需求,也要響應和支撐云邊端等各類場景數據存儲與交互需要,推動存儲加快向分布式、云化、閃存化、智能化等方向發展,存儲類型多元化以及高性能要求對于通過存儲與網絡協同促進存儲與算力等更好適配提出新需求,如跨域多算的
42、存力調度、存網編排和存算網一體化系統等,以有效降成本、提性能和支撐業務。三是算力與網絡融合,三是算力與網絡融合,實現算力資源的智能管理。隨著金融算力資源日益多源、異構和泛在分布,如何動態高效管理算力資源越來越依賴高性能的網絡支撐。通過算力與網絡融合設計,17有助于提升算力資源動態感知能力,推動算力和網絡由網隨算動、算網融合走向算網一體,網絡也從支持連接算力演進為感知算力、承載算力,實現網在算中、算在網中。四、節能降碳促進金融算力中心綠色發展四、節能降碳促進金融算力中心綠色發展金融算力設施綠色化成為不可逆轉趨勢,嚴格監管約束、新技術應用、多元化策略將促進算力中心綠色化量質齊升。(一)金融算力中心
43、發展面臨嚴監管約束從能效現狀看,(一)金融算力中心發展面臨嚴監管約束從能效現狀看,隨著數據中心及機架規模的快速增長,數據中心用電量急劇攀升,據統計,2022 年全國數據中心耗電量占全社會用電量約 3%左右,預計到 2025 年提升至 5%,到 2030 年全國數據中心耗電量將接近 4000 億千瓦時。此外,人工智能將進一步推升數據中心能耗,其應用采用大量大功耗的高性能計算設備(如 GPU、TPU),會顯著增加能源消耗,并對供電系統也提出更高要求。金融數據中心能效管理水平方面仍需大力提升,據調研,金融機構數據中心的能源使用效率(PUE)平均水平為 1.56,其中最大 PUE 水平超過 1.5的機
44、構占比達 71.43%;水使用效率(WUE)平均水平為 1.68,最大WUE水平超過1.6的機構占比達77.78%。從政策要求看,從政策要求看,為響應和落實國家雙碳戰略,數據中心相關主管部門持續推動綠色數據中心建設。比如中國人民銀行金融科技發展規劃(20222025 年),提出積極應用綠色節能技術和清潔可再生能源、加快綠色數據中心建設和改造、加強能耗數據監測與管理等要求;對于新建大型、超大型數據中心電能利用效率 PUE 值要求不超過 1.3,到 2025 年,數據中心電能利18用效率 PUE 值普遍不超過 1.5;國家發改委會同中國人民銀行等有關單位印發綠色低碳轉型產業指導目錄(2024 年版
45、),提出引導數據中心綠色低碳轉型,推動信息基礎設施綠色升級;國家發展改革委等部門印發數據中心綠色低碳發展專項行動計劃,推動數據中心綠色低碳發展,加快節能降碳改造和用能設備更新,支持完成“十四五”能耗強度降低約束性指標。從金融行業特性看,從金融行業特性看,金融業對數據中心安全、可靠等方面有著極高要求,在降低數據中心能耗上面臨更大約束和挑戰。比如金融機構數據中心建設遵循金融業信息系統機房動力系統規范(JR/T 0131-2015),部分條款要求高于國家標準;由于強調安全,各級基礎設施須按容錯熱備運行,負載率低,會導致 PUE 值、CUE 值偏高;數據中心是金融機構的“心臟”,其穩定運行事關國家金融
46、安全,也就面臨著監管部門極為嚴格的高可靠和高可用要求,導致金融機構選擇綠色節能技術首要原則是高可用性、高可靠性而不是高資產回報率,一定程度限制了其產品選用范圍,更不能以犧牲安全為代價降低運行成本。此外,老舊數據中心改造升級面臨挑戰。此外,老舊數據中心改造升級面臨挑戰。我國金融數據中心一般于 2000 年前后開始建設,2012 年前后隨著云計算技術快速應用實現快速擴張,但當時國家對數據中心節能降碳及 PUE 值等指標尚無明確要求,建設標準遠達不到目前相關節能減排指標要求。如金融建筑電氣設計規范(JGJ 284-2012)中,對數據中心能耗要求 PUE 值中位數為 2.0,推算 CUE 值接近 1
47、.16,遠高于現在國家政策對老舊機房減碳要求閾值;早期數據中19心使用時間長,功耗大,承擔核心生產業務,且多數設計為傳統方案,在線翻新改造需將核心生產業務切換至災備環境再進行離線改造,面臨困難大且風險極高。(二)新技術促進綠色低碳算力中心發展(二)新技術促進綠色低碳算力中心發展隨著新一輪科技革命的到來,算力基礎設施綠色化發展也迎來更多的創新技術手段支持,為金融數據中心節能減排提供有力支撐。在高效能源管理方面,在高效能源管理方面,通過引入可再生新能源、余熱回收、儲能調峰等技術或方案,促進數據中心能源結構優化同時提升能源管理效率。比如光伏、風能等綠色新能源在我國廣泛利用,數據中心應用新能源不僅可以
48、減少對化石能源的依賴,同時可降低電網負載壓力;余熱回收再利用技術可以將數據中心的 IT 設備等產生的熱能用于建筑供熱、生活熱水等,促進降低碳排放,提高能源利用效率;儲能調峰技術通過利用水蓄能、冰蓄能或者蓄電池儲能等方式在電價谷時進行儲能充電、峰時平時進行放電,即可規避高峰期電力資源緊張局面,同時又可節約企業電費。據調研,有 36.36%的金融機構采用了風能、光伏、水能等可再生能源,但使用可再生能源比例多在 10%以下,發展空間依然廣闊。在液冷技術應用方面,在液冷技術應用方面,液冷技術加快成為金融數據中心進一步節能降耗的關鍵。傳統風冷和水冷系統架構在單機柜功率超過 15kW 后,制冷能力短板明顯
49、,隨著服務器功率和單機柜功率密度持續走高,液冷技術加快應用于數據中心制冷。行業內主要液冷系統大致分為非接觸式的板式液冷和接觸式的浸沒液冷,其中非接觸式的板式液冷因可操作性強、運20行穩定且節能最低 PUE 可達 1.1 左右,在市場上應用較其他液冷類型相對廣泛;浸沒式液冷是將服務器的發熱元器件完全浸沒在冷卻液中,通過冷卻液對流或相變將服務器的熱量帶走,冷卻液比熱可達空氣比熱的 1000 多倍,PUE 最低可達到 1.04 左右。據調研,絕大部分金融機構仍采用風冷技術,但有 18.18%的機構采用了風冷與液冷混合的制冷系統,液冷技術在金融算力中心得到初步應用。在水資源管理方面,在水資源管理方面,
50、提升 WUE 成為金融數據中心關注的另一個熱點。多地市出臺了針對數據中心用水定額,如北京出臺數據中心用水定額DB11/T 1764.112023,其中規定新建或改擴建項目 WUE 應低于 1.4,既有數據中心 WUE 應低于 2.1;循環冷卻水處理技術加快在數據中心應用,同時加大再生(中水)應用、雨水回收利用力度,助力 WUE 提升。但據調研,金融機構中多數表示將維持現有 WUE 值不做改善,僅有 21.21%的機構提出5%以下的 WUE 年度改善目標,金融機構算力中心水資源管理空間依然較大。在綠色創新探索方面,在綠色創新探索方面,通過在濱海城市建設海底算力中心實現“陸數海算”,促進算力基礎設
51、施綜合能效水平提升,比如海南陵水建設的全球首個商用 UDC(海底數據中心)。該方案通過采用海水自然冷卻,降低數據中心能耗同時服務器設備故障率僅為陸地數據中心的八分之一;通過與海洋潮汐能、風能等可再生能源結合,實現新能源就近消納;主要數據用戶多位于濱海城市,可實現就近部署,降低數據傳輸時延等。(三)有序推進金融算力中心綠色化發展(三)有序推進金融算力中心綠色化發展21目前,金融數字化轉型進入全面深化階段,數據中心建造速度和規模進入快速上升期,同時數據中心也加快從簡單建筑轉變成為復雜超融合綜合性算力基礎設施,這對金融數據中心綠色發展提出了更高要求。金融機構加快推進數據中心綠色低碳轉型,需要合理平衡
52、安全與發展的關系,通過老舊數據中心改造、新型綠色數據中心合理規劃和設計等方式,切實提升金融數據中心的綠色節能水平。一是合理平衡數據中心建設的“不可能三角”。一是合理平衡數據中心建設的“不可能三角”。金融機構數據中心由于起步早,主要是通過增加投入來獲得數據中心的安全穩定。隨著國家全面落實“雙碳”目標,金融機構數據中心需要在 SLA 高等級(高可靠、高可用)、PUE 值低(低碳節能)、TCO 低(成本低)這一“不可能三角”中做好平衡,以國標 A 級數據中心標準為基線,確定合理的數據中心建設標準,不盲目追求可用性、可靠性更高的 Tier4 等級。二是積極推進老舊數據中心翻新改造。是積極推進老舊數據中
53、心翻新改造。由于部分金融機構存量數據中心建設較早,電能利用效率普遍在 1.62.0 左右,不同程度地存在機房設備空間布局不合理、制冷系統效率低、機房資源負載率及運維管理效率不高等問題,節能減排空間較大。主要考慮提升數據中心的運行、維護、保養等三方面的能力,其中運行能力可推進數據中心氣流組織優化,并在日常運行中調節節能設備的可變參數,降低數據中心運行能耗,降低 PUE;維護能力可以提高空調、電氣設備等設備運行健康度,提高設備冗余程度,充分發揮變頻優勢,從而降低能耗;設備保養可通過及時保養,提高空調蒸發器、冷凝器、末端表冷器、22冷卻塔等換熱設備的換熱效率,保障設備充分換熱,避免能源浪費。三是高標
54、準推進新型綠色數據中心規劃設計。三是高標準推進新型綠色數據中心規劃設計。區域布局方面,積極向綠電資源富集地區進行多地多中心布局。按照國家“東數西算”戰略規劃,將對網絡傳輸時延要求高的數據中心建設在上海、北京等金融消費一線城市,將離線分析、后臺計算、存儲備份類的非實時性數據中心的建設任務轉移到可再生能源豐富、土地充足、氣候適宜的西部地區,就近消納西部綠色能源,緩解一線城市能耗指標緊張、電力成本高等壓力,提高數據中心綠色發展水平。設計優化方面,新建數據中心規劃設計既要對標人民銀行、國家發改委等各主管部門與數據中心建設相關的政策與標準規范,確保符合監管規范和要求,也要跟進當前主流和前沿綠色節能新技術
55、,從規劃選址、建筑節能、供電系統、冷卻系統、能源供給、水資源管理、智能運維等各方面入手,做好新建數據中心規劃設計,從源頭夯實數據中心綠色發展基礎。五、信創提速增強金融算五、信創提速增強金融算力產業鏈供應鏈安全力產業鏈供應鏈安全作為新質生產力的代表性力量,強化安全可信算力基礎軟硬件建設,并通過算力產業鏈協同形成自主可控解決方案,保障供應鏈安全,是保障金融安全、防范金融風險必要前提。(一)我國算力設施設備供應形勢嚴峻從全球供應格局看(一)我國算力設施設備供應形勢嚴峻從全球供應格局看,我國算力基礎設施核心技術與器件外部依賴較為明顯。隨著人工智能和大數據技術飛速發展,以算力為代表的算力基礎設施需求加速
56、涌現,推動算力芯片等核心器件需求爆發式增長。其中,英偉達系列芯片以強算23力、高通信帶寬和大 HBM 容量,成為行業的主導性廠商。以OpenAI 為代表的頭部企業長期依賴英偉達 GPU,引來產業鏈的眾多追隨者效仿,形成了大模型技術和海外供應鏈的深度綁定。我國金融業在 AI 探索應用階段普遍基于英偉達生態體系,使用 TensorFlow、PyTorch 等主流深度學習框架以及英偉達芯片進行模型訓練,同時美國對華芯片出口管制升級,臺積電、三星等算力芯片核心供應企業加入其中,使得我國在高端算力芯片供應上面臨巨大壓力。據調研顯示,采用了英偉達 AI 加速卡的金融機構占比接近 70%,國外算力占智算比重
57、超過 75%的金融機構占比達 45.45%,采用 TensorFlow、PyTorch 等人工智能算法開發框架的金融機構占比達 72.73%,智算平臺采用英偉達 CUDA 生態的金融機構占比達 63.64%,從算力芯片到算法及工具生態等均對外依賴明顯。從國產供給看從國產供給看,金融業算力性能要求提升或進一步凸顯國產算力供應短板。隨著金融業高質量發展以及大模型技術發展更加成熟,疊加 DeepSeek 對大模型產業生態的沖擊,金融業對算力需求加快從單純追求“量的擴張”轉變為注重算力的質量與效率。金融機構不僅需要強大的計算能力,更需要高效、穩定且安全的算力支持,以滿足復雜業務場景和快速迭代的需求。但
58、從國產算力產業鏈的需求適配看,仍存在不少難題亟待解決:國產算力芯片在制程和性能上與國際先進水平存在差距,硬件開發周期長,復雜性和試錯成本高;算力產業鏈的上游、中游和下游發展不同步,產業發展碎片化現象明顯;我國對芯片、軟件、整機、系統和行業應用等層面雖有布局,但關24鍵環節骨干企業規模小而分散;算力基礎設施部分領域的產業標準尚不明確,產品融合適配有障礙。此外,面對前期積累的海外算力產品及技術架構,在打造自主可控 AI 算力技術體系中,如何將模型快速平穩地遷移至國產基礎設施之上,讓業務層無感知,不影響業務效果,也是國產算力應用不容忽視的問題和挑戰。(二)國產算力產業生態持續優化升級(二)國產算力產
59、業生態持續優化升級近年來,在政策與技術的雙重驅動下國產算力產業穩健發展,生態加快優化,和經濟發展形成效能放大、疊加、倍增的正反饋。整體看,整體看,在行動計劃等頂層設計指引下,以京津冀、長三角、粵港澳大灣區等國家戰略區域為引領,各地政府持續加強算力資源集聚,推動算力產業鏈條完善,形成了積極向上、蓬勃發展的算力產業生態。截至 2024 年 9月,我國算力全產業鏈企業數達 9.1 萬家,其中上市企業 856家、高新技術企業 2.7 萬家。各環節看,各環節看,我國算力產業鏈主要環節加快創新驅動,如計算芯片、計算系統、計算軟件等環節相繼取得突破,CPU 與 GPU 異構計算技術基本成熟;存儲設備的數據
60、I/O 速度、低時延、高可靠等核心性能不斷提升,在分布式存儲等細分市場表現優于國外廠商;溫控設備、電源設備等規模提升較快,氟泵、模塊化、液冷等綠色節能技術完成試點應用,進入深化推廣階段;國產芯片制造能力持續加強,逐步補齊產業短板等等。重點突破看,重點突破看,DeepSeek的發布打破了大模型領域“越強越貴”成本詛咒,實現算力優化,顯著降低訓練和推理成本,催生海量算力需求。國產25算力產業迎來技術驗證和商業化落地新契機,全產業積極投入 DeepSeek 系列模型適配,近期國產算力適配競賽展示出國產算力產業鏈技術積累,將加速“國產算力+國產大模型”閉環生態構建,為金融算力信創與安全發展夯實產業基礎
61、。(三)金融算力信創應用加快探索與實踐(三)金融算力信創應用加快探索與實踐行動計劃提出,加快算力在金融領域的創新應用,為金融業務發展提供更為精準、高效的算力支持。為支持業務發展、保障供應鏈安全可持續,金融業各方積極開展算力信創測試、適配、遷移以及產業鏈上下游協同與生態優化,推動金融算力信創工作邁上新臺階。當前國內不少金融機構正有序開展國產算力產品應用測試、適配驗證乃至落地實踐等工作,積極為算力資源替代、智算擴容或算力底座平移做準備,同時與供給端協同發力并探索構建自主可控算力生態。據調研顯示,有 39.39%的金融機構采用如華為昇騰、寒武紀、海光信息等國產智算芯片。具體應用領域看,算力芯片方面,
62、算力芯片方面,CPU 基本采用 C86+ARM 雙技術路線,處理器性能已基本追平國際一流產品,X86 生態向 C86 生態和 ARM 生態的快速遷移能力成為金融用戶重點考量要素;GPU AI 芯片初步形成GPGPU+DSA 雙技術路線,金融業開始嘗試國產芯片替代國外芯片,芯片總體性能、CUDA 生態的兼容或快速遷移能力納入金融 AI 應用人員的關注點。云計算方面,云計算方面,部分金融機構構建了自主可控的云平臺,并通過虛擬化和容器技術,實現資源動態調配和按需擴展;國產云平臺和 DevOps 工具鏈的結合,實現從開發到運維的全流程自主管理。AI 計算方面,AI 計算方面,金26融機構通過“一云多芯
63、”架構整合 ARM、x86、GPU、DPU 等多類型算力資源;利用國產操作系統和算力池化技術,構建異構算力資源的靈活調配和高效利用;通過國產算力平臺,實現算力跨區域調度和標準化接入;實現華為、寒武紀等異構算力混合部署、統一調度,支持 4000 以上并發查詢。量子計算方面,量子計算方面,金融機構正在研究后量子密碼來應對量子計算帶來的安全挑戰,并探索利用量子密鑰分發技術提高數據傳輸的安全性,如建信金科已成功研發“量子投資組合優化算法”和“量子貝葉斯網絡算法”,并在金融場景中落地應用;行業性的“金融量子云實驗平臺”上線,平臺封裝了常用的量子算法庫函數并持續擴展量子金融算法模塊,打通量子金融領域的應用
64、、平臺、算力層次,實現量子真機算力和模擬算力的云化提供。此外,此外,隨著我國完全自主知識產權的DeepSeek 大模型快速推廣應用,在推動各行業智能化轉型同時也將帶來整體算力需求的增長,進一步推動我國算力硬件廠商、云服務商、大模型廠商等合作,推動我國算力產業鏈協同、高效發展,為金融業提供更優算力解決方案。未來,金融業將持續推進國產智能算力產品、高性能 AI 存儲以及高通量網絡設備的規?;瘧煤吞娲?,為金融高質量發展提供自主可控安全高效的算力基礎保障。27六、金融算力基礎設施發展建議(一)加強金融算力建設統籌規劃政策層面,六、金融算力基礎設施發展建議(一)加強金融算力建設統籌規劃政策層面,金融管
65、理部門加強金融業新型算力基礎設施建設相關頂層設計或總體規劃,引導金融業科學、合理開展新型算力基礎設施建設,同時及時開展政策輔導,扎實推動政策相關要求落地。機構層面機構層面,高度重視新型算力基礎設施建設,推動納入數字化轉型總體戰略;結合發展與安全、成本與效益、短期與長期等原則,合理規劃布局算力基礎設施建設,重點建設綠色智能數據中心;針對技術架構、算力底座、應用場景、綜合配套等開展系統謀劃,避免資源浪費。(二)強化金融算力關鍵技術攻關(二)強化金融算力關鍵技術攻關重點圍繞金融算力基礎設施的智算化、一體化、綠色化等領域發展的關鍵技術開展聯合攻關與應用,包括通用算力性能提升、智算集群建設與效率提升、算
66、力中心智能運維等智算能力提升相關技術,多源異構算力融合、算力資源池化與智能管理、磁光電融合存儲等高性能存儲、高性能數據處理器(DPU)等高通量網絡設備、基于 RoCE 的智算網絡等高性能網絡架構等促進存算網一體化發展相關技術,新能源、余熱回收、儲能調峰、液冷等促進算力綠色節能技術。(三)引導金融業公共算力平臺建設(三)引導金融業公共算力平臺建設由金融管理部門指導,行業組織或行業機構牽頭,組織金融機構、科技企業、高校院所等聯合建設行業性智能算力公共平臺。平臺通過建設統一的算力調度和資源管理平臺,支持跨區域、跨機構調度外部算力服務,并對多種 AI 算力28資源統一納管,建立統一資源池,實現資源跨云
67、靈活分配,支持行業機構按需使用算力資源或聯合開展金融業大模型訓練推理,緩解行業算力資源瓶頸?;谄脚_還可開展金融業高質量語料集建設、訓練金融領域垂直大模型,并支持行業機構以微調方式訓練服務自身的“小而美”特色模型。(四)推進金融算力基建標準化建設(四)推進金融算力基建標準化建設針對多元異構算力不兼容以及接口多樣化、算力運維觀測指標多元化、算力資源信創改造挑戰大等痛點難點問題,開展相關行業標準、團體標準建設,支持金融業多元異構算力資源的融合共享和高效管理。金融機構與產業側加強合作,推動算力基礎設施建設的標準化、模塊化和預制化,提高算力基礎設施供應鏈產業化水平,同時積極開發高效智能算力設施運維工具
68、,支撐金融機構算力基礎設施安全高效運維。(五)營造金融算力開放發展生態(五)營造金融算力開放發展生態發揮政產學研用多方力量,持續建設開放、競爭、韌性、安全的金融算力產業生態。在技術路線方面,在技術路線方面,鼓勵算力產業開放開源發展,發揮我國金融科技人才密集與市場規模龐大優勢,充分凝聚行業合力,群策群力推進金融算力基礎設施發展。在產業鏈協同方面,在產業鏈協同方面,加快完善上游的關鍵技術與器件聯合攻關、中游的工具鏈與工程化方案等創新完善、下游的應用場景挖掘與商業模式創新,促進金融算力產業鏈上下游協同生態。在政府與市場協同方面,在政府與市場協同方面,結合不同區域和場景特色算力需求,發揮地方政府、金融
69、機構、產業機構等力量,有序發展公共算力、私有算力及第三方算力,穩妥推進算力29基礎設施互聯互通,為金融業高質量發展持續提供多元算力支撐。在國產算力生態方面,在國產算力生態方面,加快國產算力產品的應用測試、適配驗證、落地實踐等工作,積極為算力資源替代、智算擴容或算力底座平移做準備,同時與供給端協同發力并探索構建自主可控算力生態,夯實金融高質量發展的算力底座。30附錄:典型案例及解決方案01 中國農業銀行:構建綠色低碳數據中心的探索與實踐一、案例背景01 中國農業銀行:構建綠色低碳數據中心的探索與實踐一、案例背景近年來,隨著數字經濟和智慧銀行的蓬勃發展,銀行數據中心作為金融業基礎設施的重要組成部分
70、,規模和能耗持續攀升。為積極響應國家雙碳戰略,認真落實“雙碳”工作方案,竭力緩解智慧銀行轉型過程中算力需求增加帶來的能耗增加與節能減排之間的矛盾,某大型銀行數據中心積極研究探索,在有效保障全行安全生產的前提下,開展了一系列構建綠色低碳數據中心的探索與實踐,實現能效顯著提升,并有效指導行業機房綠色運維以及新機房規劃建設。二、案例內容(一)新建機房規劃建設實踐1.首次結合熱島漂移效應科學選址二、案例內容(一)新建機房規劃建設實踐1.首次結合熱島漂移效應科學選址以上海市為例,參考上海城市風玫瑰圖,上海存在向岸風的現象,導致熱島發生漂移。機房設計團隊結合熱島漂移效應,科學選址,新建機房選址地塊比市平均
71、氣溫約低 0.8,間接蒸發空調系統比市平均能耗降低約 3%。2.業界首次提出低碳設計“四短”原則2.業界首次提出低碳設計“四短”原則一是短電流:一是短電流:電流路徑變短,可以減少電阻損失,降低電壓降,減少電能損失。例如選用母排垂直配電技術減少電力傳輸靜態損失,選用一體化電力模組減少電力變換動態損失。二是短氣流:二是短氣流:氣流變短,減少冷氣因對流、泄露等導致的能量損失,提高循環效率,降低空調負荷。例如選用間接31蒸發冷卻設備直接空空熱交換,減少了熱對流和熱傳導導致的熱量損失。三是短水流:三是短水流:水流變短,減少冷媒水流動阻力,減少管道和環境熱交換的溫度損失,提高水泵工作效率。例如合理設計管道
72、路徑,減少管道彎頭,選用變頻水泵,靈活調節水流量,節能供水。四是短碼流:四是短碼流:遵循星型結構,配置環形橋架,網絡設備就近布置,簡化結構。例如選用 TOR布線技術,減少網絡柜、跳線架和配線架的使用量。(二)在用機房節能降碳實踐(二)在用機房節能降碳實踐數據中心的運行能耗主要包括 IT 設備能耗、制冷系統能耗、變壓器及 UPS 等電氣損耗、照明等其他能耗構成。IT設備的能耗主要取決于設備的能效比,而電氣損耗則與負載率直接相關,因此,這兩類節能優化工作需要從業務層面進行統籌規劃。制冷系統能耗在數據中心中占比較大,運行工況較為靈活,存在諸多優化空間。大型數據中心一般采用水冷空調系統,其節能降碳探索
73、與實踐主要從空調末端、空調冷源、AI 調優三方面開展。1.優化空調末端控1.優化空調末端控制邏輯,滿足按需供冷制邏輯,滿足按需供冷數據中心機房精密空調采用送風量調節與冷凍水量調節相結合的方式,控制邏輯采用先調水閥后變風量。選取典型精密空調開展風機轉速功率特性測試。風機轉速比在80%以上時,風機能耗隨風機轉速比的增加急劇增加。以該行某機房模塊為研究測試對象,將精密空調 EC 風機轉速比手動調至 80%,穩定后使用風量罩測試每塊格柵地板風量,并與機柜實際需求計算風量(基于 IT 設備功率、實測溫差32計算)進行對比,實測風機輸出上限設置為 80%是可行的,風量不足之處實施格柵地板調整和氣流優化等局
74、部調整。在制定完整回退計劃后,以某機房作為局部試點,然后在整個機房開展調優。調優后機房精密空調總功率降幅達 52.9%,效果顯著。2.精細調節冷源冷卻水溫度,充分利用室外冷源2.精細調節冷源冷卻水溫度,充分利用室外冷源理論上,降低冷卻水出水溫度可提升機組 COP,但會導致冷卻塔散熱風扇能耗提升,總體是否節能需要實測分析。此外冷卻水溫度不能無限制降低,主要原因是冷卻水溫度太低不利于潤滑油系統回油。在分析數據中心機房 6 個月間冷水機組的運行數據基礎上,進行相關冷卻水水溫調優:使用群控系統所記錄數據中心機房年度冷水機組的運行數據,經過數據清洗擬合,可知冷水機組 COP 隨冷卻水回水溫度 Tw 的升
75、高而明顯降低。為探究冷卻水溫度降低的節能潛力,某日將冷卻塔出水溫度設定為 17,并記錄冷機油位計油位,每次巡檢觀察油位,若出現油位異常立即啟動回退方案。為排除室外天氣干擾,在分析數據時,選取調整前后室外濕球溫度相近的兩周運行數據開展分析。經此調優后,年節電量約為 14.5 萬度。3.空調系統 AI 節能調優實踐3.空調系統 AI 節能調優實踐在用機房空調系統 AI 節能調優實踐是利用 AI 技術開展空調節能的一次嘗試。通過對該在用機房空調系統運行數據整合、訓練,利用 AI 技術,建立針對數據中心機房的空調制冷能效預測模型,實現空調系統能效智能尋優,從而優化33空調系統工況,動態降低機房運行能耗
76、,進一步提升數據中心綠色低碳運行水平。AI 調優整體過程算法架構設計如下圖,主要包括空調設備運行參數模型、冷負荷預測模型、尋優算法、強化學習迭代優化四部分??照{系統 AI 實踐主要針對數據中心機房冷源系統,通過 AI 智能優化算法實現冷源系統運行參數的智能推薦,經運維人員評估后手動下發執行,以降低數據中心機房冷源側的運行能耗。數據中心機房空調 AI 節能算法的數據均來自動環監控平臺,使用 SNMP 協議獲取動環監控平臺中的實時監控數據,實現空調系統狀態及功耗情況的實時感知。完成算法建模、范圍確認及監控對接后,AI 軟件可以根據模型自動計算出空調運行參數的優化調整意見,運維人員對推薦參數進行評估
77、,據此完成優化參數的下發執行。在參數下發后,調優軟件通過獲取最新的空調運行數據及能耗數據,判斷參數調整對系統節能效果的影響,利用自身學習機制開展迭代優化,逐步提升推薦參數的效能。三、案例創新點及成效三、案例創新點及成效新建機房規劃建設方面,一是一是發明了基于數字孿生的機34房設計方法,填補了金融機構在機房設計領域發明專利的空白。二是二是利用城市熱島漂移效應科學選址,為機房節能取得先天優勢。三是三是首次提出雙碳目標下低碳設計“四短”原則,系統性地優化機房設計,為數據中心低碳設計提供了指導,具有重要的實踐意義和推廣價值。在用機房節能降碳實踐方面,一是一是末端側的調優?;趶V泛的實驗測試和深入的數據
78、分析,制定綜合策略優化方案,大量節省了機房末端側能耗。二是二是冷源側的調優。在歷史數據分析基礎上,綜合考慮氣象數據,合理優化冷卻水水溫,提升水冷機運行效率,降低水冷機運行能耗。三是三是智能降耗平臺的應用。在該大型商業銀行數據中心中,首次利用 AI技術在風冷-水冷異構雙冷源系統的工程實踐,在參數調優、數據分析以及在線故障診斷等方面,節省大量人力,能實時、在線地幫助環境運維者分析潛在的節能點、隱藏的優化點以及可能的故障點,大幅提升暖通設備運行效率,降低潛在運行風險。四、案例經驗1.重視新建機四、案例經驗1.重視新建機房的低碳節能設計房的低碳節能設計根據機房所在地區的氣候特點等因素,因地制宜開展選址
79、建設,并選取適合的綠色低碳技術節流開源。新建機房采用了間接蒸發冷卻、氟泵雙循環、光伏發電等技術,節能應用水平處于行業領先水平。針對新技術應用利弊及部分重要技術細節,機房設計團隊通過現場考察、外部專家論證等方式,充分調研了金融業及其他行業的應用案例、效果和經驗,35并對新技術供應商應用情況、行業內規范、技術規格及政策支持進行分析,確保新技術應用“有據可依”;同時,對關鍵技術細節進行充分論證,保障機房能夠安全投產。2.深度挖掘在用機房的節能減排發力點2.深度挖掘在用機房的節能減排發力點數據中心排名前三的“用能大戶”分別為 IT 設備、空調設備、電氣設備,其中 IT 設備、電氣設備能耗主要取決于先天
80、設計,難以在保障安全基礎上通過運維降低其能耗,而空調設備能耗很大程度取決于運維水平,在保障基礎設施安全運行的前提下,深入地分析暖通設備運行控制原理,靈活地應對暖通設備復雜的運行工況,開拓地應用人工智能輔助策略,多措并舉,可實現數據機房安全降碳。02 某大型商業銀行:AI 算力基礎設施轉型創新案例一、案例背景02 某大型商業銀行:AI 算力基礎設施轉型創新案例一、案例背景隨著人工智能場景和數字化業務的加速落地,AI 大模型算法和數據巨量化對算力需求呈指數級增長,傳統基礎設施已無法滿足 AI 大模型的大算力需求,亟需建設支撐 AI 大模型所需要的大規模分布式 AI 算力基礎設施。同時為降低供應鏈風
81、險,確保 AI 業務創新應用的持續穩定開展,某商業銀行深入調研 AI 算力基礎設施技術及產業應用發展,積極開展 AI 算力基礎設施轉型創新,提供高效可靠的 AI 算力解決方案。在取得自身建設成效的同時,該行還積極推進創新成果輸出和行業生態建設,協助行業伙伴提升金融服務的智能化水平和安全可控能力。二、案例內容二、案例內容36(一)目標(一)目標設計 AI 算力基礎設施轉型解決方案,實現 AI 芯片、網絡、訓練框架以及云平臺等軟硬件系統全面可控,為大模型訓練業務提供高性能、高可靠的 AI 算力基礎設施資源,保障大模型業務訓練的高效率與高穩定性。1.技術目標一是建設全??煽丶?.技術目標一是建設全
82、??煽丶?。著力解決 AI 算力基礎設施在AI 服務器、GPU 算力芯片、高速互聯交換機、AI 算力框架的關鍵組件轉型創新。二是構建異構算力管理能力二是構建異構算力管理能力。建設支持統一納管 GPU、NPU、MLU 等 AI 芯片的算力管理平臺,實現 AI 異構算力資源統一按需調度。三是提升網絡高速互聯能力三是提升網絡高速互聯能力。通過網絡高速帶寬接入、參數面多鏈路流量均衡、網絡接入架構優化等技術突破,進一步提高大規模算力集群的 AI 線性度,建成訓練效率更高的 AI 算力基礎設施。四是提高集群存儲讀寫效率。四是提高集群存儲讀寫效率。研究引入 NAS 存儲緩存層,滿足千億級大模型訓練分鐘級 c
83、heckpoint 的保存頻率要求,進一步提升大模型 AI 算力集群的存儲性能。五是加強集五是加強集群連續運行能力群連續運行能力。研究金融科技運維領域的智能運維技術,針對金融科技領域運維數據量龐大、數據結構復雜、預測準確性和自動化處理效率要求高等訴求,解決人工標注成本高、周期長、準確性不高等問題,賦能數據中心安全生產。37六是賦能金融行業全域生態六是賦能金融行業全域生態。推動技術和行業生態建設,實現網絡、服務器、AI 芯片以及訓練框架層面全鏈路的主流廠商產品與 AI 算力基礎設施轉型解決方案的適配兼容。2.業務目標2.業務目標設計新型 AI 算力基礎設施部署方案,實現 AI 模型訓練效率和算力
84、資源利用率雙提升,賦能大模型技術,實現端到端業務與科技智能融合創新。(二)應用場景簡介(二)應用場景簡介本解決方案通過 AI 算力底座轉型創新,賦能千億級大模型技術體系,支撐遠程銀行、網點運營、個人營銷等近 20個業務領域,并向中小銀行機構輸出大模型應用服務能力。遠程銀行業務應用場景如下圖:網點運營業務應用場景如下圖:38個人營銷業務應用場景如下圖:(三)架構設計1.功能架構(三)架構設計1.功能架構本解決方案重點關注底層 AI 算力基礎設施關鍵軟硬件轉型創新,實現 AI 算力、高性能網絡、NAS 文件存儲、云平臺等軟硬件系統全??煽丶?,全面支持國內外 AI 訓練框架,有力支撐 AI 業務系
85、統平穩運行。如下圖所示:392.系統架構2.系統架構本解決方案從基礎設施、訓練框架、模型以及業務場景等多個層面完成 AI 技術體系全??煽亟ㄔO及適配。如下圖所示:一是場景層。一是場景層。通過 AI 算力基礎設施創新賦能大模型技術,實現顛覆性、端到端業務與科技智能融合創新,在工作中提質增效、激活經營活力、增強風險防控等方面成效顯著。二是模型層。二是模型層。支持 GLM-130B、盤古-135B 等千億大模型、千問-14B/32B、GLM2-66B 等百億大模型的二次訓練+微調。三是框架層。三是框架層。全面適配支持 Mindspore、Paddle、Tensorflow、Pytorch 等國內外主
86、流訓練框架。四是基礎設施層。四是基礎設施層。建立可控 AI 算力、網絡、存儲的智40能化統一運維機制。3.技術架構3.技術架構圍繞算存網協同的目標,深入研究并采用了智能無損以太網技術,加大算力網絡與存儲技術創新及應用,適配飛速發展的 AI 算力技術和大規模 AI 算力集群,構建滿足數字化、智能化轉型創新需要的算力基礎設施。如下圖所示:其中的關鍵技術設計包括以下六個方面:一是智能無損網絡技術。一是智能無損網絡技術。通過實時采集流量特征和網絡狀態,結合 AI 算法,對未來的流量模型進行預測,從全局視角實時決策并刷新網卡和網絡參數配置,使得網絡交換機緩存被合理高效利用,實現整網零丟包。二是死鎖避免技
87、術二是死鎖避免技術:通過感知全網拓撲計算出破除死鎖環的最佳點,將感知到發生死鎖環點的流量切換到新隊列,并且通過 PFC 反壓幀反壓回原隊列。解決死鎖對原隊列的buffer 依賴,破除死鎖環形成的條件。三是跨節點高速互聯技術。三是跨節點高速互聯技術。通過高性能 RoCE 網絡替代業界常用的 Infini-Band 組網方案實現高密度 AI 算力節點互聯,集群算力加速比達 0.95,處于同業領先水平。41四是動態負載均衡技術。四是動態負載均衡技術。根據整網交換機節點流擁塞狀態和全網拓撲進行全局算路,識別出最優路徑,實現多任務流量全局均衡。五是算網協同技術。五是算網協同技術。以算網協同聯動提升集群
88、AI 訓練效率,實現網絡拓撲感知、AI 算力芯片感知、網卡出口感知的智能調度,提升 AI 算力資源整體利用率。六是分層存儲架構技術。六是分層存儲架構技術。創新提出分層存儲架構的高性能存儲解決方案,原始數據由對象存儲來承擔,發揮大容量優勢并實現與大數據存儲共享;支撐訓練數據由企業級文件存儲來承擔,通過存儲加速層進一步提升 AI 算力集群存儲性能。三、案例創新點及成效三、案例創新點及成效建成基于 RoCE 高性能網絡的分布式 AI 算力集群,實現AI 模型訓練效率和算力資源利用率雙提升,是首家具備支持千億級參數大模型訓練能力的銀行。不斷深化大模型技術面向全業務流程的綜合化運用,形成端到端智能化解決
89、方案,提質增效效果顯著。其中,在遠程銀行領域,貫穿客戶服務業務全流程,覆蓋事前運營、事中輔助和事后質檢等環節,實現座席工作效率全面升級,平均通話時長壓降 10%,座席服務效率提升 18%。在運營管理領域,面向 20 萬網點基層員工,融會貫通跨境支付、遠程授權等 50 多種專業和上千萬字篇幅的金融業務知識,提升網點員工業務處理效率與服務質量,支撐銀行業智慧金融業務創新。四、案例經驗四、案例經驗42為保障 AI 算力基礎設施平穩投產運行,采取了如下 5項保障措施:1、充分驗證,確保業務平穩上線。1、充分驗證,確保業務平穩上線。試點投產前,綜合分析基礎設施環境架構特點,對大模型算力集群方案進行全面系
90、統設計,開展性能與高可用驗證,確保上線后的業務可用性。在試點投產后,設計模擬局部故障應急演練,確保高可用滿足生產運行需求,同時,持續分析投產后應用運行情況,保障投產應用質量,避免造成業務影響。2、分階段穩步推動擴大試點。2、分階段穩步推動擴大試點。自 2021 年起,遵循由簡單到復雜、由小規模試點到大規模推廣的原則,首先試點基于高性能 RoCE 網絡的分布式AI集群;隨后2022年完成首個國芯分布式AI算力集群建設,算力規模達到數十 PFlops;2023 年完成金融同業首個支撐千億算力的國芯AI算力集群建設,算力規模達到數百PFlops;2024 年完成第二個千億的 AI 算力集群。3、提煉
91、全流程應用方法論,革新大模型業務賦能模式。3、提煉全流程應用方法論,革新大模型業務賦能模式。從商業銀行實際應用視角出發,業務技術雙向融合,從大模型的金融應用解決方案、金融業務賦能兩方面提煉方法論,一是首創“3-1-N”基于范式的 AI 技術規?;D換方法論,建成以智能中樞為核心的 1+X 應用范式,實現高效高質量的業務場景應用;二是首創兩階六步金融大模型應用創新方法論,從分析現有工作流到重塑未來工作流,發現堵點、挖掘爆款、重塑流程,有效指導大模型在金融領域下端到端、43規?;涞?。4、配套建設,保障網絡安全及運維管理能力。4、配套建設,保障網絡安全及運維管理能力。大模型 AI 算力基于以太網構
92、建,實現數據中心內算力網絡與云網絡統一運維??紤]到算力網絡的重要性,對安全和運維監控管理系統進行了詳細的研究梳理,圍繞 AI 算力集群算存網協同運維的目標,研究提升 AI 算力集群的故障定界以及自動故障隔離等能力,提升整個 IT 基礎設施高可用和自動化水平。03 中信銀行:金融云化算力基礎設施轉型創新實踐一、案例背景03 中信銀行:金融云化算力基礎設施轉型創新實踐一、案例背景為支持數字化轉型深入推進、確保供應鏈安全,中信銀行在核心系統主機下移和基于 ARM 服務器的全棧云基礎上,不斷加大技術創新,構建了全??煽?、“一云多芯”的金融算力基礎設施,為金融應用創新提供安全穩定的基礎算力平臺,夯實金融
93、數字化轉型技術基座。二、案例內容二、案例內容中信銀行在完成覆蓋全行的中信銀行云建設后,按照中信銀行“十四五”規劃,重點圍繞安全可控、支持云原生應用、高效支撐數字化轉型等,不斷提升可用性、擴展能力,實現更加敏捷和彈性的資源供給。(一)項目目標(一)項目目標通過引入全棧云技術,實現云技術跨越式升級,并與主流云廠商保持技術同步,融合計算、存儲、網絡等底層技術,構建敏捷、彈性、安全可控的 laaS、PaaS 一體化的云基44礎設施,為云原生應用提供全??煽氐幕A設施支撐。通過建設開發測試云、生產云、子公司云、生態云等“四朵云”,為中信銀行數字化轉型提供堅實的技術基座,達到同業領先水平。(二)主要內容(
94、二)主要內容按照超大規模標準設計,項目攻克了公有云技術在銀行私有化部署時各類適配問題,實現以軟件定義、分布式為特征的公有云技術全面落地,全面支持容器、Mesh、微服務、DevOps 等各類云原生應用。與 ARM 生態和麒麟生態密切合作,在促進產業側技術發展的同時,實現了基礎算力的安全可控,建立了完備的安全防護體系,達到等保 4 級的要求。1.實施全量安全可控1.實施全量安全可控中信銀行云基于全量安全可控原則,推動實現云計算技術、系統和應用軟件全面轉型、迭代,實現對各類銀行業務的全方位支持,對同業轉型創新起到重要的示范作用。一是應用轉型攻關。一是應用轉型攻關。通過 DevOps 工具鏈與代碼掃描
95、工具相結合,實現批量代碼遷移。通過仿真測試和智能擋板技術實現全量的業務場景比對測試,保障交易全覆蓋。二是服務器轉型攻關。二是服務器轉型攻關。針對 ARM 架構進行深入剖析,對 NUMA 調優、操作系統內核層調優、IO 調優,Java 程序調優,充分發揮 ARM 服務器性能。三是負載均衡轉型攻關。三是負載均衡轉型攻關。在關鍵業務場景實現負載均衡設備轉型創新,使用軟件負載均衡取代硬件負載均衡,解決各類業務場景難題。452.主流云計算技術全面落地2.主流云計算技術全面落地對中信銀行云進行了全面技術升級,交付了金融領域公有云技術私有化部署的完整方案,建成了先進的云原生技術平臺。以超大規模數據中心為目標
96、,中信銀行自主設計了高擴展性、高可用的架構平臺。一是軟件 SDN 技術方面。一是軟件 SDN 技術方面。通過隔離技術,解決軟件隔離技術帶來的各類適配問題,通過互通技術,攻關軟件網關技術在高 TPS 場景下跨網絡區域互通的性能問題。二是虛擬化方面。二是虛擬化方面。管理方式上,用全棧云中的 AZ 模型替代傳統虛擬化技術的集群模型,實現大資源池管理。重點解決新技術棧給運維、升級帶來的挑戰。三是規模運用裸金屬技術。三是規模運用裸金屬技術。進行技術攻關,實現敏捷彈性,像虛機一樣靈活地發放裸金屬。實現資源池化,像虛機一樣池化的管理裸金屬。四是應用全棧云容器技術四是應用全棧云容器技術。實現 laaS、Paa
97、S 一體化的云原生技術平臺。將云與運維工具融合,實現整個體系的云原生化。進行網絡創新,容器和虛擬機同一網絡平面,云內、云外同一個網絡平面,直接通信。實現容器地址暴露,直接在 Mesh 中注冊。進行運維創新,容器在堡壘機自動注冊,堡壘機直接登錄容器。進行部署模式創新,容器資源一站式申請,容器應用全自動化上線。3.通過運維創新為全棧云的規模使用保駕護航3.通過運維創新為全棧云的規模使用保駕護航全棧云以全部軟件定義為特色,帶來了技術體系的巨大變化,給原有的運維工作方式也帶來了巨大變化。中信銀行46將全棧云完整地納入運維體系和管理流程,實現了敏捷性和安全性的平衡,實現一體化管理。為匹配云原生技術,運維
98、體系實現了云原生化,針對容器、服務網格、微服務、DevOps等進行了適配性改造,實現全流程管控、全流程敏捷。實現了五個“一體化”,即一體化用戶管理、一體化監控、一體化網絡運維、一體化變更及一體化域名解析。三、案例創新點及成效三、案例創新點及成效中信銀行金融云化算力基礎設施轉型創新項目是中信銀行和中信集團戰略級項目,通過基于全棧云技術的算力基礎設施轉型創新,支持銀行業務守正創新發展。首先,全面落實重大戰略,提升基礎設施的安全可控水平。其次,全棧云支撐銀行發展戰略,提供全云化算力基礎設施和海量計算能力,有效支持 IT 系統敏捷交付和業務數字化轉型。再次,全棧云是技術發展戰略的重要組成部分,是中信銀
99、行 IT 技術中臺的基礎,為業務中臺和數據中臺提供支撐,為云原生化轉型提出基礎環境。最后,全棧云是中信銀行技術持續領先的保證,銀行通過全棧云這種形式與云計算頭部廠商合作,持續獲得最新技術。四、案例經驗四、案例經驗中信銀行積極響應國家號召和人民銀行的總體部署,進行算力基礎設施建設。中信銀行全棧云建設項目,是金融行業較早建設全棧云轉型創新項目,為后續各金融機構提供了有益參考。(一)實施全面轉型、一步到位實現安全可控。(一)實施全面轉型、一步到位實現安全可控。47中信銀行以 100系統上云為目標,大力推進全??煽卦频氖褂?,確定一步到位策略。凡涉及系統改造、升級、替換的,包括新建系統、系統重構、老舊設
100、備替換、現有系統容器化改造、現有系統 mesh 改造、操作系統升級等,都應優先將系統升級遷移至全??煽卦破脚_,一步到位,避免重復改造。(二)構建軟件定義、分布式的先進云原生技術體系。(二)構建軟件定義、分布式的先進云原生技術體系。中信銀行以全棧云容器引擎作為云原生的基礎平臺,對接制品庫和容器安全平臺,打造適合金融場景的海量鏡像倉庫,為業務創新和技術改造提供源動力。通過 Service Mesh構建敏捷的應用服務網格框架,實現跨系統的服務治理,把存量應用和云原生的應用有機整合,實現應用生態的融合。通過全棧云容器對接自研 DevOps 開發流水線,實現了高效的持續集成。通過將容器引擎和中信自研的樂
101、高等新型開發平臺相集成,構建云原生的技術中臺。(三)超大規模的設計落地,解決公有云技術適配問題。(三)超大規模的設計落地,解決公有云技術適配問題。為了實現全云化目標,全棧云按照萬臺服務器以上的超大規模云數據中心架構進行總體設計,借鑒公有云的建設和運維模式,從 on cloud 的簡單“虛擬化云管平臺”模式,轉變為 in cloud 的云原生模式,屏蔽了底層復雜的實現細節,對外提供便捷、高效的云服務。為了實現大規模部署,項目團隊設計了多 Region、多地多中心部署、雙可用區部署的全方位立體化模式,保證金融級的高可用性。實現了支撐應用雙活部署的云內云外協同 DNS、跨中心軟件 SDN 互48聯、
102、NAS 跨 region 共享方案。根據萬臺服務器規模,設計了高擴展性的多機房網絡互聯、多 VPC 虛擬網絡、多集群擴展的部署模型。針對敏捷彈性的云原生要求,落地了 IP地址暴露的容器網絡方案,全面支持 service mesh 和微服務應用,持續集成的 DevOps 方案。針對子公司云,為滿足金融監管要求,設計了多 VDC、多租戶、多主機組隔離的資源隔離模型,靈活彈性地支持了公司的業務上云。(四)自主研發自動化、智能化的安全運維體系。(四)自主研發自動化、智能化的安全運維體系。通過自主研發,實現全棧云與行內系統全方位對接,構建了包含技術規范、制度、流程、運維工具在內的運維管理體系。全棧云所有
103、用戶全部接入行內現有運維堡壘機,全棧云任何變更都經過 ITSM 的流程審批。通過中信銀行自建的綜合云管和數字化運維中臺,實現了涵蓋原有中信銀行云和新建全棧云的統一云資源管理入口,形成 IT 基礎設施的標準化、可視化、服務化。04 國泰君安:一云多芯、多元算力全棧金融云一04 國泰君安:一云多芯、多元算力全棧金融云一、案例背景、案例背景國泰君安證券作為行業內最早一批引入云計算的券商,基于在云計算領域長期積累的技術優勢,著力構建以智能中臺,混合計算,面向服務為目標的全棧金融云平臺。國泰君安一云多芯、多元算力全棧金融云以“集約、降本、提質、增效”為根本原則,結合當前行業國產化信創應用升級替代的大背景
104、,推出了安全可控、生態兼容的混合云計算平臺。同時,依托特色的云業務場景,提出了一云多芯、49多區域異構管理的整體解決方案,實現了行業領先,概念先進,服務完善的金融云平臺,從而更好應對公司數字化轉型的多重挑戰。二、案例內容二、案例內容國泰君安一云多芯、多元算力全棧金融云作為公司數字化的智能載體,承載了公司金融科技落地和數字化轉型使命,近幾年金融云快速發展,云平臺資源池建設覆蓋兩地四中心,整體布局建設了生產云、開發測試云、集團協作云、開放生態云 4 朵云。生產云承載各類業務系統生產、同城及異地災備環境;開發測試云承載各類業務系統開發測試環境;集團協作云承載集團資產管理、期貨、創投等各子公司的業務系
105、統;開放生態云承載量化私募、PB 等外部客戶的業務系統。金融云整體規模近 3 年年均增速超 40%。應用場景從建設初期的系統開發測試和 UAT 測試,到重要交易系統的同城災備建設、異地災備建設和行情應用,再到當前的互聯網交易、集中交易、AI 應用、數據中心資源池化建設等,實現了從傳統云平臺到一云多芯信創云再到涵蓋云原生、GPU 池化、國密等創新業務的多元算力全棧金融云,為業務系統敏捷交付賦能。其中容器云平臺自 2017 年建設以來,IT 項目管理平臺、全連接以及智能數據運維分析平臺已經在生產環境穩定、高效、正常運行;應用發布涉及從無狀態到有狀態,支持應用快速的持續集成與持續發布,提高業務系統敏
106、捷型開發效率,實現業務流量靈活快速擴展等;配套核心標準和自定義應用50監控,以及平臺與應用日志分析與聚合等;底層支持多集群管理、多網絡模式等統一管控,支持 windows/linux 統一編排調度,支持 GPU/ARM 服務器統一部署。2022 年實現了容器平臺的一云多芯信創部署,同時實現了容器平臺的信創與非信創資源的統一管理。2019 年起開始自研面向集團的金融云服務平臺,實現基礎架構資源自服務敏捷交付。整個平臺的開發以自研為主,協作開發為輔的方式,從原 CMP 云管平臺演進而來。其中,智慧中臺作為云平臺核心的組件,集權限管理、配額管理、計費和事務管理于一體,通過權限校驗與配額分配,確保云資
107、源各類云服務的合理分配,實現了整個云平臺內部統一、協調運轉。在 IAAS 資源池異構的前提下,通過統一的 paas服務,實現了云資源服務的統一管理。在此基礎上推進云應用場景化,陸續推出了云編排、容器云、云監控、云網流量分析、彈性文件系統、對象文件系統、文檔中心、鏡像站等云應用。得益于此架構,國泰君安證券在行業內也是最先實現了國產信創芯片(鯤鵬、飛騰、海光等)的云資源和非信創云資源池統一管理,實現了“一云多芯”,使用戶在無感知的情況下自助申請、創建云資源,實現前端無感應用切換,提升用戶滿意度。金融云平臺技術特點主要體現在以下幾個方面:1、智慧中臺1、智慧中臺作為云平臺核心的組件,該應用集權限管理
108、、配額管理、計費和事務管理于一體,通過權限校驗與配額分配,確保云51資源的合理分配,實現了整個云平臺內部統一、協調運轉。2、“一云多芯”統一納管2、“一云多芯”統一納管結合公司基礎架構特點,為每個云服務設立獨立的業務資源模型,通過該抽象模型,能夠實現多區域、異構資源池的統一納管,從而滿足創建傳統 Intel 芯片以及鯤鵬、飛騰、海光等國產信創芯片的云資源,實現了“一云多芯”的統一管理。正是借助此架構的優越性,使用戶在無感知的情況下自助申請、創建云資源。通過云計算技術實現企業業務系統全面遷移上云,為互聯網君弘 App3700 萬用戶提供實時行情和證券交易。3、多區域管理3、多區域管理在基礎架構層
109、面,金融云平臺按照兩地四中心架構下的多活數據中心發展規劃,利用成熟的云計算技術加速公司兩地四中心云資源的規?;ㄔO實現資源共享;持續擴大信創云資源池規模,滿足系統信創改造資源要求;加速云原生技術的應用,提升應用敏捷交付速度;夯實兩地三中心備份云的建設,保障云數據中心數據的安全性。4、自研云應用,提高云服務質量4、自研云應用,提高云服務質量云平臺在設計之初便秉承“合作共建,互利共贏”的建設原則,通過標準的接入規范和部署規劃,最大程度地減少其他云應用開發周期和難度,能夠實現快速 SaaS 應用的上線交付。依托于此,國泰君安云計算團隊,自研開發了云監控系統、云網流量分析、彈性文件系統、對象文件系統、
110、文檔中心、鏡像站等云應用,為用戶提供了更加便捷的云資源52交付與服務。三、案例創新點及成效三、案例創新點及成效國泰君安一云多芯、多元算力全棧金融云通過融合式的部署方式,節約了機柜空間,提升應用算力,提高服務器使用效率,從而節省電力,減少硬件采購成本,將更多 IT 預算投入自研平臺費用中,加快企業數字化轉型,提升企業競爭力。云管平臺通過自服務云應用,完善云資源交付種類,提高資源交付效率。使用戶在較少參與的情況下,完成應用環境的搭建和交付,大幅提升交付速度。金融云上線至今,平臺運行穩定,實現從傳統業務平移上云到全面云原生化,進行分布式應用、微服務和業務智能化,實現云服務能力資源池的全覆蓋,完成存量
111、系統全部遷移到全棧云,云環境實現 5 萬個虛擬機,3 萬個容器的算力。為構建靈活共享的業務中臺、融合智能的數據中臺、協同高效的云上辦公,以及金融場景創新等場景提供穩定、高效、易用的云底座。國泰君安證券將持續推進金融云建設,并隨著業務和數據的改造和重構,整合容器云、信創云、云數據庫等多種云服務,著眼集中式架構到分布式云原生架構的技術棧演進,實現從 Cloud-Based 到 Cloud-Native 的云平臺數字化轉型。四、案例經驗四、案例經驗本案例的創新和實踐對其他企業私有云平臺特別是信創云平臺的建設具有重要引領示范作用。一云多芯、多元算53力全棧金融云通過從國產硬件性能、一云多芯架構設計、多
112、云就緒、成本管理等各方面的研究解決了企業云平臺信創改造過程中的如下問題:1、硬件性能1、硬件性能信創 CPU 架構硬件性能與國外主流 x86 架構相比仍然存在差距,因此需要通過云技術為不同芯片找到最佳使用場景。2、一云多芯2、一云多芯信創金融云的架構設計考慮到信創與業務平穩運行同等重要,信創架構芯片及整機多樣化;同時不被單一硬件廠商綁定,降低單一路線風險。3、多云管理3、多云管理通過獨創的業務模型解決方案,將異構資源池進行同構,實現用戶無感知的資源交付。4、成本管控4、成本管控在成本管控上提高資源使用率、降低分布式部署成本;最終可以有效平衡信創領域性能、安全、穩定等各方面的綜合訴求。全自研金融
113、云服務平臺亦很好的示范驗證了如何通過統一云服務適配實現快速自服務申請,實現基礎架構云資源自服務敏捷交付。05 國信證券:一云多芯的“蜂鳥”云原生智能研運一體化平臺一、案例背景05 國信證券:一云多芯的“蜂鳥”云原生智能研運一體化平臺一、案例背景隨著數字化時代的到來,金融科技快速發展,金融機構54對算力的需求呈爆發式增長。構建敏捷化研發體系,建立強大的 IT 研發平臺,提速金融科技創新效率,以快速響應市場需求和用戶訴求變得尤為緊迫和重要,是實現業務賦能的基礎保障。國信證券研發了一云多芯的“蜂鳥”云原生智能研運一體化平臺,實現了敏捷開發、持續交付和智能運維的一體化運營,為持續敏捷交付提供了堅實技術
114、底座,提速基礎算力的交付效率,提升了業務迭代上線速度,提升了基礎資源利用率。二、案例內容二、案例內容國信證券建成了“蜂鳥”云原生智能研運一體化平臺,通過研發運維一體化套件應用創新實踐,高效地解決了基礎資源交付效率低、開發運維協同難度大、容器運行安全等問題,并實現了更快的交付頻率、更靈活的彈性伸縮能力。(一)“蜂鳥”平臺設計路線1.設計目的(一)“蜂鳥”平臺設計路線1.設計目的“蜂鳥”平臺遵循當前主流的云原生技術框架和設計規范,便于業務通過使用“蜂鳥”平臺實現最優的調度算法和計算能力,從而具備更好的彈性能力。開發者可直接在云原生框架之上使用私有代碼倉庫和流水線,實現敏捷開發和業務快速部署上線。(
115、1)極致的彈性伸縮使用物理機、虛擬機的業務系統以天或小時級別進行擴容上線,無法滿足證券交易高峰時的秒級彈性擴展需求。(2)大規??蓮椭?5由于證券交易業務具有多數據中心、多地域的分布式特征,云原生架構設計須滿足跨區域、跨平臺甚至跨服務商之間的規?;渴鹉芰?。(3)異構資源標準化基礎設施包含多云虛擬機環境、物理機等不同類型資源。異構資源需支持統一化、標準化、服務化、自動化部署。(4)研發運維一體化平臺基于容器技術實現云原生智能研發運維一體化,滿足公司的容器多集群統一管理,讓業務可以靈活地部署在多個數據中心的不同環境,使用容器技術進行多中心、多集群、多副本等的部署,最大滿足業務高標準運行和服務保障
116、要求,保證多環境部署一致性。2.設計思路2.設計思路平臺總體設計既要實現技術的先進性,也要關注金融證券市場行業的監管要求,確??煽啃院桶踩?,確保云原生平臺和業務的正常運行。(1)先進性平臺基于云原生的技術框架和管理方法,提升應用程序的整體敏捷性和可維護性,業務系統運行在云平臺或遷移到云平臺,可獲取平臺的高效和持續服務。一是快速交付。一是快速交付。云原生架構直接通過接口對外提供服務,應用可以通過 PaaS服務隨時靈活組合成不同的業務能力,不需要從頭開始建設,具備快速上線能力,用戶直接面對云原生應用。二是安全隔離。二是安全隔離。以容器為基礎,提高整體功能開發水平,形成代碼和組56件重用,簡化云原
117、生應用程序的維護,在容器中運行應用程序和進程,實現高水平資源隔離。三是高效運維。統一調度和管理中心,從根本上提高系統和資源利用率,實現自動化運營管理,降低運維成本。(2)可靠性和安全性應用基于云原生模式進行架構設計,除考慮業務場景外,對隔離故障、容錯、自動恢復等安全性考慮更多。借助云服務提供的能力能實現更優的設計,比如彈性資源需求、跨機房高可用、數據高可靠性等特性。平臺用戶直接選擇對應的服務即可,不需要過多考慮機房等問題。且通過支持多云設計,可用性會進一步提高。(二)技術框架介紹(二)技術框架介紹“蜂鳥”平臺技術框架設計包含有基礎架構層、平臺管理層、應用服務層。1.基礎架構層?;A架構層南向系
118、統主要由基礎的計算資源池、存儲資源池和網絡資源池組成。在設計之初,考慮到金融證券的復雜的業務場景和網絡架構場景,“蜂鳥”平臺基礎架構層必須兼容公司現有基礎設施,因此,在平臺的基礎架構層做了大量的定制開發工作。北向是容器管理平臺,采用云原生Kubernetes 技術框架,提供多云異構計算的統一管理門戶。2.平臺管理層?;?Kubernetes 云原生底座,針對公司復雜的網絡環境,定制開發一套符合公司管理規范的集群分區、網絡分區、57租戶管理等功能,以及對接公司的 CMDB 系統、單點登錄系統、運維大數據平臺、ITSM 技術運營平臺、事件平臺等,實現了與現有“監管控析”一體化運維工具的統一管理,
119、提升“蜂鳥”平臺的管理和業務運維能力。3.應用服務層。為便于以分層化、模塊化的方式進一步構建上層服務場景化產品,通過 API 網關、ITOM 等工具系統有效地為上層業務提供了所需要的工具集合,更好地賦予微服務、無狀態業務等場景所需的云原生工具能力。(三)“蜂鳥”平臺物理架構(三)“蜂鳥”平臺物理架構“蜂鳥”云原生智能研運一體化平臺實現“兩地三中心”多集群部署,以滿足業務高可用、高可靠的 SLA 運行服務能力。平臺實現了多集群統一管理,一站式運維,讓研運一體化交付的應用可以靈活地部署在多個數據中心機房。當前國信有三個數據中心,分別為東莞數據中心、上海數據中心和深圳數據中心。容器平臺包括控制集群、
120、管理集群??刂萍翰渴?Kubernetes 組件和平臺自身相關組件,并納管管理集群;管理集群部署 Kubernetes 組件、部分容器平臺組件和用戶的應用程序。三、案例創新點及成效三、案例創新點及成效(一)基礎 IT 資源和技術應用效率明顯提升“蜂鳥”云原生智能研運一體化平臺節省了 IT 基礎資源,提升 IT 生產力,打造了券商行業內部的“高可控云原生基礎設施”,基礎資源利用率提升了 62%以上,降低 50%以58上的運維工作量,提升軟件開發速度,降低軟件開發費用。(二)加快了開發效率和交付效率“蜂鳥”云原生智能研運一體化平臺整合了國信開發工具鏈,提升了開發流水線快速編譯和通過率的速率,減少
121、了開發人員從傳統的申請資源、搭建環境、管理設備、維護傳統軟件架構等精力和時間,并且能夠快速交付到多環境多數據中心。(三)實現了靈活的資源調度基于不同業務的運行環境特征,“蜂鳥”云原生智能研運一體化平臺可以靈活地為不同業務和運行環境定義標簽,合理調度和分配資源環境,做到跨云、跨服務器之間的調度。(四)兼容金融行業復雜的網絡架構,做到“兩個不變”“蜂鳥”云原生智能研運一體化平臺保持網絡 IP 地址在容器上不變,提高網絡故障定位效率;同時也保持原有網絡架構模型不變,網絡環境滿足金融行業多架構、多層次的復雜網絡接入和運行模型。四、案例經驗四、案例經驗(一)頂層設計,統籌規劃金融算力基礎設施建設是一項復
122、雜的系統工程,涉及多個部門和環節。該機構在項目啟動之初,就成立了由高層領導牽頭的專項工作組,制定了詳細的建設規劃和實施方案,明確了各階段的目標、任務和責任分工,確保了項目的順利推進。(二)技術選型,因地制宜59在技術選型上,切忌盲目追求最新技術,而是根據自身業務需求和技術實力,選擇了成熟穩定的開源技術和商用產品相結合的方式。(三)安全可控,保駕護航隨著敏捷開發運維的流行,如何在快速發布上線的研發流程中保證安全成為一個挑戰。國信始終將安全放在首位,為了建立一種可以持續的、靈活合作的安全機制和流程,引入研運安全一體化工具,集成豐富的安全工具鏈,實現“安全左移”。(四)人才培養,持續發展蜂鳥平臺是一套云原生的智能研運一體化系統,需要開發、測試、運維人員的共同配合投入才能推動新技術推廣,部門之間需要良好協作、共同努力,為此項目組積極進行跨部門之間的溝通,加強團隊建設和團隊凝聚力,一起互動運作、通力合作推動云原生前沿新技術的發展。