《騰訊云&中國信通院:分布式云行業實踐指南(2023)(46頁).pdf》由會員分享,可在線閱讀,更多相關《騰訊云&中國信通院:分布式云行業實踐指南(2023)(46頁).pdf(46頁珍藏版)》請在三個皮匠報告上搜索。
1、 分布式云行業實踐指南版權聲明本報告版權屬于騰訊云和中國信息通信研究院,并受法律保護。轉載、摘編或利用其它方式使用本調查報告文字或者觀點的,應注明:“來源:騰訊云和中國信息通信研究院分布式云行業實踐指南(2023)”。違反上述聲明者,將追究其相關法律責任。分布式云行業實踐指南 前 言分布式云是一種將云服務按需部署到不同地理位置,提供統一管理能力的云計算模式。2022 年,騰訊云與中國信息通信研究院云計算與大數據研究所聯合發布業界首個分布式云發展白皮書(2022),明確分布式云概念定義、關鍵技術、典型場景及主要挑戰。過去一年來,伴隨政企用戶“上云用云”進程加快,分布式云技術不斷演進與發展,在金融
2、、工業制造、能源交通等行業深化應用實踐,進一步加速政企數字化轉型。當前,隨著企業數字化轉型邁入深化階段,以及人工智能、大數據、區塊鏈的技術對各行業的滲透加深,分布式云作為算力云服務底座,向下統一管理調度算力資源,向上定義應用新界面,為各行業的科技創新和智能化建設提供堅實支撐。本白皮書以分布式云行業實踐指南為主題,將全面介紹分布式云最新發展態勢、典型應用場景、技術演進發展、行業實施路徑及最佳實踐,旨在為分布式云在各行業規?;瘧脤嵺`落地提供參考和指引。分布式云行業實踐指南目 錄CONTENTS分布式云發展態勢/1(一)國家和地方算力相關政策出臺為分布式云發展帶來新機遇/2(二)政企數字化轉型進程
3、加快推動分布式云規?;瘜嵺`應用/3分布式云典型應用場景/4(一)分布式云基礎設施實現算力按需彈性供給/5(二)分布式云全局管理實現分支節點統一管理/6(三)分布式云原生全面提升企業應用管理效率/7分布式云技術演進與發展/10(一)面向私有化場景定制的分布式云部署能力/11(二)面向多形態部署的分布式安全防護能力/11(三)面向全局視角的分布式云統一管理能力/12(四)面向云邊端多層級算力協同的全域調度能力/13分布式云行業應用實施路徑/14(一)金融行業/15(二)制造行業/17(三)能源行業/18(四)交通出行/21(五)政務行業/23(六)泛互聯網/25分布式云行業應用最佳實踐/27(一)
4、金融行業:騰訊云金融專區/28(二)制造&工業:華嶺智能制造數字工廠/31(三)能源:寶信軟件分布式云系統/33(四)交通出行:廣州地鐵集團/35(五)交通出行:某新能源車企自動駕駛云/37(六)泛互:智聆口語評測降本增效實踐/39分布式云行業實踐未來展望/42010203040506分 布 式 云 發 展 態 勢01(一)國家和地方算力相關政策出臺為分布式云發展帶來新機遇(二)政企數字化轉型進程加快推動分布式云規?;瘜嵺`應用2 分布式云行業實踐指南(一)國家和地方算力相關政策出臺為分布式云發展帶來新機遇 算力分布式發展進入國家政策規劃體系。2022年2月,“東數西算”工程正式啟動,國家發改委
5、、中央網信辦、工業和信息化部、國家能源局聯合印發通知,同意在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏等 8 地啟動建設國家算力樞紐節點,并規劃了 10 個國家數據中心集群。當前階段,我國算力資源存在一定程度的供需失衡,東部地區計算需求大,但數據中心能耗指標緊張、電力成本高;而西部地區氣候適宜,空間廣闊、資源豐富,但現存數據中心規模小、數據傳輸費用極高,還難以承接平衡東部的計算需求?!皷|數西算”工程通過布局國家數據中心樞紐節點建設,旨在平衡全國各區域算力水平,優化算力基礎設施建設布局,此舉將分布式算力基礎設施發展推向新階段。此外,工業和信息化部印發的新型數據中心發展三年行動計
6、劃(2021-2023 年)中提出“用 3 年時間,基本形成布局合理、技術先進、綠色低碳、算力規模與數字經濟增長相適應的新型數據中心發展格局??傮w布局持續優化,全國一體化算力網絡國家樞紐節點、省內數據中心、邊緣數據中心梯次布局”的總體目標,明確了算力基礎設施應進一步下沉至省、市級地方區域,形成中心-區域-邊緣的立體化分布式算力底座,各省、市應打造具有地方特色、服務本地、規模適度的區域和邊緣算力服務。國家級算力規劃形成橫向以“東數西算”工程為牽引,以均衡各區域算力水平為目標,縱向打通區域、省、市、縣多級算力聯通,形成立體分布式發展趨勢。各地方積極探索分布式算力基礎設施發展新舉措。國家發展改革委、
7、中央網信辦、工業和信息化部、國家能源局聯合印發的全國一體化大數據中心協同創新體系算力樞紐實施方案提出“支持發展高性能、邊緣數據中心。鼓勵城區內的數據中心作為算力邊緣端,優先滿足金融市場高頻交易、虛擬現實/增強現實(VR/AR)、超高清視頻、車聯網、聯網無人機、智慧電力、智能工廠、智能安防等實時性要求高的業務需求”為各地方政府探索本地算力基礎設施建設提供指導方針,將加快建設面向城市、區域范圍內的的邊緣算力基礎設施發展。各省級政府也積極發布地方性政策,支持和鼓勵各地的分布式算力基礎設施、云計算技術及分布式云研究和建設。例如,北京市提出“建立協同高效的算力中心體系,統籌各類政務云、公有云、私有云等算
8、力中心資源,形成市級算力中心與區域算力中心相結合的整體布局,推動云服務創新發展,支持云端架構優化和云邊端協同發展,加強邊緣計算能力部署”。廣東省提出“推進云網協同和算網融合發展,加快全國一體化算力網絡粵港澳大灣區國家樞紐節點建設”。上海市提出“依托基礎電信企業、交換中心網絡節點推動邊緣數據中心間、邊緣數據中心與新型數據中心間的網絡互聯交換,形成城市級分布式云計算能力,促進云計算、邊緣計算協同發展”。天津市提出“推動分布式云邊端設施協同有序發展,優先在數據量大、時延要求高的應用場景集中區域部署集網絡、存儲、計算于一體的邊緣計算中心,打造技術超前、規模適度的邊緣計算節點布局”。重慶市提出“提升本地
9、先進計算服務能力,構建以算法為核心、算力為支撐、數據應用為導向的先進計算產業生態體系”。分布式云為一體化算力云服務協同提供有效支撐。國家規劃層面,算力基礎設施形成縱、橫雙向擴展模式,橫向以“東數西算”為指引,擴展算力地域覆蓋廣度,縱向打通算力縱深,形成云、邊、端多層級下沉的算力云服務能力。算力分布式建設和部署能夠有效平衡不同區域算力發展差距、提升整體算力資源利用率、實現更近提供服務能力。然而算力分布式部署不意味著“分散獨立管理”,在分布式算力基礎設施之上,需要提供統01.分布式云發展態勢3分布式云行業實踐指南 一的管理、調度、運維、運營、安全管理系統或平臺,支撐分布式算力協同運作,這就要求云服
10、務商、運營商等具有通過智能網絡將廣泛分布的資源池連接起來的能力,并能夠在資源池和資源池、資源池和用戶間建立高效、靈活的管理和協同運作方式。分布式云正是承擔此重任的關鍵技術體系,對下屏蔽多種架構并存的基礎設施差異性,對上直接承接業務應用,提供全面一體化算力云服務能力。(二)政企數字化轉型進程加快推動分布式云規?;瘜嵺`應用分布式云能夠融合存量IT系統,成為傳統行業深度用云的突破口。多數傳統行業企業信息化工作開展較早、建設時間跨度長、技術迭代次數多,沉積了大量零散的信息化系統、老舊的基礎設施,遺留厚重的 IT 系統歷史包袱,未能將云有效融入現有 IT 系統,阻礙傳統行業數字化轉型進程。隨著分布式云技
11、術的發展,云服務在分布式部署、統一管理運維、應用敏捷部署等方面能力得到提升,助力傳統行業進一步深度用云。例如,政務行業通過分布式云的跨地域統一管理架構,統籌管理省、市、區縣等資源,實現數據互聯互通,并提供通用的業務運行平臺,增加部門、區域間的公共化、資源共享能力,對業務進行精細化資源分配,加速業務應用的創新開發和集成,提升政務服務的效率。制造業利用分布式云的實現工廠多級管理,將生產現場的設備統一接入、統一管理,并將 AI 應用部署在現場邊緣,實現實時數據處理、智能質檢;金融行業通過分布式云平臺對底層異構的總行、分行、邊緣站點等基礎設施資源進行統一管理,提高分行站點上云比例,高效管理所有分行基礎
12、資源和應用,同時,通過分布式云將業務應用部署到具備互聯網出入口的邊緣站點,能夠大幅降低互聯網應用訪問時延。分布式云提供統一資源底座,助力各企業聚焦自身業務創新。各行業企業從業務可用性、資源成本控制等角度考慮,采用多云、混合云部署已成為常態,以此帶來的基礎設施的規格不統一、公共組件異構、技術能力限制不一致等問題,導致企業浪費大量人力在基礎設施管理,阻礙業務應用的創新實踐。其一,同一應用部署在異構的云基礎設施之上,存在較多分支集群,應用上線、下線、變更均涉及多次在不同云上的操作,應用的測試和迭代疊加了更多的繁復的適配性驗證、上線、回滾工作;其二,很多企業應用使用量在高峰時段和低谷時段分布極不均衡,
13、對應的資源需求變化極大,出于成本優化的考慮,需要頻繁調整系統資源,浪費了很多人力精力;其三,多個云資源池數據、應用、業務流通困難,信息孤島效應明顯,很難實現全面協同。從實踐中看,分布式云技術能夠為這類問題提供的解決方案。通過分布式云的一致基礎架構,實現多資源池的互聯互通和協同運作,打通各個數據孤島,實現協同創新;通過分布式云的全局管理能力,實現業務資源的統一申請、開通等生命周期管理,節省了運維成本,利用云原生技術,有效屏蔽底層基礎設施差異性,可以專注于應用開發和測試;通過分布式云的全局調度能力實現業務應用的彈性部署、流量治理,實現資源隨需使用、流量分時段負載均衡、應用靈活調度。隨著 5G、人工
14、智能、物聯網、大數據、區塊鏈等新一代信息技術的飛速發展與廣泛滲透,云作為算力底座從硬件、基礎技術、平臺到應用均面臨全面革新調整,分布式云技術方案可以為各行業與其他新一代信息通信技術融合提供統一的算力支撐底座,讓企業更加專注于新技術融合應用開發,助力各行業利用新一代信息通信技術賦能自身業務,提升經營效率和應用價值。分布式云典型應用場景02(一)分布式云基礎設施實現算力按需彈性供給(二)分布式云全局管理實現分支節點統一管理(三)分布式云原生全面提升企業應用管理效率 5分布式云行業實踐指南(一)分布式云基礎設施實現算力按需彈性供給 1.時延敏感型應用分布式云可以將云服務延展到本地 IDC、生產現場和
15、邊緣區域等下沉場景,降低訪問時延和網絡帶寬傳輸壓力,解決傳統集中式云計算不能覆蓋到的現場邊緣計算場景。分布式云解決了集中式云計算無法滿足的時延敏感型業務的挑戰。常見的時延敏感型業務如下:面向終端消費:以直播、會議為代表的音視頻,以及云游戲、AR 等業務,時延對終端用戶體驗有較大的影響。通過分布式云來部署業務,可以將業務放置到離終端用戶更近的物理位置,從而降低時延,提升體驗。面向生產現場:在智能制造、自動駕駛等領域,需要實時對生產數據進行監控、計算,并實時反饋到生產控制系統,分布式云提供的就近部署能力,除了實現與生產系統微秒級時延互訪,也減少了數據在復雜網絡傳輸帶來的不確定性。02.分布式云典型
16、應用場景圖 1低時延業務應用模型6 分布式云行業實踐指南2.數據監管合規分布式云通過將云服務按需部署在用戶指定安全區域,能夠解決集中式云計算的數據合規和政策合規問題。政企用戶敏感數據資產,通常需要采用特殊的保護策略,比如固定的部署位置、專屬的部署資源,以及嚴格的訪問管理策略。對此,傳統中心公有云難以完全實現,成為企業上云的重要阻礙因素之一。除此以外,從事高科技或接觸敏感信息行業,例如金融、政務等,從國家、行業層面往往也會有相應的數據安全合規規定,某些國家、地區會要求金融數據本國、本區域駐留。通過部署分布式云實現專屬化的部署,滿足數據監管合規訴求,保證數據從存儲到處理均在合規流程范圍之內。(二)
17、分布式云全局管理實現分支節點統一管理 在分支機構管理場景,分布式云相對于集中式中心云、傳統 IT 有較大優勢。圖 2云邊端一體化管控常見的分支機構管理場景如下:集團型企業:大型組織通常在全國乃至世界范圍內會存在多個分支機構,每個機構會有自身 IT 訴求,同時又需要集團層面統籌管理,大型集團企業按國/省/市/地劃分的部門均可以通過分布式云來統一管理 IT 架構。7分布式云行業實踐指南 圖 3多集群應用服務架構分散部署型業務:部分業務天然具有分散部署特征,比如智慧高速、智慧水利、智慧地產,運營方需要部署和管理從數十到數千的分散業務節點。但在企業實踐過程中,以某大型企業為例,傳統的解決方案不具備統一
18、管理、分布式部署等能力,機構、企業的分支機構往往各自獨立建設資源,導致資源異構、管控困難、數據孤島等問題。通過分布式云的建設,將大型政企單位的不同分支節點的云資源進行統一管理,進而統一管理集團的 IT 資產、軟件服務、中心組織、生產制造系統以及企業管理系統等,實現企業內的數字化資產、業務、人力資源的統一管理運營。(三)分布式云原生全面提升企業應用管理效率1.多云應用治理隨著企業數字化能力的逐步提升和上云進程的深入,越來越多的企業選擇多云戰略,同時采購和使用多個廠商的云服務或自建云中心的方式,滿足企業不同業務的需求,平衡多家供應商影響,避免廠商鎖定,提高企業平臺自身的獨立性和穩定性。但大部分企業
19、受限于技術和成本等因素,在推進多云過程中仍面臨管理復雜、成本較高等挑戰。將云原生技術與分布式云融合,能夠幫助企業更好地實現多云的應用治理。分布式云應用治理應能夠統一發布和管理跨云環境的應用服務,實現跨云多活、故障遷移、災備等。同時,多集群間應用能夠彈性伸縮,按地域、狀態、資源等維度進行調度,實現快速地在多個集群上部署和管理應用,提高業務彈性敏捷。8 分布式云行業實踐指南2.應用高可用容災在企業上云實踐過程中,尤其在保障關鍵業務可靠性的方面,利用云原生分布式云的技術,能夠更加有效地應對高可用容災的場景。例如Kubernetes 體系結構支持集群范圍中的應用程序正常高可用的運行,但不支持對分布式云
20、跨地理位置的大規模災難恢復。在這種情況下,需要構建多集群的方式,應用服務通過在集群間備份恢復或多活部署的方式,實現更大范圍的業務高可用性。該種方式涉及操作多個集群上的應用、服務和數據,通過統一的容災管理機制,在分布式云跨集群之間實現服務同步、負載均衡、應用配置、數據服務等,實現跨云多活容災,并提高資源利用率,節約成本。3.混合云架構應用企業在上云過程中由于數據安全隱私、資源利舊、業務容災等原因,在上云時通常無法放棄自建數據中心或本地資源,往往會采用混合云的架構。但混合云架構帶來的額外管理運維成本,以及云上云下資源、應用不能協同等瓶頸限制了業務的進一步擴展。圖 4多集群容災架構9分布式云行業實踐
21、指南 通過以 Docker、Kubernetes 為代表的云原生技術,使用分布式云方式利用跨云混合部署集群的方式,支持用戶在自有的本地基礎設施運行與中心云上集群一致的 Kubernetes 容器服務,包括虛擬機和物理機。中心云上托管的 K8s 集群的控制平面,集群的創建、升級、監控等生命周期管理由分布式云云廠商統一管理,用戶只需要提供硬件和機房即可。這種混合部署集群的方式能夠快速實現多云多地域的分布式云服務,具備以下優勢:資源利舊:充分利用 IDC 資源,在上云的過程中可以對已有的資源進行成本攤銷;降低運維成本:免去在本地搭建、運維 K8s 集群的成本,由云廠商統一運維管控,減少運維投入成本;
22、云能力按需接入:不僅要支撐應用本身運行,還要便捷地與網絡、數據庫、中間件等云服務連接,實現按需擴展;彈性敏捷:支持使用云上資源對 IDC 的資源進行快速擴容,賦予 IDC 資源彈性拓展的能力,有效應對流量突發的場景。圖 5跨云混合部署集群分布式云技術演進與發展03(一)面向私有化場景定制的分布式云部署能力(二)面向多形態部署的分布式安全防護能力(三)面向全局視角的分布式云統一管理能力(四)面向云邊端多層級算力協同的全域調度能力11分布式云行業實踐指南 在分布式發展白皮書(2022)中提到,分布式云關鍵技術包括基礎設施、分布式云服務、全局管理、云原生、一體化安全等。隨著分布式云在各行業、各場景逐
23、步深化實踐,分布式云技術不斷演進與發展,具體包括下述幾個方面。(一)面向私有化場景定制的分布式云部署能力在對數據合規性有較高要求的行業,私有化交付的分布式云正處于聯合驗證和初步實踐過程中,采用公有云模式和私有化模式的分布式云特征區別如下:分布式云公有云模式:由服務商提供完全運維托管的服務(軟硬件、運維),大多數采用中心化管控模式,從而極大的降低本地化管控模塊成本,具備與中心云一致的服務能力和管理模式,分布式云節點支持與服務商公有云能力實時同步。分布式云私有化模式:由服務商提供整套云平臺軟件以及分布式云節點的軟件,硬件則為服務商提供或指定型號采購,運維多由客戶執行,幾乎全部采用私有化管控節點,需
24、先建設對應廠商的私有云平臺,具備與該私有云平臺一致的服務能力和管理模式,不支持與服務商公有云能力實時同步。面向私有化場景的分布式云的特點可以總結為:具備分布式云的敏捷性、全局管理、統一體驗的特征,通過減弱部分分布式云的運維效率和成本優勢,實現滿足特定行業的數據合規性和運營可控性。在金融、政務等領域,私有化的分布式云技術正在實踐應用,目標是通過分布式云解決中小型節點和邊緣區域算力部署和管理難題,代替傳統多類 IT 方案組合的方案,實現更低成本、更高效的在非中心區域引入更豐富的云和數字化服務能力。(二)面向多形態部署的分布式安全防護能力分布式云因其部署形態、位置、形式上的靈活性,可能會被用于處理更
25、復雜的 IT 需求場景,例如解決大型政企中位置多地分散協同的管理訴求,在形式上也常與傳統私有云、自建 IT 基礎設施共同組成混合云。在這類場景下,除了通過常規的防火墻、主機安全等防護產品來保護設備和系統,分布式云還需加強以下兩類場景的安全防護:03.分布式云技術演進與發展12 分布式云行業實踐指南1.邊緣、分支與中心的訪問安全 在企業機構的分支節點,比如工廠、變電站、分公司等場景,往往無法提供與中心一致的安全防護等級,部分終端設備、系統存在被入侵風險。而分布式云的分散部署、統一管理特性,能夠聯通中心和眾多分支節點,可采用以下技術能力解決潛在風險:分支節點盡可能部署完善的安全模塊,比如漏洞、入侵
26、檢測等;分支節點采取“零信任”管理機制,對訪問和登錄行為進行身份鑒權,對往來流量通過防火墻進行安全管理。2.分布式云+自建(私有)混合場景安全在企業機構內部 IDC、系統中引入分布式云除了能實現降本增效外,還可以通過分布式云引入海量的供應商 PaaS、SaaS 服務能力。分布式云“中心管控、本地服務”的特點,依賴中心管控模塊能網絡訪問用戶本地IDC,該鏈路的安全合規性則需提供額外的防護措施,分布式云服務提供商需提供完善的安全審計能力,最核心的內容包括以下方面:鏈路流量審計:管控鏈路所有流量支持被使用方審計,并可支持長期存儲和提取管控行為審計:所有通過鏈路的人為操作、模塊信令支持以使用方可理解的
27、方式提供展示和審計同時因為流量往來和行為操作屬于高頻行為,以上能力應以標準化的形式提供,減少人工操作帶來的效率降低和安全風險。除了由供應商提供安全審計能力,還可以通過劃分功能區域、設置 DMZ 區等措施來有效管理同一 IDC 內不同形式云帶來的安全管理風險。(三)面向全局視角的分布式云統一管理能力分布式云的基礎設施位于地理位置分散的不同點位,在面向用戶提供云服務時,需要具備將不同地理位置的基礎設施連接起來并統一管理的能力,全局管理能力是分布式云的重要技術挑戰。分布式云全局管理能力要求具備統一使用體驗的云管平臺,將位于中心側、區域側、邊緣側、終端側的分布式云基礎設施全面統籌管理,從資源、服務、數
28、據、運維、運營、安全等方面提供多位一體的協同運作?;A設施層面,全局管理具備對各種各樣的異構硬件兼容的能力,對虛擬化資源進行整合管理、聯合編排,提供分布在不同地理位置的計算、存儲、網絡資源;云服務層面,通過全局管理系統,可以將指定云服務擴展到分布式云節點上;數據層面,數據的接入、匯聚、預處理、銷毀全部在同一管理平臺內進行,全面掌握數據的全生命周期;運維和運營層面,用戶、賬戶、資源、升級等管理和操作均得以在統一的平臺中進行,最大程度節省了運維和運營成本。13分布式云行業實踐指南(四)面向云邊端多層級算力協同的全域調度能力僅依托基礎資源的堆砌并不能完全發揮分布式云的能力優勢,將資源、網絡、數據、應
29、用等多要素融合、協同為一體化服務,才能激發分布式云的靈活、彈性、隨需使用、成本節約等優勢。分布式云的全域調度能力通過整合泛在接入、網絡管理、云邊端協同、統一調度等能力,構建云邊端協同編排系統、面向應用封裝基礎設施的資源管理能力,打通跨地域、跨層級的云資源調度能力,對不同業務進行合理的匹配,對外呈現統一的計算能力。在資源層面實現全局資源的度量、管理、監控以及自定義策略,實現不同層級和特點的云資源能夠協同運作;在應用層面通過自動抽象應用特征,能夠將應用調度至適當的分布式云節點,從而實現業務和資源的雙向匹配;在數據層面通過實時和歷史的數據同步和遷移,能夠實現不同節點間連接作業的能力;在流量層面可以將
30、業務流量按數據或應用的親和性調度至制定位置,實現業務更快速響應能力。分布式云行業應用實施路徑04(一)金融行業(二)制造行業(三)能源行業(四)交通出行(五)政務行業(六)泛互聯網15分布式云行業實踐指南(一)金融行業 1.用云背景和主要場景金融業在我國經濟發展中扮演至關重要的角色,隨著經濟活動數字化進程加速,頭部金融企業在近年紛紛設立信息科技子公司以有效支撐金融和信息通信技術的持續融合。一直以來,金融業都是信息化和數字化的先行者和實踐者,近幾年,在政策和業務的雙重驅動下,金融業更是全方位投入以云計算基礎設施為底座的新 IT基礎設施系統。金融機構上云能夠解決過去 IT 系統重運維、靈活性差等問
31、題,同時,云作為數字化平臺底座,能夠實現金融業務與大數據、人工智能、區塊鏈等新一代數字技術充分融合,提升運營效率、節約決策成本、優化管理能力,有效支持金融業務創新。金融機構業務種類繁多、場景多樣,銀行、證券、保險機構的核心業務在用云時面臨多樣化的挑戰,總的來說,金融機構用云場景整體呈現四個特點。一是業務種類繁多,包含眾多社會民生類業務,參與人分布廣泛,同時,集團直屬業務和各省分行特色業務各有側重,需要結合地域業務特點提供基礎云服務,涉及到交易、結算的系統還需要考慮到跨國場景;二是業務體量大,金融交易涉及巨量用戶數,并發交易數多,業務來源渠道多樣,手機銀行、網上銀行、短信銀行等業務并行,線上、線
32、下業務同時進行,相關的內、外部業務系統眾多,且相互關聯;三是可靠性要求高,金融業務辦理不受時間和空間的限制,需要支撐系統具備極高的穩定性以保證業務連續性,面對可能出現的系統安全隱患也需要具備全方位多維度的容災能力;四是金融創新訴求強,政策層面驅動金融與科技結合創新,利用新型信息通信技術實現金融業務智能化轉型,隨著信創硬件和云環境快速發展,云基礎設施層面面臨更高的可控性要求。2.主要挑戰在業務場景推動下,金融行業用云方式面臨多層次的轉型挑戰。第一是分支機構基礎設施存在差異,難以通過單一平臺統管、實現管理效率真正提升。以銀行為例,集團和各分行信息系統建設時相互獨立,且建設和維護都經歷了較長的時間跨
33、度,分別擁有規模非常大、架構復雜、零散分布的存量 IT 系統。在多種不同架構、不同代際基礎設施、不同網絡環境共存的狀態下,很難實現運維成本降低、人效提升、聚焦業務應用創新,云平臺需要具備部署靈活性的同時,保證管理方式的一致性和效率,大型金融機構也希望通過廣泛的網絡連接,將公有云、本地私有云和自建數據機房打通,形成協同運作的合力。第二是未能充分調動云底座支撐能力,云上創新能力不足。隨著金融科技創新訴求日益增強,金融機構用云不再局限于使用云的基礎設施,將更加快速向智能化經營和精細化管理方向發展,例如,利用大數據和推薦算法實現對特定人群的精準服務,提高獲客率,降低獲客門檻;運用識別算法,在保險理賠過
34、程中自動審核,完成理賠的風險管理。這需要云平臺能夠幫助提升業務研發效能,增強用戶體驗,實現業務應用的快速迭代,以實現智能化的精準營銷。第三是金融云生態需要全面構建,金融機構技術和能力亟待開放。大型金融機構用云時間長久,用云方式成熟,也極為普遍的采用多家供應商的云服務,對于上云、用云、云管理有著比較豐富的經驗積累,加之自身的行業應用積累,多家金融機構希望將自身的金融云技術沉淀進行輸出,為中小型金融機構或中小型企業的數字化轉型賦能,為其提供更穩定、更高可用性的基礎設施底座和更貼合業務需求的金融場景化應用,更好適應各類金融業務全面云化的需要。因此,金融機構對于云系統的認知從使用者轉變到服務者,需要解
35、決更多用云“疑難雜癥”的問題。04.分布式云行業應用實施路徑16 分布式云行業實踐指南3.分布式云實施路徑和應用價值金融業數字化轉型需要應對業務線上化、場景豐富化、客戶需求多元化長尾化、監管粒度精細化的帶來的變化,金融業云系統建設、部署和運維經歷了不同階段,碎片化和復雜性問題嚴重,很難實現資源利用率提升從而支撐創新應用。分支機構資源統籌管理通過引入分布式云架構,支持金融機構構建“兩地三中心”的同城、異地容災基礎設施,應用分布式云管平臺能夠統一管理部署在總行、分行、網點等不同分支機構的基礎設施,深度整合算力資源,將全局資源統籌使用。同時,隨著信創技術不斷成熟,金融機構面臨引入新基礎設施硬件的適配
36、和兼容性挑戰,以云原生技術為核心的分布式云容器平臺能夠屏蔽大部分底層設備的異構性,提供原子化的、全局一致的使用體驗,銀行、券商等機構能夠聚焦核心業務,不再過多關注系統異構問題,有效助力金融業的安全合規和業務數字化、智能化創新。生態開放分布式云本地部署模式成為助力金融云生態服務的基礎平臺,在提供全棧服務能力為金融行業用戶提供IaaS、PaaS 服務之外,還支持企業核心技術能力以及自身特色云產品的接入,通過搭載用戶自身的 PaaS 服務,向行業內輸出企業的金融數字化能力,幫助企業實現用云者到云服務者身份轉變。金融科技創新金融業務數字化創新需要敏捷、彈性、安全的 IT 基礎設施,本地部署+公有云服務
37、共存的分布式云架構既滿足了算力的擴展性和使用的便捷性,又能夠讓用戶在本地服務器上自由操作,實現金融安全合規需求,更好的利用不同類型的算力底座,充分運用人工智能、物聯網、區塊鏈、低/無代碼等技術為技術創新提供支撐平臺,實現金融科技創新。圖 6應用分布式云的數字化銀行系統17分布式云行業實踐指南 分布式云為金融業企業提供了全方位的云上解決方案,統一的資源管控能力、全面的安全防護體系、業務快速恢復能力,實現了資源利用的降本增效、保障了金融業務數字化和智能化發展。在銀行業中,利用分布式云基礎設施打造遍布各地理位置的算力底座,私有化部署方式和公有云結合,既保證了數據安全保護需求,又提供了彈性、便捷、隨需
38、使用的基礎服務。保險行業在我國發展迅速,用戶數據量龐大,業務系統對基礎架構資源需求量大,分布式云架構為保險行業提供下沉至用戶最近的云服務,疊加人工智能和物聯網技術,為用戶提供更精確匹配的保險業務和客戶服務。(二)制造行業1.用云背景和主要場景隨著“互聯網+”、“深化制造業與互聯網融合發展”等重大戰略的明確地提出,國家高度認可與充分重視工業領域的數字化和信息化建設,不斷出臺扶持政策用于建設云計算、大數據、物聯網、人工智能等技術為基礎的現代化基礎設施,實現工業生產和管理的數字化轉型和創新。2.主要挑戰由于工業領域的特殊性,在實踐智能制造數字化轉型的過程中仍有一些挑戰。一是傳統工業生產和管理中,存在
39、著信息孤島、成本高昂、生產效率低下等問題,導致數據無法匯聚打通,無法進行進一步數據計算和智能分析,同時,多個系統分開部署管理,維護成本高、靈活性不足、對外輸出困難。二是制造業存在時延敏感和本地計算的場景,需要中心、本地和弱網絡邊緣部署云服務,時延敏感的物聯網數據采集和處理的業務在本地和邊緣處理,在中心和云端進行大數據的分析和訓練。三是缺乏統一技術架構,應用迭代沒有統一的規范和技術指導,系統集成難,新系統新應用開發能力弱。圖 7基于分布式云的工業云架構18 分布式云行業實踐指南3.分布式云實施路徑和應用價值現有技術體系相對傳統,架構相對有所落后,關鍵工具缺乏,影響了制造和工業企業的數字化業務系統
40、的建設和輸出。通過引入基于分布式云的工業互聯網平臺架構底座,實現互聯網服務統一入口、各單位核心業務系統集中管控,夯實云底座,打造云邊一體的運維服務能力和規范服務模式,有效助力生態構建和對外服務能力、開發創新場景應用。云邊多級統管在有集團和工廠多級管理體系,特別分廠間間隔距離較遠,單一線下交付運維成本高的情況下,希望工廠的低成本部署和運維。借助于分布式云的多級管控架構,支持公網管控(集團中心業務位于公有云)或專網管控(集團中心位于專有數據中心),工廠到集團資源的統一基于云平臺構建,實現集IaaS、PaaS與SaaS為一體的全棧云解決方案,滿足穩定性、兼容性、安全穩定開放的云服務生態,解決信息孤島
41、問題。統一交付與運維在各邊緣分廠側,通過云上交付能力交付和管理各個分廠集群,云上遠程部署數據庫和中間件等 PaaS 組件,實現統一管理和建設分廠環境。對分廠資源和應用進行遠程監控和控制,在中心集中監控告警發現問題,通過遠程登錄、排障和升級能力,有效的降低運維成本,提高生產環境的運維效率?;旌显乒芾砥髽I由于時延敏感和本地計算的場景需要中心、本地和弱網絡邊緣部署,時延敏感的物聯網數據采集和處理的業務在本地和邊緣處理,在中心和云端進行大數據的分析和訓練。企業通過分布式云的技術,實現不同位置的資源統一管理和運維,企業多個工廠環境和集團云端保持一致,實現混合云的統一管理運維,云邊端數據的實時采集、處理和
42、分析,從而提高處理效率。降低成本企業將穩態業務部署在 IDC,敏態業務部署在公有云,利用公有云便利性和成本優勢同時希望體驗一致。傳統模式集團公司和分廠之間信息化/數字化脫節,即使一個園區隔條馬路,不同廠區都要部署一套私有云。分布式云可以提供彈性的計算和存儲資源,根據工業企業的需求進行動態調整,避免工業企業因為資源浪費而產生的成本,同時也可以避免因為資源不足而導致的生產停滯。云技術升級傳統單體化的工業應用,采用物理機或者虛擬機部署,軟件部署、升級和維護必須整個軟件全量升級,不僅容易造成停產,同時擴展性和開放性也不強。通過整合Docker容器、Kubernetes云原生架構等相關新技術和新理念,可
43、實現工業應用從開發、測試,到部署、運維的全生命周期平臺化管理,支持企業云原生化、微服務化的戰略,有效幫助企業實現數字化轉型。(三)能源行業1.用云背景和主要場景隨著“雙碳”目標的提出、以及新能源的快速發展,能源行業借助數字化轉型升級的動力愈發明顯,無19分布式云行業實踐指南 論是生產過程還是企業運營,都正在積極采用數字化升級作為降本增效和提升企業競爭力的重要手段。一是在數字化生產管理方面,能源生產現場管理正在數字化轉型升級過程中,包括以下場景:數字礦山:以礦山系統為原型,通過礦山科學技術、信息科學、人工智能和云計算等技術,建立起數字化、信息化的虛擬礦山,從而快速了解和分析礦山系統的全方位運行狀
44、態,為安全生產、高效運營提供支撐和保障;數字化鋼鐵:鋼鐵行業是高能源開銷行業,希望通過云基礎設施底座,采用數字孿生、AIoT 等技術建設面向高爐、燒結、焦化、料場、能源介質的一體化智能管控平臺;數字化新能源節點:以光伏、水利為代表的新能源技術發展迅速,遍布在偏遠地區的能源設施需要就近進行自動化、智能化管理。另外,新能源電力的分時效應明顯,清潔能源調度和分配需要通過統一的調度平臺進行。二是在企業數字化升級方面,除了改善生產流程,實現生產環節的降本增效,企業的運作優化對能源企業尤其大型能源企業有重大意義,包括以下兩個方面:企業 IT 基礎設施及管理:希望通過引入云計算,優化企業 IT 基礎設施的構
45、建模式,通過通過云原生等理念提升企業研發效率,實現對 IT 資源和人力使用的降本增效;企業協同辦公:通過使用成熟的協同辦公類SaaS服務,優化企業辦公、流程管理、企業文化建設的效率。三是在算力、電力協同調度方面,隨著大數據、AI 的普及,整個社會對算力和存儲的要求有了更高的需求,算力的背后對電力供應有著深度依賴,而電力的供應則具有區域性和時效限制,在經濟核心地區和核心時段,需要解決常規用電和算力用電的分配問題,比如解決地域用電問題的“東數西算”方案,以及日內波峰波谷用電的“高低峰調度”方案。2.主要挑戰云服務作為算力底座,在能源行業數字化轉型過程中也面臨多個維度的挑戰,第一是數字化基礎支撐能力
46、不足,傳統 IT 方案中多為基礎 IaaS 服務,缺少面向數字化上層應用的全棧支撐,比如 AI、大數據、IoT、云原生等技術,難以支撐 OT 轉型發展。在企業運營領域,隨著專業化 SaaS 軟件和服務不斷增多,以往通過單獨采購的模式,難以形成完整的協同辦公解決方案,效率難以得到最大解放。第二是數字化底座投入大、維護難,傳統企業 IT 團隊和信息化團隊人員規模往往難以和云計算、互聯網類企業相比,專業領域方向也有差別,當需要支撐企業數字化升級,除了原有的垂直領域 IT 支撐,如果采用傳統的 IT 方案,還需要學習和維護大量的 IT 方向基礎知識和模塊,對團隊技術要求挑戰大。第三是算力、電力協同調度
47、難,大型能源供給型企業(比如電網)和大型算力資源消耗型企業過往業務交集較少,雙方各自領域專業深度較深,難以單獨完成類似“東數西算”、“峰谷算力調度”等復雜的算力、電力協同方案,同時,大型算力消耗型企業多分布在經濟發達城市,而閑置電力資源充沛的區域則多分布在人口邊緣區域,如何將算力有效進行異地、分散調度對其本身挑戰也較大。20 分布式云行業實踐指南圖 8面向能源行業的分布式云技術架構3.分布式云實施路徑和應用價值能源行業需要選擇合適的分布式云解決方案對 IT 系統進行改造和升級,以匹配企業自身的需求。充分考慮智能化技術,改善項目運營條件、提高人效和運營經濟性。IT 架構升級在企業運營方面,根據企
48、業合規需求,搭建不同形式分布式云,引入豐富數字化能力、降本增效;在生產服務方面,借助分布式云廣部署、統一管理能力,實現邊緣自動化、智能化管理;在推廣應用方面,能源各領域頭部企業借助分布式云能力和理念,結合自身行業垂直服務能力,搭建行業云,并實現快速推廣應用。平滑上云遷移通過分布式云建設混合云,實現基礎設施平滑上云。能源行業多數已建設有一定規模的設備和系統,分布式云在敏捷性上的優勢可以適應的幫助傳統企業的 IT 現狀,初期通過在企業 IDC 內部署具備的中小型節點,以數字化項目為牽引,引入分布式云從基礎 IaaS 到上層行業服務能力,團隊在項目過程中打磨系統適配性,并基于分布式云建設新的運營體系
49、。在初期的中小型節點成熟運行后,基于分布式云敏捷擴容的特性,可以快速擴展整體資源規模以及上層服務能力,更有效的支持團隊數字化升級。行業云建設同類能源企業往往具有相似的業務訴求和 IT 架構,采用頭部企業建設或者聯合建設行業云模式,提升用云效率。利用分布式云豐富的能力可以有效的提供行業云數字化平臺需要的支撐能力,垂直行業企業可以聚焦行業技術能力和行業解決方案建設;同時,分布式云具有云的彈性敏捷、可靠易用等特性,基于分布式云構建行業云,可以以分布式云為參考,快速復制云的理念和架構方案能力。21分布式云行業實踐指南 算力和電力匹配針對算力、電力協同復雜困難場景,能源供給企業可與分布式云廠商合作,將原
50、有電力供給設施、調度系統基于分布式云進行改造,形成新的能源平臺再提供給海量算力消耗型企業使用。在基礎設施升級方面,基于分布式云的任意部署、敏捷規模特征,在原有變電站、新能源發電節點內就近建設算力節點,實現低損耗。在調度管理升級方面,通過分布式云引入大數據、AI 等技術,打造全自動同步、調度的平臺,將原有通過人力或較低頻次改造為分鐘級甚至秒級的接口或平臺,同時結合大數據預測用電企業的消耗模型,精準高效的實現算力和電力匹配。(四)交通出行1.用云背景和主要場景我國建設有全球最大的高速鐵路網、高速公路網以及世界級港口群,每年有海量交通設施在這些交通基礎設施上往來,隨著 4/5G、互聯網、IoT 等技
51、術的發展,海量交通運輸場景也從過去的人工化管理進入數字化管理時代。交通行業與日常生活息息相關,其數字化系統的健壯性關系到廣大路面行人和行車的生命財產安全,系統的智能化建設也將大幅提升交通管理和調度效率,高速公路作為最常見的交通基礎設施,其數字化、智慧化的轉型正在穩步進行。交通基礎設施數字化層面,通過小型/微型電子設備、IoT、4/5G 技術、音視頻等技術,將公路上所有路段信息以數字化形式記錄、保存和傳輸,從而實現現實空間在數字空間的實時重現,可以極大的提升高速路段的可觀測性,降低以往對人力投入的依賴。交通管理調度智能化層面,基于基礎設施數字化之上,結合數字孿生、AI、大數據、音視頻處理等技術,
52、可以幫助高速運營機構和人員,解決以往海量、復雜的數據處理難問題,實現像司乘安全檢查、高速負載調度等全局化、智能化的管理。打造互聯網+交通提升公眾出行體驗方面,將各類線下人工服務以及傳統電話、短信交通服務,基于小程序、APP 技術進行重塑,極大的提升服務的可獲取性和體驗感受,結合交通基礎設施數字化、智能化的能力升級后,可以實現路況實時查看、按熱度車流調度、長途路線智能規劃等新型交通服務,為公眾提供更好的出行體驗。2.主要挑戰中國有全世界最長的高速、鐵路網,也有著大量的港口、機場、車站,這些交通基礎設施不僅數量眾多,地理位置上也極度分散。當對這樣海量、分散的基礎設施進行數字化升級時,需要面臨以下問
53、題:第一是部署實施難,交通 IT 基礎設施需要在被服務對象附近就近建設,為上層交通管理、調度軟件以及數據保存/備份提供計算、存儲、網絡等基礎服務。除了在大型交通樞紐,比如機場、核心車站等可建設較好的數據中心外,其他節點往往需要在較低等級 IDC 或者工作現場進行部署,環境差異性大,部署方案從邊緣盒子到一體機,再到各個等級 IDC,對底層云平臺方案兼容性、環境適應性、敏捷性要求高。第二是管理運維難,基于交通基礎設施天然分散的特征,行業內 IT 團隊往往需要管理分布在廣泛地域上的數個到數百個交通 IT 節點,無論是基礎 IaaS 層面的管理,比如 IDC、服務器、網絡、虛擬化,還是上層應用如何在數
54、百個節點上部署,依賴的中間件、容器、數據庫如何提供,對交通 IT 管理團隊都是不小的挑戰。原本在集中化 IDC 采購多家廠商產品,由建設方團隊運維的模式在交通全面數字化的過程將遇到更多的挑戰。第三是缺少復制性強的場景化方案,交通數字化方案綜合性強,一個完整的項目,常常涉及基礎云計算、音視頻、IoT、AI、交通調度管理、數字孿生等多方面技術和團隊的聯合輸出,項目的復雜性導致了方案難以復制,造成大量重復性工作和投入。22 分布式云行業實踐指南3.分布式云實施路徑和應用價值應用分布式云系統架構,搭建云邊端一體化的智能交通算力底座,實現多層級算力協同調度,敏捷彈性的算力供給和全局一致體驗的基礎設施服務
55、。多層級分布式云算力建設高速公路是典型的交通數字化場景,具備數字化程度高、算力部署分散、設備和應用數量多的特點,包含路側 MEC、路段管理、路網中心、收費站等多種類型的服務對象,采用分布式云能有效解決部署難、管理難的問題,基于分布式云的云邊端架構能完整的覆蓋高速公路場景下的不同層級用云需求,并實現全局統一的管理。終端(路側 MEC):設備連接、采集、管理,具備基礎的計算、存儲、網絡能力,可通過分布式云邊緣盒子以及小型節點(10 臺以內)進行建設,與路側的攝像頭、感應雷達、ETC 等設備通過網絡線纜或4/5G 進行低時延通訊,并將采集的數據與區域、中心節點進行同步。區域(路段邊緣、收費站):規模
56、以10100臺服務器居多,具備全棧的IaaS服務能力以及核心的中間件、云原生服務,支撐部署交通管理、智能應用對路段進行統一管理,具備中小型的大數據、AI 計算能力,可將終端側采集的數據進行快速處理后及時的返回管控指令。圖 9云邊端一體化的高速公路云23分布式云行業實踐指南 路網中心:在高速機構的區域核心位置部署,大多為 T2+數據中心,可靠性和服務能力較強。部署全棧的云計算服務底座,支撐所有交通管理、智能應用的核心管控后臺部署,同時一般配備有 PBEB 級的冷熱存儲資源池,用以存儲、處理從終端、邊緣收集到的數據。建設有完善的 AI、大數據處理平臺,結合各類行業垂直服務,實現數字孿生、自動化調度
57、、管理駕駛艙等高級數字化服務能力。安全合規與海量計算優勢兼并分布式云可采用專有云與公有云混合模式,實現安全合規與海量計算和存儲的優勢兼并。專有云部分實現整體網絡上采用專網設計,在路網中心部署私有化的分布式中心管控模塊,所有邊緣云、終端云節點通過專網與中心管控連通,實現統一化資源和數據管理。公有云部分實現專網內的數據進行統一存儲后,當需要進行大規模計算(比如大數據、AI 處理),可與就近的公有云進行專線打通,將待處理數據同步到公有云復用海量高性價的彈性算力,同時一些非敏感的冷數據也可以在公有云就近部署,減小專有云部分運維和成本壓力。數字化支撐能力提升基于分布式云底座,進一步拓展數字孿生、車路協同
58、、自動駕駛服務、低代碼小程序開發等基礎共性支撐服務,實現交通出行業務數字化轉型。(五)政務行業1.用云背景和主要場景自 2016 年以來,一系列國家頂層政策發布引導數字政府建設,政務行業成為傳統行業上云中打頭陣的先行者。建設數字政府旨在通過運用新一代信息通信技術,重塑政務信息化管理架構、業務架構、技術架構,以提升政府在經濟調節、市場監管、社會治理、公共服務、生態環境等領域的履職能力,由于政府業務快速創新、規模逐年增大、復雜度和智能化要求大幅提升,云計算作為數字政府算力底座,對其穩定性、性能、擴展能力、計算效率等方面的要求也日益提升,政務用云深度和廣度均不同程度加強。完善以云計算為核心技術的政務
59、云體系建設成為各地數字政府規劃重點布局方向,政府各部門數據打通、多云統一管控、多級云系統協同成為政務云新的規劃趨勢。第一是政務云平臺建設更加強調底層異構資源整合,隨著信創環境和技術的逐步成熟,越來越多的異構基礎設施被引入原系統使用,政務云系統長期存在多云共存、多網絡環境共存用云模式,云管理面臨更多的基礎設施和網絡環境的適配和整合工作;第二是政務服務更注重創新性和體驗性,這就要求基礎設施建設思路從“云資源集約化”向“政務應用集約化”的方式轉變,全面構建以應用為中心的新型基礎設施建設,以應用為著眼點,帶動云資源建設,實現精細化運營和可視化管控;第三是協同開放的數字政府生態體系逐漸發展,數字政府存在
60、場景多樣化、參與方眾多等特點,政務云建設需要匯聚政府部門、科研機構、和龍頭企業等眾多行業智慧,借助數字政府發展帶動上下游企業合作共贏,探索協同開放的新型合作生態。2.主要挑戰政務行業上云用云正在進入全面深化階段,從架構優化、技術創新、精細化運營到全面協同一體化管理,各方面均需要迭代優化。第一,政府多分支間的數據流通和資源共享是亟待解決的高優問題。每個政府職能部門的政務系統應用的開發是完全獨立的,而在各委辦局的政務系統中,實際存在大量的公共的組件,如數據庫、24 分布式云行業實踐指南中間件、標準技術組件、監控系統,甚至某些核心業務組件也存在架構和業務邏輯的相似,而相互獨立的開發模式下,每一個委辦
61、局的業務系統,都需要從頭設計與開發,開發資源冗余過多,同時,多分支間實現網絡穩定互通、數據流轉、應用協同,就需要通過上層統一管控系統統籌管理并靈活調度調度。第二,缺少同一的安全管理機制。政務信息、個人隱私數據、企業經營狀況等敏感數據外泄風險不止,政務云系統面對來自于物理、網絡、主機、數據、應用等方面全方位的安全隱患,急迫需要建立具備安全監測、威脅預測和態勢感知等功能的全面安全態勢分析機制,同時,需要加強敏感數據保護,實現數據安全預警和溯源,加大個人隱私和企業信息的保護力度。第三,資源供給粗獷,運營與管控能力薄弱,異構環境兼容要求是持續存在的痛點難點。每個政務系統都會根據業務規模的預估,向承建部
62、門進行基礎設施資源的申請,之后獨占這些資源,在這種情況下,基礎設施的資源利用率和一致性管理能力必然處于較低水平。同時,隨著信創產品和技術不斷成熟,各個政務系統逐漸需要引入新硬件,數字政府系統整體的兼容性和可擴展性有限,往往無法在業務上線后進行動態調整,只能隨著業務規模的持續擴大,被動做出相應的擴容響應,而無法從全局角度實現資源的整體規劃與共享。3.分布式云實施路徑和應用價值基于分布式云的技術特點和架構,集成大數據、AI、物聯網等新技術和應用,構建的分布式政務云解決方案為數字政府的基礎設施算力底座帶來了極大的建設便利,政務云建設思路從“云資源集約化”向“政務應用集約化”的方式轉變,全面構以應用為
63、中心的建新型政務云。資源共享和數據流通支撐分布式云統一架構實現在多云、混合云之間建立互聯通道,能夠對全局資源進行統一管理,通過通用的基礎設施底座,實現跨云、跨省、市、區縣等多地域的統一管理的架構,實現全業務共平臺運行,部門、區域間的公共化能力、模塊化能力、資源共享能力,解決政府分支間數據流通的通道建立和安全性問題,為部門間數據流通和資源共享帶來了基礎保障。全局安全合規分布式云的統一安全策略管理,應對了數字政府建設的全面安全性問題,分布式云的一體化安全方案能夠最大程度的規避安全隱患,為數據安全、網絡安全提供多維度保障,杜絕政務環境下數據多點位散布的泄露可能。面向應用的云底座云原生分布式云以容器技
64、術為核心,屏蔽底層基礎設施差異,提供面向應用的云基礎能力,使得資源的管控粒度更細、擴容效率更高,例如,面對業務高峰期,無需提前配備過多冗余資源,而是根據業務量靈活彈性擴容到公有云上,進而減少整體建設支出,實現資產效益的最大化,提升了資產的流轉率。政府職責繁雜,業務眾多,分布式云在不同的政務領域的建設有著完全不同的價值取向。在社會管理領域,例如,災害預警、安全監管等系統在構建云底座時,利用分布式云的多級下沉算力,廣泛連接云、邊、端三側,實現監控、感知、治理一體化管理能力;在政務服務平臺建設時,得益于分布式云能屏蔽差異化基礎設施、統一管理和調度的優勢,統籌建設統一規范、統一用戶管理、集中運維、滿足
65、信創要求的高兼容性政務服務平臺;在城市規劃領域,尤其是國土資源規劃、自然資源規劃方向上,運用 AI、物聯網等技術,基于分布式云架構,打造各地資源統籌、實時識別、分配、監管的綜合管理能力。25分布式云行業實踐指南(六)泛互聯網1.用云背景和主要場景隨著互聯網的發展,數十年間泛互行業涌現出大量的企業,為廣大人民群眾提供了豐富多樣的互聯網產品和服務。泛互行業在發展的過程中,經歷了野蠻發展階段、平臺階段和降本增效階段,在發展中實踐了分布式云。業務野蠻發展時期實行粗放式管理,以市場占有率和功能迭代為目標,不關注整體成本,資源均是飽和式擴容,沒有精細化運營的需求,公司內各網絡環境隔離,選擇傳統的 IDC
66、物理機機房和人工運維。隨著業務發展并有一定的市場占有份額,進入平臺階段后,通過基礎設施整合、云原生和微服務化的改造,形成初具規模的云平臺。根據不同的業務對性能,數據位置,可伸縮性和合規性的要求,泛互企業使用來自不同云提供商的兩個或多個云,實現多云混合云的分布式云架構,以滿足特定業務的需求。2.主要挑戰泛互聯網行業業務挑戰主要包括以下幾方面:自建 IDC 數據中心上云:隨著在泛互企業的不斷發展,自建 IDC 數據中心的機器不斷閑置、老舊、退保,IDC 中資源的異構導致難以統一滿足業務的訴求,多種平臺架構不統一導致資源利用率低,運維復雜,本地云原生改造成本高,迫切需要通過 IDC 上云,將復雜的
67、IDC 運維管理通過公用云托管,降低運維成本提高平臺質量?;旌显乒芾恚涸谄髽I同時使用本地數據中心和公有云的情況下,如何實現云上云下統一體驗,云上云下統一調度和管理,靈活管理和分配云上云下資源使成本最優化等是經常遇到的問題。運維和服務托管:傳統的IDC運維模式依賴各種自建運維工具或外圍工具,對業務系統進行監控、維護、優化和管理,組件專門的運維團隊用來保障企業 IT 系統的穩定性和可靠性。多云管理:泛互行業客戶使用來自不同云廠商的云,以滿足特定業務的需求。不同的業務對性能,數據位置,可伸縮性和合規性都有自己的要求,用戶可以根據自己的獨特需求確定最適合哪個云運行特定的工作負載,同時避免供應商鎖定問題
68、。3.分布式云實施路徑案和應用價值企業在從 IDC 上云的過程中,核心關注如何對存量的 IDC 資源進行利舊,降低上云遷移成本低。低成本遷移上云通過云原生和K8s 的標準化能力,快速打通上云的屏障,實現IDC上的業務能夠低成本的遷移至云上,同時 IDC 能夠擁有云上完整的產品能力,實現一致的體驗。針對該場景可以靈活選擇集群部署方案:注冊節點:它主要針對存量 IDC 節點提供快速輕量上云,特點是 K8S 的控制面托管在云上,有云廠商來進行運維管理;企業只需在 IDC 上運行注冊腳本即可分鐘級實現集群的構建;26 分布式云行業實踐指南注冊集群:它主要針對已經在 IDC 構建 K8S 集群,不想運維
69、或者缺少部分運維管理能力時,通過將集群連接至云上,有云上進行運維管理和云能力的補充;任意位置的集群:它主要針對用戶希望在 IDC 希望對于集群有更多的管控能力,不想負責集群的創建以及升級等基礎運維管理時,可以通過 TKE 控制臺在云上完成云下集群的搭建?;旌显聘咝д{度為實現資源層,數據服務層和應用管理層的統一管理,例如在保留原有IDC體系結構和應用能力的同時,利用公有云來按需擴展資源,將穩態的業務部署在 IDC,彈性的業務部署在公有云,按需使用以達到成本的最優化管理。同時會結合云上和云下的成本體系按需將業務調度到云上和云下,以實現資源的最優化管理。運維效率提升利用分布式云的運維和服務托管可以幫
70、助企業實現高效、穩定、安全的 IT 運營,從而提高企業核心業務效率和競爭力。例如運維托管可以免去在本地搭建、運維 K8s 集群的成本,無縫集成公有云上云原生相關服務,涵蓋日志、監控、審計、存儲、容器安全等能力,用戶無需花費精力自行運維 K8s 集群組件、容器運行時等,僅需要運維本地服務器即可。公有云上提供完善的運維能力,并提供節點聲明式運維的能力,支持節點快速故障診斷,升級及回滾能力?;旌显茍鼍跋铝硪粋€的核心挑戰是如何保證分布式云下的服務質量,分布式云場景下 IDC 機房,物理硬件服務器,底層網絡等資產屬于企業,企業客戶仍然負責維護底層的基礎設施的質量,但是底層基礎設施的故障會導致上次服務的故
71、障,因此針對這種情況,分布式云采用云廠商和客戶合作運維,責任共擔的模式,由云廠商負責其提供的服務以及相關軟硬件的交付、運營、維護,客戶負責數據中心基礎設施、所需網絡資源以及自身基于分布式云部署的應用系統維護??蛻魝冗€需提供必要的配合和協助,比如用于遠程維護通道的網絡聯通,涉及現場問題時提供機房駐場接口人,涉及共同定位時提供相關問題表現和必要日志等。資源和應用匹配利用分布式云可以靈活地將最佳云用于最佳任務的靈活性,通過公有云分發服務,用戶可以在不同的云環境中部署和運行應用程序或業務組件,從而最滿足對性能,數據合規性等的要求,解決了多云環境中可能發生的運營和管理不一致問題,避免了管理來自許多不同供
72、應商的許多不同技術會帶來復雜性。例如游戲服務場景下,需要在多個國家地區提供服務,為滿足網絡時延,數據合規性等的要求,會選擇多個云廠商提供服務,為解決多個云廠商統一管理的問題。分布式云行業應用最佳實踐05(一)金融行業:騰訊云金融專區(二)制造&工業:華嶺智能制造數字工廠(三)能源:寶信軟件分布式云系統(四)交通出行:廣州地鐵集團(五)交通出行:某新能源車企自動駕駛云(六)泛互:智聆口語評測降本增效實踐28 分布式云行業實踐指南相關項需求描述運營運維1.客戶期望有一朵安全合規的云,但是單客戶缺乏運營運維一朵云的經驗,并且需要保持與主流的云平臺,技術路線一致2.支持多地域,不同類型,不同云服務資源
73、池統一管理與運營運維提升運營運維效率,降低系統復雜度就近接入金融機構分布于不同地域,業務要求低時延,就近接入多地域互聯1.不同機房間通過互聯通道互通,例如 MPLS。VPN,實現業務跨地域統一使用2.ECN 專線接入網關支持客戶 IDC 就近接入安全合規1.支持 JRT0168-2020云計算技術金融應用規范容災6 級要求2.支持團體云合規認證要求3.通過網信辦云評估4.等保認證:公安等保護 4 級、金融等保 4 級5.機房認證:50174、0131安全隔離1.云產品,安全等運營運維系統金融專區獨立部署,與專區外網隔離2.專人運營運維3.運維安全邊界:FW 與外界隔離,內部通過堡壘機實現操作可
74、審計,VPN 作為接入通道2.用戶痛點表 1金融專區用戶痛點(一)金融行業:騰訊云金融專區 1.案例背景騰訊云金融專區由于安全,認證合規要求,采用分布式云架構,基于騰訊專有云企業版 TCE 將公有云能力進行延伸,由騰訊建設,運營,為央行名下的金融機構提供云服務.總體架構滿足容災 6 級要求(至少需要兩地三中心,支持同城雙活,異地災備),滿足金融機構多地域就近接入,金融業務高可用,并且多點接入的需求。2020 年中國人民銀行發布金融部門標準強化金融云規范治理的通知,要求金融部門在利用金融云時,應選擇通過標準符合性自律備案的金融云。根據央行 247 號文,中國互聯網金融協會發布了金融云備案自律管理
75、辦法(試行),根據辦法中備案申請的要求,任何機構和個人未經備案不得從事或變相從事金融云服務業務。同時,金融機構不得使用未經備案的金融云產品?;诖?,騰訊云基于分布式云架構建設合規的金融行業云,專注服務于銀行、證卷、保險、基金、金控、支付、擔保、租賃、財務公司、汽車金融、消費金融、小貸等金融機構。05.分布式云行業應用最佳實踐29分布式云行業實踐指南 表 2容災等級要求3.建設方案金融專區采用分布式云遨馳架構,提供和公有云能力一致的云服務能力,并且支持“兩地三中心”,支持同城雙活、異地容災,保障金融機構業務、應用連續性,數據可靠性、安全性等要求。完全符合各類型金融機構對于 IT 基礎設施和服務的
76、容災等級要求,并支持容災等級 6 級。金融專區建設完全符合各類型金融機構對于 IT 基礎設施和服務的容災等級要求:圖 10金融專區架構圖容災等級RTORPO1 級2 天以上1 至 7 天2 級24 小時以上1 至 7 天3 級12 小時以上數小時至 1 天4 級數小時到 2 天數小時至 1 天5 級數分鐘到 2 天0 到 30 分鐘6 級數分鐘030 分布式云行業實踐指南4.技術架構2 個 Region:上海金融專區/深圳金融專區3個AZ:上海金融專區一區(上海松江)/上海金融專區二區(上海寶信),深圳金融專區一區(深圳荔景)單可用區:按互聯網、專線接入、網關接入、租戶區、管理區等安全區域分區
77、建設。圖 11兩地三中心架構圖 12單可用區架構5.應用成效騰訊云金融專區是基于分布式云架構、業界領先、安全合規、全棧集成的行業云解決方案。已服務銀行、證券、互金、新籌保險、傳統保險等百十家客戶。滿足團體云、云安審、公安等保 4.0、金融等保 4.0、可信云、安評、國密等合規要求,金融專區的云平臺和云產品全部兼容主流 CPU 和操作系統。31分布式云行業實踐指南(二)制造&工業:華嶺智能制造數字工廠1.案例背景四川華拓光通信股份有限公司(中文簡稱“華拓”,英文簡稱“ATOP”)成立于 2010 年,作為行業領先的光模塊與光器件研發生產商之一,致力于為全球電信運營商、設備商、互聯網廠商等客戶提供
78、創新的產品與解決方案,華拓以“光通世界,連接未來”為愿景,以優質光通信產品與專業服務,持續為全球客戶創造價值,為股東創造效益,為供應鏈伙伴創造機會,為員工創造平臺,連接數字化美好未來。目前華拓產品覆蓋寬帶接入、5G/4G 無線接入、傳輸網、數據中心四大應用領域。2022 年,華拓全資子公司華嶺光子3 萬平米智能制造基地正式投產,可提供光器件、PON、高速光模塊、激光雷達等產品OEM/ODM服務。華拓與騰訊云達成戰略合作,通過工業互聯網、AI、大數據、智能裝備資源軟硬融合,聯合打造光模塊行業智能工廠標桿。2.用戶痛點華拓總部位于中國,在歐洲、北美、亞太等地區設立了分公司及技術支持中心,同時由于生
79、產制造企業的特點,華拓在海內外有許多生產制造基地,針對不同的業務部署各種類型生產制造系統,如何統一管理全球資源,降低管理和運維成本成為企業發展的最大挑戰。硬件層面:過去的機房 IT 系統沒有架設云服務器或者超融合,所以每增加一個對應業務,就需要增加一臺實體服務器,也要走一遍選型采購等一系列流程,這種運行方式下實體服務器配置基本也比較固定,但是后續不斷增長的業務需求會對 IT 系統有更高擴容要求,不同業務的資源不能打通,造成了大量的成本浪費。用戶層面:華拓在海內外有許多生產制造基地,針對不同的業務部署各種類型生產制造系統,如何管理不同地域,不同業務,不同部門原有的子系統,如何提升分布在各地數字工
80、廠 IT 交付和運維效率問題,通過一套分布式云平臺實現統一的云平臺,實現統一管理和統一運維。數據層面:公司擁有多個獨立的系統,系統之間做了少量的調用接口來獲取數據,因為集成度相對不夠高,所以獲取的數據經常還需要人為整合,或二次開發去整合。數據系統亟需打通,數據層面的聯動將帶來的數實融合,進一步釋放了數字生產力,公司數據資源得到快速整合,加速數據轉變為業務生產力的進程;數據潛在價值得以挖掘,通過對復雜數據進行可視化分析處理,提供了更多創新機會幫助實現降本增效。3.建設方案項目綜合騰訊成熟的分布式云方案,搭建基于分布式云的管理平臺,基于騰訊云分布式云容器平臺(TKEAnywhere)作為本地數字工
81、廠底座與 PLM、ERP 服務器、智能設備、CAD、MES 等數字化系統實現集成優化,實現上層管理系統與工廠、車間管理系統的互通互聯。華拓通過應用傳感器、物聯網、云計算、大數據等數字技術通過騰訊云分布式云容器平臺(TKEAnywhere)利用云原生標準將大數據、物聯網、傳感等各種技術集成,開展核心算法,自主研發基于云原生的數字化調測生產線,實現調測設備數據的自主采集、存儲、分析、處理、預警。32 分布式云行業實踐指南4.技術架構通過騰訊分布式云原生多集群管理平臺 TDCC 以 K8s 云原生技術為標準的騰訊云分布式云容器平臺(TKEAnywhere),通過分布式云的多集群管理的方式,打通各個大
82、數據中心以及數字工廠的管控,保證統一的標準和互操作能力。騰訊云為區域中心提供集群軟件和硬件產品,并通過云上運維能力保障集群可靠。各大數據中心具備獨立的管控能力,中心的管理員可以登錄并維護本片區的云服務。同時,利用分布式云的云上交付能力,應用市場、數據市場、行業市場等軟件服務可以無縫交付至各個區域中心。改造完成后形成了云邊端一體化的大數據平臺服務,在更貼近用戶和數據的位置,提供穩定可靠的云服務。在生產現場的環境,利用TKEAnywhere 本地容器平臺為華拓提供了量身定制的工業互聯網平臺解決方案。TKEAnywhere 是騰訊公有云容器服務的延伸,支持在任意位置提供成熟可靠的容器服務。在華拓項目
83、中為生產、經營、管理的各個系統,提供了公有云質量標準的云原生基座,通過騰訊云分布式云容器平臺(TKEAnywhere)、PAAS管理平臺、Kubevirt等技術的深度融合、有機互補,實現對計算、存儲等資源的統一管理和調度,兼容原生 kubernetesAPI接口,方便業務對資源進行動態的、按需調度,提升資源的利用效率,共同組成一個開放、兼容、穩定、可靠的企業級分布式云解決方案。圖 13華嶺智能制造數字工廠架構圖33分布式云行業實踐指南 5.應用成效引入邊緣計算和分布式云系統為華拓工代帶來多方面的企業效益提升。經濟效益方面,在華拓項目應用后,根據客戶提供的數據,相較于老廠,人力投入減少 30%,
84、制造成本降低 15%。敏捷價值方面,在華拓項目應用后,新工廠相對老廠設備停機時間降低 50%,整體生產效率提升 20%??蛻魞r值方面,通過新方案的落地,華拓在車間人力投入成本減少 30%,制造成本降低 15%,同時設備停機時間相較老廠降低 50%,整體生產效益提升 20%,生產管理和協同效率提升 10%,降低積壓呆滯庫存10%,新工廠的 20 臺設備,短時間內快速接入采集,連通了 MES、ERP 及 OA 系統,有效降低系統使用成本。創新價值方面,新方案的開放性,是企業后續創新的基礎,在本案例中,從底層硬件層到上層應用層,全部都是可擴展、開放性的,為企業后續創新提供無限空間,同時整體架構易于復
85、制,為后續新工廠模式復制到其他廠降低了難度,可實現快速復制、交付、部署。本次的落地,建設起了綿陽地區及光通信行業的數字化工廠標桿效應,提升了企業形象。質量價值方面,方案實現全流程可視化監管,MES 根據精益生產標準實施作業指導和質量管控,確保產品制造過程符合標準要求,產品合格率達 99.5%以上,通過預警分析預測關鍵件故障,減少不良品產生,通過知識庫積累和復用,提高設計質量和產品定制能力。社會/生態效益方面,本次華拓項目推廣后,將帶動光通信行業數字化轉型進程,實現產業鏈上下游協同共贏;上游光電設備廠家可研發智能設備,提高靈活度和定制能力;下游通信運營商和互聯網企業接入高品質光通信產品與服務。(
86、三)能源:寶信軟件分布式云系統1.案例背景寶信是中國最大鋼企寶山鋼鐵集團的信息化子公司,服務寶鋼在內數百家大型企業和海量的中小企業,提供以鋼鐵業為代表的流程型制造數字化智慧化綜合解決方案。2.用戶痛點寶信管理著數十個 IDC 以及萬級數量的機柜和設備,隨著業務擴展和智能化轉型進程加速,龐大的 IT 基礎設施管理運維對其 IT 管理團隊挑戰劇增,要同時面對 IT 規??焖贁U張的運維問題和企業數字化轉型的軟件和服務支撐問題。3.建設方案通過引入分布式云,實現混合云體系管理效率提升??蛻粼?IT 設施多、系統復雜,通過騰訊分布式云本地專用集群 CDC 產品在本地 IDC 進行本地化云節點搭建,僅需
87、 8 臺服務器即搭建完成具備公有云一致能力34 分布式云行業實踐指南的計算、存儲、網絡等基礎 IAAS 服務,從而高效低成本的開展 POC 驗證工作。期間將原有基于 VMVare 等傳統方案部署的業務遷移到 CDC 上進行驗證,除了可靠性、性能、使用體驗等方面,也完成寶信原有內部 IT 系統、流程與 CDC 產品的對接,比如基于分布式云 CDC 提供的遷移服務,可方便的實現從 VMVare 虛擬機批量向云服務器遷移。另外,基于CDC提供的流量審計服務,寶信可對分布式云所有管控和業務流量進行合規審計,滿足企業IT安全要求?;贑DC敏捷的擴展能力,原有單機柜的POC環境可在15天內擴展為數十個機
88、柜規模,快速構建可承載萬核以上現網業務的云平臺?;?CDC 引入豐富云服務,全面升級行業云平臺。除了引入分布式云改造 IT 基礎設施,也將分布式云與寶信行業云平臺“寶之云”進行結合,騰訊云分布式云產品 CDC 除了能提供基礎的 IAAS、PAAS 服務,還提供豐富的 AI、大數據以及企業 SaaS 服務,比如面向辦公協同的企業微信、騰訊會議、騰訊文檔,面向生產流程的數字孿生、AI 質檢等服務,能極大的幫助客戶進行全面的數字化轉型。同時基于雙方深度合作,將分布式云上的企業服務和云服務融合到寶信的行業云平臺之內,以更高效安全的模式服務海量企業用戶。4.技術架構圖 14寶信軟件混合云系統架構35分
89、布式云行業實踐指南 5.應用成效全面提升運維效率?;诜植际皆频膮f同管理模式,在引入了騰訊云高效的運維能力的同時能滿足客戶側全面運營管理的訴求,客戶 IT 團隊同樣人數能管理數倍于過去的設備和系統。引入豐富服務,提升數字化轉型效率?;?CDC 上豐富能力,構建企業辦公協同平臺、信創平臺、生產流程平臺、數字孿生方案等新型數字化服務,并講創新數字化能力與原有行業云平臺進行結合,未來可向數百家大型企業和數十萬的中小企業提供更豐富、更易用高效的數字化云服務。技術遷移穩定可靠,保障企業安全合規?;诜植际皆频拿艚莶渴?、擴容的特性,客戶在保持現有環境穩定運行下,快速實現 POC 驗證和正式環境擴容工作。
90、同時騰訊云 CDC 為更好的與本地 IDC 兼容,提供豐富產品化能力,方便客戶實現虛擬網絡與 IDC 網絡安全互通、平臺管控流量審計、存量平臺與云平臺實例互遷等需求。(四)交通出行:廣州地鐵集團1.案例背景廣州地鐵集團有限公司(以下簡稱廣州地鐵集團)是廣州市政府全資大型國有企業,企業運營的軌道交通里程達 857 公里,包含本地地鐵線網 621 公里,服務城市千萬級人口。隨著數字化的發展,廣州地鐵引入大量的數字化和智能化系統,用以提升軌道交通的安全性、準時性、可靠性,以及群眾乘坐地鐵的服務體驗,這些數字化服務既有在中心機房部署的,也有需要在站點就近部署的。2.用戶痛點站點分散管理難度大:地鐵本地
91、站點已超 300 個,同時,因為建設年代跨度大,不可避免的采用了不同類型的 IT 設備和架構方案,對客戶來說管理難度大,運維效率需要進一步提升??煽啃砸蟾撸簭V州地鐵年安全運送乘客 28.3 億人次(2021),占全市公共交通出行總量的60.75%,作為城市基礎性交通設施,在運行期間需要保障極高的可靠性和準時性。為了保障站點穩定運行、全局后臺系統的整體可靠性、以及客戶側 App 使用體驗,需要極高可靠性的基于云底座的 IT 架構整體部署方案支撐。3.建設方案高可靠同城雙活。騰訊分布式云支持多地多中心架構,支持從存儲、網絡到應用層的全棧雙活架構。站點邊緣自治。正常情況支持云邊協同,中心可對邊緣側
92、統一調度、管理,可上聯多個中心容災管控點。斷網失聯時,邊緣云可持續運行,并具備獨立操作界面,可自治運行和管理。36 分布式云行業實踐指南5.應用成效幫助客戶構建“同城雙活”架構,支持分鐘級應用容災,保障千萬人級出行安全保障。通過統一管理提升客戶邊緣節點管理效率,同時支持基于存量設備部署,最大程度優化客戶成本。4.技術架構基于騰訊云遨馳分布式云操作系統,為廣州地鐵建設高可靠云底座:中心同城雙活:支持多滴多中心設計,采用應用級雙活保證高安全、關鍵業務可靠性。數據中心雙活方案與各主流廠商兼容匹配。各關鍵 IaaS、PaaS 皆為騰訊自研,經過公有云多件高可靠性檢驗。邊緣多上聯容災+斷網自治:在網絡正
93、常情況下,保持云邊協同,支持中心對邊緣側統一調度、不安利,可上聯多個中心容災;在斷網情況下,邊緣云可持續運行,并具備獨立操作界面,實現自治運行和管理。圖 15廣州地鐵分布式云架構設計37分布式云行業實踐指南(五)交通出行:某新能源車企自動駕駛云1.案例背景客戶為某新能源車企自動駕駛團隊,為客戶車輛提供輔助/自動駕駛服務,自動駕駛業務屬于重計算、重存儲類型,隨著業務發展,客戶本地的計算、存儲資源不足,同時投入成本較大,難以平衡彈性和性價比。2.用戶痛點復雜多樣的技術架構:隨著公司的快速發展,各種類型的業務共存,各業務技術架構不統一,造成統一管理和運維困難?;旌虾头植际交A設施:作為一家集制造、自
94、動駕駛研究和消費者服務于一體的高科技公司,計算平臺的基礎設施是混合和海量的。高精地圖等部分業務在 IDC 合規受限。彈性計算資源需求:各類業務的快速擴張給平臺帶來海量而緊迫的計算需求,對資源供應提出挑戰。3.建設方案客戶通過分布式云+本地模式構建的基于混合云的自動駕駛云?;跀祿踩蛡鬏斝实仍?,客戶需要在本地就近部署基于模擬車輛、車載硬件的仿真系統,基于騰訊云分布式云在本地 IDC 引入與中心一致的對象存儲 COS 以及 GooseFS 產品,分別應對海量數據保存場景和海量并發場景,充分利用分布式云云邊協同優勢:基于分布式云與中心云一致管理特性,將部分數據就近上云,通過云原生平臺統一調度
95、,實現一套方案覆蓋中心與本地仿真訓練流程調度,極小改造量即可同步調度云上海量算力。圖 16某新能源車企自動駕駛云架構38 分布式云行業實踐指南4.技術架構為建設多業務,多地域統一管理統一運維的分布式云架構,客戶基于容器化及 kubernetes技術棧優化底層架構,運用了騰訊云的多種容器服務和能力。5.應用成效基于分布式云建設 EB 規模,百億規模文件存儲,能夠將存儲成本優化 30%,最高支持百 GB 級 IO 帶寬、百萬級 IOPS 讀寫性能;基于分布式云云邊協同特性,算法訓練性能提升 30%,單次訓練時間從 1 個月縮短到1 周,單路仿真成本降低 30%。圖 17分布式云原生技術架構39分布
96、式云行業實踐指南(六)泛互:智聆口語評測降本增效實踐1.案例背景騰訊云智聆口語評測(SmartOralEvaluation,SOE)是一款中英文語音評測產品,支持從兒童到成人全年齡覆蓋的語音評測,提供單詞、句子、段落、自由說等多種評測模式,從發音精準度、流利度、完整度等全方位打分機制,與專家打分相似度達95%以上,可廣泛應用于中英文口語教學場景中。2.用戶痛點由于業務的長年發展,已經積累了IDC物理機、云上虛擬機和云上Serverless容器服務等多套部署環境,業務架構十分臃腫,運維難度非常高,同時在當前降本增效大環境下,產品側的降本訴求,如何控制產品成本成為一個越來越重要的命題。日漸豐富的業
97、務和多樣的流量模型,對云平臺帶來了各種挑戰:擴容成本非常高:由于本是AI評測類業務,依賴大量CPU 和 GPU 機器,而機器從資源申請到交付,再到服務部署調試與流量接入,周期通常是天級的,無法應對早晚高峰的尖峰流量,所以需要為高峰期預留大量buffer。資源流轉效率低:同時業務側存在中英文評測服務,AI引擎是兩套模型,而模型間的部署切換成本也比較高,這也導致我們需要預留雙份的buffer。運維難度高:架構下無法支持業務側高效地進行資源流轉、更無法快速完成彈性擴容。服務質量難保障:引擎服務故障節點剔除依賴人工操作,無法快速完成故障自愈;引擎服務部署方式多樣,物理機/虛擬機/容器方案并存,無法搭建
98、統一的可觀測體系。日漸豐富的業務場景:在工作日非工作日、早晚高峰和中英文評測的多種條件組合下產生了非常多場景,通過提前備量去cover所有場景成本是不可行的。無法預估的業務增量:部分客戶的量受疫情影響非常大,且經常是不可預期的,客戶自己也無法預估評測用量會達到什么量級,這也導致我們無法精準地提前備量。削不掉的尖峰流量:部分客戶存在非常明顯的尖峰流量,用戶會集中在晚高峰的某幾個時間點進行評測,尖峰流量通常是平峰期的 10 倍以上,且客戶依賴實時結果返回,無法通過異步評測的方式削峰。3.建設方案為應對上述挑戰,客戶充分考慮分布式云的理念,通公有云容器集群+注冊IDC節點的方案,升級系統架構,40
99、分布式云行業實踐指南4.技術架構基于新的分布式云架構,通過注冊節點的形式,將各地域的計算資源注冊到各地域 TKE 集群中,實現云上云下資源統一調度。注冊節點上運行了在線模型推理服務(引擎層),當 IDC 中的服務負載過高時,將服務彈性到云上 EKS 超級節點上,實現了云上彈性。IDC 節點引擎層服務采用 HostNetwork 模式部署,超級節點引擎層服務直接使用 PodIP,引擎層主動向北極星注冊(underlayip/超級節點PodIP:port),并支持跨集群跨地域注冊。根據自身負載動態和健康狀態調配流量權重,實現自定義調度和故障自動切換。接入層通過北極星做服務發現,并將流量直接打到引擎
100、層的服務。圖 18智聆分布式云拓撲圖建設混合云架構。云上云下資源獨立部署,無法統一調度,給業務運維帶來額外復雜度。IDC中業務負載過高時,可以彈性云上資源承載。當某地域的服務故障時,自動切換流量實現容災。通過全面擁抱云原生分布式云,更高效、優雅的解決業務面臨的滿足資源利舊,服務擴縮容、降低運維成本等問題。41分布式云行業實踐指南 圖 19智聆分布式云架構圖日志方案統一使用CLS采集,并且通過CLS跨地域采集的功能采集至同一個日志topic中進行檢索分析,簡化現網日志檢索復雜度。監控方案統一為云監控方案,通過云Prometheus采集基礎指標及業務指標進行展示分析,減少多套監控體系學習與維護成本
101、。業務側只需要完成GPU數據的采集上報即可。借助云監控的能力覆蓋郵件、企微微信、電話等多種渠道,減少告警渠道維護成本與多套告警規則配置學習成本。5.應用成效通過新方案,IDC 節點、云上虛擬機節點和超級節點混合部署,通過HPA配置利用云上彈性擴縮容能力進行削峰填谷,對比傳統部署在普通節點上的方案:擴縮容更方便、更靈敏。服務擴容到流量接入耗時優化至分鐘級,自研scheduler服務結合Serverless容器服務彈性擴容能力進行削峰填谷,降低超 30%系統成本,節約 2 個運維人力。管理復雜度更低。不需要維護節點資源,超級節點可按需添加,根據業務情況靈活調整;早高峰期將閑置的英文節點資源轉換為中
102、文節點資源,減少北京地域近 90%早高峰擴容需求。成本更優。引擎服務對GPU,CPU 和 MEM資源有很高的需求,通過分配IDC和云上超級節點支持的GPU 規格節點資源占比,為不用場景分配合適的資源,提到整體資源利用率,提升業務側的性價比。分 布 式云 行 業 實 踐未 來 展 望06自“分布式云”概念提出以來,經過多年演進與發展,產業界對其概念價值認可度持續提升,關鍵技術不斷演進,應用實踐逐步走深向實。展望未來,內涵價值方面,分布式云“統一管理”特點降低傳統混合多云管理和使用復雜度,健強云邊端協同能力,將全面提升云服務使用效率和體驗。技術演進方面,分布式云在彈性部署、云原生應用、一體化安全等能力持續增強,加強行業業務場景支撐能力,加速分布式云融入“千行百業”。實踐應用方面,分布式云應用場景不斷拓展,通過全域化管理調度算力資源,實現在政務、金融、工業制造、能源、交通、泛互等行業大規模應用部署,并賦能大模型訓練、AIGC 等創新場景,賦能我國政企數字化轉型升級。