《華為:2023面向消費終端的企業云原生實踐白皮書(27頁).pdf》由會員分享,可在線閱讀,更多相關《華為:2023面向消費終端的企業云原生實踐白皮書(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、1面向消費終端的企業云原生實踐白皮書2當前,云計算已經成為推進數字經濟發展和生產力變革的重要基礎設施,而云原生作為下一代云計算的核心技術,重要性愈加凸顯,成為驅動業務創新和增長的重要引擎。云原生以容器、微服務、DevOps 等技術為基礎,用于構建、部署和運行應用,以充分發揮云計算優勢,是當前先進的用云方法論。隨著云原生技術和理念不斷成熟,各行各業云原生實踐也在不斷深化,一般場景的云原生解決方案逐漸趨于完善,但對于一些面向消費終端的企業而言,其多元的業務屬性,使其在面向跨場景、跨地域、跨形態的復雜消費終端云時仍存在諸多痛點,國內尚缺乏針對性的云原生解決方案路徑指引,或成為面向消費終端的企業高質量
2、發展的阻礙因素?;谝陨媳尘?,華為云聯合中國信通院研究并撰寫面向消費終端的企業云原生實踐白皮書,基于華為終端云的云原生改造和實踐經驗,為企業提供面向消費終端的云原生轉型路徑以及云原生實踐經驗,助力企業終端實現高水平數字化轉型,促進產業高質量發展。前言3前言 一、數字經濟時代,面向消費終端企業面臨發展痛點1.自建基礎設施四大問題阻礙企業發展2.業務持續交付的各個階段效率低下二、全面上云走向全面云原生,解決面向消費終端企業的發展困局1.云計算步入云原生時代2.三步走策略實現業務終端云原生化三、企業云原生平臺核心能力構建方法論1.基于 DevOps 的軟件工程能力構建1.1.開發態(Dev)1.2.
3、運行態(Runtime)1.3.運維態(Ops)2.基于 DataOps 的軟件工程能力構建3.基于 MLOps 的軟件工程能力構建4.沉淀平臺的六大關鍵技術4.1.多活容災高可用架構4.2.全球化網絡部署技術4.3.微服務化4.4.云數據庫4.5.大數據能力4.6.AI 能力四、展望未來1.高效的數據化、智能化推動消費者業務的“個性化”發展2.統一的基礎設施能力支持消費者企業“出?!?.融合數字化運營能力的平臺工程幫助企業保持長效發附錄、基于華為終端云的云原生實踐案例1.華為終端云云原生模型2.微服務計算平臺支持業務全量微服務化3.數據計算平臺重鑄底層架構4.AI 計算平臺發揮模型算力優勢5
4、.極簡網絡引擎,實現超低時延的最優體驗6.典型業務場景及解決方案CONTENTS040505060607080910101212131315161617181921202020202223232425264目前,隨著數字技術的飛速發展,數字經濟也迎來了快速創新的高速增長階段,已經廣泛滲透到其他經濟領域,深刻改變世界經濟的發展動力、發展方式,重塑社會治理格局。數字經濟是新一輪信息技術革命催生的第三種主要經濟形態,能夠從技術、要素、創新、融合等多個層面促進經濟高質量發展。在數字經濟時代,線上消費保持高速增長,移動消費成為主流消費渠道,消費人群代際更替加快,年輕群體成為購買主力,后發區域消費潛力得到
5、釋放,為消費升級提供了強有力的基礎保障,成為消費升級的堅強動力。消費需求的變化,促進了消費業務的多樣性,在消費者青睞的移動終端,更是迎來了難得的歷史發展機遇。在國內,隨著政策的扶持,數字經濟更是進入高速發展的快車道,面向消費終端的企業應用全面迸發。面向消費終端的企業是指以消費者為主要服務對象的企業,通常業務范圍廣泛,涵蓋全球市場,具有海量用戶和海量數據,并面臨著高可靠性、高并發性、百倍浪涌等業務特點:用戶規模龐大:隨著移動互聯網的高速發展,面向消費終端業務規模呈現爆發式增長,以華為終端全球月活用戶數量為例,2021 年已經超過 7.3 億,全球加入華為開發者聯盟的注冊開發者已超過 540 萬,
6、集成 HMSCore能力的應用超過 18.7 萬個。覆蓋范圍廣:消費終端業務,圍繞社交、健康、出行、娛樂等眾多場景為用戶提供數字生活體驗。業務增長迅猛:隨著移動終端越來越走近人們的生活,消費終端的全球應用數量年增長率超過 100%,以華為的 HMS 為例,全球應用數量年增長率達到了 147%,全球應用分發量超過 4320 億次,擁有手機、平板、電腦、穿戴設備、智慧屏等眾多產品,海量的設備規模對基礎設施運維成本、網絡安全要求越來越高。突發流量:618、雙 11 等集中消費的業務場景,呈現出典型的突發性,要求資源按需彈性伸縮,否則很難適應突發流量訪問。網絡時延:越來越多的消費終端企業選擇出海,為全
7、球客戶提供服務,因此對跨區域網絡傳輸的時延要求大幅提升。網絡安全:隨著業務規模的增大,服務器面臨的互聯網攻擊風險越來越大。高可靠性:對數據中心間網絡可靠性的要求在增加,需要高效的雙活/主備+異地容災。1數字經濟時代,面向消費終端企業面臨發展痛點51.1自建基礎設施四大問題阻礙企業發展1.2業務持續交付的各個階段效率低下消費終端業務需求和業務的多變性,系統的復雜性遠非傳統的自建 IDC 基礎設施可以滿足的。在很多方面出現了瓶頸,原有的技術架構也無法支撐業務演進:建設成本高:為了提升消費者的用戶體驗,我們需要建設全球化的高速網絡和邊緣接入節點。然而,隨之而來的是高額的建設成本。這種成本不僅包括硬件
8、和設備的投資,還包括維護和更新這些設施所需的持續投入。運維成本高:線下的部署方式需要全部自運維,由于全球異構架構的復雜性,維護工作需要高度專業化的團隊,并且隨著業務的增長和機房數量的增加,維護成本會快速增加。此外,不同時期建設的基礎設施可能存在技術差異和兼容性問題,這也會增加運維的難度和成本?;A設施彈性不足:在全球化的業務環境中,熱點活動或事件可能會導致業務浪涌,導致流量突增。為了應對這種浪涌,IDC 部署必須按照最高流量預估提前進行資源建設。雖然這種方式可以抵抗浪涌的沖擊,但會造成極大的資源冗余。隨著業務的擴展,冗余成本也逐漸增大。新技術應用慢:在技術日新月異的今天,企業必須不算跟進最新技
9、術的發展,快速引入新興技術能力,才能搶占市場先機。例如:大數據、AI、區塊鏈等。而新技術發展不是空中樓閣,往往需要依賴配套的基礎設施,在基礎設施不完善的情況下,也無法塑造出技術落地的環境。研發和運維效率一直是企業關注的主題。隨著 DevOps 理念的普及,以及平臺化、自動化和智能化的發展趨勢,企業越來越重視效能問題,正在不斷探索新的方法和工具,以提高研發和運維的效率,從而更好地滿足業務需求。在此過程中,企業大多會遇到下面這些問題:平臺化服務增加推高使用者成本:隨著平臺服務能力的逐步豐富,也給使用者帶來了越來越多的復雜性,了解平臺有哪些能力、怎么快速使用平臺這些能力就成了硬幣的一體兩面,功能越豐
10、富使用就越復雜。需求跨多工具平臺:開發人員一個場景需跨多個平臺操作跳轉。研發環境管理復雜:存在個人級、版本級、產品級環境,涉及中間件等其他服務交互時,環境搭建復雜,缺少快速構建研發測試環境能力。缺少研發數據的洞察和分析:缺少對業務高價值的數據洞察及分析,如需求工作量管道承載情況、漏洞分析處理、版本需求進度、溯源信息在具體版本中的流向等。資源難以復用:各業務系統煙囪式構建,中間件、業務應用的計算資源靜態分配,各業務獨占使用,資源浪費嚴重,資源成本高。微服務缺乏可觀察性:隨著微服務增多,架構呈現離散化趨勢,缺少系統性可觀察能力,如微服務依賴關系情況、產品服務粒度的可視化拓撲圖等。只能憑經驗識別核心
11、調用鏈路和關鍵服務風險,對領域架構的優化也難以得到有效反饋。62.1云計算步入云原生時代隨著企業的數字化進程進入到的一個新的階段,企業上云不僅僅是把業務簡單搬遷到云上,更應該讓業務能力“生于云、長于云”。云計算的發展已進入云原生時代。麥肯錫調研數據顯示,通過對云原生技術的應用,全面解鎖云的價值后,全球財富 500 強企業的 EBITDA(EarningsBeforeInterest,Taxes,Depreciation,andAmortization,息稅折舊及攤銷前利潤)在 2030 年將提升超過 1 萬億美元。近年來,云原生技術有了新的發展,其目標是更好地服務于全球范圍內的政府和企業,推進
12、他們的數字化、智能化改造,同時保障業務高效、可靠、安全,其用云的廣度和深度也與之前的消費互聯網時代明顯不同,進入了全新的時代。微服務治理能力分散:治理能力散落在多個平臺和中間件,故障容錯、限流、降級、熔斷散落在各個服務中,難以實現統一管控和故障隔離。部署周期長:新上線一個服務,各種權限、審批流程繁多,自動化程度低,導致 IT 交付過程漫長。配置人工變更效率低:網絡、環境、參數配置采用線下人工維護,容易遺漏,網絡策略復雜易出錯,不支持自動化/IT 化管理。缺少服務視角的統一監控:服務所使用的(計算、網絡、存儲)、中間件(SLB、DCS、DMQ)、公共服務等服務監控等分散在各服務內,每個服務都需要
13、對接運維公共服務。缺少端到端故障自動化演練:需進一步完善故障模式庫、故障場景等,提升容器場景演練能力、過程快速感知、自動決策、全自動化執行的能力。2全面上云走向全面云原生,解決面向消費終端企業的發展困局7企業為持續發展,則應當依托云原生,以應用為中心構建全新的云服務體系。通過云原生基礎設施升級、應用的現代化改造、數智融合等新技術手段,縮減基礎設施建設、交付、運維等成本,并且加速上層業務的全球化布局與創新升級。通過從線下走向線上,共享使用云服務商的全球站點,可大幅降低建設成本。同時,實現運維分層,企業只專注業務層面運維,基礎設施運維能力可全面依托云服務商提供。利用云原生容器化對業務進行改造,實現
14、不同業務間的資源共享,彈性調度和按需使用,有效提升資源利用率,通過靈活使用公有云的各類基礎、高階服務,滿足新業務快速上線的訴求。并且云計算已經發展非常成熟,新的技術通常也以云服務的方式呈現。因此獲取新技術最高效的方式是以云服務的方式獲取,例如:大數據、AI、區塊鏈等。2.2三步走策略實現業務終端云原生化上云之初,企業應當制定一個上云的策略,建議分為三個階段。第一階段為IaaS上云,第二階段為高階服務上云,第三階段為深度應用云原生。1IaaS 上云:作為全球化企業,首先需要考慮的是在全球各國的隱私數據保護條例,歐盟的 GDPR 下,基于最優用戶體驗,構建全球部署架構,滿足不同區域業務時延要求。而
15、由于越來越高的 ESG 目標,數據中心能效比 PUE 也是一個重要的考量指標,必須滿足綠色低碳的要求。2高階服務上云:云服務提供商通常具有豐富的云原生技術積累,可以提供高效、安全、可靠的云服務能力,從而大大提高業務開發和運行效率。因此,企業直接使用云上的高階云服務,如數據庫、大數據、AI、容器等,而非自己構建,可以使企業更專注于核心業務的開發,而無需投入大量資源自行維護和擴展這些服務。3深度應用云原生:在 IaaS 和高階服務均上云的情況下,需要深入研究和應用云原生的各種技術,如:業務微服務化、在離線混部等,以逐步提升資源利用率,實現降本增效。此外還可以利用云服務提供的能力,構建運維治理工具,
16、并通過自動化來持續提升運維效率,降低運維成本。通過這樣的“三步走”策略,可以將業務平穩、高效的推進到全面云化的戰略目標,并隨著業務的發展,快速落地新技術,通過持續降本增效,幫助企業更好地應對市場變化和競爭壓力。83.1基于 DevOps 的軟件工程能力構建企業軟件開發已經進入了新的時代,應用開發、數據開發和模型開發成為了企業軟件開發的三個核心領域。DevOps 的理念也已廣泛被應用于這三個領域,因此構建三大領域端到端的軟件工程能力,實現應用、數據、模型的高效交付和運維是核心目標。同時需要將大容量、高可靠、全球化、安全隱私等關鍵技術能力下沉在平臺內部,以服務化方式向應用提供,通過 DevOps
17、端到端工具鏈為用戶提供便捷接入和使用,讓開發人員更專注業務代碼實現。云原生DevOps平臺的應當以服務使用者為視角,以提升企業應用的開發,運維,運營的全流程運作效率為目標,聚焦 Dev-Runtime-Ops 進行能力構建。需要以軟件交付件為核心,并將流程 Built-in 到軟件生產過程中。以軟件交付件為核心:“業務代碼+BaC=軟件包,軟件包+IaC=可運行環境”。BaC 指構建即代碼,IaC 指基礎設施即代碼,軟件包則應該包括應用、云側服務以及數據和 AI 算法等。3企業云原生平臺核心能力構建方法論93.1.1開發態(Dev)流程 Built-in 到軟件生產過程:指 BaC 和 IaC
18、 執行過程中可針對流程中需要進行的質量控制項進行控制。比如 IaC 執行時發現現網有刪除數據庫的操作那么主動攔截觸發審批,BaC 執行時發現此軟件版本有使用的開源軟件有嚴重漏洞那么則不允許發布等。構建項目管理服務和一站式開發平臺,通過軟件信息樹實現全流程可信。解決研發過程中的跨角色、跨組織協作問題,開發人員在本地可以完成個人級編碼/調測/檢視/提交等活動,實現函數/微服務/IaC的一站式操作部署。面向云原生應用開發者提供一站式 DevOps 開發工作臺:覆蓋持續開發階段全鏈路活動,使能開發者免工具切換完成全棧工作流,通過個人工作臺查看并處理需求、缺陷、檢視活動等任務,并能隨時監控、管理個人CI
19、&CD 工作流聚焦可信編碼:提供 IDE 工程一鍵配置、消費軟件信息樹、部署信息樹以及信息倉進行最優軟件的推薦、檢查,做到過程可信,提供本地代碼靜態檢查以及代碼合入能力函數開發全生命周期管理:提供函數創建、開發、調試、測試、部署、監控和優化的全生命周期一體化作業平臺微服務開發全生命周期管理:提供微服務創建、開發、調試、測試、部署、監控和優化的全生命周期一體化作業平臺,支持可視化引用各類中間件、公共組件IaC 一站式開發部署:提供 IaCModel 模板化創建、定義自動補全、智能校驗、計劃預執行能力融合 DevOps 持續開發過程中的工作流和信息流:結合軟件信息樹實現編譯/構建依賴和漏洞管理支持
20、本地調測:一鍵端云聯調,基于本地沙箱環境極簡化開發調測反饋循環統一自助式 ConsoleSaaS Runtime云原生 DevOps 平臺云基礎設施(計算/存儲/中間件/大數據/AI/.)可信數據和云服務底座微服務計算平臺一站式 DevOps 開發平臺DevOps部署監控演練項目管理服務函數計算平臺103.1.2運行態(Runtime)3.1.3運維態(Ops)提供大容量、彈性、安全、高可靠的服務運行環境,讓業務看不到云,按需快速集成??尚艛祿驮品盏鬃航y一托管業務運行時的 IaaS 資源(計算、網絡、存儲等)和數據庫,將服務運行時的可信公共能力(可靠可用、服務治理、流量調度、韌性等)下沉
21、到平臺,提供包括注冊中心、配置中心、灰度發布、限流降級、服務隔離等一系列服務治理能力,實現平臺和業務解耦,讓業務聚焦代碼開發,提升交付和維護效率。微服務計算平臺:微服務改造后,微服務數量急劇發散、調用鏈路極度增長,在現網出現故障時,定位問題是非常復雜的。因此需要提供一個全托管式微服務運行環境,全面實現容器化和基于流量的彈性伸縮。并提供調用鏈、日志服務、基礎監控等能力,可實現自助診斷能力,而業務只需聚焦自身代碼開發。函數計算平臺:函數計算(Function-as-a-Service簡稱FaaS)是當今最流行的 Serverless 計算服務。函數計算將應用程序所需的底層基礎設施和管理任務交由平臺
22、完成,開發者則可以將更多的精力集中在應用程序的業務邏輯上。通過函數計算平臺可提升函數的開發和灰度升級易用性,優化彈性伸縮和調度策略,幫助業務提升研發效率和降低資源成本,助力應用生態全面 serverless 化。隨著很多企業逐漸將越來越多的業務系統往云上遷移,企業客戶需要將IT治理模式延伸或遷移到公有云上。因此需要圍繞運維階段 3 個核心場景:部署、監控、演練進行自動化、數據化、智慧化運維能力的構建,提升運維效率,為高品質業務提供保障。通過運維管理體系建設,實現流程 IT 化和可控可回溯的運維安全管控能力,并最終實現無人值守運維。部署服務目標圍繞部署的全生命周期過程進行管理,通過 IaC 全面
23、全自動化部署,實現無人值守變更。依托流程、工具和運營能力,從變更提交和變更結束,打通全流程各個環節,實現場景化的無人值守。變更管理:完善變更通知,變更檢測,變更執行,變更記錄各階段的自動化能力,在變更過程中自動識別高危變更操作,差異化區分不同類別變更操作的處理方式,提升變更流程的自動化率,通過工具和流程保證變更過程和結果的可信。聲明式 IaC:開發人員只需要通過 IaC聲明定義需要資源或狀態,后端將復雜的業務邏輯進行封裝,簡化IaC 代碼開發。IaC 提供標準化模板,并開放參數,定制參數通過規格進行抽象,對類似刪除數據庫等高危操作進行主動攔截,避免事故,支持全球一份 IaC 代碼。服務環境:服
24、務 IaC 代碼執行后生產服務環境,部署服務提供環境的創建,刪除,更新,歸檔,恢復等全生命周期管理,并按照環境聚合環境包含的資源的監控數據,支持對現網存量部署的業務資源按環境維度進行納管,業務平滑過渡到云原生 DevOps 平臺。11網絡自動化:抽象“隔離域”概念,對業務屏蔽公有云網絡細節,實現網絡資源的業務聲明式定義和配置自動化。業務通過定義網絡隔離域 IaC 代碼實現部署視圖 IT 化,部署服務調用網絡服務自動化配置服務需要使用網絡信息。關鍵技術點包括:一、抽象公有云網絡資源概念,自動規劃和分配網絡資源,讓業務不感知網絡;二、根據服務依賴關系自動生成網絡訪問策略,實現服務間網絡自動按需開通
25、。監控服務面向開發和運維 SRE,圍繞故障生命周期,以自有服務視角匯總 IaaS、PaaS、SaaS 的監控信息,構建開箱即用的一體化可觀測性平臺;同時構建運維數倉以及故障 RPA 處理能力。故障預防:故障預防重點構建健康管家(巡檢能力),基于系統化監控及分析能力,面向自有服務和生態開發與運維,提供自定義巡檢和編排,可視化度量現網風險,驅動業務改進,提升巡檢效率故障檢測:圍繞服務狀態,構建事件中心及全景化事件診斷能力。并給業務提供內網撥測能力,研發發布測試用例能夠在撥測平臺進行自動化撥測監控,提前發現發問題。故障診斷:分為基于專家經驗故障診斷工具包括數據庫故障診斷、服務調用診斷等診斷工具,同時
26、結合 AI 算法逐步構建根因分析等智能化診斷能力。故障通報:實現故障通報 IT 化管理,提升故障通報效率故障恢復:通過知識庫、應急預案、故障自愈等能力構建,實現故障自動化恢復。豐富和構建故障恢復原子能力,通過自動化編排故障處理流程,逐步實現故障輕量化、智能化處理。演練服務演練服務是基于混沌工程理論主動干預提前識別風險,圍繞演練生命周期管理提供平臺能力。重點構建以下能力:IT 化管理:實現演練計劃、演練方案,演練報告的可管理、可重用、可追塑等 IT 化能力最小化爆炸半徑:通過接口級以及會話級故障模式,控制演練最小化爆炸半徑,實現常態化的演練混沌工程:建立穩態指標系統,實現全業務的故障場景自動化執
27、行、監控指標采集、測試與度量,快速評估服務可靠性質量屬性,識別可靠性風險集成調用鏈:支持基于規則的鏈路自動化故障注入能力。123.2基于 DataOps 的軟件工程能力構建3.3基于 MLOps 的軟件工程能力構建DataOps 的目標是匯集 DevOps 全流程數據,進行建模、度量、診斷及改進,通過數據驅動研發效能持續提升。MLOps 的目的是借鑒 DevOps 理念,構建機器學習系統平臺,提供全流程 AI 模型交付支持,使業務人員聚焦于數據和算法。面向管理,對研發全流程數據進行關聯挖掘分析,識別并預警風險點,確??尚藕弦?。面向作業,從時間、速率、負載、效率、分布等維度識別價值流瓶頸點,采取
28、針對性行動,促進效能提升。包括研發領域數據模型、研發領域指標模型和可視化自助分析等能力。數據計算平臺的構建涵蓋數據開發、數據治理、數據運維的全流程工程能力。提供數據建模、數據接入、數據開發、任務管理與調度、數據共享、數據分析、數據地圖、數據質量、數據安全、數據運維等全域的 DataOps 服務。MLOps 平臺需要具備數據準備、模型訓練、執行與反饋的能力,通過資源容器化管理、統一調度、分布式訓練提升資源利用率。支撐數據高效準備,海量數據快速訓練,高并發低時延模型執行以及應用效果及時反饋閉環。核心組件件包括數據準備平臺(DataPreparePlatform,簡稱 DPP),聚焦于構建特征平臺能
29、力,實現離線與實時特征的規范化高效生產、特征的離線與在線存儲,為模型訓練提供特征選擇與樣本生成能力,為模型實時推理提供特征在線獲取服務,同時實現全鏈路特征監控,為 AI 開發者提升特征生產、管理與使用效率,并保證特征質量。13模型訓練平臺(ModelTrainingPlatform,簡稱 MTP),聚焦高效分布式訓練,使業務聚焦領域特征工程、算法、模型。應具備全球化部署,支持多種訓練框架,支持數據管理,支持觀測訓練過程和算法在線編輯能力,支持多種訓練任務模式,提供分布式訓練能力與 GPU 加速能力,支持租戶級資源隔離能力。模型執行平臺(ModelExecutionPlatform,簡稱 MEP
30、),提供高效、穩定、可靠的模型運行環境,提供模型在線執行全生命周期托管,簡化業務集成模型的過程,讓業務聚焦于業務邏輯開發,算法工程師更聚焦于算法的迭代優化。模型效果評估(ABTest),基于先進的底層算法,提供科學分流能力,提供智能的統計引擎,實驗結果可靠有效,助力業務決策。3.4沉淀平臺的六大關鍵技術3.4.1多活容災高可用架構對于消費者終端企業而言,由于其業務規模龐大且擁有海量用戶基數,因此業務大多需要全球化布局,并采用高可用性、資源高效和數據高效等關鍵技術,依次需要將這些關鍵技術沉淀在平臺中,供上層業務以服務的方式使用。而智能化是企業發展的最大助力,無論是對研發運維效率的提升還是對新業務
31、形態的誕生都具有重大意義。因此,高效的模型開發平臺也應作為關鍵技術在平臺中構建。衡量容災系統有3個指標:容災半徑(生產系統和容災系統之間的距離)、RPO(災難發生時允許丟失的數據量)、RTO(系統恢復的時間)。按照容災半徑不同,有同城容災、異地容災方案,分別應對機房級、地域級故障,保障對應層級的數據安全和業務連續性。企業可應用多個云服務實現數據容災、存儲容災、同城雙活、異地多活 4 大容災解決方案,支持業務SLA 達到 99.99%以上。14異地(跨 Region)多活構建跨地域多中心負荷分擔的異地多活方案,Region 內保持雙活,雙 AZ 均故障時,才向其它 Region 切換。支持異地多
32、 Region 的多活檢測、數據自動采集、多活狀態可視化監控,支持多活故障切換、異地多活可運維等能力??捎枚嗷罟收匣謴?RTO 指標進行評估,該指標表示從多活狀態檢測,到狀態異常發現與故障決策,并執行多活故障切換/修復,直到終端用戶業務恢復的時間。異地數據容災數據庫關鍵數據(MySQL/SDS/公有云 DB)本地備份+異地數據容災在數據本地備份基礎上,針對核心業務構建數據異地容災和恢復方案,防止 Region 故障導致數據傾覆式風險,數據異地容災 RPO 小于 10 分鐘,容災數據恢復 RTO 小于 12 小時。同城雙活主備 AZ 同時承載業務,通過控制節點監控雙 AZ 狀態,包括與外網連通性
33、檢測,相互間連通性檢測,以及數據存儲(數據庫、緩存)狀態,機房狀態等,供故障切換使用。15數據本地多副本+跨 Region 數據異地備份為了提升業務體驗,同時網絡/存儲故障實現快速切流恢復,在多地部署接入點(如華為終端云在華北、華東、西南、華南等區域均有部署)。保證用戶就近接入,降低時延和提升用戶使用體驗,同時也提升了數據可靠性和服務 SLA。全球 4 大主站+雙鏈路高可靠骨干網在遵守隱私安全條例的前提下,可在德國、俄羅斯、北京、新加坡部署四大主要站點,覆蓋全球用戶。其中,德國站點覆蓋歐洲地區,北京站點覆蓋中國地區,而新加坡站點則覆蓋東南亞/拉美/非洲地區,俄羅斯由于特殊的隱私要求需要獨立部署
34、。通過骨干和專線封裝兩條 ERPeering 鏈路,做 BGP 負載分擔,將全球骨干網絡可靠性從 99.9%提升至99.999%。主站業務多 VPC 互通,由 VPCPeering 改為 ER 連接,東西向流量從網狀互聯升級為中心輻射,簡化網絡運維和提升流量轉發效率。為提升用戶體驗,可以在部分地區部署邊緣節點。通過服務下沉的方式,縮短時延,提升用戶體驗。3.4.2全球化網絡部署技術16GRS 技術(GlobalRouterService,全球路由服務)GRS 用于端側 App 進行服務發現,端側訪問 GRS 的域名,會自動查詢 DNS 服務器,給 GRS 分配一個 IP,訪問指定的GRS服務器
35、。GRS幫助端側App根據當前上下文(目前主要為相應國家碼,例如注冊地,服務地等)查找其依賴的云服務的正確地址(URL),簡化端側邏輯,有效地支撐“服務地接入”的原則,滿足合規訴求。HTTPDNS 技術通過 HTTPDNS,繞過 LocalDNS、根、頂級和權威服務,解決現網 LocalDNS 故障問題和根服務器的連續性問題。實現域名防劫持能力,包括自有域名和第三方 CDN 的域名。降低解析時延、提高可靠性和可用性,結合端側提供更強大的準調度能力。3.4.3微服務化在云時代,大多數企業服務,都會經歷從云化到云原生的轉變。上云初期,業務主要部署在虛擬機上,但隨著業務規模不斷增長,會面臨資源利用率
36、、擴容效率、網絡管理自動化等問題。同時,業務的單體應用隨著功能的增多,變得越來越厚重,功能模塊之間耦合,不利于維護,故障范圍增大。通過對業務進行微服務化改造,并基于云容器引擎服務,實現云原生 DevOps 在云服務的全面落地。云容器引擎(CloudContainerEngine,簡稱 CCE)提供高度可擴展的、高性能的企業級 Kubernetes 集群,支持運行 Docker 容器。借助云容器引擎,可以在云上輕松部署、管理和擴展容器化應用程序。云容器引擎深度整合高性能的計算、網絡、存儲等服務,并支持 GPU、NPU、ARM 等異構計算架構,支持多可用區、多區域容災等技術構建高可用 Kubern
37、etes 集群。借助于云容器引擎服務,可以實現:提升資源利用率:容器可更細粒度劃分資源,使應用可充分使用資源;17復雜系統簡單管理:單體應用解耦拆分為多個輕量模塊,每個模塊升級/伸縮更加靈活,輕松應對市場變化;保障業務高可用:秒級彈性擴容,快速響應并發高峰,保障業務高性能、高可用。在實際應用中,還可使用一些容器服務的創新技術,助力企業進一步降本增效:CPU 潮汐親和:在不綁核場景,同一微服務多個 Pod 間 CPU 使用率差異過大(峰值 25%),如果采用傳統靜態綁核方式,可以提升 CPU 性能,但 CPU 資源不能 Pod 間共享,不利于資源利用率提升。通過動態綁核,可消除業務容器 CPU
38、不均衡和性能下降問題(接近靜態綁核),PODsidercar 容器進行一定的超分,整體提升資源利用率 5%。在離線混部:企業的業務一般可以分為在線業務和離線業務,在線業務的特點是需要及時處理,優先級較高,若無法及時處理影響用戶體驗,例如:應用市場業務,用戶從應用市場下載 APP,需要及時響應,在線業務的流量主要在 6:0024:00(20:00 左右是高峰),00:006:00 業務量較少。而離線業務的特點是對實時性要求沒那么高,但是需要持續的算力支持。例如:輸出每日的運營報表,華為瀏覽器智能資訊推薦模型訓練。若在線業務需要資源時,有限的資源被離線業務占用,勢必需要規劃更多的資源以支持在線業務
39、。而事實上,離線業務的時間敏感度不高,可以將資源釋放出來支援在線業務。通過在離線混部技術,相同資源情況下承載更多業務,進一步提升資源利用率。3.4.4云數據庫作為數字經濟的“根技術”,數據庫的重要性不亞于芯片。一切數據,都必須在數據庫中奔跑。比如華為終端云服務的很多核心業務,如應用市場、云空間、商城、賬號、支付、游戲、視頻、瀏覽器等,均運行在數據庫上。云原生數據庫,是云原生技術中非常核心的一環,云原生數據庫為企業核心業務而生,其特性和能力有力的支持了業務運行和體驗的改善。隨著業務的飛速發展,傳統的集中式數據庫,已經無法適應數字經濟時代的需要,分布式數據庫應運而生。與集中式數據庫相比,分布式數據
40、庫在數據文件組成、用戶訪問、高可用等方面,有以下幾個方面的區別:在數據庫架構的選型上,SharedNothing 的數據架構,更能適應移動終端業務的特點及發展需要。按照計算和存儲的共享形式,數據庫架構分為以下三種:SharedEverything:一般指的是單個主機的環境,完全透明共享的 CPU/內存/硬盤,并行處理能力較差,典型代表就是 SQLServer、單機版 Oracle 和 MySQL,一般不考慮大規模的并發需求,架構比較簡單,一般的應用需求基本都能滿足。集中式數據庫分布式數據庫由單個中央數據文件組成多個用戶同時訪問同一文件時易發生瓶頸文件傳遞給用戶可能需要更長的時間單站點意味著系統
41、發生故障時停機由位于不同站點的多個數據文件組成允許多個用戶訪問和操作數據從離用戶最近的位置快速傳送文件如果其中一個站點故障數據可以恢復183.4.5大數據能力大數據是人類進入互聯網時代以來面臨的一個巨大問題:社會生產生活產生的數據量越來越大,數據種類越來越多,數據產生的速度越來越快。傳統的數據處理技術,比如說單機存儲,關系數據庫已經無法解決這些新的大數據問題,主要存在幾個方面的挑戰和痛點:數據孤島嚴重,數據共享低效,平臺治理困難:全網大數據集群幾十個,元數據分散在多個集群,造成治理的困難。存算一體架構下數據共享只能通過數據拷貝完成,業務造成不必要的存儲浪費。核心集群規模大(可能達到上千節點),
42、存在故障域大,維護困難等問題。自建 IDC 機房的成本較高:一方面 IDC 機房的 TCO 成本高,另一方面需要建設獨立的大數據組件研發團隊維護幾十個組件。技術上缺乏彈性機制,存算一體存儲擴容造成算力被動擴容,成本高企。依據峰值建設大數據集群,架構上缺乏彈性,造成資源的浪費。集群可靠性和數據共享易用性之間的兩難:為解決融合模型計算的數據共享問題,在存算一體下建設了超大規模大集群,雖然數據共享方便,但也造成大集群在升級、維護和故障爆炸半徑過大的問題。如果拆分為小集群,雖然能解決故障爆炸半徑大的問題,但是無法高效共享數據,并且造成算力因存儲被動擴容,成本過高。針對以上挑戰和痛點,許多云廠商,均推出
43、了大數據平臺,這其中,以華為云提供的大數據 MapReduce 服務(MRS)為代表。MRS 是一個在華為云上部署和管理 Hadoop 系統的服務,一鍵即可部署 Hadoop 集群。MRS 通過統一元數據、存算分離、高可用架構,可有效的解決目前大數據面臨的問題。統一元數據使能新一代數智融合架構創新:打破原有的大數據、數倉、AI 的數據孤島,把數據目錄、數據權限、多版本管理等能力都統一到一個中心點,都依賴這個中心點來訪問數據,這樣數據的使用就不會被孤立的系統束縛。例如,同一個表格可以被不同的分析工具做分析,既可以跑數倉任務,也可以做大數據和機器學習任務,不同的用戶角色不管用什么工具訪問數據,不再
44、需要在專用系統之間來回導入導出數據。云原生存算分離技術創新:通過云存儲+緩存+計算的三層分離架構,使性價比足夠高,計算也足夠靈活。拉遠存儲,使得計算和存儲可以各自彈性伸縮,按需使用。通過緩存,彌補拉遠后的性能損失,把損耗控制在很小范圍內,業務不感知。SharedDisk:各處理單元使用自己的私有 CPU 和 Memory,共享磁盤系統。典型的代表是 OracleRAC、DB2PureScale。例如 OracleRAC,共享存儲,做到了數據共享,可通過增加節點來提高并行處理的能力,擴展能力較好,使用 StorageAreaNetwork(SAN),光纖通道連接到多個服務器的磁盤陣列,降低網絡消
45、耗,提高數據讀取的效率,常用于并發量較高的 OLTP 應用。其類似于 SMP(對稱多處理)模式,但是當存儲器接口達到飽和的時候,增加節點并不能獲得更高的性能,同時更多的節點,則增加了運維的成本。SharedNothing:各處理單元都有自己私有的 CPU/內存/硬盤等,Nothing,顧名思義,不存在共享資源,各處理單元之間通過協議通信,并行處理和擴展能力更好。典型代表為華為公司自主研發的新一代企業級分布式數據庫 GaussDB,各節點相互獨立,各自處理自己的數據,處理后的結果向上層匯總或在節點間流轉,支持 x86 和 Kunpeng 硬件架構,基于 Share-nothing 架構,提供高吞
46、吐強一致性事務處理能力、兩地三中心高可用能力、分布式高擴展能力、大數據高性能查詢能力。19高可用架構及低成本:核心業務多 AZ 多活和全量故障域部署,可靠性全面提升到 4 個 9。業務的連續性和可用性是數據平臺上云改造的重要關切點,例如 CBG 數據平臺改造后可以達到機柜級故障業務無感知,單 AZ 故障重點業務不中斷,運維效率全面提升。同時,MRS 可以按業務峰谷,自動彈性伸縮,幫助客戶節省大數據平臺閑時資源。用時再創建、用時再擴容,用完就可以銷毀、縮容,確保低成本。3.4.6AI 能力AI 開發當前面臨的最大挑戰是,隨著模型復雜性和數據量增加,計算過程越來越耗時,導致訓練時間延長,資源緊張。
47、因此,亟需一個面向AI開發者的一站式開發平臺,可以提供海量數據預處理及半自動化標注、大規模分布式訓練、自動化模型生成,以及端-邊-云模型按需部署能力,幫助用戶快速創建和部署模型,管理全周期 AI 工作流。比如華為云的ModelArts,就是一個快速、普惠的AI開發平臺,能夠支持昇騰異構加速芯片,提供全棧式AI服務。該平臺包括 TB 級 embeddingTable、MemArts 緩存加速、RDMA 網絡、芯片間高速互聯等能力,能夠在向量檢索、內容審核、智能問答、NLP、大模型等場景中提供高效的 AI 服務。利用一站式 AI 開發平臺,可以百倍提升數據準備效率,降低一半的模型訓練耗時,一鍵部署
48、模型到云、邊、端,并利用 AI 加速 AI 開發過程。平臺提供多樣性編排、開發調測以及實驗記錄管理等能力,并通過基于 Console的運行態賬號、資源、配置、Workflow 全鏈路管理能力,加速應用的迭代效率。Notebook 的開發模型,可快速接入分享案例內容,讓 AI 探索與教學更簡單。在一站式開發平臺中統一管理 AI開發全流程,提升開發效率,記錄模型構建實驗全流程,提高模型可靠性,支持機器學習、深度學習、強化學習、決策優化等框架。本地IDE+一站式開發平臺插件遠程開發能力,運行環境自定義,云上云下,無縫協同。一站式開發平臺提供基于 Notebook 的參數化、圖形化、交互式的能力加速開
49、發過程,幫助開發者在數據處理、模型調優以及模型預測方面進行可視化的操作,低門檻完成多種場景的 AI 算法開發與應用,配套提供的算法套件可以更加高效進行 AI 開發。在工具方面,為了更加匹配通用的 IDE 工具使用習慣,一站式開發平臺提供 VSCodePyCharm 插件,支持本地化代碼開發,使用插件遠程連接云上資源進行遠程開發調測,并且可以調用模型訓練、模型部署等能力。20隨著云計算技術的不斷發展和普及,面向消費者企業應用云原生的發展趨勢將會越來越明顯。構建基于云原生的平臺工程,可以幫助企業降低技術人員的認知負擔,標準化工作流程,改善開發體驗,統一化公共能力。通過全面提升企業效能,應對市場的快
50、速變化和激烈競爭。4.1高效的數據化、智能化推動消費者業務的“個性化”發展在消費者業務中,數據化和智能化已經成為實現個性化發展的有效手段。通過結合人工智能(AI)和大數據技術,企業能夠從消費者行為、偏好、需求等方面獲取海量數據,并對其進行深入分析,以實現更精準的產品設計、營銷策略和客戶服務。海量的消費者數據需要高效的大數據和 AI 平臺能力支撐。構建統一的平臺能力,可以幫助企業快速進行數據價值挖掘和模型優化,為消費者提供更為個性化的產品和服務,提升消費者的滿意度和忠誠度。4.2統一的基礎設施能力支持消費者企業“出?!彪S著全球化進程的加速和數字技術的不斷發展,越來越多的中國消費者企業開始“出?!?/p>
51、,走向國際市場。為了應對這一挑戰,企業需要構建云原生平臺。云原生平臺提供全球分布式的架構,將可靠性、隱私安全和性能等關鍵能力通過服務的方式向業務開放,為企業提供必要的基礎設施和支持,幫助企業快速推出新業務,確保一致性的用戶體驗。幫助企業在競爭激烈的國際市場中保持領先地位,滿足消費者需求。4.3融合數字化運營能力的平臺工程幫助企業保持長效發展企業需要的不僅僅是軟件工程能力,而是融合了端到端數字化運營能力的平臺工程。這種平臺工程還需要包括云資源規劃、集成交付、云上資源成本治理、供應商管理等多方面的能力。資源規劃能力可以幫助企業基于業務統籌規劃云資源和架構的建設,通過集成交付能力可實現快速交付,提高
52、業務效率。云上資源成本治理能力可以幫助企業更好地控制云上資源的成本,優化云上資源的分配、監控和管理。供應商管理能力可以幫助企業更好地管理供應商,確保供應商的品質和服務,降低風險。這些能力可以幫助企業實現全面數字化運營,全方位提高資源利用率和業務效率,降低成本,實現可持續增長。4展望未來211華為終端云云原生模型為了滿足華為終端不同業務的需求,終端云服務基于華為云底層技術,構建了一個云原生平臺。該平臺圍繞復雜的基礎設施能力,并基于業務場景進一步抽象建模,提供可信和易用平臺產品給業務團隊使用。使得業務團隊不需要理解底層技術,只需要專注于業務功能邏輯代碼開發,從而提升品特性版本交付效率。華為終端云由
53、四個平臺模塊組成:微服務計算平臺、函數計算平臺、AI 計算平臺、數據計算平臺,并構建了 1個極簡網絡引擎和 10+個中臺服務,支撐消費終端業務持續交付,實現了云原生平臺的三大核心能力構建。華為終端云服務遍及全球 170+個國家和地區,其全球月活用戶數超過 7.3 億,服務領域包括應用市場、電商、云空間、廣告、瀏覽器等,是一家典型的面向消費者業務的大型企業。經過六年的云原生轉型,華為終端云服務所有業務均已上云,基于超過 20 萬,存儲超過 3000P,積累了豐富的云原生平臺構建和技術應用經驗。附錄:基于華為終端云的云原生實踐案例222微服務計算平臺支持業務全量微服務化3數據計算平臺重鑄底層架構終
54、端云服務基于華為云 CCE 服務,構筑一個全托管式微服務計算平臺,支持 CSE、APIGateway、Web 等微服務和分布式任務的全托管,業務聚焦自身代碼開發,屏蔽底層資源,根據流量彈性伸縮,快速完成容器化,并提供了診斷臺幫助業務自助定界定位。終端云服務基于華為云 CCE 服務,構筑一個全托管式微服務計算平臺,支持 CSE、APIGateway、Web 等微服務和分布式任務的全托管,業務聚焦自身代碼開發,屏蔽底層資源,根據流量彈性伸縮,快速完成容器化,并提供了診斷臺幫助業務自助定界定位。在構建 DevOps 的 Pipeline 系統時,創新的引入了 Iac(基礎設施即代碼)和 Bac(構建
55、即代碼)的能力,通過 Iac 和 Bac 實現全流程的自動化。通過華為云的核心技術,如 CCETurbo 容器、CPU 潮汐親和、動態超分、在離線混部等,使得終端云服務的純在線業的 CPU 利用率從 30%提升至 40%。234AI 計算平臺發揮模型算力優勢終端云服務使用華為云的一站式 AI 開發平臺 ModelArts 構建模型訓練平臺(MTP)。通過 MTP 支撐業務模型的快速訓練,支持訓練過程可視化、自動化,提高資源利用率,讓業務聚焦領域特征工程、算法、模型。引入華為云的統一元數據、存算分離、多活容災架構等技術,改造后的數據基礎設施,主機數量比 IDC 減少20%+,任務減少 50+%,
56、數據共享效率提升 80%(原來是集群間數據拷貝,現在是直接訪問 OBS),人力維護成本降低 50%,3 年整體 TCO 降低 20%左右,讓數據架構具備業界先進發展水平。在大數據開發流水線的構建過程中,創新性的引入了 Daac(接入即代碼)的概念,實現數據接入自動化。通過多 AZ、多 Region 部署,配套業務邊緣機房,將模型服務部署到離用戶最近的節點,如廣告類推薦等對時延敏感場景。245極簡網絡引擎,實現超低時延的最優體驗6典型業務場景及解決方案通過北京、新加坡、德國、俄羅斯 4 大主站,覆蓋全球用戶,實現數據本地化存儲,確保 GDPR 合規。通過華為云專線構筑的全球高速互聯骨干環網,以及
57、 46 個邊緣數據中心,最終形成“環-圈-點”的全球部署架構,為全球用戶帶來了 100ms 左右的最佳體驗。通過優化后的 QUIC 協議和智能路由調度,實現網絡數據穩定、安全的傳輸,尤其解決全球用戶訪問卡頓或者延遲過高的問題。通過上述幾大核心技術點以及 GRS 和 HTTPDNS 技術,終端云云原生平臺構建了端管邊云協同的網絡架構,針對流媒體通信、音視頻會議、在線教育、互動直播等對實時性要求高的業務提供全球 fullmeshOverLay 網絡加速服務。最終實現總流量峰值達 5Gbps,賬號訪問提速 13.5%,支付提速 6.9%,存儲上傳速率平均提升 48%。1.應用市場(AppGaller
58、y)應用市場,當前應用數量有 100 多萬,全球月活躍用戶超過 5.8 億。為應對超大分發量(微服務調用千億次/天)和高并發(10W+tps)要求,應用市場基于極簡網絡,在全球分站點部署,內容類數據保持全球一套,存儲在中國區主站,并通過公有云相關服務同步到全球其他站點。在可靠性方面,應用市場采用雙 AZ 雙活架構,通過 ELB 服務實現業務分發和流量控制,最大并發連接可支持到 8 億。25最后,為應對突發流量(比如春晚、618 等數倍或者數十倍的突發流量),應用市場引入客戶端降級方案,有效削減流量浪涌峰值。并利用華為云的彈性伸縮能力,精準、快速擴容,有效解決業務浪涌時的資源訴求,保障用戶體驗&
59、收入無損,支撐春晚紅包活動,互動總量達到639億次。2.華為商城(VMALL)VMALL業務的核心聚焦在首銷、搶購、大促等線上銷售場景,突發業務量一般為平常的5-10倍(甚至100倍)。需要確保 Vmall 業務系統的可靠性,保證故障時,不擴散、不引起整個系統的不可用。在災備方面,實現了兩地三中心的系統架構VMALL 選擇在北京和廊坊兩地建立了同城雙活,在廣州建立了異地災備。通過 VPC 實現其他租戶的隔離,并通過華為云獨有的多業務平面網絡設計實現與線下 ERP(企業資源計劃)、財務系統的安全互訪需求。通過華為云強大的彈性伸縮能力,有效支持華為商城等大型促銷活動開展。26在安全方面,從網絡安全
60、,業務安全,數據安全等方面進行全面防護通過全面的安全感知,以DDoS高防、軟硬件WAF、主機、數據庫安全等產品打造安全防御。以智能風控來防黃牛、防攻擊、防驗證碼暴力破解,防控電商交易風險。另外,通過隱私數據加密存儲等,確保數據傳輸的安全性和完整性。3.云空間云空間為廣大用戶提供安全可靠的數據存儲服務。目前,存儲的數據資產超過了 1900PB。數據中包含海量的個人信息,這些數據資產需要得到有效的管理和保護。同時,需要為全球用戶提供快速上傳,下載的優質體驗,對業務時延更為敏感。為此,終端云服務構建了三項核心技術:數據安全、可信可靠、全球觸點。數據安全:端側加密,一文一密,多級加密,實現個人數據“攻不進、取不到、解不出、丟不掉”,滿足GDPR、GAPP、數據安全法的嚴格要求;可信可靠:采用華為 GaussDB 數據庫,支持數據多副本,做到可管可控,30 天數據回溯,數據不丟失;全球觸點:依托極簡網絡實現全球觸點,在保證低時延的同時實現高速上傳和下載,并且能夠實現秒級同步;27