《阿里云:云原生架構容器&微服務優秀案例集(51頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:云原生架構容器&微服務優秀案例集(51頁).pdf(51頁珍藏版)》請在三個皮匠報告上搜索。
1、獲取電子書加入交流群云原生架構容器&微服務優秀案例集云原生架構容器&微服務優秀案例集云原生應用平臺2023云原生官方公眾號前言I N T R O D U C T I O N云原生架構,特別是容器與微服務技術領域已經成為下一代技術演進的必經之路,同時也是各行各業快捷上云、高效用云的最合適的架構選擇。雖然容器與微服務技術在開源領域已經有了長足的發展,但是如何把這些技術應用到生產體系,做好系統的安全性、穩定性以及支撐大規模并發業務,并不是開源能直接具備的。阿里云提供了開源兼容,具備SLA保障,生產可用,經過大規模驗證的容器產品(ACK、ACR、ASM)、可觀測產品(ARMS、SLS)以及微服務產品(
2、MSE)等幫助客戶在云上構建可應用于大規模生產的云原生架構方案。本案例集是相關客戶通過阿里云的云原生產品構建生產業務體系的經驗分享以及最佳實踐總結,為您構建合適的生產可用的云原生架構提供相應的成功案例參考,也希望幫助您更輕松實現云原生架構轉型,助力業務騰飛!云原生上云方案業務中臺技術方案應用多活及容災方案ACK AI 加速提效方案云原生 FinOps 方案云原生可觀測套件中心云公共云邊緣云專有云本地云解決方案容器服務互聯網中間件業務連續性Serverless企業級分布式應用服務 EDAS微服務引擎 MSE云服務總線 CSB服務網格 ASM函數計算 FC彈性容器實例 ECIServerless容
3、器服務 ASKServerless應用引擎 SAEARMSPrometheusGrafana鏈路追蹤AHASPTS消息隊列RocketMQ微消息隊列MQTT消息隊列RabbitMQ消息隊列 Kafka微服務架構Serverless 產品家族云原生可觀測高可用消息和事件驅動容器服務 ACK分布式云容器平臺 ACK One邊緣容器服務 ACKEdgeACK 發行版云原生應用平臺產品家族ASSIST ENTERPRISES IN DIGITAL INNOVATION助力企業數字化創新(排列不分先后)目錄CATALOGUEvivo AI 計算平臺的 ACK One 混合云實踐01合闊智云 通過 ASM
4、 輕松實現微服務治理03禾連健康 低容錯業務的增效之路05站酷 基于 ASM 解決多語言技術棧下服務管理難題,實現運維提效07唱鴨 輕松玩轉 DevSecOps,用 ACR EE 構建安全高效交付流程09任意門 基于云原生 AI 套件打造人工智能的社交網絡平臺11核桃編程 基于 ARMS 構建可觀測體系,全方位提升用戶體驗13互聯網01INTERNET小鵬汽車 基于云原生實現研發提效,加速探索未來出行15東風日產 借力 ASM 實現流量精細化管控17極氪汽車 APP全面升級云原生技術架構,高效提升用戶出行體驗19元戎啟行 基于 ACKEdge 加速云端協同管理21云快充 云原生穩定性建設之路2
5、3致景科技 基于 MSE 一站式實現服務治理25來電科技 基于 MSE 無侵入式實現微服務治理27傳音 基于 ARMS 構建全球一體化可觀測平臺,高效支撐業務創新37完美日記 容器化改造實現增效降本39商米科技 借力 ASM 實現業務迭代大幅提效29TCL 擁抱云原生,實現 IT 成本治理優化31硅基仿生 業務全面 Serverless 容器化的增效降本之旅33蘇打智能 借力阿里云 AHPA 輕松應對突發流量35餐道 基于 ACK 構建創新底座,加速 SaaS 規?;葸M41三只松鼠 云原生架構升級,完美應對雙十一43斯凱奇 通過 MSE 提升業務迭代效率,輕松應對線上大促45識貨 基于阿里云
6、容器服務實現云原生提效降本47波司登 云原生架構升級,實現數字化業務創新49震坤行 基于云原生高效提升應急供應鏈管理能力51廚芯科技 加速業務容器化進程,成功實現增效降本53汽車/制造02AUTOMOBILE/MANUFACTURING零售/電商03RETAIL/E-COMMERCE眾安保險 云原生架構升級,貫通行業數字化轉型“快車道”63費芮互動 通過 MSE 完成移動支付應用穩定性和安全性雙提升65金融05FINANCESalesforce 容器化改造,成功落地安全可信軟件供應鏈67匯量科技 通過容器技術加快全球業務拓展69國際項目06INTERNATIONAL PROJECTS商龍科技
7、容器化上云,保障業務穩定運行71萬興科技應用容器化改造,實現云原生轉型升級73Landing Zone/咨詢07LANDING ZONE/CONSULTING SERVICES申通 基于 ACKEdge 構建邊緣 PaaS 實現業務全面提效55龍湖千丁 基于 ACKEdge 高效落地云邊端一體化智慧停車業務57貨拉拉 使用 ACK 輕松應對容器管理難題,實現精細化成本治理59麗迅物流 通過 ACR EE 管理大規模容器鏡像,快速響應業務需求61交通/物流04TRANSPORTATION/LOGISTICS互聯網INTERNET建設成果通過 ACK One 混合云的能力,該平臺可將阿里云上的 G
8、PU 主機加入到客戶自有集群,提供給用戶在深度學習訓練平臺上使用,及時滿足業務的算力需求。用戶的使用習慣和之前保持一致。公共云資源根據不同業務的情況,使用周期在一個月到數個月。使用費用大大低于自行采購物理機的費用,有效降低成本。相關產品實施簡單,成本低:客戶原有集群無需改動,功能兼容,無需額外開發。提供一致性的體驗:將云主機加入集群的流程和物理機基本一致。先通過公司云平臺申請云主機,然后通過自動化平臺將云主機初始化并加到集群中。提供更好的混合云網絡:Kubernetes 的容器網絡要求 pod 和 pod、pod 和宿主機之間通訊正常。該平臺采用了 Calico+Terway 的網絡方案,主要
9、表現為在客戶機房內的工作節點采用 Calico BGP,阿里云上的工作節點采用 Terway 共享網卡模式,以獲取更好的性能。vivo/互聯網01客戶簡介客戶痛點方案亮點vivo 是一家以設計驅動創造產品,以智能終端和智慧服務為核心的科技公司。采用 ACK One 方案,將云主機當做裸金屬/物理機,加入到客戶自有容器集群,集群使用人員體驗感無差異,無需額外開發。云主機通過客戶云平臺申請,不改變當前資源申請流程。資源交付周期長:此前使用自建機房,新增資源的采購流程復雜,周期長,無法及時響應業務臨時的大量算力需求,例如大規模參數模型的訓練和在線服務的節假日活動擴容。同時由于服務器供應鏈形勢嚴峻,網
10、卡、硬盤、GPU 卡等硬件設備都缺貨,采購交付存在較大風險。需要更高性能的基礎設施:AI 計算平臺對網絡、存儲有更高的性能要求,在私有 IDC 里落地需要很高的時間和金錢成本。Vcontainer-混合云集群IDC 機房控制平面api工作平面專線物理機CalicoTerway物理機apinodenodeapiACKagent阿里云云主機云主機ACKACK控制臺1分布式云容器平臺 ACK One2容器服務 ACK02vivo AI 計算平臺的 ACK One 混合云實踐合闊智云/互聯網03建設成果客戶簡介將 Linkerd 社區版本遷移到服務網格 ASM(阿里云提供的 Istio 云上商業版),
11、高效解決了多語言技術棧情況下應用鏈路調用復雜的運維難題,并解決了與云上其他產品搭配使用時的易用性問題,從而使運維效率提升了 40%。同時,借助 ASM 提供的豐富的企業級能力和完備的可觀測能力,構建服務網格的實施周期縮短了 50%。相關產品配置推送優化資源利用率:通過 ASM 的配置推送優化,可以通過分析數據平面 Sidecar 產生的訪問日志,獲取數據平面服務之間的調用依賴關系,為每個工作負載自動推薦 Sidecar 資源,減少配置推送負擔,提升資源利用率。合闊智云成立于 2011 年,核心是云原生和移動化設計的新一代全渠道“云端一體”履約中臺和去中心化模式智能門店供應鏈業務中臺??蛻敉袋c方
12、案亮點開源項目易用性差:客戶采用 Linkerd 社區版搭建 Service Mesh 基礎設施,無法與阿里云提供的云上基礎設施進行很好的融合。例如,Sidecar 使用默認配置,控制能力相對較少,在應對一些復雜的場景時無法靈活配置。Linkerd 的應用可觀測性較簡單,無法觀測到偶發的鏈路熔斷和某個端口無法訪問的場景。鏈路調用復雜治理難:隨著應用數量的增加,應用鏈路調用變得更加復雜??蛻舨捎?gRPC 協議,但應用端沒有做特別處理,導致基于 HTTP2 的長連接協議無法實現負載均衡,尤其是在單個客戶端調用變大的情況下,服務端無法有效負載。應用本身比較薄,導致應用調用鏈路無法透明化,每次新的發
13、布部署容易出問題。數據平面集群的資源消耗大:客戶的數據平面 Kubernetes 集群中的工作負載數量比較多。默認情況下,Sidecar 會增加對數據平面集群的資源消耗,同時控制平面會面臨較大的配置推送負擔,降低控制平面的效率和可用性。商業版架構和社區版一致,云上易用性強:服務網格 ASM 的架構與 Istio 社區版和業界趨勢保持一致,并在托管的控制面側提供了用于支撐精細化流量管理和安全管理的組件能力??刂泼娴耐泄芙獬伺c所管理的 Kubernetes 集群生命周期的綁定,使得架構更加靈活,提升了系統的可伸縮性。自帶的可觀測面板清晰展現各種問題,例如不合理的應用補償策略、不合理的應用部署、不
14、合理的應用報錯。問題一清二楚,進而非常方便地推動應用架構的改造。企業級治理能力豐富,提升可用性:相比 Istio 社區版,ASM 提供了更加豐富的企業級治理能力,如流量標簽、灰度發布、熔斷、限流等能力。托管核心組件ASM Infra流量管理&協議增強可觀測性&彈性伸縮零信任安全自適應xDS優化 軟硬一體優化網絡診斷智能分析Envoy Filter擴展中心異構服務注冊集成Web用戶界面/被集成能力:Open API/Terraform 聲明式 API,兼容社區 Istio,支持控制面與數據面 Kubernetes API 訪問為運行在異構計算基礎設施上的服務提供統一的網格化治理能力ASM數據面多
15、集群支持混合部署多云混合云入口出口阿里云VPC其他公有云或IDCASM 網關Envoy 擴展證書管理協議增強Pod托管ASM控制面核心組件,標準/企業版架構統一,柔性架構、多版本支持、定制能力增強WAProxyServicePodWAProxyServiceECI PodWAProxyServiceECS VMWAProxyServiceENS PodWAProxyService外部集群WA數據面的擴展及運維Proxyless 支持及與 Proxy的互通網格 CNI 插件兼容優化eBPF 數據面性能加速ACK Kubernetes 集群&ECI 虛擬節點ECS虛擬機邊緣集群外部注冊集群Serv
16、erlessKubernetes 集群1服務網格 ASM2容器服務 ACK3Serverless 容器服務4彈性容器實例 ECI04合闊智云通過 ASM 輕松實現微服務治理客戶證言相關產品“我們以橫向的訂單、落單、數據同步為主,重新梳理了模塊和服務,同時部署架構換成了 Kuberne-tes,并把用于服務治理的一些中間件替換成阿里云微服務引擎 MSE 這類云服務,這個時候,整個系統總體就比較穩定了??偨Y來看,圍繞業務來構建微服務,結合云的優勢,提升了開發運維效率和線上穩定性?!笨蛻艉喗楹踢B健康成立于 2014 年,是一家從體檢場景切入的健康管理服務公司,目前已經覆蓋全國 200 多個城市,20
17、00 多家醫院。方案亮點禾連健康采用 MSE(Dubbo+Nacos)的微服務技術棧,提升了整體性能、減少了資源成本,并避免了一些安全風險??蛻敉袋c自建性能低效:使用開源的 Dubbo2+Nacos 進行微服務重構,業務發布峰值觸發 Nacos 性能瓶頸,導致服務異常下線,引發業務故障。人工運維風險高:客戶服務 2000 家醫院,每家醫院的需求差異大、且變更頻繁,會存在大量的特性開關,此類開關的人工運維操作非常危險,一旦出現誤操作,會導致嚴重的線上故障。禾連健康/互聯網05建設成果動態配置,無需重啟:微服務引擎 MSE 的特性開關支持動態配置,無需重啟應用,用戶無感知,很好地解決了客戶的痛點,
18、提升了業務的穩定性,同時集成 KMS 解決敏感配置存儲問題。相比于自建,MSE 注冊配置中心性能提升 50%,解決了業務高速發展中的擴展性問題,保障全國200 多個城市、2000 多家醫院體驗業務的穩定性超過 99.99%。性能強大、降低資源成本:微服務引擎 MSE 幫助客戶扛住了頻繁發布的壓力,具有良好的兼容性,后續客戶跟隨社區升級至 Dubbo 3,解決了 Dubbo 2 服務模型的問題。另外,從內存視角看,MSE 具有出色的調優能力,使業務性能提升 4 倍,降低了客戶的資源成本。服務觀測(trace)服務實例隔離HTTP 協議轉換網關DevOps特性開關加密配置阿里云 ARMS基于 Ap
19、ache ShenYu 改造POST/GET-鑒權-Dubbo 調用MSE+KMSACK云效CI Kubernetes+鏡像發布/回滾 持續集成運營端Dubbo ServiceA,v1C端Dubbo ServiceA,v2基于 Dubbo 版本微服務治理1微服務引擎 MSE2應用實時監控服務 ARMS3容器服務 ACK06禾連健康低容錯業務的增效之路客戶簡介站酷(ZCOOL)深耕設計領域多年,聚集了 1500 萬設計師、攝影師、插畫師、藝術家、創意人,在設計創意群體中具有一定的影響力與號召力。業務使用了 Node.js、Java、PHP 等多種技術棧進行開發,開發、運維協作成本高??蛻敉袋c站酷
20、/互聯網07建設成果方案亮點通過使用 ASM,客戶成功解決了多語言技術棧情況下的多集群應用服務管理難題,同時提高運維效率 40%。ASM 還提供了統一流量治理和全業務的實時觀測能力,大幅度提升了線上業務的穩定性。相關產品高效管理多集群、多語言下的應用服務:通過使用服務網格 ASM,多集群、多形態、多語言服務的統一管理變得非常簡單。ASM 是一種托管式服務網格,可用于多種異構類型計算服務的統一管理,提供了統一的流量管理、服務安全、服務可觀測性和代理可擴展能力,構建出企業級能力。南北向和東西向流量的統一治理:在社區版 Istio 的網關基礎上,ASM 企業版提供了更多的企業級高級特性,包括指標伸縮
21、(HPA)、基于 Intel MultiBuffer 技術的軟硬結合性能優化、網關無損升級、SLB 優雅下線等。這些特性使得網關真正達到了生產可用級別,能夠很好地支持各種企業級服務。ASM 可觀測中心實現全業務的實時監控:在生產環境中,站酷主要利用了日志中心進行了網格可觀測性的建設。ASM 通過與日志服務集成,提供網關與網格內 Sidecar 日志的自動采集,并針對網關與網格內 Sidecar 訪問日志分別提供了日志儀表盤。這些儀表盤提供了實用指標監控,如請求錯誤率、P95 延遲等,實現了對多集群異構應用的統一可觀測性。插件市場完善:服務網格 ASM 在插件拓展中心中提供了即插即用的插件市場。
22、該市場針對各種實際業務場景提供了多種即插即用的插件,通過簡單配置參數即可快速啟用數據面 Sidecar 的各種拓展能力。通過利用 ASM 插件市場,站酷在很短時間內就解決了業務遷移中遇到的問題。支持自動化 API 集成:作為阿里云云產品,服務網格 ASM 除了通用的 OpenAPI/SDK 集成方式之外,還提供了其他多樣化的產品功能模塊集成方式,包括 Kube API、Terraform 等。ASM 提供的各大功能模塊不僅能夠通過 ASM 控制臺進行訪問,還可以以 API 的形式集成到廠商的自有業務中臺中,助力網格運維自動化。多語言、多集群服務統一納管難:站酷面向互聯網用戶,提供站酷網、站酷海
23、洛、站酷學習等各項服務。這些業務使用了多種技術棧,例如 Node.js、Java、PHP,部署在多個 Kubernetes 集群中。如何通過統一的業務中臺來納管這些業務是一個巨大的技術挑戰??捎^測體系構建難:對于上述業務架構,實現不同應用服務的統一可觀測體系,以及進行服務指標的統一實時監控,是一個難點。服務治理自動化集成難:由于站酷建設了統一的業務中臺,需要對服務的部署、維護、治理等方面實現較強的自動化配置需求。在多集群服務治理的場景下,自動化集成能力也是至關重要的。1服務網格 ASM2容器服務 ACK3應用實時監控服務 ARMS08站酷基于 ASM 解決多語言技術棧下服務管理難題,實現運維提
24、效客戶簡介作為國內首款彈唱 App,唱鴨在產品創新的不斷探索為音樂行業帶來了全新的用戶價值,包括彈唱、音效鍵盤等功能,讓它迅速成為了擁有千萬級別用戶量的音樂產品??蛻敉袋c唱鴨/互聯網09建設成果相關產品唱鴨團隊通過采用微服務架構、容器落地 DevSecOps,安全且高效地交付部署,提高了業務的敏捷迭代、降低了人工介入的成本。容器鏡像服務企業版 ACR EE 不僅具備高效的鏡像分發能力,也提供了安全的云原生應用交付鏈能力,使唱鴨可以從容不迫地完成每天 10+次的容器化部署,DevSecOps 的體驗非常順暢。唱鴨團隊依然處于快速發展階段,但團隊充滿創新力,整體架構選型緊跟技術前沿趨勢。方案亮點輕
25、松構建云原生 DevOps:業務開發將算法代碼提交到 GitLab 代碼托管平臺,ACR EE 收到 GitLab 代碼變更的 Webhook 通知后,可自動將代碼構建成容器鏡像并加密托管于實例中。高效安全的容器化應用交付:ACR EE 上創建了云原生應用交付鏈的 DevSecOps 流程。交付鏈將保障容器鏡像自動安全掃描,如果發現高危漏洞則基于安全策略阻斷后續的交付部署。如果通過安全掃描流程,則自動將鏡像加簽并觸發后續不同環境的鏡像部署。云上產品無縫集成:ACR EE 可與阿里云多產品實現無縫集成,唱鴨的 PAI-EAS 集群收到通知后,可自動從 ACR EE 實例中獲取最新的鏡像版本。唱鴨
26、采用阿里云容器鏡像服務企業版 ACR EE,實現了應用與算法上云構建的鏡像托管,更加便捷地構建了 DevSecOps 全自動化流程,具有以下優點:業務交付壓力大:唱鴨團隊人數大概 50+,研發人員 30+,唱鴨自身業務基于微服務架構,服務的日發布頻率超過十次,需要提高研發迭代效率。容器安全風險:唱鴨業務采用大規模容器化部署,由于容器化存在高動態及高密度部署、不可信三方及開源軟件引入的情況,容器安全風險很大。PAI-EAS 測試集群ACR EEPAI-EAS 預發集群PAI-EAS 生產集群DevSecOps云原生應用交付鏈開發GitLab提交代碼提交代碼構建容器鏡像鏡頭加簽觸發通知安全掃描安全
27、阻斷容器鏡像服務 ACR1210唱鴨輕松玩轉 DevSecOps,用 ACR EE 構建安全高效交付流程客戶簡介Soul 是任意門旗下基于興趣圖譜和游戲化玩法的社交 APP,屬于新一代年輕人的虛擬社交網絡?;谟脩舻纳缃划嬒窈团d趣圖譜,通過機器學習來推薦用戶可能會產生的高質量的新關系,有豐富的AI 業務場景,包括語音匹配、聊天機器人、文本 OCR 識別、圖像識別、多模態等。任意門在阿里云上,通過容器服務 ACK 云原生 AI 套件,構建了符合開源標準、自主掌控的 AI PaaS 平臺,實現了以下特點:任意門/互聯網11客戶痛點方案亮點任意門 Soul 通過先進的算法驅動和數據分析技術,打造了“
28、平行宇宙”中獨立的、沉浸式社區。作為下一代基于人工智能的移動社交網絡平臺,任意門 Soul 是中國社交 4.0 時代的領軍者。其 AI PaaS 平臺管理了從初期的數十張 GPU 卡到近千張的超大規模,日承載 AI 業務發布數百次,很好地支撐了業務的高速發展。建設成果相關產品AI 機器學習是公司核心業務,但在傳統的虛擬機構建部署方式下,缺乏一個統一的管控平臺,導致業務工作流不流暢,開發迭代效率低下,運維管理復雜且資源利用率低下,具體表現為:業務迭代速度慢:研發工程師需要花費大量時間在底層基礎設施資源準備、業務集成部署、日志監控等 AI 工程化上,無法專注于業務開發,難以快速響應業務研發需求。運
29、維工作重復:日常需要處理安裝 Nvidia GPU 驅動、CUDA 版本、OSS 數據源等環境問題,人力投入大,運維效率低。資源性價比低:CPU 機器處理速度慢,大量堆積機器,導致資源閑置浪費。GPU 機器雖效率高,但現有技術無法提升利用率,資源空置。全生命周期管理的一站式平臺提升迭代效率:提升迭代效率,包括數據管理、AI 任務發布和模型評測等,開發迭代效率提升 25 倍。統一的異構資源管理和運維平臺降低運維成本:降低運維成本,自動化管理 GPU 節點、算法代碼與標準鏡像解耦以及自動彈性推理,節省 1 倍運維成本。效率及資源利用率提升:提供專業的 GPU 共享及 Fluid 數據加速能力,同時
30、提升業務效能,成本節約 50%。語音合成語音合成數據管理開發Arena AI 工具集/SDK異構資源管理、彈性、可觀測容器服務 ACK訓練推理人臉匹配圖像識別智能聊天CPUGPUOSSHDFS統一運維任務調度彈性伸縮數據庫加速大數據集成工作流監控日志自愈多租戶容器服務 ACK12任意門基于云原生 AI 套件打造人工智能的社交網絡平臺客戶簡介核桃編程作為少兒編程教育行業的領導者,致力于以科技手段促進編程教育,通過人工智能、自適應學習等先進技術和科學的教育方法,啟發中國孩子的學習能力。核桃編程/互聯網13客戶痛點方案亮點降低運維工作量:相對于傳統的前端日志埋點方式,ARMS 提供的前端可觀測方案幫
31、助核桃編程節省了 30%以上的運維工作量??焖俣ㄎ痪€上問題:定位線上問題的平均時長減少 60%。提升用戶體驗:通過前端可觀測技術,全方面提升用戶體驗,帶來了業務量的快速提升。核桃編程在成立后 3 年內付費學員數突破 200 萬,并實現了單月營收過億。建設成果相關產品隨著核桃編程業務的快速增長,微服務架構變得越來越復雜,在提升用戶體驗方面面臨很多困難。其中,出現以下問題:無法及時發現站點故障:用戶體驗是決定品牌形象的核心要素,但客戶 IT 團隊在多次用戶投訴后才發現站點故障,導致用戶體驗下降??蛻舳吮O控手段缺失:相對于成熟的服務端監控技術,整個行業在客戶端監控領域的技術方案一直比較欠缺,僅僅擁有
32、服務端監控手段,很難第一時間確認問題的根源到底在于前端還是后端。實時洞察用戶體驗:全面并實時地了解應用端到端健康程度,包括 PV/UV 情況統計、頁面加載速度情況、JavaScript 執行情況,API 請求成功率等多個方面??蛻舳诵畔⒍嗑S度聚合:ARMS 前端監控能夠從地理位置、瀏覽器、操作系統、分辨率、網絡運營商、應用版本等多個維度,對客戶端性能指標進行聚合分析,從而幫助核桃編程更好地定位性能瓶頸。前后端統一鏈路追蹤:ARMS 前端監控能夠自動生成 TraceID 串聯前后端鏈路,這樣可以從完整鏈路的角度洞察瓶頸點,對于排查系統故障和性能瓶頸帶來了非常大的幫助。接入簡單:只需在客戶端 HT
33、ML 頁面的 Body 元素中加入一段由 ARMS 提供的統計接入腳本(一段 JavaScript 代碼),就能完成監控數據的自動上報。應用實時監控服務 ARMS頁面渲染、交互過程前端監控領域關注點后端監控客戶端服務端請求過程服務端狀態123應用前端健康度訪問速度頁面運行穩定性服務調用成功率14核桃編程基于 ARMS 構建可觀測體系,全方位提升用戶體驗汽車/制造AUTOMOBILE/MANUFACTURING客戶證言“小鵬汽車和阿里云攜手共建自動駕駛智算中心 扶搖,為小鵬全場景智能輔助駕駛系統的訓練奠定算力基礎,我們相信跟阿里云一起能夠更快更好更強的發揮作用。阿里云的技術支持,使我們的成本降低
34、,在過去及未來的時間里,阿里云的可靠性和穩定性,都是小鵬汽車最好的選擇?!毕嚓P產品小鵬汽車/汽車&制造15客戶痛點客戶簡介數據處理鏈路復雜:自動駕駛車聯網數據鏈路長且數據增長快,因此數據時效性要求高。自動駕駛 AI 服務資源利用率低:缺乏有效的 AI 模型 GPU 訓練和推理優化??捎^測系統不完善:前端 Web 和后端服務缺乏有效的監控和分析,同時自建 Prometheus 穩定性不佳。支撐平臺技術棧復雜:技術平臺需要支持多種業務,并且需要建設如 Workflow CI 工作流、SRE 等工具平臺,技術棧較為復雜。提升訓練和仿真資源利用率:ACK 云原生 AI 套件支持了小鵬自動駕駛大規模訓練
35、和仿真任務的調度和管理,提高了訓練和仿真資源的利用率。同時,AI 套件還支持了小鵬互聯網技術中臺和鵬行業務的 NLP、ASR 等推理業務。ACK GPU 共享調度和隔離能力,成倍地提高了 GPU 資源的利用率。全鏈路可觀測保障業務穩定:小鵬基于托管在 ACK 上的全量業務,采用 ARMS Prometheus 服務、前端監控和 APM 等工具實現全鏈路監控系統,有效洞察業務穩定性風險,保障業務穩定性。統一云原生技術棧簡化運維:除了通過容器服務 ACK 支持仿真、音視頻轉碼、視頻截圖、圖片處理、數據處理等相關業務外,小鵬還支持 Airflow/Argo workflow、Kubeflow/Are
36、na 等工作流平臺。采用統一的技術棧運行各業務及其支撐系統,簡化了運維的復雜度。方案亮點阿里云云原生產品支持了小鵬汽車多個業務的技術平臺建設。小鵬數據處理、AI 訓練與推理服務、工作流、SRE 運維設施均通過 ACK 統一容器技術棧進行承載。小鵬汽車成立于 2014 年,是一家專注未來出行的科技公司。一直堅持飽和式研發投入,構建全棧自研的核心能力,今天小鵬汽車已經成為中國領先的智能電動汽車公司之一。彈性算力支持復雜數據處理:通過容器服務 ACK 運行數據處理和數據脫敏任務,容器為實時任務提供了彈性算力。ACK Pro 容器服務計算、網絡、存儲云基礎設施容器集群管理異構資源 集群管理和調度ARM
37、S全鏈路監控統一存儲管理日志管理ARMS Prometheus 監控計算能力(CPU/GPU)存儲(OSS、NAS、CPFS)網絡(VPC/CEN)云原生 AI 套件ACR EEAI 鏡像服務GPU 共享與隔離Job 任務調度數據加速Job 任務隊列數據處理和脫敏大規模訓練和仿真測試智能制造/鵬行智能在線推理服務車聯網用戶平臺和業務基礎 PaaS 服務技術中臺1容器服務 ACK2應用實時監控服務 ARMS3容器鏡像服務 ACR4Prometheus 監控服務16小鵬汽車基于云原生實現研發提效,加速探索未來出行客戶證言“借助云的能力,不僅加速向業務的延伸,進一步提升業務價值,降低運維成本,而且通
38、過服務網格實現了高效、低成本的資源供給?!毕嚓P產品東風日產數據服務有限公司(以下簡稱東方日產)成立于 2014 年,擁有員工 800 余人,是汽車全價值鏈數據服務供應商。專注為東風日產、東風啟辰等品牌提供數營服務、銷售服務,客戶服務、商城運營服務,全渠道數據價值挖掘分析及應用??蛻艉喗闁|風日產/汽車&制造17方案亮點建設成果客戶通過引入 ASM,高效解決 7 層流量的精細化管理難題,享受 Service Mesh 帶來的技術紅利,縮短 50%的服務網格技術落地周期,同時節省控制面的資源成本??蛻敉袋c成本控制難:除了能夠自動按需提供環境,還需要增量式部署以節省服務器資源,控制服務器資源成本等問題
39、。生產環境灰度復雜度高:需要對 7 層流量進行精細化管理,可以按照設計的情況進行流量轉發(例如 Header),命中對應需求的應用;否則,命中默認應用(基準環境)。服務鑒權機制缺乏:公司非常注重信息安全,需要一個端到端細粒度的安全授權機制。免運維、易升級、企業級能力豐富:東風日產引入阿里云服務網格 ASM,構建了基于流量管理的無限生肖系統,滿足了自動按需提供環境的訴求?;?ASM 提供的免運維、易升級以及豐富的產品支持能力,讓產研團隊集中享受 Service Mesh 帶來的價值。這有助于東風日產縮短服務網格技術落地周期,減輕異常排錯成本,并節省控制面資源成本。數據安全更有保障:此外,東風日
40、產數據服務有限公司非常注重信息安全。結合阿里云的云安全大數據能力,使用云防火墻保障業務和數據的安全。在對云資產的管理過程中,通過堡壘機的方式保障運維過程的安全,做到有據可依,有源可溯,切實保證云上應用和數據的安全可靠。流量負載均衡用戶中心A用戶中心商品中心B交易中心B內容中心B商品中心線索中心交易中心數據中心內容中心服務網格ASMACK集群特性環境A基準環境特性環境B1服務網格 ASM 2容器服務 ACK18東風日產借力 ASM 實現流量精細化管控相關產品極氪汽車/汽車&制造19客戶簡介建設成果極氪汽車 APP 已全面升級為云原生技術架構,大幅提升了用戶的出行體驗,同時也助力 001 獵裝轎跑
41、成為高端純電汽車銷量冠軍。通過深入的微服務化探索和云原生架構實踐,極氪汽車 C 端業務系統的穩定性和敏捷性得到了極大的提高,為沖擊更高的銷量目標提供了堅實的技術支持。流量防護和容錯提升微服務穩定性:利用 MSE Sentinel 實時監控和鏈路功能,快速定位慢調用和不穩定服務,及時進行流控和并發控制,保證系統可以從崩潰的邊緣迅速回到正常水平。全鏈路灰度發布實現白天隨時發版:針對客戶核心業務鏈路上多個微服務同時需要發版的場景,基于 MSE 云原生網關和流量灰度打標來實現多業務的全鏈路灰度。云原生網關統一入口網關架構:云原生網關將流量網關和微服務網關二合一,內置服務治理能力,降低 50%資源成本,
42、同時縮短請求時間,降低運維復雜度。容器化助力資源利用率與效率的提升:相比傳統的基于虛擬機部署方式,ACK 容器化部署方式幫助極氪提升了 20%的資源利用率和 50%的運維效率。方案亮點極氪汽車 APP 系統在阿里云上采用阿里云微服務引擎 MSE,以提升微服務系統的整體穩定性和開發迭代效率,降低入口網關的資源成本和請求的網絡延遲。該方案的亮點包括:客戶痛點極氪汽車是吉利控股集團旗下高端純電汽車新品牌,2021 年 4 月極氪發布首款高端智能電動車型極氪 001,大獲市場好評,截止 2022 年 12 月,001 車型累計交付量突破 7 萬臺。連續 3 個月問鼎自主品牌 30 萬以上豪華純電車型銷
43、量冠軍。隨著極氪 APP 的上線,注冊車主用戶數量呈爆發式增長,用戶身份及對應使用場景也不斷擴大。在這一過程中,APP 用戶體驗變得愈發重要。然而,如何在用戶規模高速增長的同時,保證 APP 滿足互聯網三高(即穩定性、流暢度、需求快速響應)的要求,對極氪來說是非常大的挑戰:業務連續性要求高:APP 核心服務需要保證 7*24 小時持續在線,對業務連續性要求非常嚴格。在面臨旺季銷售活動、新車型發布、突發熱點事件等情況時,系統需要在突發的大流量下保證可用性和用戶體驗的順暢。版本發布壓力大頻率快:業務快速發展需要保證快速的迭代,但為了保證業務的穩定性,每次發布只能在業務低峰期(即凌晨)進行,這對開發
44、、運維和測試同學來說是非常困難的。網關架構不一致,入口鏈路過長:網關架構不一致,包括 API 網關、安全網關和微服務網關,導致請求鏈路過長,增加成本同時也影響請求響應時間。201容器服務 ACK2微服務引擎 MSEMSE云原生網關Nacos 注冊配置中心MSE 服務治理中心RDS高可用企業版RocketMQRedis 集群全鏈路灰度流量防護全鏈路灰度流量防護全鏈路灰度流量防護全鏈路灰度流量防護全鏈路灰度流量防護全鏈路灰度流量防護阿里云 ACK 集群外部系統服務鑒權服務文件服務后臺管理服務用戶管理商城服務訂單服務C端用戶手機B端管理后臺極氪汽車 APP 全面升級云原生技術架構,高效提升用戶出行體
45、驗 客戶證言“運營車輛的車載設備通過輕量化接入 ACKEdge,接入資源占用降低 50%,接入安全性大幅提升?;谶吘墏?Pod 的啟停、OTA 功能便捷化管理車載設備,業務發布運維效率提升 60%?!毕嚓P產品設備安全接入能力下沉,應用聚焦業務:設備安全接入能力下沉,應用可以專注于業務。通過 lite-kubelet (在車端設備上運行的代理程序)支持一機一密認證訪問 MQTT,確保每個車載設備都使用自己的設備證書接入至 ACKEdge 集群,從而大大提高了接入安全性,整個過程對業務層透明。提供更豐富、靈活的設備管理能力:通過 OTA(軟件通過空中接口更新)和邊緣側 Pod 離線啟停管理,提高
46、了車載應用的發布運維效率。元戎啟行/汽車&制造21客戶簡介客戶痛點深圳元戎啟行科技有限公司是一家專注于研發和應用 L4 級自動駕駛技術的科技公司,擁有自動駕駛乘用車“元啟行”和自動駕駛輕卡“元啟運”兩大產品,覆蓋量產汽車、Robotaxi 出行、輕卡運力三條業務線。其中,Robotaxi 出行搭載元戎啟行自研 L4 級自動駕駛解決方案,通過自營車隊和合作運營的模式落地。元戎啟行 L4 級自動駕駛前裝方案車隊已投入運營,為乘客提供城市出行服務。傳統的交付模式易出錯:使用 deb 包進行部署與車端環境耦合,效率低下且容易出錯,同時容易污染車端環境并導致依賴沖突。應用層需要考慮安全問題,維護成本高:
47、因為應用層需要在云端和車端設備之間進行雙向通信,所以必須注意安全問題。弱網環境下,多設備難以管理:當多個設備接入時,需要進行統一管理,并考慮每個設備的獨立性,由于車輛經常移動,因此需要解決在弱網環境下狀態同步的復雜性。方案亮點統一的交付標準:使用 containerd+ACKEdge 進行應用交付,實現了統一的交付標準,簡化了交付流程并減少了對車端設備的耦合,同時不會污染車端環境。ACKEdge(Powered by OpenYurt 1.0)異構資源便捷接入云邊端統一管控云邊端統一觀測邊緣自治邊緣單元化云端協同場景MQTTOTA 升級Pod 啟停運營車輛車載設備一機一密認證PodPodPod
48、PodLite-kubeletContainerd邊緣容器服務 ACKEdge322元戎啟行基于 ACKEdge 加速云端協同管理客戶簡介云快充成立于2016年,以充電服務和能源管理為核心,業務涵蓋九個方向。截止到2022年11月,業務覆蓋 370 個城市,接入電樁運營商 7400 人,接入充電終端 31 萬家,與 640 個樁企達成合作。云快充/汽車&制造23客戶痛點方案亮點生產事故率顯著降低:云快充在一條業務線上落地了全鏈路灰度技術,將應用變更導致的生產事故降低了 70%,后續還會將這項技術推廣到整個企業。業務高峰期系統穩定運行:從網關到微服務應用,到第三方依賴,每一層都配置流量防護規則,
49、確保在業務高峰期不會有任何系統被用戶流量所壓垮。研發效率提升:通過云原生穩定性建設,云快充接入的電樁數量完成了 20 萬到 30 萬的增長,平均需求迭代周期從 7 人日降低到 4 人日,極大地促進了業務的快速迭代。建設成果“在阿里云的幫助下,云快充通過全面容器化與穩定性建設,極大地促進了業務的快速迭代。希望新能源行業的其他技術團隊可以和我們一起共同探索云原生穩定性方面的技術路徑?!笨蛻糇C言相關產品為確保業務的穩定運行,自 2019 年起,云快充采用百分百容器化的技術路線。然而,在容器化改造的過程中,云快充遇到了兩個挑戰:自建 Kubernetes 集群維護困難:Kubernetes 是一個大型
50、復雜的分布式系統,云快充曾經遇到過節點異常、Pod 異常、網絡不通、etcd 性能瓶頸等問題,解決這些問題非常耗費精力,尤其是遇到 Kubernetes 本身的 bug 時更是無能為力。業務變更帶來穩定性風險:隨著微服務架構的不斷演進,業務變更越來越頻繁。由于應用上下線不夠優雅以及缺少精細化和灰度策略,80%以上的線上業務故障都與版本發布有關。高 穩 定 性 的 托 管 版 Kubernetes 集 群:容 器 服 務 ACK 在 確 保 API 和 標 準 完 全 兼 容 開 源 Kubernetes 的前提下,提供了一系列穩定性提升手段,如 master 節點托管、智能巡檢診斷、跨可用區的
51、高可用等等。這些手段都經過阿里雙十一大規模場景和阿里云大型客戶的實戰驗證,升級集群版本也變得足夠簡單?;?eBPF 技術的應用診斷技術:一鍵開啟應用診斷能力,不需要對應用進行任何修改。它提供全局視角的應用拓撲,并從請求數、錯誤數、延誤三個黃金指標出發,發現異常的服務個體。通過微服務治理實現應用穩定性提升:采用基于 Java-Agent 字節碼增強的技術,實現無侵入式微服務治理增強,讓微服務應用獲得無損上下線和全鏈路灰度能力,從而將版本發布對正常業務的影響降到最低。24ACKACK注冊中心API調用用戶Elasticseaech搜索服務RDS核心數據Redis緩存Kafka云原生網關TCP長鏈
52、接充電樁微服務治理GrafanaPrometheus主業務集群樁業務集群1容器服務 ACK2Prometheus 監控服務云快充云原生穩定性建設之路方案亮點全鏈路服務治理提升開發和交付效率:阿里云微服務引擎 MSE 標簽路由+云效應用編排 AppStack 的方案,幫助客戶定義了整個研發體系所需要的環境體系,包括多套的開放環境、多套項目環境(含基礎環境)、集成測試環境、預發環境和生產環境。實現了默認按照域名進行項目/開發多環境邏輯動態隔離的效果,同時提供給研發團隊便捷的白屏管理工具,可以由項目組獨立拉起整個環境。通過三個場景化的實施方案,完美解決了項目測試環境被搶占、開發聯調環境不穩定、線上灰
53、度環境等難題??蛻糇C言“作為一支創業團隊,快速實現一站式解決服務治理問題是非??岬氖虑?。在整個方案的討論和實施過程中,我們的研發團隊對 Kubernetes、Nginx Ingress、MSE 都有較深入的理解。像我們部門的研發團隊一樣,沒有專門的運維團隊,每個開發人員都可以深入了解每個產品的來龍去脈,這樣做非常有意義?!毕嚓P產品致景科技/汽車&制造25客戶簡介客戶痛點致景科技成立于 2013 年 12 月,是領先的紡織產業互聯網企業,國家高新技術企業。旗下擁有“百布”、“全布”、“天工”、“致景金條”、“致景紡織智造園”、“致景智慧倉物流園”等業務板塊,致力于通過大數據、云計算、物聯網等新一
54、代信息技術,全面打通紡織服裝行業的信息流、物流和資金流,幫助行業實現協同化、柔性化、智能化的升級,構建紡織服裝縱向一體化的數智化綜合服務平臺。項目測試環境搶占沖突:項目測試環境經常被缺陷修復的測試流程搶占,導致項目測試時斷時續,同時測試環節成為項目主要瓶頸,嚴重影響項目迭代的進度。開發聯調環境不穩定:為了提升開發效率,開發環境允許開發同學自由發布,由于使用一套環境,不同的同學進行開發環境發布,經常性地導致聯調中斷。不少開發同學轉而尋求端到端的線下聯調,在個人機器上部署上下游應用,這種模式面對眾多的微服務應用基本寸步難行。線上灰度能力缺乏:客戶缺少專門提供給產品經理進行功能驗證的預發環境。新功能
55、完成測試之后直接上線到生產環境,研發團隊為了避免對客戶產生不良影響,經常性地將發布計劃安排在晚上。線上環境缺乏灰度發布能力意味著新功能上線以后就會對全量用戶放開,一旦發生了產品設計缺陷或者代碼漏洞的情況,那么影響面將會是全網的,風險巨大且不可控。custom_tag=testTraceID=1SpanID=1.1custom_tag=testTraceID=1SpanID=1.2服務 BB服務 CCcustom_tag=testTraceID=1SpanID=1Extract TraceIDExtract SpanIDExtract custom dataInject TraceIDInjec
56、t Custom dataGen and injectSpanIDTread-Local Storge服務 AExtractInjectA網關Generate TraceIDGenerate SpanIDcustom_tag=test微服務引擎 MSE426致景科技基于 MSE 一站式實現服務治理建設成果MSE 微服務治理專業版以無侵入的方式提供了全鏈路灰度、離群實例摘除、微服務治理流量可觀測等核心能力,以更經濟的方式、更高效的路徑幫助來電科技在云上快速構建起完整微服務治理體系。這有效提升線上穩定性,保證服務可用率達到 99.9%。相關產品方案亮點無侵入、接入簡單的全鏈路流量灰度管理:MSE
57、微服務治理能力基于 Java Agent 字節碼增強的技術實現,用戶無需修改代碼即可使用。簡單配置后,MSE 會自動為經過灰度環境的流量做標記,從而進行全鏈路的灰度路由,保證流量在灰度環境中閉環。無損的應用上下線能力:MSE 提供的預熱能力使得流量按照一定的曲線進行緩慢增長,從而保證服務進行充分的預熱。即使在高并發大流量場景中,也能保護應用安全啟動。來電科技/汽車&制造27客戶簡介客戶痛點來電科技自 2014 年起開始進入共享充電領域,定義并開創了行業,屬于行業內最早的共享充電企業。主要業務覆蓋充電寶自助租賃、定制商場導航機開發、廣告展示設備及廣告傳播等服務。來電科技擁有業內立體化產品線,大中
58、小機柜以及桌面型,目前全國超過 90%的城市實現業務服務落地,注冊用戶超 2 億人,實現全場景用戶需求。生產環境缺乏高效的流量管理手段:當業務有新版本需要上線時,只能全量上線,無法引導部分用戶到新版本。一旦出現問題,影響面過大。如果采用多套環境的硬隔離,會使成本大幅升高,發布方式變得復雜。應用發布過程容易出現業務受損:當業務流量過大的場景下進行應用發布,系統服務剛啟動階段,應用由于存在冷啟動的過程,此時的應用容量往往會比正常情況下低。但是線上的流量是無法區分當前的服務是否是剛啟動的,依舊會有大流量持續涌入。這時系統就會過載而崩潰,導致業務受損。HTTP100%webweb服務GrayHTTP9
59、0%web未打標RPCRPCRPCDubbo用戶中心GrayDubbo未打標Dubbo未打標設備中心RPCDubbo訂單中心微服務中心GrayRPCDubbo未打標RPCDubbo未打標支付中心Dubbo數據中心GrayDubbo未打標RPCNginxHTTPwebHTTPappHTTP充電寶設備節點服務注冊發現配置中心微服務引擎 MSE28來電科技基于 MSE 無侵入式實現微服務治理托管核心組件ASM Infra流量管理&協議增強可觀測性&彈性伸縮零信任安全自適應xDS優化 軟硬一體優化網絡診斷智能分析Envoy Filter擴展中心異構服務注冊集成Web用戶界面/被集成能力:Open AP
60、I/Terraform 聲明式 API,兼容社區 Istio,支持控制面與數據面 Kubernetes API 訪問為運行在異構計算基礎設施上的服務提供統一的網格化治理能力ASM數據面多集群支持混合部署多云混合云入口出口阿里云VPC其他公有云或IDCASM 網關Envoy 擴展證書管理協議增強Pod托管ASM控制面核心組件,標準/企業版架構統一,柔性架構、多版本支持、定制能力增強WAProxyServicePodWAProxyServiceECI PodWAProxyServiceECS VMWAProxyServiceENS PodWAProxyService外部集群WA數據面的擴展及運維P
61、roxyless 支持及與 Proxy的互通網格 CNI 插件兼容優化eBPF 數據面性能加速ACK Kubernetes 集群&ECI 虛擬節點ECS虛擬機邊緣集群外部注冊集群ServerlessKubernetes 集群建設成果服務網格 ASM 提供了免運維、易升級和豐富的產品能力,讓產研團隊集中享受 Service Mesh 帶來的價值。ASM 縮短 75%服務網格技術落地周期,由月縮短為周,提升 70%更新迭代效率,節省80%異常排錯成本,大幅節省了控制面的資源成本。相關產品商米科技引入阿里云服務網格 ASM,構建智能的數字化商業智能 POS 軟硬件一體化系統解決方案,基于 ASM 提
62、供的免運維、易升級和豐富的產品能力,讓產研團隊享受 ServiceMesh 帶來的技術紅利。成熟的治理能力:客戶主要使用 HTTP 與 gRPC 協議,ASM Sidecar 代理和 Gateway 這些協議都有著很高的支持成熟度,能夠原生地支持請求的負載均衡、以及基于多種豐富匹配條件的請求路由等網關能力。完備的觀測能力:ASM 的可觀測管理中心中提供了完善的可觀測化方案,包括日志、監控與跟蹤融合的一體化智能運維,以及直觀易用的可視化網格拓撲、基于顏色標識的健康識別體系。異常排查更高效:ASM 產品內置了豐富的最佳實踐,通過自助式網格診斷機制,幫助用戶縮短異常排錯的時長,提升更新迭代效率。隨著
63、業務的快速發展,團隊規模不斷的擴大,商米科技面臨兩大挑戰:商米科技/汽車&制造29客戶簡介客戶痛點方案亮點商米科技成立于 2013 年,總部位于上海市楊浦區創智天地,是一家極具產品創新基因和互聯網基因的公司。高昂的維護更新迭代和異常排查成本。隨著產品研發進度的加快,應用的快速更新與灰度驗證,使維護難度與人力成本急劇攀升。同時,微服務基礎平臺的穩定性與問題快速診斷也面臨較大挑戰。gRPC 服務負載均衡、鏈路追蹤以及流量統一管理難。gRPC 長連接的特性,在不借助服務網格的前提下,很難實現負載均衡。且隨著業務的擴展及調用鏈路的復雜,在可觀測及統一流量管理上會帶來較大的運維成本。HTTP/GRPC
64、入口網關入口網關IOT 服務入口網關長連接 WebRTC 入口網關設備接入管理服務新零售軟件應用服務支付及電子發票服務數字商品管理服務結構化數據存儲數據持久化及消息系統消息系統非結構化數據存儲服務網格 ASMIOT 設備終端設備移動端應用合作伙伴后臺綜合管理后臺支付寶小程序微信小程序一站式軟件服務接口1服務網格 ASM2容器服務 ACK3彈性容器實例 ECI4Serverless 容器服務30商米科技借力 ASM 實現業務迭代大幅提效方案亮點相關產品TCL/汽車&制造31客戶簡介洞察資源使用量,調控周期性業務成本,提高集群利用率。針對具體應用類型,選擇適合的機型和配置,并與業務團隊協商容量上限
65、,在全鏈路壓測中確定容量水位和容量畫像,通過容器服務的成本分析功能,查看當前容量規劃下應用的真實利用率。對于存在周期性業務的情況,采用定時伸縮模型降低資源成本,在生產環境和測試環境中調整超賣比配置,提高集群利用率。精細化成本管理,合理規劃容量,應對突發業務。定時查看、巡檢集群中應用的利用率和資源水位,匯總成本報表,通過云原生企業IT成本治理方案進行集群-部門-應用維度的實時成本預估,讓部門時刻關注成本的趨勢變化,開啟 HPA 自動伸等縮策略和報警,保障業務在流量突增場景的魯棒性??焖兕A估成本,基于數字化指標精準繪制資源成本畫像。通過云原生企業 IT 成本治理方案提供的費用分攤功能,定期將拆分后
66、的成本分析數據推送給不同角色的人員,并建立復盤機制,協同技術、財務、業務團隊迭代優化成本畫像的合理性。建設成果通過云原生企業IT成本治理方案,TCL 工程師團隊可以非常便捷地提供 Kubernetes 集群中的業務、組織等維度的成本數據,大大提升了部門之間的成本通曬的效率,配合技術、業務、財務“戰略同頻”的云原生 IT 成本治理流程,為集團優化了 10%閑置的資源,各類業務降低了 30%的配額,每年節省近千萬的 IT 成本投入??蛻敉袋cTCL 創立于 1981 年,總部設于中國廣東省惠州市,目前已形成 TCL 實業和 TCL 科技兩大主體,布局智能終端、半導體顯示、新能源光伏三大核心產業,成長
67、為一家具有全球競爭力的智能科技產業集團。TCL 目前擁有 13 萬名員工,在全球布局 43 個研發中心和 32 個制造基地,業務遍及 160 多個國家和地區,全球累計服務用戶超 9.6 億。業務容量、成本預估困難,缺少數字化指標支撐增效降本。在 TCL 工程師團隊定下增效降本的目標后,如何數字化衡量和評估應用的容量和成本情況,成為了最大的挑戰。只有當一個應用的資源成本畫像可以被準確繪制時,才能有針對性地建立優化策略。整體資源利用率較低,成本洞察粒度不足,無法驅動策略優化。在早期上云的過程中,TCL 通過給不同的事業部分配獨立云賬號的方式,實現成本單元的規劃與核算。但是當工程師團隊希望洞察整體的
68、資源使用和浪費情況時,單純從服務器等云資源的利用率來衡量業務的容量規劃浪費情況是不夠合理的。因為從單個業務的視角,容量規劃需要根據業務的峰值情況來規劃。業務高速發展,傳統容量規劃的周期無法滿足,影響業務使用。TCL 上云的過程經歷了上云遷移期、業務增長期、業務穩定期等多個階段。在上云遷移期和業務增長期中,發現傳統按照月度、季度甚至年度的 IT 成本治理周期無法跟上業務增長的速度,造成很多業務處于無資源可用或超預算使用的情況。臨時作業/突發任務等短周期作業較多,對容量規劃帶來巨大挑戰。TCL 壓測平臺是一個被重點關注的業務,因為壓測任務具有短時間、大規模、低成本的要求,是傳統企業 IT 成本管理
69、中最難以處理和解決的資源類型,但也是上云按需使用的最佳場景。容器服務 ACK04/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:00300.0 CoresCPUUsageCPURequest250.0 Cores200.0 Cores1500.0 Cores100.0 Cores50.0 Cores0 Cores32TCL 擁抱云原生,實現 IT 成本治理優化硅基仿生業務系
70、統Serverless Kubernetes(ASK)應用托管流量灰度發布多版本管理可觀測性基于請求自動彈性容器服務 Knative智能問答文章推薦血糖分析助手知識圖譜標注AGP分析助手相關產品硅基仿生/汽車&制造33客戶簡介建設成果當前通過 Knative 完全支撐了硅基仿生的業務系統,實現硅基仿生業務 100%Serverless 化:糖尿病智能問答系統在內分泌專家和內測病友的支持下收集了 14 萬+的問答庫。糖尿病科普文章推薦系統為病友及其家屬推薦個性化的科普文章。血糖分析助手和 AGP 分析助手助力患者達到更好的控糖水平。糖尿病事件知識圖譜標注平臺可更好地用于糖尿病相關的診斷、治療以及
71、科研??蛻糇C言硅基仿生科技數據中心算法研發部 NLP 項目負責人表示:“使用阿里云容器服務 Knative,解決了開發迭代慢的問題,加速了深度學習模型的性能提升;同時提供了彈性可伸縮的資源配置,滿足網絡服務需求,降低了服務部署成本?!笨蛻敉袋c深圳硅基仿生科技股份有限公司成立于 2015 年,致力于慢病管理領域的創新醫療器械研發與產業化,公司規模超 500 人。核心團隊由清華、北大、加州理工、普林斯頓、華盛頓大學等名校理工科科學家帶領,主要項目包括連續血糖監測(CGM)、AI 眼底篩查、人工視網膜、膠囊胃鏡機器人等,在多個細分領域打破國外技術壟斷,引領基礎學科與行業技術發展。硅基仿生期望擁有一種
72、新的技術架構,能夠按需使用資源,節約使用成本,減少運維 Kubernetes 集群,基于 Kubernetes 云原生標準 API,使用 Serverless 簡化應用運維部署,達到資源免運維的目的。硅基仿生的原有技術架構面臨兩個最大挑戰:方案亮點經過充分溝通和深入推敲業務應用場景和需求,硅基仿生選用了阿里云 Serverless 容器Knative+ASK 產品解決方案,以滿足業務需求:業務穩定性:Knative 內置 queue-proxy 容器能夠與業務容器結合,實時觀察請求流量并進行流量告警。再結合基于請求的灰度發布和多版本管理,可以全天候隨時發布,極大提高運維效率和版本迭代速度。研發
73、效率低下:例如智能問答模型,需要反復進行測試和訓練,而原有的技術架構需要運維人員不斷檢測部署,大大降低了產品的開發效率。資源成本嚴重浪費:使用固定資源的服務器,在高峰期會出現資源緊張,甚至宕機的情況;而在低谷期,又會出現資源浪費的情況??焖俚豪缰悄軉柎鹌脚_需要多次測試和訓練,若使用以往的部署方案,可能會浪費大量時間在運維和部署上,從而降低產品的開發效率?,F在采用 Knative 快速部署服務到 Kubernetes,可以大大提高產品開發效率,實現數據驅動的良性循環。極致彈性:以往的部署方案在面對脈沖式訪問流量時,容易出現服務器宕機以及低谷時浪費網絡資源的情況。而 Knative 的部署方
74、案可以極致的彈性能力和靈活的彈性策略,構建出高效、穩定的架構,滿足部署需求的同時節省開支。Serverless 容器服務 ASK34硅基仿生業務全面 Serverless 容器化的增效降本之旅相關產品高猛科技/汽車&制造35客戶簡介建設成果高猛科技已在幾個主要的 ACK 服務集群上啟用了 AHPA。經過驗證,相比于 HPA 的方案,AHPA 的主動預測模式額外降低了 12%的資源成本。同時,AHPA 自動計算負載曲線,設定目標容器數等特點,減少人工運維工作量,優化業務容器化架構。建設成果高猛科技高級后臺工程師表示:“高猛科技已在幾個主要服務 ACK 集群上啟用了 AHPA。相比于 HPA 的方
75、案,AHPA 的主動預測模式額外降低了 12%的資源成本。同時 AHPA 能夠提前資源預熱、自動容量規劃,能夠很好的應對突發流量?!???蛻敉袋c高猛科技是一家硬件設備制造商,專注于為全國高校學生提供高品質生活服務。服務項目包括自助洗衣、智能直飲水等。其“蘇打智能”品牌(原“蘇打校園”)成立于 2016 年,專注于用高新科技的力量構筑智能生態,保障、提升消費者生活品質。隨著業務量的增長和業務微服務化以及容器化,應用程序的資源需求出現了周期性變化。當前客戶所面臨的主要難題是如何充分利用 Kubernetes 的資源彈性特性,使業務層更加靈活,同時降低成本??蛻粝M峁┑膹椥苑桨改軌驅崿F以下目標:方案
76、亮點相比 HPA(水平 Pod 自動伸縮器),阿里云容器服務的 AHPA 方案具有以下具體優勢:按需使用資源,自動彈性規劃,對業務所需資源提前預熱。全托管,免運維,提供開箱即用的彈性能力。提供標準 Kubernetes API,方便平臺集成和擴展。彈性組件自身高可用,基于阿里巴巴達摩院預測算法穩定高效。按需分配資源:可以及時根據業務實時資源消耗進行資源消耗預測,判斷業務接下來對于資源的真實需求。降低工具本身資源開銷:工具本身的資源消耗要盡可能小,不應成為運維的負擔。操作方便,擴展性強:能夠做到無需培訓即可快速上手,具有良好的擴展性和可自定義性。安全穩定:高可用,算法和實施手段高效可控。容器服務
77、 ACK容器服務 ACK全托管、免運維資源預熱容量自動規劃提供集成APIAHPA蘇打智能服務Apod.服務Bpod.RPC36蘇打智能借力阿里云 AHPA 輕松應對突發流量零售/電商RETAIL/E-COMMERCE建設成果相關產品運維技術全面升級:通過阿里云 ARMS 應用監控構建全鏈路追蹤系統,結合阿里云 Grafana 提供的可觀測統一視圖,再對接至 ARMS 告警平臺,最終對接至飛書群,傳音成功實現告警群內協作閉環,實現了 ChatOps 的運維新范式。提升業務創建效率:傳音在建立全新的可觀測技術能力后,不僅提升了問題診斷效率,還提升了用戶體驗。在此基礎上,結合其他云原生新技術方案,業
78、務上線效率提高了 60%,對于高效業務創新起到了至關重要的作用。方案亮點無侵入式一鍵接入方案:只需要在應用部署時添加 2 行注解,就能自動注入 Agent 實現全鏈路監控,對代碼無侵入,不再需要運維團隊花費精力在可觀測平臺的推廣上。全局聚合:通過阿里云 Prometheus 的全局聚合實例以及智能報警中心,對部署在全球各地的業務系統進行統一大盤呈現和統一報警。傳音/零售&電商37客戶簡介客戶痛點作為“非洲手機之王”,傳音從事以手機為核心的智能終端的設計、研發、生產、銷售和品牌運營,是新興市場消費者喜愛的智能終端產品和移動互聯服務提供商。據 IDC 報告顯示 2021 年占據非洲智能手機出貨量的
79、 47.9%。傳音移動互聯廣告平臺是傳音控股的重要業務之一,是非洲最為主流的營銷平臺之一。在技術架構方面,傳音控股采用 Spring Cloud 進行全面微服務化,應用運行在阿里云容器服務 ACK 之上,并分布在歐洲、亞洲等多個地區,真正實現了多地區服務體系。對于該體系而言,要構建完整的可觀測體系,挑戰非常大。觀測對象眾多:觀測對象分布在不同的技術棧和架構中,要實現全面覆蓋并有所側重,是非常大的挑戰。排查問線上問題慢:微服務化后,業務結構變得非常復雜,排查線上問題需要分析復雜的調用鏈路,需要花費很長的時間。推廣難度大:新業務上線頻率極快,有些業務為了快速上線減少工作量,不愿意接入可觀測平臺,需
80、要花額外的精力進行推廣。監控數據分散:在實現多地區部署后,每個地區都有一套獨立的可觀測平臺,分散在多個地區的可觀測數據無法聚合展示,日常使用非常不方便。提供統一指標體系:通過阿里云 ARMS 和 Prometheus,建立了覆蓋資源層、容器層、服務層、應用層、用戶體驗層的統一指標體系,實現從零散單點到規?;娜娓采w。全鏈路追蹤診斷:接入 ARMS 應用監控后,可以非常方便地查看服務的健康狀況和依賴關系。在線上出現問題時,可以深入拉起全鏈路的調用鏈追蹤,并定位到代碼級別,極大程度地提高了排查問題的效率。全球統一視圖Web應用指標接口黃金三指標,JVM指標云服務觀測指標RDS,Clickhous
81、e,Kafka,消息隊列MQ,SLB,OSS容器層&資源層指標Pod,Deployment,Node,Service,控制面、CPU,內存全鏈路追蹤法蘭克福Prometheus實例(ARMS應用監控)Prometheus實例(云服務監控)Prometheus實例(容器服務)ARMS 應用監控TraceARMS 應用監控TraceARMS 應用監控TraceARMS 應用監控TracePrometheus實例(容器服務)Prometheus實例(容器服務)Prometheus實例(容器服務)Prometheus實例(云服務監控)Prometheus實例(云服務監控)Prometheus實例(云服
82、務監控)Prometheus實例(ARMS應用監控)Prometheus實例(ARMS應用監控)Prometheus實例(ARMS應用監控)新加坡孟買深圳Grafana 工作區ARMS 告警平臺飛書群統一告警1應用實時監控服務 ARMS2容器服務 ACK38傳音基于 ARMS 構建全球一體化可觀測平臺,高效支撐業務創新客戶證言“我們的技術人員跟阿里云的技術人員其實非常熟悉,在雙 11 期間阿里云也給予了很多技術層面的支持:我們遇到的問題他們基本都遇到過,我們沒遇到的問題,他們也都遇到過。在巨人的肩膀上進行容器化改造,對于當下的完美日記而言,是最合適的?!毕嚓P產品自行維護服務器成本過高:早期互聯
83、網公司通常直接購買服務器,并在 IDC 機房租用機架進行部署,將應用程序直接運行在物理機上。如果需要擴展,就必須購買新的服務器。IDC 機房會頻繁出現各種故障,如果發生 IDC 遷移,就更加麻煩,必須在半夜搬機器,在成本、服務穩定性和工作效率等方面都會造成巨大的消耗。人工發版繁瑣易錯:2019 年雙 11 大促前夕,小程序剛剛上線。當時采用傳統的部署方式,特別是某些應用需要在 SLB 上配置(openrestry),運維人員需要在 SLB 上一個個勾選服務器,發布版本的時間長達半個小時以上。如果發版中出現問題,通常還需要延長一個小時以上的時間來處理。大規模應用的研發與運維挑戰:對于大規模應用的
84、研發和運維人員來說,是否擁有足夠的技術和能力來應對挑戰,產品架構設計是否可以滿足未來的企業需求,組織架構和文化是否已經適應企業的新戰略發展。云原生極大提升運維效率,降低人力成本:容器化改造之后,整個系統變得更加“輕松”。在切換到 Kubernetes 正式環境后,擴容時間只需要約 90 秒,節約了大量時間。根據運營節奏進行擴容,服務器擴容成本降低了 70%90%。同時,部署效率大幅提升,只需要按照文件模板創建一個服務,部署時間就能減少 90%。提升資源利用率,降低資源和管理成本:服務器資源可以自動計算并部署到服務器上,利用隔離技術可以部署多個項目服務器,提高 50%利用率。服務模塊的自動負載均
85、衡無需人工干預,工作量減少 90%。服務模塊的伸縮容無需編寫腳本,只需點擊伸縮按鈕,就可以減少人工錯誤率,工作量降低 70%。服務模塊不可用時會自動剔除并自動重啟服務模塊。服務器宕機時,運行在服務器上的服務模塊會自動轉移到可用服務器上,無需人工干預,工作量降低 100%。容器彈性靈活應對流量洪峰:利用 ACK 的快速彈性能力應對大促資源快速擴容,并結合在大促前進行 RDS/安全等產品擴容、鏈路梳理、緩存/連接池預熱、后端資源保障等,以確保大促活動的平穩進行。全棧容器化簡化服務器運維:從 2019 年開始,完美日記就開始籌備容器化改造,包括改造方案的設計和阿里云 Kubernetes 的選擇。經
86、過仔細的測試和結合公司情況和人員配備情況,最終選擇了阿里云 ACK 托管版進行大規模應用部署,一次性將所有應用遷移到 ACK 容器服務,并以標準的 Kubernetes 方式進行運維部署。全鏈路可觀測和流量防護提升業務穩定性:完美日記將 IT 系統接入全鏈路可觀測產品 ARMS,跟蹤復雜的服務調用,并對異常服務進行快速定位和修復。ARMS Prometheus 對 ACK 容器資源進行統一監控。同時,使用性能測試服務 PTS 進行壓力測試,利用秒級流量和真實地理位置流量等特性進行測試。通過收集壓測數據并分析系統的強依賴和關鍵瓶頸點,對關鍵業務接口、關鍵第三方調用、數據庫慢調用等進行限流保護。簡
87、單穩定且低成本的容器鏡像倉庫服務:完美日記選用阿里云鏡像企業版 ACR EE,因為它比自建 Harbor 更穩定、成本更低。自建 Harbor 需要考慮計算、數據庫和磁盤成本,如果項目很多或鏡像比較多,磁盤成本也會很高。而鏡像企業版無需考慮維護成本。此外,鏡像企業版可以高并發,而自建 Harbor 則容易出現鏡像 PULL 問題。完美日記/零售&電商39客戶簡介客戶痛點方案亮點建設成果完美日記成立于2016年,是廣州逸仙電子商務有限公司旗下品牌。品牌致力于探索歐美時尚趨勢,同時結合亞洲女性面部和肌膚特點,研發一系列“高品質、精設計”的歐美時尚彩妝產品。Redis云數據庫sessionPTS性能
88、測試服務全托管注冊服務、微服務治理服務容器服務ACK壓力測試彈性伸縮ACR EEMSENQ消息隊列掛卷APM類全鏈路監控ARMS監控、報警AHAS日志類數據采集、消費投遞及查詢分析能力云監控云日志限流,熔斷,降級,系統保護云盤NASOSSDB彈性擴容容器服務 ACK容器服務 ACK容器服務 ACK容器服務 ACK容器服務 ACK容器服務 ACK1容器服務 ACK2容器鏡像服務 ACR5微服務引擎 MSE6應用高可用服務 AHAS3性能測試 PTS4應用實時監控服務 ARMS40完美日記容器化改造實現增效降本客戶證言相關產品作為國內最早一批涉足餐飲 SaaS 的先行者,餐道創始人認為,傳統餐飲走
89、向互聯網化是順應時代的必然選擇。從技術上而言,餐飲 SaaS 已經能從最初的采購,貫穿到顧客買單、顧客維護、外賣訂單、騎手配送、人力管理以及供應鏈、數據中臺等各個環節。餐道將主要的業務應用,包括前端 Web 容器、網關、后端微服務通過 Kubernetes 集群部署,以云原生的方式幫助業務快速迭代,靈活響應商業需求。建設成果資源利用率提升:服務器資源利用率提升了 30%。支撐業務快速發展:出現問題后可快速隔離,當面對急劇增長的業務量,可以在短時間內完成擴容,原本自建集群需要 15 分鐘擴容一個節點,而現在 ACK 集群平均只需要 3 分鐘即可擴容出一個節點,擴容效率提升了近 80%。迭代效率提
90、升:版本迭代期間,服務的更新速度有了明顯的改善,縮短了近 40%的版本發布時間。0 集群故障:集群的穩定性也給系統提供了充分的保障,截至目前,餐道各業務平臺上的集群故障次數為 0。餐道/零售&電商41客戶痛點客戶簡介方案亮點餐道為餐道信息科技有限公司旗下注冊品牌,品牌服務涵蓋全渠道管理 SaaS 平臺+業務數據雙中臺,主要為國內餐飲和零售企業提供一體化的 O2O 解決方案。自建集群穩定性差:餐道早期采用 Kubernetes 部署其餐飲 SaaS 平臺,但自建集群穩定性不足,且缺乏與云原生監控和彈性集成的能力。彈性適配難:餐道 SaaS 平臺用戶訪問具有明顯的波峰波谷特征,實現應用的彈性適應業
91、務特點可以節省大量成本,但自建集群的適配難度很大。提升業務穩定性:餐道選擇將其部署在自建 Kubernetes 集群上的業務應用遷移到阿里云容器服務 ACK 以構建其餐飲 SaaS 平臺。ACK 經過阿里云大規模場景實踐驗證和優化,因此不需要花費過多精力進行應用優化適配。通過使用 ACK,不僅能提升系統穩定性,還能節省運維人力成本??焖購椥詰獙ν话l流量:ACK 可以快速彈性地應對突發流量,一次性擴容多臺 ECS,無論擴容多少臺,都能在 10 分鐘內完成。簡化用云體驗:ACK 整合了阿里云云原生的多種能力,例如 ACK 中集成的 Prometheus 監控服務,可以幫助快速定位性能問題,更好地保
92、證業務的連續性。這些功能的集成簡化了云計算體驗,提高了企業運行云端 Kubernetes 容器化應用的效率。商家端入口各端入口集群外部流量SanS 平臺服務相關PaaS 平臺服務網關部署于 ACK 容器服務-(Resin4+SpringMVC)客戶端入口.外賣對接會員對接對接項目集群部署于 ACK 容器服務傳統的對接流量通過 PaaS 的對接流量數據交互部署于 ACK 容器服務(Tomcat+SpringMVC)PaaS 平臺服務集群(SpringCloud)騎手對接.訂單服務SanS 平臺服務集群部署于 ACK 容器服務(Dubbo)餐品服務權限服務門店服務流量件業務中臺開放平臺應用中心.騎
93、手服務.外網負載均衡 SLB中間件集群MongoDBRDSRedis權限服務餐品服務權限服務權限服務第三方流量1容器服務 ACK2應用實時監控服務 ARMS42餐道基于 ACK 構建創新底座,加速 SaaS 規?;葸M客戶簡介作為食品領域的上市公司,“國民零食第一股”三只松鼠連續數年參與天貓“雙 11”回饋廣大消費者。2019 年雙 11 僅用時 19 分 23 秒銷售額破億,穩居天貓全網休閑零食行業交易指數榜首,是典型的互聯網電商業務場景。在阿里云上,三只松鼠以阿里云容器服務 ACK 為基礎構建了云原生 PaaS 平臺,快速實現了從傳統虛擬機交付部署模式到云原生容器化的架構轉型:三只松鼠/零
94、售&電商43客戶痛點方案亮點資源準備周期長:大促期間需要提前準備硬件資源,從資源申請、環境部署到業務上線,周期超過 1 個月。業務難以無損發布:當前虛擬機部署架構下,難以實現業務快速、無中斷發布,影響用戶體驗。資源利用率低:大促期間資源水位預留高,無法實現按需動態申請資源,利用率整體偏低。建立 DevOps 體系提升業務發布效率:基于阿里云容器服務 ACK 底座建設研發一體化解決方案,從傳統的虛擬機開發、部署、運維模式,演變成以 Kubernetes 容器編排+GitLab 自動化觸發構建、部署的 DevOps 模式,解決了資源準備、運維發布等痛點問題。容器化彈性實現 IT 成本降低:硬件資源
95、投入持續下降,平均投入減少 10%。運維壓力下降,效率提升 50%。雙十一全渠道銷售額 104.9 億元,訂單量 924 萬,同比增幅 23%,訂單處理 2527 筆/min;共處理庫存單據 780 萬,峰值為 800 單/s,共處理物流單據 719 萬,處理時效縮短 36%。建設成果大促服務節點負載壓力大,難以快速補充資源。上云后資源限定優化,訂單處理 2527 筆/分時效縮短 36%,發現問題快速滾動迭代,整體感受快、穩、方便??蛻糇C言相關產品大促期間資源準備縮短至“天”,平臺業務構建速度快,故障率低。集群節點擴容分鐘級,pod 擴容秒級,極大緩解線上大流量及高并發下的穩定性問題。大促期間
96、資源平均水位保持在 60%以上,相比以往提升 30%。線上發現問題可以快速滾動迭代,解決了服務發布有損問題,提升了用戶體驗。開發者源代碼托管自動構建容器鏡像倉庫測試環境ACK 集群預發環境ACK 集群正式環境ACK 集群代碼提交通知反饋容器化 DevOps 最佳實踐ACR 云原生資產托管和分發平臺鏡像推送鏡像拉取自動觸發Webhook 通知源代碼獲取自動觸發自動觸發阿里云Code1容器服務 ACK2容器鏡像服務 ACR44三只松鼠云原生架構升級,完美應對雙十一客戶簡介斯凱奇(SKECHERS)1992 年誕生于美國加州,遍布全球 170 多個國家地區,在美國是僅次于耐克的第二大鞋類品牌。202
97、0 年 11 月斯凱奇宣布與阿里云達成合作,加速數字化升級。引入阿里云中臺后,進一步推動全渠道優化,提升運營效率和供應鏈管理能力。斯凱奇將傳統 API 網關升級成云原生網關,用于和外部渠道、內部老系統、第三方服務進行流量互通,在開發運維效率、性能、安全性上展現出更優異的表現。斯凱奇/零售&電商45客戶痛點方案亮點相比自建 API 網關,MSE 云原生網關給客戶提供了統一的微服務路由、流控、安全管理等能力,方便內外部多系統間的集成,極大地提高了中臺服務的開發效率,并降低運維成本。建設成果相關產品自建網關性能和穩定性無法保障:斯凱奇的全渠道業務中臺通過統一接入網關提供 API 接口供外部調用。由于
98、斯凱奇業務場景豐富且系統眾多,近年來由于業務高速發展,雙 11 大促等活動的流量高峰對自建網關的性能和穩定性提出更多的挑戰。網關安全性不夠健壯:外部渠道、內部老系統、第三方服務需要與業務中臺互通或由中臺提供能力,由于接入系統形態各異,急需豐富的安全認證手段并進行統一管理。開發運維效率提升:MSE 云原生網關直接打通了已有的微服務注冊中心,直連后端服務,快速實現微服務之間的互通互訪和統一管理。通過多種路由規則實現的灰度發布,能輕松滿足大促前業務快速迭代上線的需求。網關性能更強:相比 Spring Cloud Gateway 等微服務網關,MSE 云原生網關性能更好,同時其負載均衡、流量控制能力可
99、增強后端服務的可用性,確保中臺系統順利應對雙 11 流量洪峰。網關安全性更健壯:MSE 云原生網關集成了認證登錄系統,利用 JWT 認證功能和黑白名單,讓業務快速構建安全屏障。完備的可觀測:MSE 云原生網關提供了豐富的可觀測數據,包括流量全局看板、日志檢索、業務 TOP 榜、延遲/失敗率/錯誤碼等多種響應指標等,并輔以報警管理,使運維人員對服務的整體狀態及異常情況盡在掌握,減輕大促期間的工作負擔。全渠道接入(MSE云原生網關)前臺應用訂單中心云POSO2O Oortal全渠道運營平臺共享服務中心促銷中心庫存中心商品中心排單系統OACRMHR.渠道中心用戶中心會員中心營銷中心EDASDRDSM
100、QARMSKubernetesAHAS中間件ECSRDSSLBVPCSLSOSS基礎資源官網全渠道小程序門店店員、運營人員、員工、經銷商、用戶天貓唯品會京東拼多多.內部服務倉庫管理系統運輸管理系統第三方服務wedappposHTTPMSE 云原生網關HTTPprimwebwebweb 服務訂單中心微服務中心促銷中心庫存中心商品中心用戶中心用戶中心會員中心營銷中心全鏈路監控ARMS日志服務SLS安全Web應用防火墻云數據庫POLARDBRDSES消息隊列 云數據庫Rredis 版服務注冊發現配置中心認證鑒權服務限流熔斷分布式任務 LTSMSE 微服務治理調度分配ApolloHTTPHTTPRPC
101、1微服務引擎 MSE2應用實時監控服務 ARMS46斯凱奇通過 MSE 提升業務迭代效率,輕松應對線上大促客戶簡介識貨 App 是國內領先的年輕人生活社區與消費決策平臺,致力于為廣大年輕用戶提供專業的網購決策指導。2020 年起,識貨業務系開始整體業務平臺全容器化改造,有效提升系統穩定性,同時也迎來成本和效率的新挑戰??蛻糇C言相關產品識貨 CTO:識貨是典型的 Cloud First,將基礎設施完全交給云,不斷挖掘和利用好云產品的能力,讓應用架構更簡單、更快速。與阿里云合作期間,識貨 APP 充分利用了阿里云 ACK 彈性伸縮能力以及資源調度能力,以往在 618、雙十一大促期間的擴縮容時長和成
102、本都非常高,但上云之后,擴縮容只要幾小時,完美實現大促期間的業績增長,同時實現成本的大幅下降。識貨通過阿里云容器服務 ACK 提供的 Serverless 彈性、智能預測 AHPA 以及混部能力,結合實際業務特征,實現了以下幾個方面的改進:識貨/零售&電商47客戶痛點方案亮點識貨基礎架構團隊構建的質量運維智能管控平臺,支撐了識貨 APP 全平臺 GMV 超 300 億,MAU 超5000 萬。在 618、雙十一大促期間,擴縮容時長縮短至幾小時,完美實現大促期間的業績增長,同時實現成本下降 20%。建設成果識貨的主營業務是電商,其流量有明顯波峰波谷的特點,并伴隨全年多次大促。然而,缺乏資源與業務
103、的動態、精細化管理,具體表現在:業務大促響應慢:每次業務大促,資源準備、系統擴容過程持續長達數周,業務發展受制于 IT 基礎設施保障。IT 成本增加遠大于業務增長:公司考核業務增長與 IT 資源投入比例,CTO 要求技術費用零增長甚至負增長,運維面臨極大的資源精細化管理挑戰。按需 Serverless 提升業務彈性能力:平時業務使用固定 ECS 承載,大促或業務高峰流量使用 Serverless ECI 彈性,通過指定調度策略自動執行,無需上層業務框架改造適配。這一方案實現了高峰流量按需申請資源,并隨著高峰結束自動回收資源,大促擴容從持續數周降低到小時級。智能預測彈性降低資源浪費:AHPA 通
104、過彈性預測提前預熱資源,做到按需彈性,并根據業務趨勢自動進行彈性策略規劃,避免人工規劃導致預估不準資源引發浪費或業務穩定性問題,彈性計算成本節省了 20%?;觳刻嵘寐剩篴ck-koordinator 提供商業化的混部接入能力,降低混部門檻,并通過單機 QoS 等差異化能力,確保多種業務負載混合部署后的服務質量得到保障。這一方案安全、有效、便捷地實現了整體資源利用率提升 15%。reclaimedbufferedusagePod1 reclaimedPod2 reclaimedPod1reclaimedbufferedusagePod2用于超賣的資源預留的buffer實際的資源使用量PodL
105、1PodL3PodL4reclaimedbufferedusage已分配未使用資源,經過資源畫像之后,用于運行低優的 Pod容器服務 Kubernetes集群(ACK)ECS混部&超賣PodL2Serverless基礎設施彈性ECSPODPODPODPODPODECIECIECIECIECI1容器服務 ACK2彈性容器實例 ECI48識貨基于阿里云容器服務實現云原生提效降本建設成果支撐海量并發和大流量場景:在 ACK 的彈性能力和 MSE 的全鏈路穩定性治理的幫助下,波司登全面建立了支持百萬級并發的技術能力,穩定支持近兩年的雙 11 大促活動。全面建立安全變更體系:在 MSE 的全鏈路流量治理
106、和 ARMS 應用監控的幫助下,波司登建立了成熟的安全變更機制,對每一次應用變更都進行充分的灰度驗證,排查線上性能問題也變得更加輕松。該安全變更機制已被各團隊廣泛采納,波司登的業務迭代頻率提升了 2 倍以上,應用變更導致的生產事故降低了 70%。方案亮點波司登/零售&電商49客戶簡介客戶痛點波司登創始于 1976 年,專注于羽絨服的研發、設計、制作,是全球知名的羽絨服生產商,連續 26年全國銷量領先。在波司登全面上云以后,為了更好的支撐業務發展,CIO 親自帶隊,圍繞著云原生技術體系,推動波司登的各條業務線進行技術升級改造。隨著系統微服務化的全面推進,波司登面臨著應用復雜度和管理難度的雙重挑戰
107、。波司登技術團隊在微服務架構的使用過程中遇到了兩個難題:客戶證言相關產品波司登的技術團隊與阿里云深入配合,在云原生微服務治理方面的不斷探索,在超大規模微服務架構領域積累了寶貴經驗。波司登會繼續擁抱云計算,通過更先進、更高效的技術,更數字化的運營方式,引領服裝行業激發創新活力,與各行各業的時代變革者共同成長。性能問題定位困難:隨著業務規模的增長,應用之間的調用關系變得越來越復雜,鏈路變得越來越長。遇到線上性能問題需要投入大量的精力排查,效率特別低。應用變更頻繁造成事故:隨著業務的快速迭代,應用變更的頻次快速增長,包括新應用上線、新版本發布、新配置推送、應用擴縮容等方面。服務架構的復雜性讓波司登的
108、技術團隊在每次應用變更中都疲憊不堪,絕大多數生產環境的事故都由應用變更導致。全鏈路性能管理:通過快速定位出錯接口和慢接口、重現調用參數、發現系統瓶頸等方式,大幅提升線上問題診斷的效率?;谌溌妨髁恐卫斫档蛻米兏L險:采用多版本邏輯隔離的方式實現端到端的全鏈路灰度,全面降低應用變更的風險。無侵入式接入:通過 Agent 技術,在不需要修改代碼的情況下,全面提升微服務治理能力。全面遵循開源開放的技術標準:云原生關網、注冊配置中心、微服務治理框架背后都有對應的開源項目,基于 Kubernetes 標準和 Spring Cloud 架構進行擴展,確保用戶的技術架構全面擁抱開源開放的技術標準,從根本
109、上避免廠商綁定問題。上海 RegionSLB接入層MSE Ingress容器服務ACK門店系統POS應用層電商系統OMS倉儲ICC/OPC用戶中心CRM調撥系統IOMS物流管理EWMRocketmqMSE治理中心MSE注冊中心ARMS應用監控數據層Hologres-MmaxcomputePGSQLWAF北京 RegionSLB接入層MSE Ingress門店系統POS應用層電商系統OMS倉儲ICC/OPC用戶中心CRM調撥系統IOMS物流管理EWMRocketmqMSE治理中心MSE注冊中心ARMS應用監控數據層Hologres-MmaxcomputePGSQL對等部署實時同步DTS同步DTS
110、同步DNS1容器服務 ACK2微服務引擎 MSE3應用實時監控服務 ARMS容器服務ACK50波司登云原生架構升級,實現數字化業務創新建設成果通過業務云原生改造,容器化和網格化為業務帶來了更高的穩定性,缺陷密度下降了 60%,Devops平臺的持續建設也幫助研發效率提升了 20%,交付速度提升了 200%。相關產品極大簡化精細化應用流量管理策略與灰度發布:ASM 提供精細化的流量路由策略,幫助業務實現灰度發布、熔斷、故障注入等 DevOps 場景。ASM 極大簡化了遺留系統實現網格化的架構升級,同時支持某些老系統的極端場景,例如超長 header 請求(大約 40-60K)和超長 body 請
111、求(大約 2-10M 左右)。震坤行/零售&電商51客戶簡介客戶痛點方案亮點震坤行工業超市(上海)有限公司(以下簡稱:震坤行)成立于 1996 年,是一家服務于工業領域與制造業的一站式工業用品服務平臺。震坤行經營了 32 條產品線,500 余萬種工廠使用的輔料和易耗品(MRO)。通過產業的網絡協同、覆蓋全國的智能化供應鏈、數字化的采購平臺,震坤行工業超市線上平臺擁有 8000 多家供應商與國內外知名合作伙伴,以及與超過 20000家先進制造企業。引入阿里云服務網格 ASM,構建智能的數字化供應鏈解決方案?;?ASM 提供的免運維、易升級以及產品豐富的支持能力,讓產研團隊集中享受 Servic
112、e Mesh 帶來的價值的同時,又避免了高昂的維護更新迭代和異常排查成本,并解決了諸如服務負載均衡、鏈路追蹤和流量統一管理等核心問題。業務穩定性和安全性問題突出。目前的業務系統在部署過程中經常出現發布不穩定、上線需要人工干預等問題,這導致效率低下、誤操作、無法穩定升級等問題。同時,在線業務需要完善的安全方案,以確保網關和內部調用的安全性。應用維護和異常排查成本較大。隨著業務的快速發展,應用更新迭代的維護以及異常問題的排查成本急劇上升,同時服務負載均衡、鏈路追蹤和流量統一管理等需求痛點逐漸擴大。穩定性提升:技術基座采用具備高可用、免運維、內建安全最佳實踐可開箱即用的 ASM 服務網格實例,使開發
113、人員可以更專注于業務應用而非基礎設施運維。無需復雜的配置即可獲得穩定的服務網格能力。將服務網格組件和集群拆分開,對服務網格組件進行升級不會影響到集群,解耦網格實例和 Kubernetes 集群的生命周期管理,使服務運行更加穩定,節省了運維成本。安全和可用性提升:通過 ASM 系統保障服務的安全和高可用性,輕松啟用 SDS,為服務網關提供 HTTPS 安全支持、證書動態加載,從而提升服務網關的安全性。支持以漸進方式逐步實現 mTLS 認證,并提供簡單易用的 RBAC 功能。1服務網格 ASM2容器服務 ACK52震坤行基于云原生高效提升應急供應鏈管理能力托管服務網格 ASM異構服務統一治理軟硬結
114、合性能優化端到端的可觀測SLO驅動的應用彈性零信任安全卓越性能高效調度安全可信開箱即用擴展&生態兼容ACK Kubernetes 集群高性能 Terway 網絡Docker/ContainerdECS 虛擬機PodPodPodPod建設成果廚芯科技已在幾個主要服務 ACK 集群上啟用了 AHPA。經過驗證,相比于 CronHPA+HPA 的優化方案,AHPA 的主動預測模式額外降低了 10%的 ECI 容器成本。同時,AHPA 自動計算負載曲線,設置目標容器數等特點,替代了人工運維的工作量,加速了業務容器化的進程??蛻糇C言廚芯科技 VP 表示:“使用阿里云彈性預測 AHPA,降低 Kubern
115、etes容器成本同時減輕了運維工作量,加速了業務容器化的進程?!毕嚓P產品廚芯科技一年前將業務系統從 ECS VM 遷移至 Kubernetes 集群。盡管這提高了微服務運維效率,但由于 ECI 容器單位成本高于 ECS,如何充分發揮 Kubernetes 資源彈性從而降低成本,成為廚芯面臨的主要問題。目前存在兩個業務場景需要優化:廚芯科技/零售&電商53客戶簡介客戶痛點方案亮點廚芯科技,是全球領先的餐飲設備和服務提供商。從一臺智能洗碗機開始,致力于改變餐廳后廚基礎設施,驅動餐飲行業的智能化和自動化。經過充分溝通,對廚芯科技業務的應用場景和需求有了深入理解后,決定使用阿里云容器服務彈性預測 AH
116、PA 解決方案。方案的優勢如下:Web 服務 HPA 彈性滯后:Web 服務每天有早、晚高峰和夜間低谷,而 HPA 擴容總是滯后于負載變化,會引入一些不必要的容器創建和刪除,導致資源浪費。彈性策略配置復雜:定時任務 CronHPA 配置復雜,定時任務有相對固定的周期性。對于 15-30分鐘的周期,隨著 CronHPA 設置的時間段越來越多,運維成本逐漸提高且不夠靈活。目標容器數的配置也比較困難,太少則無法保證應對業務高峰,太多又達不到優化成本的效果,需要反復調整。彈性預測,資源預熱。AHPA 可以根據業務歷史指標,自動識別彈性周期,提前擴容,解決彈性滯后的問題。簡化彈性配置,自動容量規劃。彈性
117、根據業務趨勢變化,自動進行彈性規劃,無需人工干預,極大降低運維成本。容器服務 ACKCPU、Memory業務后臺任務調度性能指標QPS、RT流量指標自定義指標指標源彈性配置工作負載算法配置邊界配置指標收集補償機制分鐘聚合指標采集預測分析智能彈性廚芯系統歷史指標實時指標主動預測分析預測算法數據降噪周期識別魯棒處理實例數預測指標查詢被動預測分析指標處理數據緩存邊界保護彈性伸縮54廚芯科技加速業務容器化進程,成功實現增效降本交通/物流TRANSPORTATION/LOGISTICS客戶簡介申通快遞作為國內快遞行業的龍頭企業,目前在國內擁有上千家門店,經過 20 多年的發展,已在全國形成完善、暢通的自
118、營快遞網絡,且業務仍在高速發展。在申通快遞整體單量持續不斷增長的前提下,不同實操場景下也需要應對包括時延、穩定性、高可用、可擴展性等在內的不同要求和挑戰。申通快遞/交通&物流55客戶痛點隨著業務高速發展,申通傳統云到端模式下的業務場景包括攔截、預售、錯分等 6 大類,以下問題日益凸顯:基于阿里云 ACKEdge 構建的申通快遞 IoT 云邊端架構,實現了云邊協同、邊緣側資源托管和應用管理:建設成果方案亮點相關產品在基于 ACKEdge 構建的 IoT 云邊端架構模式下,掃描校驗等操作在本地即可完成,減少了對云端的強依賴,幫助企業成本下降 30%,整體邊端響應時長降低至 50ms,穩定性從 99
119、.9%提升到 99.95%。該架構實踐被信通院評選為“2021 年度分布式云與云邊協同十佳案例”,為快遞行業的邊緣云原生演進樹立標桿。邊緣資源缺乏統一管理:在邊緣場景下,各種基礎設施條件參差不齊,依賴人工手動管理,容易出現配置遺漏或誤操作,而面單量持續增長時,系統的健壯性無法得到保證。邊緣弱網環境下面單掃描效率低:由于云邊網絡鏈路受到各種環境制約,無法滿足申通邊緣業務規范的 1 秒 3 單,實際操作人員明顯感覺到卡頓。邊緣服務器裸機資源浪費:由于邊緣節點常常具備很強的區域性、地域性,不同地域節點之間存在資源不共享、資源異構等明顯隔離屬性,導致邊緣服務器的裸機資源被浪費。業務管理維護成本高:邊緣
120、基礎設施薄弱,多套廠家的邊緣自動化設備子系統、研發模型不統一等問題突出,導致重復建設,增加了邊緣業務的管理和維護成本。容器化隔離應用環境降低邊緣業務間相互影響:ACKEdge 提供一鍵初始裝機、開箱即用的容器化隔離應用環境,解決了原始進程隔離模式帶來的穩定性差問題,大幅縮小了申通邊端應用相互影響范圍,實現了邊緣高可用。針對性解決邊緣場景網絡問題,大幅縮短服務響應時長:ACKEdge 面向邊緣計算弱網絡連接場景提供節點自治和網絡自治能力,保證邊緣節點和邊緣業務的高可靠運行,并消除抖動帶來的額外影響,從而大幅降低申通整體邊端服務響應時間。支持異構資源混合調度,減少邊端服務器裸機資源浪費:ACKEd
121、ge 支持豐富的異構邊緣節點資源,包括自建 IDC 資源、ENS/IoT 設備、X86/ARM 架構等,通過支持異構資源混合調度,為申通云管邊端、邊緣自治的混合云架構提供基礎。通過控制彈性策略和超賣比,可合理利用資源,降低整體投入成本。云邊一體化協同模式,助力邊緣 DevOps 實施:通過中心云進行統一交付、運維和管控,幫助申通構建統一的運維監控體系和研發模型,釋放運維人員精力,同時使研發只需關注代碼開發,無需關心部署問題。物流云邊緣 PaaS 云平臺邏輯邊緣應用發布流水線資源申請/變更運維部署ACKEdge/Openyurt倉儲中心(邊)端設備倉儲中心掃描協議適配UCS服務代理網關互通負載均
122、衡邊緣應用邊緣插件集合系統進程驅動管理連接管理系統?;畈寮w系Webshell自動化設備掃描客戶端交叉帶DWS設備LemoPDA巴槍邊緣容器服務 ACKEdge 56申通基于 ACKEdge 構建邊緣 PaaS 實現業務全面提效建設成果相關產品有效降低業務整體的報障率,提高了系統的穩定性。極大降低了停車云業務開發運維過程中的人員和時間成本,同時也避免了日常派人巡檢的需要,提高了運維效率。發布時間從以前的需要數周時間縮短到了分鐘級別,大大提高了業務的發布效率。形成了邊緣場景的統一處理范式,內部相似業務形態可以復制該模式,從而減少了試錯成本。方案亮點為解決以上問題,龍湖千丁停車云平臺選擇了阿里云邊
123、緣容器服務 ACKEdge 提供的標準 Kubernetes 服務以及云邊一體化協同解決方案實現以下能力:通過龍湖千丁停車云平臺的自研新版停車云系統與 ACKEdge 提供的標準 Kubernetes 服務以及云邊一體化協同解決方案相結合,我們成功將邊緣部署時間成本從 1 天縮短到了 3 小時,同時還將手動升級方式迭代為自動 OTA 升級,升級時間從 3 小時縮短到 5 分鐘。具體表現在以下幾方面:弱網兼容:通過 ACKEdge 的邊緣自治能力,即使在云邊網絡斷開或主機重啟等極端情況下,本地邊緣服務器上的業務也可以正常運行。龍湖千丁/交通&物流57客戶簡介客戶痛點龍湖千丁是國內最早一批參與智慧
124、城市、智慧社區建設的高科技企業,智慧停車是龍湖千丁生活服務的主要場景之一。依托龍湖千丁停車云系統,千丁智能已為全國范圍內自有及托管的 1000+車場的智慧停車業務提供統一的車管解決方案。分布式邊緣環境拖慢運維效率:由于客戶各個車場地理位置分散,彼此網絡隔離,車場內的計算資源無法直接被公網訪問,導致業務發布和問題排查需要相關人員現場處理,對開發、測試、升級和運維造成了巨大挑戰。異構環境差異導致穩定性問題突出:絕大部分車場的節點環境為 Windows PC 服務器,而車場之間的業務部署環境差異較大,需要屏蔽底層環境差異,確保業務平穩運行。應用發布效率低:由于接入龍湖千丁停車云平臺的運營主體不同,以
125、及用戶需求的頻繁更迭,需要根據業務特點實現分批發布和灰度發布,以提高發布效率的同時保證業務的穩定運行。云端管控提升運維效率:通過一條命令,可以快速將節點接入到 ACKEdge 提供的標準 Kubernetes 集群中,并通過云端實現不同地域的計算資源的統一管理和統一的應用分發,提升運維效率。容器化封裝實現業務一致性:通過容器化封裝,可以在異構環境中最大程度保證業務的一致性,極大減少因環境差異導致的問題。單元化發布:根據業務特點,劃分不同的節點池,讓不同車場的算力接入不同的節點池,從而形成不同的發布單元。通過選擇不同的發布單元,可以實現分批發布和灰度發布。云端運維,遠程調試:借助 ACKEdge
126、 提供的通道,開發運維人員可以快速查看容器日志和進入容器進行調試。申通CMDB龍湖云智能停車平臺PC ServerPC ServerPC Server抬桿登記車輛NodePool(特定版本單元)PC ServerPC ServerPC Server抬桿登記車輛NodePool(灰度單元)PC ServerPC ServerPC ServerPC ServerPC ServerPC Server抬桿登記車輛NodePool(通用單元)CloudEdgeACKEdge運維通道Edge-Tunnel運維通道Edge-Tunnel運維通道Edge-Tunnel邊緣容器服務 ACKEdge58龍湖千丁基
127、于 ACKEdge 高效落地云邊端一體化智慧停車業務建設成果相關產品穩定、低成本的容器基礎設施:貨拉拉使用阿里云容器服務,極大地增加了資源彈性能力和穩定性,實現了增效降本,成為穩定且低成本的容器基礎設施。為全面云原生轉型奠定堅實基礎:貨拉拉已應用 100%容器化,這是全面云原生轉型的第一步。通過建設堅實的容器基礎設施,貨拉拉為容災系統建設、大數據云原生化、混部系統建設等奠定了堅實的基礎。提供多種工具優化成本治理:容器服務 ACK 幫助用戶在使用裸金屬實例時,能夠直達物理性能。同時,通過 ACK 差異化 SLO koordinator 容器調度,進行 cpuset 調度、綁核和負載感知調度等,有
128、效地提升了應用性能和節點資源利用率。貨拉拉業務具有明顯的波峰波谷特征,同城貨運白天高峰期比較穩定,晚上低峰期流量會降低。用戶可以通過 HPA 和 CronHPA 進行定時擴縮容,滿足這類可預期的彈性場景。結合 ACK 提供的監控數據鏈路,貨拉拉實現了容器成本的計量和分賬,有效地管理各團隊用云成本。核心系統異地備份:通過 ACK 備份中心,實現貨拉拉在 ACK 中運行的核心系統的異地備份,并通過 ACR EE 實現跨 Region 鏡像同步。貨拉拉/交通&物流59客戶簡介客戶痛點方案亮點貨拉拉于 2013 年創立,成長于粵港澳大灣區,是一家從事同城/跨城貨運、企業版物流服務、搬家、零擔、汽車租售
129、及車后市場服務的互聯網物流商城。自建集群穩定性差:貨拉拉內部運行大量微服務系統,錯綜復雜,對 Kubernetes 穩定性要求高。自建容易出現穩定性問題,運維成本高。IT 成本治理難:IT 成本治理往往需要對 Kubernetes 進行擴展?;谌萜鞯哪芰嫿ㄐ枰M行一些核心能力的定制開發,比如在調度器、監控數據鏈路等方面的擴展,自建難以推進這些擴展。核心系統無備份容災:由于應用架構復雜,很多系統沒有單元化,核心系統容災備份系統建設難。簡化云運維復雜度:貨拉拉基于阿里云容器服務 ACK,已經將大部分應用進行了容器化改造并遷移。容器服務 ACK 提供了高可靠穩定的基礎設施,與裸金屬實例、SLB、
130、ALB/NLB 和 SLB 的集成,極大地簡化了用云復雜度。工具平臺核心鏈路應用非核心鏈路應用其他ACR EE跨 Region 同步ACK 備份中心異地備份ECS、裸金屬服務器存儲(塊存儲、NAS)網絡(CLB/NLB)低優先級搶占按量/競價示例綁核CPUset 調度負載感知調度CA/HPA/CronHPA同城/跨城物流/搬家支撐組件離線大數據中間件核心鏈路應用彈性和成本優化業務應用ACK Pro 容器服務1容器服務 ACK2容器鏡像服務 ACR560貨拉拉使用 ACK 輕松應對容器管理難題,實現精細化成本治理客戶證言相關產品“市場環境和消費者需求快速變化的現狀下,我們更希望將精力專注于核心業
131、務的研發。為了實現業務增效降本,我們直接選擇了 ACR EE 服務,可以讓我們將更多精力投入到快速響應業務需求當中?!苯ㄔO成果經過將自建 Harbor 倉庫遷移至 ACR EE 后,麗迅物流已全面降低了應用的運維部署成本。ACR EE 除了提供自身完善的功能之外,還可以與阿里云的其他產品如容器服務 ACK、云效流水線 Flow 深度結合,為麗迅物流提供靈活易用的持續集成、持續驗證和持續發布功能,幫助其高質量、高效率地交付業務,并實現全鏈路云原生 DevSecOps。通過將核心鏡像遷移至 ACR EE,麗迅物流的鏡像管理及運維 Registry 實例復雜度降低 50%,容器鏡像分發效率提高 60
132、%,同時還確保了容器鏡像端到端的安全。麗迅物流/交通&物流61客戶簡介客戶痛點麗迅物流是百麗旗下專注于時尚產業、為企業提供專業物流及供應鏈解決方案的服務商。目前麗迅物流已在全國擁有 70+全渠道實體云倉、5 大中心電商倉,總面積達 100 萬+平方米,服務覆蓋 300+城市、3000+商圈。在技術架構轉型及業務快速發展的背景下,為了降低業務各環節中的運維成本、提高物流服務效率,2021 年 8 月起,麗迅物流開始了在阿里云上完成自身從 IDC 自建到全面云原生化的進程。在技術架構轉型和業務快速發展的背景下,麗迅物流的 IDC 自建 Harbor 托管容器鏡像制品方案面臨以下問題:大規模分發場景
133、下 Harbor 運維復雜:盡管 Harbor 最初能夠滿足企業鏡像倉庫的基本需求,但隨著業務的發展和迭代,大規模分發場景需要考慮高可用性、網絡帶寬、安全性等問題。鏡像安全問題無法得到滿足:在生產場景下,對于鏡像安全的需求越來越高,一些鏡像版本的安全管理和部署需要進行二次開發。研發精力不聚焦:在市場環境和消費者需求快速變化的情況下,麗迅希望將精力集中于核心業務的研發,而不是對基礎設施需求的響應中。方案亮點為實現大規模場景下的增效降本,綜合考慮以下優勢,麗迅物流選擇了容器鏡像服務企業版 ACR EE:便捷遷移,更易使用,免運維:基于 ACR EE 鏡像導入功能,可以直接將 Harbor 鏡像數據
134、導入 ACR EE 實例,無縫兼容鏡像使用習慣,只需要 1 小時即可完成 Harbor 全部鏡像實例向 ACR EE 的平滑遷移。此外,后續倉庫的運維工作完全托管,讓客戶更加專注于業務開發。高質量的鏡像分發能力:ACR EE 承諾 99.95%的業內最高 SLA 保障,并且具備大規模分發場景的 P2P 分發加速能力,可實現大鏡像分發場景的按需分發加速、跨海分發場景的全球分發加速等。端到端的鏡像安全治理:ACR EE 具有默認存儲加密、自動化鏡像安全掃描、鏡像加簽等功能,企業無需再擔心容器鏡像的安全可信問題。同時,ACR EE 還提供云原生應用交付鏈功能,支持全鏈路自動交付、全鏈路可觀測、可追蹤
135、,確保云原生 DevSecOps 場景落地。北京區域混合云(生產環境)云效KBS 自建集群深圳 IDC 機房ACK 托管集群阿里云深圳區域ACK 托管集群阿里云北京區域KBS 自建集群北京 IDC 機房深圳區域混合云(開發測試環境)免密拉取鏡像免密拉取鏡像Docker Login拉取鏡像Docker Login拉取鏡像就近獲取鏡像就近獲取鏡像云解析設置自定義域名鏡像安全掃描、鏡像加簽、鏡像同步流水線 Flow深圳區域ACR EE北京區域ACR EE1容器鏡像服務 ACR2容器服務 ACK62麗迅物流通過 ACR EE 管理大規模容器鏡像,快速響應業務需求金融FINANCE客戶證言相關產品眾安保
136、險 CTO 表示:“眾安的 新保險 業務和技術都原生于云,未來我們將通過 微服務+實現更加彈性的服務治理,將 CPU 利用率從 15%提升到 60%。同時通過云原生研發體系和工具結合低代碼智能編程,保守估計可以提升 20%的研發效能?!北姲脖kU/金融63客戶簡介眾安保險作為國內首家互聯網保險公司,完全通過互聯網展業。眾安專注于應用新技術重塑保險價值鏈,圍繞健康、數字生活、消費金融、汽車四大生態,以科技服務新生代,為其提供個性化、定制化、智能化的新保險??蛻敉袋c以傳統技術架構為基礎,在開發、運維、安全管理等方面都面臨著諸多挑戰,其中包括:方案亮點利用阿里云容器服務 ACK 平臺,采用 Kuber
137、netes、Docker、istio 等云原生技術構建容器云平臺,同時建立 DevOps 體系。使用 ServiceMesh、SpringCloud、Nacos 等技術建立全司微服務架構,構建眾安研發管理一體化平臺,實現以下能力:100%云原生兼容:研發一體化解決方案基于阿里云容器服務 ACK 承載 PaaS,以 DevOps 層支撐業務場景研發需求,同時佐以度量中心提升研發效能。研發一體化解決方案基于云原生設計,100%兼容其他云原生方案的產品,實現自主可控。安全、快速、穩定:業務上線縮短到以小時為單位,年發布次數超過 4w 次;線上問題分鐘級捕獲及處理,業務系統穩定性達到 99.99%。I
138、T 成本降低:硬件資源投入持續下降,平均投入減少 10%。自動化運維保障體系,在系統穩定性提升的同時,運維投入大幅下降。研發效率低:無法快速響應多元化且更新頻繁的市場和用戶需求。業務上線速度慢,以周為單位。運營成本高:無法降低 IT 成本以及做到數據驅動的精細化運營。業務資源利用率低,造成 IT 資源浪費。運維壓力大:應用發布方式過于傳統,不夠自動化、不具備灰度發布、基于時間控制的自動彈性伸縮等,業務系統與基礎設施耦合深,不易于管理或觀察。眾安研發管理一體化平臺已經成功應用于實際場景,其承保保單量已達到每天 2 千萬、每年數十億的規模。在雙十一等重要時間節點,眾安系統成功承接海量保單且運行穩定
139、。六年來,眾安系統累計承保逾 260 億張保單。升級后的系統能夠支持千億保費,并擁有以客戶為中心的保險業務中臺,支持各業務線快速展開。建設成果組織 A項目 A項資源 A應用交付DevSecOps微服務治理組織 B項目 B項資源 B組織 C項目 C項資源 C容器 PaaS on ACK容器服務 ACK64眾安保險云原生架構升級,貫通行業數字化轉型“快車道”客戶簡介費芮互動隸屬于電通安吉斯安索帕集團,專注于移動營銷、O2O、社交媒體、移動電商領域的創新與研發。費芮互動自主研發的自媒體平臺運維超過 2 億粉絲;有超過 4 萬家線下門店采用費芮 O2O解決方案。費芮的主要客戶包括優衣庫,必勝客,肯德基
140、,星巴克,SPG,歐萊雅,Innisfree,迪卡儂,頂新集團等。費芮互動通過 MSE 云原生網關構建了零信任架構,無需重配 Nginx Ingress 規則即可平滑遷移,性能提升 90%,響應時間下降 50%,并大幅提升業務入口的穩定及安全性,高效支撐每日 1 億+粉絲交互,4 萬+線下門店、每月 3000 萬+筆的移動支付需求。費芮互動/金融65客戶痛點建設成果相關產品網關層性能受限:客戶的業務應用在容器中運行,使用基于 Nginx 的 kubernetes Ingress 入口網關。由于網關和業務部署在同一集群中,面對突發流量時,網關層的橫向擴縮容能力有限,導致性能受限。此外,當海量用戶
141、發起 HTTPS 請求時,需要進行大量的 TLS 加解密操作,給服務器的 CPU 帶來極大的壓力。當性能無法承載時,會影響業務系統的穩定性。網關鏈路運維復雜度高:客戶的南北向網關和東西向網關是獨立部署和運維的。流量從網關層到后端服務的整個訪問鏈路中存在許多跳轉,這增加了線上問題的排查難度,導致網關鏈路的運維復雜度較高。方案亮點費芮互動基于 MSE 云原生網關將流量網關、微服務網關、安全合三為一,建立高集成、高性能、易擴展、熱更新的新一代網關??s短網關轉發鏈路,提升網關性能:利用 MSE 云原生網關的路由管理能力,可實現南北向和東西向流量調度。云原生網關直連業務 Pod IP,RT 更低。通過對
142、 OS 內核參數與組件調優,QPS 比 Nginx 提升約 40%。硬件卸載 TLS 證書驗證加速,HTTPS QPS 提升 80%。擴展服務治理和安全能力,提升穩定性:MSE 云原生網關作為托管型的獨享實例,與部署業務應用的資源解耦,直連后端服務,打通多種服務來源,支持過載保護、故障自愈、限流降級等功能,確保流量高峰時的穩定性。云原生網關內置 Waf 模塊,使得用戶的請求鏈接可以同時完成 Waf 防護、流量分發、微服務治理,提升鏈路 RT,降低網關的運維復雜度。豐富的可觀測性:MSE 云原生網關提供 Access Log、Tracing、Metrics 及報警的全棧能力,幫助客戶更高效地定位
143、問題。PTS 壓測云盾(證書管理)APP1(v1)PODAPP2(v1)PODAPP1(v2)PODAPP2(v2)PODMSE 云原生網關ACK 自動伸縮/節點自愈灰度控制變更風險監控報警ECS(硬件加速)MSE(服務治理)ARMS(Tracing)ARMS(Prometheus)1微服務引擎 MSE2應用實時監控服務 ARMS3性能測試 PTS4容器服務 ACK 67866費芮互動通過 MSE 完成移動支付應用穩定性和安全性雙提升國際項目INTERNATIONALPROJECTS客戶簡介Salesforce 是一家提供云計算服務的軟件公司,專門從事客戶關系管理。Salesforce 的服務
144、可以讓企業利用云技術更好地與客戶、合作伙伴和潛在客戶進行連接。Salesforce/國際項目67客戶痛點三方及開源組件帶來的安全隱患:企業軟件項目越來越依賴于來自供應商、三方或開源社區的組件。這些組件常以基礎鏡像的方式在軟件供應鏈中傳遞。攻擊者可能利用組件中存在的漏洞,植入惡意代碼或控制第三方機器環境,進行從加密貨幣挖礦、發送垃圾郵件,到通過大型僵尸網絡發起 DDoS 攻擊等惡意行為。軟件交付長鏈路帶來的風險:軟件供應鏈的周期鏈路長,在各個環節中均可能存在安全風險,包括軟件漏洞、軟件后門、惡意篡改、知識產權風險和信息泄露等。容器化運行可能引入更多攻擊面:容器應用部署依賴 Linux 內核特性,
145、很多黑客攻擊者利用內核系統漏洞,從容器運行時組件和容器應用部署配置等多個維度發起針對性的逃逸或者入侵攻擊。在進行容器化交付改造的過程中,需要解決云原生場景下的軟件供應鏈風險挑戰,主要包括環境復雜化、多樣化等問題。方案亮點容器應用交付階段,ACR EE 可提供云原生應用交付鏈能力:ACR EE 融合訪問控制、鏡像構建、內容安全、二進制認證、全球化分發等能力,支持預置風險攔截策略,實現發現即阻止、安全控制左移。容器應用運行階段,ACK 保障容器應用一致性安全:ACK 集成云安全中心提供了容器運行時安全監控和告警能力,覆蓋 ATT&CK 殺傷鏈的 200 余項安全檢測模型,提升整體業務負載運行環境安
146、全性?;?ISV 應用運行場景,ACK 也提供了安全沙箱容器作為運行時解決方案,確保更好的安全隔離能力和更高的穩定性。為了幫助客戶更便捷地實現軟件供應鏈安全,阿里云容器服務團隊提供了端到端的解決方案:安全運營階段,ACK+ACR 實現全局風險感知:客戶可通過 ACR 自動同步、自動掃描、自動加簽功能和 ACK 自動驗簽、自動策略實施,以及風險識別后自動阻斷后續流程功能,實現容器化 DevSecOps 自動化流程。通過訂閱 ACR、ACK、云安全中心的風險事件,實現鏡像內容、鏡像交付、容器部署、容器運行時全流程安全的風險感知,可以更及時高效地處理安全風險。2022 年 6 月,“阿里云助力 S
147、alesforce 軟件供應鏈安全落地實踐”成功獲評“2022 安全守衛者計劃優秀案例”,通過使用基于 ACR EE+ACK 的云原生 DevSecOps 能力,Salesforce 安全軟件供應鏈實現萬次鏡像掃描、千次風險鏡像攔截阻斷,千次加簽/驗簽安全交付;基于全自動化軟件供應鏈安全流程,應用安全交付效率提升 3 倍。建設成果相關產品交付階段開發階段運行階段研發源代碼安全掃描一鍵修復集群安全概覽ACR EEKMS鏡像簽名ACK容器應用云安全中心OPA PolicyBinary AuthZ Policy(節點漏洞、容器鏡像、策略配置、運行時風險)運行時保護更新自動觸發C鏡像構建策略通過策略阻
148、斷節點漏洞自動修復應用發布策略通過私鑰公鑰1容器服務 ACK2容器鏡像服務 ACR91068Salesforce 容器化改造,成功落地安全可信軟件供應鏈建設成果方案亮點相關產品業務系統容器化改造后,在降低單點擊成本的同時還保障了業務高峰期的快速彈性,單點擊成本降低30%,同時彈性按需擴縮的敏捷架構幫助業務在全球快速開服快速擴容,幫助客戶增效降本。采用 ACK 容器化彈性技術方案作為核心技術架構后:容器技術簡化全球業務拓展,實現業務全球范圍內標準化部署、遷移和運維。彈性促進增效降本:業務大量使用彈性的計算資源,通過 HPA 及 CronHPA 實現按需擴縮;驅動 ACK 彈性節點池按需彈出預留+
149、搶占式競價實例,極大地節約了資源成本。匯量科技/國際項目69客戶簡介客戶痛點匯量科技是全球領先的技術服務公司,憑借全球化網絡和本地化服務能力,為 112 個國家 7000 多個活躍的應用開發者提供從獲客到變現的全棧式廣告產品,每天觸及超 35 億活躍移動設備,覆蓋 247 多個國家和地區。全球業務發布復雜度高:客戶需要在全球多云環境下進行業務開發、部署、運維;需要通過標準化的方式實現業務發布和服務提供;需要在全球范圍內敏捷發布業務,并用最低成本進行管理。業務訪問量波動大,資源成本高:客戶需要應對每天上百億的廣告交易請求處理數量;需要海量計算資源完成高并發的處理;客戶的業務高峰低谷非常明顯,按照
150、峰值業務需求準備資源會造成嚴重浪費。HPAVPACron HPAKubernetesPodPodPodPodPodPodPodPodPodPodPodPodPodECSPodPodPodPod應用伸縮資源伸縮PodPodPodPod裸金屬服務器PodPodPodPodGPU實例PodPodPodPodECS-搶占實例1容器服務 ACK2ECS-搶占實例70匯量科技通過容器技術加快全球業務拓展Landing Zone/咨詢LANDING ZONE/CONSULTING SERVICES客戶簡介天津市神州商龍科技股份有限公司是一家專為餐飲行業提供數字化整體解決方案及咨詢業務的高新技術企業,提供智慧
151、餐廳管理、客戶關系管理、供應鏈管理以及企業經營決策分析系統的一站式閉環解決方案的產品體系。天財商龍首席技術官表示:“非常感謝阿里云能夠提供這么一套云上管理方案,對商龍有非常大的幫助,像賬號規劃、財務付款與分賬、多賬號日志與審計、多賬號的運維管理等。能夠讓我們少走些彎路,業務遷移到阿里云更平滑”。商龍科技/Landing Zone&咨詢71客戶痛點方案亮點缺乏云上整體規劃:商龍需要上云的業務系統較為復雜,不同的業務會分布在不同的賬號下,導致缺乏整體規劃。比如容器集群管理和財務分賬等問題需要進行整體規劃,但是目前缺乏這方面的解決方案。業務要求系統安全穩定:客戶對于云上環境的安全、合規性和低風險性有
152、很高的要求。由于商龍的業務系統需要上云,系統出現問題會對業務造成極大的影響,甚至可能引起不良的社會輿論。因此,客戶需要保證云上環境的安全、合規性和低風險性。規劃多賬號多容器集群:采用阿里云容器集群服務來提升運維研發效率。不同的業務在不同的環境下使用多個集群。通過阿里云資源目錄,可以將不同業務所屬的云賬號進行統一管理,為未來新業務上線到容器集群提供基準定義。多賬號日志統一管理:商龍有多個云賬號,每個賬號內都會有各種云產品(例如 RDS 和 ACK)。通過多賬號日志統一管理方案,這些云產品的日志以及賬號內主機的操作系統日志可以投遞到日志賬號中進行集中分析和告警管理,幫助客戶進行整體云上規劃。統一管
153、控:未來業務上云后,可以滿足不同業務之間的權限與財務隔離需求,并方便統一管理。更加穩定:依靠阿里云 IaaS 產品的穩定性和基于體系化的上云設計,幫助商龍規避風險,提高業務連續性。提升效率:從每個賬號內的日志和安全配置單獨運維,到統一納管和集中式管理,可以極大地提高運維效率。建設成果客戶證言相關產品1容器服務 ACK2企業上云框架 Landing Zone 解決方案企業管理賬號CoreApplication事業部2生產賬號B測試環境測試賬號生產集群-B測試賬號日志賬號共享服務賬號運維賬號事業部1生產賬號A生產集群-A安全賬號應用1-NS應用3-NS應用2-NS應用4-NS云上多賬號管理Core
154、 OU日志賬號業務線1賬號 A賬號 B業務線2Application OU企業管理主賬號資源目錄-RootSLS服務日志賬號ECS/云產品賬號 AECS/云產品賬號 B72商龍科技容器化上云,保障業務穩定運行客戶簡介萬興科技致力于為全球用戶提供 Windows、Mac OS X、iOS、Android 等諸多平臺系統上的各種應用工具產品與服務,先后在深圳、東京設立產品與研發中心,在溫哥華、東京、香港設立品牌與市場營運中心,著力布局全球市場??蛻敉袋c隨著萬興業務的快速增長,以及云化的逐步加深,系統面臨著多方面的挑戰。其中包括:因此,現有架構亟需進行云原生升級,以滿足業務的持續發展?!霸陧椖窟^程中
155、,項目團隊充分體現了阿里的專業素養與精神,高效高質的完成了項目交付,使萬興的技術架構往云原生化方向邁進了堅實的一步?!比f興科技/Landing Zone&咨詢73方案亮點系統利用率低:資源利用率較低,缺乏有效的提升手段。彈性能力不足:基于虛擬機級別的彈性能力無法滿足業務需求。架構可擴展性不足:當前架構的可維護性和可擴展性面臨諸多問題。提供完善的容器化標準與規范,幫助客戶應用全面容器化打好了基礎。幫助客戶滿足長期業務發展的需求,通過設計云上容器集群架構,提升彈性能力和可擴展性?;诓煌瑯I務場景為客戶設計了 DevOps 鏈路,結合容器化,使客戶能夠快速實現全面的云原生技術升級。幫助客戶統一云原生
156、技術設施,并進行可觀測體系設計??蛻糇C言相關產品1容器服務 ACK2容器鏡像服務 ACR 4Prometheus 監控服務5容器化交付服務3應用實時監控服務 ARMS74AppOps SREAdmin Developers管理人員RAM Users/RolesEIP萬興ACK Cluster集群架構說明KubernetesAPI 接口 直接管控集群,部署,操作等阿里云存儲服務NASOSS云盤內網 SLBIngressIngress 2Namespaceservice-1pod-1pod細節pod-1pod-2deployment-1deployment-2DaemonSetLogtailMas
157、ter Node 3個,有阿里云提供ECS 實例-Worker 節點空閑作為容災和容量保證可用區1推送日志Namespace其他NS,按照需求創意service,deployment等deployment-3pod-3pod-4pod-1pod-npod-nnetworkpolicy 隔離service-2service-3service-n灰度環境Ingress 1VPC-SZVPC-GGVPC-FLKFapiCSI存儲插件入口Logtail日志收集ARMS插件Terway網絡插件ACR免密插件GrafanaACR 容器倉庫企業版SLS日志服務云監控基礎設施層監控PrometheusARMS
158、+Prometheus推送日志推送日志JenkinsECS 實例-Worker 節點可用區2可用區3PV 存儲卷提供聲明業務用存儲PVC存儲聲明日志等臨時存儲臨時存儲卷app容器sidecar容器其他容器萬興科技應用容器化改造實現云原生轉型升級附錄產品介紹阿里云容器服務 Kubernetes 版(Alibaba Cloud Container Service for Kubernetes,簡稱容器服務 ACK)是全球首批通過 Kubernetes 一致性認證的服務平臺,提供高性能的容器應用管理服務,支持企業級 Kubernetes 容器化應用的生命周期管理,讓您輕松高效地在云端運行 Kuber
159、netes 容器化應用。12345678910DevSecOps:DevSecOps 是指先在應用程序開發的生命周期中引入安全性,從而盡可能地減少漏洞并使安全性更接近 IT 和業務目標。DevSecOps 帶來了文化轉型,使安全成為開發軟件的每個人的共同責任。PAI-EAS:阿里云機器學習平臺 PAI 的模型在線預測服務(Elastic Algorithm Service)。lite-kubelet:裁剪后的 kubelet,資源占用率極低,且使用了新的云邊通信協議 MQTT,能耗更低。適合運行在弱網情況,在資源受限的設備上運行,可以為業務騰挪出更多的計算資源。云效 AppStack:云效 A
160、ppStack 是以應用為中心的云原生應用交付平臺,提供對開發者友好的應用編排、環境管理、部署運維、資源管理、應用發布等一站式應用交付能力,幫助企業建立應用持續交付整體解決方案,加速企業云原生與 DevOps 轉型,提升團隊研發效能。SLO:Service Level Objectives,差異化 SLO,是阿里巴巴 Koordinator 實現的基于 QoS 的 Kubernetes 混合工作負載調度系統的核心能力,旨在提高對延遲敏感的工作負載和批處理作業的運行時效率和可靠性,簡化與資源相關的配置調整的復雜性,并增加 Pod 部署密度以提高資源利用率。Access log:是 Apache
161、或者 Nginx 等 Web Service 生成的日志,對應于網頁的每一次請求,包含有大量的信息,分析好 Access log 可以對網站的運行情況有一個整體的認識,在出現問題的情況下,也可以通過對 Access log 的數據分析結果,大致定位出問題所在。Tracing:是鏈路追蹤,是請求級別的追蹤,在分布式系統中可以看到請求在各個模塊的延時、分析性能瓶頸。Metrics:是一款監控指標的度量類庫,提供了許多工具幫助開發者來完成各項數據的監控。DDoS:全稱為 Distributed Denial of Service,分布式拒絕服務攻擊,這種網絡攻擊形式嘗試用惡意流量淹沒網站或網絡資源,
162、從而導致網站或網絡資源無法正常運行。ATT&CK:全稱是 Adversarial Tactics,Techniques,and Common Knowledge(ATT&CK),它是一個站在攻擊者的視角來描述攻擊中各階段用到的技術的模型,多用于模擬攻擊、評估和提高防御能力、威脅情報提取和建模、威脅評估和分析。容器服務 ACK:https:/ ACK One(Alibaba Cloud Distributed Cloud Container Platform)是阿里云面向混合云、多集群、分布式計算、容災等場景推出的企業級云原生平臺。分布式云容器平臺 ACK One:https:/ ACR(Ali
163、baba Cloud Container Registry)是面向容器鏡像、Helm Chart 等符合 OCI 標準的云原生制品安全托管及高效分發平臺。容器鏡像服務 ACR:https:/ ACKEdge)是一款提供標準 Kubernetes 集群云端托管,支持邊緣計算資源、業務快速接入、統一管理、統一運維的云原生應用平臺,能夠幫助您輕松實現云邊一體化協同。邊緣容器服務 ACKEdge:https:/ ARMS(Application Real-Time Monitoring Service)是一款阿里云應用性能管理(APM)類監控產品。借助本產品,您可以基于前端、應用、業務自定義等維度,迅
164、速便捷地為企業構建秒級響應的應用監控能力。應用實時監控服務 ARMS:https:/ PTS(Performance Testing Service)是一款簡單易用,具備強大的分布式壓測能力的 SaaS 壓測平臺。PTS 可以模擬復雜的業務場景,并快速精準地調度不同規模的流量,同時提供壓測過程中多維度的監控指標和日志記錄。性能測試 PTS:https:/ Prometheus 監控全面對接開源 Prometheus 生態,支持類型豐富的組件監控,提供多種開箱即用的預置監控大盤,且提供全面托管的 Prometheus 服務。Prometheus 監控服務:https:/ Landing Zone
165、 解決方案:https:/ High Availability Service)是一款專注于提高應用高可用能力的 SaaS 產品,包含流量防護、故障演練、功能開關和多活容災四大獨立的功能模塊。應用高可用服務 AHAS:https:/ ASM)是一個統一管理微服務應用流量、兼容 Istio 的托管式平臺。服務網格 ASM:https:/ 容器服務 ASK 是一款基于阿里云彈性計算基礎架構,同時完全兼容 Kubernetes 生態,安全、可靠的容器產品。Serverless 容器服務 ASK:https:/ Nacos/ZooKeeper/Eureka)、云原生網關(原生支持 Higress/Ng
166、inx/Envoy,遵循 Ingress 標準)、微服務治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服務治理規范)能力。微服務引擎 MSE:https:/ Kubernetes 容器服務 ACK。經過 7 年發展,阿里云容器服務產品線已成為企業的云原生操作系統?;诎⒗镌迫萜髌脚_,阿里集團實現了100%業務云原生上云。2021 年,阿里云發布了 ACK Anywhere,進一步拓展產品的寬度,覆蓋從公共云、邊緣云、到本地數據中心的各個場景。讓所有需要云能力的地方,都能基于統一的容器基礎設施之上。云服務 IPv6 支持度測評工信部電子標準研究
167、院開源項目成熟度評估信通院云原生安全成熟度模型最高等級認證信通院云原生技術架構成熟度模型最高等級認證Gartner 評價阿里云應用實時監控服務 ARMS 與 Prometheus 監控服務:阿里云是中國最大的云服務提供商阿里云用戶可以使用云上監控工具來滿足其可觀測性需求。得益于云上客戶和阿里集團的大規模容器應用實踐,阿里云容器產品能力得到業界廣泛認可:容器服務 ACK微服務引擎 MSE2022 國內唯一入選 Gartner APM 與可觀測魔力象限應用實時監控服務 ARMS 與 Prometheus 監控服務中國影響力最強阿 里 云 非 常 重 視 將 開 源 標 準 和 產 品(例 如 Pr
168、ometheus、Grafana、Opentelemetry 等)集成到其平臺中。開源集成與在阿里云上使用第三方 APM 產品或開源自建相比,阿里云一方產品 ARMS 監控具有更高的成本效益。價格優勢2021年成為國內唯一連續三年入選 Gartner 公共云容器報告的產品2022年1季度在權威咨詢機構 Forrester 發布的全球公共云容器平臺分析師報告中,ACK 穩居全球領導者象限,這也是中國科技公司首次進入該象限2022年2季度在 Omida 發布的全球容器管理解決方案報告中,由于在公共云、專有云、混合云等環境完善的產品體系,ACK 成為全球領導者,產品能力與規模國內領先2022年8月在
169、 CSDN 2022中國開發者調查報告中,有52%的國內開發者選擇阿里云容器云平臺Forrester 公共云容器平臺Q1/22全球領導者Omdia 容器管理方案Q2/22全球領導者CSDN 2022中國開發者調查報告52%開發者選擇阿里云容器云平臺阿里云騰訊云華為云百度云圖標58 容器云平臺使用情況Top 5(調查項為多選)未使用,自建容器平臺52%22%19%12%10%相比注冊配置自建性能可提升40%線上變更風險可降低80%相比傳統網關性能可提升90%微服務落地周期可縮短30%GartnerMagic QuadrantFigure 1:Magic Quadrant for Application Performance Monitoring and ObservabilitySource:Gartner(June 2022)