騰訊云&ampampInfoQ研究中心:2024年騰訊云云原生提質增效實踐精選集(81頁).pdf

編號:614028 PDF  DOCX 81頁 9.54MB 下載積分:VIP專享
下載報告請您先登錄!

騰訊云&ampampInfoQ研究中心:2024年騰訊云云原生提質增效實踐精選集(81頁).pdf

1、22024 騰訊云云原生提質增效實踐精選集本報告版權屬于騰訊云計算(北京)有限責任公司和 InfoQ 極客傳媒,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:騰訊云計算(北京)有限責任公司和 InfoQ 極客傳媒”。違反上述聲明者,將追究其相關法律責任?!景鏅嗦暶鳌俊緟⑴c編寫單位】騰訊云計算(北京)有限責任公司InfoQ 極客傳媒2024 騰訊云云原生提質增效實踐精選集3卷首語在數字化浪潮洶涌澎湃的當下,云原生技術正以前所未有的速度重塑著整個 IT 行業的格局。從微服務架構的廣泛應用,到容器化技術的深入人心,再到服務網格、不可變基礎設施等概念的興起,云原生憑借其

2、卓越的靈活性、可擴展性和高效性,成為推動企業數字化轉型的關鍵引擎。它不僅為數字原生企業提供了強大的技術支撐,更助力傳統企業突破既有束縛,實現業務創新與升級。憑借自身在云計算領域的深厚積累與技術實力,騰訊云從大規模自研上云的實踐出發,逐步將云原生技術成果向行業輸出,取得了顯著的成效與收益。歷經數年沉淀,騰訊自研業務如 QQ、微信、王者榮耀、騰訊會議等,已全面上云并完成云原生改造,集群規模突破 5000 萬核,累計節省成本超 30 億元。在此過程中,騰訊云攻克了諸多技術難題,積累了豐富的實踐經驗,并將這些經過大規模實踐驗證的云原生技術與解決方案,毫無保留地開放給百萬級外部客戶,助力金融、游戲、企業

3、服務、智能制造、教育等諸多行業實現業務的快速上云與云原生化改造,涌現出一大批提質增效的最佳實踐案例。為了將這些珍貴的實踐經驗分享給行業,我們精心梳理、提煉并整理成這本2024 騰訊云原生提質增效實踐精選集。書中的每一個案例,都是企業在數字化轉型過程中真實經歷的挑戰與突破,涵蓋了容器服務、中間件、云開發、低代碼、可觀測等多個云原生關鍵領域。我們希望通過這些詳實的案例,為廣大同行提供參考與借鑒,助力大家更好地理解云原生技術的應用場景與價值,激發更多創新思維與靈感,攜手加速產業數字化轉型的進程!42024 騰訊云云原生提質增效實踐精選集目錄CONTENTS容器服務中間件云開發 01 02 03更高效

4、能來自更優選擇,TKE 助力貝殼提質增效維穩降本,小鵝通容器集群計算資源的調控實踐趣丸科技基于 TKE 集群的高效混部實踐 FiT 基于騰訊云消息隊列 TDMQ Pulsar 版在在線高并發場景的最佳實踐騰訊云分布式消息隊列 CKafka 一站式搭建數據流轉鏈路,助力長城車聯網平臺降低運維成本業務高速增長,如祺出行如何用騰訊云消息隊列 RocketMQ 應對挑戰5 天完成一個百萬級營銷活動?沃爾瑪、瑞幸咖啡、蒙牛都在用騰訊云開發!1.11.21.32.12.22.33.1071015212632392024 騰訊云云原生提質增效實踐精選集5低代碼可觀測 04 05揭秘智慧浦東機場的低代碼創新建

5、設與落地經驗 實現銷售業績增長,他用騰訊云微搭低代碼做了個樓盤 SCRM 小程序騰訊云可觀測平臺如何為新能源車企緩解焦慮騰訊云撥測助力頭部跨境電商平臺優化用戶體驗騰訊云 RUM 和 APM 幫助微購建設前后端一體化監控平臺騰訊云 RUM 守護喜茶小程序4.14.25.15.25.35.444475063687562024 騰訊云云原生提質增效實踐精選集01容器服務2024 騰訊云云原生提質增效實踐精選集7更高效能來自更優選擇,騰訊云容器服務 TKE助力貝殼提質增效 公司簡介貝殼找房是國內領先的居住產業數字化服務平臺,致力于推進居住服務的產業數字化、智能化進程,通過聚合、助力優質服務者,為中國家

6、庭提供包括二手房交易、新房交易、租賃、家裝、家居、家服等一站式、高品質、高效率服務。作為國內最大的房產中介平臺,貝殼一直對新的 IT 技術保持著非常高的熱情。相比于那些不敢用、不會用的企業,貝殼在做云原生技術架構的改造前,內部就已經進行了容器化改造,并且與騰訊云 TKE 有一些小規模合作。實際上,貝殼與騰訊云的合作最早可以追溯到 2018 年,在貝殼找房的前身,鏈家網在嘗試互聯網業務時,鏈家建立了自己的數據中心,并選擇了騰訊的公有云作為輔助,主要利用其彈性能力來滿足需求。但是當時主要集中在基礎設施即服務(IaaS)層面,騰訊作為公有云供應商,幫助鏈家網解決計算虛擬機、存儲和帶寬等問題。業務挑戰

7、貝殼找房成立后,公司業務實現了井噴式增長,這也帶來了研發人員的大幅增加。隨著公司上市,人員和流量的進一步增長82024 騰訊云云原生提質增效實踐精選集給基礎設施帶來了諸多挑戰?!耙驗槲覀冊诨A設施做建設的時候,其實是有些預判,比如我們做運維的人經常說我們公司如果增長 3 倍,我們的架構應該怎么去適配?如果增長 10 倍,又該怎么適配?我不能拍腦袋去考慮增長十倍甚至二十倍甚至一百倍的方式,因為這本身也是一種成本浪費?;诖宋覀冮_始了跟騰訊云在容器化方面的合作?!必悮ぴ萍夹g中心系統研發部高級經理楊菁偉提到。但一開始在容器化方面,貝殼用的是 TKE 普通節點,本質上是在虛擬機上部署一些托管的 K8s

8、 能力,效果并不明顯。解決思路2023 年初,貝殼打響了云原生攻堅戰,提出了“4321”的技術口號,其中 4 指的是計算集群利用率提升到 40%?!叭萜骰驮圃?,是提升利用率,尤其是提升在線業務利用率的一個技術達成路徑?!睏钶紓ケ硎?。很快,貝殼接入了騰訊云 TKE 的原生節點,其核心還是怎么彈性擴縮容,自動化部署以及提高已有資源的利用率。TKE 原生節點幫助貝殼解決了三個核心問題:首先是 Request 配置。在創建 K8s 集群的工作負載時,通常需要配置合適的資源,Request 是下限,指的是容器需要保留的最小資源量;limits 是上限,一個容器使用的最大資源量。以前都是客戶根據經驗自

9、己配置,很容易估不準,大家習慣將申請量設置得較大,造成資源閑置,這是一個非常普遍的現象。騰訊云 TKE 原生節點的“成本大師”推出了 Request 智能推薦工具,可以通過分析客戶業務實際利用率和歷史數據,給客戶推薦最合適的 Request 配置,確保資源得到合理利用。其次,在節點放大之后,容易遇到穩定性問題,考驗 TKE 資源如何調度。比如 K8S 集群有時會出現調度不均,某些節點負載過高,而其他節點負載又很低。人工調度往往不及時,也很麻煩。騰訊云 TKE 原生節點,支持根據客戶節點的實際負載進行智能調度。包括支持“節點動態放大”,根據實際需求,自動增加 CPU 和內存資源。三是在線和離線業

10、務能否混合部署。在線業務對資源的要求高,但變化會比較明顯,離線業務便靜態,及時性不高。要想集群 24 小時運轉,就需要把在線和離線業務混在一起運行。同時,騰訊云 TKE 在內核層面實現資源隔離,允許高低優任務共存,高優任務可搶占低優資源,確保在線業務不受影響。2024 騰訊云云原生提質增效實踐精選集9 落地效果及未來展望最終,在 TKE 原生節點的支持下,貝殼的資源利用率從 23 年年初的峰值不到 25%,到年底提升到了 40%?!叭萜鞑皇墙K點,它其實是一切的起點?!睏钶紓フf,容器化為貝殼真正邁向云原生打下了基礎,未來將推進兩件事:一是讓自建的容器逐漸遷移到公有云的底座上,增加騰訊云 TKE

11、在貝殼的算力供給比重;二是針對應用以外的組件進行云原生的適配,實現數據的云原生和緩存的云原生等。102024 騰訊云云原生提質增效實踐精選集維穩降本,小鵝通容器集群計算資源的調控實踐 公司簡介小鵝通是一家以知識產品與用戶服務為核心的技術服務商,創始至今已服務逾百萬家客戶?,F如今,私域運營正在逐漸成為數字化經營的重要手段,并助推企業的業務升級和組織建設升級。小鵝通作為私域運營的一站式工具,解決產品和服務交付、營銷獲客、用戶運營、組織角色管理、品牌價值輸出等痛點并形成閉環,扎根多個行業與生態,可在企業經營過程中發揮重要作用,成為企業數字化經營的好幫手。業務挑戰多模型、高體量的業務場景給小鵝通帶來了

12、極大的并發挑戰,如何在完成資源保障的基礎上進一步維穩降本成為難題。2024 騰訊云云原生提質增效實踐精選集11 解決思路集群資源調控:Serverless+常駐節點高效利用受業務場景(如直播)及龐大用戶量影響,小鵝通集群資源存在明顯規律的波峰波谷現象,集群資源差值達 100%以上,集群閑時資源冗余明顯。為了解決這一問題,小鵝通開始嘗試與騰訊云合作?!耙驗槲覀兊钠髽I價值觀是客戶第一,所以在做云產品選型時,我們會優先選擇一些比較有實力的,之前有過相關場景落地的云廠商,這樣其實我們的接入成本會更低;另外一個考慮點是技術團隊實力以及服務支持響應的速度。像 TKE 它其實在業內是比較與時俱進的一個云產品

13、,比如說它的 K8s 版本在 24 年 8 月已經更新到 1.30 了?!毙※Z通容器負責人張安哲表示。選擇跟騰訊云合作之后,小鵝通開始衡量騰訊云 TKE 常駐節點和 Serverless 超級節點如何選擇。第一階段,小鵝通將 TKE 常駐節點與超級節點進行了初步結合。張安哲表示:“我們原來是CVM的一個場景下,遷到容器這邊,成本這塊的支出的情況下有較大幅度做到一個降低,50%以上。后續就是基于騰訊這些的能力以及K8s能力在這個基礎上進一步降低了20%左右。其中相當一部分能力是通過Crane進行的,另外一部分能力是通過超級節點進行的?!薄霸谌萜骼锩媸紫仁菢I務能穩定的運行,基于這個業務穩定的條件,

14、那我們在想能不能業務穩定的情況下,我們能把云資源對應的一個成本進一步的壓縮。這其實是在我們完成容器化之后進一步思考的問題?!睆埌舱鼙硎?。在對超級節點與常駐節點的計費規則做了深入研究之后,小鵝通開始基于業務情況,尋找二者的黃金配比。Serverless 核心計費規則a.較大原則:max(max(containerLimit),sum(containerRequest)b.升格原則(CPU 為例):3C(使用)-4C(計費),6C(使用)-8C(計費)常駐節點核心計費規則(節點核數*Crane 放大系數-系統組件核數)/CPURequest如何計算出二者的黃金配比”?122024 騰訊云云原生提質

15、增效實踐精選集最終,通過對常駐階段與超級節點進行黃金配比,想同用量之下,成本再降低 12+%。服務資源調控:HPA+HPC 調控解決成本問題場景 1:直播帶貨 痛點:商家數字化轉型,將線下龐大流量帶到線上;直播間講解完商品后,發出商品鏈接搶購,都將導致瞬時間成百上千倍流量涌入系統,造成極大的壓力。解決方案:通過固定 HPC 擴容+HPA 回收,實現高峰期整體資源保障。場景 2:KA 保障 痛點:在 B 端場景下,長尾效應明顯,單租戶的流量比重會占到整個系統的大部分流量,與此同時 KA 客戶時間段不固定,因此需要對 KA 客戶進行特殊保障,助力用戶體驗順暢。2024 騰訊云云原生提質增效實踐精選

16、集13 解決方案:通過商家報備時間段 HPC 擴容+HPA 回收,實現閑時 KA 資源保障。盡管通過上述方案,能夠確保特定場景的資源保障,但是仍然存在大量 HPA/HPC 維護導致人力成本較高、集群利用率低下、云資源成本陡增等問題。小鵝通結合業界經驗與生產經驗,經過大量背景搜集及多次試點后,最終落地容器計算資源標準并執行。張安哲表示:“其實小鵝通的直播場景、體量問題,更多還是要通過集群資源保障去解決,比如你的超級節點以及對應原生節點的配額能否滿足業務需求,另外就是底層 DB 是否支持。容器能支持到的能力,第一個是扛住它對應的類似秒殺場景,帶來的突刺。這種場景,如果說是放在傳統的 HPA 下,它

17、其實是不太適用的,我們之前也計算過,超級節點對應的一個擴容能力,它的準備時間以及資源對應的一個分配時間加起來就要 30 秒,但是我們進入直播間可能最快一分鐘進來很多的用戶。針對這個問題,行業內通用做法是給它定時加對應的 HPC。但是,這么多的 HPC 你要如何進行一個管理?因為我們不同的時間段有不同的高峰,如果全天按最高的需求量先給它去囤對應的資源,很明顯會帶來浪費。后面基于業務穩定的情況下,我們自研了一套能自動調控 HPC 對應的算法程序。進一步降低我們運維成本?!?42024 騰訊云云原生提質增效實踐精選集 落地效果及未來展望通過上述解決方案的落地與持續優化,小鵝通最終實現:復合容器資源云

18、成本降低 20%+集群整體利用率較上限提升 20%日常容器資源維護人力成本降低 50%冗余容器資源維護人力成本降低 90%面向未來,小鵝通將持續探索容器化在特定場景的應用優化,如精細化 HPC 時間段調控、精細化規格/配置調控、引入事件驅動擴縮容、拓展更多實用場景等,以此更進一步助力業務降本增效。2024 騰訊云云原生提質增效實踐精選集15趣丸科技基于騰訊云容器服務 TKE 集群的高效混部實踐 公司簡介趣丸科技成立于 2014 年,是中國領先的國家高新技術企業,形成了集興趣社交、人工智能、電子競技等業務于一體的多元業務矩陣。公司拳頭產品 TT 語音是國內領先的興趣社交平臺,累計注冊用戶已超 2

19、 億。并成為英雄聯盟職業聯賽(LPL)、王者榮耀職業聯賽(KPL)、和平精英職業聯賽(PEL)等五大頭部電競職業賽事官方合作伙伴。趣丸科技堅持創新驅動,已構建全棧式 AI 交互技術產業生態,在數智人、智能視聽、三維生成、AI 音樂等領域均有落地應用。聚焦興趣社交領域的深厚積累為核心優勢,積極瞄準全球數字技術基礎前沿領域和關鍵核心技術的研發和創新。業務挑戰問題:趣丸科技全網主機 CPU 利用率不到 10%。一方面,公司業務誕生于云且在云環境中發展,這使得底層能力的實現受到一定限制;同時,其直播業務對穩定性有著極高要求,與之對應的是,在這種情況下,系統的隔離能力必須足夠強大,以保障直播業務的穩定運

20、行。另一方面,公司離線業務擁有獨立的 Spark 集群,這就需要在混部技術中兼容離線業務原有的模式,從而更好地優化整體資源利用,提升全網主機 CPU 利用率。解決思路 依托于云,擁抱社區 調度優先、隔離為輔助的總體方案;集群級調度優:TTSet 混部調度系統 節點級隔離:TencentOS Server圖片:趣丸科技的混部三層架構162024 騰訊云云原生提質增效實踐精選集TTSet 架構tt-agent:以 DaemonSet 的方式部署到 Kubernetes 每一個 Node 節點上,主要功能有采集數據、上報數據、干預 Pod。tt-scheduler:基于 scheduler-fram

21、ework 開發,實現多種調度策略。tt-webhook:admission webhook,主要在 Pod 創建前修改參數,如資源壓縮、節流參數注入等TTSet 資源模型調度策略1.基于真實負載感知的調度2.離線資源壓縮3.資源熱點遷移與過載干預4.基于優先級的驅逐算法5.基于最晚運行時間的調度2024 騰訊云云原生提質增效實踐精選集17黃金補充表示:“基于直播場景,我們其實遇到最多的就是流量峰值問題,很多時候做活動它可能在一瞬間就會把整個的用戶量涌進來,所以我們最開始選型的時候要考慮到極致的伸縮性能,我們會有一堆的伸縮策略,基于定時的或者基于消息隊列的、基于具體的信號的,比如在開播之前我能

22、夠迅速的利用 TKE 集群直接彈出四五臺機器,這樣在結束之后我能迅速的去回收掉。這個里面就會遇到一些問題,除了我們在資源層做準備,其實如果你擴容了就意味著你的整個應用的面向 DB 中間件的這個連接池會大量的增長,對應的中間件和 DB 能不能扛???這也是在做架構的時候或者是做這種伸縮的時候都要考慮的問題,有可能你把應用層彈起來了,但是整個 DB 層都崩了?!备綦x能力“因為我們是直播業務,直播對這種時間、故障會比較敏感,尤其是在業務高峰期,很多業務,如果你告訴他你要做混部,他可能第一時間提的就是你會不會影響我,所以在這里你首要解決的就是你怎么保證好隔離性?!秉S金表示。針對這一需求,趣丸科技基于騰訊

23、云 TKE 原生節點與 TencentOS Server 構建了強大的隔離能力:云原生節點是騰訊云 TKE 容器服務團隊面向 Kubernetes 環境推出的全新節點類型,依托騰訊云千萬核容器運維的技術沉淀,為用戶提供原生化、高穩定、快響應的 K8s 節點管理能力。TencentOS Server 是騰訊云針對云的場景研發的 Linux 操作系統,提供特定的功能及性能優化,為云服務器實例中的應用程序提供更高的性能及更加安全可靠的運行環境182024 騰訊云云原生提質增效實踐精選集超級節點超級節點是騰訊云全新升級的節點產品形態,向用戶提供可用區級別的、支持自定義規格的節點能力。相比節點池及伸縮組

24、,按量計費的超級節點超級節點簡化了擴容和縮容流程提高了彈性效率:擴容:按量計費超級節點將常規擴容流程縮短至秒級,擴容流程更高效??s容:按量計費超級節點的縮容流程短規避了 CA 流程、封鎖流程及 Pod 驅逐流程,完全做到了無損縮容,瞬時縮容。2024 騰訊云云原生提質增效實踐精選集19 落地效果及未來展望通過基于 TKE 集群的混部實踐,趣丸科技將全網主機 CPU 利用率從 8%提升到 50%以上,并且實現了離線集群完全復用在線資源。未來,趣丸科技將堅持“立足業務、依托于云、合作共贏”的技術路線,持續探索云原生在社交娛樂場景的創新應用。202024 騰訊云云原生提質增效實踐精選集02中間件20

25、24 騰訊云云原生提質增效實踐精選集21FiT 基于騰訊云消息隊列 TDMQ Pulsar 版在在線高并發場景的最佳實踐 關于 FiT騰訊金融科技(Tencent Financial Technology)是騰訊公司提供移動支付與金融服務的綜合業務平臺。業務領域包括移動支付、投資理財、民生服務和國際化等,作為支付業務的基石和底座,FiT 致力于建設和發展完善的支付平臺能力,在微信支付、QQ 錢包等移動支付產品中持續進行功能和服務創新。業務挑戰FiT 在日常的交易流程中,如信用卡、話費充值、自選股等業務中,需要通過消息中間件來實現上游和下游銜接,以實現廣播、過濾、延遲推送等場景。同時由于 FiT

26、 均是交易類場景,對消息產品的高并發、容災有非常高的要求。比如,在可預期的業務高峰期時,對消息隊列集群進行快速擴容;在非預期的可用區故障時,其余可用區可以正常提供服務,保障交易業務的流暢性。于是 TDMQ Pulsar 版進入了 FiT 的消息隊列技術選型范疇。222024 騰訊云云原生提質增效實踐精選集 解決思路騰訊云 TDMQ Pulsar 版是基于 Apache Pulsar 自研的消息中間件,具備極好的云原生和 Serverless 特性,計算存儲分離的架構使其在擴縮容方面具備良好的底層優勢。在完全兼容社區版的基礎上,TDMQ Pulsar 版還提供了重試&死信隊列、消息標簽過濾、消息

27、軌跡等高級特性。TDMQ Pulsar 版由于其存算分離的架構,對于計算密集型的業務場景,僅需要添加計算層 Broker,自動進行 Rebalance;對于海量消息堆積,存儲不足時,添加新的 BK 節點即可。在容災支撐方面,TDMQ Pulsar 專業集群支持 3AZ 跨可用區部署,以確保發生可用區故障時,也能正常提供服務;同時還提供了跨地域冷備功能,支持快速切換接入點解析,實現無需客戶端修改接入點地址,而實現跨地域的容災方案,保障業務的延續性。在場景支撐方面,TDMQ Pulsar 版承載了騰訊計費、中國銀行等金融場景下的核心交易鏈路。從各方面來說,都非常匹配 FiT 的需求。FiT 基于

28、Pulsar 的消息中間件的具體實踐如下:標準模型-發布訂閱第一類使用場景,是標準的 pub-sub 模式,生產者生產一條消息,任意一個消費者成功消費即可。在部署方面,客戶端的生產者和消費者均解耦部署。2024 騰訊云云原生提質增效實踐精選集23限定模型-消息標簽過濾+自動創建訂閱第二類場景,限定模型,是使用了 TAG 消息過濾的方式,限定消息只能在某一個客戶端消費。FiT 采用單元化(SET)架構。在該場景中的業務消息,會按照一定的規則(如 UIN 等)進行分片,并要求消息限定在某個目標 SET 中消費。如上圖所示,SET 1 中生產者生產消息時,給消息打上SET 1的 TAG;消費時,僅消

29、費有SET 1TAG 的消息。另外,Pulsar 可以支持自動創建訂閱,FiT 使用該能力實現了一套插件,將 SET 做為環境變量注入到啟動容器中,這樣實現方式極大的方便了業務自定義配置要消費的消息,僅需要調整環境變量即可,而不需要改動業務代碼。擴散模型第三類場景,擴散模型。在消息生產消費比例為 1:N 時,需要將業務請求,異步擴散到其他的多個消費者限定范圍中。242024 騰訊云云原生提質增效實踐精選集基于自動創建訂閱的功能,FiT 插件實現在同一個 Topic 下創建多個訂閱,靈活的根據業務需求來定義下游消息的客戶端。消息(跨集群)復制在消息容災場景下,FiT 基于消息復制組件,配置消息復

30、制關系,自動將消息復制到對端的 Pulsar 集群。同一個復制對象,在不同地域的兩個集群中名稱需要保持一致,包括 Topic 名稱、角色名稱及相應的密鑰等。如此,可保障當其中一個地域發生故障時,通過接入層的流量調度,將流量調度至另外一個集群。2024 騰訊云云原生提質增效實踐精選集25 落地效果及未來展望得益于 TDMQ Pulsar 版高吞吐、低延遲的能力,FiT 金融產品業務遷移到 TDMQ Pulsar 版后,消息從生產者到消費者的耗時縮短了大約 80%,消息積壓情況大大緩解,積壓數量減少了 70%。TDMQ Pulsar 版延遲消息作用于消息維度,方便業務根據自身場景對每條消息設置不同

31、的延時時間,如延遲通知、延遲核對等。TDMQ Pulsar 運維簡單,業務高峰期需要集群擴容時,在控制臺一鍵點擊升配即可,業務層無感。TDMQ Pulsar 技術支持專業迅速,及時響應業務需求解決 FiT 業務場景的痛點,如支持接入外部監控、支持靈活的消息過濾功能,較好地支撐了 FiT 業務。下一步,FiT 金融產品業務將繼續切量至 TDMQ Pulsar,預計 2024 年基本完成遷移。并且 FiT 由于承載了微信支付、銀行等國民級支付產品,計劃在未來實現多個自建機房的條帶化部署,屆時 TDMQ Pulsar 也將屬地化部署(私有化部署),并作為其交易業務的核心鏈路。同時,TDMQ Puls

32、ar 版將繼續打磨產品能力,服務好包含 FiT 在內的廣大用戶,近期我們將推出以下新功能:接入外部監控 Prometheus:支持將專業集群的監控數據,接入自建的 Prometheus,利于用戶觀測的同時,可以通過監控數據對業務 Workload HPA,使得線上運維更加自動化。消息標簽過濾支持更靈活的表達式:提供更加靈活的消息標簽過濾表達式配置,簡化業務側的架構設計和數據鏈路。更加豐富的應用觀測指標:提供更多更豐富的集群性能觀測指標,便于客戶及時排除業務鏈路風險,準確定位異常位置。262024 騰訊云云原生提質增效實踐精選集騰訊云分布式消息隊列 CKafka 一站式搭建數據流轉鏈路,助力長城

33、車聯網平臺降低運維成本 企業簡介長城汽車是一家全球化智能科技公司,業務包括汽車及零部件設計、研發、生產、銷售和服務,旗下擁有哈弗、魏牌、歐拉、坦克及長城皮卡。2022 年,長城汽車全年銷售 1,067,523 輛,連續 7 年銷量超 100 萬輛。長城汽車面向全球用戶提供智能、綠色出行服務,加速向全球化智能科技公司進階,智能化車型滲透率達 86.17%,車聯網作為智能化兩大應用方向之一,在這個過程中快速發展。長城車聯網平臺涵蓋車內總線數據上報、遠程、車機配置下發、推送文件、推送消息、運營關懷等全新車聯網業務,實現車機端和業務平臺解耦并高效完成業務對接整合。主要場景包括:車端數據上報電機、位置、

34、發動機、整車數據、電池,報警等,通過 tbox 上報車聯網平臺,針對上報數據進行實時數據處理、計算、推理,以便提供車況查詢、告警等智能化服務。遠程控制手機 APP/智能設備集成車聯網平臺能力,實現遠控、診斷。以下是車聯網平臺架構圖(示意)。2024 騰訊云云原生提質增效實踐精選集27 業務挑戰車聯網平臺目前已接入數百萬輛車,峰值在線達百萬輛。車端上報信號數據量大、上傳頻率高,數據呈爆炸式增長,海量數據實時處理與分析面臨嚴重挑戰。對系統提出以下要求:1)處理時效要求高查詢時效性、分析決策、監控告警2)數據量大,穩定分布式、平行擴展、低耦合、高可用性、數據安全物聯網設備通常性能比較弱,很難去使用流

35、行的傳統的消息中間件?;旧?IOT 設備里面,都是用 MQTT 來去做消息的傳輸。但 MQTT 存在以下缺點:只是排隊,而不是流處理 無法處理使用量激增(沒有緩沖)大多數 MQTT 代理不支持高可伸縮性 異步處理(通常脫機很長時間)缺乏與企業其他部分的良好集成 單一基礎設施(通常位于邊緣)不能對事件進行再處理只有 MQTT 數據有可能來不及處理就被丟掉,同時也滿足不了海量數據實時處理與分析帶來的挑戰。解決思路作為分布式消息隊列的 Kafka,因多分區、零拷貝、批處理、順序讀寫等設計和特性能夠實現高吞吐量的數據處理。同時作為一個事件流平臺,它結合消息傳遞、存儲和數據處理來構建高度可伸縮、可靠、

36、安全和實時的基礎設施。從車聯網的角度來看具有以下優點:282024 騰訊云云原生提質增效實踐精選集 流處理,不僅僅是排隊 高吞吐量 大規模的 高可用性 長期存儲和緩沖 再處理的事件 與企業的其他部分良好集成Kafka 和 MQTT 的結合是構建可伸縮、可靠和安全的車聯網基礎設施的天成之選,因此長城車聯網平臺選擇 Kafka 作為數據處理核心組件。MQTT 的 Broker 集群后對接 Kafka 集群,先通過 MQTT 從設備采集數據,采集后再轉儲到 Kafka,供后續引擎分析處理。即使處理的速度沒有采集的速度快,數據也不會丟失,因為已轉儲到 Kafka。長城正是用這種方式實現了車聯網設備狀態

37、的持續監控和分析。但自建 Kafka 帶來日益加重的研發和運維成本:首先,解決問題的研發運維人員需要具備扎實的計算機功底(熟悉計算機網絡、IO 等),需對 Kafka 的底層原理、各種配置參數項等具有深刻理解,可以進行 Kafka 集群參數調優,快速處理突發故障、恢復集群抖動和動態進行集群擴縮容等。其次,一方面需要投入更多的人力、物力成本,另一方面需要時刻監控集群的健康狀況,及時排除問題以保障業務的穩定運行。最后,自建消息隊列在擴展性、可維護性能方面存在不足,當業務的消息數據量到達一定程度后,自建的消息隊列集群就會引發各種各樣的問題,問題的解決又帶來很大的挑戰。舉幾個簡單例子:集群發生異常時,

38、因為監控指標不全,日志輸出不合理等原因,排查定位問題困難,只能靠暫停業務、重啟 Kafka 集群解決問題,對業務影響較大。Kafka 的集群擴容復雜度高,在業務高峰進行遷移的時候,出現分區遷移卡死。自建集群的 ZK 運維難度大,ZK 負載高,導致 ZK 頻繁斷連。2024 騰訊云云原生提質增效實踐精選集29與騰訊云技術團隊溝通,CKafka(Cloud Kafka)作為云上 Kafka 版本,具有完善的監控告警系統和運維工單系統,在性能、擴展性、業務安全保障、運維等方面具有很強優勢,可以在享受低成本、高性能、豐富功能的同時,免除繁瑣運維工作。車聯網平臺利用高性能、高吞吐、可拓展的分布式消息隊列

39、引擎 CKafka,實現業務解耦、削峰填谷、數據的異步處理,達到業務的高可靠性。數據上報場景車輛產生的實時數據(如 GPS 位置、速度、油耗等)通過 CKafka 進行收集、傳輸、分發,實現一份數據多個流向滿足多個場景需求。實時計算部分通過 Flink 提供的 Kafka 連接器,流數據經過 Flink 算子進行處理落入高性能列式數據庫 Clickhouse,用于實時更新數據的分析。該流程可提供一次精確的處理語義,同時 CKafka 多分區提供更高的吞吐量,減少數據傾斜和熱點。車輛故障、異常行為等車輛的狀態數據,通過實時分析可以快速發現并處理車輛的問題。離線分析部分通過 Flume 等日志收集

40、系統,可將 CKafka 中海量日志數據進行高效收集、聚合、移動,最后存儲到 HDFS 或者 Hbase。在生產處理環節中,當生產與處理速度不一致時,CKafka 可以充當緩存角色。擁有 Partition 結構以及采用 Append 追加數據,302024 騰訊云云原生提質增效實踐精選集使 CKafka 具有優秀的吞吐能力;同時其擁有 Replication 結構,使 CKafka 具有很高的容錯性。車輛數據經過離線分析和挖掘,分析結果可以用于優化車輛性能、提高駕駛安全、降低能耗等。指令下發場景在指令下發場景中,CKafka 承接遠程指令和響應結果,為上下游多個系統提供異步接耦、削峰填谷的能

41、力,同時消息持久化及可回溯的產品特性能保障指令狀態的最終一致性。落地效果及未來展望與自建 Kafka 相比,CKafka 有完善的監控告警系統和運維工單系統,CKafka 研發專家隨時答疑解惑,迅速解決客戶問題,省心省力。CKafka 在性能、擴展性、業務安全保障、運維等方面具有超強優勢,讓客戶在享受低成本、超強功能的同時,免除繁瑣運維工作。當 CKafka 集群的流量和磁盤容量超過告警閾值,后端會及時擴容設備,對客戶端無感知。解決開源 Kafka 長期以來遷移數據的痛點,配置升級無感知,輕松應對業務高峰。除了可拓展性之外,CKafka 支持同地域自定義多可用區部署,跨地域災備,提升業務容災能

42、力。2024 騰訊云云原生提質增效實踐精選集31針對降低存儲成本、快速應對突發流量峰值的兩個核心訴求,CKafka 將演進按量存儲形態,并推出彈性帶寬能力。按量存儲按照實際使用存儲空間彈性計費,無需考慮預留存儲空間,更加靈活易運維,且成本更低。彈性帶寬在既定帶寬規格上,提供一定范圍的上浮空間(即彈性能力)。若遇到突發的流量毛刺,集群不會觸發限流,而是在規定范圍內彈性擴縮容,超出原有帶寬部分的流量按量計費。通過合理的架構設計和靈活的產品能力,CKafka 幫助用戶在云上以更低成本托管高吞吐、高可用、易用免運維的消息隊列 Kafka 服務,一站式搭建數據流轉鏈路。未來也期待與更多出行行業客戶展開深

43、度合作,分享更多云上最佳實踐。322024 騰訊云云原生提質增效實踐精選集業務高速增長,如祺出行如何用騰訊云消息隊列 RocketMQ 應對挑戰 企業簡介如祺出行是廣汽集團旗下智慧出行平臺,致力于搭建全方位、立體化的出行科技解決方案與服務體系,提供出行服務(主要為網約車及 Robotaxi 服務)、技術服務(主要是人工智能數據及模型解決方案以及高精地圖)和生態服務(主要為司機及加盟商提供全套支持)。如祺出行上線四年時間,用戶規模和訂單量保持高速增長。在過去的 2022 年,如祺出行平臺累計注冊用戶突破 1800 萬,同比增長 64%,年度訂單總量超 7000 萬,同比增長 52%。業務挑戰高速

44、增長的用戶規模和訂單量,對技術平臺提出更高要求。隨著??燔嚇I務的快速增長,越來越多業務需求與業務主流程耦合,導致調用鏈過長,接口延遲增加了數倍,整體架構無論是性能還是擴展性,都存在很大的風險,遇到節假日高峰,隨時都有崩潰的風險。解決思路為了提升架構的穩定性,保障用戶體驗,如祺出行于 2021 年啟動架構升級。其中,引入消息隊列做異步化是整個分布式架構設計的核心手段之一。消息隊列是一種異步通信機制,可以將消息從發送方發送到接收方,而不需要立即處理。這種機制可以帶來以下好處:異步化處理:消息隊列可以將不同組件或服務之間的通信異步化,使得用戶下單速度更快,體驗更好,提高系統的響應速度和吞吐量。冗余處

45、理:消息隊列可以將消息復制到多個副本中,確保即使某個節點出現故障,消息也不會丟失。2024 騰訊云云原生提質增效實踐精選集33 解耦合:消息隊列可以將不同組件或業務之間的通信解耦合,每個業務只需要關注自己訂閱的消息,從而將下單主流程跟其它業務流程解耦,保障了主流程的穩定和提升了運維的可觀測性。流量控制:消息隊列可以對消息進行緩沖和限流,防止消息發送方發送過多的請求導致接收方處理不過來,從而提高系統的穩定性。消息隊列選型2019 年以來,如祺出行主要采用 CMQ 作為訂單主業務的消息隊列,CMQ 是一種大規模分布式消息系統,它具有高可用性、高吞吐量、海量存儲和高并發能力等特點,可以幫助用戶在分布

46、式系統中進行異步通信,提高應用程序的可用性和可擴展性,但由于 CMQ 協議和功能簡單,不支持事務消息,順序消息和大規模延遲消息等局限性,研發團隊決定采用 RocketMQ 作為升級方案,滿足日益復雜的訂單業務場景。RocketMQ 介紹Apache RocketMQ 是一個開源的分布式消息中間件,因其架構簡單、業務功能豐富、具備極強可擴展性等特點被眾多企業開發者以及云廠商采用,它具有高性能、高可用性、高可靠性和易于使用等優勢,尤其在互聯網、大數據、企業應用、金融交易等在線業務場景成為開發者首選的消息隊列產品。RocketMQ 可以幫助業務實現異步通信、流量削峰、數據同步和日志處理等應用場景,還

47、提供了豐富的高級特性,比如事務消息、定時消息、重試消息和死信消息等特色功能,騰訊云針對 RocketMQ 做了大量的優化增強,在完全兼容社區版的基礎上,提供了秒級定時消息、命名空間,消息軌跡和豐富的監控告警指標等企業級特性,可以很好地滿足如祺訂單系統等各種復雜的消息處理需求。如祺打車業務流程介紹342024 騰訊云云原生提質增效實踐精選集在整個下單流程中,從預估到下單,再從派單到開始服務,最后到費用結算,一共要經過 20+流程環節,其中計費訂單系統是所有系統的核心,從用戶輸入上下車地點,背后的業務系統就開始工作,比如營銷系統查詢用戶折扣和優惠、地圖系統開始做路徑規劃、安全監控系統做分控計算、預

48、派單系統提前做派單分析等,業務系統需要完成大量的計算任務,對數據的實時性、準確性和一致性要求非常高,并且涉及大量的系統交互,這對整個系統的穩定性要求提出很大的挑戰。通過 RocketMQ 做異步化改造在沒有通過 RocketMQ 處理之前,各個系統之間的耦合度非常高,系統穩定性風險高,引入 RocketMQ 完成了下單異步化改造,大量任務異步通信處理,大大提升了訂單業務系統的可擴展性和可靠性,其主要體現在以下幾個方面:1)下單速度由于整個下單的流程都已經實現了異步化,因此從詢價到接單的整個流程只有3-5個簡單的同步操作,保障了整個下單的體驗。(在運力充足的前提下,大約 1.2s 就能完成接單流

49、程)。2)業務的擴展性風控、安全、營銷、派單有非常多復雜的業務邏輯,例如發券、動態折扣等,如果沒有用消息隊列做消息共享,就需要做2024 騰訊云云原生提質增效實踐精選集35N*N 的遠程調用,增加了系統復雜度,現在只需要增加一個下游訂閱,就可以擴展新業務邏輯。3)業務可靠性由于業務的鏈條很長,因此需要做好各個環節的兜底處理,下單異步化后,可以做到關注點分離,下單主流程不會因為某個節點出現問題導致阻塞。舉個例子:在下單前,系統會異步計算好路程的近似路程公里數,假設地圖服務出現延遲或者異常,就可以直接使用,保證了系統的可靠。RocketMQ 在訂單系統的應用定時消息場景定時消息是指消息發送方將消息

50、發送到 RocketMQ 時,消息不是立即可以被下游訂閱者消費,而是指定消息在將來一段時間才可以被消費。RocketMQ 開源社區版(4.x 版本)沒有支持秒級精度的定時消息方案,只能指定幾個固定的延遲級別,騰訊云在社區版的基礎上,通過基于時間輪的調度引擎,先將定時消息暫存在內部定時消息隊列,再通過調度引擎按指定的定時時間,將消息調度到普通消息隊列,下游消費方才可以正常消費消息,默認最長可以支持 40 天的定時范圍(如果購買了專業版的客戶,可以通過工單申請更長的定時范圍)。在打車業務中,有大量的定時消息場景,比如訂單完成超過一定時間后其狀態自動流轉,訂單超過一定時間未接單自動提醒等業務場景,在

51、未接入 RocketMQ 之前,要依賴輪詢數據庫來實現,對數據庫壓力非常大,接入 RocketMQ 后,不僅大大緩解了數據庫壓力,系統的依賴關系也大量簡化。362024 騰訊云云原生提質增效實踐精選集事務消息場景事務消息是 Apache RocketMQ 提供的一種高級消息類型,支持在分布式場景下保障消息生產和本地事務的最終一致性,尤其是在對數據一致性要求高的交易場景有廣泛的應用,主要核心過程如下。1.生產者發送消息到 RocketMQ 中。2.服務端收到消息后將消息存儲到半消息 Topic 中。3.當本地事務執行完成。4.生產者主動將事務執行結果發送到 RocketMQ 中。5.若本地事務執

52、行結果超過一定期限還沒反饋,RocketMQ 將執行回查邏輯。6.生產者收到消息回查后,需要檢查對應消息的本地事務執行的最終結果,并反饋事務狀態,有以下三種情況:TransactionStatus.COMMIT 提交事務,消費者可以消費到該消息。TransactionStatus.ROLLBACK 回滾事務,消息被丟棄,消費者不會消費到該消息。TransactionStatus.UNKNOW 無法判斷狀態,等待再次發送回查。7.當事務執行成功,RocketMQ 將事務消息提交到 Real Topic,待消費者消費。打車業務中,有多個業務系統涉及交易數據的一致性,通過事務消息和本地數據庫事務結合

53、,確保了系統之間數據的一致性,并且簡化了業務開發的復雜度。順序消息場景順序消息可以保證同一分區順序 Key 的消息的消費順序和發送順序一致,常用于訂單交易,金融,電商等業務場景,將同一用戶或訂單的不同消息按照時序進行處理,避免處理消息亂序帶來的補償操作等復雜度。2024 騰訊云云原生提質增效實踐精選集37在如祺訂單系統中,上游將訂單 ID 作為 ShardKey,同一個訂單的系統都會被發送到同一個分區中,下游系統訂閱消息時,就可以針對同一個訂單的消息按順序處理,避免處理訂單消息亂序的復雜度,并且方便做本地緩存策略,提升系統的整體性能。落地效果及未來展望當前 RocketMQ 已經完全兼容社區版

54、本 4.x 系列版本,并且已經支持虛擬集群和專享集群等產品形態,滿足用戶的不同使用場景。2022 年 9 月,RocketMQ 社區已經發布了 5.x 版本,RocketMQ 5.x 引入了全新的彈性無狀態代理模式,基于 gRPC 協議提供了新的更簡潔易用的 SDK,并將當前的 Broker 職責進行拆分,對于客戶端協議適配、權限管理、消費管理等計算邏輯進行抽離,獨立無狀態的代理角色提供服務,Broker 則繼續專注于存儲能力的持續優化。2023 年 6 月,騰訊云基于社區 RocketMQ 5.x 版本推出新的 Serverless 產品形態,在以下幾個方面持續發力:彈性計算和分層存儲帶來更

55、低的使用成本。新的 SDK 帶來更好的開發體驗和多語言生態支持。大數據生態更好的對接,更好的支持實時和流計算的體驗。未來期待能夠充分利用云原生帶來的資源利用率的紅利,以更低的成本,為客戶帶來全新的產品體驗。382024 騰訊云云原生提質增效實踐精選集03云開發2024 騰訊云云原生提質增效實踐精選集395 天完成一個百萬級營銷活動?沃爾瑪、瑞幸咖啡、蒙牛都在用騰訊云開發!企業簡介蒙牛集團(簡稱“蒙?!保?999年成立于內蒙古自治區,總部位于呼和浩特,常年穩居全球乳業前十。2004年在香港上市(股票代碼 2319.HK)。蒙牛專注于為中國和全球消費者提供營養、健康、美味的乳制品,形成了包括液態奶

56、、冰淇淋、奶粉、奶酪等品類在內的豐富產品矩陣。業務挑戰隨著業務的不斷深入擴展,技術團隊面臨問題復雜度越高,蒙牛集團技術團隊就接到了這樣的挑戰,在面向全國用戶推廣每天來運動營銷活動中,開發團隊只有短短 2 周的時間來完成從啟動到上線的全過程,首先快速整合釘釘用戶體系,此外還要對三方小程序進行快速改造,由于活動規劃了高達數百萬的獎金池和 10 萬 QPS 的并發訪問量,安全上還要防范黑產和黃牛的侵擾。解決思路 上線后,技術團隊順利成功應對此次緊迫挑戰,在回顧開發過程,技術團隊認為他們做對了以下四件關鍵事項的選擇:導入外部身份源用戶,加速用戶體系對接本次活動是蒙牛集團的內部員工活動,需要對接企業內部

57、使用的釘釘用戶數據。借助云開發平臺導入外部標準身份源能力,開發者無需自行編寫復雜的鑒權代碼,更先進的安全標準協議也確保了用戶數據的安全性。在支持多端同步和社交賬號登錄基礎上,提升了用戶體驗,同時降低了應用的維護成本。402024 騰訊云云原生提質增效實踐精選集靈活選用云模板,加速前端開發效率云開發的云模板功能提供了快速啟動的基礎,讓開發者能夠迅速部署各種模板示例項目,而無需從零開始。支持根據特定品牌風格進行個性化定制。技術門檻和開發成本被大幅降低,一名前端開發+非專業開發者制作出抽獎、排行榜頁面。2024 騰訊云云原生提質增效實踐精選集41借助云數據庫實時推送能力,快速實現互動玩法活動過程中,

58、需要支持直播和彈幕等各類創新互動玩法,云開發實時推送產品能力,幫助技術團隊大大簡化了開發流程,在確保狀態變更和數據管理的即時性與準確性同時,讓開發過程更加高效。借助云開發網關的優勢,應對高并發,防黑產借助云開發網關強大的安全防護能力,實時安全監控。自動化防御機制,數據加密和安全存儲,有效防止黑產和黃牛的侵擾,同時支持超高并發,能夠快速響應 10 萬+的并發實例,確?;顒釉谒矔r超高流量涌入時的系統穩定性,安全省心,數據安全無憂。422024 騰訊云云原生提質增效實踐精選集 落地效果在 每天來運動 營銷活動中,蒙牛借助騰訊云開發,2 周內順利上線活動?;顒悠陂g,10 萬 QPS 的并發訪問也未造成

59、系統卡頓,獎金發放準確,吸引大量全國用戶參與。從業務上看,活動提升了蒙牛品牌知名度與用戶好感,通過數據分析為后續業務提供依據。技術團隊應對復雜挑戰更加從容,積累經驗、提升能力,為創新業務筑牢技術根基,助力蒙牛在乳業競爭中憑技術創新占得先機,加速數字化轉型。云開發 ALL IN ONE 一站式解決方案,在新零售營銷領域顯著提升了開發效能和運營效率。不僅幫助技術團隊快速響應市場變化,還保障了用戶體驗的流暢性和安全性。通過云開發,開發人員也能夠專注于創新和優化用戶體驗,同時確保應用的穩定性和擴展性,為業務的快速發展提供強有力的技術支撐。2024 騰訊云云原生提質增效實踐精選集4304低代碼44202

60、4 騰訊云云原生提質增效實踐精選集揭秘智慧浦東機場的低代碼創新建設與落地經驗 企業簡介上海浦東國際機場公司成立于 1995 年 06 月 20 日,經營范圍包括機場建設、施工、運營管理和航空運輸有關的場面服務,與機場建設相關的房地產開發經營業務,航空運輸業務代理、碼頭、倉儲、物資轉銷,提供航空運輸有關的技術合作、咨詢、服務。業務挑戰上海浦東國際機場公司,作為國際航空樞紐,日常的信息化建設任務繁重,涉及業務范圍廣,包含設備運行管理、業務保障、人力外包等上百個業務合同項目。在缺少有效軟件系統監管的情況下,機場的四級監管體系大多依靠手工方式進行管理,效率低且容易出錯,并且機場日常生產作業的數字化需求

61、與有限的信息化資源供給之間存在突出矛盾。首先,需求龐雜,機場業務種類繁多,監管層級復雜,傳統的手工管理方式無法滿足高效、準確的監管需求。其次,成本限制,機場已經處于非建設期,業務部門不會專門招聘技術開發團隊開發和維護應用,但是機場業務繁雜,部門差異大,核算下來改造設計的表單應用的數千個,外包時間長,成本不低。然后,技術局限,通用 SaaS 軟件和零代碼平臺無法支持機場特有的個性化應用開發,如路線導航、飛機零件倉儲等,無法解決部門間的開發數據隔離問題。浦東機場高層經過討論整理后,內部發布上海機場集團有限公司關于開展降本增效專項工作的實施意見,其中提到避免多頭開發重復建設,防止相關系統無法互聯互通

62、,面對著機場內部 30+部門的復雜業務流程,業務部門希望能夠建設統一的臺賬平臺,如何找到一條路徑,能夠快速實施,快速部署業務應用,多種不同業務共享同一個平臺能力,成為了浦東機場數字化轉型新的探索路線。解決思路利用微搭平臺,浦東機場聯合合作伙伴開啟了創新迭代,合作伙伴開發人力 2 名,集團內 30+個部門,每個業務部門抽調12 名業務人員(不懂代碼)參與,總人力投入在 40 人左右。雙方團隊經過前期驗證和實踐,確定了一條“技術構建框架,2024 騰訊云云原生提質增效實踐精選集45業務填充內容”的新生產模式,將專業的技術標準和業務對接工作交給合作伙伴進行規劃搭建,構建下層統一管理平臺。業務內部應用

63、由業務人員自行開發上架到管理平臺,在保證整體技術框架統一,應用標準一致的情況下,保證業務上的自主可控。這些應用的上線過程中,浦東機場公司科技環保部作為主導部門,采取了以下步驟:1.與業務部門合作,明確應用的功能需求和業務流程。2.使用微搭的可視化設計工具,快速構建應用原型。3.將新應用與機場現有的 IT 系統進行數據對接,確保數據的一致性和準確性。4.在業務部門中進行用戶測試,收集反饋并優化應用。5.在測試通過后,將應用部署到生產環境,正式投入使用。6.為業務部門提供必要的培訓和技術支持,確保用戶能夠高效使用新應用。在三個月時間內,成功構建并上線了包含數百個電子臺賬類應用,實現了數據電子化管理

64、,一鍵生成臺賬,無需開發能力。其中比較典型的應用有:進銷存類應用,支持機場內部的物流和庫存管理,內部導航小程序,提供機場內部路線導航,支持飛機零件倉儲管理。門戶應用,作為機場內部信息的統一入口。462024 騰訊云云原生提質增效實踐精選集 落地效果及未來展望這些應用不僅實現了數據和應用的線上化,還使得各部門能夠自主快速響應需求變化,實現了業務的高效閉環管理。成本效益:相比傳統的外包開發,使用微搭平臺節省了百萬級的成本投入。效率提升:通過低代碼工具,交付時間縮短了 50%,實現了快速部署和迭代。自主可控:各部門可以自主實現數據和應用的線上化,提高了對業務變化的響應速度。隨著我們 AI 能力的上線

65、,后續浦東機場的業務人員在構建表單時可以依賴文字描述的方式快速生成電子臺賬應用,進一步提升開發效率。浦東機場公司計劃繼續使用微搭進行應用迭代,更加充分的使用微搭平臺,預計到 2025 年使用構建總應用數超過千級大關,實現業務和 IT 更加充分的融合,需求確認和迭代實現更加快速敏捷的閉環,進一步推動機場業務的數字化轉型,實現更高效的業務管理和服務創新。2024 騰訊云云原生提質增效實踐精選集47實現銷售業績增長,他用騰訊云微搭低代碼做了個樓盤 SCRM 小程序 企業簡介六居地產,一家無錫專業的房地產中介公司,主要提供二手房買賣交易信息、房屋出租等服務,在房產銷售領域,團隊成員一直還在傳統的微信筆

66、記分享方式傳遞房產資料。業務挑戰隨著房地產銷售業績下滑,六居地產銷售團隊面臨著如何更有效地分發房產資源和持續運營客戶的挑戰,急需能夠豐富資源展示并獲取客戶聯系方式的解決方案。解決思路六居公司以業務為重,客戶體量大,找開發預算太高。從事銷售運營人員的朱同學看到重重困難后,并沒有輕言放棄,把目光聚焦在了低代碼和無代碼開發工具。自學了一點前端,也不太精通 css 和代碼,對小程序開發流程的不熟悉,朱同學之前使用簡道云,氚云等產品制作 h5 的客戶需求問卷,但客戶留資轉化率只有 10%20%,而小程序的形態對于客戶端的轉發分享和信息留資有天然優勢,留資率保守統計可達到 40%以上,而微搭是唯一能用低代

67、碼方式開發原生小程序的工具,所以選擇了微搭。微搭,作為微信官方生態的開發工具,以其“一碼多端”的能力,為六居地產提供了一個全新的展示平臺。它不僅支持小程序、H5 和 Web 的多端發布,更以其可視化搭建的簡便性,讓非技術人員也能輕松上手。微搭的云原生一體化服務,更確保了應用的高性能和高可用性,為六居地產的數字化轉型提供了堅實的技術支持。他利用每天工作之余的時間,自學微搭低代碼開發平臺,不僅提升了個人技能,最終成功構建并上線了這款小程序“六居地產”,為公司銷售增長發展帶來了新的活力。目前,六居的所有銷售團隊和他們的人客戶都在使用這個小程序過程中,產生了更多連接互動。通過展示最新的樓盤情況、482

68、024 騰訊云云原生提質增效實踐精選集VR效果和樓盤詳情,極大地提升了用戶體驗,實現了資源展示和客戶留存的雙重目標。銷售人員還可以隨時隨地跟進客戶咨詢,查看用戶的看房瀏覽記錄,并能夠發送消息提醒給到客戶。落地效果及未來展望業務價值:資源展示:通過小程序豐富了房產資源的展示方式,提升了用戶體驗??蛻袅舸妫韩@取客戶聯系方式,玩轉私域流量,為幾千看房用戶提供了更好的服務。開發效率:不到一個月,自學完成了小程序的開發迭代。未來展望:展望未來,朱同學計劃繼續使用微搭進行應用迭代,也打算豐富后臺管理系統,以進一步提升業務效率。同時,銷售團隊也對微搭的 AI 能力表示出了 濃厚的興趣,六居地產小程序將在未來

69、進一步智能化,實現更快的客戶響應和更高效的服務。2024 騰訊云云原生提質增效實踐精選集4905可觀測502024 騰訊云云原生提質增效實踐精選集騰訊云可觀測平臺如何為新能源車企緩解焦慮 導語在新能源汽車行業的快速發展中,企業面臨著日益復雜的運維挑戰??捎^測性技術的引入,不僅提供了更先進的監控工具,更成為現代互聯網軟件基礎設施的重要組成部分,幫助企業迅速識別潛在問題、優化資源配置,并降低運維成本和風險。云上業務在 IT 系統的基礎架構層面,客戶采用了混合云架構(公有云與本地數據中心相結合),在騰訊云上的重點業務包括智能營銷、外呼平臺和線上簽約等。在這些業務中,大數據驅動,尤其是實時分析場景,是

70、客戶使用騰訊云的核心相關云產品的消耗量占總體的 30%以上。特別是 EMR 大數據平臺(基于云原生和泛 Hadoop 生態構建的彈性 MapReduce),它承載著客戶的智能營銷等關鍵業務,幫助客戶從海量數據中提取有價值的洞察,實現數據驅動的實時決策。監控體系為了提升對上述系統的可觀測性,客戶在本地數據中心構建了統一監控平臺,該 平臺基于開源技術 Prometheus 和 Grafana 實現。針對關鍵業務的有效監控,客戶還依托騰訊云的可觀測平臺,采集 EMR、TKE、CLB 等云產品的監控指標,并在云上配置相應的告警策略。這些監控指標將通過騰訊云的 Prometheus 遠程寫入客戶本地的

71、Prometheus,從而支持客戶 Grafana 大盤的統一展示。業務挑戰1)如何高效構建大數據平臺的可觀測性?現狀:在客戶接入騰訊云 EMR 時,完善的可觀測性尚未成為 EMR 集群的標配。這是由于泛 Hadoop 生態軟件棧的復雜性(工具眾多、數據異構、實時性要求高),導致構建可觀測性的技術難度大、實踐案例稀缺、運維成本高昂。風險:缺乏完善的可觀測性,就無法及時識別潛在問題,從而增加系統故障的風險,將直接影響 EMR 集群的穩定、高效運行。挑戰:既要高效率、又要低成本,如何實現全面、實時的 EMR 可觀測性體系?2024 騰訊云云原生提質增效實踐精選集512)在新車直播發布、或雙十一大促

72、這類流量高峰時,如何保障對業務系統的有效監控?現狀:車企的業務流量和數據處理存在明顯的波峰時段,例如新車發布或大促期間。在這種波動性影響下,不僅業務系統要能彈性擴縮容,可觀測系統作為業務系統的“千里眼”和“順風耳”,自身也必須具備彈性擴縮容的能力,以確保監控和預警的實時性和有效性。風險:客戶自建的 Prometheus 是開源版本,但其最常被詬病的問題是單機存儲擴展性差。當海量并發到來,很可能監控系統自身先被沖垮,則對業務系統的監控和預警更是無從談起。挑戰:為了實現波峰擴容(應對洪峰)和波谷縮容(節約資源),在各種垂直/水平擴縮和遠端存儲等技術方案當中,該如何決策和實施,才能應對架構復雜度增加

73、、運維成本陡增的問題?3)如何基于垂直領域知識,合理配置監控大盤和告警策略?現狀:術業有專攻、領域有壁壘。運維人員若要橫跨多個業務領域、有效監控不同對象,往往需先惡補相關背景知識。以 EMR 平 臺為例,運維人員在實施監控前,首先需要梳理泛 Hadoop 生態 20+個組件的關鍵指標及其監控意義;其次需要熟知 Prometheus 生態 PromQL 語言及各類 Grafana 面板的制作。風險:缺乏相關經驗可能導致 Grafana 可視化效果不佳、數據匯總不合理,或面板維護和擴展困難。此外,告警指標、閾值或聚合方式的設定不當,可能引發告警過多或漏報現象。挑戰:面對復雜業務的監控場景,如何基于

74、垂直領域知識,方便、合理地配置監控大盤和告警策略?解決思路為了解決客戶的上述痛點,騰訊云可觀測平臺結合了 Prometheus 開源生態、騰訊云基礎設施、和團隊的自研創新能力,設計的解決方案概要如下:1)EMR 監控,一鍵集成。目標:僅需一次點擊,客戶的運維人員就能自動、批量獲取對 EMR 全棧平臺的監控能力,徹底免除自行運維這批組件的煩惱。實現:將 Prometheus 開源社區針對泛 Hadoop 生態的 27 個核心組件的 exporter 全部集成到騰訊云 Prometheus;與其同時,基于不同組件的特性,根據最佳實踐為其設計合適的采集模式,避免指標漏采、同時保證秒級實時性。2)彈性

75、擴容,無懼洪峰。522024 騰訊云云原生提質增效實踐精選集 目標:客戶監控能力平滑擴展上云,在業務波峰到來、訪問量級飆升時,借力騰訊云可觀測平臺,保證客戶統一監控平臺的可用性。實現:一方面,騰訊云 Prometheus+Grafana 100%兼容開源版本,為客戶保證監控協議和監控體驗的一致性;另一方面,騰訊云可觀測平臺依托騰訊云底層海量算力及存儲,并且借助云原生技術的容器化和彈性伸縮等能力,自研了分布式、集群化、存算分離的高可用架構,以輕松應對流量波峰、合理適配流量波谷。3)專家知識,預設提供。目標:打破垂直領域知識壁壘,使客戶側運維人員能“站在專家的肩膀上”,無需花費高昂的學習成本,就能

76、做到專業、精準、高效的監控。實現:騰訊云 Prometheus 為所監控對象提供了預設的 Grafana 大盤、和預設的告警策略,這些是基于各個垂直領域的專家知識和行業經驗沉淀而成,以預設模板、開箱即用的形式,內置提供給客戶參考和使用。方案詳述1)EMR 監控,一鍵集成在騰訊云 Prometheus 實現對 EMR 的一鍵監控集成之前,若要滿足對云上 EMR 對實時監控的需求,需由客戶自行實現對泛 Hadoop 生態的大數據組件的指標采集和獲?。涸诿總€ EMR 節點上,手工部署 Java agent、j mx-exporter 等工具,再針對各個組件進行繁瑣的采集配置,后續還要持續投入對這批組

77、件的 維護和更新。而如今,騰訊云 Prometheus 已經實現了對 EMR 平臺的監控集成,只需控制臺幾次點擊,即可免去上述所有運維負擔,直接開啟對 EMR 組件的監控。針對同樣的 EMR 組件采集,兩種方案的運維工作量對比如下:所需組件/配置自建 Prometheus騰訊云 Prometheusj mx-exporter客戶自行搭建和維護已內置配置 HDFS 以暴露指標客戶自行配置和管理已內置配置 Yarn 以暴露指標客戶自行配置和管理已內置配置 Zookeeper 以暴露指標客戶自行配置和管理已內置配置 HBase 以暴露指標客戶自行配置和管理已內置配置 Hive 以暴露指標客戶自行配置

78、和管理已內置2024 騰訊云云原生提質增效實踐精選集53在騰訊云 Prometheus 一鍵集成 EMR 監控的背后,究竟托管了哪些監控組件,隱藏了哪些運維動作?下面將詳解借助 Prometheus 社區提供的開源方案,自行構建對 EMR 這類泛 Hadoop 大數據平臺的可觀測性這也正是騰訊云 Prometheus 已替客戶“大包大攬”、從而節約客戶運維精力的核心所在。大數據組件的開源監控方案從下面 EMR 的架構圖可以看出,一個 EMR 集群建立在底層基礎設施之上,包含了多種數據接入和計算引擎組件,可與多種數據源交互吞吐數據,最終形成 大數據驅動的分析決策。所需組件/配置自建 Promet

79、heus騰訊云 Prometheus配置 Flink 以暴露指標客戶自行配置和管理已內置配置 Ranger 以暴露指標客戶自行配置和管理已內置配置 Trino 以暴露指標客戶自行配置和管理已內置配置 Oozie 以暴露指標客戶自行配置和管理已內置配置 Spark 以暴露指標客戶自行配置和管理已內置配置 Impala 以暴露指標客戶自行配置和管理已內置添加 Prometheus 抓取任務客戶自行配置和管理自動批量配置創建 Grafana 大盤客戶自行配置和管理 內置基于行業實踐和專家知識的儀表盤創建告警策略客戶自行配置和管理 內置基于行業實踐和專家知識的告警模板Prometheus 彈性擴縮容客

80、戶自行選型和實現已內置鑒權管理客戶自行選型和實現騰訊云鑒權體系542024 騰訊云云原生提質增效實踐精選集構建 EMR 這類泛 Hadoop 大數據平臺的可觀測性,旨在了解構成集群的全棧設施和組件的健康和性能狀況,手段是通過對下至基礎設施層、上至中間件和應用程序層的可觀測數據進行收集、關聯、聚合和分析,以探知系統的運行狀況和健康趨勢。2024 騰訊云云原生提質增效實踐精選集55基于 Prometheus+Grafana 這組開源可觀測領域的“最強 cp”、結合豐富的社區生態組件,則能很好地為泛 Hadoop 大數據平臺提供立體全面的可觀測性解 決方案。通過 Prometheus 相關組件將待監

81、控的大數據組件的指標采集并存儲后,用戶就可以通過 Grafana 等可視化工具,對 Prometheus 中的指標數據進行查詢和展示;用戶還可通過設置告警規則,適時發送告警消息,以及時響應系統異常、減少故障恢復時間。指標暴露由于泛 Hadoop 生態各層設施和組件與 Prometheus 生態的集成成熟度也不同,接下來,我們將其分成幾個大類、各個擊破,實現對各層次組件的指標采集。562024 騰訊云云原生提質增效實踐精選集原生支持對于底層算力基礎設施中的 TKE 來說,作為 Kubernetes 容器平臺,它對 Prometheus 的支持力度是最高的,體現在其內置的服務發現、直接暴露指標的能

82、力,以及與 Kubernetes 生態系統中其他組件(如 kube-state-metrics 和 node-exporter)的良好集成。因此,使用 TKE 作為底層算力資源,用戶可以減少對額外 exporter 組件的依賴,大大簡化了監控的配置和管理過程。exporter 方式exporter 是 Prometheus 開源生態中一個非常強大的功能,它可用于將第三方系統中現有的指標導出為 Prometheus 指標。這在無法直接使用 Prometheus 指標監控特定系統的情況下,是非常有用的。例如:CVM exporter 是一個用于收集和暴露 CVM(Cloud Virtual Mac

83、hine,云虛擬機)相關指標的工具,它可以從云虛擬機中提取性能數據和狀態信息,并將這些數據轉換為 Prometheus 可以理解的格式,從而使用戶能夠監控云虛擬機的運行狀況和性能。2024 騰訊云云原生提質增效實踐精選集57Prometheus 官方以及 Github 上開源的 exporter 非常豐富,可參考:https:/prometheus.io/docs/instrumenting/exporters/騰訊云可觀測也集成了諸多 exporter,可供客戶一鍵開啟對各類組件和云服務的集成。仍以 CVM 為例,只需一鍵,即可集成,免去服務發現和安裝 exporter 的負擔:Java a

84、gent+exporterMX(Java Management Extensions)是用來管理和監控 Java 應用程序和系統的一種標準方式,而 Hadoop 生態系統中的許多組件都支持通過 JMX 來采集指標,例如:1.HDFS:NameNode 和 DataNode 都可通過 JMX 暴露其性能和狀態指標,如存儲使用情況、塊管理、請求處理等。2.YARN:ResourceManager 和 NodeManager 也支持 JMX,提供有關資源使用、應用程序狀態、容器管理等的指標。3.MapReduce:MapReduce 作業的 JobTracker 和 TaskTracker 可通過

85、JMX 監控作業執行情況、任務狀態和資源使用、應用。此外,還有一些基于 Java 平臺的中間件,也支持通過 JMX 暴露監控指標:1.Kafka:Kafka 支持 JMX,提供有關主題、分區、消費者和生產者的性能指標。2.ZooKeeper:ZooKeeper 作為分布式協調服務,支持 JMX 監控其連接、會話、請求和節點狀態等指標。582024 騰訊云云原生提質增效實踐精選集針對 JMX,Prometheus 開源社區提供了 j mx-exporter,用于將 JMX 暴露的指標轉換成 TaskTracker 可通過 JMX 監控作業執行情況、任務狀態和資源使用。在最佳實踐中,我們可將 j

86、mx-exporter 以 Java agent 模式運行在 EMR 的每個節點,暴露 HTTP 服務器,以提供本地 JVM 的指標。更多詳情可參考 j mx-exporter 文檔:https:/ Spark 3.0 之前,它也需通過上述 Java agent 暴露指標;但是 Spark 3.0 之 后,其節點能在現有端口以 Prometheus 格式暴露指標,而無需再像上述 Java agent 那樣,使用額外開放端口的代理方法。此外,業務應用也能以類似的方式,自行定義指標埋點,并以 Prometheus 協 議暴露出去。指標獲取眾所周知,Promethes 獲取指標,有推/拉兩種模式,其

87、中又以拉模式最為常用:2024 騰訊云云原生提質增效實踐精選集59在 EMR 集群中,通常情況下,監控指標是通過 Pull 模式來收集的,即Prometheus 以一定的時間間隔,定期從各個節點(如 NameNode、DataNode、ResourceManager、NodeManager 等)拉取指標。然而,在某些特殊情況下,使用 Push 模式推送指標是有必要的。例如:某些 Flink 作業的生命周期可能非常短、在下一次拉取指標的間隔到來之前,任務就已經完成。這種情況下,使用 Push 模式,作業就可以先將其指標推送到 Pushgateway 組件,再由 Prometheus 從該組件拉取

88、,以確保 Prometheus 能獲取到這些數據。2)彈性擴容,無懼洪峰如下圖所示的高可用架構,是騰訊云 Prometheus 的一大核心優勢:實現方式是在騰訊云底層的海量算力和存儲能力之上,又基于 TKE 的容器化、彈性伸縮等云原生能力,自研落地了一套分布式、集群化、存算分離的技術架構,以及高可用、高效率的采集節點調度方案和存儲節點分片方案??蓴U展性優化 采集和存儲集群化,解決開源 Prometheus 單機大實例無法擴展的問題。支持 agent 模式及自建 Prometheus 上報數據;支持 Remote Write 和 Pushgateway 協議。存儲后端基于分片機制寫入數據。查詢組

89、件對多個存儲節點的數據進行聚合計算,將最終結果返回給用戶。高可用優化602024 騰訊云云原生提質增效實踐精選集 集群多節點,避免單點故障問題,且支持彈性擴縮容。冗余和故障轉移:分布式和集群化的輕量采集器,可以在多個節點上運行,確保即使某個節點發生故障,其他節點仍然可以繼續采集數據,避免單點故障。operator 對采集 target 的負載均衡,基于一致性哈希實現分發 targets 分片至各個采集 agents。存儲優化 落盤云存儲,可支持存儲 15 天/30 天/45 天/90 天/180 天/1 年/2 年 存 儲周期?;谟昧看笮?,支持獨占或共享集群,以滿足不同需求。正是借助上述彈性

90、伸縮等高可用能力,客戶在新車發布直播、雙十一大促等流量高峰期,使用自建 Prometheus+Grafana 和云上 Prometheus+Grafana 進行雙重保障,大大降低了在重大活動時的運維風險。3)專家知識,預設提供通過預設的 Grafana 大盤和基于業務場景的告警模板,騰訊云可觀測平臺不僅簡化了客戶的監控配置流程,還確保了關鍵指標的精準覆蓋。預設 Grafana 大盤 騰訊云 Grafana 除了兼容開源 Grafana 外,還提供了對常見云產品及組件的開箱即用、一鍵集成的監控功能。此外,針對不同業務場景,騰訊云 Grafana 預設了多種大盤模板。借助這些集成能力和預設大盤,客

91、戶可以快速實現從基礎設施到應用和服務的監控可視化,顯著減少指標梳理和面板制作的工作量。如下圖所示,在騰訊云 Prometheus 的集成中心,當客戶一鍵安裝 EMR 監控集成后,即可開箱即用相關 EMR 組件的 Grafana 大盤:2024 騰訊云云原生提質增效實踐精選集61預設告警模板騰訊云可觀測平臺提供了強大的告警能力,預設了針對不同產品和組件的業務場景告警模板。這些模板幫助客戶快速配置告警規則,確保關鍵指標的實時監控。通過這種方式,客戶能夠及時識別潛在問題,減少系統故障的響應時間,提升業務連續性。此外,預設的告警模板降低了客戶在告警配置上的復雜性,使得即使是缺乏專業知識的用戶也能輕松上

92、手,從而顯著提高了運維效率和決策能力。如下圖所示,當客戶想要新建一條告警策略,可以直接從列表里選中某個云產品 例如 EMR,則系統會自動彈出針對 EMR 各個組件所預設的各種告警規則,供 客戶直接使用,或在此基礎上自主修改:622024 騰訊云云原生提質增效實踐精選集沉淀專家知識仍以客戶對 EMR 的監控為例,預設告警策略不僅基于行業實踐提供通用模板,還結合騰訊云 EMR+騰訊云 Prometheus 雙方的專家知識,共同定制升級了 一些告警策略,以提高告警效率,幫助客戶“避坑”。例如:EMR 原生指標 service_status 在服務異?;蛘哂脩羰謩油V惯@兩種情況下,都會顯示,因此無法針

93、對異常服務精準告警。于是,騰訊云 Prometheus 在預設告警模板時,新增了輔助指標 emr_additional_service_status 來代表用戶手動停止服務的信息,以跟原生指標組合,實現對異常服務的精確告警。這樣一來,當原生指標顯示 service 狀態異常時,結合騰訊云 Prometheus 提 供的額外的輔助指標,其真值邏輯如下表所示:由上表很容易看出,結合輔助指標后,該告警模板能過濾掉手動停止造成狀態異 常所導致的無效告警,大大節約了客戶對 EMR 的運維精力。落地效果1.EMR 監控,一鍵集成:騰訊云 Prometheus 對 EMR 大數據平臺的一鍵集成,大大提升了為

94、大數據平臺構建可觀測性的效率,從天級接入降為分鐘級接入。且全托管、一站式,徹底免去為 27 個 EMR 組件搭建 和運維采集代理的成本。2.彈性擴容,無懼洪峰:在客戶的新車發布直播和雙十一大促時,流量比平時高出數倍。而借力騰訊云 Prometheus+Grafana 的彈性擴容能力,就能避免自建的 Prometheus+Grafana 觸及性能瓶頸,從而保證重大活動期間監控的流暢性,保證在流量洪峰下極大降低運維風險。3.專家知識,預設提供:開箱即用預設的 Grafana 大盤,有效節約了運維人員制作監控面板的時間;同時優化了告警策略,提高關鍵指標的覆蓋率、降低系統異常的誤報漏報,尤其是針對服務

95、狀態異常的告警,為客戶降低了約 50%的誤報率??蛻舯O控平臺依托騰訊云可觀測平臺的 Prometheus、Grafana 及告警功能,不僅實現了對 EMR 大數據平臺等云產品和組件的高效監控,還落地了應對流量洪峰的云上云下一體化方案,并借力各領域專家知識優化了可視化大盤和告警策略。這一系列舉措顯著提升了監控效率、節約了運維成本、降低了系統風險,為客戶的業務穩定性提供了堅實保障。騰訊云可觀測平臺已覆蓋出行行業幾乎所有頭部車企,積累了豐富的行業案例和最佳實踐,為客戶提供 Prometheus+Grafana 指標監控、APM 分布式鏈路追蹤、RUM 前端/終端性能監控,以及云撥測、云壓測等全棧多維

96、度可觀測能力。原生指標輔助指標是否告警service 狀態異常是用戶手動停止的否service 狀態異常不是用戶手動停止 的是2024 騰訊云云原生提質增效實踐精選集63騰訊云撥測助力頭部跨境電商平臺優化用戶體驗 導語平臺的使用體驗在競爭激烈的電商行業中是影響客戶粘性的一個非常重要的因素。如何讓后端服務保障可用,使得電商平臺上的文字,圖片,視頻等資源都能夠正確且低延遲的呈現給其終端用戶,讓用戶在平臺上的操作順暢,是每一個電商平臺面對的挑戰。通過騰訊云撥測產品,電商平臺對于網絡質量、文件傳輸、頁面性能、端口協議等方面都可以進行指標量化,從而做出優化,達到提升全球各個區域 C 端用戶體驗,增強用戶

97、粘性的目的。公司簡介客戶是在世界范圍內領航跨境購物的電商平臺,近年在世界多個地區獲得購物類 App 年度總下載量、平均月活數、安卓用戶使用總時長上獲得冠軍。如今業務覆蓋了十余個國家,在中國地區的深圳、上海等地亦設立了跨境業務辦公室。為了保障業務平穩流暢,拓展更多的全球市場,客戶接觸騰訊云撥測之前已經自行購買了友商的主動撥測產品,但是因為撥測點覆蓋不足以及服務響應不及時,一些問題排查緩慢。業務挑戰平臺的使用體驗在競爭激烈的電商行業中是影響客戶粘性的一個非常重要的因素。如何讓后端服務保障可用,使得電商平臺上的文字,圖片,視頻等資源都能夠正確且低延遲的呈現給其終端用戶,讓用戶在平臺上的操作順暢,是每

98、一個電商平臺面對的挑戰。作為跨境電商,客戶的業務大量布置于海外,對于客戶端海外可用性的檢測擁有強需求,而他們的痛點也十分明晰:撥測點覆蓋不夠客戶計劃在印度擴展業務,對于印度的撥測需求非常強烈?,F有撥測供應商海外撥測點不足以覆蓋客戶的需求。642024 騰訊云云原生提質增效實踐精選集CDN 選型難電商業務對于 CDN 強依賴,需要測試不同 CDN 服務商在使用中的加速效果,支撐業務對 CDN 服務商選型。深度撥測使用指引需求客戶對于友商的撥測使用不深入,對撥測場景理解不全,希望可以有全流程的輔佐讓團隊的產品使用都有據可依。解決思路數量龐大的撥測點資源云撥測擁有遍布全球 200+城市的近 2000

99、 機房資源及 C 端設備,覆蓋不同終端,不同網絡條件,不同 IP 類型的撥測點。其中包括東南亞、歐洲、美洲等地,補齊了對于客戶當前業務發展階段所急需的印度及歐洲的撥測需求。僅僅是在印度的 C 端測試點就有 50+,遍布主要城市及主要運營商,實現廣闊的數據覆蓋。豐富的多維分析指標通過撥測目標站,將訪問的時延、丟包率,Tracert 躍點數、可用性、超時次數等電商客戶極為關心核心指標等客戶被直觀呈現,詳細數據可下載做二次分析。2024 騰訊云云原生提質增效實踐精選集65在向用戶展現報告之后,針對客戶對撥測使用理解不深的困境,團隊亦對產品能力進行了詳細的闡述:散點圖、地圖等多種方式的 BI 分析,給

100、客戶提供了各種維度的數據呈現方式。下鉆到每一個撥測任務的指標呈現,讓客戶對于測試點的操作系統、版本、IP 地址等一覽無余,精確把握問題原因。經過了深入的產品交流,客戶很快決定全量使用騰訊云為其制定的撥測方案,為他們的業務做啟動前的質量檢測、日常維護,以及 cdn 選型及后續監控的保障。落地效果在使用騰訊云撥測平臺之后,客戶不僅解決了之前存在的痛點,還在團隊的幫助下意外發現了一些之前沒有預料到的問題,其中包括:解決了不同維度的量化監測業務搭建上,客戶可以對 CDN 性能、運營商、頁面性能、流媒體等不同維度進行量化監測;地理上,印度各個區域的訪問情況有更全面的了解;對于電商平臺新興起的直播,視頻等

101、流媒體內容的播放指標,通過云撥測均擁有了更好的量 化。報告中對客戶所使用的兩家廠商 CDN 各種性能,以及真實用戶訪問頁面的信息進行了呈現 662024 騰訊云云原生提質增效實踐精選集海外撥測點運行測試伊始,就發現了數據的異常情況,通過騰訊云撥測,客戶:發現路由錯誤,避免上線后的大規模影響對印度撥測下發客戶新加坡站撥測任務后,發現在孟買測試點無法成功訪問目標頁面。通過多維分析,觀察到訪問失敗的點都集中于孟買的一個網絡運營商;通過指標下鉆,可以清晰看到出現了網絡不可達的節點信息。經過 CDN 及其他網絡設置的排查,很快發現是路由配置會導致對該區域部分用戶產生影響。發現節點繞行,降低訪問延遲通過數

102、據在橫向(印度不同城市)、縱向(同個城市不同時間段)的分析,發現孟買在訪問加拿大站點時延不穩定的狀況,有時會時延明顯高于均值。經排查,發現一些其內部的網絡調度策略導致了數據繞行。經過分析,一定情況下孟買到加拿大的訪問竟然會經歷新加坡、韓國、巴西、美國的中轉,最后經香港才能到達加拿大。發現問題后,客戶經過調整,成功將印度到加拿大的延遲降低了 200-300ms,實現了用戶體驗的飛躍。對于被客戶看作未來市場的印度,騰訊云撥測幫助客戶在業務上線前期及時發現了不通過主動訪問極難提前發現問題,幫助客戶避免了業務上線后大規模業務問題和對公司口碑產生的負面影響,受到了客戶的一致好評。2024 騰訊云云原生提

103、質增效實踐精選集67因此,在網絡質量提升之外,客戶使用騰訊云撥測又進行了許多其他場景的主動檢測,包括 C DN 廠商的對比和選型,音視頻的質量測試,頁面元素優化等等,期間產品團隊秉持著專業與負責的態度為客戶進行了全面的撥測使用指導,贏得了客戶口碑,亦對于電商的典型場景積累下了行業經驗。相關鏈接:https:/ 騰訊云云原生提質增效實踐精選集騰訊云 RUM 和 APM 幫助微購建設前后端一體化監控平臺 導語當用戶在 APP 或小程序上購買商品時,諸如頁面突然閃退或付款一直顯示失敗的終端故障會直接導致用戶流失。萬物互聯,快速的生活節奏決定了終端的使用體驗會影響用戶粘性和公司的業務口碑。然而一個看似

104、簡單的終端問題,既可能是前端程序問題導致,也可能是因為中間件或數據庫故障或者后端服務的錯誤。騰訊云前端性能監控 RUM 與應用性能觀測 APM 可有效幫助看重終端體驗的企業建立前后端同時覆蓋,具有異常信息告警、場景化鏈路拓撲分析功能的可觀測性平臺。幫助企業先于用戶發現問題、快速排障,保障終端順暢使用。企業簡介深圳市微購科技有限公司是一家專注于 B2B 領域的移動電商服務商,為供貨商提供包括平臺研發、銷售、營銷的全套解決方案。旗下的“微商相冊”是一款專業的移動電商服務輕 SaaS 產品,讓小微商戶在“私域賣貨”這一概念炙手可熱的今天,能夠快速完成微商城前后端搭建,一鍵發布商品圖片,實現一站式分銷

105、管理。2024 騰訊云云原生提質增效實踐精選集69隨著微商行業的快速發展,微購的用戶迅速增長,運維壓力不容小覷。因此需要一個覆蓋前后端的告警系統能夠在用戶感知之前觸達運維,故障發生后,需要具備從前端到后端全鏈的定位和分析問題的能力。微購基于開源協議 Skywaking 自建了前端監控與后端鏈路監控。但是自建平臺無法滿足微服務架構日益龐大的可觀測性需求,于是開始在云上尋找更加合適的可觀測性平臺搭建方案。業務挑戰監控被動自建監控系統需要前端做埋點,隨著業務發展,新的場景需不斷新增埋點,很多時候因為未提前埋點覆蓋導致問題排障難。自建功能少后端服務應用自建 Skywalking 鏈路監控場景相對簡單,

106、不具多維分析和時間范圍排障功能,問題排查強依賴鏈路信息。自建性能差當應用接入上報越來越多,性能隨之下降,鏈路查詢通常要 10 多秒,問題定位數十分鐘,十分影響問題定位效率。主動性差因為自建系統的以上問題,客戶問題主動發現難,往往都是用戶反饋被動響應。分析定位問題的速度還不能很好滿足服務SLA 的需求。從業務場景需求到實現方式對比,微購決定與騰訊云監控一起制定一套符合自己的前后端監控方案。解決思路騰訊云監控團隊綜合分析微購的監控訴求和當前痛點,給出了騰訊云前端性能監控 RUM 和應用性能觀測 APM 聯合使用方案。其中前端性能監控 RUM 包括了異常監控、性能分析和頁面運營場景功能,支持自定義日

107、志,幫助客戶實現分鐘級前端問題定位。702024 騰訊云云原生提質增效實踐精選集應用性能觀測APM 自動生成全局應用拓撲并采集統計服務吞吐量、服務耗時、應用錯誤率等核心指標。支持按接口、異常服務、數據庫和調用鏈查詢等方式統計服務應用質量,具備代碼級問題分析能力前端性能監控 RUM 和應用性能觀測 APM 聯合使用不僅能夠建立起前端與應用端的監控與告警系統,也完善了問題出現后的排障能力,實現前后端可觀測性全覆蓋。2024 騰訊云云原生提質增效實踐精選集71經過團隊對于產品相較于自建平臺的優勢闡述與對比,用戶決定遷入騰訊 RUM 與 APM 來進行運維能力的全面升級。方案優勢基于客戶的自建系統,團

108、隊給出了快速有效的 RUM 和 APM 遷移方案,保障用戶在快速遷移的前提下,可以做到前后端一體的監控與告警設置,方案優勢包括:接入零門檻、低成本前端性能監控 RUM 僅需引入 SDK,同時簡單初始化后便可直接使用。以小程序接入為例(NPM 方式):騰訊云 APM 兼容開源 Skywaking,基于微購使用 JAVA 語言開發,只需修改上報 collector 地址并帶上 Token 信息,即可實現應用無侵入式接入騰訊云 APM。722024 騰訊云云原生提質增效實踐精選集統一告警能力方案將前端性能監控 RUM 與應用性能觀測 APM 的告警能力統一,給客戶標準、一致的監控告警體驗。統一監控告

109、 2024 騰訊云云原生提質增效實踐精選集73告警支持郵件、短信、微信、企業微信、電話通知方式,同時還有靈活的告警回調可自定義處理告警或通過 WebHook 將告警推動到企業微信群和釘釘群等,全面響應客戶的告警需求。落地效果方案落地后,全面解決了客戶存在于前后端性能以及業務層面的痛點:異常監控模塊幫助客戶及時主動發現客戶前端操作問題和服務 JS、Ajax 等問題;API 性能和靜態資源性能分析幫助客戶高效完成對第三方 API 服務質量監控。業務層面,RUM 能夠快速按照頁面詳情或維度聚合方式統計頁面訪問情況,并且支持按頁面元素自定義運營統計。應用性能觀測 APM 自動生成全局應用拓撲,支持客戶

110、變更留察、節日活動護航保障、服務主動治理優化等場景需求。標準告警通知模板 742024 騰訊云云原生提質增效實踐精選集 此外,APM 代碼級問題分析的能力,幫助客戶實現了鏈路毫秒級查詢,分鐘級發現與定位問題的能力通過使用騰訊云前端性能監控 RUM 與應用性能觀測,客戶成功實現無侵入式、場景化的前后端監控平臺搭建,主動配置核心的監控指標即可有效發現異常問題。至此,微購建設起了完整的一體化前后端監控體系,顯著提升了業務排障效率。相關鏈接:RUM 產品介紹頁:https:/ 產品介紹頁:https:/ 產品文檔:https:/ 2024 騰訊云云原生提質增效實踐精選集75騰訊云 RUM 守護喜茶小程

111、序 導語移動互聯網時代,零售行業的線上化已經成為不可逆的趨勢,而且收入比重越來越高。因此,線上系統的平穩運行,保障用戶購物的流暢體驗,已經成為新零售行業必須要思考的問題。特別是微信小程序的推出,提升了微信生態的用戶購物體驗。絕大部分新零售企業也逐漸通過小程序來為門店引流。如何保障其微信小程序的可用性,提供良好的用戶體驗,將成為新零售行業面臨的挑戰。前端性能監控 RUM,是由騰訊云云監控團隊提供的衡量小程序用戶體驗的 SaaS 產品,基于騰訊內部的多年實踐,廣泛應用于微信、QQ、游戲等業務,客戶只需要在自己的小程序或者網頁里集成一行代碼,即可無侵接入。企業簡介近兩年茶飲行業快速發展,喜茶從廣東的

112、一家小店發展到如今遍布國內外逾 200 家門店的大型餐飲連鎖企業。平均出杯量超過 2000 杯一天,單店單月營業額超過 50 萬,商業估值已經達到 160 億。喜茶已經成為了中國新茶飲行業的開創者和引領者,也是中國正在掀起的新零售浪潮的典型代表。業務挑戰廣告費無法核實作為新零售品牌,會經常發布廣告用來促進用戶消費。但在進行廣告費用結算時,會根據投入廣告平臺給出的數據直接進行結算。廣告數據的有效性、準確性都需要做進一步驗證。面臨黑產攻擊,被“薅羊毛”作為一個細分領域的頭部企業,企業更容易受到黑客關注,數據安全性問題也就更嚴重。尤其是在推出促銷活動時,如何避免羊毛黨“薅羊毛”,也是一個痛點。762

113、024 騰訊云云原生提質增效實踐精選集產品更新頻率快,小程序產生異常,影響收入和口碑由于經常推出新品或者舉辦活動,小程序的健壯性有時候會因為緊急上線而難以保證。經常會因為數據加載異常導致白屏情況的發生,極大影響用戶的使用。消費者很有可能會因為購物過程中的較差體驗而選擇友商的產品。性能瓶頸問題隱秘,開發人員難以復現,影響用戶體驗在企業規模擴大、線下門店越開越多時,小程序的一些性能問題也更難定位。主要是因為不同區域的網絡環境不同,并且消費者的機型也有很多差異。部分消費者遇到的問題,開發者很可能在辦公環境沒有辦法復現,從而導致部分消費者的流失。前端性能監控提供的解決方案 解決思路精確的訪問統計,輔助

114、對賬+查出“羊毛黨”RUM 通過調用瀏覽器的 API 獲取用戶訪問信息,自動為每一臺終端設備生成唯一標識,進而對 UV/PV 數據有更準確的統計。確保用戶真實打開小程序進行訪問,避免因爬蟲、模擬請求等行為造成的非真實用戶訪問帶來的數據量增多。如下為相關示意圖:2024 騰訊云云原生提質增效實踐精選集77除了匯總匯總數據,RUM 也會將用戶的每條訪問記錄下來。如下圖所示,uin 代表著不同用戶的用戶名,aid 代表著不同的終端設備。如果有大量 uin 同但設備 aid 相同的訪問記錄,意味著有用戶在同一臺設備上不停地更換賬號進行“薅羊毛”。通過簡單的數據分析,就讓“羊毛黨”無處遁形。提供質量量化

115、標準,幫助快速定位異常微信推出小程序時間不久,所以很難衡量小程序開發人員的工作業績。RUM 產品將騰訊多年積累的小程序開發經驗沉淀,形成了一套用于客觀衡量小程序質量的計分標準,幫助開發人員量化優化成果。如下圖所示,RUM 既給出了綜合分數,也將比較問題通過不同的顏色標識出來。782024 騰訊云云原生提質增效實踐精選集通過異常分析模塊,可以看到最近的錯誤統計與之前的對比。在有新版本發布時,不同版本錯誤數量上的差異讓開發者對于變更的風險更加了解。通過錯誤信息的發生次數排序,可以知道哪些是小程序最嚴重的問題。2024 騰訊云云原生提質增效實踐精選集79提供性能指標分析,快速找到瓶頸每個小程序都會有

116、很多頁面。在喜茶的案例中,主要是首頁、商品詳情頁、購物車等。這些頁面中如果有一個頁加載慢均會導致用戶整個購買流程低效,給用戶帶來不好的體驗。RUM 就是通過細化分析每一個頁面的加載時長來解決這個問題,如下圖所示:RUM 不僅從頁面維度做出細化統計,還針對小程序本身的加載流程,如啟動時間、注入時間等,將小程序的每個環節的每個頁面,都明確展示,從而幫助開發者快速找到性能瓶頸。豐富的多維分析,暴露本地無法復現的異常RUM 控制臺提供豐富的多維分析功能,一些在開發者本地無法復現的問題,也可以被有效的地發現:802024 騰訊云云原生提質增效實踐精選集如上圖可以將全國不同區域的用戶訪問量清晰地展示出來,

117、針對表現未達到最佳狀態的區域/終端/運營商等信息,提供了更進一步的問題定位能力。低成本使用,無侵入監控只需要在小程序當中嵌入 1 行代碼,即可實現 RUM 的接入。減少了開發人員額外的開發工作,這種低成本、無侵入式的監控方案,得到喜茶開發人員的好評。落地效果喜茶的正式和測試環境均已經接入前端性能監控超過 3 個月。在這 3 個月期間,RUM 為喜茶提供了以下價值:發現了 20+的質量問題在接入 RUM 后,通過量化分數、異常分析、多維分析等方式,先后發現了 20+的小程序質量問題,包含了 JS 錯誤,Ajax 請求錯誤等。最嚴重的問題是后端接口的變化導致小程序頁面出現了白屏。幸運的是,因為 R

118、UM 的強大的功能,許多問題均在小程序上線之前的測試環境就暴露了出來。版本更新后的故障及時發現,避免影響擴大喜茶經常會舉行一些臨時線上促銷活動。因為項目時間緊張,常常會有測試不充分的情況發生。2024 騰訊云云原生提質增效實踐精選集81例如:在一次活動中,因為下單流程中包含一個 JS 錯誤,導致用戶無法進入到支付的界面。幸好開發者在上線之后通過RUM 控制發現了該 BUG,第一時間對故障進行搶修,避免了問題的升級和負面影響的擴大。發現黑產及廣告費優化1.通過 RUM 提供的用戶訪問信息,喜茶開發人員發現多個用戶名短期在同一個終端設備上進行頻繁切換。結合當時舉辦的優惠活動,喜茶開發人員推測是有黑

119、產正在對活動進行攻擊。進而對指定用戶名進行一定的限制措施,從而成功控制了黑產的“薅羊毛”行為。2.借助 RUM 提供的真實 PV/UV 數據統計,喜茶發現第三方廣告平臺提供的統計信息具有較大誤差。經過詳細定位,具有差別的數據量是因為小程序的 CDN 資源在被爬蟲頻繁抓數據,并不是真實用戶的訪問。根據 RUM 提供的數據,喜茶和第三方廣告平臺重新談判了費用,優化了廣告費支出。N 次版本更新后,整體性能提升 20%,錯誤率降低了 30%在性能方面,喜茶根據 RUM 提供的指標。先后對程序包大小、重點頁面、常訪問頁面進行了性能優化,有效的降低了頁面加載的時長。同時通過也降低了小程序的 SetData 方法調用頻率,減少了數據上傳帶來的成本,讓小程序的開發更加符合微信平臺推薦的開發規范。喜茶借助 RUM 的提供的功能,提升了其微信小程序端的應用質量和頁面性能性能方面。也為喜茶的小程序開發人員提供了優化指引,更加量化了小程序方面的工作業績。官網產品鏈接:https:/

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(騰訊云&ampampInfoQ研究中心:2024年騰訊云云原生提質增效實踐精選集(81頁).pdf)為本站 (淡然) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站