《馬上消費金融科技:高質效創新組織數字化時代下科技運營轉型探索實踐報告(27頁).pdf》由會員分享,可在線閱讀,更多相關《馬上消費金融科技:高質效創新組織數字化時代下科技運營轉型探索實踐報告(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、高質效創新組織數字化時代下科技運營轉型探索實踐張煒馬上消費金融科技運營部負責人擁有超過16年的技術運營管理經驗,目前擔任馬上消費金融股份有限公司的科技運營部門負責人。在公司成功實施了多項DevOps實踐,提升軟件交付的速度和質量,同時確保了生產環境的高可用性和穩定性,基本形成需求到生產端到端閉環運營管理。張煒公司職位馬上消費金融-科技運營部負責人G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站目錄數字化技術加速融合數字化IT投資管理創新與風險兼顧的研發管理體系高效穩定的IT服務與運營體系G O P S 全 球 運 維 大 會 暨 X
2、 O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站數字化技術加速融合01G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站數字技術以各種形式融入企業原有技術體系,企業形成新的技術創新能力微服務技術廣泛應用技術運營管理變革 工具的自動化和智能化,要求更高工作效率和質量 決策過程的數據化和實時化,決策更加精準和高效。以自動化提高工作效率從傳統工具到新一代智能工具從經驗決策到數據決策傳統工具+經驗決策新一代智能工具數據運營反饋與決策工具革命+決策革命基于數據反饋提高決策科學化、精準化工具革命決策革命DevOps的融合多云和混合
3、云策略容器化和微服務架構DevOps實踐的普及正在改變IT運營,通過持續集成和持續部署流程,實現更快的軟件交付和更緊密的開發與運營團隊協作。企業越來越多地采用多云和混合云策略,這要求IT運營能夠管理多個云平臺和本地環境。容器化技術(如Docker)和微服務架構正在改變應用程序的部署和管理方式,要求IT運營適應這些新方法。業務連續性和災難恢復數據驅動的決策隨著遠程工作和分布式系統的普及,確保業務連續性和有效的災難恢復計劃變得更加重要。隨著大數據的深度和廣泛應用,企業正在利用數據分析來優化運營流程、提高客戶滿意度,并做出更加明智的業務決策。技術運營通過數據驅動持續改進。大數據云計算人工智能小型化去
4、中心化可擴展松耦合體量大速度快多樣性可視化資源池化快速彈性服務化、標準化災難恢復、數據備份學習能力推理能力語言理解自適應性G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站在市場快速變化和技術加速融合過程中,IT運營要確保變革順利進行,同時為企業帶來持續的價值增長IT運營面臨的挑戰.業務發展對IT快速響應與靈活交付的挑戰技術融合加速對IT穩定運營管理的挑戰商業價值的不確定性對IT科學投資決策的挑戰G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站DevOps目標是讓研發更快,
5、讓業務更穩,讓決策更準快穩準G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站實現IT運營價值創造需要完成的模式轉變架構輕量化持續化交付管理自動化厚平臺、薄應用、微服務敏捷交付開發運維一體化DevOps基于云架構的管控模式彈性資源管理傳統模式單塊架構架構瀑布式開發開發運維分離運營交付豎井式物理資源基礎設施松耦合微服務合作伙伴API敏捷交付第三方交付開發運維一體化-持續交付一體化軟件定義基礎設施,服務化新 IT 模式G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站實現IT運營
6、價值目標需要具備的六項能力IT 成為價值中心重點是讓公司更好的實現“提升客戶體驗、加快業務創新交付、為運營提能增效”業務價值客戶服務能力02數據決策能力04連續性保障能力01IT服務能力05快速交付能力03運營協同能力06創新與風險兼顧的研發管理體系02G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站權責明確的高效的科技運營組織模式與運行機制 健康的科技運營系統能夠應對環境變化、應對意外,并自我成長 組織模式:集中與分散的平
7、衡自組織性 團隊充分自治 去中心化決策 創新文化自適應性 快速響應技術環境的變化 靈活的工作流程 持續學習和進步層次性 多層次管理結構 模塊化設計 信息流動和協作 運行機制:資源共享與協同工作支撐業務方向一致性快速響應市場創新、個性化服務企業規模較小,業務單一快速決策和統一行動組織結構:金字塔形依賴性高層管理者、市場響應慢需要提高對市場變化的適應性和靈活性時決策分散、快速響應市場變化和客戶需求部門墻、高協調溝通成本、資源分散各業務領域快速適應新技術和創新時自治與合作并存、分權與集權平衡、靈活性與統一性結合;激發各技術條線的創新和市場適應性需要較高的管理能力和協調機制集中式分散式聯邦式15年-1
8、7年18年-20年21年-24年G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站需求管理:承載DevOps開發模式的PPR/PER/PIR管理需求角度項目角度IT采購類基礎建設類開發類PPRPERPIRPPR遵循項目管理方式,有生命周期和階段定義;PER/PIR遵循需求管理方式,完成上線即為結束;需求來源歸屬PPR(項目)、PER(項目關聯/系統功能完善)、PIR(問題)12G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站三種開發模式:支持不同場景的需求實現,在高頻發布場
9、景下保證生產發布的質量需求提出需求分析需求評審需求設計需求實現需求驗收需求變更瀑布模式增量迭代模式敏捷模式開發類項目實施階段開發類迭代實現開發類緊急變更上線發版需求活動需求收集需求分析需求定義需求評審需求規劃開發活動架構設計架構評審UI/UE設計系統設計設計評審編碼實現代碼評審單元測試測試活動測試準備SIT測試聯調測試回歸測試UAT測試DevOps平臺項目/需求/緊急變更需求階段研發模式關鍵活動平臺工具需求生命周期G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站(1).需求管理:場景驅動,形成高效流動的“價值漏斗”價值創造以需求的形
10、式承載,需求管理的目標是有效識別并驅動價值流的快速流轉。傳統IT的需求管理多是單向接收業務部門訴求,然后按研發流程進行需求分析、計劃、開發測試和發布交付,在IT內部,價值流本身沒有問題。但在當下確出現了越來越多的交付問題,例如:IT花了時間和精力,投入了資源,但交付質量欠佳需求來回拉扯,溝通成本高,效率低需求交付的效果與用戶預期偏差大,用戶滿意度低以場景驅動,建立價值流漏斗,形成從輸入到輸出的全價值鏈交付。從需求提出、評估分析、排期開發、測試驗收、上線交付等各個環節進行全覆蓋,對研發過程、數據、資源實現透明化。業務部門可以快速得到反饋,研發部門能夠理解需求本質,從而做出更準確的評估和方案。需求
11、和價值流的管理范圍局限在IT內部無法適應數字化轉型所帶來的快速響應市場的要求 業務部門、研發部門存在嚴重的協作鴻溝,導致目標、資源、時間等諸多因素的不對稱,并且相互交叉、干擾需求管理和敏捷協作擴展到業務領域:G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站度量的目標是讓效能可量化、可分析、可改進,通過數據驅動的方式更理性的評估和改善效能技術目標是持續提升研發流程的效率、保證規范的執行、提升質量和效率,持續提升是精益的更高追求,尋找提升空間需要思考的問題是:我們的流程是高效的嗎?阻礙在哪里?我們的規范落地執行情況如何?流程控制是否存在
12、漏洞?我們的研發質量和效率如何?短板在哪里?度量指標能夠客觀反映現狀,幫助我們看到現狀與目標之間的差距我們的最高目標始終是為了更好地支撐業務,要了解業務方最迫切所需,及時調整技術改進方向,使技術目標與業務目標保持協調然而,這只是技術視野,我們還要了解業務方的期望,才能知道我們的視野是否足夠開闊,才能決定改進的方向,不能閉門造車 能夠提供更全面的IT產品和更高效的IT服務 能夠更快地響應需求及完成交付 能夠為業務應用更穩定地提供更高質量的交付G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站完整的價值度量體系,量化產研關鍵活動,指標驅動
13、效率和質量持續改進風險控制采取各種措施和方法,消滅、減少風險事件的發生,或是降低風險事件發生時造成的損失。它反應的是當線上系統或應用發生故障時,多久可以消除業務影響。交付質量目標是促進端到端高質量交付,避免不必要的錯誤和返工,驅動內部、外部質量改進。交付效率目標是促進端到端及早交付,用最短時間順暢地交付客戶價值。它反應的是整個團隊(包含產品、開發、測試,部署)對用戶需求的響應速度。高效穩定的IT服務與運營體系03G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新
14、 峰 會 2 0 2 4 北 京 站SRE穩定性時空:四個維度支撐整個穩定性保障作業技術管理和運維活動故障和穩定性生命周期穩定性保障對象平臺能力建設穩定性保障體系指標度量G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站聯邦制SRE模式:倡導SRE文化,推行聯邦制SRE運維模式,促進研發、運維高效協作“聯”的優勢:形成統一的規范、流程、工具平臺框架體系,便于統一管理和生產高效運行“邦”的優勢:各SRE團隊職責邊界清晰,能夠更高效、更便捷地服務于本團隊的研發生產工作SRE科技運營SRE研發團隊 A研發團隊 B各團隊SRE為“邦”,分別開
15、展監控巡檢、變更管控、容量規劃、NCMDB數據管理、ONCALL應急(含演練)、問題復盤跟進等6項核心工作科技運營團隊統籌共性的體系、流程、工具平臺,建立溝通協作機制,聯系各團隊SRE總結分享和推廣最佳實踐運行機制優勢G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站服務容量和業務容量:建立服務SLO穩定性標準效果1:建立服務穩定性的量化標準效果2:基于服務穩定性標準的主動預防機制效果3:建立服務穩定性可視化度量建立業務、應用、組件等的服務穩定性量化標準,基于標準觀測服務狀態。明確標準,基于服務穩定性標準的主動預防機制可視化生產所有服
16、務的的穩定性運行情況(錯誤消耗、SLA達標情況等)。優化改進:分層梳理SLI、SLO、SLA優化改進:建立服務治理閉環處理流程優化改進:形成完備的穩定性度量體系分層梳理服務目錄和服務級別治理服務質量建立服務SLO穩定性標準管理服務SLI/SLO/SLA目標G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站發布管理:靈活多樣的部署流水線,自動觸發代碼檢查和自動測試,提升發布速度和質量藍綠發布模式金絲雀發布模式滾動發布模式發布前先發一臺驗證滾動發布流量模式流量模式發布前負載均衡v1v1v1v2v2v2發布后負載均衡v1v1v1v2v2v2
17、負載均衡v1v1v1v2v2v2負載均衡v1v1v1v2v2v2負載均衡v1v1v1v2v2v2發布前先發一臺再發若干臺流量模式負載均衡v1v1v1v2v2v2負載均衡v1v1v1v2v2v2負載均衡v1v1v1v2v2v2直到全部發完負載均衡v1v1v1v2v2v2說明:1.藍綠部署,是指不停老版本,部署新版本然后進行測試,確認OK,將流量切到新版本,然后老版本同時也升級到新版本。2.金絲雀部署,也叫灰度發布,是指在黑與白之間,能夠平滑過渡的一種發布方式。AB test就是一種灰度發布方式,讓一部分用戶繼續用A,一部分用戶開始用B,如果用戶對B沒有什么反對意見,那么逐步擴大范圍,把所有用戶都
18、遷移到B上面來?;叶劝l布可以保證整體系統的穩定,在初始灰度的時候就可以發現、調整問題,以保證其影響度,而我們平常所說的金絲雀部署也就是灰度發布的一種方式。3.滾動發布,一般是取出一個或者多個服務器停止服務,執行更新,并重新將其投入使用。周而復始,直到集群中所有的實例都更新成新版本。G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站CMDB配置管理:明確數據owner職責要求,cmdb數據消費唯一數據源和數據生產的閉環機制提升的準確性數據權威,面向業務,支撐業務發展目標覆蓋全支撐業務消費場景所需的所有IT資產全部納管接入數據準配置數據記
19、錄的信息及時真實可靠,不存在異?;蝈e誤NCMDB策略基于應用從上層往下建設cmdb,下層基礎架構設施往上全覆蓋-優先基于應用為中心,從上至下建設cmdb-其次建設基礎公共資源,然后從數據中心設施到邏輯資源全覆蓋-基于分層模型、第三范式最小冗余、面向對象思想建模消費驅動數據準確性-Cmdb作為運維體系的唯一數據源,以消費驅動數據準確性,以視圖方式,隨需應變的滿足消費場景需求-數據校驗規則:完整性、準確性、關聯性-數據準確性問題閉環機制:根據POC原則,所有的問題分配工單,由owner分析原因并根本性解決12不準不信不用信任消費準確落地方案G O P S 全 球 運 維 大 會 暨 X O p s
20、 技 術 創 新 峰 會 2 0 2 4 北 京 站監控告警:構建以業務為導向的監控體系,快速明確業務影響,縮小故障域位置,提升運維效率 在業務影響判斷階段:首先利用駕駛艙首層定位受影響的業務域,通過結果指標快速識別問題區域。通過二層看板進一步縮小故障范圍,具體查看異常業務節點。利用全息監控,將業務節點與服務異常關聯起來,涵蓋指標、日志和鏈路,實現故障的全面診斷。最后,通過風險預警大屏,追溯服務至對應的組件和基礎設施,進行異常檢測和風險預警,確保及時響應和業務穩定性。這一流程通過分層診斷,從業務域到具體節點,再到服務和基礎設施,構建了一個系統化的故障分析和預警機制,有效提升了故障定位的準確性和
21、業務運維的效率。業務監控體系建設示意圖落地實踐排障思路G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站問題管理:明確整改方案,有效追蹤改進過程和效果目標:問題管理的最終目標是消除引起事件的深層次根源以防止事件再次發生,包括主動性問題管理和被動性問題管理兩類活動。被動性問題管理的目標是找到事件根因并糾正;主動性問題管理的目標是通過消滅基礎設施的薄弱環節來阻止事件的發生。關鍵活動:關鍵活動主要內容馬上問題控制負責找出問題并調查根因,采取措施將問題轉化為已知錯誤1.發現、記錄問題2.問題歸類3.調查和分為問題4.臨時修復問題由SRE登記,
22、更新明確的問題歸類詳盡的記錄根因和解決方案錯誤控制管理,控制并成功糾正已知錯誤的過程,通過變更申請實施變更,確保已知錯誤消除,避免事件發生1.發現、記錄錯誤2.評價錯誤3.記錄錯誤解決過程4.終止錯誤5.跟蹤、監督問題和錯誤的解決過程已知錯誤由SRE登記,更新由問題管理人員組織干系人評估方案詳盡的記錄解決過程,監控進展驗收解決結果主動性問題管理在事件發生前發現和解決有關問題和已知錯誤,以盡量減少問題和已知錯誤對業務的影響識別問題的發展趨勢,防止問題擴散到其他系統問題報告定期或不定期提供有關問題、已知錯誤和變更請求等方面的管理信息,供科技部門決策依據定期或不定期分析問題、已知錯誤的處理情況,有助
23、于優化問題管理活動有效性問題管理按期解決率:92%G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站科技服務臺:補足對故障全生命周期完整管理的能力目標:服務臺從根本上來說,是用戶和IT部門的唯一接口。通過集中方式提供服務。服務臺的根本目的是提供受理人員支持,并通過變通方法、解決方案或升級到處理人員支持等手段,幫助用戶將IT服務恢復到正常工作狀態。關鍵活動:關鍵活動主要內容馬上請求接收1.接收來自電話、網絡、電子郵件等方式反饋的服務請求、事件2.將用戶上報的服務請求、事件完整記錄到系統中,對事件進行適當的分類并分配優先級等屬性由服務臺統
24、一管理,登記請求、事件對事件有明確的分類、優先級請求處理1.處理可預定義或模板化解決的服務請求2.將事件分配給最合適的事件響應人員小組/人員來處理3.跟蹤服務請求、事件的處理過程,確保所有的故障和服務請求能夠以閉環方式結束定義各等級請求服務級別有服務請求處理流程且運行順暢有效保障請求處理時效跟蹤處理進展,反饋用戶處理進展確保所有保障以閉環方式結束請求反饋1.根據用戶的需要檢查事件記錄的處理進度,適時通知事件處理進展反饋服務請求、事件處理進展給用戶組織故障復盤并輸出復盤會議紀要匯總、分析事件報告服務臺自主解決率:80%服務臺當日反饋率:100%G O P S 全 球 運 維 大 會 暨 X O p s 技 術 創 新 峰 會 2 0 2 4 北 京 站無服務臺,不ITSMIT服務臺客服團隊基礎運維團隊業務研發團隊監控系統報警信息統一服務窗口中介服務請求開啟服務流程 對IT用戶提供支持,面向業務輸出價值 為IT部門贏得口碑,為二期工程(ITIL服務轉移流程)創造條件服務臺坐席ITSM運維和研發工程師感謝大家觀看2024.6.28THANKS