《2-董俊秋-全面揭秘數字銀行的質效提升之路.pdf》由會員分享,可在線閱讀,更多相關《2-董俊秋-全面揭秘數字銀行的質效提升之路.pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、全面揭秘數字銀行的質效提升之路董俊秋眾安國際 質量管理專家 個人簡介 CMMI 軟件成熟度評估師、Scrum Master、EPG 過程改進專家、云從業者 曾任騰訊高級質量管理工程師、中興智慧城市質量經理 涉及行業:ToB、ToC、云產品、金融、醫療、教育、通訊、人工智能 擅長領域:度量分析、質量建模、過程改進、研發效能度量董俊秋眾安國際 質量管理專家 目錄CONTENTS背景介紹背景介紹:痛點及問題痛點及問題01 全流程質量體系建設全流程質量體系建設02 全鏈路質效度量探索及實施全鏈路質效度量探索及實施03 智能質效管理平臺建設智能質效管理平臺建設04 成果及展望成果及展望05 01背景介紹
2、背景介紹:痛點及問題痛點及問題背景介紹:關于眾安01.22取得證監會證券交易牌照03.20對外開業05.20取得香港人壽保險牌照09.20取得保險經紀執照03.21推出企業銀行業務08.22基金業務啟動03.19 取得香港虛擬銀行牌照300Kusers2019202020212022100Kusers600Kusers04.22&05.21&保險轉賬貸款卡存款股票基金一站式綜合金融平臺(2023.H2推出)650Kusers正式上線香港第一虛擬銀行【研發】代碼修改影響范圍不確定,bug生產逃逸率高祖傳代碼不敢改,代碼越來越臃腫,導致問題更多且可維護性差代碼過于復雜,寫單元測試耗時較長【測試】提
3、測不及時,擠壓測試周期,導致測試不充分,存在漏測風險提測質量差,開發自測不充分,測試反復駁回,浪費人力成本且拉長交付周期質量問題效率問題一、研發各階段全面質量左移持續推行小批量集成,快速迭代,提早識別質量風險降低單測代碼編寫難度,提升單測覆蓋率提升自動化測試覆蓋率,減少人工測試漏測風險,降低人工測試投入成本啟用藍綠發布體系,將線上異常監控前置至發布階段二、數據驅動改進設置上下游關鍵卡點指標啟動質量月會數據晾曬及下鉆分析搭建全鏈路質效監控平臺,重點關注質量與效能改進效果啟動事件閉環管理機制制定故障升級、定級定責制度搭建事件管理平臺全鏈路跟蹤事件觸發事件處理事件關閉全過程事后閉環事前事中攔截【業務
4、線痛點】線上生產問題多,逃逸率高需求排不上,交付周期長【業務目標】又快又好背景介紹:痛點及問題02全流程質量全流程質量體系建設體系建設產品產品開發開發用例設計手工用例執行測試測試藍綠發布運維運維互聯網銀行敏捷開發模型QA介質檢查事件閉環管理異常監控質效監控、度量分析、質量診斷系統設計需求設計功能開發、單元測試、CR自動化測試腳本編寫自動化測試(新需求)自動化腳本合并研發過程質量管理線上質量管理現現 網網 需求階段需求階段 開發階段開發階段 測試階段測試階段 發布階段發布階段KT評審通過冒煙通過測試通過發布成功自動化測試(原有功能)全流程質量體系建設(全景圖)03全鏈路質效度量全鏈路質效度量探索
5、及實施探索及實施線上管理研發過程管理度量可視化質量運營工具自動化2020202120222023正式上線 搭建線上管理流程體系 引入線上管理工具 啟動線上度量分析(質效)搭建研發過程管理體系 引入研發過程管理工具 啟動研發過程度量分析(質效)建立度量可視化平臺 實現自助化質效診斷 打造自驅式質量管理落地質量左移持續集成形成標準質量運營機制全鏈路質效度量探索及實施確定度量目標設計度量指標業務線試點軟件成熟度,所處階段度量成本和預期度量效果評估者的視角度量實施的復雜度統計口徑評審第一輪:質量指標(結果性指標)第二輪:效能指標階段指標名稱第一輪故障數定級故障數系統可用性監控告警率改進措施數改進措施延
6、期率改進措施關閉率第二輪發現問題平均時長定位問題平均時長處理問題平均時長整體恢復平均時長故障平均修復時長全鏈路質效度量指標探索:線上全鏈路質效度量指標探索:研發過程內l評估試點指標l評估試點業務線第一輪試點(2022.H1)北極星指標第二輪試點(2022.H2起)全過程指標交付價值產品價值達成率客戶滿意率交付速率需求吞吐量(流速率)產研交付周期缺陷修復周期(致命嚴重、一般、輕微)交付質量缺陷逃逸率系統可用性故障數平均故障恢復時長數據晾曬、異常分析宣貫培訓、啟動試點未達標TOP團隊下鉆分析全鏈路質效度量指標實施改進項閉環跟蹤全鏈路質效度量指標實踐:線上事前事中處理事后跟蹤閉環故障根因(技術根因及
7、非技術根因)事件細節(關鍵處理動作及時間線)影響范圍改進措施(識別思路)【執行過程】引入、測試、驗收、評審、決策管理【流程建設】流程健全性、流程執行有效性【處理時效】發現時長、定位時長、處理時長(短期止損、長期修復)識別根因制定后續規避措施告警觸發,值班群通知排查拉起事件處理群,第一時間恢復線上拉起故障復盤群,查找根因,避免事件二次發生改進訴求:1)降低生產問題數,避免同一問題二次發生2)快速恢復線上業務,縮短故障恢復時長實際案例:某業務線 質量效能下鉆分析【效能分析】故障恢復耗時較長top主要原因:u2月 XXXXX事件二線確認環節耗時(結單方案需要HK風控確認);2)結單重跑數據耗時,故處
8、理問題耗時較長(xxxmin)u3月 XXXXX事件xxx監控策略失效未觸發告警,客戶感知不明顯未引發共性反饋,故發現問題耗時較長(xxxmin)u3月 XXXXX事件研發同學第一次定位問題結論有誤,后第二次定位才找到故障原因,故定位問題耗時較長(xxxmin)u6月 XXXXX事件非功能不可用,緊急程度較低,決策后確定納入0705迭代中發布,故處理問題耗時較長(xxxmin)【質量分析】逃逸生產問題分析:u【支付域】XXXXX問題【原因分析】測試用例對需求的覆蓋面不全,考慮不足【后續規避措施】提高用例細致以及明確程度,保證用例覆蓋范圍,提高測試用例覆蓋率u【支付域】XXXXX問題【原因分析】
9、從實現邏輯評估,研發改動不會涉及xxx普通轉入,在未收到研發改動影響提示下,回歸案例僅覆蓋xxx普通轉入主流程【后續規避措施】1)xxx普通轉入接口自動化用例,失敗結果增加檢查點,檢查xxx上報的xxx含有主關聯關鍵字+狀態未失??;2)組內周會復盤分享u【活動域】XXXXX問題【原因分析】測試用例對需求的覆蓋面不全,考慮不足【后續規避措施】測試用例設計需覆蓋異常場景,增加場景用例到CML全年逃逸率降低至2.13%(上年度逃逸率:4.26%)榮獲線上質量獎,Q1季度所有線上問題均在30分鐘內解決全鏈路質效度量指標實踐:線上全鏈路質效度量指標實踐:研發過程內某業務線試點:提升集成成功率【實施方案】
10、制定初步集成異常試行規則 質量月會中進行全員宣導,啟動試點 集成異常指標接入質效監控平臺 啟動異常數據監控、異常提醒 試行期改進建議收集,規則調優 數據晾曬、異常分析,驅動改進試點業務線宣導質量月會數據晾曬集成異常:單次集成變更1000行以上(試行),則初步判斷為異常集成異常TOP10:單次集成變更代碼行最大TOP10升級方式:每周五【集成異常TOP10】郵件推送至 XXXX試點建議收集集成異常:集成變更1000行以上/次或集成次數超過3次/天(試行),則初步判斷為異常則規則持續調優觸發異常提醒無規則第1階段試點規則第2階段試點規則2022.11-2023.5全鏈路質效度量指標實踐:研發過程內
11、某業務線試點:提升提測及時性及有效性【實施方案】規劃上下游關鍵卡點的度量指標研發交付周期、提測及時率、提測一次通過率啟動度量指標培訓及試點 依據第一批試點的基線數據設定初步目標值,針對未達標指標驅動下鉆分析 未達標TOP質量月會晾曬度量指標規劃【效率提升】自2022年11月起穩定保持在15個工作日左右(2022.10前:20工作日+)宣貫培訓、啟動試點未達標TOP團隊下鉆分析全鏈路質效度量指標實踐:研發過程內某業務線試點:提升單測覆蓋率【實施方案】啟動單測宣導及培訓 制定單測覆蓋率目標,并納入OKR 接入代碼健康度看板,實時觀察覆蓋情況 未達標TOP排行榜展示(職場大屏、質量月會)數據晾曬、異
12、常分析,驅動改進(待納入)單測宣導及培訓未達標TOP排行榜接入代碼健康度看板行覆蓋率:50%(第一階段目標)分支覆蓋率:60%85%(暫未啟動,預估值)函數覆蓋率:100%(暫未啟動,預估值)單測覆蓋率目標u業務線指標設置原則:改進為主,問責次之,鼓勵式驅動全員質量自主性全鏈路質效度量指標實踐:研發過程內70個應用服務單測覆蓋率高于50%集成成功率 2022 55.6%2023(當前)76%96.27%的應用服務Sonar問題數(阻斷及嚴重)為0實際案例:某業務線 研發過程度量下鉆分析04智能質效管理智能質效管理平臺建設平臺建設u我是戰術沙盤,也是風險雷達過程、產出看的見,決策所需我都有,助力
13、“排兵布陣”,促進成本管理和資源匹配風險預警、協作阻塞,統統幫你發現管理者執行者組織管理u工作更高效,產出更高質過程透明,問題直觀,持續改進,不斷提升疏通上下游擁堵,減少工作并行,工作更專注u建立有效的自管理生態通過團隊自組織與自管理更大程度激發成員主觀能動性,釋放更多創造力長遠視角下,組織整體的管理成本將大幅下降讓過程可見,讓問題透明,讓改進持續KO會,目標對齊2022.9.192022.10.112022.10.142022.10.20研發效能度量體系建立效能度量白皮書初稿評審開發進度評估輸出整體項目計劃效果展示定稿Demo驗收測試2022.11.10二期上線 (全量指標體系)生產驗收 一
14、期上線(北極星指標)2022.12.10智能質效管理平臺建設(V1.0):目標和計劃【趨勢觀測】支持數據環比、數據同期比,可實時觀察研發全過程走向及趨勢【追根溯源】支持數據下鉆,實現一鍵追溯原始數據,精準定位異常數據【指標自助】針對不同的關注重點,提供指標自配功能,所有復合指標均可自由定制【風險預測】實時監測質效心跳,實現質量風險預警,質量異常推送質效管理平臺智能質效管理平臺建設(V1.0):效果展示智能質效管理平臺建設(V1.0):效果展示u亮點一【趨勢觀測】支持數據環比、數據同期比,可實時觀察研發全過程走向及趨勢 分析維度:迭代、業務線、一級域常用角色:業務線領導、PM、一級域leader
15、智能質效管理平臺建設(V1.0):效果展示u亮點二【追根溯源】支持數據下鉆,實現一鍵追溯原始數據,精準定位異常數據 分析維度:迭代、業務線、一級域常用角色:PM、一級域leader、一線工程師故障臺JIRA智能質效管理平臺建設(V1.0):效果展示u亮點三【指標自助】針對不同的關注重點,提供指標自配功能,所有復合指標均可自由定制常用場景:多業務線,可根據不同業務線的成熟度進行指標的裁剪優化智能質效管理平臺建設(V1.0):效果展示u亮點四【風險預測】實時監測質效心跳,實現質量風險預警,質量異常推送健康度級別規則上升機制異常推送范圍推送方式高健康度分級表異常處理人、QA、PM郵件推送群提醒直屬l
16、eader/所在一級域架構師、QA、PM中低業務線研發總監、運維總監、QA、PM質量指標【集成異?!啃苤笜恕旧a問題處理時長】系統自動化對指標數據掃描檢查快速分診高健康度中健康度低健康度診斷建議團隊復盤輕量建議經驗沉淀數據分析定制改進方案人工診斷改進效果評估指標項指標定義健康度分級自動檢查頻率高中低需求交付周期需求從等待KT至需求發布上線的時間周期10個工作日10個工作日15個工作日15個工作日迭代/次產研交付周期研發啟動需求開發至需求發布上線的時間周期8個工作日8個工作日12個工作日12個工作日迭代/次集成異常1)單次/人 提交峰值超過1K行2)單日/人 集成次數超過3次代碼行集成次數=1
17、次待評估代碼行1K集成次數3次天/次線上逃逸率生產環境出現的問題數(含故障)/線上線上有效問題總數1%1%3%3%迭代/次月度/次線上缺陷密度(計劃2022.H2新增)統計周期內,生產環境出現的問題數(含故障)/交付上線的需求數待評估待評估5%迭代/次月度/次健康度分級、健康度檢查*快速分診及質量診斷兩大板塊建設中(計劃2022.H2上線)智能質效管理平臺建設(V1.0):目標和計劃智能質效管理平臺建設(V1.0):效果展示全局診斷質效概述簡報北極星指標本期新增指標趨勢環比同期比線上、迭代、團隊智能質效管理平臺建設(V1.0):效果展示線上質效迭代質效團隊質效質效數據看板趨勢環比同期比低健康度
18、預警定位診斷智能質效管理平臺建設(V1.0):效果展示人工診斷建議推送共性問題診斷卡片推送健康度掃描預警05成果及展望成果及展望年度故障數環比同期下降71%(減少xx個)2022.4月、5月連續兩個月故障清零(首次)全年無P1-P3級故障全年系統可用性達99.95%+70個應用服務單測覆蓋率高于50%96.27%的應用服務Sonar問題數(阻斷及嚴重)為0集成成功率 2022 55.6%2023(當前)76%上線前成功攔截有效bugxxxx個全年逃逸率降低至2.13%(2021逃逸率:4.26%)60%+的bug在1個工作日內修復完畢持續交付 提升工程能力保障質量 用戶體驗為王年度戰果質效提升
19、成果展示質效提升成果展示2022年度質量效能喜報2022年度線上質量獎2022年度研發過程獎質量3.0度量指標自動化,指標自助化,人人關注指標,人人用好指標。診斷深入不同的Feature Team,針對性的設立改進方案,好則推廣,差則改進。一體化串聯單點工具,持續打磨體驗,一站式完成所有工作,質量無處不在。質量2.0故障臺所有質量管理工作線上化,自動拉群,自動周知,自動跟催。質量左移推進單測、CR、自動化測試落地,質量左移,盡早暴露問題。持續集成小批量更新,持續集成,全面落地流水線和質量門禁,內建質量。質量1.0流程重構重構流程,二次發布,形成共識,規范化研發、質量、變更、應急響應。明確獎懲明確定級機制,設立質量獎項,有獎有懲,意識提升。工作閉環深度復盤,強跟進改進措施落地,閉環工作,持續改進。下一步展望下一步展望持續改進之路,需要大家的支持,期待更多的交流眾安國際技術公眾號感謝聆聽關注QECon公眾號