《1-彭晶-從談度量’色變’到度量成為日常研發的晴雨表.pdf》由會員分享,可在線閱讀,更多相關《1-彭晶-從談度量’色變’到度量成為日常研發的晴雨表.pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、從談度量色變到度量成為日常研發的晴雨表2023.7 北京彭晶彭晶負責AI、大數據開發團隊的質量保障、測試體系建設、測試工具平臺的規劃及落地負責壽險科技研發度量體系建設及度量平臺的規劃落地平安壽險總部 質量管理團隊 測試經理嘉賓照片目錄CONTENTS面臨現狀:談度量色變,只增工作量,不增質效?01 改變觀念:讓度量成為工具,而不是負擔02 搭建體系:從被動要求的度量到我們需要什么樣的度量03 深入應用:能有效發現問題的度量才是好度量04 獲得認可:度量成為日常研發過程的晴雨表05 01面臨現狀:談度量色變,只增工作,不增質效?研發度量的必要性1/2傳統金融公司的IT研發團隊同樣需要基于研發度量
2、持續推動質效改進IT行業發展需求1.無限的需求和有限的資源沖突2.研發人員規模的邊際收益遞減經濟發展大環境需求1.經濟向下背景下降本增效的要求2.業務需要更清晰的研發效能數據透視投入產出比組織自身發展需求1.數字化背景下研發過程的數字化成為必然趨勢研發度量的必要性2/2生產問題多,技術團隊交付質量差技術團隊響應慢,需求積壓業務方的抱怨需求質量差、文檔不清晰、澄清需求耗時多臨時插入需求需求變更頻繁測試驗收缺陷不及時開發的抱怨需求/技術方案變更未同步提測質量差,冒煙測試不通過提測延期了,壓縮測試時間缺陷修復未自測,反復驗證測試的抱怨一直在說人不夠、很忙很忙,但是業務方反饋需求積壓、響應慢,不知道你
3、們在忙什么業務經常投訴生產問題很多管理者的抱怨實際研發中遇到的各種問題,需要通過度量數據來找到背后的原因金融公司的特點:管控?VS改進?集團研發管理要求各子公司研發團隊統一的指標庫,標準一刀切公司級QA,如何落地?被動接受任務結果:達成任務?vs 研發最佳實踐?任務的方式強制推動指標設計的挑戰落地的挑戰角色分工的特殊性:研發質效改進缺乏統籌角色不同角色的職責定位不同,關注局部,缺乏整體研發質效閉環的統籌角色02改變觀念:讓度量成為工具,而不是負擔打破角色分工的約束,重塑質量團隊的職責1.測試崗位的特殊性,天然具備研發全流程質量把控的優勢2.獨立的質量團隊具備資源整合和協調推動的優勢開展業務測試
4、需參與從需求評審到生產上線的全過程處于鏈條末端,熟悉全流程的研發規范生產質量是質量保障的最終的交付結果對過程質量的管理和分析,可以推動整體的效率和質量左移基于質量團隊的角色優勢,由質量團隊來牽頭度量體系建設工作,統籌推動研發質效改進讓度量成為工具,而不是負擔度量指標重點在于推動研發質效問題的發現和改進,不是為了完成任務03搭建體系:從被動要求的度量到我們需要什么樣的度量迭代過程質量管理現狀問題分析及改進只局限于各開發團隊內,經驗難以復制,無法改善科技整體的研發質量基線各團隊獨立行為實施情況依賴于各自組織者成熟度不足之處指標項選擇不同相同指標口徑不同手工統計分析腳本或工具平臺統計分析不同團隊存在
5、從0到1的重復建設數據只能應用于各自團隊內,無法應用于分析科技整體情況最佳實踐在科技整體層面推進無抓手經驗教訓難以復制指標或口徑不統一采集統計方式不統一體系或平臺重復建設數據無法互通無法推動整體改進線上質量管理現狀問題分級缺少支撐問題改進缺少目標定級不統一、邊界模糊問題處理流程在消除異常后就終止缺少整體性的復盤分析及改進治理改進無法持續質量變化趨勢缺少數據下鉆效果無法評估線上問題數據分散在各個平臺部分問題缺少記錄或線下維護缺少數據底座缺乏統一的定級標準、統一的問題管理、統一的問題復盤及改進,無法掌握全局線上質量情況研發生命周期關鍵活動需求階段需求階段需求評審需求變更開發階段開發階段開發提測設計
6、代碼評審用例設計評審測試階段測試階段冒煙測試系統測試UAT測試抓到一個是一個?抓到一個是一個?生產運營階段生產運營階段業務驗收告警與監控運營配置管理發布階段發布階段發布評審版本驗收質效問題覆蓋從需求到生產運營階段的研發全生命周期各個關鍵活動,需分別建立度量指標度量體系建設路徑推推動動質效質效改進改進合理合理設計設計有有效牽引效牽引.數據驅動數據驅動持續改進持續改進透明質量透明質量了解現狀了解現狀指指標設計原則標設計原則1.借鑒行業經驗,立足自身實際需求2.廣泛溝通,達成一致3.兼容不同團隊應用類型及發展階段指標體系內容指標體系內容1.覆蓋需求到生產全研發周期2.結果指標、過程指標的分層指標體系
7、3.團隊、分組、項目等不同維度聚合指指標標設設計計指指標標開開發發指指標標推推廣廣應應用用指標應指標應用用1.月度溝通機制,共同挖掘指標數據背后的問題并改進閉環2.先內(IT)再外(業務)充分宣充分宣導導1.指標口徑公示、研發操作規范宣導2.指標接口人機制,傳達并執行客觀客觀有有效效準、快準、快指指導導改進改進指標數據準確性指標數據準確性1.統一研發流程及操作規范2.統一線上問題定級標準及處理規范度度量指標開發量指標開發1.基于統一數據源,指標數據自動統計2.可視化度量平臺,支持數據下鉆分析建立端到端的質效度量指標體系階段成果三層指標:發現問題,及時行動,經理/骨干需求缺陷率準時提測率嚴重缺陷
8、率冒煙執行率冒煙通過率缺陷Reopen率缺陷修復時效缺陷驗證時效回歸接口自動化率一次通過率發布驗證缺陷數缺陷消除率結果指標需求變更率臨時需求率故障恢復時長構建成功率有效缺陷率構建時長測試缺陷數關鍵過程指標葉子指標規劃上線率掃描修復率監控發現率一層指標:全局牽引,看質量好壞,高層/部門長二層指標:分析改進,實施管理動作,部門長/經理UAT驗收執行率需求階段需求階段開發階段開發階段測試階段測試階段發布階段發布階段生產階段生產階段嚴重缺陷數非嚴重缺陷數設計覆蓋研發全周期、五種角色(業務/產品、開發、測試、運維)、分層的指標體系,端到端透明質量大盤質量左移質量右移1、指標不用于考核,僅用于改進2、指標
9、力求:有效 準 快3、用 結果指標 衡量好壞,宏觀改進4、用 過程指標 發現偏差,及時修正5、先內(科技)再外(上游業/產)指標應用原則:統一生產問題定級標準現狀:1.只有集團統一的兩檔事件定級標準,粒度粗、跨度大2.高級別事件發生概率小、一般級別問題無細化標準,科技各團隊間問題定級不統一細化一般事件定級標準細化一般事件定級標準補充細化集團異常事件定級標準,形成壽險科技各團隊間的問題定量認知對生產問題嚴重性分級,聚焦嚴重問題,深層、系統化改進XX跨行業跨行業YYA級事件(特別重大)略略NNN萬元略略略略略略略略略B級事件(重大)略略MMM萬-NNN萬元略略略略略略略略略C級事件(較大)略略PP
10、P萬-MMM萬元略略略略略略略略略1級事件(有業務影響)2級事件(無業務影響)重大事件一般事件不滿足以上條件的事件,此為最低級別,不會對公司的XXXX造成影響或影響較小且不會對公司的XXX構成威脅FFFFAAAAAAAABBBBGGGGHHHH影響條件 通用GGAAAABBBBCCCCDDDDEEEEBBBBXX團隊團隊AAAABBBBCCCCDDDDEEEEBBBBP1略略M萬-Y略/M萬-BP2略略Y-Z略/B-CP3略略Z-M略/C-DP4略略M-N略略D以下P5略略N-P略略/P6略P以下略略/P7略/略略/影響條件通用嚴重生產缺陷一般生產缺陷輕微生產缺陷略生產缺陷(損失定級)搭建研發
11、質效平臺質慧平臺數智化解決方案質慧平臺數智化解決方案產品層產品層業務業務邏輯層邏輯層流程管理模塊流程管理模塊質效度量模塊質效度量模塊線上問題治理模塊線上問題治理模塊PA機器人機器人支持層支持層中間件中間件算法算法第三方基第三方基礎礎平平臺臺KafkaKafkaRedisRedis協同過濾協同過濾特征工程特征工程研發研發協作平臺協作平臺xxxxxx研發流程管理研發流程管理質效度量與洞察質效度量與洞察多維數多維數據查詢據查詢質量月度報告質量月度報告MySQLMySQL安安全開放平臺全開放平臺xxxxxxxxxxxxxxxxxx接接口自動化平臺口自動化平臺xxxxxxMongoDBMongoDBxx
12、xxxx聚類聚類/回歸回歸ClickhouseClickhouse流程協作報告流程協作報告門禁卡點門禁卡點發布審批發布審批流程編排流程編排風險畫像風險畫像質質效風險提醒效風險提醒線上問線上問題治題治理理線上問題同步與錄入線上問題同步與錄入統計分析統計分析復盤工單復盤工單數據同步模塊數據同步模塊登錄鑒登錄鑒權模塊權模塊壽壽險險研發管理規范研發管理規范軟軟件研發管理規范件研發管理規范集團集團ITIT開發管理規開發管理規范范研發標準流程規范研發標準流程規范壽壽險測試過程管理規范險測試過程管理規范需求管理規需求管理規范范質質量度量指標體系量度量指標體系生產生產缺陷定義分級標準缺陷定義分級標準線線上問題
13、根因定義上問題根因定義PA機器人機器人質效數據查詢質效數據查詢流流程任務操作程任務操作組織架構組織架構基礎架構基礎架構度量指標平臺化管理注明:非真實數據生產問題平臺化管理注明:非真實數據問題名問題名項目名稱項目名稱版本計劃版本計劃報告類型報告類型問題等級問題等級發現渠道發現渠道測試人員測試人員問題開始時間問題開始時間問題發現時間問題發現時間預計解決時間預計解決時間實際解決時間實際解決時間問題跟進人問題跟進人問題詳細描述問題詳細描述修復方案描述修復方案描述緊急回退線上試點版本,并推送更新回退到上一正式版,登陸失效問題待定位問題影響程度問題影響程度XXXX:暫未確定XXXX:0,無XXXXXXXX
14、:XXXXXX:2434XXXX:暫未確定李平安更新“愛平安”APP 6.20.1版本后體驗正常,但第二天再使用時提示登陸態過期,無法重新登陸,始終提示登陸失敗,并彈出到登陸頁面,該版本為深圳機構試點版本?!镜顷憽康顷懩K失效,反復攔截至登陸界面愛平安項目客戶登陸AA-BBB-CC 7.07.10線上問題未確定主動發現-生產環境體驗李平安 2023-7-12 0:002023-7-12 0:002023-7-122023-7-12 12:05李平安04深入應用:能有效發現問題的度量才是好度量質效數據驅動問題改進最佳研發實踐規范化的協作流程、質效工具鏈的應用等研發最佳實踐驅動改進制定改進措施,團
15、隊個性化問題改進、科技整體的最佳實踐研發規范的推廣、質效平臺的功能完善等質效度量采集并統計度量指標數據,呈現不同維度、不同階段、不同角色的研發實踐質效數據質效問題洞察針對異常度量指標數據,洞察分析找到問題原因優化驅動洞察采集度量數據流轉關鍵節點度量指標數據 迭代過程問題分析線上問題Reivew 質量報告 質量月度溝通改進措施實施質量報告質量溝通迭代過程數據分析注明:非真實數據1月2月3月4月5月6月監控發現率0200040001月2月3月4月5月6月版本/特性數/缺陷數版本數特性數測試缺陷數0.00%5.00%1月 2月 3月 4月 5月 6月需求缺陷/變更率需求缺陷率需求變更率0.00%2.
16、00%4.00%6.00%8.00%1月 2月 3月 4月 5月 6月缺陷reopen率0.00%5.00%10.00%15.00%1月 2月 3月 4月 5月 6月嚴重缺陷率-L1/L21月2月3月4月5月6月提測質量冒煙測試執行率冒煙測試通過率準時提測率01月2月3月4月5月6月缺陷修復/驗證時效缺陷修復時效L1缺陷修復時效L2缺陷修復時效L3缺陷驗證時效L1缺陷驗證時效L2缺陷驗證時效L382.00%84.00%86.00%88.00%90.00%92.00%94.00%96.00%1月 2月 3月 4月 5月 6月一次發版通過率生產問題REVIEW機制132 復盤準入要素 專家評審 案
17、例抽象、提取、打標典型案例典型案例 問題相關方回溯 評估影響 澄清問題根因 產出改進方案 聯合澄清聯合澄清 問題渠道匯總 風險版本告警輔助識別問題錄入與輔助問題錄入與輔助漏斗與反向漏斗漏斗與反向漏斗正向:錄入-澄清-案例反向:案例-關聯-推廣(規范)4 案例與線上問題關聯 線上問題與案例匹配關聯圖譜關聯圖譜5 規范推廣 案例警示 開發團隊月度溝通 推廣與反饋推廣與反饋線上質量分析注明:非真實數據6月5月4月3月2月1月線上問題分布線上問題分布重大事件P1P2P3P4P56月5月4月3月2月1月線上問題線上問題驗證攔截率驗證攔截率6月5月4月3月2月1月線上問題根因趨勢線上問題根因趨勢開發設計用
18、例設計用例執行需求問題配置問題開發夾帶第三方運營配置流程規范3-3-49-32線 上問題數變化線 上問題數變化1.69%1.75%2.02%1.13%2.45%1.92%生 產測試缺陷生 產測試缺陷比比趨勢趨勢測試缺陷生產缺陷比2.3%1.9%2.2%1.2%2.5%2.0%特 性問題密度特 性問題密度趨勢趨勢發布特性特性問題率構建質效分析報告質量月度溝通會review質效數據并制定改進措施2023-05-1014:0016:00李平安結論:項目經理在版本排期時盡量錯開,避免多個項目同一天發版。6、意見&建議征集與討論【李總】目前研發團隊每個月會開展一次線上問題復盤會,挖掘線上問題根因和改進措
19、施,但尚缺乏從流程規范角度的思考,負責人重視程度不夠,對生產問題沒有足夠的敬畏。關于生產問題定級,需要更慎重,考查角度可以更全面合理【小郭】測試需要跟開發對齊生產問題,保證理解一三、跟進項無【李總】關聯系統的確存在不規范,以采購供應商,或服務級別低等為理由開脫?!拘∨怼啃枰獙栴}進行升級和追蹤。4、項目人力投入情況分析與討論【小彭】闡述重點項目測試人力投入情況,整體正常,暫無風險?!拘」繌娬{需要挖掘問題產生的根因,才能真正解決問題結論:針對分析平臺的問題,需要從系統架構設計和流程規范角度做深層思考,并制定改善措施(如是否需要進行神兵空間拆分?)*缺陷reopen率有待進一步優化,需要注意加強
20、研發自測。*缺陷驗證時長有明顯改善。*生產監控發現率66.67%:共計3個生產問題,通過監控發現2個,使問題第一時間暴露和解決。3、線上問題分析與討論一、會議議程1、往期跟進事項review2、度量指標數據分析與討論3、線上問題分析與討論4、項目人力投入情況分析與討論5、流程/協作類問題分析與討論會議紀要會議主題愛平安研發團隊3-4月質量月度匯報會議時間會議地點AIPINGAN6665、流程/協作類問題分析與討論【小李】3-4月新增1個問題,關于發版日過于集中帶來的人力沖突風險。*討論問題1:組件內存飆升,23:46進行重啟,重啟一直不成功,2點15后才啟動恢復正常,期間影響客戶身份識別。2、
21、度量指標數據分析與討論*嚴重缺陷率中,愛平安項目分析平臺涉及較多。提出分析平臺嚴重缺陷多的原因究竟是什么?到底是研發質量問題?還是系統太龐大或設計不合理?需要深入分析原因來找到解決方案。6、意見&建議征集與討論二、會議內容1、往期跟進事項review略參會人員郭平安,彭平安,謝平安,高平安請假人員無主持人記錄人李平安質效報告整理質量月度溝通質效問題分析改進措施制定改進效果檢視測試報告測試報告測試結論測試風險發布門禁發布門禁發布策略回歸策略發布檢查清發布檢查清單單配置移交配置移交編譯部署流水線配置測試測試CheckList生產驗證報告發布評審發布評審生產部署生產部署發布驗證發布驗證迭代過程問題改
22、進-案例發 布 過 程 存 在的 各類 問題 導致 發 版意 味 著 熬 夜 加班,特 別是 新系統 部署 過 程 多 次 重復 發現 問題、修改、部 署、發 現 問題、修 改、部署 發布流程迭代優化發布流程迭代優化 發版發版=熬夜熬夜?過程過程指標異常檢視指標異常檢視存在安全檢查遺漏-添加發布門禁存在發布檢查遺漏-補充發布檢查清單配置移交錯誤-全系統推動流水線部署覆蓋遺漏驗證點-完善回歸案例集生產問題改進-案例從“坑”到“補”從“坑”到“補”反復出現的共性問題,挖掘共性問題的價值,并監控價值收益A團隊某線上問題根因分析為“配置文件”問題次月再次出現類似問題升級專家評審,復盤改進措施合理性補充
23、配置更新規范制定存量配置梳理計劃質效平臺持續監控“配置原因”問題占比波動數據可匯總數據可匯總規范可制定規范可制定要求可推廣要求可推廣效果可追溯效果可追溯05獲得認可:度量成為日常研發的晴雨表度量體系的推廣及應用情況覆蓋科技覆蓋科技90+%開發團隊05101520問題分類與進展已完成進行中持續跟進Xx月共形成71個改進項,問題解決率:73.24%開展20+次月度質量溝通 開展6次線上問題review,復盤52個問題度量指標數據的變化缺陷reopen率準時提測率嚴重缺陷率一次發版成功率度量指標應用場景拓展01質效改進02各級管理需求03工程師評獎04監測指標體系研發質效度量及改進各級管理者對質量情
24、況的整體了解、改進指導公司內工程師文化打造及榮譽評獎線上質量的結果指標應用于對各團隊的研發質量監測未來規劃-構建洞察分析模型&平臺化1 研發過程數據2 指標數據3 指標數據分析4 分析結論泛化5 智庫更新6 下鉆的維度遍歷與指標趨勢匹配7 更高維度的結論抽象8 指標組合9 遍歷組合分析數據并得出結論未來規劃-線上質量風控發布版本監測發布版本監測針對生產環境重復部署重復部署,或者不符合常規發版節奏的臨臨時版本時版本審查,未關聯問題錄入的版本需澄清異常行為原因153271月份2月份3月份4月份5月份重復發版臨時版本業務業務&運維告警運維告警與版本發布同步更新業務的運營告警指標運營告警指標、運維的異
25、常異常日志監控指標日志監控指標穩定期日志告警運營告警2023年5月A產品穩定性占比56%30%19%風險預警風險預警 基于前6個月份監控及告警趨勢,結合發布版本、運營爆點和法定節假日等因素,預警下一個月份整體整體質量風險質量風險、高風險產品高風險產品及重要業務風險等級重要業務風險等級。核心業務質量整體質量風險(亮燈)預測指標預測指標注明:非真實數據系統性風險點2023全年各系統監控數據全年各系統監控數據未來規劃-線上質量監控數據看板產品線產品線發布版本數發布版本數開發成本開發成本異常版本異常版本告警告警數數(C)質量評分質量評分產品A26632人天566產品B13340人天4276產品C489
26、81.5人天111,451產品D22748.5人天2315產品E25452人天2298注明:非真實數據未來規劃-案例知識圖譜質量質量活動共建活動共建和開發團隊共同挖掘問題價值,拓展問題相關背景技術知識點、優化通用開發設計規范等1月份2月份3月份4月份5月份開發錄入測試錄入圖譜結構建模圖譜結構建模挖掘問題數據實體、屬性與關系,構建案例圖譜結構Schema層級結構56%30%19%注明:非真實數據案例檢索與關聯案例檢索與關聯根據案例屬性與關聯,為開發定位問題提供可快速關聯相似問題的案例庫,為問題定位及解決提供參考方案案例關聯層次結構56%30%19%經驗總結自身改進 橫向對比廣泛的溝通和宣導研發協作流程的在線化避免內卷,指標數據真實性和關聯各方構建一致的目標,減少落地中的阻力協作規范性、工具鏈逐步平臺化,助力提質提效經 驗梳理團隊現狀及痛點逐步完善度量指標解決最痛的問題,證明有效,再逐步拓展不追求大而全,基于現狀分階段逐步完善感謝聆聽關注QECon公眾號