《靈跡(Dynatrace):2022年網站可靠性工程現狀報告(46頁).pdf》由會員分享,可在線閱讀,更多相關《靈跡(Dynatrace):2022年網站可靠性工程現狀報告(46頁).pdf(46頁珍藏版)》請在三個皮匠報告上搜索。
1、網站可靠性工程現狀報告2022 版本調查報告由 Dynatrace 提供網站可靠性工程現狀 2022 版2隨著組織尋求駕馭云自動化以加快數字化轉型,網站可靠性工程(SRE)已經走上了中央舞臺。大多數組織在采用網站可靠性工程時仍處于相對不成熟的階段,網站可靠性工程是一個經常被誤解的專業。首先,網站可靠性工程涉及創新、教育及賦能。它推動開發團隊之間的一致性并為共同合作提供支持以確定最佳實踐,使團隊能夠跨專業進行規?;淖詣踊幚?,以符合組織的業務、安全、質量及性能目標。開發流程的自動化、服務水平目標(SLO)的配置,或者避免超出錯誤預算的修復和解決方法的制定,不能完全由一個團隊負責。也不能只由一個
2、團隊來分析漏洞或者建立自行修復、深入應用和基礎設施的可觀測能力。如果所有這些工作都由一個團隊完成,網站可靠性工程將成為又一個傳統運維或安全職能。網站可靠性工程正在演變為更具戰略性的角色,側重于為開發團隊配備他們推動當今開發和創新所需的工具、數據及能力。網站可靠性工程還具備有利條件幫助組織應對各種新挑戰,例如在云原生交付過程中的新技術、語言、平臺及工具的發展,這些領域出現了復雜性大爆發。目前,在云原生計算基金會(CNCF)生態體系中有 1,000 多種解決方案,數量多到任何單獨的開發人員或團隊都無法管理。因此,各種軟件開發群體不斷涌現,他們擁有零散的知識、工具及喜好。這樣就有可能對可觀測能力、自
3、動修復及漏洞管理采用某種標準方式,而這在整個開發生命周期中推進可靠性是不可或缺的。因此,為網站可靠性工程定義一條“金光大道”至關重要開發團隊可以采取的一組關鍵步驟駕馭這些復雜性、實現他們的目標,無論他們使用什么樣的工具。涵蓋開發安全運維生命周期的自助服務式可觀測能力的可用性以及監測即代碼方法至關重要,它們使得開發團隊只需幾次點擊即可在其應用內建立反饋回路。這樣,網站可靠性工程將率先由基礎自動化階段進入到客戶體驗和業務成效的智能調度階段。通過自動修復云應用、迅速根據業務需要擴充,同時自動做到既可靠又安全,這將賦能開發團隊以前所未有的速度推動轉型。本報告剖析了當前網站可靠性工程成熟度,識別出組織在
4、錯綜復雜的云原生開發中正在應對的關鍵發展趨勢和挑戰。這份報告展示了來自世界各地組織的 450 個網站可靠性工程的匯總數據,獲得了來自這些推動可靠性最佳實踐的第一手經驗。我希望您能從這些內容中找到有價值的見解,幫助您定義自己的金光大道,讓網站可靠性工程更上一層樓。BerndGreifeneder Dynatrace 創始人兼首席技術官前言網站可靠性工程現狀 2022 版3Contents引言執行概要.4第 1 章網站可靠性工程的發展.5第 2 章服務水平目標的角色.16第 3 章網站可靠性工程成功的關鍵.32結束語.44方法論.45網站可靠性工程現狀 2022 版4網站可靠性工程日漸成熟,但成熟
5、的速度還不夠快 隨著組織對網站可靠性工程的戰略價值理解加深,網站可靠性工程師(SREs)越來越受到歡迎。但這些人供不應求,因此找到支持、促進其工作的方式至關重要。網站可靠性工程實踐日益成熟,由于實踐者越來越多地參與屬于生命周期初期的架構設計、軟件開發及測試過程,這些實踐正緩慢地“前移”。這些實踐還促進了開發安全運維實踐的普及,從而確保安全在開發生命周期的各個階段成為重中之重,但這些趨勢需要提速。服務水平目標對于網站可靠性工程不可或缺,但難點在于充分發揮其全部潛能 盡管發展的重點放在衡量成功的服務水平目標(SLO)上,但幾乎所有的網站可靠性工程師都表示,定義和制定這些服務水平目標是一個嚴峻挑戰。
6、但其中的大部分問題屬于戰術問題,有了正確的方法就很容易克服。評估服務水平目標仍是一個混亂的過程,需要在整個組織內以更統一、更有效的方式去定義和實施,這是因為許多組織對于服務水平目標的歸屬仍不明確,將太多的難題都甩給了網站可靠性工程師。為獲得成功必須加倍努力減少網站可靠性工程實踐的繁重工作 在網站可靠性工程實踐中,自動化的應用越來越普遍,但效果有好也有壞。組織必須找到差異并運用戰略和解決方案,以提高其網站可靠性工程師的生產率。人工智能運維和一體化可觀測能力解決方案對于將網站可靠性工程實踐擴大到整個組織日益重要,但不能只是將它們作為現有工具鏈之上的一層。執行摘要本報告基于對 450 個網站可靠性工
7、程的全球調查,涵蓋各種類型的行業,為網站可靠性工程(SRE)這門學科如何發展提供了絕無僅有的視角。本報告揭示了在哪些領域存在著需要克服的挑戰,在數字化服務的可靠性、安全性及韌性成為商業成功的首要因素的世界里網站可靠性工程的未來面貌。我們將深入探討的一些主要調查結果包括:網站可靠性工程現狀 2022 版5網站可靠性工程處于接受曲線的早期階段網站可靠性工程勢在必行,但組織之間存在著差距。組織需要將他們的方法轉變為網站可靠性工程,因為只有五分之一(20%)的組織聲稱擁有了成熟的實踐。此外,88%的網站可靠性工程師表示,與三年前相比,現在更多的組織認可了他們對于商業成功的戰略重要性。第1章網站可靠性工
8、程的發展網站可靠性工程現狀 2022 版6第 1 章:網站可靠性工程的發展目前您的組織處于網站可靠性工程(SRE)歷程的哪一個階段?6%32%42%20%不成熟 我們尚未正式實施網站可靠性工程,但盡量遵循網站可靠性工程原則初級階段我們已在最近兩年實施了網站可靠性工程實踐,所以尚處于初級階段成熟中我們已經實施網站可靠性工程實踐兩年以上,正在不斷地推進我們的方法高級階段 我們已經實施網站可靠性工程實踐五年以上,正在采用高級的網站可靠性工程原則網站可靠性工程現狀 2022 版7 7第 1 章:網站可靠性工程的發展主題 1縮短平均修復時間一直高居網站可靠性工程任務單榜首網站可靠性工程師始終致力于改進生
9、產系統的可靠性,其中縮短平均修復時間(MTTR)是他們的首要任務。然而,大多數(60%)網站可靠性工程師發現,自己的大部分時間被構建和維護自動化代碼消耗掉。盡管提高自動化程度是關鍵目標,但如果實現這一過程既艱難又費時,由自動化所帶來的效率就會喪失殆盡。其中大多數問題源于網站可靠性工程團隊構建自動化開發運維工作流的方式。通常團隊會按具體情況處理,因為他們的工具不是自動化過程自帶的,不具備一切皆代碼的能力。因此,他們被迫在自己工具的最頂端構建一個自動化層。經過一段時間后,這就形成了一堆復雜的Web代碼,愈發難以擴大到整個開發運維流程。毫無疑問,網站可靠性工程師發現,如果他們不找到一種更高效的長遠方
10、法,未來他們會消耗越來越多的時間。這凸顯出需要網站可靠性工程師與開發運維團隊、開發人員及架構師共同合作,以確保軟件不僅要滿足業務需求,還要先天具有韌性、可做到自動化。這使團隊能夠輕松地將新的自動化功能與現有的工具和工作流進行整合,減少網站可靠性工程師的手工操作、改進工程實踐。網站可靠性工程最佳實踐:遠離手工、臨時的腳本,采用基于平臺的解決方案,擁有最新的自動化技術和一切皆代碼能力:支持從配置、測試到可觀測能力、修復的整個生命周期。的網站可靠性工程師表示,與三年前相比,現在更多的組織理解了他們對于商業成功的戰略重要性。88%網站可靠性工程現狀 2022 版8第 1 章:網站可靠性工程的發展以下哪
11、項工作讓您組織的網站可靠性工程師平均每周付出的時間最多?(所有的回答)縮短平均修復時間構建、管理自動化代碼確??焖侔l現并消除安全漏洞設計實驗并運行測試以減少生產環境發生故障的風險影響架構設計決策以確??煽啃院涂缮炜s性確保系統在出現異常時可靠運行設計實驗并運行測試以便根據用戶負載擴容插裝應用使其具備可觀測性67%60%58%52%51%48%48%43%網站可靠性工程現狀 2022 版9第 1 章:網站可靠性工程的發展主題 2轉變為由網站可靠性工程驅動的工程超過半數(51%)的網站可靠性工程師表示,他們花費大量的時間去影響架構設計決策以提高可靠性。這意味著在向著網站可靠性工程驅動的工程邁進,為組
12、織提高可靠性、韌性及安全性的工作提供支持。但還有很長的路要走。大多數成熟的網站可靠性工程實踐都有身經百戰的開發人員,并且有許多經驗教訓。他們懂得用什么來構建系統,可以從單個用戶擴容到一千,或者從一百萬擴容到一千萬。讓這些開發人員參加新系統的設計過程,從一開始就能為架構師在設計中納入可靠性提供意見。DevOpsSRE10網站可靠性工程現狀 2022 版網站可靠性工程的觀點:“網站可靠性工程是一種文化轉型,最終是要讓軟件運行得更好。到目前為止,我們發現的情況有時出人意料,比如需要便于存取的簡單文檔。文檔似乎與“網站可靠性工程”無關,但當你以知識為中心建立實踐時,如果不將這些知識保存到某個地方,你就
13、會遇到各種麻煩?!盨tephenTownshend,網站可靠性工程網站可靠性工程現狀 2022 版1111第 1 章:網站可靠性工程的發展主題 3安全是可靠性的核心支柱網站可靠性工程在將開發安全運維擴大到整個組織方面也取得了進展,可以確保根據發現的漏洞迅速恢復系統。超過三分之二(68%)的網站可靠性工程師表示,隨著組織不斷采用第三方庫用于云原生應用開發,他們希望自己今后在安全方面的角色變得更核心化。正如我們所看到的,鑒于 2021 年 12 月 Log4j 漏洞的發現,第三方代碼庫有可能包含重大的安全風險,而網站可靠性工程團隊在確保迅速識別并消除此類缺陷、為組織提供保護上發揮著關鍵作用。的網站
14、可靠性工程師表示,希望自己今后在安全方面的角色變得更核心化。68%網站可靠性工程最佳實踐不要事后才想起可靠性和韌性。這足以證明應將網站可靠性工程原則納入設計過程(即網站可靠性工程驅動的工程)。12網站可靠性工程現狀 2022 版第 1 章:網站可靠性工程的發展主題 4網站可靠性工程師必須能夠自由地實驗超過一半(52%)的網站可靠性工程師花費大量的時間設計實驗、進行測試,以期降低生產環境發生故障的風險,但只有十分之一的網站可靠性工程師強調這是他們的首要任務。鑒于實驗對于網站可靠性工程師的重要性,團隊仍需要想方設法確保他們能夠騰出更多的時間去完成這些任務。為使網站可靠性工程師更加成熟、創造更大的戰
15、略商業價值,他們必須精簡那些涉及密集手工操作的任務。13網站可靠性工程現狀 2022 版第 1 章:網站可靠性工程的發展23%縮短平均修復時間11%確??焖侔l現并消除安全漏洞10%設計實驗并運行測試以便根據用戶負載擴容10%確保系統在出現異常時可靠運行9%插裝應用使其具備可觀測性12%影響架構設計決策以確??煽啃院涂缮炜s性12%構建、管理自動化代碼11%設計實驗并運行測試以減少生產環境發生故障的風險對網站可靠性工程師的期望和需求與日俱增,這使他們的時間日益捉襟見肘以下哪項工作讓您組織的網站可靠性工程師平均每周付出的時間最多?網站可靠性工程現狀 2022 版1414第 1 章:網站可靠性工程的發
16、展主題 5需要更多地準許網站可靠性工程師優先進行戰略性工作盡管這一條在網站可靠性工程師任務優先級列表中排名相對較低,但 51%的網站可靠性工程師表示,組織鼓勵他們去做實驗,而且在四分之一(26%)的組織中即使項目失敗也被視為正常。這再次證明,其他的壓力有可能會分散網站可靠性工程師的精力,使得他們在實驗上花費的時間無法達到自己的預期。因此,組織必須尋求新的戰略和解決方案,以減少由網站可靠性工程團隊執行戰略價值較低的任務的需求。組織負責人還需要培養一種文化,不僅能接受失敗,而且理解“快速失敗、經常失敗”能提供最大的競爭優勢。為實現這一點,他們需要將網站可靠性工程從把 IT 看作是成本中心的傳統目標
17、中解脫出來。鼓勵網站可靠性工程師進行實驗,理解許多項目將不會帶來積極的結果IT 項目失敗被視為“正?!?,因為我們遵循 快速失敗、經常失敗 的敏捷原則制定了失敗預算來跟蹤并控制失敗對于項目失敗的接受度非常低51%26%14%9%在您的 IT 組織中如何對待網站可靠性工程師的項目失???網站可靠性工程現狀 2022 版15第 1 章:網站可靠性工程的發展主題 6可靠性工程受到表彰和獎勵網站可靠性工程師必須能夠自由挑戰公認的準則,為以創新為導向的設計和工程實踐制定新的基準。許多組織在這方面取得了長足進步,有針對網站可靠性工程團隊成功獎勵的辦法。近三分之一(31%)的組織通過黑客馬拉松來發明改進可靠性的
18、新途徑,為獲勝的網站可靠性工程團隊提供獎金。在鼓勵提升網站可靠性工程的商業戰略價值的實驗文化時,這些方法將成為關鍵。您的組織對可靠性工程有何表彰和獎勵?76%的組織對可靠性導致關鍵績效指標大幅提升的情況有具體的獎金/獎勵44%的組織對那些在處理緊急事務以外的業務方面有積極影響的工程師給予特別表彰31%的組織通過黑客馬拉松來提高可靠性并給予獎勵網站可靠性工程現狀 2022 版16服務水平目標已成為網站可靠性工程師的指明燈組織意識到在對服務水平的基本測量之外還要基于對業務有意義的指標制定目標的重要價值。除了要將主要精力放在服務水平目標上,超過半數(58%)的網站可靠性工程師采用開發運維研究與評估(
19、DORA)指標,該指標已成為在軟件開發和交付過程中識別所需改進之處的行業標準。第2章服務水平目標的角色網站可靠性工程現狀 2022 版17第 2 章:服務水平目標的角色網站可靠性工程師以指標為導向隨著網站可靠性工程日益成熟,團隊需要專注于識別他們測量成功的方法上的欠缺之處;尤其是在優化關鍵用戶歷程之時。這將使那些能夠提供真實用戶體驗詳細深入分析的可觀測能力平臺愈發重要,由此網站可靠性工程師不僅能看到后臺性能監測數據,還能了解哪些因素影響了用戶行為,從而推動業務成功。同樣地,這些平臺可以幫助他們準確地識別、了解是哪些應用在消耗錯誤預算、消耗的速率是多少,并量化這些問題可能對服務造成的整體影響?;?/p>
20、復服務時間組織從生產環境的故障中恢復所需的時長4 項關鍵指標網站可靠性工程是由指標驅動的,它的成功取決于可靠的指標。按照 DORA 的要求,這些指標包括(但不限于):部署頻次組織向生產環境成功發布的頻次更改前置時間提交進入生產環境所需的時長更改故障率導致生產環境發生故障的部署的百分比網站可靠性工程現狀 2022 版18第 2 章:服務水平目標的角色我們制定了服務水平目標(SLO)我們制定了目標與關鍵成果(OKR)、關鍵績效指標(KPI)我們采用來自服務提供商的服務水平協議(SLA)我們采用開發運維研究與評估(DORA)指標(例如恢復時間、部署頻次)我們使用能夠獲得的簡單監測工具您的組織如何評估
21、應用和基礎設施的服務水平?81%75%65%58%38%19網站可靠性工程現狀 2022 版網站可靠性工程的觀點:“沒有服務水平目標就沒有網站可靠性工程,就是這么簡單。服務水平目標是測量可靠性、系統及客戶的標尺。掌握它們就找到了通往網站可靠性工程成熟度的最快捷徑。如果服務水平目標成為衡量成功與否的方法,團隊之間就會更平等,大家都在為實現共同目標而努力的認同感也會更強?!盡ichaelCabrera,網站可靠性工程負責人網站可靠性工程現狀 2022 版2020第 2 章:服務水平目標的角色數據過多阻礙了制定服務水平目標盡管使用服務水平目標的情況不斷增加,99%的網站可靠性工程師表示定義、制定服務
22、水平目標存在挑戰。但這些挑戰主要是戰術性的,因此通過采用正確的解決方案相對容易解決。對于他們更具戰略性的挑戰,網站可靠性工程師應在與業界最佳實踐保持同步上投入時間,通過 Google 網站可靠性工程手冊之類的來源。持續檢查競爭對手和同行哪些作為其基準,有助于加深對服務水平目標的了解。在定義、制定服務水平目標時您的團隊遇到的最大挑戰是什么?不知道如何/從何開始16%!監測工具無法便捷地定義、跟蹤服務水平目標的性能歷史36%!不知道如何才能制定出良好的服務水平目標22%!不知道如何評估服務水平目標18%!指標過多,難以發現與特定服務最相關的指標54%!不知道跟蹤哪些指標18%!數據源過多,難以整合
23、各不相同的數據64%!的網站可靠性工程師表示,他們在定義、創建服務水平目標時遇到挑戰。99%孤島式團隊、復雜性與日俱增使得服務水平目標管理困難重重在定義、制定服務水平目標時,網站可靠性工程師要應對數據過多的情況。其原因通常在于團隊用來管理應用和基礎設施的監測解決方案和指標過多,而它們為網站可靠性工程師制定服務水平目標所提供的幫助有限。這不僅僅是制定服務水平目標的問題一旦定義了服務水平目標,網站可靠性工程師在對其進行管理、評估時也會遇到各種嚴峻挑戰。挫敗感的主要來源是使用多種工具,另外還有團隊孤島、盲區比比皆是、需要將性能與用戶體驗數據進行關聯。采用人工方式對服務水平目標進行評估也會導致浪費寶貴
24、時間,妨礙了團隊將更多的精力放在創新上。如果他們不能妥善解決這些問題,團隊將會繼續在孤島狀態下工作,而等到錯誤預算耗盡、服務水平目標不達標之時,他們就開始“指責游戲”,這會浪費時間。此外,不僅要制定有意義、可行的服務水平目標,還要實施有效的過程對不達標情況進行監測、報警及應對,這更是讓他們雪上加霜。其結果是,網站可靠性工程的核心原則可能最終被放棄,隨著解決時間的增加,在用戶受到影響之前實施修復計劃變得越來越困難。網站可靠性工程現狀 2022 版2121第 2 章:服務水平目標的角色在管理、評估服務水平目標時您的團隊遇到的最大挑戰是什么?孤島式的團隊和多種工具難以統一成單一版本的服務水平“真實信
25、息”68%由于與日俱增的復雜性導致盲區且無法采集監測數據,準確測量服務水平目標是否達標過于困難和費時59%由于無法將性能指標與用戶體驗進行關聯,準確測量服務水平目標是否達標過于困難和費時52%人工評估服務水平目標要占用太多的時間41%在服務水平目標不達標發生之前,沒有簡便的方法對這種情況進行預測22%服務水平目標沒有業務所有者,因此沒有人會為維護它們負責18%18%沒有能方便地查看、跟蹤所有的服務水平目標和錯誤的單一儀表板網站可靠性工程現狀 2022 版2222第 2 章:服務水平目標的角色網站可靠性工程需要圍繞單一版本的“真實信息”統一團隊為克服他們在定義、制定、管理及評估服務水平目標時所面
26、臨的挑戰,組織應將一切有關工作都整合到一個能滿足所有關鍵相關方需求的單一可觀測能力平臺上,而不是使用多種監測工具。如果該平臺還具備原生服務水平目標能力,組織就可以避免要向他們業已臃腫不堪的工具鏈增加其他工具的可怕情景。這讓網站可靠性工程師能夠創建單一真實信息來源,因此他們可以輕松地對錯誤預算進行監測、跟蹤,同時以更高的精度、更少的手工操作來管理其服務水平目標。確保服務水平目標儀表板、錯誤預算、修復計劃以及報警機制事先達成一致,并進行測試和實施,這一點至關重要,可以最大限度地降低在出現不達標情況時合作破裂的風險。網站可靠性工程最佳實踐實施持續發布驗證,根據關鍵服務水平目標自動、持續地對代碼質量進
27、行評估,隨著它通過交付流程,以防出現違規情況。這樣可以阻止不良代碼繼續前進,允許開發人員在錯誤進入生產環境之前將其修復,減少對人工方式的干預和修復工作的需要。選擇正確的服務水平目標入門在實施服務水平目標時,網站可靠性工程師面臨的最大障礙是弄清從何開始,然后是識別他們應關注的指標。在試圖尋找最佳方法時很容易迷失方向,重要的是要切記不存在大小通吃的方法論。最常見的陷阱是被引誘選擇阻力最小的途徑,通過完全基于已經采集的服務水平指標(SLI)來制定服務水平目標。這種方法最簡單,但也極其低效。更好的途徑是通過詢問哪些因素對業務最重要,由此識別服務水平目標需要滿足的業務目標和服務水平協議(SLA)。組織可
28、以用來入門的四個常用服務水平目標包括:可用性服務是否可供用戶使用 用戶滿意度(Apdex)滿意程度,基于服務性能 錯誤率失敗請求與全部請求之比 崩潰率(移動)所支持的各種設備上的崩潰率對于那些想讓自己建立的實踐盡快成熟的組織,可以考慮另外一些常見的服務水平目標。但一定要切記,所有這些服務水平目標不一定都與所有的組織有關,因此網站可靠性工程師不僅要按照具體情況實施,還要對它們如何支持業務心中有數。對服務水平目標來說,切記少就是多。網站可靠性工程現狀 2022 版2323網站可靠性工程現狀 2022 版第 2 章:服務水平目標的角色網站可靠性工程現狀 2022 版24第 2 章:服務水平目標的角色
29、可供考慮的常見服務水平目標推薦的移動應用服務水平目標我們從考察一個移動應用服務水平目標的例子開始。網站可靠性工程師不僅要將業務與性能服務水平目標進行合并以確保它們保持平衡,還要測量與應用獲得成功及其業務成效有著重要關系的因素。業務服務水平目標(以終端用戶為中心)性能服務水平目標可用性 服務是否可供用戶使用?利用率 提供服務占用資源的平均時間響應時間 服務請求所需的時長流量 測量在您的系統上承接了多少需求成功率 成功請求數與總請求數之比飽和度 最緊張的資源轉化率 達成了我的業務目標的用戶占比是多少?可用性 獲得有效響應的請求的占比參與度 用戶的參與程度如何?應用接受度 日活用戶數與總用戶數之比應
30、用評分 基于 Android 或 iOS 商店的評分 崩潰 官方所支持設備上的崩潰率用戶滿意度(ApDex)對我的應用的性能按 0-1 評分,滿意程度是多少響應時間 登錄請求響應時間不到 100ms 的占比成功率 成功請求與 HTTP 500 錯誤之比不要“猜測”您的服務水平目標網站可靠性工程師采用一系列的方法來識別其服務水平目標的指標,借助了未明確公認的“標準”或已建立的最佳實踐。半數的網站可靠性工程師注意到,他們的組織用于如何確定其服務水平目標的指標的方法論寥寥無幾。最常用的方法是根據終端用戶體驗需求來估計正確的指標,這也是最科學的。對大多數組織來說,確定會對業務產生有形影響的服務水平目標
31、的指標極其困難。閾值設置得過高,目標會難以達成;但設置得過低,它們又會無足輕重,因為不會給團隊帶來任何以期改進服務水平的激勵。網站可靠性工程團隊采用更準確的方法來定義其服務水平目標的指標至關重要。例如,他們可以求助于先進的監測解決方案,指導他們根據歷史數據和行業標準來設置正確的服務水平目標閾值。然而,只有不到四分之一(24%)的組織采用了這種方法。顯然,沿著這一方向去確定服務水平目標會取得很好的效果。為確保其組織始終處于行業領先地位,對網站可靠性工程師來說,考慮最佳實踐、競爭對手以及同行的戰略也非常重要。2525網站可靠性工程現狀 2022 版第 2 章:服務水平目標的角色26網站可靠性工程現
32、狀 2022 版第 2 章:服務水平目標的角色您如何識別您的每一個服務水平目標的指標?我們根據終端用戶體驗來估計哪些因素感覺似乎是正確的指標我們的解決方案指導我們根據歷史數據和行業標準更明智地設置服務水平目標閾值無論我們的系統目前在做什么,我們都以它們為依據它們由 IT 部門的高級經理決定我們根據直覺來估計哪些因素感覺似乎是應力求達到的正確指標我們不知道這些指標從何而來,我們只需要遵照它們26%24%20%18%11%1%27網站可靠性工程現狀 2022 版網站可靠性工程的觀點:“服務水平目標是我們的信號燈、溫度計。它們能告訴我們什么時間可以在我們的系統上進行更改/部署,什么時間我們需要去修復
33、出問題的部分或者改進不夠好的部分。關鍵在于要為服務水平目標選擇正確的服務水平指標。就像自動化,如果你用質量不高的數據作為服務水平目標的輸入,就別想獲得高質量的結果?!盌anneMeiraCastro,網站可靠性工程網站可靠性工程現狀 2022 版28第 2 章:服務水平目標的角色服務水平目標采用多個指標網站可靠性工程師針對不斷增加的指標來管理服務水平目標,不僅確保了符合服務水平協議,也使得服務水平目標的運用日漸成熟。這是他們工作的核心,也是組織成功的保證。但還存在可以改進的空間,因為在數據中沒有出現明顯的異常值,這表明所采用的服務水平目標對于任何確定的目的都達到了高水平。在您組織內部如何使用服
34、務水平目標?服務水平目標的戰略重要性與日俱增,它們的作用不只是確保在業務的其他許多方面都符合服務水平目標。我們不斷發展我們的服務水平目標,制定新的基準,挑戰客戶體驗的極限我們專門通過評估發布所造成影響的方式來檢查服務水平目標由我們的服務提供商對他們給我們業務造成的影響負責我們通過我們的服務水平目標來評估我們的服務水平協議是否充分滿足了我們業務的需求為 IT 團隊提供其工作對業務影響的深入分析向業務部門報告 IT 性能為我們的開發運維/開發團隊劃分任務優先級為部署/架構決策提供信息59%53%49%45%42%39%39%36%網站可靠性工程現狀 2022 版2929第 2 章:服務水平目標的角
35、色網站可靠性工程師是團隊合作的領導者網站可靠性工程師自然會表示,他們對服務水平目標負有首要責任,但多個其他團隊會參與其中,特別是安全和商業經營團隊。這凸顯出隨著組織認可需要確保其系統先天具備可靠性和安全性,網站可靠性工程開始融合并轉向開發安全運維。鼓勵業務、開發、安全及運維團隊之間密切協作的組織向這些方法論轉變的過程將會更加成功。這些團隊之間的協作越密切,他們制定的服務水平目標就越有意義,對他們改進過程和業務成效的評估就越有效。只有通過由頂層推動的文化變革,并且高級 IT 負責人為他人樹立了榜樣,才能實現這種程度的協作。網站可靠性工程最佳實踐識別并劃分對業務影響最大的目標的優先級,召集來自業務
36、、開發及運維團隊的相關方共同制定有助于滿足這些目標的服務水平目標網站可靠性工程現狀 2022 版30第 2 章:服務水平目標的角色在您整個組織內哪個/哪些團隊負責推動采用服務水平目標并管理服務水平目標?88%網站可靠性工程60%安全49%業務47%基礎設施45%開發運維41%運營36%平臺33%開發32%應用網站可靠性工程現狀 2022 版3131網站可靠性工程現狀 2022 版第 2 章:服務水平目標的角色需要明確確定服務水平目標擁有者一旦制定了服務水平目標,將主要由開發團隊負責維護它們。雖然這對于非生產環境應用很重要,但運維或網站可靠性工程團隊更適合負責其他環境的服務水平目標。這意味著在大
37、多數組織內部存在著關于應由誰來負責服務水平目標的不確定性,這給網站可靠性工程師帶來了挑戰。如果其他團隊沒有意識到在確保符合服務水平目標中他們自己角色的重要性,保持這些服務水平目標并在整個組織中推動網站可靠性工程成熟度將會非常困難。只有 8%的網站可靠性工程師表示,為確保符合服務水平目標,制定它們的團隊需要直接與開發運維或開發團隊合作。將職責轉移到其他團隊意味著倒退,而不是堅持真正的開發運維最佳實踐。服務水平目標的擁有者要切記不存在大小通吃的方法,這一點至關重要。開發、運維及開發運維團隊都有自己的工作職責,但需要由網站可靠性工程師來帶領他們并確保所有的團隊維護為其環境制定的服務水平目標。開發團隊
38、負責監測、管理為其應用制定的服務水平目標單獨由開發運維或網站可靠性工程團隊負責監測、管理服務水平目標由制定服務水平目標的團隊獨自負責管理服務水平目標制定服務水平目標的團隊直接與開發運維或開發團隊合作以確保其符合您組織內部的團隊如何開展工作以確保符合服務水平目標?48%27%17%8%網站可靠性工程現狀 2022 版32網站可靠性工程的障礙是什么盡管網站可靠性工程方法論已被廣泛采用,但大多數(97%)組織在實施專用的實踐時會遇到障礙。這是關于獲得必要技能的挑戰,要么引進新員工,要么提高現有團隊的技能。這意味著需要一種新方法,通過使開發運維和開發人員團隊成為網站可靠性工程師來減少此類障礙,同時無需
39、其他專業技能。第3章網站可靠性工程成功的關鍵網站可靠性工程現狀 2022 版33第 3 章:網站可靠性工程成功的關鍵您認為在您的組織內實施網站可靠性工程實踐時最嚴峻的挑戰是什么?59%51%43%20%19%認為培訓/再培訓現有 IT 運維/系統管理人員成為網站可靠性工程師非常困難認為網站可靠性工程師成本高且難以招聘到認為難以在市場上找到網站可靠性工程技能認為自己的 IT 組織不具備采用當今 IT 準則的文化認為改變運維方式不是 IT 管理層的優先工作的網站可靠性工程師表示,實施網站可靠性工程實踐在其組織內存在挑戰。97%網站可靠性工程現狀 2022 版3434第 3 章:網站可靠性工程成功的
40、關鍵關鍵點 1開放、可擴展的平臺是打造推動網站可靠性工程成功的統一工具鏈的關鍵網站可靠性工程師在很大程度上依賴于公司自研、自己開發以及開源的解決方案來完成其工作。這使他們能夠打造專門針對其組織特定需求的工具鏈。還需要少量的前期投資用于新工具,使網站可靠性工程師能夠在自己的需求發生改變、推進解決方案時接入或退出生產環境。但這種自己開發的方式難以規?;?,經過較長時間后會帶來問題。這些工具鏈需要投入大量的時間、人工及專業技能來維持,這給網站可靠性工程師帶來了額外的繁重工作,分散了對核心職責的注意力?,F成的商業解決方案也經常被證實收效平平,限制了網站可靠性工程師從開源解決方案中受益的能力。因此,組織常
41、常發現自己處于一種困境,因為他們需要將網站可靠性工程師的注意力轉移到維持用于推動網站可靠性工程實踐的工具鏈上。雇傭更多的網站可靠性工程師通常不是選項,因為他們很稀缺,因此組織必須找到其他途徑。最有效的方法是減輕網站可靠性工程維護工具鏈的繁重工作,這樣團隊就能將主要精力放在更接近其核心職責、能創造更多商業價值的工作上。組織應尋求這樣一種基于平臺的解決方案,它支持開放生態系統,能夠無縫集成網站可靠性工程師、架構師及開發人員喜歡使用的各種工具,并在單一地點對數據進行調度。具有自助服務、一切皆代碼方式的平臺將大幅減少網站可靠性工程團隊的繁重工作,因此可以迅速將其推廣到整個組織。自己開發的解決方案開源解
42、決方案現成的商業解決方案(COTS)66%20%14%在網站可靠性工程工具集中最流行的解決方案網站可靠性工程現狀 2022 版3535第 3 章:網站可靠性工程成功的關鍵關鍵點 2自動化是減少網站可靠性工程繁重工作的關鍵不難想象,組織會想方設法通過自動化來減輕開發人員和網站可靠性工程師的負擔。團隊尋求將安全漏洞、應用故障的處理自動化,著力加快推動應用的自動修復??捎^測能力對實現這一目標至關重要,它能精準提供推動自動化所需的數據。將這些數據與運行時漏洞管理進行整合也非常重要,不僅能讓團隊隨時了解生產環境中運行的一切,還能將人工智能用于優先處理對業務威脅最大的漏洞。如果他們能夠實現這些目標,就無需
43、為處置緊急事件花費時間,組織可以為開發人員和網站可靠性工程師減少大量的繁重工作,這樣他們就可以專注于能為企業創造更大價值的工作。網站可靠性工程最佳實踐尋求具備端到端可觀測能力、基于單一數據模型的解決方案,以確保自動化能以精準的方式推動。的網站可靠性工程師表示,他們能否在整個公司推廣網站可靠性工程實踐,在很大程度上取決于所能獲得的自動化和人工智能能力。85%網站可靠性工程現狀 2022 版36第 3 章:網站可靠性工程成功的關鍵為減少開發人員和網站可靠性工程師的繁重工作,您的組織做了什么?71%的組織在生命周期的各個階段增加了自動化的運用58%的組織在持續集成/持續交付流程中增加了自動化的運用5
44、8%的組織對工具棧進行了整合46%的組織對工具棧進行了現代化升級網站可靠性工程現狀 2022 版37第 3 章:網站可靠性工程成功的關鍵61%57%43%48%49%55%56%在以下網站可靠性工程的工作中,目前您的團隊將其中的哪項實現了自動化來為他們的工作提供支持?解決安全漏洞通過自動修復解決應用故障加快代碼交付速度預測服務水平目標不達標提升代碼質量評估安全漏洞通過自動化事件管理來評估性能和/或可用性警報網站可靠性工程現狀 2022 版3838第 3 章:網站可靠性工程成功的關鍵關鍵點 3服務水平目標的未來是自動化在網站可靠性工程師通過服務水平目標來管理、評估服務水平的道路上,自動化還將在未
45、來起到日益核心的作用。這一戰略將會減少開發人員、開發運維及網站可靠性工程團隊的手工操作,讓他們能夠騰出手來將主要精力放在實驗和持續創新上。我們還將看到,越來越多采用業務水平目標的組織會將其成功與更多有意義的指標進行捆綁,例如客戶滿意度,因為每一秒的停機時間都會影響收入、損害品牌形象。這些方法將進一步提高網站可靠性工程成熟度。您希望到 2025 年您測量服務水平的方法發展到怎樣的程度?我們將繼續采用我們現有的方法,其中包括以自動方式評估的服務水平目標44%除了以自動方式評估的服務水平目標之外,我們還將引入業務水平目標(BLO),以確保團隊之間更加步調一致22%我們將從以人工方式評估我們的服務水平
46、目標轉變為自動方式20%我們將繼續采用我們現有的方法,其中包括以人工方式評估服務水平目標13%我們將繼續采用我們現有的方法,其中不包括使用服務水平目標1%網站可靠性工程現狀 2022 版3939第 3 章:網站可靠性工程成功的關鍵關鍵點 4人工智能運維是網站可靠性工程成熟度的核心除了他們關注點的在自動化上,網站可靠性工程師注意到人工智能運維對其未來的角色越來越關鍵,凸顯出一些重要的優勢。網站可靠性工程師正尋求人工智能運維能有助于進一步減少繁重工作,使他們做出更多的數據驅動決策,圍繞他們如何優先他們的時間以便為企業推動最佳產出。著表明網站可靠性工程成熟度的增加,自動化和人工智能幫助它成為高度集中
47、,滿足業務及其客戶的需求,通過減少繁重工作、讓團隊能將主要精力放在更快地決策上。網站可靠性工程最佳實踐:使人工智能運維成為您的網站可靠性工程戰略的核心支柱但不要將它作為后補對待。點式解決方案只具備有限的價值;人工智能運維必須融入解決方案和平臺,開發人員和工程師所依賴。的組織在整個生命周期的各個階段越來越多地采用人工智能運維,以減少開發人員和網站可靠性工程師的繁重工作。68%40網站可靠性工程現狀 2022 版網站可靠性工程的觀點:“在處理應用受影響的事件時,人工智能運維平臺能讓網站可靠性工程師由被動變主動。因此,網站可靠性工程師不僅可以更快速地應對性能下降和宕機情況,而且輕松省力?!盇ndrz
48、ejGebski,網站可靠性工程41網站可靠性工程現狀 2022 版第 3 章:網站可靠性工程成功的關鍵人工智能運維會對以下網站可靠性工程實踐造成多大程度的影響?使團隊能夠讓更多的流程自動化,這些流程對確保服務水平持續達標至關重要64%使團隊能夠優先處理對服務水平和用戶滿意度影響最大的問題63%使團隊能夠優先處理安全漏洞以最大限度縮短服務停機時間62%運維團隊完全不必再“經營生意”,因此可以重新安排這些資產,專注于改進開發和工程實踐62%使團隊能夠在服務水平目標不達標發生之前做出預測61%釋放出更多的開發運維時間專注于網站可靠性工程工作,例如混沌工程59%42網站可靠性工程現狀 2022 版4
49、2第 3 章:網站可靠性工程成功的關鍵關鍵點 5網站可靠性工程師通過一體化解決方案將團隊凝聚在一起組織也在考慮他們應該如何更新他們的工具棧以便打造更簡練的解決方案,讓網站可靠性工程和開發運維團隊能夠更有效地工作。這凸顯出向一體化解決方案發展的趨勢,藉此團隊不再需要在不同的儀表板之間切換。這些解決方案提供了單一的真實信息來源,因此團隊可以實現各方統一,支持他們為網站可靠性工程所倡導的共同目標通力合作。的網站可靠性工程師希望,到 2025 年,從開發到運維、安全都能在同一個可觀測能力平臺上實現標準化。85%43網站可靠性工程現狀 2022 版網站可靠性工程的觀點:“可觀測能力是所有網站可靠性工程的
50、根基。如果沒有它,您就無從衡量成功與否或者識別需要改進的領域?!盡arioBiemans,網站可靠性工程 A large payment service provider網站可靠性工程現狀 2022 版44網站可靠性工程是當今數字化業務的核心支柱。隨著這個世界越來越數字化,每一秒的停機時間都會造成收入損失、股價下跌以及持久的聲譽損失,因此可靠性成為關鍵的成功因素。盡管網站可靠性工程已經獲得普遍認同,但我們還處于這一旅程的開始,許多組織的實踐仍然相對不成熟。在技藝嫻熟的工程師遠遠供不應求之時,組織應盡其所能加強網站可靠性工程的工作力度。他們需要將網站可靠性工程進一步前移,更深入地植根于工程和架構
51、設計實踐中。盡管如此,我們已經注意到,并非其角色核心任務的繁重人工工作和不必要的工作極大地分散了網站可靠性工程師的精力,這使得網站可靠性工程倒退到成熟度的初期。自動化是克服這一障礙的重要因素,但如果沒有正確的戰略和方法,它所帶來的問題可能比解決的問題還要多。承認并非所有的自動化都是一樣的功效至關重要自動化也有好有壞。如果網站可靠性工程師忙于編寫自動化腳本并將其復制到多個過程中,則只不過是將手工操作轉移到別處,并不會減輕負擔。要想做到卓有成效,網站可靠性工程師需要一個平臺,讓他們能夠通過先天具備的自助服務和一切皆代碼功能來推動可靠性和自動化。通過這種方式,網站可靠性工程師能讓整個組織的開發人員輕
52、松地為他們所創建的服務打造關鍵能力,從可觀測能力、測試一直到制定有意義的服務水平目標、自動修復應用。因此,團隊可以從繁重的工作中解脫出來,將重心放在網站可靠性工程師角色的核心事務上,同時通過推動最佳實踐為其組織創造更多的價值,最大限度提升可靠性、韌性、安全性、性能,最終提高業務成效。結束語網站可靠性工程現狀 2022 版45方法論本報告基于一項對大型企業 450 位網站可靠性工程師的全球調查,其中美國 150 人,歐洲、中東及非洲 150 人,亞太地區 150 人。此次調查由 Dynatrace 委托 Coleman Parkes 完成。您主要在哪個國家?美國33%英國7%愛爾蘭3%法國3%瑞
53、典3%挪威2%德國6%荷蘭4%丹麥3%芬蘭4%澳大利亞7%新加坡3%印度17%馬來西亞2%泰國2%新西蘭3%您公司主營哪個領域?工業、制造及運輸14%金融機構13%醫療與生命科學12%技術、媒體及電信12%消費品與零售10%采礦與基礎設施8%專業化服務8%石油與天然氣8%接待、旅行及觀光8%公共領域(當地政府、國家政府及教育)6%您公司上個財年的全球年收入以美元計算相當于?7.5 億 10 億(8.75)20%11 億 50 億(30.5)27%51 億 500 億(75.5)16%101 億 150 億(125.5)18%超過 150 億(150)19%公司在全球總共有多少員工?1,000
54、至 3,000(2000)12%3,000 至 5,000(4000)10%5,000 至 10,000(7500)23%10,000 至 20,000(15000)19%超過 20,000(25000)36%06.14.22 17454_EBK_CHN_cs關于DynatraceDynatrace 的軟件智能可以讓云計算化繁為簡、加快企業數字化轉型。依托各種規模的自動化和智能化可觀測能力,Dynatrace 一體化平臺可提供有關應用的性能與安全、底層基礎設施以及所有用戶體驗的精準解答,讓組織能夠在加快創新、高效協作、實現更多價值的同時大幅減少工作量。Dynatrace 因此深受眾多全球頂尖企業的信賴,并幫助這些企業實現云運營的現代化和自動化、又快又好地推出軟件、提供無與倫比的數字化體驗。了解更多信息請訪問 2022 Dynatrace