《08 SRE的新發展和可觀測性-中國SRE社區 劉峰老師.pdf》由會員分享,可在線閱讀,更多相關《08 SRE的新發展和可觀測性-中國SRE社區 劉峰老師.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、SRE的新發展和可觀測性SRE是新運維“奇點”,可觀測是系統穩定的核心能力中國SRE社區 劉峰老師正文題目正文題目一一.SRE.SRE定義、原則和方法論定義、原則和方法論SRE的基本定義SRE的六大原則SRE的方法論什么是什么是SRESRE?傳統運維IaC(基礎架構即代碼)軟件開發、運維開發CI/CD 自動化應用、網絡、操作系統、云運維.Google Google:什么是:什么是SRESRE?SRESRESRESRE是一個學科是一個學科SRESRE是一種最佳實踐是一種最佳實踐SRESRE是一類創新崗位是一類創新崗位S Site ite R Reliability eliability E En
2、gineeringngineeringSRESRE:起源:起源SRESRE:站點可靠性工程(站點可靠性工程(GoogleGoogle負責負責7 7*2424小時運維的小時運維的VPVP命名)命名)1.SRE是學科:使用計算機和軟件工程手段設計和研發大型、分布式計算機軟件系統;設計和研發大型、分布式計算機軟件系統;2.SRE關注:焦點是可靠性可靠性,包括架構設計、運維流程優化“足夠可靠足夠可靠”;3.SRE主要工作:運維分布式集群系統上的具體業務服務具體業務服務(ServiceService)SRESRE是一種職業是一種職業:專注于軟件系統生命周期軟件系統生命周期管理的IT工程師Benjamin
3、 Sloss Treynor Google 的副總裁,主要工作就是確保Google 的網站永不掉線SRESRE:起源:起源l ApollosApollos計劃中的計劃中的SRESREApollo 7 Apollo 7 飛船研發事故的啟發:飛船研發事故的啟發:1.1.類似的情況不斷發生類似的情況不斷發生2.2.對于細節的不懈關注對于細節的不懈關注3.3.做好充足的災難預案和準備工作做好充足的災難預案和準備工作4.4.時刻警惕時刻警惕5.5.不放棄一切機會去避免災難發生不放棄一切機會去避免災難發生以上是以上是SRESRE最重要的理念最重要的理念!l 世界上第一個世界上第一個SRESRE專注于參與阿
4、波羅登月計劃阿波羅登月計劃的MIT教授 MargaretMargaret HamiltonHamilton服務水平目標運營是軟件問題減少瑣事 自動化共享所有權降低失敗成本核心原則關鍵成功因素(KSF)Google Google SRESRE 原則原則 PrinciplePrincipleGoogle SREGoogle SRE 實踐總結實踐總結lSRESRE方法論方法論:1.1.確保長期關注研發工作確保長期關注研發工作2.2.在保障在保障SLOSLO的前提下最大化迭代速度的前提下最大化迭代速度3.3.監控系統監控系統4.4.應急事件處理應急事件處理5.5.變更管理變更管理6.6.需求預測和容量
5、規劃需求預測和容量規劃7.7.資源部署資源部署8.8.效率與性能效率與性能二二.SRE.SRE的新發展的新發展與與DevOpsDevOps統一文化、融合互補統一文化、融合互補可觀測性異軍突起、方興未艾可觀測性異軍突起、方興未艾引領平臺工程、實現自助平臺引領平臺工程、實現自助平臺新發展之一:新發展之一:SRESRE與與DevOpsDevOps統一文化、融合互補統一文化、融合互補SRESRE負責整個產品生命周期負責整個產品生命周期,關注整體規劃整體規劃和交付共享平臺交付共享平臺,促進統一的促進統一的SRESRE和和DevOpsDevOps文化文化304Create Pre-ProdDeploy C
6、odeRun Perf TestRun Security TestCheck MonitorsProd deployRun TestsCreate Test EnvDeploy CodeLoad Test DataBuildRun Unit TestsCode AnalysisCommitterjdoeCommit ID:113Create Prod 大量的自動化工作是“DevDev”領導的(從左到右),領導的(從左到右),流水線大大提高了研發交付效率,但同時流水線大大提高了研發交付效率,但同時具有具有“重重DevDev、輕、輕OpsOps”的特點,落地中的特點,落地中存在很多問題和挑戰存在很
7、多問題和挑戰。經典的經典的DevOpsDevOps自動化自動化304Run TestsRun NFTsCreate Pre-ProdDeploy CodeRun Perf TestRun Security TestCheck MonitorsProd deployRun TestsCreate Test EnvDeploy CodeLoad Test DataBuildRun Unit TestsCode AnalysisCommitter:jdoeCommit ID:Create ProdCheck MonitorsFailure Tests總體來說,更關注生產環境(PROD)使DevOps
8、獲得了“生產智慧生產智慧”,針對自動化流水線的風險,SRE 可以說可以說“不不”。SRE SRE 主導的服務自動化主導的服務自動化谷歌:谷歌:沒有穩定性,軟件交付效能沒有穩定性,軟件交付效能就就無法無法確保確保組織成功組織成功304新發展之二:可觀測性方興未艾新發展之二:可觀測性方興未艾“我認為,在未來3年內,這三個類別APMAPM、監控監控/指標、日志指標、日志,可能還有其他類別都可能不復存在。將只有一個類別:可可觀觀測測性性。并且它將包含您需要了解系統可以進入的任何狀態任何狀態所需的所有洞察洞察?!盋harity Majors CEO Honeycomb監控和可觀測性監控和可觀測性 分布式
9、、復雜的服務以不可預測的用戶不可預測的用戶和可變吞吐量大規模運行,意味著有數百萬種不同的方法出錯數百萬種不同的方法出錯 但是我們不能預測它們不能預測它們(監控神話)剛需:將服務的所有輸出外部化所有輸出外部化,使我們能夠推斷推斷該服務的內部狀態(可可觀測性觀測性)新發展之二:可觀測性方興未艾新發展之二:可觀測性方興未艾.舉例說明:舉例說明:SLO,SLI&SLO,SLI&可觀測性可觀測性 SLO SLO 從用戶的角度,幫助確定什么是重要的 例如,90%的用戶應在一分鐘內完成完整的付款交易 SLI SLI 詳細介紹了我們目前的表現 例如,98%的用戶在一個月內在不到一分鐘內完成付款交易 可可觀測觀
10、測性性 使用服務的正常狀態 38秒是用戶完成付款的“正?!睍r間,這時整體服務都健康新發展之二:可觀測性方興未艾新發展之二:可觀測性方興未艾.新發展之二:可觀測性方興未艾新發展之二:可觀測性方興未艾.2023年,中國SRE社區將發起OREILLY 專著Observability Engineering(可觀測性工程)在線讀書分享,期待參加:https:/ SRESRE不再需要管理服不再需要管理服務器更新、操作系統務器更新、操作系統升級升級或任何過去或任何過去浪費浪費時間的任務(瑣事)時間的任務(瑣事)現在,現在,SRESRE確保確保平臺平臺組件、配置正確組件、配置正確,并,并作為服務提供給開發作
11、為服務提供給開發和運維使用和運維使用新發展之三:引領平臺工程,實現自助服務新發展之三:引領平臺工程,實現自助服務SRESRE負責平臺工程,采用負責平臺工程,采用“內部開源內部開源”模型模型進行進一步的開發進行進一步的開發 平臺提供了“自助自助”的基礎設施的基礎設施、功能、配置和環境,可供開發團隊以及第三方使用 嵌入式治理治理、控制控制和標準標準是內置的 端到端部署自動化端到端部署自動化,服務或應用程序的基礎架構劇本 通過運行手冊和劇本為多多/混合云抽象特定于基礎設施混合云抽象特定于基礎設施的的實現 平臺團隊構建的產品可以通過SRE/DevOpsSRE/DevOps或任何其他方式進行擴展或增強或
12、任何其他方式進行擴展或增強舉例:舉例:SRESRE開啟自助服務開啟自助服務三三.SRE.SRE是新運維的是新運維的“奇點奇點”“奇點奇點”是什么是什么SRESRE:新運維奇點:新運維奇點SRESRE知識體系知識體系中國中國SRESRE社區,歡迎參加研討社區,歡迎參加研討奇點是什么:奇點是什么:奇點奇點是一個物理學概念是一個物理學概念1.1.世界萬物的起源是一致的世界萬物的起源是一致的 2.2.一切已知物理定律均在一切已知物理定律均在“奇點奇點”失效失效SRESRE:新運維奇點:新運維奇點在開發和運維之間在開發和運維之間-引入和推動引入和推動“奇點奇點”!SRESRE本質上鼓勵一種文化本質上鼓勵
13、一種文化,即在應用程序及其生態系統之間,在開發與運維之間開發與運維之間,在軟件工程和系統工程軟件工程和系統工程之間,引入和推動奇點奇點。SRESRE的的愿景愿景是確保通過滿足滿足客戶期望的可靠服務客戶期望的可靠服務來交付業業務價值務價值!SRESRE:新運維奇點:新運維奇點在開發和運維之間在開發和運維之間-引入和推動引入和推動“奇點奇點”!SRESRE本質上鼓勵一種文化本質上鼓勵一種文化,即在應用程序及其生態系統之間,在開發與運維之間開發與運維之間,在軟件工程和系統工程軟件工程和系統工程之間,引入和推動奇點奇點。SRESRE的的愿景愿景是確保通過滿足滿足客戶期望的可靠服務客戶期望的可靠服務來交
14、付業業務價值務價值!SRESRE知識體系和國際研究機構知識體系和國際研究機構Pass the Exam for:成熟的成熟的SRE需要掌握多方面知識,包括需要掌握多方面知識,包括DOI在內的國際研究在內的國際研究機構在此方面有持續的積累和官方認證,主要包括機構在此方面有持續的積累和官方認證,主要包括:Site Reliability EngineeringObservabilityAIOps DevSecOpsDevOps EngineeringDevOps FoundationDevOps LeadershipValue Stream ManagementAgile Service ManagementContinuous TestingLearn more at https:/ 謝