《國產OS自主核心能力打磨實踐TencentOS Server進擊之路-蔣彪 .pdf》由會員分享,可在線閱讀,更多相關《國產OS自主核心能力打磨實踐TencentOS Server進擊之路-蔣彪 .pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、國產操作系統自主核心能力打磨實踐-TencentOS Server進擊之路 蔣彪-騰訊云操作系統研發負責人/OpenCloudOS社區ToC委員目錄Linux行業背景TencentOS Server簡介經濟操作系統打磨實踐綠色操作系統打磨實踐LinuxLinux行業背景行業背景-前前供應鏈風險暴露、核心能力不足、國產OS亟待自主發發行行版版玩玩家家L1L1L2L2L4L4L3L3開源開源軟件軟件社區社區社區穩定版社區穩定版(經大規模經大規模驗證驗證):基于L2衍生上游發行上游發行版版:Linux內核+GNU組件+其他開源組件企業企業版版:L1版本加固+技術服務社區衍生版:社區衍生版:基于L3優
2、化的發行版RedHatRedHat體系體系SUSESUSE體系體系DebianDebian體系體系L1上游發行版需聚焦創新,投入大,社區版本未經過大規模生產環境驗證,非穩定版本,無法直非穩定版本,無法直接用于生產環境接用于生產環境L1L1國產發行版不足國產發行版不足L3/L4社區聚焦版本的穩定和生產價值,但需要依賴可靠上游版本(商業版本);L3/L4L3/L4國產發行版不足國產發行版不足L2L2國產商業版本稀缺國產商業版本稀缺。主要原因是上游社區維護能力與投入不足能力與投入不足L2L2國產商業版不足國產商業版不足L0L0其他下游發行版發發行行版版玩玩家家L1L1L2L2L4L4L3L3開源開源
3、軟件軟件社區社區社區穩定版社區穩定版(經大規模經大規模驗證驗證):基于L2衍生上游發行上游發行版版:Linux內核+GNU組件+其他開源組件企業企業版版:L1版本加固+技術服務社區衍生版:社區衍生版:基于L3優化的發行版RedHatRedHat體系體系SUSESUSE體系體系DebianDebian體系體系OSV商業版OpenCloudOSOpenCloudOS體系體系L0L0其他下游發行版OpenCloudOSOpenCloudOS覆蓋覆蓋L1L2L3L1L2L3全鏈路,實現全鏈路國產化,輸出生產級可用版本全鏈路,實現全鏈路國產化,輸出生產級可用版本XX紅帽不再維護CentOS8;國產OS對
4、其強依賴,影響較大;充分暴露開源軟件供應開源軟件供應鏈安全風險鏈安全風險行業問題行業問題:開源供應鏈安全風險開源供應鏈安全風險LinuxLinux行業背景行業背景-后后目錄Linux行業背景TencentOS Server簡介經濟操作系統打磨實踐綠色操作系統打磨實踐使用開源使用開源SlackWareSlackWare不穩定無服務采購商業系統采購商業系統服務難保障無法定制需求穩定性不足20002000年年早期早期使用開源OS、采購商業OS20062006年年20152015年年20102010年年發布發布Tlinux1Tlinux1精簡內核,穩定性/性能提升,新硬件支持,功能定制發布發布Tlin
5、ux2Tlinux2自研覆蓋99%支撐微信、QQ、游戲等核心業務自主研發時代自主研發時代自主研發運營、持續打磨20112011年年開始自主研發開始自主研發tlinux誕生代替商業系統品牌升級為品牌升級為TencentOSTencentOS ServerServer對外開源,上線公有對外開源,上線公有云,落地私有云客戶云,落地私有云客戶20212021年年10001000萬節點萬節點99.999%99.999%可用可用性性20202020年年OpenCloudOSOpenCloudOS社區成立社區成立生態共建、引領核心技術參與研發參與研發OpenCloudOSOpenCloudOS Stream
6、 L1Stream L1上游版本上游版本云原生創新時代云原生創新時代向外生長、社區生態、自主可控、技術引領發布發布TencentOSTencentOS Server 3Server 3云上主流版本云上主流版本20222022年年20192019年年商用版本:商用版本:企業、服務、性能社區版本:社區版本:開源、生態、合作上游版本:上游版本:創新、共建、先進L1(上游版本)L3(社區版本)L2L2(商業版本)(商業版本)2028L4(衍生版本)2027202620252029202420232022TencentOS Server 3(2020-2029)OpenCloudOS Stream(OC
7、S)TencentOS Server 4(OCS,2024-2034)基于OC 8的商業/社區衍生版本基于OC 2024的商業/社區衍生版本OpenCloudOS 8(TS3,2021-2029)OpenCloudOS 2024(TS4?,2024-2034)三個時代、十年積累、千萬節點三個時代、十年積累、千萬節點TencentOSTencentOS ServerServer簡介簡介目錄Linux行業背景TencentOS Server簡介經濟操作系統打磨實踐-降本增效綠色操作系統打磨實踐VCPUQemuKthreads 管理進程調度器監控進程系統服務VCPU虛擬機VCPUQemuVCPU虛擬
8、機保留核(5%)干擾售賣核OS主機1(離線)主機2(在線)主機3(混部)調度器干擾干擾大量資源空閑(CPU全售賣場景):5%保留核,干擾嚴重,實時性差核心目標:CPU全售賣,微妙級延遲(混部場景):大盤資源利用率低(15%),離線干擾核心目標:絕對壓制離線,業務無感知核心:OS內核調度器(CPU全售賣場景)(混部場景)VMF(VMVMF(VM First)First)調度器調度器-背景背景任務任務VCPUVCPU內核線程內核線程普通進程普通進程離線任務離線任務優先級優先級4 44/34/31 10 0運行時長運行時長長長短短長長長長延遲敏感延遲敏感是是是是否否否否容忍饑餓容忍饑餓否否否否 否否
9、是是抽象建模抽象建模VMVMLLLL(LowlatencyLowlatency)BGBG(BackGroundBackGround)OFOF(Offline)(Offline)核心挑戰 CFS無法滿足要求,需要重寫 原因:公平性設計12ms無法絕對壓制3102410243102412ms12ms12ms延遲12ms!0關鍵進程餓死12ms0核心設計(基于任務類型的非公平調度器)核心設計(基于任務類型的非公平調度器)特征畫像特征畫像-任務分類任務分類 離線任務絕對低優先級離線任務絕對低優先級高級特性:高級特性:超線程干擾隔離超線程干擾隔離 BGBG饑餓保護 超線程協同調度超線程協同調度 動態MW
10、ait效果 VM優先(VM First),更實時 對離線絕對壓制,完美隔離VMFVMF內核調度器內核調度器-設計設計VMFVMF內核調度器內核調度器-效果效果 類型類型VMFVMFCFSCFS時延時延 IdleIdleMaxMax(us)(us)116116 46894689OverflowOverflow0.280.28 0.820.82時延時延BusyBusyMaxMax(us)(us)4524521996919969OverflowOverflow2.22.22020(全售賣)實時性(測試工具:cyclictest)(混部)現網業務(AMS)壓測表現 在線業務對離線無感知 通過真實業務壓
11、測(敏感程度不同)(混部)吞吐性能(測試工具:sysbench)延遲微妙級,提升1個數量級 CPU全售賣(混部)資源利用率 樣板集群CPU達65%,行業標桿 大盤CPU利用率翻倍如意如意(RUE)-容器混部容器混部-架構架構1 1 場景進階場景進階虛擬機混部虛擬機混部-容器混部容器混部-多優先級混部多優先級混部2 2 架構進階(三層架構)架構進階(三層架構)統一優先級統一優先級資源全隔離資源全隔離服務質量監控框架服務質量監控框架3 3 資源隔離進階資源隔離進階CPU-CPU-內存、內存、IOIO、網絡、網絡(全覆蓋全覆蓋)4 4 影響力進階影響力進階技術品牌打造:如意技術品牌打造:如意(RUE
12、)(RUE)如意如意(RUE)-(RUE)-多優先級混部多優先級混部-經濟操作系統經濟操作系統currentoptimization資源request總量減少45%左右Pod規格從8-16核減少為1-4核基于基于FinOpsFinOps理念,基于理念,基于RUERUE實現多優先級混實現多優先級混部,部,打造打造“經濟操作系統經濟操作系統”標簽標簽Crane(容器管理平臺-FinOps基金會)TencentOS彈性CPU調度云原生SLI增強多優先級混部系統(成本大師)RUEAI預測模型彈性CPU調度T1,T2)T3,T4)不同顏色代表不同業務云原生SLI增強AIAI模型模型+如意如意(RUE(R
13、UE),提升資源利用率,降低成本,提升資源利用率,降低成本CPU1CPU2CPU3CPU4CPU5CPU6容器1容器2容器1流量突發跑滿所有CPU容器2空閑CPU閑置CPU1CPU2CPU3CPU5CPU6臨時借用容器2空閑的CPU(離線運行)容器2空閑CPU閑置CPU4CPU1CPU2CPU3CPU5CPU6容器1負載降低歸還CPU容器2負載上升取回CPUCPU4UMRDUMRD模塊:根據模塊:根據PSIPSI模塊提供的模塊提供的cgroupcgroup內存訪問延遲敏感性,決策出內存訪問延遲敏感性,決策出對應對應cgroupcgroup中能夠回收的頁面量。中能夠回收的頁面量。PageoutP
14、ageout TieringTiering模塊:結合社區模塊:結合社區DAMONDAMON物理地址監控功能,在待回物理地址監控功能,在待回收的頁面鏈表中,根據頁面冷熱頻率收的頁面鏈表中,根據頁面冷熱頻率(DAMONDAMON動態迭代的采樣頻率)換動態迭代的采樣頻率)換出到不同速度的后備設備上。出到不同速度的后備設備上。SWAPBALANCERSWAPBALANCER模塊:每個模塊:每個SWAPSWAP后備設備維護一個后備設備維護一個LRULRU鏈表,鏈表,當本當本SWAPSWAP設備快滿時,設備快滿時,demotedemote冷頁冷頁到速度更慢的設備。到速度更慢的設備。內存節省內存節省30%+
15、30%+內存分級卸載內存分級卸載-悟凈悟凈目錄Linux行業背景TencentOS Server簡介經濟操作系統打磨實踐綠色操作系統打磨實踐-節能低碳空閑算力感知設計,完全自適應業務負載,業務側透明,性能影空閑算力感知設計,完全自適應業務負載,業務側透明,性能影響小于響小于1%1%根據業務實時負載動態調整根據業務實時負載動態調整cpucpu core core深度睡眠狀態、深度睡眠狀態、cpucpu core core 頻率以及調整頻率以及調整 uncoreuncore頻率頻率自動退出機制,輕松應對請求突發高負載場景自動退出機制,輕松應對請求突發高負載場景提供多個配置接口,用戶可結合業務場景敏
16、感度調節節能選項提供多個配置接口,用戶可結合業務場景敏感度調節節能選項雙平面功耗監控雙平面功耗監控CorCore e1 1Core Core 2 2corecore3 3corecore4 4corecore5 5corecore6 6corecore0 0ActiveActive setsetDeactiveDeactive setsettasktasktasktasktasktaskActiveActive核:類似客廳,運行業務核:類似客廳,運行業務DeactiveDeactive核:類似臥室,深度節能核:類似臥室,深度節能算力分割算力分割DIDIE ESMTSMTCORCORE ESMTSMTHEAD CPUHEAD CPU算力數據算力數據延遲數據延遲數據排隊數據排隊數據負載數據負載數據縮容擴容策略策略調度器調度器任務遷移任務遷移&中斷遷移中斷遷移SMTSMTCORCORE ESMTSMTSMTSMTCORCORE ESMTSMTSMTSMTCORCORE ESMTSMT根據算力、根據算力、tasktask數、延遲,動態調整可運行核數數、延遲,動態調整可運行核數空閑算力擴縮容空閑算力擴縮容綠色操作系統綠色操作系統-系統級能耗優化系統級能耗優化-悟悟能能