《TKE注冊節點:打造IDC輕量級云原生解決方案云上云下一致管理.pdf》由會員分享,可在線閱讀,更多相關《TKE注冊節點:打造IDC輕量級云原生解決方案云上云下一致管理.pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、分布式云實現IDC 輕量化上云TKE 注冊節點湯文軍主講人:TKE 注冊節點介紹 01企業上云過程中面臨的問題資源利舊 利用率低企業原有的物理機如何利用云下資源利用率低(10%-20%),資源浪費嚴重GPU只能利用整卡,希望提升GPU的利用率運維成本高自建 K8s,并運維管理進行 Kubelet、系統組件的升級管理工作需要建設監控、日志系統,并進行大量的運維工作無法統一調度云上已經使用容器服務,云下有物理機,如何打通云上云下資源,實現統一調度和管理弱網問題云下主機沒有專線連接,只能通過互聯網連接到公有云,處于弱網或者斷網場景下,如何將邊緣節點注冊到云上 TKE 集群物理機和云資源分布在不同地域
2、,如何將不同地域的資源加入一個集群進行統一管理IDC 輕量級云原生解決方案-TKE 注冊節點TKE注冊節點是針對混合云部署場景,全新升級的節點產品形態,允許用戶將非騰訊云的主機,托管到TKE集群,由用戶提供計算資源,容器服務,TKE 負責集群生命周期管理,提供“專線版”和“邊緣版”兩種模式IDC節點IDC專線互通TKE Control Plane云上節點云上節點注冊節點池邊緣節點池邊緣節點邊緣地域公有云連接核心場景充分利用IDC資源,并通過Request推薦、動態調度、節點超賣等能力進一步提升IDC資源的利用率。同時針對于GPU資源使用,提供厘核級算力隔離與多優先級混部資源利舊、利用率提升免去
3、在本地搭建、運維K8s集群的成本,無縫集成騰訊云云原生相關服務,涵蓋日志、監控、審計、存儲、容器安全等能力,用戶僅需要運維本地服務器即可,并提供節點聲明式運維的能力,支持節點快速升級及回滾節點托管運維持在單集群內同時調度本地節點與云上CVM節點,便于將云下業務拓展至云上,同時無需引入多集群管理云上云下統一調度支持用戶通過公有云將用于自有節點加入到 TKE 集群進行運維和管理邊緣自治云原生監控日志服務CLS集群審計容器安全鏡像加速容器服務TKE騰訊云注冊節點應用場景-IDC 資源利舊場景:企業IDC中閑置、老舊、退保的異構機器,企業想利用好這批機器,達到降本增效的目的閑置節點老舊節點退保節點企業
4、IDC機器異構,難以統一滿足業務的訴求老舊機器的運維復雜資源利用率低本地容器化成本高企業IDC資源池化,支持k8s調度降低節點運維復雜度資源利用率低本地容器化成本高企業IDC注冊節點池公網互通專線互通閑置節點老舊節點退保節點邊緣節點運維難度大:需要自行構建日志、監控、事件、告警等系統資源利用率低:資源大量浪費編排管理復雜:需要建設業務編排管理系統物理機部署建設成本高:企業需要有容器化領域的專家,以及專業的運維團隊運維難度大:需要自行構建日志、監控、事件、告警等系統升級難度大:無法進行持續升級和更新本地私有云TKE注冊節點接入難度低:10分鐘完成IDC節點上云,并使用 TKE 服務運維成本低:復
5、用 TKE 云上能力,包括監控,日志,安全,集群升級等資源利用率提升:復用云上節點利用率提升方案,最高可提升5倍升級運維方便:云上集群自動升級,節點可設置升級窗口升級注冊節點應用場景-IDC 資源利用率提升資源利用率:40%60%資源利用率:1014%Container Runtime注冊節點HardwareOperating SystemAPPAPPAPPHypervisorOperating SystemHardwareAPPAPPBin/LibraryOperatingSystemAPPAPPBin/LibraryOperatingSystemOperating SystemHardwa
6、reVirtual MachineVirtual MachineAPPAPPBin/LibraryContainerAPPAPPBin/LibraryContainerTKE Control Plane注冊節點池騰訊云大規模運營經驗企業IDC注冊節點注冊節點基礎監控成本運營降低節點運維復雜度資源管控大盤Request推薦動態調度節點超賣在離線混部qGPU注冊節點資源利用率提升通過CPU/內存利用率、節點裝箱率等指標直觀展示成本消耗和資源浪費現狀l資源管控大盤根據業務Pod的歷史水位,幫助用戶推薦、配置合理的 RequestlRequest推薦提供目標利用率配置能力,基于真實利用率調度,保持節點
7、在安全水位l動態調度、重調度配置節點放大系數,提升節點裝箱率l節點超賣通過在離線混部技術,CPU利用率提升300%l在離線混部通過內核級別GPU虛擬化技術,實現GPU共享和強QOS 隔離,性能幾乎零損耗lqGPU注冊節點應用場景-qGPU 提升 IDC GPU 資源利用率GPU driverKubernetes+GPU scheduler pluginpod0-1/n GPUGPU7GPU 0GPU 1GPU K8Spod1-GPUpod3-1 GPUpod2-GPUGPU/vGPU 實例GPU 當前現狀對比GPU 共享方案,資源部署密度最高提升3倍,利用率提升100%GPU資源價格昂貴、利用
8、率低-資源切割不靈活-顯存算力資源共享后,無法保證隔離性,易造成任務之間的搶占和干擾-僅支持高端的GPU-易用性差:業務重編、用戶體驗不好、運維升級困難業界通用GPU共享方案,在使用過程中面試諸多挑戰qGPU driver 虛擬化提供“顯存+算力+故障隔離支持“爭搶+配額+彈性”調度策略APPCUDAUMDAPPCUDAUMDAPPCUDAUMDAPPCUDAUMD騰訊云GPU虛擬化方案-支持多個容器共享 GPU 卡-支持容器間算力和顯存精細隔離-業界唯一的在離線混部能力-在最大程度保證業務穩定的前提下,提升 GPU 利用率qGPU是騰訊云推出的 GPU 容器虛擬化產品TKE qGPU Sch
9、eduler高優 PodGPU0GPU1spreadbinpack在線任務(高優)離線任務(低優)低優 Pod高優 Pod低優 Pod低優 PodKubernetes scheduler 集群調度算法qGPU container runtime注冊節點應用場景-提升節點運維效率K8s組件:kubelet、kubeproxyOS:發行版、內核版本數百種組合 容器運行時:docker、containerd、安全沙箱等基礎組件:存儲、負載均衡、監控等數十種自安裝軟件、多種配置分鐘級接入,本地僅需維護本地節點狀態TKE Control Plane注冊節點池節點初始化節點升級聲明式運維專線互通NPD故障
10、自愈容器安全注冊節點注冊節點注冊節點降低節點運維復雜度企業IDC傳統節點運維繁瑣眾多的節點組件參數配置優化組合眾多的OS發行版本和內核版本復雜的節點維護流程難以預料的安全漏洞風險層出不窮的bug修復和版本迭代節點組件TKE注冊節點運維-配置簡化:提供默認的基于業務場景適配的參數以及統一OS/運行時配置環境-系統優化:提供基于穩定性考慮的統一OS/運行時-輔助升級:節點K8s/運行時/操作系統版本,輔助升級最新版本,并結合騰訊前 沿安全情報及時更新安全漏洞簡化運維-支持原地升級:支持配置最大并行升級節點數-定期巡檢,沉淀騰訊云內部運維巡檢能力,支持接入告警-程序化的工作減少人為誤操作引發的故障。
11、節點排障注冊節點應用場景-混合部署調度TKE Control Plane注冊節點北京IDC云聯網互通上海IDC云聯網互通云聯網互通多類型節點的混合部署云下有各種架構、機型的物理資源,甚至是分散在各個地域的TKE支持管理各種類型的節點,實現節點間的互聯互通云上有普通節點、超級節點、原生節點等多種節點類型注冊節點池北京原生節點池普通節點池注冊節點池上海注冊節點業務可以實現云上云下的相互彈性,支持將云下的Pod調度到云上運行,滿足擴容、災備、彈性的需求業務可以自定義調度模式,可以選擇將服務調度到云上或云下云上云下混合調度TKE Control Plane普通節點池注冊節點池普通節點Pod云上云下互彈
12、(擴容災備)注冊節點PodIDC注冊節點應用場景-邊緣計算TKE Control Plane邊緣節點北京地域上海地域專線連接邊緣計算場景邊緣節點池原生節點池普通節點池IDC 節點池IDC節點無需云聯網,通過公有云即可將邊緣節點注冊到 TKE 集群,快速創建邊緣側 K8s 集群適用于預算有限,又期望通過 TKE 快速納管邊緣側節點,部署 K8s 集群,復用 TKE 云上能力的相關用戶支持邊緣節點弱網和斷網場景,能夠適配邊緣節點各種弱網條件下節點重啟的狀態公有云連接產品優勢K8s 云原生兼容,使用體驗和標準 K8s 完全一致通過云邊隧道實現 K8s 數據面所需的基礎云邊協同能力一鍵即可實現邊緣節點
13、接入部署,同時實現組件輕量化支持異構能力支持(多體系結構、多操作系統、多加速卡)實現云上部署交付以及后期云上運維,降低成本支持多地域節點管理以及應用部署能力普通節點池ApiserverLite-apiserverPod邊緣地域邊緣節點池邊緣隧道云端隧道Pod云邊協同公有云連接TKE Control Plane云邊隧道邊緣節點TKE 注冊節點客戶案例 02PCG 降低本地運維成本客戶處于整體上云原生的階段,目前在IDC有大量的物理機資源在上云過程中實現資源利舊客戶訴求-降低本地集群的運維成本,不希望在本地投入專門的人力運維 K8s-云上云下集群具有一致的體驗(運行時、K8s發行版本、CNI等等)
14、,不一致會給 業務的部署和運維帶來額外的成本-使用注冊節點的方案,將深圳、上海等地域的IDC機器就近接入騰訊云深圳和上海 TKE 集群,實現IDC利舊解決方案借助于注冊節點:業務收益-自研業務在一個月的時間內遷移 IDC 幾十萬核資源快速上云,提前完成年度資源 利舊的目標-集群運維管理由公有云TKE負責,用戶僅需要維護本地節點的健康即可,同時云上 云下統一體驗,進一步降低用戶運維成本。集群運維人員減少60%,用戶可以將寶 貴的人力投入到業務自身深圳TKE集群(深圳)專線互通TKE集群PCG業務平臺騰訊新聞騰訊視頻騰訊QQ微視TKE集群(上海)注冊節點池注冊節點池一致的集群版本一致的可觀測性一致
15、的權限管理一致的集群運維專線互通IDC節點上海IDC節點CVM節點CVM節點qGPU 物理機利舊輕量上云案例客戶大數據和AI業務騰訊云北京客戶北京機房數據服務(容器)物理機物理機數據服務(容器)機器學習服務(容器)應用服務TKE集群消息隊列cos備份TKE混合云1Gb專線騰訊云上海應用服務TKE集群消息隊列cos備份TKE混合云1Gb專線監控日志節點運維客戶訴求某外部客戶在云上有5套 TKE 集群,3套EKS集群,云下有2個自建集群,每個集群有100+節點,運行大數據業務,并且希望能夠統一管理云上云下的集群;同時GPU整卡使用,利用率較低,希望改善將北京和寧波機房物理機加入騰訊云北京和上海機房
16、TKE,并通過云上一鍵交付qGPU精細化管理能力解決方案業務收益-云上統一運維:IDC節點加入公有云,分鐘級構建混合云集群,云上云實現權限,日志,監控統一管理-GPU利用率提升:通過GPU 10%算力切分實現GPU卡的共享,利用率可提升70%-交付效率提升:云上5分鐘完成qGPU的交付GPUGPUGPU客戶寧波機房GPUGPUGPU分布式云TDCC(云上TKE和云下物理機統一管理)注冊節點實現云上云下統一調度管理背景:中國大陸的一家醫療資金眾籌平臺,目前部分業務已遷移到TKE集群。在IDC中存在部分機器,希望將這部分機器加入到TKE集群中,同時希望將POD IP注冊到統一的注冊中心中,進行統一
17、訪問。TKE+注冊節點池方案l通過專線打通云上TKE集群和云下IDC 節點l通過注冊節點池,將IDC節點添加到TKE集群中l集群外節點需要直接訪問集群內的POD具體措施lVPC中添加POD CIDR路由到集群內節點l外部調用時,通過注冊中心獲取服務的POD IPlVPC母機中通過POD 網段匹配路由,將請求轉發到k8s集群中lK8s集群內,有POD的路由,通過路由再轉發到具體服務方案收益l云上TKE作為控制面,云下 IDC 作為支撐面來實際承載業務,實現了云上云下的統一管理、和調度,統一技術棧l控制面和數據面的運維由云廠商負責,解決自己維護集群的運維問題l通過將IDC資源加入TKE集群,促進了
18、 IDC 節點資源的有效、高效利用。IDC節點IDC騰訊云云上節點云上節點注冊節點池TKE Control Plane騰訊云pod cidr:10.16.1.0/24注冊中心云聯網pod cidr:192.168.1.0/24pod 10.18.1.1容器服務TKE專線互通專線互通IDC節點IDCCiliumoverlaypod 云上節點云上節點云上節點云上節點云上節點云上節點云上節點云上節點TKE Control Plane容器服務TKE騰訊會議使用注冊節點實現混合云場景公網互通公有云節點公有云節點TKE網絡agentPodMaster節點云上VPCVPC插件會議運營+運維控制臺PaaS服務
19、會議管理媒體服務調度服務會議管理接口服務代理服務SaaS側服務媒體代理Etcd/redis音視頻服務接口機服務客戶側服務云邊服務調度客戶端Pod租戶A注冊節點-邊緣版客戶IDC節點Pod租戶B注冊節點-邊緣版客戶IDC節點應用部署節點管理場景騰訊會議混合云產品,用戶側部署音視頻等服務處理敏感數據,云上進行非敏感信息的管理和調度注冊節點-“邊緣版”方案解決痛點支持邊緣側 IDC 節點分鐘級快速接入節點部署容器集群,云端運維管控,相較于私有化大幅降低成本混合云集群通過云端管控控制面,相較私有化極大提高集群高可用性 云端部署管控,邊緣服務部署,保證服務更新同時數據主權安全將 TKE 云上能力無縫銜接
20、到用戶 IDC機房側(監控/日志/倉庫/安全等)組件私有化交付輕量化交付控制面云下3*8c 16G云下無控制面,管理0成本,可靠性更高運維駐場公有云運維交付效率2人天50 個節點在 20 分鐘內即可部署成本百萬級十萬以內級備份恢復云下備份恢復公有云備份恢復安全性私有化租戶間數據面隔離,按需聯網彈性云下擴容節點隨時通過公有云即可加入騰訊會議輕量交付集群多地域邊緣節點管理背景:某行業領先的智慧醫療健康科技平臺,目前使用 TKE 注冊節點服務管理了 410+處于各個邊緣地域醫院內的節點,部署智慧醫療相關服務注冊節點(邊緣版)方案位于全國各個地域的醫院內的節點,通過互聯網即可添加到云端 TKE集群通過
21、邊緣集群,向各個醫院下發智慧醫療相關服務通過云端 Dashboard,監控邊緣各個節點系統狀態以及服務狀態方案收益用戶節點位于各個地域的醫院中,資源有限,無法單獨在每個醫院不熟獨立邊緣集群進行管理;同時由于地域眾多,邊緣地域集群運維成本和難度較大;TKE-注冊節點-邊緣版正好解決用戶這個痛點,將控制面運維放在云上,提供公有云級別高可用性,用戶節點可以通過公有云一鍵加入,方便運維可以適配用戶在不同地域的多種異構節點(多體系結構、多類型操作系統)TKE Control Plane騰訊云CLB云監控CLSTCR 鏡像倉庫邊緣醫院側節點Dicom-pacs-compressDicom-edge-film-pacsDicom-edge-syncDicom-edge-proxyDicom-edge-notify醫院 1醫院2醫院 3醫院 4公有云注冊節點-邊緣版THANKS謝謝觀看