《騰訊:騰訊云容器安全白皮書(38頁).pdf》由會員分享,可在線閱讀,更多相關《騰訊:騰訊云容器安全白皮書(38頁).pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、1 概 述 Overview 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 目錄 Contents 01. 概述 02. 容器面臨的安全威脅和挑戰 03. 容器安全的行業現狀 3.2. 當前容器環境面臨的主要安全問題 13 17 061.1 概述 2.1 容器面臨的安全威脅 2.2 容器安全的挑戰 09 11 3.1 用戶視角下的容器安全 3.1.1. 混合云是用戶部署容器業務的主要選擇 3.1.2. 提前規避業務風險是用戶關注容器安全的主要原因 3.1.3. 容器逃逸是用戶最關注的容器安全問題 3.1.4 容器安全能力已有
2、不同程度落地應用,但總體比例不高 3.1.5 技術門檻高是影響容器安全落地部署的主要因素 3.2.1. 鏡像安全問題仍然突出 3.2.2. 容器逃逸是線上容器業務面臨最多的風險 3.2.3. 針對容器的在野攻擊數量巨大 3.2.4 安全配置的合規性仍不樂觀 3.2.5 安全管理和運營難度大 3.2.6 多種復雜因素影響著容器安全的落地 14 14 15 16 16 17 18 19 20 20 20 04. 騰訊云容器安全體系 05. 全面的可觀測性 06. 容器安全管理和運營 07. 總結 4.1. 容器安全體系設計四大原則 5.1. 日志服務 5.2. 監控服務 5.3. 追蹤服務 7.1
3、. 總結 6.1. 資產組件管理 6.2. 密鑰管理 6.3. 安全策略管理 6.4. 漏洞管理 4.2. 全方位層次化的容器安全體系框架 22 32 33 34 39 37 37 37 37 24 23 23 23 24 25 25 29 4.1.1. 安全能力原生化 4.1.2. 安全左移 4.1.3. 零信任架構 4.1.4 安全防護全生命周期 4.2.1. 容器基礎設施安全 4.2.2. 容器基礎架構安全 4.2.3. 容器應用安全 5 概 述 Overview 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 概述 O
4、verview 6 概 述 Overview 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 近年來,云計算的模式逐漸被認可和接受,但總體而言,當前企業上云更多只是基礎設施形態的改變,在上云 的實踐中,傳統應用升級緩慢、架構臃腫、無法快速迭代等問題逐漸的顯現出來,云原生的概念便應運而生。 云原生充分利用云計算的彈性、敏捷、資源池化和服務化等特性,解決業務在開發、集成、分發和運行等整個 生命周期中遇到的問題。尤其是隨著“新基建”的加速布局,以及企業數字化轉型的逐步深入,云原生以其高效 穩定、快速響應等特點極大的釋放了云計算效能,
5、成為企業數字業務應用創新的原動力,有效推動了國民經濟 的高質量發展。 對于云原生,CNCF 給出了相對標準的定義:云原生技術有利于各組織在公有云、私有云和混合云等新型動態 環境中,構建和運行可彈性擴展的應用。云原生的代表技術包括容器、服務網格、微服務、不可變基礎設施和 聲明式 API。這些技術能夠構建容錯性好、易于管理和便于觀察的松耦合系統。結合可靠的自動化手段,云原 生技術使工程師能夠輕松的對系統作出頻繁和可預測的重大變更。 在實現云原生的主要技術中,容器作為支撐應用運行的重要載體,為應用的運行提供了隔離和封裝,成為云原 生應用的基礎設施底座,近年來被廣泛的認可和應用。根據中國云原生用戶調查
6、報告(2020)1顯示, 60% 以上用戶已在生產環境中應用容器技術。 然而一次次安全事件的曝光,不管是特斯拉在亞馬遜上的 Kubernetes 集群被入侵,還是 Docker Hub 頻繁被 爆含有漏洞和惡意程序的鏡像,讓用戶在享受云原生紅利的同時,產生了極大的安全擔憂。 中國云原生用戶調查報告(2020)顯示,容器的安全問題已成為用戶應用云原生的最大擔憂,其中 63% 的用戶認為容器安全是緊迫的需求。容器的安全與否,將直接影響著整個云原生系統的安全性。相關組織在 2021 年發布的容器和 Kubernetes 安全態勢報告中同樣指出 2,在過去一年時間中,有 94的組織在其容器 環境中遇到
7、安全問題,其中 69% 檢測到錯誤配置、27% 在運行時遇到安全事故、還有 24% 發現了嚴重的安 全漏洞。 當前,騰訊云原生產品體系和架構已非常完善,涵蓋了軟件研發流程、計算資源、架構框架、數據存儲和處理、 安全等五大領域的多個場景。依托這些云原生產品,正在為不同行業、不同規模和不同發展階段的數十萬家客 戶提供云原生服務。 2 https:/ 1 http:/ 概述 1.1 7 概 述 Overview 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 圖 1.1 騰訊云原生產品矩陣 騰訊云依托在云原生以及安全方向的持續投入、
8、積累和沉淀,一直致力于在云原生領域為用戶提供更全面、更 穩定、更安全的云原生服務。在云原生產品的設計和實現之初,就充分融入了安全性的設計和考慮,使我們的 云原生系統天然具備安全特性,使安全成為像計算、存儲、網絡一樣的基礎能力,助力用戶實現應用系統的云 原生化,并且持續的保障其安全穩定的運行。 基于騰訊多年對安全攻防技術的研究積累,持續在安全能力上的沉淀,以及對云原生安全領域的研究和實踐運 營,同時結合騰訊云容器平臺 TKE 千萬級核心規模容器集群治理經驗,我們撰寫并發布本白皮書。白皮書全 面介紹了騰訊云在云原生容器安全建設上的思路、方案以及實踐,并希望以這樣的方式,把我們的一些心得分 享給業界
9、,共同推動云原生安全的發展。 8 概 述 Overview 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 容器面臨的 安全威脅 和挑戰 Security Threats And Challenges To Containers 9 容器面臨的安全威脅與挑戰 Security Threats And Challenges To Containers 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 雖然容器以及云原生概念逐漸走向成熟,但云原生體系中安全能力天然不
10、足,容器安全問題越來越多的引發關 注。 2018 年,安全廠商 Fortinet 和 Kromtech 發現 Docker Hub 上 17 個受到感染的 Docker 鏡像被植入挖礦木馬 并被下載高達 500 萬次。事實上,據 Banyan 調查顯示,在 Docker Hub 官方鏡像倉庫中,約超過 30% 的鏡 像存在高危漏洞。此外,由于集群控制臺缺乏密碼保護,特斯拉在亞馬遜上的 Kubernetes 集群被入侵,攻擊 者入侵后在一個 Pod 中找到 AWS 的訪問憑證,并憑借這些憑證信息獲取到特斯拉敏感商業數據。 容器面臨的安全威脅,總體可以分為基礎設施安全、容器和編排平臺安全、網絡安全
11、以及鏡像和應用安全等幾 部分。 容器依托于主機操作系統內核,以進程的方式運行于主機之上,因此基礎設施層面的安全威脅對容器的安全 性有著重要的影響。 一方面,傳統云安全面臨的 DDoS 攻擊威脅、Web 入侵威脅以及網絡層的東西向移動等安全威脅仍然存在, 這些威脅同樣影響著容器環境的安全性; 另一方面,由于容器技術在實現上的特性,主機操作系統層的安全問題對容器的安全威脅較傳統的云安全相 比,影響更直接也會更嚴重,例如 Linux 典型的臟牛漏洞(CVE-2016-5195),可以被用來提權實現容器 的逃逸。 作為容器化最重要的支撐技術,容器以及編排平臺的安全性,是容器安全最重要的因素之一。 1.
12、 組件漏洞威脅:不管是容器技術的典型實現代表 Docker,還是編排平臺的典型實現代表 Kubernetes,其 作為軟件,漏洞的威脅是其在安全性上最直觀也是最主要的安全威脅,例如,Kubernetes 的 API-Server、 Scheduler、Controller 等多個核心組件在實現上,均有不同程度的漏洞爆出,其中不乏高危甚至是 10 分 (CVSS)的超危漏洞。 基礎設施安全 容器和編排平臺安全 容器面臨的安全威脅 2.1 10 容器面臨的安全威脅與挑戰 Security Threats And Challenges To Containers 騰訊云容器安全白皮書 Contain
13、er Security Whitepaper of Tencent Cloud 2. 集群配置不當:配置問題帶來的安全威脅一直以來都備受關注,在傳統的環境下,我們會有各種配置檢查 工具來進行預防。在容器環境下,配置風險尤為突出。例如 Kubernetes API-Server 的鑒權配置不當被攻擊 者匿名登陸、Docker Daemon 的默認 2375 端口配置不當造成遠程控制等。 3. 權限管控威脅:Kubernetes 提供了一個強大的、可擴展的、統一的資源模型,但該模型使得基于角色的 訪問控制 RBAC 對于很多用例來說如果權限管控不當,仍然存在很大的安全威脅。 4. 網絡隔離差。網絡
14、隔離可以幫助防止未經授權的訪問,容器的動態擴展性使得傳統靜態 IP 和端口的隔離 規則不再適用。而不管是 Kubernetes 的多種集群網絡插件,還是 Docker 默認的各種網絡模型,其在網絡 的隔離上,均沒有做到很好的管控。 另外,容器技術本身在設計和實現上,同樣有著很大的安全威脅存在,面向容器的拒絕服務攻擊(DoS)、 容器逃逸等安全威脅是容器環境面臨的重要安全威脅之一。例如,默認情況下容器可以使用主機上的所有內 存,如果某個容器以獨占方式訪問或消耗主機的大量資源,則該主機上的其它容器就會因為缺乏資源而無法 正常運行。 云原生時代的應用交付標準不斷演進,以容器鏡像、Helm Chart
15、 為代表的云原生制品將貫穿整個云原生應 用生命周期。制品的構建、入庫、分發和運行,其供應鏈的每一個環節都面臨著不同維度的安全風險。 以容器鏡像為例, 在鏡像構建時鏡像的漏洞問題、 惡意代碼或敏感信息暴露問題 ; 鏡像入庫后的訪問控制問題、 準入校驗問題以及鏡像的機密性和完整性問題;鏡像分發時遭受惡意攻擊篡改的風險等。 在容器鏡像內部,除了應用漏洞需要重點關注之外,對于鏡像內的其它脆弱性問題同樣不容忽視,比如鏡像 內是否暴露了賬號密碼等信息、是否包含了秘鑰文件、是否提供并暴露了 ssh 服務、是否運行了禁止運行的 命令等。 傳統的攻擊手段對容器運行時依然有效,容器環境面臨更復雜的攻擊問題。首先,
16、由于容器的隔離性較弱, 攻擊者可以利用敏感掛載和漏洞實現逃逸到宿主機;其次,特權容器的濫用增加了惡意代碼和挖礦程序植入 的風險;最后,運行時環境下的錯誤配置讓攻擊者竊取集群資源并發動攻擊活動變得輕而易舉。 鏡像安全 運行時安全 11 容器面臨的安全威脅與挑戰 Security Threats And Challenges To Containers 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 容器安全的挑戰 2.2 攻擊面增加:相比較傳統物理服務器或虛擬機的隔離方式,容器化應用部署極大的增加了業務被入侵的安全隱 患。在云原
17、生環境中,容器基于進程進行隔離,多個服務實例需要共享宿主機的操作系統,一旦有服務存在漏 洞且被攻擊時,同一主機運行的其他服務會不可避免的受到影響。 監控和防護難度大:云原生環境下的微服務架構使得集群內部的網絡流量和通信端口總量大幅增加,傳統防火 墻基于固定 IP 的安全策略很難適應這種持續的動態變化,因此無法準確捕捉容器間的網絡流量和異常行為。 此外,容器的動態調度策略導致其生命周期難以預測,這無疑進一步增加了容器安全監控和防護的難度。 安全管控難度高:云原生支持通過一系列的自動化工具將業務的開發和部署交由流水線操作,在應用構建過程 中還需要考慮基礎鏡像、依賴庫、構建、部署、運行等環節的安全問
18、題,安全管控難度較高。 12 概 述 Overview 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 容器安全的 行業現狀 Industry Status Of Container Security 13 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 為進一步了解容器安全的行業現狀,我們對騰訊云用戶展開詳細的數據調研。調研覆蓋了互聯網、政府、金融、 教育在內的多
19、種行業,調研群體包括安全、運維、開發和產品等不同崗位。 圖 3.1 被調研用戶行業分布 圖 3.2 被調研用戶角色分布 用戶視角下的容器安全 3.1 14 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 3.1.1 混合云是用戶部署容器業務的主要選擇 3.1.2 提前規避業務風險是用戶關注容器安全的主要原因 調研數據顯示,混合云基礎設施是用戶部署容器化應用的主要選擇,其次會選擇多家公有云,采用多云的方式 部署,或者是搭建自己的私有云
20、。 從下面的圖表同樣可以看出,這樣的基礎設施形態比例,跟我們傳統的用戶上云對云平臺的選擇如出一轍。從 安全角度來看,混合云安全、多云安全這些問題,在容器環境下同樣也會成為用戶的痛點。 調研數據顯示,有 77.2% 的受訪者為提前規避業務風險而關注容器安全能力建設;同時,還有 50.8% 的受訪 者表示他們因業務系統經歷過容器或 Kubernetes 相關的安全事件(漏洞攻擊、容器逃逸、集群入侵等)而引 發安全關注;另外還有 51.3% 的用戶表示需要建設容器安全能力來滿足一定的合規需求。 圖 3.3 容器化業務基礎設施形式分布 圖 3.4 用戶關注容器安全的原因 15 容器安全的行業現狀 In
21、dustry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 3.1.3 容器逃逸是用戶最關注的容器安全問題 在安全風險調研過程中,容器逃逸、鏡像安全、集群入侵是受訪者最關注的容器安全問題。其中,集群入侵是 運維人員最關注的容器安全問題;而安全人員最關注的是容器逃逸問題;研發人員則更關注鏡像安全問題。 相比較服務器或虛擬機的安全而言, 受訪者認為業務的容器化部署在安全保障上更應該注意的三大問題分別是: 網絡隔離(58.7%)、容器及編排系統的自身安全(53.6%)和訪問
22、權限管理(51.0%)問題。 圖 3.5 用戶最關注的容器安全問題 圖 3.6 容器安全相比較服務器 / 虛擬機安全更應關注的問題 由此可見,容器安全能力的完善與否,對應用系統在生產環境容器化部署的影響是關鍵性的。有超過一半的受 訪者認為,業務對安全能力的擔憂會推遲業務的容器化部署。 16 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 3.1.4 容器安全能力已有不同程度落地應用,但總體比例不高 在云原生業務的容器安全能力部署現狀
23、的調查結果中,有 59.7% 的受訪者表示業務側已經應用了鏡像漏洞掃 描能力,有 52.6% 已經實現了容器主機安全加固,有 45.9% 已經支持集群監控和日志審計。 但是,仍然有 7% 左右的受訪者業務在生產環境不具備任何容器安全能力。此外細粒度的網絡隔離(如 Network Policy)、Pod 安全策略、Secret 加密等容器安全能力并沒有得到應用。 圖 3.7 用戶對容器安全能力部署使用情況 3.1.5 技術門檻高是影響容器安全落地部署的主要因素 在容器安全能力部署方面,技術操作門檻高、業務側學習成本大是限制企業容器安全能力全面部署的主要因素。 此外,考慮安全能力建設的滯后性,容器
24、安全能力部署可能會影響現網業務的穩定運行也是廣大受訪者考慮的 一個重要因素。 同時,也有部分受訪者認為容器安全能力建設的價值不明顯,從投入產出比的角度來看該能力并不能滿足企業 的業務發展訴求,也不能帶來額外收益。 圖 3.8 影響容器安全落地的主要因素 17 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 云原生架構下,容器安全風險存在于應用的開發構建、部署、運行時全生命周期階段。根據騰訊云容器安全服 務的常態化巡檢和容器安全態勢監
25、控,我們對容器鏡像風險、容器運行時入侵、容器在野攻擊、容器配置合規 等情況進行了統計分析,結果數據在一定程度上體現了當前企業在容器環境下面臨的實際安全問題。 3.2.1 鏡像安全問題仍然突出 圖 3.9 容器鏡像的安全問題 在對生產環境容器鏡像的掃描中,高達 21% 的鏡像存在嚴重高危漏洞,59% 鏡像掃描出存在敏感信息,另外 有少部分鏡像被掃描出存在木馬病毒。高危漏洞是提供給攻擊者進行入侵的重要手段,一旦被攻擊者利用可能 造成嚴重危害,如破壞鏡像以及關停業務應用。在鏡像構建階段若沒有執行相應安全規范,則很有可能將如訪 問憑證、密鑰等敏感信息引入鏡像,造成業務的敏感信息泄漏。 當前容器環境面臨
26、的主要安全問題 3.2 18 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud Docker Hub 是云原生應用重要的軟件供應鏈,是全球最大的公共鏡像倉庫。根據Sysdig 2021 Container Security And Usage Report顯示高達 47% 的生產環境容器鏡像來源于公共鏡像倉庫。騰訊安全在對 Docker Hub 進行持續的黑產活動監控和研究發現,較多黑產團伙利用 Docker Hub 上傳特制挖礦鏡像
27、,通過 蠕蟲病毒快速感染 Docker 主機,進而下載相關鏡像進行挖礦。 根據黑產監控顯示, Docker Hub中單個惡意鏡像最高傳播量高達1900萬次, 黑產鏡像累計傳播量達到1.9億次。 攻擊者上傳惡意鏡像到 Docker Hub 進行鏡像投毒傳播,通過 Docker Hub 開展黑產活動成為了黑產團伙進行 容器攻擊的重要手段。 圖 3.10 單個惡意鏡像傳播量 3.2.2 容器逃逸是線上容器業務面臨最多的攻擊 圖 3.11 2021 年容器運行時入侵事件統計 在容器運行時階段,傳統的網絡攻擊對容器仍然生效,同時容器環境面臨更復雜網絡安全問題。2021 年,騰 訊云容器安全服務監測到的可
28、疑容器逃逸行為 84 萬次,檢出容器內掛馬事件共 901 次,其余各類運行時可疑 入侵事件數量如圖。 19 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 圖 3.13 針對容器進行攻擊示例 3.2.3 針對容器的在野攻擊數量巨大 圖 3.12 針對容器的在野攻擊來源統計 騰訊安全通過在互聯網上部署大量模擬運行的容器服務,持續跟蹤并捕獲正在發生的針對容器的在野攻擊。僅 2021 年 9 月份,騰訊云安全監測捕獲到針對容器的在野攻擊達
29、 10.8 萬次,發起容器攻擊的 IP 來源分布分別 為中國 70619 次,其次是俄羅斯 11220 次和美國 7139 次。 根據容器在野攻擊監測數據顯示,互聯網存在大量針對容器服務進行的持續脆弱性探測和入侵,包括容器未授 權訪問探測、Kubernetes 集群組件漏洞探測,容器登陸嘗試等行為。 攻擊者繼而利用暴露的容器漏洞、容器配置缺陷等手段對容器及容器集群發起入侵。成功入侵容器后,攻擊者 進行了惡意鏡像執行、部署特權容器、部署遠控、容器逃逸、進程隱藏等行為,最終達到完全控制容器及其宿 主機,并進行挖礦等持久化攻擊目的。例如下圖展示了某黑產團伙針對容器進行攻擊的流程。 20 容器安全的行
30、業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 3.2.4 安全配置的合規性仍不樂觀 3.2.5 安全管理和運營難度大 3.2.6 多種復雜因素影響著容器安全的落地 在容器配置合規方面,基于 CIS 標準的容器基線檢查整體通過率約為 67.22%,其中未通過率最高的檢查項為 沒有限制使用 PID(100%),其次分別是:沒有設置容器的根文件系統為只讀(98.8%)、未確保 Linux 內 核功能在容器內受限使用(97.97%)、未限制容器獲得額
31、外的權限(93.38%),可以看到在生產環境下仍有 較多的容器存在嚴重的配置風險。 圖 3.14 容器環境配置不合規統計 由于云原生技術具有一定的操作門檻,在業務遇到問題時,需要用戶的運維方和云服務提供方人工介入進行問 題排查以及參數調優等。這樣的操作在現實生產環境中比較常見,然后這又跟云原生的不可變基礎設施等核心 理念相沖突。 同時,容器業務的多云部署使得不同云廠商之間的容器安全防護能力難以統一,而網絡互通又會進一步導致安 全攻擊的影響范圍無限擴大; 因此,面對多種復雜的容器使用現狀和場景,在安全上的管控難度將變的極大。 除此之外,我們通過對騰訊云容器用戶的運營數據進行分析,還發現現有的云原
32、生應用部署以教育、金融、文 創和電商為代表的互聯網行業客戶居多,行業的快速演變使得客戶更專注于業務開發而忽略對容器安全能力的 建設。 21 容器安全的行業現狀 Industry Status Of Container Security 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud Container Security Architecture 騰訊云容器 安全體系 of Tencent Cloud 22 騰訊云容器安全體系 Container Security Architecture of Tencent Cloud 騰訊
33、云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 云原生計算通常會被稱為云計算的下半場,不管是容器還是編排,其本質是云計算的一種實現方式。因此,容 器環境在安全建設上,總體還是要遵循云安全的架構。 除了物理安全,容器云環境的安全可以粗略分為兩個主要方面:一方面是容器云內部的安全,這包括主機安全、 虛擬化安全、容器網絡(東西向)的安全、管理平臺的安全以及數據安全等;另一方面就是容器云內外之間的 網絡安全,也就是通常講的南北向網絡安全。 因此,容器云的安全方案,可以分別從這兩個方面進行設計:對于南北向的網絡安全,通??梢灾苯訌陀脗鹘y 的
34、安全產品和能力,比如 WAF、抗 DDoS、Web 漏掃、IDPS 等,實現相應的安全檢測與防護。對于容器云內 部的安全,可以通過相應的容器安全機制進行實現。 容器安全體系設計四大原則 4.1 鑒于云原生技術的特點,以及云原生安全與傳統安全建設的區別,在進行容器安全建設時,會遵循如下幾個重 要的原則。依托這些原則,可以更好的指導我們進行容器安全的方案設計和落地實施。 圖 4.1 容器安全體系設計原則 23 騰訊云容器安全體系 Container Security Architecture of Tencent Cloud 騰訊云容器安全白皮書 Container Security Whitep
35、aper of Tencent Cloud 4.1.1 安全能力原生化 4.1.2 安全左移 4.1.3 零信任架構 云原生依托容器、服務網格等關鍵技術,實現了更輕量的隔離方式、更靈活的負載管理、更復雜的容器網絡、 更短的容器生命周期、以及更敏捷的開發流程。這些重要變化,使得傳統的安全防護手段很難發揮應有的作用。 要實現容器安全或者是云原生安全,一定要充分匹配云原生的特性,采用原生安全的方式,這里的原生安全包 括兩個方面: 一方面是原生的基礎安全,也就是在基礎設施和基礎架構上原生的提供安全能力,使得云原生應用能夠做到上 線即安全。騰訊云容器服務 TKE 在容器、編排、微服務等云原生基礎架構的構
36、建過程中,就充分的融入安全 性的設計和考慮,使我們的云原生系統天然具備安全特性,使得安全成為像計算、存儲、網絡一樣的基礎能力。 另一方面,就是安全能力的云原生實現,充分利用云原生的技術優勢,來實現安全檢測與防護能力,使相關的 安全能力同樣具備云原生的低成本、高效率和高可用等特性。 云原生架構下,容器實例生命周期短,業務迭代更新快,同時主機上容器密度高、業務復雜,而且很多傳統的 安全設備和安全手段無法發揮有效的作用。在這種情況下,增加運行時安全的投入對于整體安全性的提升很難 有顯著的幫助。 一個有效的方法就是最近兩年經常被提及的安全左移(Shift Left),在軟件生命周期的更早階段,投入安全
37、 資源和安全能力能更有效的收斂安全問題,包括安全編碼、供應鏈(軟件庫、開源軟件)安全、鏡像(倉庫) 安全等。這些方面的資源大多是白盒,相應的安全投入相對較少;而且這些資源生命周期較長,如果能保證安 全性,攻擊者在攻擊運行時實例得手后更難持久化。 我們知道,基于 DevOps 協作框架實現敏捷高效的 IT 流程,是云原生架構的一個重要應用場景,Gartner 更是 在很早便提出 DevSecOps。安全左移同樣也是實現 DevSecOps 的一個重要的原則,將安全能力全面融入到 DevOps 體系中,實現面向 DevSecOps 的全生命周期安全防護。 云原生架構下的網絡基礎設施更加復雜,這種復
38、雜性超越了傳統網絡邊界安全的防護方法?;趥鹘y物理、固 定邊界的網絡安全也被證明是不夠用的,“內部的系統和網絡流量是可信的”這一假設是不正確的。網絡邊界的 安全防護一旦被突破,即使只有一個 Pod 被攻陷,攻擊者也能夠在所謂“安全的”內部橫向移動。 24 騰訊云容器安全體系 Container Security Architecture of Tencent Cloud 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud NIST 在 2020 年 8 月,發布了最新的零信任架構 3,在零信任安全模型中,會假設環境中隨時可能存在攻
39、擊者, 不能存在任何的隱形信任,必須不斷的分析和評估其資產、網絡環境、業務功能等的安全風險,然后制定相應 的防護措施來緩解這些風險。在零信任架構中,這些防護措施通常要保證盡可能減少對資源(比如數據、計算 資源、應用和服務等)的訪問,只允許那些被確定為需要訪問的用戶和資產訪問,并且對每個訪問請求的身份 和安全態勢進行持續的認證和授權。 在云原生架構下,容器安全防護的主體從主要以 IP 為標記的主機變成了以 Label、Tag 等作為標記的應用程序, 其安全邊界變的更加模糊。因此,需要采用零信任架構,通過全面有效的身份權限管理以及持續的檢測與響應 來實現對云原生應用的安全防護。 4.1.4 安全防
40、護全生命周期 在云原生架構中,業務的快速迭代以及容器生命周期短、業務復雜、網絡復雜等特點會造成運行時的安全檢測 投入成本很高。因此,基于上述安全左移的設計思想,我們在容器生命周期的各個階段,嵌入相應的安全能 力,實現對容器的全生命周期安全防護。全生命周期防護是實現“安全前置”或者“安全左移”的結果,也是實現 DevSecOps 的一個重要方法。 全方位層次化的容器安全體系框架 4.2 云原生容器安全體系采用層次化的方式,逐層實現安全防護。主要分為承載容器云平臺的基礎設施層安全、容 器和容器云平臺基礎架構層安全、以及容器承載的應用層安全。 圖 4.2 騰訊云容器安全體系 3 https:/csr
41、c.nist.gov/publications/detail/sp/800-207/final 25 騰訊云容器安全體系 Container Security Architecture of Tencent Cloud 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 4.2.1 容器基礎設施安全 4.2.2 容器基礎架構安全 在基礎設施層,提供針對容器平臺運行主機的安全防護措施,包括采用騰訊專有的安全內核和安全操作系統, 以及對已知漏洞進行安全性的修復和管理。同時,針對主機上的基礎軟件,進行安全配置基線的檢測與加固, 在基礎設
42、施層面減小攻擊面。 TencentOS 基于內核社區長期支持的版本進行定制,增加了適用于云計算場景的新特性、改進內核性能并修 復了重大缺陷。在容器化場景下,進行了一系列的性能優化以及功能定制。 例如:增加了主機級開關,用戶無需在節點部署 LXCFS 文件系統及修改 Pod spec,僅需在節點開啟全局 開關(sysctl -w kernel.stats_isolated=1),/proc/cpuinfo 及 /proc/meminfo 等文件獲取即可按容器隔 離。增加了容器級開關,針對類似節點監控組件等特殊容器,增加了容器級開關 kernel.container_stats_ isolated
43、。在主機級開關開啟時,僅需在容器啟動腳本中關閉容器級開關(sysctl -w kernel.container_stats_ isolated=0),即可在容器中讀取 /proc/cpuinfo 及 /proc/meminfo 文件時獲取到主機信息。 同時,還實現了內核參數的 namespace 化隔離,包括 net.ipv4.tcp_max_orphans、net.ipv4.tcp_rmem、 net.ipv4.tcp_wmem 等,提升了參數的隔離性和安全性。 同時,TencentOS Server 會定期針對相關安全性問題進行升級更新,提升系統和內核的安全,在底層保證容 器化應用的安全運
44、行。 除了定制化的安全內核和操作系統之外,我們還會對已知的漏洞進行安全修復,對相應危險的配置進行檢測和 修正,保證解決掉所有已知的安全風險。同時,基于多年的安全管理和運營經驗,騰訊云提供了一套完整的漏 洞和配置管理運營方案,對于主機漏洞和配置,能夠在第一時間進行修復和處理,最大程度的降低基礎設施層 面的安全風險。 在容器云平臺的基礎架構層,首先針對容器和 TKE 平臺采取了有效的安全防護措施,包括提供有效的資源隔 離和限制措施,用戶的身份和權限管理機制,基于騰訊云原生最佳實踐的安全配置加固,對云原生實現組件的 漏洞管理與修復等。 其次,在網絡安全上,采用零信任架構,持續的對集群網絡進行監控和異
45、常檢測,保證網絡的有效隔離和安全 通信,包括租戶、Service、Pod 等不同粒度的網絡隔離,網絡通信的加密,訪問控制,網絡的入侵檢測,基 于機器學習進行網絡行為的異常檢測與處置等。 最后,當容器啟動運行后,會持續的對包括容器逃逸、反彈 shell、異常進程、文件篡改、高危系統調用等在 內的入侵行為進行檢測與告警,實現運行時的實時檢測與防護。同時,還會結合機器學習、人工智能等大數據 分析技術,對容器的行為進行監控、畫像,從行為分析角度,對容器內的行為進行異常檢測,多維度保障容器 的運行安全。 26 騰訊云容器安全體系 Container Security Architecture of Te
46、ncent Cloud 騰訊云容器安全白皮書 Container Security Whitepaper of Tencent Cloud 1. 容器與平臺安全 2. 零信任網絡安全 在容器云平臺 TKE 的基礎架構層,首先會提供針對容器和編排系統的安全防護措施,包括提供有效的資源隔 離和限制措施,用戶的身份和權限管理機制,基于騰訊云原生最佳實踐的安全配置加固,對云原生實現組件的 漏洞管理與修復等。 容器編排平臺是云原生應用部署和運行的基礎,對于平臺的安全需求主要體現在資源隔離和限制、權限管理、 安全配置加固和漏洞管理等幾個方面。 在網絡安全上,騰訊云容器服務 TKE 采用零信任架構,持續的對
47、集群網絡進行監控和異常檢測,保證網絡的 有效隔離和安全通信,包括租戶、Service、Pod 等不同粒度的網絡隔離,網絡通信的加密,訪問控制,網絡 的入侵檢測,基于機器學習進行網絡行為的異常檢測與處置等。 資源隔離和限制 權限管理機制 安全配置加固和漏洞管理 將應用存放在不同的命名空間是實現資源隔離的關鍵措施,使用命名空間來隔離敏感的工作負載有助于建 立安全邊界。此外,創建和定義網絡策略可控制 Pod、命名空間和外部 IP 地址之間的流量。同時,TKE 提供了全面細粒度的容器資源管控措施,嚴格監控和限制每個容器的資源使用數量,避免在資源消耗上對 容器進行拒絕服務攻擊。 為了明確各種角色成員的職
48、責劃分、避免在協作環境下對資源的越權使用,TKE 通過身份和策略管理機 制對各種角色的成員進行權限管理。不同子賬號在獲取集群訪問憑證時,使用集群 CA 簽發的客戶端證書 訪問集群 API-Server 來確保禁用未經身份驗證的匿名訪問。 此外,騰訊云容器服務 TKE 還設定了定期的證書更新機制來防止訪問憑證的泄露。RBAC 策略模型針對 集群內對象資源提供了細粒度的訪問控制能力,集群管理員應對根據成員角色進行集群或命名空間維度下 的定向授權,不可以賦予所有用戶集群范圍的權限。當應用程序訪問 API-Server 時,需要為不同應用單 獨創建 Service Account,并提供所需的最小權限
49、集。 CIS 發布的 Docker 和 Kubernetes 基線已經成為業內普遍認可的容器與平臺配置的最佳實踐。結合騰訊 云容器平臺 TKE 千萬級核心規模容器集群治理經驗,我們在此基礎上,制定了騰訊云原生最佳實踐的安 全加固配置規范,基于該規范對 TKE 集群進行安全配置加固,消除配置問題帶來的安全風險。 此外,我們還會利用漏洞掃描服務對平臺組件進行周期性的漏洞掃描,及時發現危險漏洞并修復。 27 騰訊云容器安全體系 Container Security Architecture of Tencent Cloud 騰訊云容器安全白皮書 Container Security Whitepap
50、er of Tencent Cloud 網絡隔離與訪問控制 網絡入侵檢測 網絡異常行為分析 網絡隔離是容器間網絡安全最基礎的能力保障,在傳統網絡,或者虛擬化網絡中,已經存在了像 VLAN、 VPC 之類的網絡隔離技術,但是,這些隔離技術主要針對確定性網絡,或者是租戶網絡的隔離。 在云原生架構中,容器或者微服務的生命周期與傳統網絡或者租戶網絡相比,變得短了很多,其變化頻率 要高很多。微服務之間有著復雜的業務訪問關系,尤其是當工作負載數量達到一定規模以后,這種訪問關 系將會變得異常龐大和復雜。因此,在云原生環境中,網絡的隔離需求已經不僅僅是物理網絡、租戶網絡 等資源層面的隔離,而是變成了服務之間應