1、揭秘BOT流量防范新型攻擊騰訊安全 BOT 管理白皮書BOT 流量是指在互聯網上對 Web 網站、APP 應用、API 接口通過工具腳本、爬蟲程序或模擬器等非人工手動操作訪問的自動化程序流量,一般也稱為機器人流量。據第三方調研報告統計,2021 年的 BOT 流量請求占比已經超過人工的訪問流量。而 BOT 流量也與我們日常生活密不可分,不管是搶票搶菜,還是領券帶貨,我們甚至在不經意中就參與其中。當然,BOT 流量也并非都是惡意的,也存在良好 BOT 流量,如搜索引擎、統計和廣告程序等正常流量能提升網站排名,進行網站監控提升用戶體驗。惡意的流量通過利用代理或秒撥 IP、手機群控等手段來爬取信息數
2、據、搶刷接口、薅羊毛、外掛作弊等惡意攻擊行為,對業務帶來信息泄露、資金損失等風險損害網站和用戶的利益。下面將從流量構成和攻擊特征來了解和認識 BOT 流量,然后深入剖析常見類型的 BOT 組成、使用場景和危害進一步加深對 BOT 的認知,接著全面介紹業界主流的 BOT 攻擊對抗方案,提供惡意 BOT 流量防護思路,最后整體介紹 BOT市場規模及趨勢分析。序言序言BOT 流量占比逐年上升 02 BOT 攻擊產業化、普及化、自動化 03基于規則情報的 Anti-BOT 方案 15基于客戶端風險的 Anti-BOT 方案 16基于機器學習+ AI 的 Anti-BOT 方案 19基于規則情報+客戶端
3、風險識別+機器學習+ AI 的 Anti-BOT 方案 202022 年上半年 BOT 流量現狀分析2022 年上半年 BOT 流量分析主要觀點常規的 BOT 對抗方案BOT 常見類型 07BOT 主要對抗手段 10BOT 常見類型與對抗手段市場規模與預期 22疫情中 BOT 的趨勢變化網絡攻擊成為 BOT 新興攻擊流量 23來自不同網絡類型的流量分布更加均勻,來自基站的網絡流量增加隨著技術的不斷迭代,滑動驗證碼在識別 BOT 流量上的效率有所降低 24游戲、零售和電子商務行業受到 BOT 攻擊最多BOT 市場規模與行業分析序言目錄2022 年上半年 BOT流量分析主要觀點022022 年上半
4、年 BOT 流量分析主要觀點BOT流量占比逐年上升2022 年上半年平均每月 BOT 流量占整體流量63%,惡意 BOT 流量占整體流量27%,惡意 BOT 流量增長趨勢迅猛多端混雜,攻擊目標從業務資源型 BOT 逐步切換為針對業務內容的 API 型 BOT,多端 BOT 流量混雜,對 BOT 防護的粒度有較大的要求。47%17%4%27%攻擊TOP101%1%1%1%1%2022 年上半年平均每月的 Web 應用的攻擊流量中, BOT 與 CC 攻擊流量占據整體網絡攻擊流量的 80% ,針對業務攻擊流量遠大于 Web 應用攻擊流量, 環比 2021 上半年的攻擊流量數據,BOT 攻擊流量整體
5、上漲幅度為 5% 。2022 年上半年 BOT 攻擊流量平均每月達到 110 億+ 攻擊流量,CC 攻擊流量為63 億攻擊流量?,F網上的主要攻擊流量類型以業務攻擊流量為主。BOT 自動化攻擊流量不再僅偽裝瀏覽器發 起,在多端混雜上更進一步 后增加補充 隨著 居家辦公及移動辦公的普及,Web 應用上的流量不再僅僅局限于瀏覽器。小程序、APP 逐漸成為新生的流量載體,BOT 流量也隨著時代開始改變,BOT 自動化的攻擊流量不再局限于偽裝瀏覽器,網多端混雜更進一步。BOT 攔截SQL 注入攻擊命令注入攻擊XSS 攻擊地域封禁攔截CC 策略攔截自定義策略IP 黑名單惡意掃描BOT 攻擊產業化、普及化、
6、自動化2022 年上半年 BOT 上下游產業鏈密切配合持續豐富,攻擊者提供的攻擊服務產業化,攻擊者形成 BaaS(BOT as a Service) 趨勢。BOT 攻擊者的上下游供應鏈繼續豐富,云上提供的相關服務內容增多、除了攻擊者常用喜愛的 IDC、VPS 此類較傳統的機器外,可選擇使用路徑更加多,如近幾年新興的云函數、Serverless、無服務計算、云真機等等技術發展的興起,部分攻擊者使用的資源/機器資源切換手段從老式的自己購買 VPS / IDC 搭建基礎環境,變換為使用云函數、Serverless、無服務計算、云真機進行低成本的機器資源的模擬及使用,并形成相關的服務信息。BOT 使用
7、供應鏈相關資源配置的豐富外,很多攻擊者會使用一些來自商業化的配置工具進行訪問,如代理服務商、VPN 服務商、模擬器服務商、沙盒服務商等上下游資源供應鏈。除了自建業務應用外,使用上下游成熟的業務也不在少數,BOT 攻擊者通過購買現有商業化的資源替換方案,通過商業化的模擬器、沙盒、IP 代理,實現業務資源的快速Anti-BOT 對抗。部分 BOT 攻擊者整合了上下游供應鏈的信息,通過低代碼的方式,為有需要的攻擊者提供自動化 IP 變換、自動對抗驗證碼、自動化沙盒等對抗技術,分攤降低 Anti-BOT 對抗的成本,實現 BaaS(Bot as a Service 成為新寵兒)化服務方式。032022
8、 年上半年 BOT 流量分析主要觀點042022 年上半年 BOT 攻擊的使用手段及技術更加普及,BOT 流量的發起也不再局限于灰黑產業務中。疫情下,網絡空間的流量發展更進一步,很多業務數據從線下實體,延伸至線上服務。從之前的火車票搶訂、酒品搶購、醫院掛號再到生活物資的購買,都逐漸從線下逐步切換到了線上, “黃牛黨” 、 “羊毛黨”等使用 BOT 技術的人員群體為主要 BOT 流量發起者,但是隨著時間的逐漸遷移,部分“黃牛黨”將 BOT 工具通過分銷的形式進行售賣,并提供相關技術支持,部分正常用戶也可以通過利用這種 BOT 程序,對業務進行惡意 BOT 訪問。隨著信息傳播的加速,BOT 利用工
9、具也在不斷的傳播,BOT工具使用人員不再局限于灰黑產業務人員中。信息技術不斷發展,打造 BOT 工具的門檻持續降低,部分用戶選擇自建 BOT 工具發起 BOT 流量。隨著計算機信息技術的不斷普及傳播,部分惡意用戶嘗試通過已有的技術,自己編寫 BOT 相關工具對業務進行重復性 BOT 訪問,并將這類 BOT 工具在公開代碼平臺、社交平臺上進行傳播,使得部分正常用戶也會使用 BOT 工具,在沒意識到是攻擊行為的情況下對業務進行 BOT 訪問和攻擊,從而影響了業務的正常運行。2022 年上半年 BOT 流量分析主要觀點2022 年上半年 網絡攻擊類更加自動化、武器化。網絡攻擊者利用 BOT 對網絡空
10、間進行大面積的掃描攻擊,從漏洞 POC 發現到 BOT 的自動化利用時間間隔大幅度降低。需要強有力的對抗自動化網絡武器的手段。漏洞爆發迅速,攻擊者利用 BOT 工具對網絡進行大規模掃描,在漏洞爆出的初期,快速實現 Web 應用攻擊掃描,如在 2021 年底爆發的 Log4j2 漏洞,攻擊者在漏洞公布后的幾個小時內就已經開始全網大規模的掃描。除了基礎安全規則的防護外,需要一個更加有力的手段,用于對抗此類自動化的批量掃描工具。除此之外,攻擊者為了達成目的,會使用自動化模糊測試的手段,對敏感業務的接口字段進行安全防護繞過,以獲取相關的敏感業務資產信息。如果對此類繞過探測手段沒有比較好的防護措施,將會
11、使敏感的基礎設施的權限、數據敏感信息被黑客竊取,造成業務資產損失。052022 年上半年 BOT 技術手段變化多樣,惡意 BOT 流量的識別和防護難度增加?;A資源調度更加便利,隨著 win11 WSA(Windows Subsystem Android)這個新特性的發布,更多的攻擊者通過利用 WSA 對業務進行擬真訪問,解除了之前的傳統模擬器中系統應用版本的低問題,BOT 流量識別難度加大。技術手段更進一步, 隨著 Chrome Devel-op Protocol、Playwright 等操控自動化操作工具的逐漸完善,在端上識別瀏覽器被操控的難度逐漸增加,如果要完全處置此類 BOT 手法,會
12、造成在移動端上的大量碰撞,誤傷正常用戶,BOT 識別難度加大。最近一年中 BOT 攻擊者的發起網絡請求的位置更加偏向從住宅 IP 中發起,IP 類型從傳統的 IDC、VPN 側發起,逐漸變為混淆度極高的住宅 IP、基站 IP。BOT攻擊流量混淆在里面,處置攻擊者的同時更容易誤傷正常訪問用戶。BOT 相關工具廣泛傳播,正常用戶也會使用 BOT 相關工具,如果配置不當,易造成相關客情輿論,造成防護規則難度加大。2022 年上半年 BOT 流量分析主要觀點BOT常見類型與對抗手段爬蟲機器人爬蟲機器人,也稱為網絡蜘蛛或爬蟲,通過跟蹤超鏈接瀏覽網絡,目的是檢索和索引網絡內容。蜘蛛下載 HTML 和其他資
13、源,例如 CSS、JavaScript 和圖像,并使用它們來處理站點內容。如果您有大量網頁,您可以將 robots.txt 文件放在您的網絡服務器的根目錄中,并通過自定義設置并向爬蟲機器人提供說明,指定它們可以抓取您網站的哪些部分以及頻率。抓取機器人是從網站讀取數據的機器人,目的是離線保存數據并使其能夠重復使用。抓取機器人可能抓去網頁的全部內容或特定的 API 數據以獲取特定的數據,例如電子商務網站上產品的名稱和價格以及詳情圖片。網頁抓取是一個灰色地帶,在某些情況下抓取是合法的,并且可能會得到網站所有者的許可。在其他情況下,機器人操作員可能會違反網站使用條款,或者更糟糕的是利用抓取來竊取敏感或
14、受版權保護的內容。BOT 常見類型07BOT 常見類型與對抗手段垃圾郵件機器人是一種互聯網應用程序,旨在收集垃圾郵件列表的電子郵件地址。垃圾郵件機器人可以利用電子郵件地址的獨特格式從網站、社交媒體網站、企業和組織收集電子郵件。在攻擊者積累了大量電子郵件地址/或使用臨時郵箱后,他們不僅可以使用它們發送垃圾郵件,還可以用于其他邪惡目的:自動將垃圾郵件(例如廣告或惡意軟件鏈接)插入熱門網站的表單中,通常是評論或反饋表單。抓取機器人垃圾郵件機器人將電子郵件與常用密碼配對,以獲取未經授權的帳戶訪問權限。憑據破解表單垃圾郵件通過利用大量注冊的虛假賬戶,對社交媒體中的相關評論區進行刷屏控評,控制相關輿論信息
15、。下載機器人是可用于自動下載軟件或移動應用程序的自動化程序。它們可用于影響下載統計數據,例如在熱門應用商店獲得更多下載,并幫助新應用登上排行榜榜首。它們還可用于攻擊下載站點,創建虛假下載作為應用層拒絕服務 (DoS) 攻擊的一部分。下載機器人通過創建下載鏈接,影響業務帶寬,造成正常用戶的不可訪問,影響正常業務訪問??卦u通過利用大量注冊的虛假賬戶,對社交媒體中的相關評論區進行特定數據引流,引導正常用戶到宜昌的頁面中。定向引流社交媒體機器人在社交媒體網絡上運行,用于自動生成消息、倡導想法、充當用戶的追隨者,以及作為虛假賬戶自己獲得追隨者。社交機器人可用于滲透人群并用于傳播特定想法。由于對其活動沒有
16、嚴格的規定,社交機器人在網絡輿論中扮演著重要角色。社交機器人可以創建虛假帳戶(盡管隨著社交網絡變得越來越復雜,這變得越來越困難),放大機器人操作員的信息,并產生虛假的追隨者/喜歡。很難識別和緩解社交機器人,因為它們可以表現出與真實用戶非常相似的行為。社交媒體機器人下載機器人狙擊手機器人是一種自動購買熱門活動門票、購買熱銷商品、熱銷旅游票務的方式,目的是轉售這些商品以獲取利潤。這種活動在許多國家都是非法的,即使沒有被法律禁止,對活動組織者、售票者和消費者來說也是一種煩惱。Sniper Bots 往往非常復雜,會模仿人類搶購的行為。在許多搶購領域,自動機器人購買的票的比例在 40-95% 之間。狙
17、擊手機器人08BOT 常見類型與對抗手段09BOT 常見類型與對抗手段賬號接管機器人是用于不斷的進行業務賬號爆破的機器人,主要用于不斷爆破當前站點的應用賬號信息,用于獲取當前站點的所有賬號資料,類比行為:撞庫、爆破,賬號接管機器人最終得出成果大多數用于灰黑產的賬號交易。掃描機器人是互聯網中無差別掃描 web 站點的機器人,通常這些機器人用于收集網絡空間資產信息,常用于灰黑產、攻擊方的信息收集。賬號接管機器人掃描機器人攻擊機器人用于在漏洞爆發時期,被攻擊者載入攻擊載荷從而實現大規模的 Web 應用漏洞攻擊的機器人,用于攻擊互聯網上所有 Web 應用的站點,已獲取其站點的系統權限、數據資料信息。最
18、終用于肉雞、傀儡機、勒索等威脅網絡、系統安全的機器人。攻擊機器人BOT 技術在過去數十年間不斷發展變化,其目的以及技術手段都也不斷的發生改變。在最初的階段,BOT 技術僅用于檢索數據或執行操作,其本質為腳本工具,這些腳本不接受 Cookies 也不能解析 JavaScript 。因此腳本特征較為明顯。較容易進行檢測及對抗。隨著時間的推移,BOT 所使用的技術及目的也變得越來越復雜,出現部分 BOT 使用的技術不僅僅可以接受并存儲使用 Cookies 的技術,還可以動態解析網站下發的 JavaScript 腳本、CSS 動畫渲染的內容,以加載需要的動態渲染的網站內容,獲取更多可以獲取的業務數據內
19、容。但是這種可以主動解析JavaScript 的仿真瀏覽器類型的爬蟲,仍然可以比較快速的發現及對抗。在業務環境中,正常用戶使用瀏覽器和仿真瀏覽器對頁面內容進行訪問解析,在可視元素以及渲染加載元素中會存在相關頁面差異??梢酝ㄟ^類似敲門的功能,檢測是否為仿真瀏覽器進行訪問。此外,也有部分攻擊者通過解析 JavaScript 內容,利用腳本工具仿真加密協議,對網站業務進行訪問。近兩年使用像 PhantomJS / Headless 這樣的無頭瀏覽器這些瀏覽器可以完整地處理網站內容。與真實用戶幾乎沒有區別。這些機器人甚至可以模擬人類活動,例如點擊頁面元素。但由于存在端上的細微特征差異,可以被客戶端風險
20、識別識別出來,同時因為存在機械重復動作,會被大數據后端分析,精準的識別出來為異常用戶。隨著模擬器、云真機、群控等灰黑產使用的商業工具鏈的完善,近年來 BOT 的擬真、對抗手段越來越多。同時隨著近年移動互聯網的高速發展,基于移動端上的 BOT 流量越發強烈,傳統的 BOT 對抗不在僅僅局限于瀏覽器?,F在攻擊者更多偏向于使用移動端設備進行攻擊。通過模擬真實設備,進行對抗。BOT 主要對抗手段IP代理池IP資源瀏覽器腳本工具協議模擬云真機手機小號賬號注冊身份證郵箱小號銀行卡代理秒撥VPNIDCVPSSCF使用資源賬號資源真機模擬真機驅動眾包工具BOT 對抗的上下游資源鏈技術準備資源準備IP代理池平臺
21、攻擊接口攻擊訂單攻擊接碼平臺解碼平臺驗證碼對抗對抗準備10BOT 常見類型與對抗手段2022 年上半年 BOT 流量現狀分析122022 年上半年 BOT 流量現狀分析BOT流量態勢(黑白灰)具備惡意攻擊性的 BOT 流量占據互聯網整體網絡流量中的46%總體 BOT 流量占整體互聯網流量約 60%網絡攻擊者研發了許多自動化的網絡攻擊掃描工具,在漏洞爆發前期通過將 payload 放入自動化掃描工具中進行大量分布式掃描攻擊網絡攻擊者通過 BOT 手段將攻擊自動化、武器化網絡攻擊者在進行定向攻擊之,運用到了大量的自動化模糊測試工具對單一 API 進行攻擊互聯網整體網絡流量13IP地址是網絡接入的載
22、體,是有限資源,且每個 IP 都有較容易獲取的公共屬性數據,不易被偽造,因此黑灰產通過 VPN、代理、VPS、ADSL 混撥等方式隱藏真實訪問 IP,通過不停切換 IP 出口制造全國用戶訪問的假象。BOT 主要發起攻擊的主要IP類型遠程在 IDC/VPS 云服務器上架設多根網線,軟件實現多線混撥,遠程控制 VPS 服務器撥號,IDC/VPS 混播 IP 池資源豐富,可以實現跨城市切換,而旦速度快、穩定性好,是目前黑灰產團伙使用的主流 IP 切換模式IDC / VPS 混撥攻擊者通過物聯網基站 / ISP / 住宅代理出口訪問業務網站,通過將攻擊流量混雜在正常流量中的。使進行業務處置的時候難以判
23、斷物聯網基站 / ISP住宅代理出口秒撥的底層思路就是利用國內家用寬帶撥號上網(PPPoE)的原理,每一次斷線重連就會獲取一個新的 IP。與時俱進的黑產掌握大量寬帶線路資源,利用虛擬化和云計算的技術整體打包成了云服務,并利用軟路由對虛擬主機以及寬帶資源做統一調配和管理秒撥攻擊者通過代理 IP/VPN 訪問其他網站,可以掩蓋流量的真實來源。需要 BOT 使用團隊進行相關代理池 / VPN 池進行維護VPN / 網絡代理BOT 主要發起攻擊的主要 IP 類型2022 年上半年 BOT 流量現狀分析 常規的 BOT 對抗方案15常規的 BOT 對抗方案基于規則情報的 Anti-BOT 方案Robot
24、s.txt 是一個古老的爬蟲協議文件,他的位置位于域名根目錄下。譬如 http:/ex- Robots.txt 并不算一個反爬蟲技術,而是一個由爬蟲遵守的協議。它通過幾個簡單的命令告知遵守 Robots.txt 的爬蟲哪些可以被爬取,哪些不能。在內容的具體構成上, “爬蟲協議”通常由一個或多個語法單元組成,每個語法單元可進一步分為 兩部分:一個是 User-agent 值,用于設置其所允許或禁止的搜索引擎,后接其所針對的爬蟲程序的名稱;另一個是 Allow 或 Disallow 值,用于設置特定爬蟲程序所能訪問或禁止訪問的具體路徑。一般的搜索引擎爬蟲會遵守這個協議,而對于爬蟲技術對抗的層次來說
25、,這個文件毫無意義。Robots.txtIP 報文帶有的最重要的信息就是 IP 請求的來源地址, 來源地址極難偽造的特性,使得這個字段成為 Anti-Bots 策略中最重要的字段。封殺 IP / IP 段是網站可以執行的最嚴厲的懲罰。由于國內的 ISP 大量的使用了 NAT 技術,多用戶共用同一 IP 的情況越發常見,如果單獨對 IP 進行處置,易產生誤殺,影響正常用戶的網站訪問。但是即使如此, 源 IP 也是 Anti-Bots 策略中最為核心的數據,常規的 Anti-Bots 策略的處置一般都要圍繞源IP進行,如針對異常訪問 ip 、代理 ip、idcip 等。IP 層/網絡層15常規的
26、BOT 對抗方案HTTP 協議層有幾個有趣的 HTTP 頭,它們是制定反爬蟲策略的常用數據。 HTTP頭部信息HTTP 頭部信息中 X-Forwarded-For (XFF) 字段是在客戶端訪問服務器的過程中如果需要經過 HTTP 代理或者負載均衡服務器,可以被服務器用來獲取最初發起請求的客戶端的 IP 地址。XFF 會被用來進行調試和統計,以及生成基于位置的定制化內容,按照設計的目的,它會暴露一定的隱私和敏感信息,比如客戶端的 IP 地址。 由于 HTTP 協議的特性,攻擊者可偽造 XFF 字段信息,對網站進行偽造訪問,繞過傳統 Anti-Bots 的對 IP 的封堵處置策略。X-Forwa
27、rded-ForReferer 是瀏覽器在頁面跳轉時帶入的 HTTP頭 部信息,用于表示 用戶是從那個頁面上訪問進來的,可以根據 Referer 信息來定位用戶訪問的網頁位置。 一般來說,PC 端 網站 90% 以上的 Web 請求流量應包含 Referer 字段。 在一些常見的 Anti-Bots 策略 中, 大量的不帶 Referer 請求頭、非本站來源 Referer 的訪問請求會觸發驗證碼策略。由于 HTTP 協議的特性,許多攻擊者會模擬并偽造 Referer 來源于本站的請求,用于繞過簡單的 Anti-Bots 策略。這也就是典型的 Referer 濫用場景。RefererUser-
28、Agent 首部包含了一個特征字符串,用來讓網絡協議的對端來識別發起請求的用戶代理軟件的應用類型、操作系統、軟件開發商以及版本號。知名 Bots 均有自己唯一的 User-Agent 信息,如 搜索引擎爬蟲。搜索引擎爬蟲 通過 在 User-Agent 字段中標記自身所屬的身份信息,告知 Web 應用服務器中的身份信息,方便 Web 應用提供相關的快速索引信息。但是由于 HTTP 協議的特性,有不少攻擊者會嘗試偽造 User-Agent 字段信息,用于冒充搜索引擎爬蟲,對網站的業務進行訪問爬取,這也是典型的 User-Agent 偽造的場景。User-Agent驗證碼 (CAPTCHA) 是一
29、種古老而有效檢測是否人類的一種方式。從最初的簡單圖形驗證碼,如數字驗證碼、字母驗證碼、到后來的中文驗證碼。到現代的行為驗證碼,短信驗證碼、VTT 驗證碼。驗證碼是應用層最普遍的人機對抗技術。對于一些簡單的數字、字母驗證碼,行為驗證碼,隨著近幾年圖像識別,機器學習、神經網絡技術的高速發展,有技術人員通過上述技術訓練出的對抗驗證碼的模型,其成功率可以達到 8090% 。 因此更高階的驗證碼也隨之誕生,形如 VTT 驗證碼,行為動作驗證碼等。因此,也有灰黑產專門用使用人工打碼平臺來對接處理復雜驗證碼問題,所以單憑驗證碼很難有效處理 Bots 問題, 并且過多的驗證碼也會導致正常用戶的體驗受到影響。驗
30、證碼Ajax 應用可以僅向伺服器發送并取回必須的數據,并在客戶端采用 JavaScript 處理來自伺服器的回應。由此,single-page application(SPA)頁面應用也逐步開始盛行,許多頁面內容通過 Ajax 進行動態獲取與渲染。腳本類型的 BOT 若不未經定制化改造,是較難獲取到對應動態頁面加載渲染的數據,并且如果頁面接口進行變化,定制化的腳本工具也需要同樣進行變換。JS 渲染 ( Ajax 與 SPA )Ajax 接口 默認返回的是規整化的接口,返回的數據格式如 JSON/XML 數據。對于正常用戶較為難讀,但是對 Bots 或僅收集特定數據的帶來了更多的便利。擁有解析前
31、端能力的 Bots 工程師可以通過只需一點點的前端逆向能力,利用開發者工具,分析網絡請求,就可以找到相關的API 接口,即可通過對應的庫解析出數據。但是如果前端通過 使用 JavaScript 、WASM 等技術進行傳輸數據加密混淆、并把通過相關加密方法(如 DES、AES、RSA 等變換)進行數據傳輸接口進行加密的話,Bots 工程師對逆向難度將會增加。如果再增加 JavaScript 的相關 Feature 以及 Uglify 混淆壓縮使 JavaScript 代碼不可讀,并加上相關 JavaScript 、WASM 代碼加密,令 Bots 工程師無法輕松的逆向出加密計算的流程, 就可以達
32、到一定的反爬目的。但是在客戶端側,為了能正常實現業務邏輯,仍然需要展示出來,因此就有攻擊者利用 sele-nium、headless 的形式,模擬瀏覽器進行訪問,通過渲染頁面并運行相關 JavaScript 代碼。從而繞過此類 Bot 對抗策略。接口加密與 JS 混淆 基于客戶端風險的 Anti-BOT 方案16常規的 BOT 對抗方案Bots 主要動作為自動化的獲取目標數據,但是有部分目標數據的可呈現內容為人觀看,如文本、數字內容。如果直接在頁面上進行展示,Bots 可解析對應的 DOM 節點數據,即可獲取到相關內容。因此就有部分傳統的頁面策略采取了字體混淆、頁面混淆的方式,對頁面內容進行編
33、碼轉換,后續通過加載對應字體的形式,加載成為人類可以正常閱讀瀏覽的頁面。用于對抗普通的腳本 bots 。但隨著 OCR 的技術不斷推進,此種對抗能力越來越弱。此種數據混淆減緩了頁面加載的時間,也影響了正常的業務體驗。內容混淆與假數據訪問行為分析的 Bot 對抗策略,可以分為兩個方向:1. 用戶請求訪問行為;2.用戶操作軌跡行為。這兩者主要差異在于,訪問請求的時間序與在頁面瀏覽的操作序的差異。如在進行頁面下單的時候,正常用戶訪問請求會先到商品詳情頁中,在商品詳情頁添加至購物車或者直接喚起購買頁面。但是在 Bots 中,這種訪問行為的展示就變得有趣了起來,物品搶購下單的時候,Bots 將會直接調用
34、購買下單接口,減少頁面加載等相關耗時操作。此外,像是在移動端上,默認人類進行點擊的操作為 tap,但是 Bots 如果采取直接對 dom 進行處置,默認處置動作為 click。通過這種差異化信息,結合其他的 Anti-Bots 手段,就可以對 Bots 造成有效對抗。低級的行為分析基于規則,高級的行為分析基于 AI 評估與智能統計。 訪問行為分析HTTP Cookie(也叫 Web Cookie 或瀏覽器 Cookie)是服務器發送到用戶瀏覽器并保存在本地的一小塊數據,它會在瀏覽器下次向同一服務器再發起請求時被攜帶并發送到服務器上。通常,它用于告知服務端兩個請求是否來自同一瀏覽器,如保持用戶的
35、登錄狀態。Cookie 使基于無狀態的 HTTP 協議記錄穩定的狀態信息成為了可能。Storage 分為兩種類型:1.LocalStorage;2.SessionStorage。 LocalStorage 屬性允許你訪問同源的對象 Storage;存儲的數據將保存在瀏覽器會話中。LocalStorage 類似 Session-Storage,但其區別在于:存儲在 localStorage 的數據可以長期保留;而當頁面會話結束也就是說,當頁面被關閉時,存儲在 sessionStorage 的數據會被清除 。通過 Cookie 和 Storage ,就可以跟蹤用戶的行為軌跡。但是 LocalSto
36、rage 由于為瀏覽器特性,因此,對對抗常規的腳本型爬蟲,有較好的處置能力。Cookies 與 Storage17常規的 BOT 對抗方案假鏈陷阱通常為通過構造不可見的隱藏鏈接或不可被用戶主動觸發的事件嵌入在當前訪問的頁面中。由于大多數 Bots 的策略默認會解析當前頁面的所有事件及鏈接,因此可以快速的發現此類 Bots。假鏈陷阱Canvas 提供了一個通過 JavaScript 和 HTML的 元素來繪制圖形的方式。它可以用于動畫、游戲畫面、數據可視化、圖片編輯以及實時視頻處理等方面。Canvas 不僅局限于圖片處理,它還能監聽用戶的鍵盤輸入、鼠標移動、以及觸摸事件。不同瀏覽器、操作系統、以
37、及操作系統環境,會使得 Canvas 的同一繪圖操作流程產生不同的結果。Canvas 指紋被所有主流瀏覽器支持,并且可以被大部分的 PC、平板、智能手機訪問。如果是相同的運行環境,同一套 Canvas 操作流程會產生相同的結果。 瀏覽器指紋的優勢是不需要瀏覽器保持本地狀態,即可跟蹤瀏覽器。這樣當攻擊者同時喚起多個受控瀏覽器時,可以快速發現請求均出現于同一機器。Canvas 指紋不同的瀏覽器底層引擎在執行相同的 JavaScripts 代碼的時候,會產生不同的代碼結果。這樣就可以通過下發并執行特定的代碼片段(如 eval.toString().length、errFirefox 等),即可判斷出
38、當前瀏覽器是否為進行瀏覽器偽造。JavaScript 引擎指紋系統指紋常用于識別當前訪問客戶端的相關系統信息,如水平陀螺儀、USB 接口信息等,在移動端上,可以檢測當前訪問的借口是否包含 水平陀螺儀的借口,用于檢測是否為模擬器使用。此外在現代瀏覽器中,也有相關 USB WEB API 用于檢測當前客戶端是否有插入 USB 端口。通過這種處置策略,可以快速的校驗出來當前客戶端是否在 IDC、模擬器上。系統指紋通過提取 SSL 握手中的相關特征,利用 SSL 進行指紋識別。在使用系統默認特征庫的情況下,SSL 指紋可以幫助識別操作系統。通過 SSL 指紋信息,我們可以快速識別出當前客戶端的訪問請求
39、的是否偽造。SSL 指紋信息Navigator 接口可以用來作為用戶訪問 User-Agents 的狀態和標識。Navigator 允許腳本查詢它和注冊自己進行一些活動,以及操作系統,瀏覽器信息。部分 Anti-Bots 策略可以使用只讀的 window.navigator 屬性檢索 navigator 對象,以獲取操作系統、當前瀏覽器相關信息。Navigator 18常規的 BOT 對抗方案 基于機器學習 + AI的Anti-BOT方案通過機器學習 + AI 防護的方式,計算出當前訪問會話的相關訪問行為特征,根據會話特征中的相關信息,如 URL 重復比、URL 種類、URL 平均深度、Coo
40、kie 是否濫用、Cookie 重復性、Cookie 有效率、User-Agent 類型、User-Agent 隨機性指數、User-Agent 有效比、出現最多的 User-Agent 占比、Referer 重復比、Referer 存在比、Referer 有效比、出現最多的 Referer、出現最多的 Referer 的比例、請求參數比、請求參數種類對不同會話的訪問行為進行處置。會話訪問行為特征通過機器學習 + AI 識別的方式,計算當前訪問會話的具體訪問意圖,并根據相關訪問意圖進行聚類,并形成會話訪問行為意圖聚集,并根據不同會話的意圖規劃進行聚類處置。會話訪問意圖特征通過大數據統計可快速篩
41、選出遠超中位數的異常會話訪問行為,通過相關異常訪問行為指標,即可快速篩選出行為異常的流量。會話異常指標特征19常規的 BOT 對抗方案 基于規則情報 + 客戶端風險識別 + 機器學習 + AI 的 Anti-BOT 方案 通過規則情報將存在異常的 IP(代理、掃描器、威脅情報)、BOT 訪問特征進行快速過濾,隨后通過客戶端風險識別中的檢測是否真人真機、最后通過后端的機器學習 + AI 方案分析得出異常的訪問行為,并進行處置。20常規的 BOT 對抗方案智能分析客戶端風險威脅情報業務流量分布式爬蟲惡意賬號擬真流量高級 BOT真正業務流量BOT市場規模與行業分析+ 全球 Bot Managemen
42、t 的市場規模預計將從 2021 年的 4.08 億美元增長到 2026 年的 9.83 億美元,預測期內的復合年增長率 (CAGR) 為 19.2%。惡意BOT 程序安全市場的主要驅動因素包括不良僵尸程序流量的增加;BOT 攻擊的復雜性和組織的收入損失增加;BOT 瀏覽移動端訪問量增大;電子商務、 旅游、游戲等業務中 BOT 攻擊激增。新冠疫情影響了社會的各個行業,幾乎所有個人和企業的生活方式都有一定的影響,互聯網生態系統在全球范圍扮演的角色越發重要。由于新冠疫情,人們對在線業務的依賴顯著增加,導致惡意機器人流量的比例不斷增加。在新冠疫情爆發后,2021 年 63% 的互聯網流量訪問不是人類
43、由人類發起 ; 惡意 BOT 流量增加了 4%,占所有網站請求的四 分之一以上。供應商對 BOT 管理的解決方案的需求也在不斷增加。在新冠的影響下,擁有遠程辦公,數字化市場規模與預期疫情中BOT 的趨勢變化經營方式的能力已成為各種組織的主流要求。隨著移動設備和互聯網應用在全球范圍內的普及,企業逐漸傾向于使用 BOT 管理方案來保護免受 DDoS 攻擊、數據抓取、賬號爆破、垃圾郵件和其他惡意軟件威脅。單需要注意的是,新冠疫情對 BOT 管理的市場產生了負面影響較大,由于大部分企業預算不足,BOT 管理軟件的采購額均有一定程度的下降。22BOT 市場規模與行業分析來自不同網絡類型的流量分布更加均勻
44、來自基站的網絡流量增加根據 IDC 數據,2021 全球智能手機總出貨量為 13.5 億部,發達經濟體的智能手機擁有率明顯更高。在線購物、社交媒體應用程 序和產品研究等各種活動都見證了智能手機的使用。QQ、微信、小紅書、微博等社交媒體 應用程序以及騰訊視頻、愛奇藝、優酷 等數字娛樂 平臺的出現也使智能手機用戶在他們的設備上花費更多時間。因此,網絡流量從網絡轉移到移動設備, 使其成為 BOT 攻擊的有利發起點。移動網絡流量約占全球網絡流量的 32.3%。網絡犯罪正朝著利潤驅動的方向發展,攻擊者通過使用 BOT 對目標行業進行快速侵害網絡犯罪分子、惡意軟件運營商、工具提供商通過自己編寫或利用相關的
45、軟件工具包,實現垃圾郵件發送、數據盜竊和執行 DDoS 攻擊,從而可以輕松地從眾多網站在線訂購相關稀有資源商品。在世界各地觀察到,BOT 針對個人或企業開展網絡戰活動的攻擊趨勢越發猖獗,發現部分企業難以應對這些 BOT 攻擊,導致企業業務停滯。網絡攻擊成為BOT新興攻擊流量23BOT 市場規模與行業分析游戲、零售和電子商務行業受到BOT攻擊最多隨著技術的不斷迭代,滑動驗證碼在識別 BOT 流量上的效率有所降低CAPTCHA 是一種非常重要的人機對抗方式,CAPTCHA 可以保護網站免受 BOT 和自動黑客工具的侵害。CAPTCHA 包括隱藏在需要手動驗證的圖像中的相關內容。盡管惡意機器人擅長自
46、動完成表格,但對隱藏在圖像中的語意進行識別對它們來說是困難的,因為人類可以閱讀隱藏在圖片中的語意,而計算機較為困難。但隨著技術的進步,計算機變得越來越智能。黑客和灰產正在利用 AI 和 ML 技術,以便 Bots 可以自學如何分析圖像并識別隱藏的意圖。他們甚至可以準確識別圖像中的特征元素,從而繞過較新的滑塊 CAPTCHA 方式。因此,在當下環境 CAPTCHA 系統容易被這些訓練有素的 Bots 繞過, 從而導致 BOT 攻擊成功。但是 CAPTCHA 的驗證方式也在不斷的提高,如 VTT 驗證碼或動態下發/經過混淆的滑塊驗證碼的也在不斷也起到了不錯的對抗效果。在線零售和電子商務業務主要是 惡意 Bots 攻擊的目標,惡意 Bots 會執行 例如鎖下單、搶購、數據抓取、訂單填充和 7 層 DDOS 攻擊。這些攻擊可能導致網站訪問不暢、網站停機、敏感客戶數據泄露以及收入損失。同時,因為電子商務平臺的可用性和安全性對于建立客戶信任至關重要,因此,零售和電子商務的機器人安全解決方案預計在未來幾年將具有 巨大的潛力。24BOT 市場規模與行業分析