《2017年實時攻擊檢測的智能化之路.pdf》由會員分享,可在線閱讀,更多相關《2017年實時攻擊檢測的智能化之路.pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、實時攻擊檢測智能化之路CONTENTS智能進化未來系統介紹系統介紹-Nilekafka交 換 機鏡 像 流量storm白名單規則引擎結果存儲ElasticSearch漏洞自動化驗證系統 Hulk消息隊列2017/11/27存在的問題性能性能維護維護漏報漏報機器學習可以解決的問題回歸分類聚類預測類別預測值發現相似性what are you trying to do?方案選擇Pythonjavascalaspark mllib機器學習sckit-learnSpark 介紹Apache Spark is a fast and general engine for large-scale data p
2、rocessing.機器學習流程1.收集樣本2.數據清洗,打標簽3.特征提取4.模型訓練5.驗證模型,調優6.預測分類1.0 之架構trafficstorm 白名單機器學習預測規則引擎ES訓練模型hdfs模型1.0 數據:url和postdata 特征選擇:url decode+正則 算法:svm 算法庫:spark mllib1.0 之樣本惡意樣本nile 命中規則的結果waf 日志網上收集poc非惡意樣本交換機鏡像的流量腳本關鍵字+人眼觀察樣本收集樣本清洗1.0 之特征統計每個request中如下敏感符號,關鍵字的個數,.!*/(&等等eval ongl script select等等然后
3、轉換成一個1*n的矩陣,所有的訓練樣本就是m*n的輸入and 1=(select count(*)from master.dbo.sysobjects where xtype=x and name=xp_cmdshell)2,1,3,.1,2,0,代表2個(,2個),3個等存在的問題:總有遺漏的關鍵詞1.0 之算法測試算法測試算法誤報率誤報率漏報率漏報率決策樹9.9%8.4%svm8.8%8.9%樸素貝葉斯11%9.6%1.0進步從無到有,流程跑通不足特征太依賴于正則了,不夠智能2.0分詞:WordParser特征提?。篢F-IDF(Hashing TF and IDF)特征之WordPars
4、er將每一個標點和控制符都“轉換”為詞,例如and 1=(select count(*)from master.dbo.sysobjects where xtype=x and name=xp_cmdshell)特征提取之TF-IDF例如我們有很多條get請求語句,第一條語句共計10個單詞,其中單引號有3個,1000條語句中有10條語句包含單引號包含該詞包含該詞的語句個的語句個數數TFIDFTF-IDF單引號100.31.9580.5874from1000.30.9950.33182.0 之 算法測試算法測試算法誤報率誤報率漏報率漏報率決策樹5.6%5.5%svm4.4%5.1%樸素貝葉斯6.
5、0%4.1%效果效果2.0進步可以靠數據變得更強真正開始智能化不足未解決性能問題3.0架構調整流量storm 白名單spark機器學習預測規則引擎ES訓練模型hdfs3.0-架構性能效果流量:1.7 w -450w+檢測量:1 w -14w 3.0進步性能大幅提高不足如果新上規則的話,很大概率檢測不出來4.0再次調整架構trafficstorm 白名單spark機器學習預測規則引擎(舊規則)ES訓練模型hdfs4.0-架構規則引擎(新上規則)4.0進步可抓新規則定義的攻擊不足無法檢測header頭5.0增加動態黑名單功能trafficstorm 白名單spark 機器學習預測規則引擎(舊規則)ES訓練模型hdfs5.0-架構規則引擎(新上規則)Redis(惡意IP庫)storm 黑名單樣本5.0 效果5.0進步更低的漏報可發現業務邏輯攻擊不足未來更智能二分類到多分類使用更多的檢測緯度關聯各個緯度要解決的問題post數據中xml和json格式的數據存在大量誤報增加反饋每周報告效果THANKS