1、北京大學 信息學院可視化在復雜安全分析中的應用Commissioner Garrets Investigation Board滿城盡是可視化可視化與認知可視化Visualization數據Data心理模型MentalModel圖像Image洞察Insights通過設計視覺符號提高效率PositionsRectangular areas(aligned or in a treemap)AnglesCircular areasCleveland&McGills ResultsCrowdsourced Results1.03.01.52.52.0Log Error1.03.01.52.52.0Log
2、 ErrorCrowdsourcing Graphical Perception:Using Mechanical Turk to Assess Visualization Design.Heer and Bostock.Proc ACM Conf.Human Factors in Computing Systems(CHI)2010,p.203212.VAST Challenge 2017背景故事 紅冠藍雀(Rose-crested Blue Pipit)是 Boonsong Lekagul 自然保護區的常見鳥類,但近年來大量減少 鳥類學家 Mitch 對保護區展開調查,以期發現藍雀減少的原
3、因VAST Challenge 2017自然保護區的相關數據 交通數據 環境監測數據 遙感圖像交通數據 園區各處設置交通監測站 車輛經過留下記錄 數據細節 40個不同類型的監測站 13個月的時間跨度 17萬條交通記錄 18,708輛不同類型的車MitchVAST Challenge 2017假如你是 Mitch,面對著園區內長達一年的交通記錄不具備數據分析背景的你,如何能夠高效地歸納出常見的交通行為、并發掘可疑車輛?VAST Challenge 2017可視分析:大眾化數據分析的“瑞士軍刀”頻繁序列投影視圖空間視圖標簽視圖車輛列表時間視圖車輛列表高維數據可視化:換個角度看數據 數據轉換 將監測
4、站看作維度 統計每輛車通過監測站的次數 形成 40*18708 的高維數據 降維投影 采用 t-SNE 加強聚類效果 展現車輛行為的相似性 結果 十個明顯的主要聚類 若干個小型聚類VAST Challenge 2017Vehicle IDSensor_1Sensor_2Sensor_3Car_13100Car_24141Truck_11608Truck_21816Truck_32009主要交通模式VAST Challenge 2017主要交通模式:進一步分析你發現了其中的 共同點 么?“”字型繞路行為交通要道 橫向穿越園區,需要通過一段“交通要道”VAST Challenge 2017為何需要
5、“繞路”?兩條通路連接東西側園區 南側通路設有兩個 Gate 入口,只允許護林員通過交通要道護林員專用道護林員專用道VAST Challenge 2017“抄近路”的違禁車輛 查詢通過專用道的所有車輛 在視圖中,選中專用道兩側的 Gate 監測站 啟動數據查詢 大部分為護林員車輛 存在部分 違禁車輛 抄近路的 原因?藍色:通過專用道的車輛黃色高亮:護林員車輛違禁車輛VAST Challenge 2017“抄近路”的違禁車輛 共計23輛車 時間特征 每個月僅13次行動 僅在凌晨25點之間行動 行程時間不超過1小時 空間特征 從工業區到湖邊去 抄近路 速去速回你能猜到 他們在做什么 嗎?工業區湖邊
6、VAST Challenge 2017從其他數據獲取的信息 新聞報道 政府新規:禁止化合物Methylosmolene 的排放 環境監測數據 工業區內 Methylos-molene 排放水平正常 遙感圖像 發現湖邊植被減少、化學物質含量升高工業區湖邊謎底揭曉 某一間家具廠的車隊 運輸工業廢料到湖邊傾倒 掩蓋超規排放的事實 凌晨出沒、非法抄近路:迅速而隱蔽地行動、以免被發現生態環境惡化的“元兇”可視分析是由交互可視界面支持的分析推理的科學(Visual analytics is the science of analytical reasoning facilitated by interac
7、tive visual interfaces)從海量,動態,模糊,乃至相互沖突的數據中合成信息,洞察內涵(Synthesize information and derive insight from massive,dynamic,ambiguous,and often conflicting data)不漏檢,有突破(Detect the expected and discover the unexpected)提供及時可驗證可理解的評估(Provide timely,defensible,and understandable assessments)為評估實施行動提供有效溝通(Commun
8、icate assessment effectively for action)可視分析可視分析模型從單一的可視化方法的研究,轉變為針對具體特征數據的可視分析系統研究結合更多的異構數據,針對高維、時空、網絡等方面挑戰,構建綜合的可視分析系統Sacha,D.;Senaratne,H.;Kwon,B.C.;Ellis,G.;Keim,D.A.,“The Role of Uncertainty,Awareness,and Trust in Visual Analytics,”inIEEE Transactions on Visualization and Computer Graphics,(VAS
9、T2015),可視分析模型,包含數據、模型、可視化的關系,以及背后蘊含的事態感知與知識構建網絡安全可視分析 基本可視化方式(a)基于圖的可視化。(b)基于IP矩陣的可視化。(c)基于平行坐標的可視化系統。(d)基于像素的可視化。(e)時序連接圖。(f)三維網絡安全可視化。(g)基于樹圖的可視化。網絡安全可視分析 基本視化方式:樹圖Treemap視覺映射樹圖中每個格子代表不同的內網IP子網具體的每個IP按順序在子網內部外部環繞節點代表外部IP顏色代表連接類型示例:在2008年5月11日,120臺的僵尸網絡節點被控制,分布式地對某大學內網發起大量的SSH連接攻擊事態感知 案例分析1:基于網絡警報日
10、志的可視分析VizAlert3W分析 What 代表某種類型事件發生(攻擊類別)Where 發生在哪個IP或者子網中 When 何時發生,持續多久視覺設計 徑向:時間 沿著圓環:事件類型 內部布局:子網分布Foresti,S.;Agutter,J.;Livnat,Y.;Moon,S.&Erbacher,R.F.Visual Correlation of Network AlertsIEEE Computer Graphics and Applications,2006,26,48-59多層次網絡數據可視分析提供從整體到局部的特征探索流程,用戶可以選擇異常的事件段,對IP子網連接進行探索,過濾無
11、關IP選擇感興趣的IP,再進行細節的分析與探索AnNetTe-Collaboration orientedvisualizationofnetworkdataSimingChen,FabianMerkle,HannaSchaefer,CongGuo,HongweiAi,XiaoruYuan,ThomasErtlIn Proceedings of the Eleventh Workshop on Visualization for Cyber Security(VizSec14).多層次可視分析(1)-DDoS攻擊檢測DoS特征發現(1)熵視圖中,目的IP熵急速下降、源端口熵急速上升大量不同端口
12、連接相同少量端口大量流量爆發DoS特征發現(2)用戶選擇感興趣的時間細節,可以觀察不同時間段環狀視圖中IP連接狀況,很明顯的攻擊前、攻擊時與攻擊后的連接呈現不同的視覺特征,其中攻擊時的IP集中與某幾個外網IP,連接至內網服務器,并占有大量網絡流量多層次可視分析(1)-DDoS攻擊檢測DoS特征發現(3)大量的高位端口連接流入服務器的80端口 通過交互分離出流入、流出的流量,確認為DDoS攻擊多層次可視分析(2)-僵尸網絡(a)全局時間概覽(b,c)-E1,多個內網IP異常大量流量連接外網正常IP(僵尸網絡DoS)(d)-E2,在DoS之前往回溯源,找到這些IP異常周期性SSH至10.0.3.7
13、7(僵尸網絡C&C)(e,f)-E3,通過過濾該異常IP的外網連接,找到僵尸網絡的感染源頭,連接異常外網的IP后受木馬控制(g)僵尸網絡事件關聯分析比特幣交易特征可視化緊密關聯社區長鏈交易大額交易鏈放射交易Tim Draper Auction數據與人的參與人的參與數據獲取數據抽取、清理數據整合、聚集和表示建模和分析意義構建數據管理數據分析意圖決策理解認知交互大數據發展趨勢以大數據分析技術為核心,致力于在數據存儲整理、數據預處理、可視分析、智能決策等環節實現技術突破,構建大數據分析產業共性技術創新網絡,促進大數據與各行業應用的深度融合。大數據分析與應用國家工程實驗室預處理預處理智能決策智能決策可
14、可視分析視分析挖掘技挖掘技術術共性模型和共性模型和算法算法極端規??梢暦治龅氖筇魬餞op Ten Challenges of Extreme Scale Visual AnalyticsPak Chung Wong,Han-Wei Shen,Christopher R.Johnson,Chaomei Chen,and Robert B.Ross,“Top Ten Challenges in Extreme-Scale Visual Analytics,”IEEE Computer Graphics and Applications,32(4):63-67,July 2012.1.In sit
15、u interactive analysis(原位交互分析)2.User-Driven Data Reduction(用戶驅動的數據簡約)3.Scalability and Multi-Level Hierarchy(可擴展性與多層次技術)4.Representation of Evidence and Uncertainty(對證據和不確定性的表示)5.Heterogeneous Data Fusion(異構數據融合)6.Data Summarization and Triage for Interactive Query(交互查詢的總結與分類)7.Analytics of Temporally Evolving Features(時變特征分析)8.The Human Bottleneck(人的瓶頸)9.Design and Engineering Development(設計與工程研發)10.The Renaissance of Conventional Wisdom(傳統智慧的復興)下一代可視化 AIVIS下一代可視化 ARVIS第五屆中國可視化與可視分析大會http:/chinavis.org/2018/2018年7月2628日 上海