《AMiner:人工智能之圖計算(47頁).pdf》由會員分享,可在線閱讀,更多相關《AMiner:人工智能之圖計算(47頁).pdf(47頁珍藏版)》請在三個皮匠報告上搜索。
1、 清華-中國工程院知識智能聯合實驗室 目錄 1 概述篇. 1 1.1 大規模圖數據時代下的圖計算 . 1 1.2 圖計算的特征 . 3 2 技術篇. 6 2.1 技術挑戰 . 6 2.2 圖算法與圖計算框架簡介 . 7 2.2.1 圖算法 . 8 2.2.2 圖計算框架 . 9 2.3 技術資源 . 13 2.4 高引論文 . 14 3 人才篇. 16 3.1 學者情況概覽 . 16 3.2 典型學者簡介 . 19 3.2.1 國外學者簡介 . 20 3.2.2 國內學者簡介 . 24 4 產業應用篇 . 28 4.1 醫療行業的應用 . 28 4.2 金融行業的應用 . 28 4.3 互聯網
2、行業的應用 . 29 5 趨勢篇. 32 5.1 全局熱度 . 32 5.2 近期熱度 . 32 5.3 交叉研究分析 . 33 5.3.1 Graph Computing & Data Mining . 33 5.3.2 Graph Computing & Machine Learning . 35 5.4 技術預見 . 37 附錄 . 39 圖表目錄 圖 1 圖數據典型例子 . 1 圖 2 代表性分布式圖計算系統 . 3 圖 3 圖計算系統框架分類 . 9 圖 4 Venue Colletion of OAG . 13 圖 5 Paper Collection of OAG . 13 圖
3、6 Author Collection of OAG . 13 圖 7 全球圖計算領域活躍學者分布圖 . 16 圖 8 中國圖計算領域活躍學者分布圖 . 17 圖 9 全球圖計算領域活躍學者遷徙圖 . 18 圖 10 全球圖計算領域活躍學者機構分布 . 18 圖 11 全球圖計算領域活躍學者 h-index 分布 . 19 圖 12 全球圖計算領域活躍學者性別比 . 19 圖 13 華為 GES 的應用場景 . 30 圖 14 騰訊星圖應用場景 . 31 圖 15 graph computing 全局熱度. 32 圖 16 graph computing 近期熱度. 32 圖 17 2007
4、至今 graph computing 與 data mining 領域交叉分析 . 34 圖 18 2007 至今 graph computing 與 machine learning 領域交叉分析 . 35 圖 19 圖計算技術預見圖 . 37 表 1 2007 年至今 graph computing 與 data mining 交叉研究學者 h-index 分布 . 34 表 2 2007 年至今 graph computing 與 data mining 交叉研究論文 citation 分布 . 34 表 3 2007 年至今 graph computing 與 machine lear
5、ning 領域交叉研究學者 h-index 分布 . 36 表 4 2007 年至今 graph computing 與 machine learning 領域交叉研究論文 citation 分布 . 36 摘要 圖計算是基于圖數據的分析技術與關系技術應運而生的,圖計算系統是針對處理圖結 構數據的系統,圖計算也是人工智能中的一個使能技術?;诖吮尘?,本研究報告對圖計算 這一課題進行了簡單梳理,包括以下內容: 圖計算的概念與圖計算的概念與圖計算圖計算特征特征。 對圖計算的概念進行闡述, 對代表性分布式圖計算系統進 行介紹,并列出圖計算的特征。 圖計算技術圖計算技術。從圖計算面臨的挑戰出發,介紹圖
6、算法,圖計算模型主要解決的問題,并 圖計算框架進行介紹。同時對技術資源和圖計算的高引論文進行相關介紹。 圖計算領域專家介紹。圖計算領域專家介紹。依據 AMiner 數據平臺信息,對圖計算領域研究學者進行梳理, 重點介紹研究學者的研究方向與代表性文章, 旨在為學術界、 產業界提供圖計算技術及學者 的分析依據。對頂尖學者的全球分布、遷徙概況、學者機構分布、h-index 分析進行介紹。 圖計算產業應用圖計算產業應用。 從醫療行業、 金融行業和互聯網行業三個方面介紹領域圖計算的技術 構建應用與研究現狀。 圖計算趨勢研究圖計算趨勢研究。對圖計算的發展趨勢特點進行分析。并基于 AMiner 數據平臺,對
7、近 期圖計算領域研究熱點進行可視化分析, 與其他學科進行交叉分析研究, 對未來圖計算研究 方向進行預測。 1 1 概述篇概述篇 如今,數據已經滲透到每一個行業和業務職能領域,尤其近年來,全球大數據進入加速 發展時期,數據量呈現爆發式增長,大數據吸引了越來越多的關注,大數據時代已然來臨。 圖計算簡單來講就是研究在這些大量數據中, 如何高效計算、 存儲并管理圖數據等問題 的領域。傳統的關系型數據暴露出了建模缺陷、水平伸縮等問題,于是具有更強大表達能力 的圖數據受到業界極大的重視。 如果把關系數據模型比作火車的話, 那么現在的圖數據建模 可比作高鐵。 1.1 大規模圖數據時代下的圖計算 圖(Grap
8、h)是一種重要的數據結構,它由節點 V(或稱為頂點,即個體) ,與邊 E(即 個體之間的聯系)構成,我們一般將圖表示為 G(V,E) 。圖數據的典型例子有網頁鏈接關 系、社交網絡、商品推薦等。對應互聯網來說,可以把 web 網頁看作頂點,頁面之間的超鏈 接關系作為邊;對應社交網絡來說,可以把用戶看作頂點,用戶之間建立的關系看作邊。比 如微信的社交網絡,是由節點(個人、公眾號)和邊(關注、點贊)構成的圖;淘寶的交易 網絡,是由節點(個人、商品)和邊(購買、收藏)構成的圖。 圖 1 圖數據典型例子 如此一來,抽象出來的圖數據便可作為研究和商用的基礎,由此探究出“世界上任意兩 個人之間的人脈距離”
9、、 “關鍵意見領袖”等。將這些應用到商業領域,其底層的運算往往是 圖相關的算法。比如圖的最短路徑算法可以做好友推薦,計算關系緊密程度;對圖做 PageRank 可以用于傳播影響力分析,找出問題的中心,做搜索引擎的網頁排名;最小連通 圖可以識別洗錢或虛假交易等等。 近年來,圖數據規模呈指數級增長,可能達到數十億的頂點和數萬億的邊,且還在不斷 增長, 單機模式下的圖計算已經不適合目前數據的增長, 傳統的分布式大數據處理平臺比如 MapReduce、Spark 也出現網絡和磁盤讀寫開銷大、運算速度慢、處理效率極低的問題1。 2 對于圖計算而言,性能成本、容錯機制以及可拓展性都是非常重要的。如果性能可
10、以顯 著提高,結點顯著減少,那么就能極大地縮短運行時間。在此基礎上,如果使用更大開銷的 容錯技術,例如檢查點的方式,那么故障產生的概率將更低。 但是,傳統的大數據分析平臺往往只在性能與可拓展性中選擇了一方。比如 MPI、 OpenMP 等注重性能的平臺只支持可讀寫的數據, 容錯困難, 可擴展性差, 自動負載不平衡; 專注于拓展性的大數據分析平臺,如 MapReduce、Spark 等支持只讀數據集,容錯機制和擴 展性好,自動負載平衡,但性能較低。以 Spark 為例,其基于 Scala 語言,運行在 JVM 上, 內存表示冗余,占用內存大,垃圾收集對性能影響大。在一些迭代的圖算法上,開啟 12
11、8 個 線程的 Spark 程序性能有時候還不如優化很好的單線程程序, 并且需要的內存容量是原始數 據集的 20 倍對于 10TB 級的數據,往往需要數百 TB 的內存,這在絕大部分生產環境 中是不可能的。以 Sogou 的網頁鏈接數據為例,Sogou 的網頁鏈接數據量為 137TB,這是很 難使用 Spark 進行計算的。 此外, 早期的圖計算方法主要局限于智能社區或社交網絡分析, 如果圖計算方案的性能 和容量限制可以克服,圖計算可以應用于更廣泛的場景,如資本市場風險管理、生命科學研 究、醫療保健交付、監控和應對道路事故、智能基礎設施管理和其他領域。 因此, 為應對圖計算中對高效處理大規模圖
12、數據的巨大挑戰, 可擴展分布式圖計算成為 了當前熱點研究問題。 自從 2001 年以來,分布式方法就一直是比較熱議的處理大圖數據的方法,特別是 2003 年和 2004 年,Google 公布了 MapReduce 的基本原理和主要設計思想,這一模型的推出給 大數據并行處理帶來了巨大的革命性影響。此后提出的圖處理系統,比如 2006 年發布的 Apache Hadoop、2009 年誕生于加州大學伯克利分校 AMPLab 的 Spark 等,大多基于 MapReduce 的思想, 并采用并行 BSP 模型。 但是, 這些系統與 MapReduce 一樣依賴于磁盤, 仍然存在局限性,執行速度慢,
13、處理大型圖數據效率較低。 直到 2010 年谷歌推出以頂點為中心的圖處理系統 Pregel,其專為大規模圖數據處理而 設計, 將圖數據保存在主存儲器中并采用并行計算的 BSP 模型, 因此比 MapReduce 更有效。 此后, 對于商用集群和云的圖處理系統變得格外受歡迎, 并且又出現多個具有不同編程模型 和功能的分布式圖處理框架,并被廣泛應用以促進大規模圖數據的操作,比如 GraphLab、 Giraph、GraphX、PowerLyra、Gemini 等。這些框架都有自身的優缺點,在技術篇我們將做 詳細介紹。 3 圖 2 代表性分布式圖計算系統 由于本文著重介紹為應對大規模圖數據而提出的分
14、布式圖計算,因此對于單機圖計算 不做過多描述。 對于分布計算的開發和維護需要考慮的情形是復雜多變的。對計算過程中信息的控制、 每個任務的數據獲取、 對計算結果的合并和對錯誤計算的回歸, 在分布式計算的時候都需要 保證正常運行。如果這些任務全部都由開發人員負責,則對程序員的要求是非常高的。分布 式計算框架則能夠解決這種瓶頸, 通過分布式框架封裝計算細節, 完成分布式計算程序的開 發。 通過使用分布式計算框架, 程序員可以很容易享受到分布式計算所帶來的高速計算的好 處, 而且不必對分布式計算過程中各種問題和計算異常進行控制, 這就讓程序員的開發效率 成倍地提高。 研究高效處理大規模數據的圖計算,能
15、推動社交網絡分析、語義 web 分析、生物信息 網絡分析、自然語言處理等新興應用領域的發展。 1.2 圖計算的特征 初提圖計算,很多人會以為這是一種專門進行圖像處理的技術。事實上,圖計算中的 “圖”是針對“圖論”而言的,是一種以“圖論”為基礎的對現實世界的一種“圖”結構 的抽象表達, 以及在這種數據結構上的計算模式。 圖數據結構很好的表達了數據之間的關聯 性, 關聯性計算是大數據計算的核心通過獲得數據的關聯性, 可以從噪音很多的海量數 據中抽取有用的信息。 圖計算技術解決了傳統的計算模式下關聯查詢的效率低、 成本高的問 題,在問題域中對關系進行了完整的刻畫,并且具有豐富、高效和敏捷的數據分析能
16、力,其 特征有如下三點。 4 1)1) 基于基于圖圖抽象的抽象的數據模型數據模型 圖計算系統將圖結構化數據表示為屬性圖,它將用戶定義的屬性與每個頂點和邊緣相 關聯。 屬性可以包括元數據 (例如, 用戶簡檔和時間戳) 和程序狀態 (例如, 頂點的 PageRank 或相關的親和度) 。 源自社交網絡和網絡圖等自然現象的屬性圖通常具有高度偏斜的冪律度 分布和比頂點更多的邊數。 圖計算系統中最基礎的數據結構由頂點 V(或節點)、邊 E、權重 D 這三因素組成,即 G=(V,E,D),其中 V 為頂點(vertex),E 為邊(edge),D 為權重(data)。頂點表示某 一事件中的對象, 而邊則是
17、對不同對象關系的描述。 圖計算系統基于頂點和邊的方式存儲圖 數據和計算, 能夠建構任意復雜的網絡和模型, 完整且形象地映射分析人員想要研究的問題 域。 比如說, 對于一個消費者的原始購買行為, 有兩類節點: 用戶和產品, 邊就是購買行為, 權重是邊上的一個數據結構, 可以是購買次數和最后購買時間。 對于許多我們面臨的物理世 界的數據問題,都可以利用圖結構的來抽象表達:比如社交網絡,網頁鏈接關系,用戶傳播 網絡,用戶網絡點擊、瀏覽和購買行為,甚至消費者評論內容,內容分類標簽,產品分類標 簽等。 圖計算系統的數據結構很好地表達了數據之間的關聯性,關聯性計算是大數據計算的 核心通過獲得數據的關聯性,
18、可以從噪音很多的海量數據中抽取有用的信息。比如,通 過為購物者之間的關系建模,就能很快找到口味相似的用戶,并為之推薦商品;或者在社交 網絡中,通過傳播關系發現意見領袖與其操作符(例如,連接)可以跨越多個集合的數據流 系統相比,圖處理系統(例如,頂點程序)中的操作通常相對于具有預先聲明的稀疏結構的 單個屬性圖來定義。 雖然這有助于進行一系列優化, 但它也會使可能跨越多個圖和子圖的分 析任務的表達變得復雜。 2)2) 圖圖數據模型數據模型并行抽象并行抽象 圖的經典算法中,從 PageRank 到潛在因子分析算法都是基于相鄰頂點和邊的屬性迭代 地變換頂點屬性, 這種迭代局部變換的常見模式形成了圖并行
19、抽象的基礎。 在圖并行抽象中, 用戶定義的頂點程序同時為每個頂點實現,并通過消息(例如 Pregel)或共享狀態(例如 PowerGraph)與相鄰頂點程序交互。每個頂點程序都可以讀取和修改其頂點屬性,在某些情 況下可以讀取和修改相鄰的頂點屬性。 5 頂點程序并發運行的程度因系統而異。 大多數系統采用批量同步執行模型, 其中所有頂 點程序以一系列“超級步”同時運行。但是也有一些系統支持異步執行模型,通過在資源變 得可用時運行頂點程序來減輕落后者的影響。 3)3) 圖圖模型模型系統優化系統優化 對圖數據模型進行抽象和對稀疏圖模型結構進行限制,使一系列重要的系統得到了優 化。 比如 GraphLa
20、b 的 GAS 模型更偏向共享內存風格,允許用戶的自定義函數訪問當前頂點的 整個鄰域,可抽象成 Gather、Apply 和 Scatter 三個階段。GAS 模式的設計主要是為了適應 點分割的圖存儲模式,從而避免 Pregel 模型對于鄰域很多的頂點、需要處理的消息非常龐 大時會發生的假死或崩潰問題。 6 2 技術篇技術篇 從上文的概述中我們看到, 圖計算領域面臨大數據環境帶來的巨大挑戰。 隨著圖數據量 上升速度的加快,圖數據庫和圖計算受關注程度也在不斷提高。 雖然各類圖計算系統在不斷優化,但是挑戰依然存在。 2.1 技術挑戰 圖提供了非常靈活的抽象,用于描述離散對象之間的關系??茖W計算、數
21、據分析和其他 領域的許多實際問題可以通過圖以其基本形式建模, 并通過適當的圖算法求解。 隨著圖的問 題規模越來越大,復雜性越來越大,它們很容易超過單處理器的計算和內存容量。鑒于并行 計算在許多科學計算領域取得了成功,并行處理似乎可以克服圖計算中單個處理器資源受 到的限制。 當整體計算問題解決方法得到很好的平衡時,應用程序可以更好地執行和擴展,即,當 需要解決的問題、 用于解決問題的算法、 用于表達算法的軟件以及運行軟件的硬件使兩者都 能很好地相互匹配。在很大程度上,并行科學計算的成功歸功于這些方面,與典型的科學應 用完全匹配。解決科學領域中典型問題(通常涉及求解偏微分方程系統)的常用習語已經發
22、 展并成為科學計算界的標準實踐。 同樣, 適用于典型問題的硬件平臺和編程模型也變得很普 遍。世界各地的機房包含運行用 MPI 編碼的商用集群。 不過,對于開發主流并行科學應用程序而言,效果良好的算法、軟件和硬件對于大規模 圖問題并不一定有效。 圖問題具有一些固有的特征, 使它們與當前的計算問題解決方法不匹 配。大圖計算是大數據計算中的一個子問題,除了滿足大數據的基本特性之外,大圖計算還 有著自身的計算特性,相應地面臨著新的挑戰。特別是,圖問題的以下屬性對高效并行性提 出了重大挑戰。 1)1) 局部性差局部性差 圖表示著不同實體之間的關系, 而在實際的問題當中, 這些關系經常是不規則和無結構 的
23、,因此圖的計算和訪存模式都沒有好的局部性,而在現有的計算機體系架構上,程序的性 能獲得往往需要利用好局部性。所以,如何對圖數據進行布局和劃分,并且提出相應的計算 模型來提升數據的局部性,是提高圖計算性能的重要方面,也是面臨的關鍵挑戰。 2)2) 數據及圖結構驅動的計算數據及圖結構驅動的計算 圖計算基本上完全是由圖中的數據所驅動的。 當執行圖算法時, 算法是依據圖中的點和 邊來進行指導,而不是直接通過程序中的代碼展現出來。所以,不同的圖結構在相同的算法 7 實現上,將會有著不同的計算性能。因此,如何使得不同圖結構在同一個系統上都有較優的 處理結果,也是一大難題。 3)3) 圖數據的非結構化特性圖
24、數據的非結構化特性 圖計算中圖數據往往是非結構化和不規則的, 在利用分布式框架進行圖計算時, 首先需 要對圖進行劃分, 將負載分配到各個節點上, 而圖的這種非結構化特性很難實現對圖的有效 劃分,從而達到存儲、通信和計算的負載均衡。一旦劃分不合理,節點間不均衡的負載將會 使系統的拓展性受到嚴重的限制,處理能力也將無法符合系統的計算規模。 4)4) 高訪存高訪存/ /計算比計算比 絕大部分的大圖計算規模使得內存中無法存儲下所有的數據, 計算中磁盤的 I/O 必不可 少,而且大部分圖算法呈現出迭代的特征,即整個算法需要進行多次迭代,每次迭代需要遍 歷整個圖結構, 而且每次迭代時所進行的計算又相對較少
25、。 因此, 呈現出高的訪存/計算比。 另外,圖計算的局部性差,使得計算在等待 I/O 上花費了巨大的開銷。 2.2 圖算法與圖計算框架簡介 本節將重點介紹圖算法與圖計算框架, 為便于讀者理解, 接下來先簡要介紹一下圖數據 庫。 在眾多不同的數據模型里, 關系數據模型自 20 世紀 80 年代就處于統治地位, 而且出現 了不少巨頭,如 Oracle、MySQL,它們也被稱為關系數據庫管理系統(RDBMS)。然而, 隨著關系數據庫使用范圍的不斷擴大, 也暴露出一些它始終無法解決問題, 其中最主要的是 數據建模中的一些缺陷和問題,以及在大數據量和多服務器之上進行水平伸縮的限制。 因此,近年來誕生了
26、Neo4j,InfiniteGraph 等專注于圖結構化存儲與查詢的圖數據庫。 與傳統的關系型數據庫相比, 圖數據庫善于處理大量的、 復雜的、 互聯的、 多變的網狀數據, 效率遠遠高于傳統型數據庫, 性能約有百倍以上的提升, 特別適合用于社交網絡、 實時推薦、 銀行交易環路、金融征信系統等領域。 圖計算是基于圖數據的分析技術與關系技術應運而生的,圖計算系統就是針對處理圖 結構數據的系統,并對這樣的數據進行針對性優化的高效計算。與傳統計算模型相比,圖計 算模型主要針對解決以下問題: 1) 圖計算的頻繁迭代帶來的讀寫數據等待和通信開銷大的問題; 2) 圖算法對節點和邊的鄰居信息的計算依賴問題; 3
27、) 圖數據的復雜結構使得圖算法難以實現分布不均勻的分塊上并行計算的問題。 8 為應對以上問題, Google 基于 BSP (Bulk Synchronous Parallel) 推出了新的 “計算框架” Pregel。之后,CMU 提出了開源圖計算框架 GraphLab。雖然二者都是對于復雜機器學 習計算的處理框架,用于迭代型(iteration)計算,但是二者的實現方法卻采取了不同的路 徑:Pregel 是基于大塊的消息傳遞機制,GraphLab 是基于內存共享機制。同樣的,Spark 也 提供了專門支持圖計算的模塊GraphX,可以用于實現復雜的圖數據挖掘。 2.2.1 圖算法圖算法 對
28、于圖數據,遍歷算法是其它算法的基礎。典型的圖算法有 PageRank、最短路徑、連 通分支、極大獨立集、最小代價生成樹以及 Bayesian Belief Propagation 等。圖的最小生成樹 在生活中常代表著最低的成本或最小的代價,常用 Prim 算法和 Kruskal 算法。社區發現, 最短路徑,拓撲排序,關鍵路徑也都有對應的算法。下面簡單對圖算法進行介紹。 社區發現(Community Detection) 社區發現算法是用來發現網絡中的社區結構, 也可以看做是一種聚類算法。 社區發現算 法可以用來發現社交網絡中三角形的個數(圈子),可以分析出哪些圈子更穩固,關系更緊 密,用來衡量
29、社群耦合關系的緊密程度。從一個人的社交圈子里面可以看出,三角形個數越 多,說明他的社交關系越穩固、緊密。在圖計算的社交應用當中,像 Facebook、Twitter 等 社交網站,常用到的的社交分析算法就是社群發現。 PageRank PageRank 是 Sergey Brin 與 Larry Page 于 1998 年提出來的,用來解決鏈接分析中網頁 排名的問題。PageRank 的計算充分利用了兩個如果:數量如果和質量如果。PageRank 源自 搜索引擎,它是搜索引擎里面非常重要的圖算法,可用來對網頁做排序。比如我們在網頁里 搜索 weibo,會出來非常多有著 weibo 關鍵字的網頁
30、,可能有上千上萬個相關網頁,而 PageRank 可以根據這些網頁的排序算法將其排序, 將一些用戶最需要的網頁進行優先展示。 最短路徑 最短路徑用于計算一個節點到其他所有節點的最短路徑。主要特點是以起始點為中心 向外層層擴展,直到擴展到終點為止。最短路徑在社交網絡里面,有一個六度空間的理論, 表示你和任何一個陌生人之間所間隔的人不會超過五個。 最短路徑是圖算法中的一種, 在圖 計算應用上很常見。 9 2.2.2 圖計算框架圖計算框架 接下來對主流的圖計算框架進行簡介。 依據大規模圖計算系統的使用場景以及計算平臺架構的不同,我們將其分為單機內存 圖計算系統、單機外存圖計算系統、分布式內存圖計算系
31、統和分布式外存圖計算系統。 圖 3 圖計算系統框架分類 單機內存圖處理系統就是圖處理系統運行在單機環境,并且將圖數據全部緩沖到內存 當中。 單機外存圖處理系統就是圖處理系統運行在單機環境, 并且通過計算將圖數據不斷地 與內存和磁盤進行交互的高效圖算法。分布式內存系統就是圖處理系統運行在分布式集群 環境,并且所有的圖數據加載到內存當中。分布式外存圖計算系統將單機外存系統(Single- machine out-of-core systems)拓展為集群,能夠處理邊數量級為 trillion 的圖。 下面對各類圖計算框架逐一做簡單介紹: 單機內存圖處理系統 此類圖計算系統單機運行, 可直接將圖完全
32、加載到內存中進行計算。 但是單機的計算能 力和內存空間總是有限,故只能解決較小規模的圖計算問題,比較有代表性的系統有 2013 年發布的 Ligra 和 Galois,以及 2015 年發布的 GraphMat 和 Polymer。 10 其中 Ligra 提出了根據圖稠密情況自適應的切換計算模式,并提供了一種基于邊映射, 頂點映射以及頂點集映射的并行編程算法。Galois 使用 DSLs(domain-specific languages)寫 出更復雜的算法完成圖分析工作,并發現當輸入圖是道路網絡或者具有較大直徑的圖時能 獲得一個數量級的性能提升,在現有的三種圖 DSLs 基礎上提供了輕量級
33、的 API,簡化了圖 算法的實現。 GraphMat 是第一個對多核 CPU 進行優化的以頂點為編程中心的輕量級圖計算框架, 為 用戶和開發者提供了友好的接口。 Polymer 則是針對在 NUMA 特性的計算機結構上運行圖算法的優化,作者發現無論是 隨機或者交錯地分配圖數據都會重大地束縛數據的本地性和并行性,無論是 intra-node 還是 inter-node,順序訪存都比隨機訪存的帶寬高的多。 單機外存圖處理系統 此類圖計算系統單機運行, 但是將存儲層次由 RAM 拓展到外部存儲器如 SSD, Flash, SAS,HDD 等,使其所能處理的圖規模增大。但受限于單機計算能力和外存存儲系統的數 據交換的帶寬限制也無法在可接受的情形下處理超大規模的圖數據。典型的圖計算系統有 GraphC