《中國信通院:數據基礎設施白皮書2019(24頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:數據基礎設施白皮書2019(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、數據基礎設施白皮書 2019 目錄 目錄 數據正在成為數字經濟發展關鍵生產資料 數據應用的現狀總結 構建數據基礎設施迎接變化與挑戰 總結與展望 02 07 11 20 1.1 數字經濟蓬勃發展,深刻改變了生產、生活方式 1.2 數據的有效應用正成為經濟社會發展的強勁驅動力 1.3 新技術持續推動數據爆發增長 - 03 - 04 - 05 - 08 - 08 - 09 - 12 - 13 2.1 存不下數字化浪潮下的海量數據存儲挑戰 2.2 流不動由來已久的數據孤島難題 2.3 用不好數據供應不足造成應用復雜低效 3.1 數據基礎設施定義 3.2 數據基礎設施的特征與趨勢 3.2.1 融合 3.
2、2.2 協同 3.2.3 智能 3.2.4 安全 3.2.5 開放 前言 前言 人類社會幾千年來經歷了農業經濟、工業經濟,如今已經進入到數字經濟時代。根據聯合國2019 年數字經濟報告的統計,數字經濟的規模估計占全球生產總值的4.5%至15.5%之間,其中中國和美國 是引領世界數字經濟發展的核心。中國互聯網發展報告2019指出,2018年,中國數字經濟規模達 31.3萬億元,占GDP比重達34.8%,數字經濟已成為中國經濟增長的新引擎,正在深刻改變全社會的生 產和生活方式。 雖然學界對數字經濟的構成模式和理論體系還沒有清晰的界定,但數據作為數字經濟時代最有價值的 生產資料已經是毋庸置疑的共識。
3、云計算、大數據、物聯網、移動互聯網、人工智能等ICT新技術、新模 式的發展和應用無一不是以海量數據為基礎,又反過來帶動了數據量的爆發式增長。 就像石油的“采-運-煉-儲-用”是工業經濟的核心命脈一樣,面向海量數據的“采-存-算-管- 用”是支撐數字經濟運行的基礎能力。海量數據蘊含巨大的價值,也帶來了前所未有的挑戰,數據“存 不下、流不動、用不好”成為了各行業數據應用最普遍的難題,以“融合、協同、智能、安全、開放” 為特征的新型數據基礎設施可以幫助各行業實現數據存儲智能化、管理簡單化和價值最大化,是推動各 行業擁抱數字經濟浪潮的關鍵因素之一。 在此背景下,中國信息通信研究院和華為技術有限公司共同
4、編寫了數據基礎設施白皮書 2019, 力圖從數據應用的現狀與問題出發,總結數據基礎設施的內涵與技術特征。在研究的過程中我們認識 到,目前對數據基礎設施的理解還是非常初步的,數據基礎設施是涉及經濟、技術,乃至社會發展的宏 大命題,這本白皮書只是后續研究的一個起點。我們希望未來能夠與產業界和各行業專家共同探討、研 究,不斷厘清數字經濟大背景下數據基礎設施的概念與需求,更好的指導技術、產業和應用的發展。 01 數據正在成為數字經濟發展 關鍵生產資料 01 02 數字經濟成為經濟發展新動能 受國際經濟形勢與國內經濟結構性改革等因素影響,從2007年起,中國GDP增速從14.2%回落到 2015年起的6
5、.9%,經濟增速由高速轉變為中高速,中國經濟進入“新常態”。過去十年,中國數字經 濟的持續穩定快速發展,成為穩定經濟增長的重要途徑。2008年,我國數字經濟占GDP比重僅為 15.22%,2018年我國數字經濟規模達31.3萬億元,占GDP比重34.8%,數字經濟發展對GDP增長貢 獻率達到67.9%,超越部分發達國家水平。 20082018年,我國數字經濟增速顯著高于同期GDP增速,并且自2011年以來,數字經濟與GDP 增速差距有擴大趨勢,按照可比口徑,2018年我國數字經濟名義增長率為20.9%,高于同期GDP名義 增速約11.2個百分點。隨著數字化加速向傳統產業融合滲透,數字經濟對經濟
6、增長的拉動作用將愈發凸顯。 數字經濟深刻改變了生產、生活方式 移動互聯網改變日常生活。中國已經成為全球最大的移動互聯網市場,數據顯示,截至2018年12 月,中國手機網民規模已達8.17億,用戶需求的巨大網絡效應帶來了一系列廣泛的創新,電子商務、網 絡支付、共享單車、人工智能等新興領域正迅速重構每一個中國人的生活方式,從而形成日常生活中的 數字浪潮。以電子商務為例,十年前中國的零售電商交易額不到全球總額1%,如今占比已超過40%,超 過法、德、日、英、美五國的總和。 來源:中國數字經濟發展與就業白皮書(2019年) 40% 30% 20% 10% 0% 數字經濟增速顯著高于同期GDP增速 20
7、03 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 數字經濟增速GDP增速 1.1 數字經濟蓬勃發展,深刻改變了生產、生活方式 數據正在成為數字經濟發展關鍵生產資料 03 數據是數字經濟時代的核心生產要素 社會已經迎來了繼農業經濟、工業經濟之后的數字經濟時代,如同農業時代的土地、勞動力,工業 時代的技術、資本一樣,數據已經成為數字經濟時代的生產要素,而且是最核心的生產要素,數據甚至 被認為已經超過石油的價值。數據驅動型創新正在向經濟社會、科技研發等各個領域擴展,成為國家創 新發展的關鍵形式和
8、重要方向。 數據有效應用推動經濟社會發展 各行各業加速數字化進程,對數據的有效應用成為關鍵。 提高金融風控能力。美國銀行2015年的一份調查研究指出,銀行每創收100萬美元,會平均產生 820GB的數據,業務數據量高踞各行業之首,遠超緊隨其后的電信、保險和能源行業。銀行是經營風險 的行業,一方面,監管層對銀行機構的風控能力提出很高要求,另一方面,風控直接會影響銀行機構的 利潤水平。通過對海量數據的有效利用,能夠在用戶畫像、反欺詐、信用評級等方面大大提高銀行機構 的效率和風控能力。 提高政府辦事效率。以往,群眾找政府辦事,需要來回跑多次。通過進行數據共享、數據整合,打 1.2 數據的有效應用正成
9、為經濟社會發展的強勁驅動力 工業互聯網賦能工業企業轉型升級。工業互聯網通過人、機、物的全面互聯,實現全要素、全產業 鏈、全價值鏈的全面連接,對各類數據進行采集、傳輸、分析并形成智能反饋,推動形成全新的生產制 造和服務體系,優化資源要素配置效率,充分發揮制造裝備、工藝和材料的潛能,提高企業生產效率, 創造差異化的產品并提供增值服務。以國家電網公司為例,國家電網公司提出“泛在電力物聯網”戰 略,把用戶、企業、設備、供應商等人和物全部連起來,實現設備和狀態的全面感知,通過把數據匯 聚、共享,為用戶、電網、供應商等提供數據服務,使數據為社會提供更多價值服務。 以人為本提升社會發展。2017年12月,廣
10、東省率先在全國部署“數字政府”改革建設,以數據開放 釋放“數字紅利”,極大提升政府治理能力現代化水平?;凇皵底终苯y一基礎設施,以數據為核 心,盤活政府已有數據中心和社會化數據中心資源,通過數據匯聚、數據治理,建設結構合理、質量可 靠的政務“大數據”體系。2018年9月,廣東政務服務網正式上線,實現省、市、縣、鎮、村五級政務 服務事項“應上盡上”、“一網通辦”,變“群眾跑腿”為“數據跑路”。 04 數據正在成為數字經濟發展關鍵生產資料 GIV2025報告顯示,到2025年,全球將產生180ZB數據。新技術的出現持續推動著數據增長與流動。 4K/8K帶來數據存儲的需求量激增,以及極致穩定的讀
11、寫高帶寬的需求 當前,信息視頻化、視頻超高清化已經成為全球信息產業發展的大趨勢。從技術演進來看,視頻己 經從標清、高清進入4K,即將進入8K、AR/VR時代。以廣電行業為例,今年3月1日,工業和信息化 部、國家廣播電視總局、中央廣播電視總臺聯合發布了超高清視頻產業發展行動計劃(2019-2022 年),提出堅持“4K先行、兼顧8K”的總體技術路線,到2022年,中國超高清視頻產業總體規模將超 過4萬億元。4K超高清的建設和應用,使廣電行業IT基礎設施在高可靠的基礎上,向著高性能、低延 遲、集約化的方向轉型,尤其對存儲平臺的能力帶來巨大挑戰。4K超高清制播業務所產生的數據量比高 清多出至少4倍以
12、上,制播的各個環節,如視頻剪輯、特效合成、渲染、調色、視頻輸出等,都需要海量 的存儲空間以及并發的讀寫能力。 1.3 新技術持續推動數據爆發增長 破多個部門之間的數據壁壘,來減少人工窗口、縮短審批流程,從而提高辦事效率,減少排隊等候的情 況,更加便民。 擴大企業生產效率。通過數據有效利用能實現企業各業務環節間的信息高度集成和互聯,減少不必 要的資源浪費。以制造業為例,制造業的研發、采購、物流、生產、庫存、銷售等環節會產生大量的數 據,諸如各工序節拍信息、產品質量信息、發貨和收貨信息、物料流動信息、客戶需求信息、人力資源 需求信息等。通過將企業內部和外部各項數據高度集成和互聯,能夠消除過度生產浪
13、費、等待時間浪 費、工序浪費、庫存浪費、運輸浪費、產品缺陷浪費等,降低生產成本,提高生產效率和產品質量,實 現資源優化配置。 提升警務智能化水平。在公安行業建立健全基礎數據實時采集、動態更新、高度共享、深度研判的 工作機制,匯集來源于公安、政務、社會的數據資源,并面向公安機關及政府部門提供統一的支撐,實 現數據資源的交換、集成和服務。通過建立一個以視頻圖像為主、多種資源關聯疊加的視頻資源智能化 服務體系,打造公安機關視頻應用實戰的“神兵利器”,全面提升警務智能化水平。 促進經濟社會可持續發展。數據的應用有助于推動環保、節能、綠色產業發展,促進環境保護和經 濟社會可持續發展。例如,利用大數據可以
14、對環境進行立體監測,通過數據模擬技術和排放清單等工 具,建立環保大數據系統,提高環境監測數據的可靠性,為經濟決策提供科學依據。 05 數據正在成為數字經濟發展關鍵生產資料 5G/IoT/車聯網帶來數據量激增,同時也讓數據采集和云邊協同能力發生質的變化 5G通過提升連接速率和降低時延,使得單位時間內產生的數據量急劇增長,單位面積內的聯網設備 成倍增加,海量原始數據將被收集。4G時代,數據多產生于人與人之間的互聯,5G時代,物聯網將得 到較大程度的發展,人與物、物與物之間的連接將急劇增多,數據采集渠道將更加豐富,如聯網汽車、 可穿戴設備、機器人等,這也對數據存儲與采集技術提出更高要求。同時,5G時
15、代下越來越多的IoT設 備將通過邊緣計算進行存儲、處理和分析,云、邊協同能力變得尤為重要。 自動駕駛將產生海量數據,成為新的數據制造機 自動駕駛汽車依賴于安裝在車身上的各種傳感器傳輸的大量數據,因此要實現自動駕駛,首先要做 好準備迎接海量數據的“洗禮”。在自動駕駛訓練時期,以一輛車的信息采集為例,在進行自動駕駛算 法路測的過程中,每輛汽車每天將產生60TB的訓練數據量,僅僅在2017年,該領域就創造了大約 250EB的數據量。2020年前后,自動駕駛汽車將正式上路,每小時將產生4TB的數據,其中包括了關 于道路狀況、天氣、周圍物體、交通和街道標志等的實時信息數據,海量數據存儲與處理的時代即將
16、到來。 AI/大數據將改變數據的存儲周期和形態 首先,AI需要更長的數據存儲周期。比如,公安部公安機關現場執法視音頻記錄工作規定明確 提出,現場執法視音頻資料的保存期限原則上應當不少于六個月,以構筑“更長證據鏈”。其次,AI需 要全數據訓練、處理和分析。在數據規?;鲩L的趨勢下,可以按溫度來定義不同訪問頻率的數據:經 常被訪問的數據稱為熱數據,而較少被訪問的數據稱為冷數據,處于中間狀態的稱為溫數據。應用AI之 后,需要數據能在冷、溫、熱之間隨時進行切換。 06 數據正在成為數字經濟發展關鍵生產資料 07 數據應用的現狀總結02 新技術和產業的出現,正在加速企業的數字化轉型,大量新的硬件與應用帶
17、來數據量快速增長的同 時,也讓數據類型越來越多樣化。生產、采集和保存盡可能多的數據,用于全量分析以洞察先機,成為 企業的共識。海量數據蘊含巨大的價值,也給存儲系統帶來了前所未有的挑戰,數據存不下、流不動、 用不好成為了各行業數據應用最普遍的難題。 08 創新業務推動企業的數據量從PB級向EB級邁進,根據華為全球產業展望GIV預測,全球新產生 的數據量將從2018年的32.5ZB快速增長到2025年的180ZB。由于存儲系統仍為傳統架構以及成本等原 因,當前企業數據僅有不到2%被保存,數據“存不下”的問題日益嚴重。 存儲擴展性不足:傳統存儲由獨立的控制器與硬盤框組成,當容量不足時可增加新的硬盤框
18、進行級 聯,但由于控制器的處理能力受限,存儲的擴展能力非常有限。在政務云建設中,省級平臺通常需要規 劃至PB級的容量,單套存儲已經無法滿足需求,因此只能部署數十套高端、中端和低端的設備,導致管 理的復雜和數據的割裂。 存儲協議類型單一:非結構化數據逐步成為企業數據的主體。隨著電商、物聯網等業務擴張,80% 的新增數據由各類音視頻、日志等非結構化數據構成。然而傳統存儲協議類型單一,無法同時滿足塊、 對象、文件、大數據等多樣性數據的存取需求,企業不得不為每一種新的數據類型新增一種存儲設備, 增加了高效利用存儲資源的難度。 存儲成本依然高昂:越來越多的企業選擇將數據長期保存。2017年起,移動運營商
19、因合規性要求, 將其設備日志的保存周期從2個月增加至6個月。這意味著其數據存儲服務器的設備規模將增加至少2倍。 傳統的架構中,服務器因存儲需求不斷擴容,但CPU的使用率卻始終處于較低的狀態,資源得不到合理 利用,無疑會對采購成本和維護成本造成更大的壓力。企業不得不因為存儲成本而放棄大量寶貴數據。 2.1 存不下數字化浪潮下的海量數據存儲挑戰 孤立的數據價值并不顯著,只有當數據像水一樣流動起來,才能打破“數據壁壘”,最大化釋放其價 值。然而當前企業保存下來的數據,由于技術與流動性問題,只有10%的數據能得到分析,數據孤島、 多樣性設備、業務遷移成為數據“流不動”的主要瓶頸。 2.2 流不動由來已
20、久的數據孤島難題 數據應用的現狀總結 數據的“三類孤島” 應用孤島:不同應用產生的數據分別存放在不同的存儲系統中,而且這些數據由于各自的特征,彼此 之間是無法共享使用的,即形成“應用孤島”問題; 管理孤島:為對生產數據加以保護和使用,會將生產數據的一個副本,拷貝到各個系統(如備份、 容災、歸檔、開發測試和分析系統)中進行管理和使用。即便是同一份數據,為實現不同目的,還需分 別存儲、管理和使用,即形成“管理孤島”問題; 地理孤島:由于企業的更新換代,將存在多套存儲設備,比如生產環境、非生產環境、云環境和邊緣 環境,企業的數據將存放在不同的地方,形成“地理孤島”問題。 資源的“三堵高墻” 產生上述
21、問題的根本原因:企業在建設數據基礎設施時,從滿足客戶的訴求出發并考慮投資成本問 題,會選擇不同的計算資源、網絡資源和存儲資源來分別滿足客戶的不同訴求。 算力墻: 各個存儲系統的CPU能力,僅供本系統使用,無法將算力資源共享使用,形成各存儲系統 之間的“算力墻”; 網絡墻:各個網絡都有各自的協議,彼此之間無法互連互通,即各個網絡之間形成“網絡墻”; 介質墻:存儲介質的性能、容量和成本各不相同,客戶會選擇合適的介質存儲數據,這使得數據分別 存儲在不同系統的不同介質中,而且這些數據很難共享訪問,即各個存儲介質之間形成“介質墻”。 09 海量的數據孕育了前所未有的機遇,也帶來了巨大的挑戰。甚至有人說,
22、從來不缺數據,數據多了反 而成為一種負擔。也有人說,數據只是資源,而不是資產,很難產生價值。其根本原因是沒有用好數 據,數據沒有釋放價值。而影響數據價值釋放的主要原因是數據供應不足,無法反饋業務本質,支持業 務決策: 大量數據未存儲 企業每天會產生大量數據,但傳統的數據錄入需要預先的人工規劃,這導致大量非結構化數據以及 一些新型的數據無法進入系統(例如IoT數據、視頻數據、圖片數據等)。數據的缺失會削弱對業務的感 2.3 用不好數據供應不足造成應用復雜低效 數據應用的現狀總結 10 知,無法真實及時地反映出業務本質。 找不到數據 傳統企業通常通過數據表來管理和分析數據,規模較大的公司數據表甚至
23、可以達到數百萬張,而且 分散在各個業務系統中。如果沒有統一數據目錄和全局數據視圖,要在上百萬張報表中找到特定的數 據,好比大海撈針,無法應對靈活多變的業務需求。 誰對數據負責 在大數據時代,一個典型的分析業務通常需要跨平臺的數據協同。如果已經接入的數據無法滿足分析 需求,需要從前端多個業務系統獲取新的數據,再加上缺乏統一的隱私與安全共享機制,數據就需要經 過多部門間協調、拉通、核實才能獲得。數據分析的鏈路冗長,一旦出現問題,就需要“六方會談”才 能定位,無法保證數據供應穩定和高可用,更無法實現高效的數據融合分析。 數據應用的現狀總結 11 構建數據基礎設施迎接 變化與挑戰 03 社會數字化、智
24、能化加速發展,海量的數據帶來了巨大的挑戰,也孕育了前所未有的機遇。各行各 業都在加速數字化和智能化進程,越來越多的企業已經意識到,數據基礎設施是數字經濟成功的關鍵, 而數據“存不下、流不動、用不好”等問題也促成了各行業積極構建新型數據基礎設施,加速實現數據 價值變現。 12 數據基礎設施的范圍應涵蓋接入、存儲、計算、管理和數據使能五個領域,通過匯聚各方數據,提供 “采-存-算-管-用”全生命周期的支撐能力,構建全方位的數據安全體系,打造開放的數據生態環境, 讓數據存得了、流得動、用得好,將數據資源轉變為數據資產。新的數據基礎設施是傳統IT基礎設施的 延伸,以數據為中心,服務于數據,最大化數據價
25、值。 數據基礎設施由基礎設施層和數據管理層組成,其中基礎設施層包括存儲、計算、網絡等硬件設施, 數據管理層由操作系統、數據庫系統及大數據系統組成,構成支撐數據存儲及數據全生命周期管理的軟 件設施。 3.1 數據基礎設施定義 圖3-1 數據基礎設施 行業應用 數據源 數據 管理層 基礎 設施層 數據基礎設施 數據庫系統大數據系統 操作系統 Kunpeng | Ascendx86 | NPU | GPU 存儲服務器網絡 自動駕駛 8K視頻 5G 遠程醫療 其他 AR/VR 智慧金融智慧交通 智慧能源智慧政務 構建數據基礎設施迎接變化與挑戰 13 數據基礎設施應具備以下5個特征:融合、協同、智能、安
26、全、開放,以幫助企業實現存儲智能化、 管理簡單化和數據價值最大化。 3.2.1 融合 數據基礎設施正在向“一橫一縱”兩種融合架構發展。 橫向融合是指數據全生命周期存儲的融合。數據產生的第一環節是生產存儲,以支撐交易型的數據處 理;通過擴展至分析型存儲來支撐核心的分析業務;備份存儲進一步擴展分析場景;主存增加混合云備 份、分級等特性,實現冷數據上云。通過對生產存儲疊加輕量化備份和管理特性,拓展存儲場景,實現 從熱到冷的數據全生命周期存儲整合。 3.2 數據基礎設施的特征與趨勢 在基礎設施層,區別于傳統的硬件設施,數據基礎設施將引入多樣性計算,從單一算力到多樣性算 力,匹配多樣性數據,讓計算更高效
27、;存儲也會從單一類型存儲走向多樣性融合存儲,構建融合處理基 礎,應對存儲效率低、管理復雜的問題。 在數據管理層,將結合大數據系統和數據庫系統提供的“采-存-算-管-用”全流程的軟件支撐,從 單一處理向多源數據智能協同、融合處理發展,應對更實時和智能的數據應用需求,加速實現數據價值。 數據基礎設施需要面向數據構建全方位的安全體系,保障數據端到端的安全和隱私合規,打造開放的 數據生態環境,推動全社會數據的共享和開放,創造更大的價值。 備份歸檔 數據庫 生產分析 大數據 +AI 圖3-2 數據基礎設施“橫向融合”與“縱向融合” 構建數據基礎設施迎接變化與挑戰 縱向融合是指數據處理與數據存儲的垂直優化
28、。包括交易型數據處理與生產存儲相融合,提升性 能,增強可靠性;數據分析與分析型存儲融合,提高分析效率。在存儲層,通過重定義存儲架構,將 塊、文件、對象、HDFS等多種存儲服務融合,打通數據孤島,解決多樣性數據存儲和共享問題;協議 方面,通過多協議融合技術,實現一份數據同時支持數據庫、大數據、AI等多種業務的分析需求,節省 數據無效流動時間,讓分析更高效;算力層面,通過將數據庫、大數據、AI多引擎融合分析和多樣性算 力統一調度,降低海量數據處理難度,實現高效分析;管理層面,通過將AI融入存儲全生命周期管理, 從資源規劃、業務發放、系統調優、風險預測、故障定位等方面實現智能運維,從容應對數千節點規
29、模 的復雜管理。 數據基礎設施五個層面的融合 異構算力融合 隨著AI和機器學習的規模使用,數據基礎設施必須支持以GPU,FPGA和ARM為代表的異構計 算,即從單一算力到多樣性算力,匹配多樣性數據,為中心、云和邊緣提供更高性能的計算資源,使能 數據基礎設施中的應用更高效運行。 存算融合 存算融合是指將一些數據的處理直接在存儲控制器中的盤內進行處理,將計算出來的有效數據返回給 計算層,這樣可以最大限度地減少在存儲層和計算層之間移動的數據量,提升計算效率。 數據庫存儲融合 數據庫存儲融合指采用計算-存儲分離部署的架構,數據庫計算和存儲資源可以靈活配置,根據業務 需要各自獨立進行彈性擴展,使得資源匹
30、配更精準、更合理,大幅提升資源利用率。 協議融合 協議融合是指數據在生命周期中以不同的協議存放在不同的地方,打破這種協議限制,將數據在邏輯 上集中,即支持多種應用和數據源的接入,并通過開放式數據接入框架,靈活擴展接入第三方數據源。 實現“業務到哪,數據到哪”的全連接,讓數據取之有“道”。 格式融合 格式融合是指為上層應用和客戶端提供工業界標準接口,能夠支持多種服務,如塊存儲服務、文件存 14 構建數據基礎設施迎接變化與挑戰 15 儲服務、對象存儲服務和大數據存儲服務。消除傳統數據基礎設施中多類型存儲系統煙囪式構建而形成 應用孤島。實現一份數據同時滿足數據庫、大數據、AI等多種業務的分析需求。
31、3.2.2 協同 大數據的本質是復雜數據的處理技術,它和成熟的數據庫、數據存儲技術是相輔相成的關系。因為 這種復雜性,在硬件、算力、數據等趨于融合的過程中,多種數據源以及與之相關聯的特定的數據處理 技術還是長期并存的,需要對異構異地數據源進行協同分析。 數據基礎設施的六個協同場景 跨數據源協同分析 實現分散在多個數據源的多張數據表進行交叉分析。如常見的數據源:Hive、SparkSQL、 MPPDB、ES、HBase、Oracle、MySQL等。 跨域協同分析 實現分散在異地數據中心的多張數據表進行碰撞分析??梢韵裨L問本地數據表一樣訪問異地數 據 表,并可以將分散在多地的數據表進行碰撞操作。
32、云邊協同分析 目前普遍存在“云邊端”三級的硬件基礎設施。其中,云側和邊側均有數據持久化存儲介質,可 用于臨時或長期地保存業務數據。實現云邊協同分析,即實現云側和邊側之間特殊的跨源、跨域協同分析。 異地數據即時訪問 只要數據進入一個數據中心,通過協同分析聯網的其他數據中心就可以馬上訪問這部分數據,而不需 要等待數據復制到本地。 統一訪問接口 協同分析對外提供SQL或命令行等統一的查詢接口,降低開發人員的學習門檻。開發人員無需關心 數據的存儲位置,只需要像處理本地數據一樣提交處理任務。 跨域計算能力共享 同一個企業組織的多個數據中心分布在不同地域,不同地域之間的計算資源利用往往不平衡,通過 構建數
33、據基礎設施迎接變化與挑戰 協同分析的任務分發和調度能力,可以實現跨域的計算能力共享,提升整體資源利用率。 協同的關鍵技術 智能算子下推 當前在跨數據源查詢時,無法將算子和計算任務下推至數據源,造成存儲節點和計算節點間大量不 必要的數據傳輸,嚴重影響SQL引擎性能。智能算子下推技術正是為了解決上述的“跨數據源復雜查詢 傳輸效率低,耗時長”的業務痛點,提供分布式計算下推能力,將算子和計算任務都下推到數據源,大 幅減少從數據源表拉取的結果集,避免不必要的數據傳輸,提升查詢性能。 計算任務下推 在跨數據中心聯合查詢場景,考慮到數據中心之間的數據安全、網絡帶寬,及數據中心的集群算力 等因素,以數據中心為
34、單位,將查詢分解成多個子任務,并下推至對應的數據中心去執行,這樣能最大 程度降低對網絡傳輸帶寬的消耗,提高查詢的響應效率。 跨域高速數據傳輸 跨數據源查詢的主要瓶頸在于可用帶寬資源不足、查詢數據網絡傳輸耗時過長、網絡質量不可控導致 的查詢任務中斷、失敗。在帶寬有限、網絡條件差的環境中,實現高速、可靠數據傳輸和優化,是實現 協同分析技術實用化的關鍵。 3.2.3 智能 數據智能是一個跨學科的研究領域,它結合大規模數據處理、數據挖掘、機器學習、人機交互、可視 化等多種技術,從數據中提煉、發掘、獲取有揭示性和可操作性的信息,使數據“智能”,為人們在基 于數據制定決策或執行任務時提供有效的智能支持。
35、數據智能的標志是數據驅動決策,讓機器具備推理等認知能力,大數據能夠指導決策。同時完成業務 數據化的進程,開始進入到業務智能化,依靠數據去改變業務。 智能的數據基礎設施應該從每個環節都能夠提供智能化的能力支撐。 數據基礎設施智能化關鍵環節 智能芯片 按技術架構來看,智能芯片可以分為通用類芯片(CPU、GPU、FPGA)、基于FPGA的半定制化 構建數據基礎設施迎接變化與挑戰 16 芯片、全定制化 ASIC 芯片、類腦計算芯片(IBM TrueNorth)等。另外,主要的人工智能處理器還有 DPU、BPU、NPU、EPU等適用于不同場景和功能的人工智能芯片。 隨著互聯網用戶量和數據規模的急劇膨脹,
36、人工智能發展對計算性能的要求迫切增長,對CPU計算 性能提升的需求超過了摩爾定律的增長速度。同時,受限于技術原因,傳統處理器性能也無法按照摩爾 定律繼續增長,發展下一代智能芯片勢在必行。未來的智能芯片主要是在兩個方向發展:一是模仿人類 大腦結構的芯片,二是量子芯片。智能芯片是人工智能時代的戰略制高點,預計到2020年人工智能芯片 全球市場規模將突破百億美元。 智能軟件框架 面對海量的數據處理、復雜的知識推理,常規的單機計算模式已經不能支撐。計算模式必須將巨大 的計算任務分成小的單機可以承受的計算任務,如云計算、邊緣計算、大數據技術提供的基礎計算框 架。當前人工智能普遍使用通用的開源框架來進行模
37、型的訓練,比如:TensorFlow、PyTorch、 MxNet、Caffe等。不同的數據使用不同的框架會得到不一樣的模型,這些模型最終將用于現實中的 推理。 智能數據治理 AI可以解決數據治理的一些痛點:對人工流程的依賴和對專家的依賴。 數據治理需要人工流程保障一系列數據規范、標準的貫徹執行。而智能化的數據治理能夠讓數據規范 和標準的保障自動判斷,自動完成,減少對人工審核的依賴;數據治理需要大量數據專家理解數據,理 解業務,構建數據安全和數據質量體系,基于AI的數據治理平臺通過算法理解數據和業務,對不同的數 據自動采取相應的分類安全和質量保障體系,降低對專家的依賴。 數據治理的智能化可以降
38、低客戶數據治理方案的總體成本,縮短上線周期,減少對人的依賴。 3.2.4 安全 數據基礎設施承載著海量的數據,包括業務的核心數據以及隱私數據。這些數據支撐著企業的所有業 務和運營,關系著企業的生命線。需要構建全方位的數據安全體系,幫助企業實現數據在全生命周期過 程中的數據不丟失、不泄露、不被篡改、業務永遠在線、可追溯和隱私合規。 數據基礎設施系統和數據使用方式給安全保護帶來了新的挑戰: 海量數據集中后無形中增加了黑客單次攻擊獲取的收益,降低了攻擊成本; 構建數據基礎設施迎接變化與挑戰 17 分布式計算和存儲增加了攻擊面和配置管理難度,安全風險更難發現; 組件、數據、用戶多樣,數據誤用風險提升;
39、 數據流動路徑的復雜化導致追蹤溯源變得異常困難; 數據分析、共享帶來新的隱私和合規風險; 非結構化數據快速增長,數據全生命周期融合,隱私合規風險激增; 數據基礎設施應具備全方位的安全防護體系 數據基礎設施應具備平臺安全、數據安全、隱私合規三個層面全方位的安全技術體系,打造可信的 數據基礎設施,幫助企業實現數據在全生命周期過程中的數據永不丟失、不泄露、不被篡改、業務永遠 在線、可追溯和隱私合規。 平臺安全 系統自身的安全和防攻擊性是安全防護體系的基石,需要從產品的需求、設計、開發、測試、交付和 運維的整個生命周期進行管控,確保系統具備預期交付承諾的安全能力,滿足交付質量的要求?;A設 施平臺安全
40、包括介質、芯片、板卡等硬件設備安全,操作系統、數據庫、固件等軟件安全,以及網絡、 協議等安全。 數據安全 是指基礎設施為支撐數據存儲、傳輸、處理等全生命周期過程提供的數據安全保護能力,如數據加 密、數據隔離、訪問控制、完整性校驗等。數據融合背景下,由于缺乏有效的安全訪問控制,不同網絡 融合、各種數據匯集,數據泄露及濫用風險成為主要矛盾之一。保障數據的安全,要回答好三個問題: 數據在哪里,安不安全;數據去哪里,該不該去;數據誰在用,該不該用。 隱私合規 是指基礎設施為保障數據存儲、移動、再利用等過程中的合規提供的能力,如數據脫敏、違規分析、 密文搜索、同態加密等。歐盟10月4日發布非個人數據移動
41、條例,放寬非個人數據流動限制,以推動歐盟 數字經濟發展。在該條例下,個人數據的準確識別和數據脫敏將發揮重要的推動作用。二級存儲產品將 生產業務的備份、復制、歸檔數據統一存儲、統一管理,并及時將副本數據用于開發、測試和數據分析, 在這種端到端、多方使用數據的場景下,做好數據的訪問控制和脫敏變得尤為重要。 構建數據基礎設施迎接變化與挑戰 18 3.2.5 開放 “開放”的數據基礎設施需要包容開放的技術和產業生態。 數據產業是一個有眾多細分領域、眾多參與者的產業,它需要數據、產品和服務間的緊密協同,而 數據基礎設施作為其中的關鍵支撐環節,涉及到硬件產業、軟件產業,以及各類開源技術、閉源技術等, 這就
42、決定了數據基礎設施具有生態復雜性,需要很強的生態協同能力,并通過技術和產業的開放性來吸 引更多的參與者以保持生態的活力。 構建“平臺+生態”的數據基礎設施新模式,需要產業各環節的協同操作,包括基礎設施和應用服務 間的協作、同類型供應商之間的協作、上下游供應商之間的協作、甚至內部產品之間的協作。使產業鏈 上下游實現高效率、低成本的多贏局面。 實現產業生態開放與協同的兩個重點 制定公平、透明規則,建立生態信任體系 開放的生態體系中包含了不同的參與者,代表了不同的利益訴求,在缺乏信任的情況下,參與者之間 的互動會演化為競爭性的活動。對于開放性的數據和產業生態,建立生態體系內的信任十分重要。開放 而有
43、序的生態能為參與者提供發展的“自主權”,并在有需要的時候,提供公平性、透明度的規則來維 護參與者的權益。 建立價值分享模式,謀求產業長期發展 開放的平臺和生態使產業傳統的“分蛋糕”模式逐步轉向一起“做大蛋糕”。生態體系中的利益主體 通過建立產業鏈間高效的協同機制,形成良性互動的有機合作關系,以實現產業的持續擴大。未來開放 的生態模式將會類似于成熟的軟件開源模式,貢獻者的名譽將有助于他們在未來的市場化,以獲得更多 潛在的利益回報。 構建數據基礎設施迎接變化與挑戰 19 20 總結與展望04 過去十年,中國數字經濟蓬勃發展,深刻改變了人們的生產和生活方式。而數據已經成為了數字經濟 時代的最核心的生
44、產要素。數據驅動型創新正在向經濟社會、科技研發等各個領域擴展,成為國家創新 發展的關鍵形式和重要方向。 飛速發展的通信和互聯網技術以及隨之產生的新型應用需求帶來了數據爆發式的增長。海量數據蘊含 巨大的價值,在帶來更多機遇的同時,也給傳統的IT基礎設施帶來了前所未有的挑戰,數據存不下、流 不動、用不好成為了各行業數據應用最普遍的難題。培育和建設新的數據基礎設施成為了解決這些數據 應用問題的關鍵。 數據基礎設施是傳統IT基礎設施的延伸,以數據為中心,服務于數據,以最大化數據價值。它涵蓋數 據接入、存儲、計算、管理和使能五個領域,提供“采-存-算-管-用”全生命周期的支撐能力。數據基 礎設施需要具備
45、全方位的數據安全體系,旨在打造開放的數據生態環境,讓數據存得了、流得動、用得 好,最終將數據資源轉變為數據資產。 數據基礎設施應具備融合、協同、智能、安全、開放5大特征,以幫助企業實現存儲智能化、管理簡 單化和數據價值最大化。融合指的是“一橫一縱”的融合模式,橫向融合是數據全生命周期存儲的融合, 縱向融合是數據處理與數據存儲的垂直優化;協同指的是支撐異構異地數據源的協同分析;智能指的是 貫穿數據基礎設施每個環節的智能化的能力支撐;安全指的是提供平臺安全、數據安全、隱私合規全方 位的安全防護體系;開放指的是數據基礎設施的發展需要包容開放的技術和產業生態。 企業向數據驅動型企業轉型的過程不是一蹴而就的。隨著企業在每個階段對自身數據認知的不斷提 升,其對基礎設施(包括數據基礎設施)的要求也會逐步提升。成長中的數據基礎設施,其穩定性和先 進性會深刻影響到企業數字化轉型的效果和進程。未來,打造開放的產業生態也是數據基礎設施發展的 關鍵要素。 總結與展望 21 中國信息通信研究院 地址:北京市海淀區花園北路52號 郵政編碼:100191 聯系電話:010-62304839 傳真:010-62304980 網址: 華為技術有限公司 地址:深圳龍崗區坂田華為基地 郵政編碼:518129 聯系電話:+86 755 28780808 網址: