《華為:數據存儲2030(2024版)(57頁).pdf》由會員分享,可在線閱讀,更多相關《華為:數據存儲2030(2024版)(57頁).pdf(57頁珍藏版)》請在三個皮匠報告上搜索。
1、20302024 版數據存儲構建萬物互聯的智能世界人類社會的文明史,就是一部信息存儲方式和傳播方式變革的歷史。3500 多年前,甲骨文出現,標志著人類的文明史開啟;2100 多年前,造紙術的發明,使得知識的傳播更加便捷;60 多年前,以機械硬盤為代表的數字化信息記錄方式的出現,使得人們可以更加高效地存儲和傳播信息,進一步促進了人類文明的發展和傳承。未來十年,隨著以5G/6G、AI、大數據、云計算為代表的新技術飛速發展,人類即將進入YB數據時代,數據存儲技術的創新和發展有望開啟新的文明發展時代。以數據為中心的高效、綠色和安全的數據基礎設施,必將推動人類社會向更高層次的智能化進程邁進,讓人類在未來
2、的智能時代中更好地理解世界、探索世界,并勇往直前,開拓未來。前言目 錄0601未來數據存儲場景1.1 數字化技術驅動人類發展,從信息化進入數字化.081.1.1 醫,讓健康數據化,讓生命有質量.081.1.2 食,用數據換產量,普惠綠色飲食.091.1.3 住,全屋智能數據交互,讓空間更人性化.111.1.4 行,數據使能智能低碳出行,開啟移動第三空間.121.1.5 城市:數字新基建,讓城市有溫度,更宜居.131.1.6 企業:數字化工廠重塑生產模式,增強企業韌性.151.1.7 能源:數據使能綠色能源,打造低碳數據中心.171.1.8 數字可信:數據安全應用塑造可信未來.191.2 數字經
3、濟的發展推動人類社會即將進入 YB 時代.201.2.1 數據的總量從 175ZB 到 1003ZB,將進入 YB 時代.201.2.2 多樣化數據應用,產生多樣化數據類型.211.2.3 AI 促進數據覺醒,帶來熱溫冷數據層次變化.221.2.4 云和互聯網的數據激增,帶來數據架構變化.221.2.5 端邊云產生數據 70%向數據中心集中,大規模集約化數據中心形成.221.2.6 2030 年數據的產生主要來自終端,未來邊緣和數據中心產生的比例將增加.232402數據存儲 2030 愿景及關鍵特征2.1 先進介質應用.262.1.1 先進介質技術.272.1.2 介質應用創新.302.2 以
4、數據為中心的體系架構.332.2.1 存算分離.342.2.2 存算一體.352.2.3 集群存儲.362.3 數據內生安全.372.3.1 主動數據保護.372.3.2 數據零拷貝.382.3.3 零信任存儲.39附錄 A:參考文獻.52附錄 B:縮略語.54附錄 C:致謝.565103數據存儲 2030 倡議2.4 智能數據編織.412.4.1 自動化數據編排.412.4.2 跨域數據協同.422.4.3 存力網絡.432.5 數據即應用.442.5.1 內容消費的服務型接口.452.5.2 數據語義提取.452.5.3 數據多模態分析.452.5.4 數據自適應建模.462.6 可持續存
5、儲.472.6.1 存儲系統級節能.472.6.2 數據傳輸能效提升.492.6.3 芯片級節能技術.492.6.4 綠色集約標準.5006數據存儲 203001未來數據存儲場景醫生命有質量城市有溫度,更宜居企業重塑生產模式食普惠綠色飲食行移動第三空間數字可信可信未來能源綠色能源更智能住空間人性化2030年50%新能源占比行業數字化滲透率2030年50%2030年100倍數字基礎設施能效提升數據存儲2030展望智能世界2030圖 1-1 未來數據存儲場景07數據存儲 203010 年前,人類社會剛剛進入 ZB 數據時代,移動互聯網、云計算、大數據剛剛起步;今天,這些技術已經深刻地改變人類社會,
6、而人工智能、區塊鏈、5G/6G、AR/VR、元宇宙等新技術,進一步推動社會進入一個新的智能世界階段。2030 年,人類將迎來 YB 數據時代1,對比 2020 年,年新增數據增長 23 倍,通用存力增長 10 倍、人工智能存力增長 500 倍2。數字世界和物理世界無縫融合,人與機器實現感知、情感的雙向交互;人工智能無所不及,成為科學家的顯微鏡與望遠鏡,讓我們的認知跨越微小的夸克到廣袤的宇宙,千行萬業從數字化走向智能化;數字技術持續演進,幫助人類利用數字手段加速實現未來智能世界2030。未來十年,數字技術將幫助人類跨入智能世界,這是一個波瀾壯闊的史詩進程,將開啟一個與大航海時代、工業革命時代、宇
7、航時代等具有同樣歷史地位的新時代。08數據存儲 20301.1 數字化技術驅動人類發展,從信息化進入數字化醫,讓健康數據化,讓生命有質量過去的十年,是人類健康發展充滿“生命力”的十 年,據 WHO(world health statistic 2021)報告顯示,全球人口預期壽命從 2000 年的66.8 歲增加到 2019 年的 73.3 歲。伴隨著人口老齡化的加速,2030 年全球 60 歲以上人口占比將達到 16.5%,人類對醫療的需求也將激增3。WHO 的 2019 數據顯示,全球衛生費用支出占生產總值的 10%,其增長快于全球經濟增長。WHO 也預測,2030 年全球護士缺口高達57
8、0 萬人,醫護人員總缺口高達 1000 萬人。全球的醫療資源與人口增長分布形成剪刀差。面向未來,如何降低醫療成本,豐富醫療資源和醫療形態,創造新的預防和治療手段,將幫助解決看病貴,看病難的問題,讓人們少生病,讓生命更有質量。在下一個十年,創新的解決思路正在不斷涌現。通過對健康狀態實時數據追蹤和建模,把防病與日常生活習慣結合起來,從“治已病”轉向“治未病”,包括諸如下列場景:構建知識圖譜,讓健康更靠譜得益于互聯網、物聯網、AI 等技術的發展,以及可穿戴設備、家用監測設備等產品的普及,對個人健康建模不再是奢望4。通過實時分析用戶身體指標數據、醫學臨床反應、健康診療結果等,形成健康知識圖譜;通過對比
9、分析,為用戶提供定制的健康解決方案;通過對營養、運動、睡眠等維度的干預,幫助用戶逐漸改善不良生活方式,促進個人形成健康的生活習慣。比如業界有公司嘗試構建飲食和疾病之間關系的健康知識圖譜,可幫助用戶改善睡眠質量,進行有效的體重管理,全年接受健康管理的參與者平均每天睡眠增加 35 分鐘,體重減輕約 1.5公斤,從而降低因不良生活方式導致的相關疾病的發生概率。傳染病蔓延軌跡預測,讓疾病預報更準確利用自然語言處理等技術,持續收集并分析全球范圍內關于重大公共衛生事件的新聞、報告和搜索引擎指數,從中提取有效數據,并進行科學建模和智能化判斷分析,可以有效提升應對公共衛生事件的響應速度和決策能力。比如說業界有
10、公司使用自然語言處理和機器學習,從官方公共衛生組織、數字媒體、全球航空公司票務數據、牲畜健康報告和人口統計聲明等多種公共數據來源中,分析了數十億個數據點,可以 24 小時不間斷地分析疾病的傳播與蔓延情況。藥效精確評估,從“千人一藥”到“千人千藥”AI 通過學習成千上萬的病理診療方案,并實時分析結合病人個體綜合差異,可以幫助醫生給出更具個性化的治療方案。新加坡研究機構創建了以人工智能技術驅動的藥效精準評估平臺,該平臺可以快速識別每位患者的歷史臨床數據,針對患者自身情況給出建議的用藥劑量和聯合用藥方案,并在此基礎上對腫瘤大小或腫瘤生物標志物水平進行修正。此外,這些數據還可用于患者療程和后續治療方案
11、的制定等。AI 精準識別靶區,減少錯殺健康細胞個性化的精準醫療的價值,也在幫助對抗人類的天敵-癌癥上。在傳統的癌癥放射治療過程中,放療的靶區設定范圍較大,消滅癌細胞的同時也誤傷了大量健康細胞。自適應放療借助 AI 技術,在放療過程中自動識別病灶位置變化,對放療靶區的影像進行精密地勾畫,以實現精準照射,從而減少對健康組織的損害。目前 AI 精準識別靶區,已實現 CT、超聲、MRI 等多種影像的靶區自動勾畫,將原來 2-3 小時的勾畫環節縮短至分秒級,使得放療對健康組織的損害量降低 30%。09數據存儲 2030面向 2030 年,人類可以依托高度靈敏的生物傳感器技術與智能硬件支持,實時跟蹤身體各
12、項指標,并建立個人的健康知識突破,從而實現自主驅動個人健康,減少對醫生的依賴。在 ICT 技術的驅動下,通過精密的軟硬件、強大的云邊端計算能力和穩定的網絡覆蓋,使得便攜化的醫療設備可以普及到在各個基層醫院、社區、甚至家庭等多種場景,可以按需實時采集醫療數據并上傳至云端處理中心,在云端構建大數據知識庫,通過 AI 調度,實現遠程醫療聯動。構建云端知識圖譜,需要數據存力的規模部署,以容納更多知識集合。華為預測:到 2030 年,全球通用存力總量將達到 37ZB,相比 2020 年增長 10 倍;AI 相關存力總量占比 63%,相比 2020 年增長 500 倍。食,用數據換產量,普惠綠色飲食民以食
13、為天,實現“零饑餓”被聯合國列入2030 可持續發展的目標之一5。據統計,至今全球仍有超過 6.9 億人在挨餓,預計到 2030 年,受饑餓影響的人數將超過 8.4 億。農業從事者長期流失:根據國際勞工組織的數據,在全球范圍內,從事農業工作的人的比例從 1991 年的43.699%下降到 2019 年的 26.757%。人均耕地面積減少:據世界銀行數據顯示,在 1968-10數據存儲 20302018 這 50 年間,全球人均耕地已從 0.323 公頃下降至 0.184 公頃,下降 43%。土壤農藥污染嚴重:據統計,目前全球 64%的農業土地(大約 2450 萬平方公里)面臨著農藥污染的風險,
14、其中 31%的土地面臨著高風險。與此同時,隨著消費的升級,人們對于飲食的需求越來越追求吃得健康,吃得放心。2018 年,中國獲得食品行業綠色認證的產品數量達到 13,316 個,2019 年,這一數量增至 14,699 個,同比增長10.4%綠色認證產品的背后是對種植環境和技術更高的要求。在邁向 2030 年的進程中,科技和數據正在為農業賦能,幫助突破種植條件的限制,全面提升糧食的產量,讓綠色食品進入每個普通人的餐桌。包括諸如下列場景:用精準的數據,讓種莊稼不再只靠經驗正所謂“栽種有時,收獲有時”(a time to plant and a time to pluck up that whic
15、h is planted)。傳統農業何時播種,何時施肥,何時除蟲,僅靠經驗來判斷,會讓農業生產有著極大不確定性和產生諸多浪費。ICT 技術賦能農業能夠通過對土壤濕度、環境溫度、作物狀況、地形的特征、氣候預期、病蟲害程度等分析,獲得精準數據,通過精準控制,讓土壤和作物處于最佳匹配狀態。以玉米為例,僅依據數據進行的自適應播種這一改變,就能帶來每公頃 300-600 公斤的增產。農場數字工廠化,讓農業生產不再受自然環境的影響農業工廠化的一個典型案例就是在室內種植的“垂直農場”,即用數據構建突破地域限制的標準化生長環境。在垂直農場里,每個環節通過對光照、溫度、用水和營養輸送等的精確控制,為農作物構建起
16、最為適宜的生長環境。垂直農場無需農藥,無需土壤,減低對農業用水的浪費;不受環境氣候影響,始終確保新鮮農產品的理想生長條件;創造全球可復制的智能農業模式,利用同一套 ICT 控制系統和數據模型,可在世界上任何一個地方得到幾乎一致的生產效果。業界公司的嘗試顯示,在 7,000 平方米的空間里,可實現蔬菜每 16 天收割一次,達到每年 90 萬公斤的驚人產量。面向 2030 年,我們通過 ICT 技術將更多的農田、農具、農作物等關鍵農業生產要素聯接起來,收集并綜合利用氣候、土壤、農作物生長狀態等多類數據,通過精準的數據分析,利用類似“垂直農場”這樣的新種植模式,實現精準的農事操作,以提升糧食產量。華
17、為預測:到 2030 年,全球每年產生的數據總量達 1YB,相比 2020 年,增長 23 倍。未來隨著數據不斷在農業中體現,我們將逐步構建一個更有彈性、更綠色的糧食系統。全球農業每年產生的數據總量達4ZB,相比2020年,增長23倍。11數據存儲 2030華為預測:到 2030 年,全球萬兆家庭寬帶滲透率達 25%,全球智能家居戶數達 18 億,年數據量達 23ZB。住,全屋智能數據交互,讓空間更人性化隨著人們對居家體驗個性化追求的不斷增長,基于 ICT 技術的智能家居概念正被普及。據調研報告顯示,近 80%的千禧一代和 69.2%的嬰兒潮一代都對智能家居技術抱有積極的期待6。在英國,目前
18、80%的消費者已經意識到智能家居技術,在消費者對技術趨勢的認知度上僅次于移動支付,而互操作性已經成為他們當下最大的購買考慮因素。除此之外,對便利和安全的需求也驅動著人們對智能化空間的向往。數字化和數據助力打造未來居家體驗,包括諸如下列場景:打造數字化的商品目錄,通過自動配送,實現儲住分離隨著物聯網、萬兆光纖等新型基礎設施的觸達,越多越多的新型社區理念不斷涌現,為居民提供如社區虛擬團建、寵物智能管控等全局化的服務,促進居民與社區的一體化融合。其中有一些新穎的設計理念,解決了儲物與居住之間的矛盾,帶給人們更清爽的居家體驗。為你家里的物品建立一個數字目錄,甚至進行3D 掃描,將不常用的物品寄存在小區
19、統一的倉庫中。比如在某個周末,你需要為即將參加的派對挑選一套晚禮服的時候,可以通過全息投影的方式,虛擬選擇一套合適的搭配。只需輕輕一個點擊,小區自動配送系統,就會通過機器人 10 或者樓宇輸送系統快速地將你所選擇的衣物送上門。全屋智能結合場景式交互,打造親切自然的居家體驗豐富的智能家居設備和傳感器,通過穩定可靠、高聯接、高速全覆蓋的網絡,將收集到的數據傳遞到家庭智慧大腦。其中的 AI 引擎,通過調節各類家居設備的運行和協同狀態,以匹配用戶的實時體驗需求,最終給用戶帶來沉浸式、個性化、可成長的全場景智慧體驗。多種多樣的智能家居設備,通過不同的組合,形成多樣化的智能場景。比如智能睡眠輔助系統,根據
20、個體的生理健康特征和睡眠習慣,自動匹配床墊和枕頭的軟硬度;營造助眠的光環境,刺激褪黑素分泌;播放助眠音樂,舒緩心情;根據家庭環境中濕度、溫度、氧氣的濃度等指標,提供恒溫、恒濕、恒凈、恒氧的睡眠環境。2030 年,人們的家中將遍布各類智能家居,生活、娛樂將被新的交互模式來重塑;樓宇將安裝各種智能管控設備;社區也將拓展更豐富的智慧功能。而這一切都需要通過大帶寬的聯接來提供沒有時延的居住體驗。12數據存儲 2030行,數據使能智能低碳出行,開啟移動第三空間當下私家車出行成為人類活動的重要組成環節,2020 年全美車輛行駛里程為 2.83 萬億英里;在歐洲,每輛車每年行駛平均距離超過 1 萬 2千公里
21、。當前的交通系統面臨著諸多挑戰:交通變得擁堵,全球碳排放占比 26%7。ICT 技術和出行要素(車、信號燈、行人等)聯接起來,通過大數據提供決策支撐,從而實現出行變得更加智能和低碳。包括下列未來場景:自動駕駛汽車駛入“快車道”隨著自動駕駛汽車由 L2、L3 向 L4、L5 邁進,公交車、出租汽車、低速物流、垂直行業運輸(物流車、礦車)或將率先實現自動駕駛商業化。低速開放道路:自動駕駛汽車在物流配送、清潔消殺、巡邏等領域取得了積極的成果。無人物流配送具備道路場景簡單、車速低、危險性小的優勢,可以在公共道路提供安全的無人貨物配送服務。低速無人駕駛小車在抗擊疫情中為醫療物資運輸配送、清潔消殺、巡邏測
22、溫等工作提供支撐。高速半封閉道路:重卡卡車司機成本高、易超負荷運載、超工時工作,因此重卡的自動化駕駛能夠迅速幫助行業降低成本,提高效率,易于形成立竿見影商業收益。據德勤中國智慧物流發展報告預測,無人卡車、人工智能等技術在未來十年左右逐步成熟,將廣泛應用于倉儲、運輸、配送、末端等各個環節。特殊封閉道路:在礦山,港口等環境中,自動駕駛提升安全與效率,創造經濟價值。在自動駕駛模式下,礦卡、挖掘機、推土機等多種機械工程車輛協同作業,一旦發生故障或者危險時,指揮人員可在控制中心開啟遠程接管模式,將車輛移至安全區域。在中國上海洋山港,“5G+L4 級智能駕駛重卡”車速最高達到每小時 80 公里,隊列行駛間
23、距縮短至 15 米?;诒倍废到y厘米級定位,車輛在 15 秒內可實現一次誤差僅為 3 厘米的精準停車,單點裝卸效率提升了 10%。日常開放全新體驗:自動駕駛出租車(Robotaxi)是自動駕駛公司服務出行的必然選擇,據調研報告顯示,Robotaxi 可取代 63%的網約車/出租車和 27%的公共交通。未來,自動駕駛技術將推動傳統車革新,打造迎合不同場景的移動第三空間,甚至會顛覆現有行業的商業模式。比如自動駕駛餐車可能是未來的標配,你和親朋好友的聚餐可能是以全新的形式展開:預定好一頓午餐,自動駕駛餐車會準時把你們依次接上,根據需求規劃好一條風景優美的行駛路線,在欣賞美景的同時,品嘗美食,暢聊人生
24、,打造真正屬于你們包間。這樣既避免了往返餐廳的交通,又保證了就餐期間的私密性。城市空中交通未來,空域是城市交通發展的重要資源,可以搭建高效的空中城市交通網絡,將極大程度的釋放路網資源,減少市民的出行時間,提高城市的物流效率和應急救援能力??罩袘本仍到y:在過去的十年間(2010-2020),摩天大樓如雨后春筍般涌現于全球各大城市,增添了安全隱患。高樓消防、高樓醫療救援成為未來城市的新難題之一??罩袘本仍到y的出現,使得消防和醫療救援力量能夠快速到達高樓層實施滅火和人員救助,保障居民生命財產安全,成為摩天都市消防、醫療隱患的新解??罩邪褪?空中出租車:便捷、高效的交通體驗已經成為都市人的核心
25、需求之一,eVOTL 有望成為改善市內交通體驗的利器,多家公司的四座飛行器都可以達到 100 公里左右的巡航里程。目前,空中客運試點已經展開,2019 年,該領域的中國科技公司,在浙江啟動了全球首13數據存儲 2030城市:數字新基建,讓城市有溫度,更宜居個城市空中交通客運服務,將原本需要 40 分鐘的道路交通行程縮短為 5 分鐘的空中之旅。為實現城市空中客運(UAM)這類的未來場景,需要高速穩定的空天地一體化網絡連接和定位系統、低成本可靠的視覺傳感器和激光雷達、安全穩定的自動飛行算法、以及高效實時的指揮調度平臺。未來出行是一個多維的創新系統,通過電氣化、自主化、共享化、網聯化打造一個智能便捷
26、低碳的出行體驗,重塑出行體驗,孵化創新的出5G、云、AI、區塊鏈、智能傳感等各種新技術的快速進步,給未來智慧城市的發展帶來了更多新的可能,城市場景也將成為各種新技術的最佳應用創新場所與孵化基地。2020 年,全球投入試點的智慧城市數量將近 1000 個。2020 年相關投資接近 1240 億美金,同比增長18.9%8。城市的數字化,智能化已成為全球領先城市探索城市可持續發展的最關鍵路徑,數字化和數據支撐諸如下列未來場景:納米傳感,精準感知城市脈搏城市數字化發展的基礎是數據,而數據則來源于遍布在城市各個角落,各種各樣的傳感裝置,在所有的傳感技術之中,一種低成本、微型化的納米傳感器技術有望成為推動
27、新一輪傳感技術革命的“顛覆性”技術,美國麻省理工學院技術評論雜志把這種基于傳感器技術的“感知城市”列為2018年全球十大突破性技術之一。石墨烯納米氣敏傳感器:這是一種對氣味非常敏感的傳感器。美國一所大學研制成功利用石華為預測:到 2030 年,全球電動汽車占所銷售汽車總量的比例達 82%,中國自動駕駛新車滲透率達 30%以上,整車存力超過 500PB。行服務,提升交通工具的共享效率,幫助緩解交通擁堵,降低出行帶來環境污染,讓不斷激增的出行需求和環境對低碳的追求不再是一個矛盾體。墨烯開發出新型的納米涂層,他們將這種納米薄膜集成到氣敏傳感器的電路中,與目前最好的使用碳基材料的傳感器相比,對分子響應
28、提高了 100 倍。未來傳感器就能準確識別出空氣中的有害氣體,有毒氣體,爆炸物等,從而大大提升城市對于危險物的感知能力。納米縫隙傳感器:是一種能夠識別特定頻段聲音的傳感器,納米裂縫傳感器的表現大大優于傳統傳聲器,能夠將特定頻段音源準確地識別出來。當把納米傳感器放置在小提琴的表面,它能夠精確的記錄樂曲中的每一個音符,并且將其“翻譯”給外接設備,輸出電子樂曲。當把納米裂縫傳感器佩戴在手腕處,它甚至能精確地測量人體的心跳??梢灶A見,這種技術的突破未來將大大加強城市對于聲音的感知能力。全光信息交換,開啟萬兆互聯時代城市數字化轉型對海量的信息交換提出挑戰,萬兆互聯的全光城市初步展現出了巨大發展潛力與價值
29、。2021 年 4 月,中國上海發布了“全光智慧城市全球第一城”以 F5G 光網為底座,構建城市“1 毫秒”時延圈,實現全市光高速14數據存儲 2030樞紐布局,為后續城市智慧化發展打下了一個堅實的網絡基礎。未來的全光城市目標架構將包含四個組成部分:全光接入:光聯接延伸至家庭、樓宇、企業、5G 基站等城市全場景。全光傳輸向大型企業、樓宇、5G 基站等末端延伸,支撐各行業數字化轉型,賦能 F5G+X,5G2B 等行業應用擴展。全光錨點:家庭寬帶、政企、5G、數據中心等業務的匯接點,由全光網統一傳送;實現多技術協同,支持各類業務的一跳入云。全光交換:城市光網一跳直達。通過全光交叉等技術,打造立體化
30、的全光網絡,實現一跳直達、云間高速、云光協同等。全自動運維:實時感知網絡動態,主動運維,并能夠進行預測性運維,從而實現網絡資源彈性化,業務自動化、資源分配自動化,運維自動化。智慧中樞,城市從人治走向 AI 治理隨著城市全量數據的打通,融合,AI 從局部的智能走向全場景的智慧,催生新的公共治理主體,未來的城市都需要一個強大的智慧中樞平臺,它一方面匯聚來自于城市各個角落的海量數據,另一方面通過平臺把數據轉變成一種城市治理的先進能力,普惠千行百業,極大提升城市治理效率與用戶服務體驗。日本豐田公司的早期探索:在豐田未來城市的規劃中,每個房屋、建筑、車輛都配備有相應的傳感器,這些數據會匯聚到一個城市的智
31、慧中樞平臺,由AI 分析人們所處環境狀況,通過人車分流,確保道路上車輛與行人之間的絕對安全?;跀祿闹鲃泳珳收辗諜C器識別技術的出現使得非接觸服務成為可能,今天在中國大多數發達省份,政務辦理已不再需要去政府的服務大廳,通過手機就能夠進行遠程的自助服務,可以預見未來十年政務服務的數字化,智能化程度將會進入到更高的發展階段。未來隨著海量數據的不斷積累與匯聚,人工智能技術的不斷成熟,政務服務也必將會更多地向主動服務,精準服務的方向發展,大幅提升城市治理效率與市民的服務體驗。以智慧養老為例:上海的街道推行給獨居的老人安裝智能水表。在老人的同意下,通過實時監測獨居老人的用水情況,12 小時內用水量一
32、旦低于 0.01立方米,街道的“一網統管”平臺,就會接收到報警信息,并及時通知社區,社區志愿者就會第一時間上門查看老人的情況,通過這些智能設備的使用,使得社區對于獨居老人的關懷做到細微之處,給老人的生活帶來溫暖。下一個十年,將是 5G,光,AI,云,區塊鏈,智能傳感等 ICT 技術快速發展的十年,城市將會進入到萬兆聯接的時代:萬兆的企業接入,萬兆的家庭寬帶接入,萬兆的個人無線接入體驗。城市與 ICT 技術的結合與聚變必將會在未來產生巨大的裂變效應,大幅提升城市資源的利用率,治理的效率,用戶的體驗,從而真正實現城市的可持續發展目標,讓城市更有溫度,更宜居。華為預測:到 2030 年,城市帶來的數
33、據占比達到96%,和城市基礎設施相關的資源監控、調度、管理產生的數據達到 42%。15數據存儲 2030企業:數字化工廠重塑生產模式,增強企業韌性未來十年,人口老齡化導致世界出現巨大的勞動力缺口。聯合國報告顯示,2030 年 65 歲以上人口比例將超過 12%,25 歲以下人口占比從2020 年的 41%,下降至 2030 年的 39%,全球勞動力短缺超過 8,520 萬人。以制造業為例,到2030年,全球制造業面臨790萬工人的短缺,影響實現產值 6071.4 億美元9。同時,消費需求的多樣化也在影響著生產模式的變化,倒逼企業進行生產模式的革新,如基于“一人經濟”的發展,快速調整產品形態,推
34、出一人食套餐、迷你家電,甚至迷你 KTV 等;還要能從情感維度主動激發消費者的購買欲望,對產品的外表、形象、含義進行快速的組合設計,如在短期內定制出各類限量款或聯名款。此外,黑天鵝事件也在對企業生產的延續性提出了新的挑戰。如新冠疫情原因,2020 年全球GDP 損失了近 3.94 萬億美元的產出,供應鏈中斷是企業增長的最大風險。為此,如何利用數據,保護數據,重塑生產模式,增強產業鏈韌性的也成為尤為重要的問題,包括諸如下列場景:協作機器人越來越多的企業受制于勞動力短缺的問題,需要企業通過新生產力來迅速補位。協作機器人是工業機器人的一種,最初目的是滿足中小企業的定制化和柔性制造需求,成為彌補勞動力
35、短缺的重要補充力量。相比傳統的工業機器人,協作機器人更適合干人不想干的工作,比如分類,包裝,挑揀等高重復性的工作。協作機器人有幾個優勢:更安全:協作機器人更加輕巧智能,攜帶的傳感器可以確保它一觸即停,可與產線上的工作人員親密合作,共同完成任務;更快速靈活地部署:協作機器人通過人性化的編程,如拖動示教,自然語言和視覺指導,可以隨時投放在新的崗位上,快速完成編程和調試,迅速執行任務;更低的 TCO,更短的 ROI:協作機器人的售價和每年的維修成本遠低于傳統工業機器人,在過去幾年,協作機器人的平均售價下降了一半;目前協作機器人在 3C 和汽車等制造領域應用最為廣泛,同時,我們也看到它在醫療化驗和檢測
36、的應用嶄露頭角,幫助醫務人員減少重復、費時的工作流程如做尿液分析,也可以降低工作人員的傳染風險如咽拭子采樣。自主移動機器人自主移動機器人(AMR)是制造業向柔性化、智能化發展的關鍵使能要素,改變企業的生產流程、倉儲物流等重要環節。自主移動機器人,具備豐富的環境感知能力、基于現場的動態路徑規劃能力、靈活避障能力、全局定位能力等。工業制造及物流領域的自主移動機器人,目前主 要 基 于 SLAM(simultaneous localization and mapping,同步定位與地圖構建)技術、利用激光導航、視覺導航以及衛星定位等技術,實現自主導航。自主移動機器人可實現產線物流的自動化與無人化,貨
37、物的智能揀選、搬運以及出入庫等無人化場景。數字仿真,柔性生產為了能夠適應多變的市場需求,以在激烈的競爭中取得優勢地位,企業必須更為積極地擁抱新的生產模式。柔性生產、柔性制造系統等概念正越來越受更多企業的青睞。柔性生產、柔性制造系統需要通過 ICT 技術進行擬實生產,包括運用仿真、建模、虛擬現實等技術,對新產品的生產制造全過程進行模擬,降低新品開發和設計的成本,更精準地規劃生產線的調整成本和生產能力;同時柔性生產的智能任務調度系統會根據工廠的生產能力、訂單復雜度和16數據存儲 2030交付時間需求,通過分析統籌安排生產任務的發放、生產物料和工具的調配,確保充分發揮出工廠中所有設備和人員的最大生產
38、效率;柔性生產利用視覺編程、自然語言交互、行動捕獲等 ICT 技術能力,快速實現對生產設備功能的重新自動編程和定義,以滿足企業柔性化生產的需求;物流管理的柔性化利用 ICT 手段來有效地進行倉儲和物流管理,避免漏發、發錯、發混。以家具企業為例,大規模的定制化下,所產生的每一塊板,裝飾條,把手等都可能需要有一個屬于它自己的識別碼或 RFID,來協助自動化的打包和裝車規劃,以及運輸和配送環節的全流程跟蹤,真正實現以消費者的需求為中心的智能定制化生產模式。打造有韌性的智能供應系統,幫助企業應對突發性危機越來越多的企業將打造一個有韌性,智能的供應鏈作為其最重要的戰略布局之一。供應鏈可視化利用 ICT
39、技術,采集、傳遞、存儲、分析供應鏈中的上下游訂單、物流以及庫存等相關指標信息,以圖形化的方式展現出來。供應鏈可視化可以有效提高整條供應鏈的透明度和可控性,從而大大降低供應鏈風險。對于上游供貨,通過對物料、設備等的追蹤,實時顯示其整體交付的程度,包括包裝、入庫、出庫、質檢等工序的狀況,甚至可以追溯其生產流程中的各種狀態。幫助企業針對物流中可能出現突發事件,及時調整物流路線,確保物資的準時、安全地到達目的地。對倉庫運營環境信息的實時監控,建立遠程監控系統,通過各類傳感器,用圖像化呈現倉庫的溫度、濕度、灰塵、煙霧濃度等運維信息,一旦發生如火災、漏水等前期征兆,可及時介入,避免物資的損失。對貨物出入庫
40、信息的實時追蹤,隨著貨物的流通,通過 IOT、RFID、二維碼等技術,自動識別并登記物品的信息,可在遠端實時調取貨物倉儲的狀態數據。面向 2030 年,數字化轉型推動企業的進一步升級。利用人工智能、傳感器、物聯網、云計算、5G、AR/VR 等技術來打造新生產力,彌補勞動力缺口,幫助企業把握新的業務商機,拓展企業邊界。未來,通過對產品設計、任務分配、設備功能、物流配送等環節的柔性化重塑,實現以人為中心的新生產模式。供應鏈也將會在數字化的助力下,變得可視化、網狀化,增強企業的韌性以應對變化萬千的市場環境。華為預測:到 2030 年,企業數字化轉型將進一步推動數據服務在企業中的應用,數據服務的支出占
41、比達 87%,支撐智能制造的 AI 存力占企業IT 投資比例達 7%。17數據存儲 2030能源:數據使能綠色能源,打造低碳數據中心2015 年巴黎協定在第 21 屆聯合國氣候變化大會上達成全球共識:將全球平均氣溫相比工業化前水平的增幅限制在遠低于 2,盡力將增幅限制在 1.5水平,在本世紀下半葉實現人為排放量與清除量的平衡10。2020 年 9 月,中國在聯合國大會上提出中國雙碳目標:力爭于 2030 年前二氧化碳排放達到峰值,并爭取2060 年前實現碳中和。實現全球的氣候控制目標,需要從能源的供應、消費和固碳等多角度入手,全方位促進全球能源結構轉型。隨著能源網絡復雜性的提高和行業數字化的進
42、程的發展,ICT 技術成為脫碳解決方案的重要組成部分。提高新能源的比例、適應新的能源結構、充分的發揮 ICT 技術和數據,讓綠色能源更智能,實現經濟可持續發展,支撐包括如下場景:海上風能,潛在的主力新能源2020 年,全球可再生能源裝機容量新增 45%,達到 280GW,其中風能新增 114GW,增長率達到 90%以上。目前在歐洲部分國家,正在積極利用近海發電,其中英國和德國截至 2020 年海上風電裝機容量超過 18GW,占全球海上風電的 51%。即便如此,海上風能當前只提供全球電量的 0.3%,還有巨大的發展空間。海上風況優于陸上,風速通常比沿岸陸上高出25%。同時海上風湍流強度小,具有穩
43、定的主導風向,海上風機的容量可以達到陸地風機容量的 34 倍。海上很少有靜風期,其發電時間往往能達到 3000 小時/年,更能有效利用風電機組的容量。而伴隨著技術改進,海上風電的裝機成本大幅降低,預計到 2040 年海上發電成本將比 2019 年下降 60%。全球風能理事會(GWEC)預測,到 2030 年,全球海上風電裝機量將從現在的 29.1GW 升至 234GW。未來五年海上風電的增長率將達到 31.5%,海上風電迎來快速發展時期。漂浮光伏(FPV),光伏產業新趨勢據國際能源署(IEA)發布的2020 年全球光伏報告,截止 2020 年底全球光伏累計裝機容量達到 760.4GW。2020
44、 年,光伏約占所有新增可再生能源總發電量的 42%,其中陸上大型光伏電站一直光伏產業的建站主要模式。但陸上光伏的發展也開始面臨土地獲取以及成本制約的問題,同時陸上光伏在高溫情況下會出現效率下降,漂浮光伏成為新的部署模式。與陸基光伏相比,漂浮光伏不但可以節省用于農業用途的土地,而且相比路基遮陽障礙物更少,灰塵數量更少,同時自然冷卻潛力也會提高光伏的性能。2020 年荷蘭烏得勒支大學的學者基于北海實際測試及研究論文表明,海上的漂浮光伏表觀溫度遠低于陸基光伏,兩個點的光伏面板表面溫度差達到 9.36 攝氏度。全年發電量海上漂浮光伏比陸基光伏的年均產出能高出約12.96%。隨著技術的不斷成熟,漂浮光伏
45、將迎來快速發展時期。2021 年 7 月 14 日世界最大的內陸漂浮光伏系統之一新加坡勝科登格漂浮太陽能電站正式竣工投運,覆蓋水面面積 45 公頃18數據存儲 2030(相當于約 45 個足球場),覆蓋水面上累計安裝了 12.2 萬塊太陽能板,產能達 60 兆瓦。據RethinkEnergy 預計,到 2030 年全球漂浮光伏的市場容量將超過 60GW。而漂浮光伏的全球潛力達到 400GW,足以將太陽能光伏的現有裝機容量翻一番,隨著技術的成熟,漂浮光伏的部署速度在加速,為可再生能源的全球擴打開了新的領域。打造低碳數據中心與低碳網絡,加速“碳中和”進程據 IEA 研究報告顯示,自 2010 年以
46、來,全球互聯網用戶數量翻了一番,全球互聯網流量增長了 12 倍,數據中心和傳輸網絡的耗電大幅上升,2019 年全球數據中心電力需求約為 200TWh,約占全球最終電力需求的 0.8%;數據網絡消耗約 250TWh,約占全球用電量的 1%,其中移動網絡占三分之二。中國 2030 年數據中心用電預計將達突破 4000 億千瓦時,占全社會用電量的比重將升至 3.7%。而 PUE 每優化 0.1,可節省用電 250 億度,減少碳排放約千萬噸,若全部使用綠電,碳排放每年可以減少 3.2 億噸。引入綠電和自然冷卻降低 PUE 成為低碳數據中心的關鍵舉措。除了引入可再生能源、自然冷卻實現數據中心高效、節能,
47、另外一個重要手段就是人工智能的應用。通過數據中心內的傳感器收集溫度、電量、泵速、耗電率、設定值等各種數據,通過AI算法調整數據中心的運行模式和控制閥值,從而實現降本增效。將人工智能用于數據中心冷卻,實現將用于冷卻的能量減少 40。據DCD 的報告,歐盟 Horison2020 資助的位于瑞典 BTDC 研究項目,在自然冷卻的同時,通過人工智能算法實現冷卻系統、IT 負載、服務器風扇和溫度協同,PUE 達到 1.01 的最高水平。隨著 AI 技術的進一步成熟,配合綠電引入、自然冷卻段,數據中心和通信網絡將會更加省電、高效,并最終真正實現零碳目標。到 2030 年,世界需要將排放量減少一半,以風能
48、、光伏為代表的新能源正加速部署實現生產側清潔替代,消費側通過電氣化實現電能替代。ICT作為一個行業,除了自身需要節能減排以外,同時也在賦能其它行業來減少碳排放。華為預測:到 2030 年,數據中心用電占全社會用電量的比重將升至 3.7%,其中存儲系統用電占比將達 2532%,提升數據中心綠色能源比例對碳排放改善有著重要作用。19數據存儲 2030華為預測:到 2030 年,50%以上的計算場景將采用隱私增強計算技術;85%的企業將采用區塊鏈技術。隱私增強計算、區塊鏈技術以及 IPFS的應用將極大增加不可壓縮的加密數據以及分布式賬本數據,每年新增數據量將達到 17ZB。超過 80%以上企業部署包
49、括存儲系統在內的多層勒索病毒防護體系。數字可信:數據安全應用塑造可信未來在數字化轉型的加速驅動下,組織與組織之間、組織與客戶之間以及組織內部的互動從物理世界遷移至數字世界,由此而產生了寶貴數字資產,建立數字信任成為組織最重要的戰略目標之一。數字信任是一個復雜龐大的系統,包含隱私、安全、身份、透明、數據完整性以及治理和合規等關鍵領域11。新的技術應用,如區塊鏈、隱私增強技術、人工智能等,以及新的規則定義,將塑造可信的數字未來。包括諸如下列場景:基于區塊鏈的智能合約數字資產為組織和個人帶來了史無前例的快捷和便利,但同時也帶來被竊取和盜用的高風險?;趨^塊鏈技術的智能合約以數字化的形式將合約條款寫入
50、區塊鏈中,合約事務的保存和狀態處理都在區塊鏈上完成,由于區塊鏈的分布式特性,保障智能合約的存儲、讀取、執行整個過程透明可跟蹤、且不可篡改?;趨^塊鏈技術的智能合約在物流、電子商務、金融保險等多個領域有著巨大的潛在市場應用價值。據咨詢公司預測,智能合約能將美國的個人房貸成本降低 480-960 美元/年;在美國和歐洲,將銀行房貸運營成本降低 30-110 億美金/年,將個人車險費降低 45-90 美金/年;幫助全球汽車保險公司將保險理賠成本降低 210 億美金/年。建立新的互聯網個人信息調動機制近年來,針對過度收集數據的規則制定和訴訟探索在不斷推進。在公平交易的數字戰略中,大數據背景下的個人信息
51、的調動機制將會變得更加平衡,兼顧隱私權利和個人信息開發兩個目的,在傳統告知同意原則的基礎上,強調主體對于個人信息的控制權。2021 年,個人信息保護法正式發布,作為中國首部關于個人信息保護的專門法律,重申了個人信息保護工作的多項基本原則,包括公開透明、目的明確、最小必要。未來,個人信息調動機制將從規則框架上繼續細化,為用戶明確數據收集的場景、用途及風險。GDPR 是目前世界上最嚴格的針對個人數據的隱私和安全法,由歐盟起草通過,正式生效于2018 年 5 月 25 日。2020 年,美國發布聯邦數據戰略與 2020 年行動計劃,旨在保護數據完整性、確保流通數據真實性、數據存儲安全性等基本原則。2
52、020 年 5 月 27 日,日本參議院正式通過數字平臺交易透明化法案,該法案旨在規制特定數字平臺,增加特定數字平臺的公開義務。由此可見,數據反壟斷趨勢正在全球蔓延。未來,在反壟斷法的不斷完善和應用中,用戶和第三方企業將從行業巨頭手中獲得更多的數據主權,避免大平臺對個人隱私數據進行非法地獲取、濫用及交易等侵犯數字安全、破壞公平競爭的行為,從而促進數字信用生態的建設。共建數字可信的智能世界,面向 2030 年,人類可以借助區塊鏈、人工智能等技術更好地保護個人隱私和數字資產,更精準地打擊假新聞等數字造假行為,減少詐騙或數據盜用的隱患。隱私增強計算等技術為多方實現安全加密的數據共享,在不影響隱私安全
53、的前提下,確保數據價值的流通。20數據存儲 20301.2 數字經濟的發展推動人類社會即將進入 YB 時代2030 年數字經濟占比將達到 60%,數據成為數字產業發展和產業數字化的基礎。當今世界,科技革命和產業變革日新月異,數字經濟蓬勃發展,深刻改變著人類生產生活方式,對各國經濟社會發展、全球治理體系、人類文明進程影響深遠。中國信通院全球數字經濟新圖景(2020 年)報告稱,2019 年全球數字經濟規模達到 31.8 萬億美元,約占全球 GDP 的 36%。數字經濟保持快速增長,質量效益明顯提升,數字經濟增加值規模達到35.8 萬億元,占國內生產總值(GDP)比重達到36.2%,對 GDP 增
54、長的貢獻率為 67.7%。全球 2030 年數字化經濟的占比將達到 60%,數字產業本身的持續增長和傳統產業的數字化轉型在加速。數字產業到 2030 年的產值比重將達到 9%,成為經濟增長的加速器;傳統產業的數據的總量從 175ZB 到 1003ZB,將進入 YB 時代根據 IDC 和華為 GIV 團隊預測,全球每年新產生的數據總量隨著數字化的發展快速增長,從 2020年每年產生 2ZB 到 2025 年每年產生 175ZB,2030 年將達到 1003ZB,即將進入 YB(1 Yotta Bytes=1000 Zetta Bytes)時代。數字化轉型,正在通過數字化的武器,指導傳統產業更加互
55、聯網化、智能化、自動化,增加產業的客戶渠道、減少成本、提升生產和服務效率。2030 年產業的數字化滲透率達到 45%,數字化進程的深入讓我們更加理解這個世界,推動人工智能和智能制造的發展。在這個數據驅動的世界,人類、社會和地球資源的活動的正在越來越多的被以數據的形式觀察、記錄、監聽、追蹤和處理,這使得我們可以比以往更加精確的理解、以至于描述這個世界。數據的大量積累和機器學習的技術發展催生的人工智能的成熟,人工智能會給業務、流程、溝通帶來更多的自動化,通過為客戶個人偏好提供量身定制產品把效率和生產率提升到一個新的高度。020040060080010001200201520162017201820
56、192020202120222023202420252026202720282029203011152026334458771021331752363254606701003全球每年新產生的數據總量預測(ZB)圖 1-2 全球每年新產生的數據總量預測21數據存儲 2030隨著行業數字化深入,數據應用越來越多樣化,除了傳統的數據庫應用,分布式數據庫、大數據、HPC 高性能計算等新興應用不斷產生,當前平均一個企業的數據應用超過 100 種。結構化數據激增促使核心系統彈性擴展:數字化、移動化技術發展使企業與客戶交互渠道發生巨大變化,手機 APP 類互聯網應用成為觸發客戶購買行為的最佳媒介。這固然引領
57、了業務快速增長,但結構化數據的激增也給核心系統帶來難以預料且波動巨大的業務浪涌。核心系統必須具備極強的資源彈性,以確保高峰期能夠快速擴展以保障業務正常運行,而平時能夠釋放閑置資源避免浪費。同時多讀多寫會成為核心應用的標準配置,以保證系統極高的可靠性。多樣化數據應用,產生多樣化數據類型非結構化數據進入生產決策系統:非結構化數據,包括文本、圖像、視頻和音頻等,因其豐富的信息內容和形式的多樣性,成為企業數據資產的重要組成部分。到 2030 年,全球每年產生的數據總量達 1YB,其中 80%以上都是非結構化數據。非結構化數據已經在企業得到廣泛應用,以 AI 為例,56%的企業至少把 AI 用于一個企業
58、功能,其中大量場景是基于非結構化數據進行分析處理的。而隨著企業數據治理能力提升,數據驅動業務增長成為可能,非結構化數據開始走向生產決策系統,比如金融行業的在線實時授信、醫療行業的病理分析等。預計 2030 年 80%的非結構數據將成為生產決策數據。22數據存儲 2030AI 大模型已超出人類想象的速度,將我們帶入智能世界。數據作為人工智能三要素之一,決定了 AI 智能的高度,其價值得到了前所未有的提升,全球步入一個數據覺醒的新時代。首先,熱數據會急速增多。據統計,2023 年我國新增數據存儲量僅占全年數據生產總量的2.9%,海量的數據在源頭就被放棄,沒有被存儲。隨著人工智能的能力不斷增強,熱數
59、據的規模和重要性隨之增長,大量數據不再丟棄而是存儲下來為人工智能提供即時的、有價值的輸入。預計2030年這些熱數據將100%由SSD閃存所承載。近年來,云計算和互聯網技術的迅猛發展,為各行業帶來了前所未有的變革。當前,云和互聯網已成為數據存儲需求增長最快的領域之一。據統計,企業級 SSD 盤約三分之二發往云和互聯網廠商。為了應對數據量的爆炸性增長和業務需求的快速變化,云和互聯網廠商正在推動 Diskless 架構改造,如 Google Cloud 等。Diskless 架構通過數據的來源于端邊云,但數據的產生和數據的存儲偏好并不相同。端(Endpoint):終端包含所有的在網絡邊緣的終端設備,
60、包括 PC、手機、工業傳感器、汽車、可穿戴設備等等。預計 2030 年超過 75%以上的端側產生數據將被人工智能實時處理。邊(Edge):邊緣是指用來處理企業級負載的服務器和設備,但其位置沒有放在核心數據中AI 促進數據覺醒,帶來熱溫冷數據層次變化云和互聯網的數據激增,帶來數據架構變化端邊云產生數據 70%向數據中心集中,大規模集約化數據中心形成其次,溫冷數據價值得到重新利用,溫冷數據逐步變熱。溫冷數據是那些不經常訪問的數據,如備份和歸檔數據,傳統上被認為是價值較低的。但人工智能的全量數據訓練需求,使得這些溫冷數據重新獲得了關注。通過將溫冷數據納入訓練過程,AI 不僅能夠提高模型的準確性和泛化
61、能力,還能夠發現之前未被注意到的數據價值。這些需要快速訪問的溫冷數據也被稱之為活躍歸檔數據。預計 2030 年 60%以上的企業每日訪問活躍歸檔數據至少一次以上。將服務器本地盤拉遠,構建起由 Diskless 服務器和遠端存儲池組成的全新架構,實現了計算資源和存儲資源的徹底解耦與靈活共享。這一變革不僅大幅提升了資源利用率與擴展性,還顯著降低了運維復雜度和能耗成本。Diskless 架構憑借其靈活的架構設計和高效的存儲資源管理能力,有望在 2030 成為主流架構,為云和互聯網行業的持續發展提供強有力的支撐。預計 2030 年超過80%的云和互聯網企業采用 Diskless 架構。心,而是放在分支
62、機構的 Server Room、工作場地、或是無線基站,以便靠近數據處理、減少網絡延遲。預計 2030 年超過 80%以上的邊側數據將被人工智能實時處理。云(Core Data Center):核心數據中心是指大規模的數據中心、包括企業數據中心、IDC、以及公有云廠商的云數據中心。預計 2030 年超過90%以上的數據中心側數據將被人工智能實時處理。23數據存儲 2030隨著端設備的增加,2030 年數據產生依然主要來自終端設備。根據預測 2030 年智能汽車增長、可穿戴設備、工業 IoT 等大幅增長,端設備產生的數據將增長 14 倍,占比為 52%。2030 年 邊 緣 設 備 也 將 大
63、幅 增 長,其 中 5G MEC、CDN、Robo、高新媒體處理器都將得到大幅應用;家庭數字化處理中心也在形成雛形,未來每個家庭有一個數字化處理中心,連接所有家庭數字或智能化終端,如手機、可穿戴設備、2030年數據的存儲位置進一步向數據中心集中,終端上產生的數據通過應用系統、備份系統很大一部分被保存在數據中心。隨著網絡建設的發展和帶寬的增加,數據保存在數據中心更加方便和安全,網盤、照片、賬號、應用數據都在數據中心保存。以各種應用賬號為例,不同客戶端使用同一賬戶登錄,通過數據中心保留的賬號和狀態數據,你可以體會到統一的視圖服務。到 2030 年,被存儲下來的數據約有 65%被存2030 年數據的
64、產生主要來自終端,未來邊緣和數據中心產生的比例將增加智能冰箱等設備,存儲數據、處理數據、幫助管理生活。到 2030 年邊緣產生的數據增長 22 倍,占比達到 21%。云(Core Data Center)是數據匯聚、處理、備份、復制、轉移的關鍵節點,每一種操作都將產生新的數據,數據中心的對數據的操作有放大效應;未來隨著數據中心數據匯聚的越多,放大效應越大。到2030年,數據中心產生的數據增長18倍、占比為 27%。數據產生來源趨勢預測2015201420132012201120102016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 20
65、27 2028 2029 2030100%90%80%70%60%50%40%30%20%10%0%EndpointEdgeCore圖 1-3 數據產生來源趨勢預測放到數據中心,端設備無需長期保存數據,定期備份到數據中心是未來趨勢。隨著對實時處理、低時延要求的應用增長,邊緣存儲數據的場景也在增長,如智能駕駛訓練終端、實時邊緣流處理、5GMEC、VR/AR 邊緣中心等,邊緣處理數據比例在 2030 年達到 10%。各種分散的數據向數據中心匯聚,讓我們更加有可能對數據價值進行深度挖掘,成為數字化、智能化堅實的數據基礎。24數據存儲 203002數據存儲 2030 愿景及關鍵特征未來 10 年,數據
66、的年復合增長率接近 40%,數據類型呈現多樣化,單一的存儲介質難以滿足多樣化的數據存儲需求,需要多元化的介質來應對存儲成本高、功耗大、持久性差等挑戰。海量多樣化數據促進多元化先進介質和介質應用發展,結合智能化數據縮減和聯合數據編碼技術,存儲容量密度將實現數倍提升。高速增長的數據量與緩慢增長的數據處理能力已成為數據產業的基本矛盾,數據存力與數據發展嚴重失衡。經典的以 CPU 為核心的架構理念將難以支撐海量數據存儲和處理的需求,需要以數據為中心來實現整個架構的重構12。新體系架構宏觀上存算分離,微觀上存算一體,通過高通量、超低時延和高擴展的互聯總線,打破資源的邊界,形成處理器、內存和存儲資源池化,
67、以存補算,實現數據處理效率的數倍提升。日益增長的數據流轉需求與日趨嚴重的數據重力,已成為影響數據價值發揮的基本矛盾。智能數據編織支持數據的跨域智能高效流動,打破空間的約束,實現數據的所見即所得,支撐數據流動效率百倍提升;數據內生安全使能數據使用權、管理權和歸屬權分離,促進數據的可信流轉13,通過主動防御構建安全可信的數據應用環境,保障數據隱私,實現數據可信流轉效率千倍提升。日益復雜的存儲系統已無法滿足新興多云應用的智能化數據業務需求,需要數據業務邏輯與數據智能解耦。在未來的數據基礎設施中,存儲將具備數據感知、數據理解的新能力,支撐數據服務走向千行百業,數據業務百倍增長。持續增長的存儲能耗,與全
68、球低碳發展要求仍存在差距,對存儲的綠色低碳能力提出了新的要求。新節能材料、以光代電和動態節能技術促進芯片節能,新型液冷散熱和智能化的整機調控技術促進整機節能,系統級多維度、智能化資源調控技術從數據全生命周期上實現減排,未來將實現能耗效率數倍提升,支撐未來數據產業的可持續發展。25數據存儲 2030數據存儲2030先進介質應用多元化介質應用創新,鑄就高品質存力以數據為中心的體系架構Diskless架構,IO直通,加速數據處理可持續存儲數據原生的節能技術,支撐可持續IT發展數據即應用泛在化的認知存儲,驅動數據業務創新智能數據編織自動化存力網絡,提升數據流轉效率數據內生安全全域全流程安全可信,使能數
69、據要素圖 2-1 數據存儲 2030 六大關鍵特征綜上所述,未來存儲需要具備先進介質應用、以數據為中心的體系架構、數據內生安全、智能數據編織、數據即應用、可持續存儲共六大特征。26數據存儲 20302.1 先進介質應用隨著 AI 大模型逐步走向多模態,數據將迎來覺醒。越來越多的視頻、圖像數據將被保存下來用于訓練,預計到 2030 年,全球每年新增 1YB 的數據,用于大模型訓練的數據量有望增長 1000 倍以上,達到 400EB,其中有接近 50ZB 的價值數據需要存儲,相比 2020 年增長 23 倍,要求存儲介質必須具備大容量、高性價比、低能耗,以及高可靠、高擴展、長壽耐用和高安全性,同時
70、要求存儲具有數據計算和分析能力,以便更快的獲取數據。魚與熊掌不可兼得,不同的介質具有各自的優劣勢,需要通過多種介質組合來應對挑戰。根據不同介質的演進趨勢,預計到 2030 年,介質容量密度有望提升 10 倍,但相比存儲數據量 23 倍的增長仍存在較大差距,需要介質應用創新來填補這個差距。不同的數據對存儲介質的要求不同,按訪問頻率可將存儲數據大致分為熱、溫、冷三類。熱數據:共占比約 30%。其中,AIoT、邊緣計算、機器人和自動駕駛實時處理需要納秒級數據訪問能力,屬于極熱數據,占總存儲容量的 1.5%左右,需要極高性能的內存型介質;而銀行、電子商務等在線交易類業務,以及 EDA 等工業制造類業務
71、也需要頻繁實時訪問能力,屬于一般熱數據,容量將增長超過 35 倍,需要高性能的存儲介質。溫數據:HPDA 等數據密集型業務需要對大量數據做分析,沒有很高的訪問頻率和實時性要求,但數據量占比達到 60%,相比 2020 年預計增長超過 25 倍。這部分數據存儲除了要求大容量介模擬時代智能時代數字時代1990s2000s2010s2020s2030s企業應用大型機個人PC互聯網2.0虛擬化移動互聯網數據湖萬物互聯云行業智能萬物智能元宇宙數字孿生分布式云GBTBPBEBZB數字化轉型加速、元宇宙3D渲染邊緣計算、大規模訓練、實時處理熱數據溫熱數據溫數據活動歸檔(溫冷)數據純冷歸檔數據10%30%50
72、%70%90%非結構化數據比例圖 2-2 數據量增長趨勢質外,對成本、功耗也及其敏感,需要高性價比的存儲介質。冷數據:歷史文獻、國家檔案及其他一些法律規定的需要長期存儲的數據,平時極少訪問,占比大約 10%,容量增長預計接近 20 倍。由于需要長期存儲,可靠性要求變得更高,需要高可靠、長壽命介質。當前,為了訓練大模型,越來越多的冷數據將被激活變成溫數據,溫數據的占比有望超過60%,傳統的熱、溫、冷三層數據將變為熱、溫冷兩層數據,數據比例有望從 20%:30%:50%到30%:70%,冷數據的價值被激活,我們將迎來“數據覺醒”。27數據存儲 2030圖 2-3 3D NAND 原理YMTC NE
73、WARCHITECTURE通過堆疊和 3D 立體架構,預計 2030 年單位芯片面積的容量密度相比 2021 年有望增加 10 倍。但受技術的復雜性、工藝良率等因素影響,SSD 成本卻難以下降 10 倍。反而由于工藝的影響、內部布線的干擾和密度的增加,SSD 的底層誤碼率可能進一步惡化,對低誤碼率和低延時高吞吐的糾錯算法提出了新的挑戰。先進介質技術多樣化的數據驅動存儲介質多樣化發展,在不同的應用領域構建競爭力。其中,極熱數據內存型介質將以 DRAM 為主、SCM 為輔,內存的分級將成為新生態;熱數據介質將全部使用NAND Flash,Flash 閃存技術則會繼續向高密度、低時延演進;在溫、冷數
74、據介質技術中,磁帶有望繼續向高密度、高并發方向演進,光盤則會走向更大容量、更高并發、更長壽命。1、熱數據介質技術內存是計算機體系架構中非常重要的組成部分,用于程序與數據的緩存。隨著數據密集型應用的發展,需要處理的數據量將從當前的 GB 級增長至 TB 級,驅動內存型介質向更大容量、更低功耗、更高并發方向發展。1)內存架構將走向多層次化當前,DRAM 占據內存型介質的主流地位,由于 20nm 以下制程工藝的容量密度提升空間有限,未來 10 年將在 10nm 級別持續發展。隨著大數據集對大內存需求的增加,SCM 等新介質技術的發展推動內存架構走向多層次化,逐漸跟 DRAM 形成互補。2)SCM 將
75、持續開拓新場景基于新型材料和結構的 SCM 能夠擁有與 DRAM相媲美的性能,并具有持久化的新特征。在某些特定領域上,使用 SCM 實現的 CIM 內存作為 DRAM 的補充,起到了很好的加速效果,并且未來圍繞 SCM 的新生態將不斷豐富。各種具有持久化能力的 SCM 介質可以使高性能熱數據得到快速訪問?,F有存儲系統中,處理器經?;ㄙM大量時間在 IO 等待上。未來,創新的內存型持久化存儲子系統有機會改善這種狀況。3)NAND Flash 在 3D 堆疊的方向持續演進,加速替代 HDD未相比于 HDD,SSD 在性能、功耗、容量上具有明顯優勢,在 To C 場景下的 HDD 已經被SSD 替代,
76、而在 To B 的場景下的 HDD 也有望被加速替代。業界采用增加堆疊層數的方式來實現 SSD 的代次演進,從而提升單位硅片面積的存儲容量,降低單位存儲空間的成本。但隨著堆疊層數的增加,堆疊 memory hole 的深寬比(孔的深度與孔徑的比例)增大,對蝕刻以及沉積的工藝帶來了更高的挑戰,從而限制了層數的持續增加。為了進一步提升存儲密度,提升 NAND陣列的有效面積占比,未來 CMOS 外圍電路與NAND 陣列堆疊的立體架構將成為主流。28數據存儲 20302、溫數據介質技術按照 SSD 和 HDD 的技術演進趨勢,預計到 2030 年,HDD 的成本優勢依然存在,這使得 HDD 在注重性價
77、比的溫數據存儲場景中依然是主流介質14。HDD 的技術主要向提升密度的方向演進,由于 HDD 的磁記錄只能附著在基板的表面,密度提升只能通過增加碟片數和提升磁密度來構建,受 HDD 形態和超順磁性限制,當前 HDD 的容量密度已經接近極限,短期 HDD 密度的提升將向著突破形態限制和突破超順磁性限制的方向演進,比如超厚HDD,能量輔助磁記錄技術(HAMR、MAMR)等15,長期技術演進則包括磁記錄技術的突破和材料的突破,如斯格明子,磁光、磁電結合的技術和材料等。3、冷數據介質技術到 2030 年,冷數據介質將仍然以磁帶和光盤為主。光盤具備高可靠性、長壽命、對存儲環境要求低的特點,更適合做為超長
78、周期冷數據的存儲,而磁帶則主要用于中長期的冷數據存儲。在數據驅動的智能世界時代,數據變得更熱,相應的,對冷數據介質也提出了新的要求:低成本、可快速讀取。1)磁介質技術磁帶記錄是通過磁帶介質順序卷帶的方式實現數據存儲的一類技術。磁帶通常使用空間折疊方法實現容量擴展。以 LTO-9 為例,其介質記錄面積是同期 HDD 的 100 倍。當前磁帶容量密度僅為 HDD的 1/100,未來有望通過突破磁疇微縮、高精度伺服控制和超低誤碼率的磁信道編碼技術,實現其容量超過 HDD 約 100 倍以上。磁帶的線性運動可以使用更多的磁頭并發讀寫,當前 LTO-9 32 個磁頭并發帶寬已超越 HDD 1 倍以上,未
79、來有望實現超越 HDD 10 倍以上。從工作原理上看,磁帶在順序讀寫方面有優勢,但隨機讀寫時磁頭的定位時間隨容量而增加,影響數據實時性訪問16。未來,一方面可通過帶寬優勢換取時間,另一方面可通過數據的布局和調度算法進一步提升數據實時訪問性能。從材料上看,磁帶壽命受存儲環境溫度影響明顯,當溫度處于 3540 度時,磁帶存儲壽命會下降數倍,增加數據丟失風險。未來需進一步探索新型材料、制作工藝和環境控制技術,延長磁帶存儲壽命。圖 2-4 磁存儲原理(磁盤、磁帶)轉軸磁道盤片柱面磁盤臂讀寫頭扇區旋轉Supply ReelTake-Up ReelTape HubTape Platters(Beneath
80、 Reels)CapstanIdler rollerPlaybackHeadRecordHeadErase HeadTHE PATH OF TAPE29數據存儲 20302)光存儲介質技術光存儲介質技術未來將朝著大容量、低成本的方向發展。當前光存儲的主流技術是藍光存儲,它最初用于消費領域,但容量只有 500GB/disc,單個光頭吞吐率只有 40+MB/s17。未來光存儲將在超分辨、多階、多維、鏡面超多層以及體材料等技術上實現突破,將光存儲容量提升到 300700TB/disc,將吞吐率提升到百MB/s。在 20 年內,單盤容量有望達到百 TB。由于冷存儲長壽命的要求,光存儲未來面臨的另一大挑
81、戰是如何實現光存儲介質中的數據在幾十數百年后可以被安全準確的讀出18。超分辨光存儲技術:光存儲通過激光照射記錄材料,使其發生物理化學變化來記錄信息??s減波長和提升數值孔徑可實現激光光斑變小,提升光存儲記錄密度,而波長和孔徑的大小受衍射極限的限制,未來有望通過多束光疊加干涉超越衍射極限,進一步提升記錄密度,提高光存儲容量密度。多維/多階記錄光存儲:多維度光可突破單維度光只能記錄單 bit 的限制,實現多 bits 信息記錄。目前正在研究中的技術是由存儲介質三維空間、偏振和光強度的五維光存儲,未來有望解決光信號的空間干擾問題,向六維及以上維度發展,實現容量密度的進一步提升。多層/體記錄光存儲:通過
82、單光盤層數的疊加可實現光存儲密度提升,如藍光存儲已實現六層商用,未來有望解決層間光干擾問題,向數十上百層方向發展。全息光記錄采用相變體材料,可在存儲介質體內部實現不同層和不同角度的信息記錄,通過多層和體記錄技術疊加,光存儲可向更高密度演進,有望突破百 TB/disc 的容量密度。伺服驅動技術:光驅包含激光器和光電調制設備,目前在多維光存儲中使用的飛秒激光器和光電調制設備成本較高。隨著飛秒激光產業的發展,未來有望進一步突破光高頻高壓電路技術,降低寶石級晶體的成本,實現光存儲產業的大規模商用。受限于光存儲的寫入原理,單路激光的讀寫帶寬只有幾十 MB/s,未來有望通過高精度的伺服控制技術,實現多路光
83、并行讀寫,提升吞吐率。圖 2-5 光存儲原理30數據存儲 2030介質應用創新1、介質工藝技術受半導體制造工藝和介質結構物理極限的限制,SSD、DRAM 等介質的集成度無法持續提升,未來可通過 Wafer 級創新、Chiplet 級創新、接口和協議創新來進一步提升介質密度和壽命,降低介質功耗,增強介質的可靠性。Wafer 級創新:Die-On-Board(DOB)技術可以將存儲顆?;蛐酒傻诫娐钒迳?,提供更高的密度和更好的性能。Wafer-Scale 技術直接使用多個 NAND Die 的晶圓而無需對晶圓進行切割和封裝,實現更高密度、更快速度和更高可靠性。當前 Wafer-Scale 技術還
84、不成熟,需要解決超大芯片的制造、芯片的功能管理和監控、跨芯片連接、芯片散熱、可靠性管理等問題。未來,有望采用先進的工藝技術、創新的芯片設計方法、智能測試手段等,在保持高密度和低能耗優勢的同時,實現更高容量和更佳耐久性。Chiplet 級 創 新:Chiplet 可以將不同功能 模塊集成在單獨封裝的芯片中,實現更好的靈活性和擴展性、更優秀的性能和功率效率。當前Chiplet 技術仍然面臨著芯片間通信和同步、緩存一致性、傳輸速率匹配等多方面的技術挑戰。未來,有望通過智能化控制算法、高效的芯片緩存一致性協議、存儲介質內部封裝處理器、異構處理器和加速器等技術,將計算芯片和介質芯片封裝在一起,構建存算一
85、體的 Chiplet 介質,實現高性能、低功耗、易擴展。接口和協議創新:隨著介質走向多元化,多種介質接口間數據傳輸存在較大的協議轉換開銷,在性能、安全、通用性上有較大的改進空間。ZNS(Zone Namespace)都是用于閃存設備的高速存儲協議,支持基于更小數據塊的高效空間管理,緩解了 SSD 設備性能的不平衡問題,提高了 SSD 的垃圾回收和數據遷移等方面的性能,目前需要解決兼容性、應用遷移等問題。Plog 用于數據持久化的存儲管理,可跨越多種存儲介質,在不同存儲系統之間的傳輸和處理數據。Plog 協議通過自動重傳和自我修復機制,確保數據的一致性、可靠性和完整性,提高數據傳輸和訪問效率。未
86、來,隨著多元化介質技術的不斷發展,需要定義新型高性能接口和協議,進一步提高兼容性和數據的訪問效率。2、新型數據編碼數據編碼技術包含縮減數據量的壓縮編碼(Sayood,2017)、抗數據錯誤的糾錯編碼以及抗數據丟失的糾刪編碼(Peterson,Peterson,Weldon,&Weldon,1972),是支撐存的下(空間)以及存的久(時間)的核心技術之一。未來面對海量多元的存儲數據以及介質融合的存儲系統,通過智能化數據壓縮、聯合編碼、智能化數據分類,有望突破數據編碼技術,實現存儲有效容量提升、集約節能、長期可靠。圖 2-6 無損數據壓縮的理論31數據存儲 2030智能數據壓縮:數據壓縮是按照特定
87、的編碼機制用短比特數據表示信息的過程。在數據存儲中,有損壓縮編碼和無損壓縮編碼并存。當前的有損編碼還無法打破經典的率失真率理論,未來需要探索語義提取和語義壓縮技術,擴展率失真函數,建立新的理論體系,實現有損壓縮的技術突破;業界主流的無損壓縮方法以LZ和熵編碼為核心,在面對非結構化數據壓縮方面壓縮效果欠佳?;诮y計和動態預測模型的壓縮方法可以有效提升非結構化數據的縮減率,但存在模型依賴于數據和專家經驗,發展緩慢;基于 AI 的預測模型通過對數據特征的自動提取和模型的自學習,可以超越專家設計的預測器?,F有的基于 AI 的壓縮算法面臨泛化能力差和算力消耗大的問題,未來有望通過遷移學習、元學習、大模型
88、等技術提升模型泛化能力和算法效率,實現存儲系統中縮減率數倍提升。1211121112文件集分片計算指紋對比指紋數據去重圖 2-7 數據重刪的基本原理01010101010101011010101010101010001100110101010110101010001100110101101000110101110010100011010101100010100001100101011110001110100110011011重刪壓縮糾刪檢錯糾錯聯合編碼圖 2-8 數據聯合編碼數據重刪:重復數據刪除技術(簡稱“重刪”)是通過數據塊級別的內容識別,實現重復數據塊刪除的一類技術。隨著處理器技術和新型
89、存儲介質的出現,重刪技術正逐漸從離線走向在線處理,數據重刪的粒度也在不斷縮小,從早期的文件級重刪發展為近期的字節級相似重刪,對于系統的算力和 IO 吞吐率提出了更高的挑戰。面向海量多元化數據重刪,在高維數據場景相比結構化數據場景重刪率還有數量級的差距,未來隨著應用語義重刪技術的發展,有望從根本上解決非結構化數據的存儲效率問題。32數據存儲 2030數據聯合編碼:香農的分離理論(Shannon,1948)證明了在碼長趨于無窮的前提下信源編碼與信道編碼分開設計可達到整體系統最優,在有限碼長的場景下,聯合信源編碼與信道編碼可能取得增益(Jiang&Bruck,2008)。未來通過設計聯合編碼可實現更
90、高密度的存儲,同時可簡化系統,實現更低能耗。智能分類編碼算法選取壓縮算法:ZSTD,LZMA,GZIP,糾錯算法:MDS,LDPC,BCH,RS,CRC,糾刪算法:MDS,LRC,CacheDRAMSCMFlashHDD/TAPE圖 2-9 智能分類智能化數據分級分類:存儲是一個多元化和層次化介質的系統,不同介質的可靠性、延遲、帶寬和成本差異較大,需要選擇與之匹配的數據編碼算法(Kim,Gupta,Urgaonkar,Berman,&Sivasubramaniam,2011)(壓縮、糾錯、以及糾刪)。未來需要突破智能化的數據分類技術實現不同的數據編碼與介質的最優匹配,提升數據的密度與可靠性,同
91、時降低延遲。33數據存儲 2030內存編程(load/store)IO編程(file&block)CPUcorecoreDRAMcoreL1/L2/L3 CacheSSD/HDDIO時延墻內存寬帶墻序列化/反序列化CPUcorecoreDRAMcoreL1/L2/L3 CacheSSD/HDDCPUcorecoreDRAMcoreL1/L2/L3 CacheSSD/HDDIP網絡圖 2-10 以 CPU 為中心的架構2.2 以數據為中心的體系架構在大數據、人工智能、HPC、IOT 等新型數據密集型應用的推動下,數據量爆炸增長,年復合增長率近 40%,其中熱數據占比將超過 30%;另一方面,摩爾
92、定律、Dennard縮放定律的放緩,CPU 性能年化增長降低至 3.5%。高速增長的數據與緩慢增長的數據處理能力成數據產業的基本矛盾,數據存力與數據發展嚴重失衡。在傳統的以 CPU 為中心的數據中心架構中,現有數據中心架構存儲、計算資源利用效率低下,為了提升數據處理效率和存儲資源利用率,未來數據中心架構需要從“以 CPU 為中心”走向“以數據為中心”,包括三個方面:1)在宏觀上存算分離,計算、存儲資源獨立部署,通過高通量20數據總線互聯,統一內存語義訪問數據,實現計算、存儲資源解耦靈活調度,資源利用率最大化。業務在空間、時間的不均勻性導致本地存儲資源利用率低,本地內存、存儲閑置率超過50%19
93、。數據的移動、數據格式的反復轉換消耗了大量 CPU 時間,使得數據處理效率低下。此外,在一些擁有十萬卡 GPU 的大型智算中心中,CheckPoint 數據需要秒級快速恢復能力,而存儲節點和集群的可擴展性差,讀寫帶寬無法持續提升,導致寶貴的 GPU 訓練時間被浪費,GPU 的有效利用率難以提升。2)在微觀上存算一體,圍繞數據,近數據處理,減少數據非必要移動,在數據產生的邊緣、數據流動的網絡中、數據存儲系統中布置專用數據處理算力,網存算融合提升數據處理效率。3)高可擴展的集群存儲,在橫向上從數十個擴展到數百個控制器,擴展能力提升數十倍,實現 EB 級容量,在縱向上從數百個擴展數千個XPU,擴展能
94、力提升數十倍,實現近存加速。34數據存儲 2030辦公虛擬化云硬盤容器存儲直播/點播分布式DB數據庫服務數倉/搜索服務計算節點云主機云桌面KVM/DockerBlockerBlocker去本地盤XX服務器APPAPPAPPAPP卸載本地布局XX計算節點計算節點計算節點MySQLHadoopSparkKV/FS內存拉遠LocalFS高通量數據總線 (對等互聯、統一協議、統一語義)內存池模組DPUCSI內存池模組DPUCSI閃存池模組DPUCSI閃存池模組DPUCSIHDD池模組DPUCSI溫冷介質模組DPUCSI存儲資源池 池化共享 特性極簡 EC/壓縮場景一計算無盤化直通存儲模組file、bl
95、ock NOF場景二內存拉遠池化,大內存加速應用KV、arrow CXL場景三直出容器FS和分布式EC,卸載本地布局fs、block RDMA圖 2-11 存算分離架構存算分離存算分離不再局限于CPU與SSD、HDD外部存儲解耦,而是徹底打破各類計算存儲硬件資源的邊界,將其組建為彼此獨立的硬件資源池(例如 CPU 池、DPU 池、內存池、閃存池等),實現各類硬件的彈性擴展及靈活共享。存算分離架構具備三個特征:存儲資源池化、全內存語義訪問、高通量對等互聯總線。1、存儲資源池化新型存算分離架構將服務器本地盤拉遠構成無盤化(diskless)服務器和遠端存儲池,同時還通過遠程內存池擴展本地內存,實現
96、了真正意義上的存算解耦,可極大提升存儲資源利用率。業務使用時,可根據應用需求選擇不同性能、容量的虛擬盤及池化內存空間。首先,存儲資源池化可以避免本地存儲空間超配造成的空間浪費;其次,資源池化可避免數據跨總線和跨設備流動,減少數據移動,提升性能,降低功耗;最后,當服務器出現故障或者更新換代時,數據免遷移。通過 NVMe over RDMA 網絡技術,可以實現外存 SDD 池化,為遠端訪問 SSD 提供本地一致的訪問性能。未來有望通過新型內存型網絡(如CXL、Unified Bus)、內存介質智能分級和內存統一編址等技術,實現內存池化,十倍擴展內存容量,降低應用獲取大內存的成本。2、全內存語義訪問
97、傳統應用通過文件、對象、塊接口訪問數據,IO棧協議厚重,IO 開銷超過 30%。采用內存語義和內存數據格式訪問接口,可實現 IO 零開銷、格式零轉換、數據零流動。當前,內存語義訪問仍面臨應用數據訪問接口生態、內存語義網絡標準化的挑戰,未來有望形成統一的內存語義標準協議,實現內存語義的數據互通,進一步提高數據訪問效率。3、高通量數據總線傳統互聯總線以CPU為中心,CPU成為系統瓶頸,系統無法大規模擴展;協議類型七國八制,協議反復轉換,影響系統效率;不同設備不同通信語義,數據格式反復轉換,造成額外開銷。需要定義高通量數據總線,支持設備對等互訪,消除協議轉換,簡化數據訪問,高通量數據總線具備如下四個
98、特征:35數據存儲 2030應用存儲應用存儲DPU網存協同重刪EC分析壓縮加密近數據處理引擎數據近數據處理減少90%數據移動圖 2-12 存算融合原理存算一體在以數據為中心處理范式中,數據處理由通用計算走向數據處理專業化,由數據搬移到處理器走向近數據布置算力,在靠近數據的地方,以最合適的算力來處理數據,在數據產生的邊緣、在數據移動中、在數據存儲中就近完成數據處理。數據存儲作為數據載體,不僅提供數據存取服務,還提供近數據處理加速服務,數據就近處理有三種主要方式:多樣化存算融合、數據存儲與網絡融合、數據處理與網絡融合。1)對等互聯:打破以 CPU 為中心的主從結構,CPU、DPU、存儲對等互聯,數
99、據訪問不再經過CPU,異構多樣數據處理設備對等直訪數據,提升數據搬移效率。2)統一協議:抽象設備內、機柜內、數據中心不同通信需求,制定統一基礎協議功能,實現在處理器與存儲、不同存儲設備之間采用一致訪問協議。3)統一語義:把不同訪問需求抽象成統一的訪問語義,支持實現跨系統、跨不同類型設備數據的共享和訪問機制。4)高通量:單盤 SSD 帶寬將演進到 25GB/s,內存支持 100GB/s 帶寬,50ns 時延,新型總線需要實現 SSD、內存、處理器互聯,以及擴展到機架間互聯,同時滿足大塊數據傳輸高帶寬和小塊數據傳輸低時延需求,未來總線需要支持 TB/s級帶寬,10ns 級時延。1、多樣化存算融合存
100、算融合是通過算子下推到存儲器內部或存儲模塊上移到處理器內部來減少數據搬移,解決網絡時延和帶寬瓶頸,提升數據處理效率的一類技術。存算融合包括存算集成和存算一體21。存算集成(SCI)是在存儲部件上,集成指令運算單元和算子單元,實現數據預處理。例如,在 SSD內、內存上增加固化的數據預處理單元(如壓縮、編碼引擎),實現數據處理加速功能?;蛟谔幚砥鲀炔考奢^大容量存儲器來減少數據訪問,最終提升數據處理效率。未來,面向前一種場景,如何定義高效的前向兼容指令集、新的算子抽象,仍面臨巨大挑戰,有望通過共性指令集研究和自定義算子,實現通用場景下數據的高效處理。36數據存儲 2030集群存儲在大型的智算中心中
101、,單個存儲節點或一百以內的節點擴展性能,無法滿足計算集群對百 PB 數據、千億文件、百 TB/s 帶寬的能力要求。預計到 2030 年,存儲集群的橫向擴展能力有望達到 500 個節點以上;同時,為了近數據處理提升效率,越來越多數據讀寫任務被卸載到 XPU 上,存儲支持的XPU 數量也與日俱增,未來有望支持上千的 XPU 同時工作,且彈性擴縮。集群存儲容量有望提升100 倍,達到數百 PB 級,同時解決高性能和大容量的難題。計算集群存儲集群存儲節點高性能存儲客戶端存儲節點存儲節點數據集群全交換網絡AI框架AI SDKAI應用XPUXPU圖 2-13 集群存儲示意存算一體(CIM)是采用非馮諾依曼
102、架構,基于存儲單元與計算邏輯合一,打破計算和存儲的邊界,實現數據處理過程中極少數據搬運,相比傳統馮諾依曼架構提升十倍以上的能效。由于當前承載介質的局限性,在數模轉化的效率、計算的精度和規模上仍面臨巨大挑戰,未來有望通過介質改良和發現新的介質材料來實現突破。2、數據存儲與網絡協同通過網絡感知存儲的語義,實現數據存儲服務的卸載和數據流的調度,提升數據訪問性能,加速數據應用服務。當前已經在存儲訪問協議卸載(文件協議、對象協議、KV 鍵值卸載等)、加速存儲IO(數據直通、IO零拷貝)、卸載數據布局(索引卸載等)等方向上展示出巨大的應用潛力。通過智能網卡可以實現靈活的存儲業務卸載,但仍面臨編程友好性和運
103、行效率挑戰,未來有望通過定義高效的存儲算子,實現靈活性和高性能兼得。3、數據處理與網絡協同 通過與網絡協同,卸載主機數據處理的開銷,比如安全類數據處理(比如 SHA256、格密碼)、數據壓縮類數據處理(ZSTD、LZ、CDC)、數據保護類(EC)、數據分析類(Scan、Filter、Merge 等)等操作不再由通用處理器負責,隨數據流卸載到專用數據處理器。以 DPU 為代表的專業數據處理器具備成本更低、功耗更低、即插即用、即換即用等獨特優勢,數據流動中加速數據處理,釋放通用處理器算力,倍數級提升大數據、HPC、數據庫等應用性能。37數據存儲 2030主動數據保護數據安全攻防態勢研究表明,當前的
104、被動防御安全體系無法有效抵御勒索等病毒攻擊,需要從數據安全態勢感知、數據時間線旅行、原生防篡改、多維聯動響應等多個技術方向,構建主動數據保護安全體系。識別恢復保護檢測響應數據安全態勢感知防篡改介質安全屬性加密重定向寫高效加解密芯片與網絡可信圖 2-14 主動數據保護2.3 數據內生安全數據作為新型生產要素價值日益凸顯,其作為高價值目標所面臨的攻擊面和攻擊強度越來越大,當前基于邊界的被動防御體系無法滿足未來數據安全的需求22。在數據價值釋放過程中,針對數據的隱私保護需求日益旺盛,圍繞數據“可用不可見、可見不可得”的隱私計算在充分保護數據和隱私安全的前提下,實現了數據價值的轉化與釋放。數據流轉是釋
105、放數據價值的必要途徑和手段,由于數據可復制性、可共享、可無限供給,因此在流轉過程中如何保證數據產權、使用權和控制權得到有效保護,是當前數據基礎設施需要解決的首要問題。未來,數據內生安全將成為數據基礎設施的基礎能力,需要在主動數據保護、數據零拷貝、零信任存儲和 AI 安全等技術方向上持續突破。數據安全態勢感知:數據安全態勢感知技術是在一定的時間范圍內采集數據訪問行為、數據信息熵、數據內在關聯、數據分布等,結合大數據分析技術動態度量與評估數據安全風險和威脅,支撐后續自主防御決策和行動。當前業界的主要痛點是如何做到高效精準的威脅檢測與態勢感知能力、對威脅的動態評估能力不足等問題,未來有望通過海量數據
106、的采樣理論、異構數據的融合處理、不完全信息條件下的活動辨識等方向的研究,逐步提高檢測的準確度和性能,增強未知數據威脅檢測能力。數據時間線旅行:數據在遭到內外部攻擊損壞后,數據基礎設施需要具備在最短時間內將受損數據恢復到任意歷史時間點,實現數據零丟失的能力,同時為了實現攻擊溯源,必須具備最細粒度的數據重放能力,支撐數據安全策略的調整與優化。當前業界的主要挑戰是快速精確定位受損數據的時間點、自動化行為溯源等問題,未來有望通過 IO 級數據恢復、因果根因分析等技術實現數據在時間線上的旅行。原生防篡改:當前數據防篡改的能力主要是依38數據存儲 2030靠系統級的數據訪問控制技術實現,由于系統攻擊面較大
107、,很難有效保證數據的防篡改,未來有望通過系統級數據訪問控制技術結合介質物理防篡改屬性,實現物理級數據原生防篡改能力。多維聯動響應技術:多維聯動響應技術需要通過網絡設備、安全設備、終端 EDR 設備、存儲設備的跨設備聯動協同,實現多維度威脅處置閉環,防止威脅范圍擴散。當前業界的主要痛點在自主決策和響應技術上,即如何制定智能化的響應策略,給客戶提供便捷有效的處置備選方案。未來有望通過 AI 安全分析、因果分析與推理等技術突破,有效提升自主決策和響應的智能化程度,實現真正的快速準確響應。數據零拷貝數據要素價值釋放過程概括為三個階段,第一個階段是數據支撐業務系統運轉,推動業務數字化轉型與智能決策,第二
108、個階段是數據流通對外賦能,讓不同來源的優質數據在新業務和場景中匯聚融合,實現雙贏、多贏的價值利用,在該階段需要解決數據共享與數據訪問控制之間的效率問題,通過基于密碼學的訪問控制、數據自保護技術、高效透明審計技術、高效網絡加密傳輸等技術能在保證數據主權安全的前提下,實現數據高效流動與使用;第三個階段是無邊界零拷貝,最大限度地消除數據孤島,通過零數據拷貝訪問技術打破數據邊界,實現數據共享。第一階段價值釋放數智決策第二階段價值釋放流通賦能第三階段價值釋放無邊界零拷貝圖 2-15 數據價值釋放模型基于密碼學的訪問控制:主要通過密碼學的方式保護數據機密性,對于不符合訪問控制策略的用戶,無法解密。當前基于
109、屬性加密(Attribute-Based Encryption,ABE)方案已可支持任意邏輯的完備訪問控制策略。相比于傳統的一對一公鑰加密,ABE 是一對多的,極大降低網絡通信開銷和關鍵節點加解密計算開銷。未來需要研究控制加密的技術,對離開信任域的密文進行策略判斷和隨機化處理,確保不符合預定訪問控制策略的數據,無法離開信任域進入流通階段。39數據存儲 2030數據自保護技術:近年來,數據安全正逐漸從以系統為中心的數據強管控,演變成為以數據為中心的全生命周期安全防護。數據自保護技術就是在隱私層面滿足“可用不可見、可見不可得”要求的一類技術。當前主要采用密態計算技術來實現數據隱私保護,但仍存在關聯
110、信息隱私泄露的潛在問題,數據的使用范圍、方式、有效期和訪問權限難以約束,未來有望通過數據膠囊等技術,將訪問策略、使用控制策略和密態數據封裝在一起,確保數據擁有者對數據的自主可控,實現數據的安全流轉。高效透明審計技術:當前的數據可信審計的主流技術是區塊鏈技術,但存在開銷相對較大、共識算法效率低、數據冗余存儲等問題,未來有望通過高效透明審計技術來構建數據防篡改的審計方案,實現更加高效的可信數據存儲,更加貼近實際生產過程中對數據讀寫時間的要求。零數據拷貝訪問:當前由于各個應用數據模型的差異,導致大部分的應用基于獨立數據副本結合自身數據模型形成了大量的煙囪式應用,未來有望將應用數據模型下沉至數據存儲層
111、,基于同一份數據自動生成應用數據模型,從而消除數據孤島,同時結合細粒度訪問控制、基于芯片認證的可信網絡傳輸等技術實現跨信任域高效數據訪問。零信任存儲零信任存儲是基于零信任模型的擴展,旨在解決當前存儲面臨的數據泄漏、完整性被破壞、數據可用性破壞等諸多安全問題,在零信任存儲中,所有的數據訪問與操作都被視為未被驗證的,訪問主體、數據以及數據操作動作三者基于最小授權原則,通過持續驗證、動態授權等方式實現最小粒度數據訪問控制。同時要實現零信任存儲需要從數據存儲與使用環境安全、數據全路徑安全加密等幾個方向突破。40數據存儲 2030強制數據訪問控制:細粒度數據訪問控制是基于最小授權原則,利用數據訪問主體特
112、征、數據屬性、細粒度數據處理動作三者之間的映射,以確保最小粒度數據集只能被主體在特定的條件下訪問與使用。未來,由于被授權實體和數據的海量性、數據處理的復雜性、控制條件的不確定性,訪問控制策略設計日趨復雜,訪問控制策略配置錯誤將帶來重大安全隱患。為了應對這個挑戰,未來有望通過形式化驗證、自動策略生成、合規審計等技術來保證復雜策略的一致性和正確性,解決大規模形式化驗證的性能、自動化策略生成的機制、復雜規則匹配的問題。數據全路徑加密:當前基于邊界的數據安全體系,對數據全路徑的安全假設存在數據泄漏的風險,我們需要考慮從內存、存儲 IO、網絡 IO、Cache 等數據處理的全路徑進行加密,并通過統一密鑰
113、管理實現原生數據安全能力的共享。隱私計算:為了保證數據在計算過程中的隱私安全,數據安全計算應運而生。數據安全計算的主要技術流派包括:針對 AI 場景的聯邦學 習23(Federated Learning)、基 于 硬 件安全基礎的可信執行環境(Trusted Execution Environment)、基 于 密 碼 學 算 法 的 多 方 安全 計 算(Secure Multi-Party Computation,MPC)、針對向驗證者證明某陳述正確性場景的零知識證明(Zero Knowledge Proof)等。1)可信執行環境:實現敏感數據處理的硬件隔離技術,主要挑戰在于硬件安全隔離機
114、制實現的完備性無法用數據證明,難以自證清白,存在安全漏洞風險,但和密碼學技術相比,TEE對性能影響小,未來基于 TEE 的隱私計算將成為業界普遍需求,預計 2030 年 50%以上的數據處理場景將使用該技術。2)基于密碼學的同態加密、安全多方計算技術因其安全性在數學上可證明,從而成為業界公認最理想的隱私計算技術。但主要挑戰在于其性能比常規計算降低一萬倍以上,需要大幅提升才能滿足應用需求。隨著近似計算的成熟,同態加密、安全多方計算在人臉識別、健康數據分享等特定領域以獲得應用。未來,突破基于硬件加速的同態加密、安全多方計算技術,將在金融、醫療等行業的高安全應用場景獲得廣泛商用。3)多方計算的基礎是
115、多方之間共享秘密,如果通過零知識證明等密碼學方法實現,性能開銷非常大,利用 TEE 實現多方之間的秘密共享,不但可以大幅度提升多方計算性能,而且在信任 TEE 基礎上安全性可數學證明,未來有廣泛的應用前景。策略引擎Cache加密內存加密IO加密策略管理訪問主體策略決定點系統策略強制執行點資源信任非信任控制面數據面數據全路徑加密持續安全評估與響應行業合規威脅情報活動日志數據訪問策略PKI身份管理SIEM圖 2-16 零信任存儲41數據存儲 20302.4 智能數據編織數字技術的不斷發展催生了大量的跨域數據流動的需求,對數據的可用性和質量提出了更高的要求。但地域的阻隔和數據治理的困難限制了數據的自
116、由流動,最終形成了數據重力。數據編織是以一種自動化的方式,動態地協調分布式的數據源,跨數據平臺地提供集成和可信賴的數據,支持廣泛的不同應用的使用24。智能數據編織可基于人工智能和知識圖譜等技術,不斷識別和連接來自不同應用的數據,以發現可用數據點之間獨特的業務相關關系。在數據網絡中,邊緣、數據中心、云端頻繁的數據交換,智能數據編織可通過對現有的、可發現和可推斷的元數據資產進行持續分析,完成跨平臺的數據整合,為應用提供高效數據流動和處理。為了更好地實現智能數據編織,需要在跨域數據協同、自動化數據編排和高效快速存力網絡等技術方向上持續突破,以解決數據重力問題。全局元數據數據畫像主機存儲數據中心1主機
117、存儲數據中心2主機存儲公有云主機存儲邊緣CacheCacheCacheCache自動化數據編排數據大腦圖 2-18 自動化數據編排框架數據畫像數據大腦數據排布編排層協同層網絡層自動化數據編排存儲語義感知在網計算服務在網存儲服務多目標傳輸存力網絡跨域數據協同元數據發現元數據索引元數據增強全局虛擬數據總線數據采集數據清洗數據質量數據安全自動化數據治理圖 2-17 智能數據編織框架自動化數據編排當前,由于數據內容無法感知網絡狀態,應用的意圖也無法有效傳遞給網絡,導致數據的放置跟網絡匹配失衡,數據存取延遲大、網絡利用率低下。未來需要通過構建數據畫像和數據大腦,實現業務無感、業務性能無損的數據最優排布。
118、42數據存儲 2030數據畫像:數據畫像是通過獲取存儲網絡狀態、數據塊的時空信息、應用的標簽等來感知應用特征。當前業務感知的粒度和精度較差,未來有望通過深度圖神經網絡、因果學習等技術,構建包含數據重力、數據量、數據活躍度、網絡帶寬和時延等多個因素在內的海量數據多維度畫像,實現精準的業務感知。數據大腦:當前的數據編排存在數據分散、維度爆炸、無法標準化、對開發人員能力要求高、無法感知客戶應用等挑戰,同時面向多云場景,衍生出對數據流動可信的管控訴求。通用的數據編排平臺無法做到多方兼顧,未來有望通過意圖 API、機器學習、大數據分析等技術,生成結合行業應用的最優數據排布策略,同時可針全局虛擬數據總線:
119、在公有云和企業數據中心中,當前主要采用分區管理的方式來管理數據,產生了大量的“數據孤島”。未來有望通過對元數據進行發布、發現、訂閱來實現高效按需互聯,構建全局虛擬數據總線。全局虛擬數據總線需要具備統一的數據命名空間和透明的數據流動能力,為客戶提供跨云的全局數據空間,以及安全、高效、易用的數據網絡。自動化數據治理:不同來源和不同類型的數據需要互聯互通和高效協作,通過統一規范數據模型和數據體系,將數據采集、數據集成、數據清洗、數據質量提升與數據安全保證等基礎功能集成,并提供自動化處理的能力,可以提升從數據采集到數據價值發現的效率。當前數據治理技術尚不成熟,需要在異構數據集成、數據血緣管理和數據分類
120、分級上取得突破,構建“統一、高效、智能”的數據中臺服務,有效提高數據的質量和可用性。對數據編排的整個流程提供強大的安全管理和審計能力,最終實現數據編排的自動駕駛。數據排布:數據排布是根據業務策略將數據放置到最優位置的一類技術,幫助用戶通過內容名字訪問就近的數據,期望以最小的代價獲得最佳的體驗。如對于冷數據,可以通過東數西存的方式將數據放置在西部,降低運營成本。當前的數據排布存在不同業務間數據共享差、數據訪問長尾、數據緩存命中率低、網絡帶寬占用大等問題,未來有望通過業務邏輯和數據邏輯分離、數據網絡編碼、數據預取淘汰算法等技術突破,實現自適應數據緩存和就近讀寫緩存加速,提供應用無感、成本最優的數據
121、訪問體驗,使得數據更容易被發現和利用??缬驍祿f同企業使用多個地域的數據中心或多個異構云供應商,提供統一的計算/存儲服務,以提升基礎設施能力、控制成本;資產、軟件、應用的分布跨多個數據中心或多個云環境,催生了跨域的數據協同和數據整合??缬驍祿f同在如下兩個技術方向上存在機遇和挑戰:數據共享數據模型數據隱私數據清洗數據采集數據集成自動數據治理全局虛擬數據總線元數據訂閱元數據發現元數據發布全局數據視圖全局數據流動數據中心邊緣數據中心公有云圖 2-19 跨域數據協同框架43數據存儲 2030存力網絡未來,數據的產生天然形成數據孤島,跨域數據流動存在廣泛需求。當前數據訪問的網絡延遲大、系統效率低,嚴重
122、阻礙了數據應用的發展,需要打破地域和區域的限制,構建高效快速的存力網絡,實現應用無感、地域無感的數據訪問。從存儲業務的原始需求出發,未來存力網絡應提供如下 4 種能力:存儲語義感知:傳統網絡僅感知網絡語義,如IP 地址、TCP/UDP 端口號等,對所有網絡報文一視同仁。未來智能數據網絡能夠進一步感知存儲語義,如根據存儲語義分辨報文的重要性和優先級實現策略轉發、識別報文之間的關聯性實現 Co-Flow 調度、基于存儲 IO 語義進行路由等,從而實現對存儲報文的差異化處理,充分利用有限網絡資源,支撐數據在不同節點間的頻繁交互。在網計算服務:傳統網絡僅具有報文轉發和路由能力,未來智能數據網絡將進一步
123、賦予網絡計算能力。通過抽象運算算子,設計圖靈完備的指令集,實現高效的數據處理引擎。一方面,數據處理引擎可由網絡轉發設備承載,能夠實現數據的隨路處理,在數據搬移的必經之路上對數據進行加解密、壓縮、去冗、校驗等計算處理,實現數據計算和數據傳輸的實時并行;另一方面,數據處理引擎可由端側網卡設備承載,能夠實現數據不動計算動的近數據計算,節省數據搬移帶寬和提供低延時服務。此外,SDXI(Smart Data Accelerator Interface)/NVME 等接口協議轉換也可由端側網卡設備承載,提供硬化的數據流動能力。在網存儲服務:當前網絡的主要功能是數據包的搬運。未來,有望利用網絡自身大量數據包
124、的轉發處理能力,對外提供多樣化的隨路存儲服務,比如分布式鎖、元數據緩存、事務并發控制等服務,實現 sub-RTT 的服務響應時間,大幅提升數據訪問效率。多目標傳輸:在網絡控制協議上,傳統的 TCP/IP 網絡是基于網絡生存性設計的,存在高通量和低時延不可兼得的問題,未來有望通過RDMA over WAN、F6G、全光網絡等技術,同時實現超低時延和高吞吐;在網絡路由協議上,傳統網絡是滿足單目標來設計的,無法同時滿足路徑最短、網絡利用率最大、負載均衡等多目標的需求。而在數據存儲網絡中,既存在低延時網絡的實時交互的數據庫查詢需求,又存在高通量網絡的大文件傳輸需求,未來有望建立多目標的網絡協議,實現多
125、樣化的數據服務。44數據存儲 20302.5 數據即應用預 計 到 2030 年,以 數 字 孿 生、元 宇 宙、ChatGPT 等技術為代表的智能數據基礎設施無處不在,和人的生活緊密結合。當前,日益復雜的存儲系統已無法滿足新興多云應用的智能化數據業務需求,需要數據業務邏輯與數據智能解耦。數據基礎設施面臨著三大挑戰:1)各個應用的數據分散在各個角落,形成一個個數據煙囪,應用間數據無法共享;2)對數據價值的挖掘消耗了海量的資源,反復對數據進行建模、訓練、推理,不可持續發展;3)針對海量應用的數據管理的復雜度不斷上升,數據預處理的效率成為核心瓶頸,嚴重制約了應用的發展。數據即應用,意味著數據存儲將
126、具備數據感知、數據理解、新型數據服務等能力,支撐數據服務走向千行百業,數據業務百倍增長。數據存儲將向泛在化、多樣化內涵、認知存儲等三個趨勢發展。泛在化:數據存儲將走向小型化、便攜化、綠色化、智能化,呈現出低功耗、可移動、生物性、量子性等特征,將催生便攜式存儲(Portable Storage)、計算型存儲、類腦腦機存儲、生物DNA 存儲等一系列新形態。其中,便攜式存儲將會是最早大規模商用的產品,短期內以數據存儲、數據移動為主,實現數據在端側、邊緣和數據中心或云中的快速流轉;中長期來看,便攜式存儲通過可組合樂高式設計,形成一個高可靠、高安全、免運維的智能移動存儲設備,集數據存儲、數據移動、數據交
127、互、數據處理為一體,實現數據的實時共享、實時交互、實時處理。多樣化內涵:從數據產生的源頭來看,層出不窮的新型應用使得數據的產生主體從傳統服務器向多樣化的數據產生源發展;從數據格式來看,傳統應用以圖形圖像數據格式為主,新型腦機接口、生物仿生、AI 等應用將推動數據格式走向多樣化,并催生出 Vector、Tensor 和RAG 等新的數據范式;從數據語義來看,自動駕駛、無人機、機器人等端側設備,將產生大量的復合語義數據。認知存儲:當前的存儲設備僅提供數據存放功能,訪問層次多,無法滿足極致的應用體驗。未來的存儲設備將成為具有認知能力的智能設備,能夠自動處理和分析數據,依托數據進行自適應建模,形成領域
128、知識,并通過“學習”不斷提高自身的處理能力25。未來,數據即應用技術將向以下 4 個方向演進:服務型接口數據語義提取多模態分析自適應建模知識庫或數據集專家和可標注知識多模態數據圖 2-20 數據即應用框架45數據存儲 2030內容消費的服務型接口當前的存儲設備一般提供塊、文件、對象等基礎數據接口,進一步可以提供諸如 Table 格式對接數據庫應用,DataSet 向量接口對接訓練推理型應用,資產類接口對接數據交易型應用等。未來的數據服務和 API 通過提供更先進的功能、更好的性能和更安全的數據訪問,可以超越傳統的數據源或表界面。它們能夠自主創建更復雜的應用程序對外提供創新的方式來利用數據的力量
129、。對數據工程師來說,未來的數據接口允許自定義查詢、過濾和以編程方式操縱數據。它們可以提供允許分頁或過濾結果、實時數據流和事件驅動的數據處理的端點。這有助于提供更高級的功能,為特定的使用案例量身定做。對普通用戶來說,數據接口可以與 NLP 技術整合,提供 ChatGPT 型服務接口。使用戶能夠使用自然語言與數據互動。這意味著用戶可以用簡單的語言提問,而界面會理解問題的意圖并提供相關的信息。對商業決策用戶來說,數據接口可以使用預測性分析來提供基于歷史數據的洞察力和預測。這可以幫助用戶識別數據中的模式和趨勢,這些模式和趨勢可能無法通過簡單的分析立即看到,而需要先進的可視化技術,為用戶提供對數據更全面
130、的理解??傊?,未來的數據存儲將從數據存取的 ATM 機進化為內容消費的超級市場。數據語義提取數據語義是面向數據業務運用智能化的技術從數據中抽取與業務目標相關信息的一種技術。通過數據語義的提取可以壓縮原始數據,提高系統效能。當前,語義提取技術仍面臨諸多挑戰。首先,語義提取技術主要基于自然語言處理、知識圖譜和深度神經網絡,受到深度神經網絡理論可解釋性和規模的限制,語義提取技術距離達到期望準確性還存在一定距離,且基于語義的推理準確性難以達到原始數據的效果。其次,語義提取的泛化性較差,可部署性差,需要多次訓練。最后,提供能夠獨立于軟件/硬件支持甚至平臺之間差異的完整的數據語義服務是其可用性的基礎。數據
131、語義的可移植性,需要定義完整的數據定義和描述的語義方案,不斷推動數據服務的標準化和產業化。未來有望通過NLP、預訓練大模型技術來實現數據語義提取技術的突破,實現語義推理無損。數據多模態分析未來,多模態數據的整合將更加普及和成熟。隨著傳感器技術的不斷發展,人們將可以更輕松地收集和處理不同類型的數據,包括圖像、語音、文本、傳感器數據等,并將它們整合在一起26。例如,一個自動駕駛汽車可以同時獲得和處理多個數據源,如道路數據、交通數據、車載傳感器數據、以及周圍環境及座艙的圖像和語音數據,并將它們整合在一起,以更準確地態勢感知和做出智能決策。同時,多模態數據的整合是一項復雜的任務,需要將來自不同來源的數
132、據進行標準化和統一處理,以便在不同應用程序之間進行交換和共享。未來可能的融合方式包括:1)多模態數據融合:將多種類型的數據融合在一起,例如結合語音、圖像、傳感器等多種數據源,進行多模態數據分析。這種方式可以提高數據的信息量和可靠性,同時也可以解決單一數據源無法解決問題的情況。2)多層次融合:將不同層次的數據融合在一起,例如結合底層的傳感器數據和高層次的語義信息,進行多層次的數據分析。這種方式可以提高分析的精度和深度。46數據存儲 2030數據自適應建模數據自適應建模(Data Adaptive Modeling)可以從輸入數據中自動識別和學習潛在的模式和結構,并生成相應的預測模型。當前,數據自
133、適應建模還面臨諸多挑戰。首先,由于樣本采樣的偏差,應用環境與模型訓練場景的差異造成的數據漂移問題普遍存在。當數據的分布產生漂移時,舊模型難以適應新的環境,需要重新訓練。其次,為應對新環境和新場景,數據自適應模型需要快速適應新數據,解決快速3)多源數據融合:將來自不同來源的數據融合在一起,例如結合社交媒體數據、物聯網數據、企業內部數據等多種數據源,進行多源數據分析。這種方式可以提高數據的完整性和覆蓋范圍,同時也可以發現不同數據源之間的關聯和聯系。當前,數據多模態融合分析技術主要基于規則、特征和語義的融合算法,涵蓋了機器學習、深度學習、計算機視覺、自然語言處理、傳感器技術等多種技術。未來,數據多模
134、態融合分析技術會解決強依賴數據同分布和封閉領域的問題,通過空間變換、自監督學習技術和 AIGC(人工智能技術生成的內容),實現跨模態學習,提升學習能力,自動學習各模態間的語義對齊關系,提高模態融合的理解精度。響應和高效預測的問題。當前自適應建模主要依靠神經網絡和機器學習技術,神經網絡技術需要尋找合適的網絡結構,機器學習需要選擇合適的特征,未來有望通過增量學習、遷移學習、領域適應方法、生成對抗網絡等方向的技術突破,實現應對復雜多變場景的自適應建模,促進自適應建模的大規模實用化27。47數據存儲 20302.6 可持續存儲預計到 2030 年,每月讀取一次全球數據所需電量,為全球年總產量的 4%6
135、%,產生的二氧化碳需要全球樹木耗時 7 天吸收。如何降低每 bit數據讀寫能耗,對構建可持續發展的數據基礎設施至關重要?;诮浀涞鸟T 諾伊曼架構,數據在存儲和計算單元間傳輸所需能耗,占 IT 系統總能耗的60%90%,數據密集型應用的能耗問題尤為突出。以數據為中心的體系架構,將解決數據傳輸能耗大的問題。未來,低功耗介質、以光代電等技術將減少能耗產生,存儲系統、整機和環境等節能技術,將進一步減少二氧化碳產生并提高能耗效率,從芯片、介質及網絡全方面減少能耗,達成每比特最優能效和最少碳排放。存儲系統級節能存儲系統級節能是通過感知計算、存儲、網絡設備的運行狀態,識別數據冷熱特征,并結合業務負載規律,構
136、建系統調優模型。存儲系統根據模型,調整軟硬件工作狀態,實現整系統能耗最優。存儲系統級節能有以下四類技術:1)硬件功耗智能調優采用大數據和 AI 分析歷史數據,探索影響能耗的關鍵因素,獲得 PUE 預測和節能收益模型。利用尋優算法獲取調優參數組,預測出設備硬件(CPU、磁盤、網絡、風機、冷泵等)的調優策略,達成整系統最優能耗控制。當前解決方案存在模型泛化性差、少樣本及實時性差等問題,節能效果不理想,需要大量人工干預。同時,AI 模型解釋性差,安全運營風險較大28。未來,有望通過融合專家經驗的模型模塊化、少樣本概率建模、高效在線訓練/推理、域自適應等技術,減少人工干預,提高模型可解釋性,大幅降低硬
137、件能耗。2)數據分級節能技術當前大部分電能用于維持服務器、存儲、網絡等設備狀態,在非工作時間段,存儲設備仍需消耗大量電能,如何減少非工作狀態的設備能耗至關重要。數據冷熱分級就是在數據中心中,根據數據使用頻率,把數據存放在磁光電混合介質中,從而有效降低能耗,平衡性能和成本。當前基于人工經驗的數據分級策略和容量規劃,存在資源浪費大的問題,未來需解決 IO 訪問建模、數據布局,高效預取等問題,有望通過構建精細化的數據使用模型,在保證性能的同時最小化數據存取能耗。48數據存儲 20303)存儲設備散熱技術整機風扇散熱器風冷傳統導熱墊碳纖維導熱墊碳基導熱墊金屬焊接免TIM液冷輔助風冷風液復合(半液冷)3
138、D熱管(200W,50W/cm2)VC/TS(270W,80W/cm2)EVAC/LTS(350W,80W/cm2)LAAC(450W,120W/cm2)超薄/3D冷板(550W,180W/cm2)閉式射流(800W,1.31.31.21.151.0512020年2022年2024年2030年圖 2-21 存儲設備散熱技術數據中心的冷卻系統用電量,占總用電量的 30%-60%,如何將熱量更高效的帶出 IT 設備,增加整機散熱能力,減少制冷系統功耗,成為綠色低碳的關鍵因素29。當前數據中心主要采用風冷散熱技術,COP(Coefficient of Performance)約為510水平,存在噪音
139、大,無法滿足數據中心散熱能耗的需求。未來片上的免導熱材料、閉式射流沖擊冷卻散熱技術、新型冷卻技術、整機余熱回收等技術的突破,可有效提高散熱效率,從硬件各層面減少碳排放。需要解決零熱阻的焊接技術、高比熱容且耐腐蝕的非水工質液冷材料和電機轉換效率等問題。4)資源感知的統籌調度技術清潔能源是在生產過程中不產生任何溫室氣體的能源,包括太陽能、風能、水能、地熱能、生物能源和核能。大型數據中心可集約布局到清潔能源豐富的西部,同時為實現就近計算,計算也放在西部,但會存在計算延時大的問題。東部保留小規模、極低時延的邊緣數據中心,以滿足業務低時延要求并減少需要搬移的數據。需開發數據放置策略及跨多 DC 調度引擎
140、,動態實時感知計算、網絡、存儲資源位置、狀態以及可用性、異構性,地域資源定價、碳排放標準等關鍵因素,實現跨 DC 統籌分配。結合數據智能協同調度,實現跨 DC 的全局統一數據抽取、分析、聚合框架,獲得計算效率、數據移動效率與能耗效率最優。49數據存儲 2030數據傳輸能效提升當前數據中心網絡通信設備約占總能耗的15%,在 AI、大數據分析等新應用驅動下,數據中心對數據傳輸帶寬需求越來越高。隨著400G、800G時代來臨,網絡帶寬想進一步提升,功耗將成為瓶頸。預計 2030 年電費支出約占數據中心年運營成本的 95%,網絡設備能耗占數據中心總能耗的 20%,亟需優化數據傳輸能效。當前數據中心網絡
141、方案中,“光-電-光”的轉換過程及電信號的處理能耗最大,減少網絡中光電轉換次數,可有效減少整體能耗。光交換基于光信號直接映射到出端口,無需額外光電轉換,且具備 10TB 級帶寬,ns 級時延,每瓦 TB 級能效優勢。當前光交換基于時間交換技術,光路切換時延需數十毫秒,通過光電混合技術可構建高通量網絡。未來,需突破納秒級切換光器件技術和高速交換算法,實現低功耗的全光數據中心網絡。芯片級節能技術當前存儲系統中絕大部分的能耗都由芯片產生,如何降低芯片能耗至關重要。隨著芯片元件集成度提高,單位體積內散熱增加,但由于芯片材料散熱速度有限,“熱耗效應”限制芯片性能發揮。如何增加芯片算力的同時控制芯片能耗成
142、為一大挑戰。異構多樣化算力集成、片上動態能效智能管理等技術,可有效解決高算力與低功耗的矛盾。芯片節能技術主要有以下幾個研究方向:1)低功耗原材料隨著冷源結構、氧化物材料、碳基納米材料等新興芯片材料的發展,3D 封裝、Wafer Level Chip 等封裝技術的進步,互補場效應晶體管(CFET)等低功耗技術突破,芯片集成密度有望持續提升。2)高密低功耗工藝經典物理規律為隨著芯片元器件尺寸減少,能耗隨之減少,但在納米、埃米尺度下,會出現“尺寸效應”,此規律不再適用。未來有望通過 DTCOSTCO 技術,尋找最佳芯片設計和光刻工藝方案,使晶體管數量增加至千億級。3)芯片能耗管理片上能耗管理技術,是
143、通過控制芯片電壓與時50數據存儲 2030鐘頻率,達成降低能耗的一類技術。當前芯片電壓和時鐘頻率都是由芯片整體控制,按模塊最大需求設置,能量浪費大。片上能耗管理技術有望根據業務負載,按分核級別控制電壓和核內子模塊的時鐘頻率開關,使芯片能耗/算力成比例增長,達到所耗皆所用。未來,可結合AI 和傳感器技術實現功率預測、功率封頂和部件功耗控制,達成各部件能效比最優。4)數據處理專業化隨著摩爾定律放緩,單 CPU 性能提升面臨瓶頸,算力年增長量小于 50%,供需差距越來越大。隨著登納德縮放定律的終結,采用多核技術提升算力的方法,將導致能耗大幅增加。經典通用處理器架構難以滿足多元化應用發展。通過特定領域
144、的體系結構設計,可以滿足多樣化算力需求,大幅降低系統功耗30。當前特定領域體系架構通過高效的并行形式、層次化內存結構、混合精度和特定領域編程語言實現多樣化算力。由于系統架構、指令集和編程模型的差異大,使多樣化算力的發展,面臨程序跨平臺運行難和編程復雜性高的挑戰。未來,有望通過統一指令集、異構資源抽象、高效資源調度和異構編程模型的技術突破,實現大規模多系統的編譯器、編程語言、加速庫、開發工具等異構軟件平臺。綠色集約標準2022 年全國數據中心耗電量約為 2700 億千瓦時,較 2021 年增加 25%,占全社會用電量的 3.1%,預計到 2030 年數據中心能源消耗翻一番。數據中心用能存在高碳排
145、、重污染的情況,存儲產業亟需逐步完善綠色集約相關法規標準,助力國家“雙碳”戰略。當前面向數據中心的綠色標準,如能效仿真模型、節能技術、LCA 碳排放測評、減碳低碳、循環回收等標準已有初步發展,但存儲產業未形成統一綠色集約標準。未來,存儲產業有望建立統一綠色集約標準,覆蓋數據全生命周期碳足跡、芯控接口、數據傳輸功耗、存儲設備能效、存儲設備碳排放強度和存儲設備可再生能源利用率等關鍵指標,制定能耗基準,形成存儲綠色低碳綜合評價體系。51數據存儲 2030數據存儲 2030 倡議03隨著數字經濟的全球化,數據存儲產業作為數字化基礎設施的基石,具有至關重要的作用。為了應對 2030 年 YB 級數據帶來
146、的挑戰,不斷提升數據存儲的整體競爭力和產業協同性,實現產業級重大創新和突破,我們建議在以下幾個方面持續開展協同技術創新:1、應對多樣化數據的挑戰,發展多元化介質,重點推進介質應用創新,大幅度提升介質容量密度和每比特能效;2、突破傳統的馮諾依曼體系架構,推進以數據為中心體系架構的建設,構建高通量對等互聯總線,建立統一的互聯互通標準和協議,重構數據基礎設施。3、重視存力建設,以存補算,從數據處理的全流程來建立存力量綱,提升數字化基礎設施的整體效率;4、推動零信任存儲體系建設,促進數據的產權、使用權和控制權分離,建立數據重力相關指數的行業標準,大幅度提升數據可信流動效率;5、推進每比特最優能效和碳排
147、放的綠色集約標準體系建設,發展可持續 IT,從以環境能效為中心的節能要走向以 IT 系統效率為中心的可持續節能。讓我們共同努力,一起開創數字化基礎設施的大航海時代!52數據存儲 2030附錄 A:參考文獻【1】Seagate and IDC,Data Age 2025,May 2020【2】Gartner,“Forecast:Hard-Disk Drives,Worldwide,2020-2026”,2022.https:/ Health Organization.World health statistics 2021:monitoring health for the SDGs,susta
148、inable development goals.2021.https:/apps.who.int/iris/handle/10665/342703.【4】德勤中國,數字化健康白皮書,2021【5】聯合國,2030 年可持續發展目標在中國,http:/sdgcn.org/sdg2.html【6】,Smart Home Technologies Reshape Real Estate Preferences in 2020,https:/ Economic Forum,Raising Ambitions:A new roadmap for the automotive circular econ
149、omy,2022,https:/www3.weforum.org/docs/WEF_Raising_Ambitions_2020.pdf【8】IDC,全球智慧城市支出指南,2020【9】Korn Ferry,Future of Work-The Global Talent Crunch,2018,https:/ 合 國 環 境 規 劃 署,Emissions Gap Report 2020,2020,https:/www.unep.org/emissions-gap-report-2020【11】Abbosh O.,Bissell K.,Reinventing the Internet to
150、Secure the Digital Economy,2019,https:/ L.and Patterson,David A.,Computer Architecture,Fifth Edition:A Quantitative Approach,Morgan Kaufmann Publishers Inc.,2011【13】中國信息通信研究院,數據要素白皮書,2022【14】Gartner,HDD and SSD market forecast,2021【15】Yang S,Zhang J.Current Progress of Magnetoresistance Sensors.Chem
151、osensors,2021【16】Takeshi H.,Hitoshi N.A study on high-density recording with particulate tape media for data storage systems,Synthesiology,201753數據存儲 2030【17】SONY,Optical disc archive generation 2 white paper,2016【18】Yuan X.,Zhao M.,Guo X.,Li Y.,Gan Z.and Ruan H.,Optical tape for high capacity three
152、-dimensional optical data storage,Chinese Optics Letters,2020【19】舒繼武,新型存算分離架構技術展望,中國計算機學會通信,2022【20】范東睿,葉笑春,包云崗,孫凝暉,中國高通量計算機的自主研發之路,中國高性能計算發展戰略專題,2019【21】Conte T.M.,DeBenedictis E.P.,Gargini P.A.and Track E.,Rebooting Computing:The Road Ahead,IEEE Computer Society Press,2017【22】鄔江興,網絡空間內生安全發展范式,中國科學
153、:信息科學,2022【23】Yin X.F.,Zhu Y.M.,Hu J.K.,A Comprehensive Survey of Privacy-preserving Federated Learning:A Taxonomy,Review,and Future Directions,ACM Computing Surveys,2022【24】Gupta A.,Key Pillars of a Comprehensive Data Fabric,Gartner,2021【25】Microsoft Azure,Azure 認知搜索中的知識存儲,2023,https:/ T.,Ahuja C.,
154、Morency L.P.,Multimodal machine learning:a survey and taxonomy.IEEE Transactions on Pattern Analysis and Machine Intelligence,2019【27】Wilson G.,Cook D.J.,A Survey of Unsupervised Deep Domain Adaptation,Association for Computing Machinery,2020【28】Yu Y.,Wu C.,Zhao T.,OPU:An FPGA-based overlay processo
155、r for convolutional neural networks,IEEE Transactions on Very Large Scale Integration(VLSI)Systems,2020【29】國家信息中心,數據中心綠色高質量發展研究報告,2022【30】Hennessy J.L.,Patterson D.A.,A New Golden Age for Computer Architecture,Communications of the ACM,201954數據存儲 2030縮略語英文全稱中文全稱ABEAttribute-Based Encryption基于屬性加密AIo
156、TArtificial intelligence of things人工智能物聯網CBACMOS Banded ArrayCMOS 與 Array 鍵合CFETComplementary Field Effect Transistor互補場效應晶體管CIMCompute In Memory存內計算CMOSComplementary MetalOxideSemiconductor互補式金屬氧化物半導體CNACMOS Next to Array、CMOS Near ArrayCMOS 在 Array 旁邊COPCoefficient of Performance性能系數CUACMOS Under
157、ArrayCMOS 在 Array 下邊CUECarbon Use Efficiency碳利用效率指標DNADeoxyribonucleic acid脫氧核糖核酸DPUData Process Unit數據處理單元DRAMDynamic Random Access Memory動態隨機存取存儲器DTCODesign-Technology Co-Optimization設計工藝協同優化EDAElectronic design automation電子設計自動化HAMRHeat Assisted Magnetic Recording熱輔助磁記錄HDDHard Disk Drive硬盤HPDAHig
158、h Performance Data Analytics高性能數據分析IoTInternet of things物聯網附錄 B:縮略語55數據存儲 2030縮略語英文全稱中文全稱LCALife Cycle Assessment生命周期評估LTFSLinear Tape File System線性磁帶文件系統LTOLinear Tape Open開放線性磁帶MAMRMicrowave Assisted Magnetic Recording微波輔助磁記錄MRAMMagneto resistive Random-Access Memory磁阻式隨機存取存儲器PBPetabyte拍字節,千萬億字節PL
159、CPenta-Level Cell五層式存儲單元PUEPower Usage Effectiveness能源利用效率QLCQuad-Level Cell四層式存儲單元SCIStorage Compute Integrated存儲計算集成SCMStorage Class Memory存儲級存儲器SSDSolid-State Drive固態盤STCOSystem Technology Co-Optimization系統技術協同優化STT-MRAMSpin-transfer torque MRAM自旋轉移轉矩磁性存儲器TEETrusted Execution Environment可信執行環境UBU
160、nified Bus統一系統總線Wafer LevelWafer Level晶圓級YBYottabyte堯字節,一億億億字節ZBZettabyte澤字節,十萬億億字節56數據存儲 2030附錄 C:致謝數據存儲 2030 編寫過程中得到了來自華為內外部多方的大力支持,100 多位來自華為的專家和社會各界知名學者參與了材料的討論、交流,貢獻思想、共同暢想了 2030 年數據存儲產業的發展方向和技術特征,在此對所有參與技術交流和討論的學者們致以誠摯謝意?。▽W者名單按照姓名字母排序,不分前后)包云崗(中科院計算所,研究員)崔鶴鳴(香港大學,副教授)陳明宇(中科院計算所,研究員)馮 丹(華中科技大學,
161、長江學者特聘教授)顧 榮(南京大學,特聘研究員)過敏意(上海交通大學,教授,IEEE Fellow,歐洲科學院院士)黃 勤(北京航空航天大學,教授)蔣德鈞(中科院計算所,副研究員)金 海(華中科技大學,長江學者特聘教授,IEEE Fellow)李 祎(華中科技大學,副教授)劉賢明(哈爾濱工業大學,教授)陸游游(清華大學,副教授)繆向水(華中科技大學,教授)任 奎(浙江大學,教授,ACM Fellow,IEEE Fellow)舒繼武(清華大學,長江學者特聘教授,IEEE Fellow)唐 卓(湖南大學,教授)王 聰(香港城市大學,教授)王則可(浙江大學,百人計劃研究員)王肇國(上海交通大學,副教
162、授)鄔賀銓(中國工程院院士)謝長生(華中科技大學,教授)趙世振(上海交通大學,副教授)周 可(華中科技大學,長江學者特聘教授)57數據存儲 20302024 年版本刷新說明 華為積極與業界知名學者、客戶、伙伴深入交流,投入對智能世界的持續探索。我們看到智能世界的進程明顯加速,新技術和新場景不斷涌現,產業相關參數指數級變化。為此,華為對 2021 年發布的數據存儲 2030進行系統刷新,展望面向 2030 年的場景、趨勢,并對相關預測數據進行了調整。華為技術有限公司深圳龍崗區坂田華為基地電話:+86 755 28780808郵編:免責聲明本文檔可能含有預測信息,包括但不限于有關未來的財務、運營、產品系列、新技術等信息。由于實踐中存在很多不確定因素,可能導致實際結果與預測信息有很大的差別。因此,本文檔信息僅供參考,不構成任何要約或承諾,華為不對您在本文檔基礎上做出的任何行為承擔責任。華為可能不經通知修改上述信息,恕不另行通知。版權所有 華為技術有限公司 2024。保留一切權利。非經華為技術有限公司書面同意,任何單位和個人不得擅自摘抄、復制本手冊內容的部分或全部,并不得以任何形式傳播。商標聲明 ,是華為技術有限公司商標或者注冊商標,在本手冊中以及本手冊描述的產品中,出現的其它商標,產品名稱,服務名稱以及公司名稱,由其各自的所有人擁有。