《艾瑞咨詢:2022年中國數智融合發展洞察報告(28頁).pdf》由會員分享,可在線閱讀,更多相關《艾瑞咨詢:2022年中國數智融合發展洞察報告(28頁).pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、2022.7 iResearch Inc.中國數智融合發展洞察22022.7 iResearch I摘要來源:艾瑞咨詢研究院自主研究及繪制。VUCA時代,市場變化加速。企業需要更加敏捷而準確的數智化決策,這些決策應當是分鐘級的而非天級的,應當是基于全量數據的而非局部數據的,應當是基于準確數據的而非基于“臟數據”的,應當是業務人員和數據分析人員任意發起的而非是通過復雜流程和多部門配合才能實現的。傳統的數倉或者湖倉分離架構讓數智融合和企業敏捷決策變得困難:數據孤島存在,決策無法基于全量數據;數據來回流轉,成本高、周期長、時效差?;诖鎯?緩存-計算分離,湖-倉-AI數據統一元數據管理的Server
2、less,可在數據量、成本、效率、敏捷方面取得最優解。開源為數智生態貢獻重要力量,但這不預示所有企業需通過開源產品自建數智平臺。實際上,大多企業聚焦自己核心業務,選擇性能穩定、無須運維、數智融合、端到端自動化與智能化的商業化數智平臺,ROI會更高。當然,平臺應與主流開源產品具有良好繼承性,如此,更加靈活開放,企業的IT人才補給成本也更低。3中國數智融合發展背景1企業數智融合的痛點及應對2數智融合典型實踐342022.7 iResearch I2022.7 iResearch I數據量和非結構化數據占比上升統一管理,統一查詢使用,成為新的挑戰全球數據量以59%以上的年增長率快速增長,其中80%是
3、非結構化和半結構化數據,中國數據量的上升較全球更為迅速。數據量和非結構化數據的上升,使得基于對象存儲的數據湖越來越為普及。此時,如何使用統一管理,統一查詢使用,成為新的挑戰。來源:中國電信招股說明書,艾瑞咨詢研究院整理及繪制。來源:艾瑞咨詢研究院自主研究及繪制。2015-2030年中國數據量規模及全球占比企業內結構化數據與非結構化數據占比及使用情況在企業的數據中,結構化數據僅占20%,其余80%都是以文件、語音、圖片等形式存在的非結構化數據。且非結構化數據的增速遠遠高于結構化數據,隨著時間的推移,非結構化數據所占的比例將會越來越高。企業長期以來,受技術影響,對結構化數據的利用率均高于對非結構化
4、數據的利用率。但實際上,非結構化數據的體量與其包含的信息量都更多,是企業未得到充分利用的寶貴資產。結構化數據,70%非結構化數據,30%3124917523.2%23.6%27.8%28.8%201520202025e2030e中國年數據量(ZB)中國年數據量全球占比(%)非結構化數據,80%結構化數據,20%52022.7 iResearch I2022.7 iResearch I數據多源異構成為常態數據從“匯聚才可被用”到“鏈接即可被用”在傳統數倉中,多源數據經ETL過程并集中入倉,方可被使用。該方式有許多不足:第一,因有復雜的ETL過程及大量數據的傳輸,數據實時性難以保障,因此分析常必須
5、T+1才可完成;第二,數據的全量存儲和存儲成本之間難以取舍,因此必須提前抉擇保留哪些數據,隨著數據種類的逐漸增多,這很難做到;第三,對于異常值的下鉆、回溯等,無法回溯到最為原始的數據。隨著應用場景的增多,數據庫的種類也逐漸豐富,如更適應物聯網場景的時序數據庫、更適應知識譜圖應用的圖數據庫,等等。綜上,多源異構、分布存儲、現用現傳、統一查詢與應用的架構,逐漸被敏捷型企業認可。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。數據倉庫vs數據湖vs湖倉一體數據庫的多源性BI報表結構化/半結構化數據ETL數據倉庫結構化/半結構化/非結構化數據數據處理BI報表數據湖數倉集群 數湖
6、集群統一資源池計算層存儲層計算層存儲層存算分離,彈性擴展接口BI報表數據倉庫vs湖倉一體數據湖vs湖倉一體“湖倉一體”作為數據處理統一底座,提供實時處理多引擎、多數據類型能力,避免數據移動建模,降低數據處理的成本?!昂}一體”彌補Hadoop下數據湖實時數據處理的缺失,降低事后數據治理難度,提升了大數據應用性能。公有云1公有云2私有云虛擬機物理機OracleDB2達夢開源OpenGaussMySQLPostgreSQLReids關系型非關系型部署資源管理 監控巡檢性能容量高可用安全性一站式數據庫管理62022.7 iResearch I大數據的5V價值有待進一步釋放可從平臺性工具入手,進而解決
7、思維和技能的問題來源:艾瑞咨詢研究院根據公開資料整理。大數據5V特性大數據產業作為以數據生成、采集、存儲、加工、分析、服務為主的戰略性新興產業,提供全鏈條技術、工具和平臺,孕育數據要素市場主體,深度參與數據要素全生命周期活動,是激活數據要素潛能的關鍵支撐,是數據要素市場培育的重要內容。目前,大數據產業仍存在數據壁壘突出、碎片化問題嚴重等瓶頸約束,大數據容量大、類型多、速度快、精度準、價值高的5V特性未能得到充分釋放。這其中既有思維、技能的要素,又有工具的要素,三者也并非割裂存在,一般來說,性能穩定、簡單易用的全鏈條平臺工具有助于消除思維的“不敢”和技能的“不會”,化解掉5V特性釋放的原始阻力,
8、使得大數據更加普適化。大數據5V特征數量(Volume)l TB級l 記錄/日志l 事務l 表&文件種類(Variety)速度(Velocity)l 批處理l 實時l 多進程l 數據流價值(Value)l 統計學l 事件性l 相關性l 假設性l 結構化l 非結構化l 多因素l 概率性真實性(Veracity)l 可信性l 真偽性l 來源&信譽l 有效性l 可審計性72022.7 iResearch I2022.7 iResearch I云原生:從微服務走向Serverless從PaaS到FaaS,基礎設施被更深層次地托管和“屏蔽”當前,微服務的生態和實踐已經比較成熟,其設計方法、開發框架、CI
9、/CD工具、基礎設施管理工具等,都可以幫助企業順利實施,然而其仍有許多不足:(1)粒度仍然比較大。(2)開發仍有較高門檻。(3)微服務基礎設施管理、高可用和彈性仍然很難保證。(4)基礎設施的成本依然較高。而Serverless中,開發者不再需要將時間和資源花費在服務器調配、維護、更新、擴展和容量規劃上,這些任務都由平臺處理,開發者只需要專注于編寫應用程序的業務邏輯。如果再結合低零代碼,則“編寫應用程序”的難度也大為降低,企業內的技術人員更加貼近業務。來源:華為serverless核心技術與實踐,艾瑞咨詢研究院整理及繪制。來源:華為serverless核心技術與實踐,艾瑞咨詢研究院整理及繪制。微
10、服務中,大量運維仍未被托管微服務開發/DevOpsKubernetes集群DevOps虛擬機基礎設施運維團隊計算,存儲,網絡云供應商典型的serverless架構HTTP請求API網關消息列隊定時器IoT觸發器事件FaaS控制器事件異步/同步函數實例容器FaaS平臺def handler(event,context)函數編程模型event context云存儲消息隊列消息隊列身份認證API網關.BaaS平臺82022.7 iResearch I人工智能:需要大規模準確數據哺育人工智能應用引發數據治理需求企業在部署AI應用時,數據資源的優劣極大程度決定了AI應用的落地效果。因此,為推進AI應用的
11、高質量落地,開展針對性的數據治理工作為首要且必要的環節。而對于企業本身已搭建的傳統數據治理體系,目前多停留在對于結構性數據的治理優化,在數據質量、數據字段豐富度、數據分布和數據實時性等維度尚難滿足AI應用對數據的高質量要求。為保證AI應用的高質效落地,企業仍需進行面向人工智能應用的二次數據治理工作。來源:艾瑞咨詢研究院自主研究及繪制。AI應用對數據治理需求AI應用的數據要求數據治理的需求傳導基于AI應用的數據治理需求數據規模挖掘企業內外部信息,納入結構化數據、半結構化數據和非結構化數據,提升與AI模型相關的數據積累。數據訓練規模擴張,數據類型異構,數據噪聲指數級增加,對此建立針對性的數據治理體
12、系特征工程AI模型需納入實時數據,構建批流一體的數據聚合計算模式傳統數據治理多以人為面向對象,基于有限數據容量進行聚合類信息展示,AI可接納數據量遠遠大于人所接納的數據量和信息量,且可用高質量數據越多,模型質量和準確性越好。AI應用,尤其是知識圖譜搭建,需要大量半結構化和非結構化數據支持來開展工作。因此AI應用在結構化數據基礎上,將半結構化或非結構化數據納入數據源并支持上層分析應用。AI模型對數據高度敏感,其質量優劣極大程度影響AI模型的應用效果,因此AI數據源需極力規避“garbage in,garbage out”的問題發生,多維度的質量檢查成為必修課。AI模型對實時性要求高,大部分應用需
13、基于實時數據實現分析、推薦和預警等目的,支持AI應用的數據源更強調具備實時性接入能力。接入實時性數據多個數據源下的數據內容不一致等問題;缺失值、缺失字段;錯誤值、異常樣本;數據融合&質量優化融合結構化數據、半結構化數據和非結構化數據,進行以AI應用為目的特征工程接入多源異構數據源數據類型數據質量數據實時性92022.7 iResearch I業務敏捷需要IT架構“去過程化”通過抽象解耦、水平擴展、自動化與智能化實現去過程化VUCA時代,市場變化加速,通過數據來分析和決策的需求,也有了更高的不確定性。當這些需求提出,通過一套復雜的IT流程和漫長的等待,變得不再現實,IT架構的去過程化變得極為重要
14、。去過程化是指減少或完全去掉原始數據/原子能力與業務需求之間的中間數據/步驟,或使中間數據/步驟無須人為干預,自動化、智能化完成。其可實現架構的簡單化、扁平化,同時可對業務需求實時響應,以進一步實現敏捷和創新。架構一開始就放棄“精細梳理方可使用”以及“梳理完成千萬別動”思想,用全量原始數據保障讀時模式,有助于打破“僵”與“亂”的悖論,使得企業用更少的“能量”便可以維持數字化系統的持續運行。來源:艾瑞咨詢研究院自主研究及繪制。敏捷的 展現交互層/應用層去過程化四大支撐原始非結構化數據結構化數據處理原子能力數據模型低/無代碼應用人用數/產數物聯網應用設備用數/產數敏捷BI人看數/用數智能的 計算層
15、/處理層統一的 數據層/存儲層-低代碼/無代碼敏捷BIGraphQL/JsonAPI-統一查詢語言統一接口統一角色與權限-微服務泛化模型智能決策-冷熱溫數據分層RDMA存算分離-對象存儲/數據湖數據倉庫湖倉一體-抽象與解耦將IT架構抽象成存儲、處理、應用三層,處理層又拆分成原子能力和數據模型,當不確定的需求來臨,現將數據、能力、展現與應用形式進行組合進行處理。穩定且可水平擴展的基礎設施應用的敏來自于基礎的穩,上層的簡來自于底層的繁,基礎設施穩定性更加重要。高性能計算與網絡存算分離和讀時模式往往存在更多的重復數據傳輸與計算,對網絡和計算要求更高。自動化與智能化通過智能化完成基礎性能優化,降低硬件
16、壓力或硬件成本;通過智能化完成部分過程的自動化,從而屏蔽“人”視角下的該過程。去過程化分層示例相關標簽1012數智融合典型實踐3企業數智融合的痛點及應對中國數智融合發展背景112022.7 iResearch I痛點一:數據量-成本-效率難以兼得不可能三角需要更高維的技術去打破在傳統架構中,數據量、存儲成本和計算效率是一組不可能三角。如果不考慮數據量和數據類型,那么一個傳統的數倉或者單體的DBMS即可滿足;不考慮計算效率,那么基于HDFS或者公有云對象存儲即可滿足,當下價格僅約0.1元/G/月,并持續下降,歸檔存儲等價格更低;不考慮存儲成本,可使用非易失性存儲,其擁有一般硬盤的無限容量和斷電保
17、護特性,卻有接近于內存的性能。來源:艾瑞咨詢研究院自主研究及繪制。傳統架構下數據量、存儲成本和計算效率的不可能三角存儲成本數據量對象存儲計算效率數倉SCM?122022.7 iResearch I2022.7 iResearch I應對一:存儲-緩存-計算三層分離以內存為中心的架構,在大數據量下降低成本、保持性能為了使數據充分共享,降低均攤成本且打破數據孤島,存算分離架構產生,存儲和計算各自彈性伸縮,按需使用。但此時,因存儲拉遠,IO成為瓶頸,性能有所下降,因此需要緩存層來存儲高IO的熱數據,并最終形成以內存為中心的架構。從必要性看,以計算為中心架構已經無法適應當前數據生態發展:數據方面,大數
18、據、人工智能等以數據為中心的工作負載快速發展;云方面,數據湖存算分離架構存儲訪問性能低,不支持實時分析。從可行性看,介質、網絡、協議的高速發展驅動架構轉型:SCM填補了內存縱向擴展的介質空白;緩存一致性標準的爭奪進入白熱化;高速內存直連協議及技術(如華為1520,InfiniBand,Converged Ethernet)使得內存的遠程直接訪問不再是障礙。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。以內存為中心的系統架構示意圖以內存為中心的架構技術優勢計算(內存中心架構)CPUCPUCPU存儲池磁盤磁盤緩存緩存緩存內存內存RDMA,加載/存儲內存核心價值與技術優勢性
19、能:內存密集型和分布式應用減少數據搬運/拷貝、提升性能l HPE以內存為中心系統提升Spark性能15倍l HPE分布式圖計算場景性能提升128倍l MemVerge分級大內存提升深度學習性能20倍成本:內存池化和升級l 內存池化提升內存資源利用率l 通過更低成本的SCM獲得大容量內存擴展能力故障解耦合:CPU和內存的故障不相互影響彈性增強:CPU和內存可獨立擴縮容132022.7 iResearch I2022.7 iResearch I痛點二:倉-湖-AI數據形成新孤島要么隔離,要么遷移,均無法適應全量、敏捷、低成本需求數據分析和AI分析經過多年的發展,出現了很多面向不同任務的專用數據系統
20、:數倉系統處理結構化數據,規模不夠大;基于對象存儲的大數據系統處理海量數據和非結構化數據;AI系統一般是數據存儲在本地。這些專用系統要么無法打通,形成新的數據孤島,要么不同業務的開發要遷移數據,耗費存儲和網絡資源,數據準備慢、等待周期長,且面臨后期數據不一致的風險,發現異常時數據的下鉆、溯源等也相對困難,無法適應市場環境快速變化下敏捷數據分析的需求。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。數倉、數據湖和AI數據形成新的數據孤島數倉數據湖AI數據隔離數倉數據湖AI數據網絡成本時間成本數據遷移導致副本增多、資源浪費、管理困難142022.7 iResearch I應
21、對二:統一元數據到中心節點Master-Slave架構,以集中管理代替集中存儲把數倉、數據湖、AI數據的目錄、數據權限、事務一致性、多版本管理等能力都統一到一個中心點,依賴于這個中心點來訪問數據,這樣數據的利用就不會被孤立的系統束縛。這種分布式存儲,統一管理的Master-Slave架構,類似于計算領域的Mapreduce。這種方式:首先,可以打破數據孤島、讓一份數據在多個引擎間自由共享,例如同一個表格可以被不同的分析工具做分析,既可以跑數倉任務,也可以做大數據和機器學習任務,不同的用戶角色不管用什么工具訪問數據,都有一致的權限,一致的事務控制;其次,可以避免數據來回遷移而造成資源的浪費;再次
22、,任何環節都可以看到自己權限下的全量數據,例如ML工程師可以利用整個數據湖的數據做特征訓練;最后,所有模型均基于唯一事實來源(原始數據),避免不同團隊基于不同數據分析造成結果不一致,且一旦發現異??梢员憬莸叵裸@、回溯。來源:艾瑞咨詢研究院自主研究及繪制?;跀祿斓臄祩}關系型非關系型圖型時序型數據湖基于Hadoop HDFS的基于公有云對象存儲的Master節點:統一元數據(目錄/數據權限/事務一致性/多版本管理)AI數據大數據任務機器學習任務其他應用和任務統一元數據示意圖152022.7 iResearch I痛點三:開源產品豐富,但開發運維難開發成本高,運維成本高,技術與時俱進難,風險大盡
23、管在云、數、智體系下,開源產品極為豐富,但企業安全、穩定地駕馭,TCO并不低。在開發上,企業一般需花費20-1000人力年的時間,不能滿足業務敏捷性;在運維上,人工運維,事后補救,宕機頻繁,耗時耗力;在技術更新上,開發人員難以與時俱進,資源浪費嚴重;在IT風險上,企業將面對IT團隊自身的風險(復雜架構下,團隊離職無人接手)以及開源產品的漏洞風險(如log4j4漏洞事件),還可能面對因經驗不足選型錯誤的風險;在體驗上,因產品自產自用,復用率低,技術團隊一般只保障基礎需求,對于降低業務人員使用難度、提升使用體驗的附加性需求響應度低。并且,這些基礎的開發、運維等,與企業核心業務常無必然聯系,并不會帶
24、來企業核心競爭力的提升,導致企業數智化的ROI較低。來源:艾瑞咨詢研究院自主研究及繪制。企業利用開源產品自行搭建數智平臺面臨的困難開發運維技術更新IT風險體驗花費20-1000人力年時間,不能滿足業務敏捷性人工運維事后補救宕機頻繁耗時耗力開發人員難以與時俱進,資源浪費嚴重IT團隊自身風險;開源產品漏洞風險;經驗不足選型錯誤風險產品復用率低;只保障基礎需求,附加性需求響應度低162022.7 iResearch I應對三:DataOps和MLOps融合享受成熟產品的紅利,兼顧與開源產品的繼承和包容性企業在數智化選型中,應首先明確自身的核心競爭力和能力邊界,摒棄“重即好”思想,以更加輕盈的Serv
25、erless、Lowcode/Nocode、SaaS等方式享受社會分工和先進技術的紅利。以數智融合為例,拋開IaaS層,企業自研還需掌握Kubernetes+Docker生態、Java+Hadoop生態、Python+Pytorch/Tensorflow生態、SQL生態即便成功對接,往往也離好用、敏捷相去甚遠,最終往往只形成指標長期不變的靜態報表。而與此同時,業界已存在較為領先的一站式數智平臺,讓數據工程師甚至業務人員以簡單、熟悉的工具/語言,甚至拖拉拽即可在全域數據內使用預置AI算法,打通大數據和人工智能,使得DataOps和MLOps融合,使數據和模型的開發成本大為降低,周期大為縮短。企業
26、選擇基于開源產品自研,不少時候是出于一種怕被“綁架”的防御心態,以化解供應商倒閉或漲價等風險。為此,企業可從供應商綜合實力,與開源產品的包容度和繼承性等方面綜合考慮,做到可組可分,靈活裝配。來源:艾瑞咨詢研究院自主研究及繪制。將大數據和人工智能打通的DataOps和MLOps簡單、易用、全局能力調用ServerlessLowcodeNocodeSaaS靈活裝配產品與開源產品包容度產品與開源產品繼承性供應商綜合實力實現可組可分,抵抗供應商倒閉或漲價等風險172022.7 iResearch I痛點四:數據準備工作復雜低效數據長生命周期決定了其復雜性數據質量至關重要,錯誤數據致使企業做出錯誤決策。
27、數據的生成、采集、存儲、加工、分析、服務、安全、應用長生命周期,使得數據的準備工作復雜、低效。例如,數據工程師開發大量的ETL任務,依賴大量算力資源,運行成本高,作業管理復雜,時間周期長,而此時數據分析師和AI開發者都需要等待ETL任務執行完,才能做相應的分析工作和建模工作。Cognilytica調研顯示,機器學習中,超過80%的時間都用于數據的準備,預示著大量的數據工作其實與企業的經營目標并不相關,只是不得以而為之。并且,當任務不能便捷地執行和即時的反饋,偏業務側的數據分析師常主動放棄“不太重要的”需求和對數據的深入探索。顯然,這些都不符合企業數智化轉型的真正目標。來源:Data-prepa
28、ration-labeling-for-ai-2020,Cognilytica.機器學習中數據準備工作的時間分配數據清洗,25%數據標簽,25%數據增強,15%模型訓練,10%數據集,10%模型調優,5%數據識別,5%算法優化,3%模型運行,2%182022.7 iResearch I應對四:端到端的自動化與智能化低零代碼實現自動化,AI反哺數據實現智能化實現數據應用的敏捷化和去過程化,需要在整個數據鏈條的端到端實現自動化和智能化。自動化一般用低/零代碼實現:一方面可以屏蔽軟硬件差異和復雜的底層技術,以便于理解的拖拉拽和少量代碼,來降低使用門檻;另一方面,可以基于規則,配置自動化的工作流,以i
29、fttt的方式減少重復工作量。智能化是指基于半監督或無監督的學習,自動發現數據管理中的規則,在Data4AI的同時,實現AI4Data,目前人工智能已經用于數據集成、數據質量、數據建模、數據安全與訪問控制、數據關聯、數據洞察等多個場景中。另外,低/零代碼常和人工智能結合使用:將人工智能的統計意義上的規則,融入到低/零代碼的邏輯化的流程中。來源:艾瑞咨詢研究院自主研究及繪制。人工智能在數據管理中的應用(AI4Data)人工智能幫助企業識別主數據。人工智能幫助定義和維護數據匹配規則。主數據管理隱私級自動標注。數據傳輸監控。數據安全基于機器學習,確定數據閾值。對完整性、規范性、一致性、準確性、唯一性
30、、時效性進行檢查。臟數據自動識別訂正。數據質量檢查人工智能實現對非結構化數據的采集和關鍵信息的提取。人工智能幫助維護元數據。人工智能幫助實現元數據的整合。元數據管理利用聚類和知識圖譜確定實體間關系。利用知識圖譜等進行數據血緣分析。數據模型管理19123中國數智融合發展背景企業數智融合的痛點及應對數智融合典型實踐202022.7 iResearch I2022.7 iResearch I華為云DataArts+ModelArts獨家創新架構:兼顧成本與性能,實現統一管理、一數多用,數智融合實現敏捷用數,全流程實現自動化與智能化華為云通過DataArts和ModelArts融合架構,打通了大數據和
31、人工智能。統一了元數據,使得一數多用,打破數據孤島,同時避免數據來回遷移。存儲-緩存-內存三層分離,兼顧存儲成本和計算性能。DataQps和MLOps結合,讓企業不同部門、不同角色可以以擅長的方式敏捷用數。低零代碼和人工智能反哺數據(AI4Data),使得全流程實現自動化與智能化。來源:華為云,艾瑞咨詢研究院整理及繪制來源:華為云,艾瑞咨詢研究院整理及繪制華為云數智融合平臺創新架構華為云數智融合平臺核心價值核心痛點核心價值數據持有成本高,業務響應不及時數據系統不互通,數據孤島現象嚴重數據使用仍有門檻高、碎片化等技術瓶頸約束統一元數據,架構簡單,一數多用數據治理難度大、耗時長,最終效果不佳Dat
32、aOps和MLOps融合,不同角色各用所長,各取所需全流程的自動化和智能化,讓繁重的數據治理變得簡單三層分離,兼顧成本與性能表格OBS數據湖存儲數據集模型DataArts LakeFormation數倉、數據湖、AI的元數據統一管理統一目錄統一權限統一事務統一索引DataArts生產線ModelArts生產線數據集成數據架構數據開發數據質量數據目錄數據服務數據安全MRSHadoop生態數據分析DLIServerless數據分析DWS數據倉庫數據標注數據處理模型訓練模型評估應用生成應用評估推理部署服務檢測數據校驗特征計算模型訓練(MA內置算法)模型編譯SQL中嵌入訓練,入庫觸發AI生產線SQL中
33、嵌入推理,提供預測型分析212022.7 iResearch I2022.7 iResearch I華為云DataArts+ModelArts軟硬融合,行業實踐經驗和開源生態結合另外,華為云在軟硬融合、行業實踐經驗和開源生態方面,也具有一定優勢:在軟硬融合方面,華為云對計算、存儲和網絡的底層技術更為擅長,例如,在內存池化的關鍵技術之一RDMA的專利申請數量上,華為具有明顯優勢。在行業實踐經驗上,華為云一直秉承“一切皆服務”的原則,深扎行業,在互聯網和傳統政企方面均積攢了大量實踐經驗,并把這些經驗返回、沉淀到產品中。在開源生態方面,華為云在Hadoop和Spark社區中貢獻度均較高,這使得華為云
34、對這些開源產品在安全、穩定性等方面有著更深的技術理解,同時使得DataArts對這些開源產品的主流版本的兼容性更好。來源:華為云,艾瑞咨詢研究院整理及繪制。來源:智慧芽專利數據庫,艾瑞咨詢研究院整理及繪制。高性能RDMA網卡技術專利數量118225321213922211919華為亞馬遜阿里浪潮騰訊新華三百度海量數據華為在開源社區的貢獻度7218765.55.5554.54.5ClouderaHuaweiIntelYahooincSalesforceMicrosoftDuboceXiamoiWandouNttdata2015-2021.04 Hadoop社區貢獻全球No.2,國內No.1288
35、432.52.521.81.51DatabricksClounderaIntelHuaweiIBMNtt DataAppierMeituanHotmailAlpinedata2015-2021.04 Spark社區貢獻全球No.4,國內No.1222022.7 iResearch I2022.7 iResearch IIT服務業(1/2)數智融合助力IT服務商降本增效提質IT服務行業范圍較廣,包括前期的IT咨詢與培訓,中期的定制開發、系統集成、部署實施,后期的IT運維升級、IT運營管理,以及貫穿全程的IT安全保障等。對于IT服務企業而言,隨著業務量增長,普遍面臨“數據基數龐大,搬遷上云難”“數
36、據持有成本高”“數據治理不佳,形成數據孤島”“產品開發技術門檻高,運維成本高,存在安全隱患”“數據準備工作復雜,難以聚焦業務本身”等問題。數智融合下的存算分離、元數據統一、DataOps 和 MLOps融合、端到端的自動化與智能化等創新技術,幫助開發人員實現所想即所得,助力IT服務企業實現降本增效、業務創新、提升客戶滿意度,從而在產業發展轉折點抓住市場機會,實現企業品牌質的飛躍。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。IT咨詢前期:包括需求定義、產品選型、方案設計、落地培訓等咨詢服務。IT培訓IT服務業環節定制開發中期:根據客戶需求提供二次開發、集成、測試等具體
37、的實施服務。運維升級后期:基礎架構及軟硬件產品的維護和升級迭代;數據處理等面向業務的 IT運營服務。運維管理系統集成部署交付IT服務業發展痛點vs數智融合1.數據體量大,存儲成本高,算力要求高,運維開銷大“存儲+緩存+計算”三層分離架構提供存算性能的彈性伸縮和按需使用,通過serverless模式實現秒級彈性擴縮容和管理運維全托管,滿足IT服務業存算性能的同時降低運維開銷。2.數據治理不佳,數據在系統間流轉不暢,形成數據孤島人工智能算法模型應用到數據全生命周期治理,通過對元數據的統一管理,解決傳統數據分析和AI模型之間“數據搬家”的問題,實現數據在不同引擎間的自由流動,消除數據孤島。3.產品開
38、發門檻高,數據準備耗時長,難以聚焦業務本身低/無代碼的集成開發平臺,為使用者屏蔽底層技術,同時將AI能力植入到數據開發過程,將能力服務化、技術組件化,通過分層解耦和復用,即插即用,敏捷交付,降低開發與運維成本。232022.7 iResearch IIT服務業(2/2)數智融合在IT服務企業的落地夢餉集團定位于新電商基礎設施提供商,提供基于SaaS店鋪工具外加一體化商品與服務結合的供應鏈解決方案,旗下餉店以去中心化的品牌特賣平臺,擁有超百萬店主,月交易總額達10億人民幣;愛庫存提供國際化庫存交易供應鏈平臺。隨著業務增長,公司遇到“云遷移難,數據持有成本高、數據治理差、產品開發門檻高,開發周期長
39、且后期運維成本高“等難題。依托華為云在行業市場的云遷移經驗和豐富的服務和工具,實現高效、穩定、可靠的云遷移;通過存算分離技術,實現秒級彈性擴縮容,降低用數成本;通過端到端的自動化和智能化,將AI算法模型應用到數據全生命周期治理,為AI開發提供高質量數據;通過DataOps 和 MLOps融合,使大數據開發和AI開發協同,降低開發門檻,聚焦業務本身。華為云一體化解決方案為夢餉集團帶來“資源高效”、“應用敏捷”、“業務智能”、“安全可信”等多方面的智能升級。來源:夢餉集團,艾瑞咨詢研究院整理及繪制。云原生數據智能一體化解決方案50%實時分析秒級Severless擴容縮下降TCOOBS存算分離資源利
40、用率:70%流批交互一體 100萬QPSDLIDWSCSSModelArts數據管理專題分析挖掘建模 實時報表瀏覽軌跡推薦排序活動預測穩流量爆發式成長秒殺大促擁海量數據長持數據自主數據開發容器化改造自主創新引流聚數促銷量l 在業務無感知下,優化性能,降低延時l 數據分析支撐從報表統計到實時可預測l 降低存儲、計算、運維成本,降低開發門檻企業需求解決方案l 基于MySQL內核優化進行優化改進l 云原生容器化改造和lakehouse存算分離l AI能力調用,AI開發與數據開發協同實現價值l QPS吞吐量提升1倍,時延降低約33%l TCO下降30%,實時分析能力提升近50%l 運維效率提升50%2
41、42022.7 iResearch I2022.7 iResearch I網約車行業(1/2)業務模式靈活創新,數智融合賦能網約車行業個性化開發網約車經營服務依托互聯網技術構建服務平臺,整合供需信息,匹配最優的車輛和駕駛員,提供預約出租汽車服務。網約車產業鏈包括上游車輛及技術服務供應商,中游網約車服務商以及下游應用場景。受國家政策鼓勵,中國獲許的網約車平臺數量從2020年底的214家增長至2022年3月底的267家,未來市場空間廣闊。作為互聯網時代產物,網約車行業與車聯網、大數據等密不可分,面臨數據安全、客戶需求、數據打通、應用創新等層面的眾多挑戰。存算分離技術提供性能的彈性伸縮,滿足用車高峰
42、的算力高并發,統一元數據打破大數據、數倉、AI的“數據孤島”,增強網約車企業數據洞察,DataOps 與 MLOps的融合降低開發技術門檻,方便企業開發人員聚焦業務創新,敏捷交付。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。車輛供應商上游:車輛及技術供應商。技術供應商網約車行業產業鏈第三方網約車平臺中游:網約車服務商。網約快車下游:應用場景聚合網約車平臺網約專車網約出租網約拼車網約車行業發展痛點vs數智融合1.傳統數倉存算彈性不足,難以應對高峰期高并發需求網約車服務場景先天具備波峰波谷特性,除資源利用率要求外,還具有實時性和長時執行的要求。數智融合下的”存儲+緩存+
43、計算”三層分離具備彈性伸縮、持續服務和節省成本等優勢,與網約車行業場景需求天然契合。2.多平臺數據難以打通復用,“數據孤島”現象嚴重網約車行業是車聯網、大數據、人工智能等新技術的融合產物。具備強互聯網和大數據屬性,網約車企業運營需對接多個數據平臺,數據難以連接互動造成“數據孤島”。數智融合統一元數據,讓數據在多個引擎間流動共享,充分發揮數據資產價值。3.業務模式創新多樣,多源數據、技術等導致系統“熵增”為提升市場競爭力和市占率,網約車行業下游應用場景不斷推陳出新,業務模式的創新多樣必然導致數據體系的“熵增”。數智融合下的DataOps 與 MLOps深度融合,數據工程師可使用熟悉的工具調用AI
44、能力,協同數據開發與AI開發,支撐行業業務模式的不斷創新。252022.7 iResearch I2022.7 iResearch I網約車行業(2/2)數智融合在網約車企業的落地T3出行是南京領行科技股份有限公司打造的智慧出行生態平臺,公司以“科技引領 愉悅出行”為使命,致力于成為能夠為用戶提供“安全、便捷、品質”出行服務的科技創新型企業。截止2022年7月,T3出行登陸全國91個城市,累計注冊用戶超1億,單日訂單峰值破300萬單。隨著業務擴張和用戶數量增加,T3出行原系統在支撐海量數據和提供出行服務方面出現“傳統數倉難以解決“長尾支付”、“AI架構無法為行車安全提供支撐”、“存算一體架構無
45、法應付訂單峰值”等問題。為滿足業務發展,提供安全高效的出行服務,T3出行不斷對出行產品迭代更新,而華為云數智融合產品在這段升級之旅中發揮了巨大作用。來源:T3出行,艾瑞咨詢研究院整理及繪制。來源:T3出行,艾瑞咨詢研究院整理及繪制。T3出行+華為云智能數據湖MRSOBSHudi湖倉一體(對象儲存+數據湖格式+存算分離)RedisHBaseMongoDBElasticsearchKafka 服務層 數據層ClickHousePrestoKylinPandasPytorchSparkYARNKyuubiBI域域AI域域 計算層痛點三:業務不停機,系統持續平穩運行 華為云通過RDS適配canal能力
46、,結合DRS高可靠和自動化運維能力,大大提高數據訂閱穩定性。痛點一:數據庫種類多,遷移難度大 華為云DRS支持其他云、本地IDC、ECS自建數據庫等不同平臺之間的遷移,支持60+類不同的數據庫鏈路,充分滿足T3出行的不同數據庫遷移需求。華為云DRS針對不同實例,通過優化參數、同步方式和架構,并結合其特有的限流能力,確保遷移期間源端業務正常平穩運行,成功在指定時間內完成全量數據同步。痛點二:時間緊任務重,要在30h內完成T3出行+華為云DRS數據遷移解決方案262022.7 iResearch I2022.7 iResearch I社交網絡行業(1/2)數智融合賦力社交網絡行業向興趣化、垂直化創
47、新發展來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。社交網絡源于互聯網服務,為擁有相同興趣與活動的用戶提供各種聯系、交流的交互通路。目前中國社交網絡行業基于5G通信、人工智能、虛擬現實等先進技術,為用戶提供沉浸式的社區服務。隨著行業的內容生態向興趣化和垂直化方向演進,用戶群體的進一步泛化以及用戶數量的爆發式增長,社交網絡行業面臨用戶數據安全、后臺數據治理效果不佳、存儲資源緊張、算力不足以應對業務敏捷相應等諸多挑戰。此時,數智融合提供的存算架構分離、基于人工智能算法模型的數據全生命周期治理、產品的低門檻敏捷開發等先進技術,滿足了社交網絡行業對于如VR虛擬社交等可預見的新
48、型社交場景的技術支撐,以及對于Z世代移動網民全覆蓋的需求。社交網絡行業產業鏈社交網絡陌生人社交熟人社交陌生人社交升級產品+社交功能KOL模式電商其他高附加值功能社交網絡行業發展痛點vs數智融合1.用戶體量大,后臺數據量劇增,存儲資源緊張,算力不足“存儲+緩存+計算”三層分離架構提供存算性能的彈性伸縮和按需使用,通過serverless模式實現秒級彈性擴縮容和管理運維全托管,支撐社交網絡行業存算性能的同時降低運維成本。2.數據多源異構顯著,數據治理難度大,信息孤島現象嚴重社交網絡行業數據類型豐富,形式多樣,多源異構現象普遍,數智融合通過統一元數據到中心節點,打破倉-湖-AI數據間的數據孤島,實現
49、一份數據在多個系統間自由流動。3.產品開發門檻高,開發人員疲于數據準備,難以聚焦業務本身數智融合提供DataOps和MLOps融合,不同角色各用所長,各取所需,將AI能力植入到數據開發過程,將能力服務化、技術組件化,通過分層解耦和復用,讓開發人員聚焦核心業務本身。272022.7 iResearch I2022.7 iResearch I社交網絡行業(2/2)數智融合在社交網絡行業的落地來源:脈脈,艾瑞咨詢研究院整理及繪制。來源:脈脈,艾瑞咨詢研究院整理及繪制。脈脈是1.2億職場人都在用的職場社區和求職平臺,基于“實名/職業認證”和“人脈網絡引擎”幫助職場人拓展人脈、交流合作、求職招聘,收獲機
50、遇。通過職場社交和招聘兩大核心業務,發揮自身產品優勢,幫助職場人士和企業打造職業形象、樹立品牌,提前進行高效連接,收獲職場機遇。2020年注冊用戶數量破億,成為“內容社區+招聘服務”職場全價值鏈平臺,實現了自身的高速發展。隨著業務場景和用戶數量增加,脈脈原有的系統架構在支撐巨量用戶數據和提供社交平臺服務方面面臨“存儲資源緊張,算力彈性不足,運維負擔大”、“數據安全與數據治理要求升級”等挑戰。華為云數智融合實現了脈脈的智能用數和業務的敏捷響應,在競爭激烈的社交網絡行業勇爭上游。脈脈+華為云智能數據湖MRSIDC機構存算一體Flink集群Hive組件SparkRanger當前架構:存算分離Hado
51、op集群SparkHDFSClickHouse集群Flink集群ClickHouse集群Hadoop集群計算(MRS服務)存儲(OBS服務)IDC華為云HadoopHive2.6.01.1.01.6.0NA3.1.13.1.02.4.52.0.0l 可視化集群管理平臺l 多級租戶資源與權限管理運維簡化組件升級l Hadoop集群跨版本升級l 分布式索引、數據緩存、shuffle優化、元數據加速等內核優化成本優化l 按需使用對象存儲,免三副本,支持分級分層l 存算分離,支持存儲單獨擴容、算力按需彈性伸縮,避免資源綁定性浪費脈脈+華為云數智融合核心價值28行業咨詢投資研究市 場 進 入競 爭 策 略IPO行業顧問募投商業盡職調查投后戰略咨詢為企業提供市場進入機會掃描,可行性分析及路徑規劃為企業提供競爭策略制定,幫助企業構建長期競爭壁壘為企業提供上市招股書編撰及相關工作流程中的行業顧問服務為企業提供融資、上市中的募投報告撰寫及咨詢服務為投資機構提供擬投標的所在行業的基本面研究、標的項目的機會收益風險等方面的深度調查為投資機構提供投后項目的跟蹤評估,包括盈利能力、風險情況、行業競對表現、未來戰略等方向。協助投資機構為投后項目公司的長期經營增長提供咨詢服務艾瑞新經濟產業研究解決方案