《艾瑞咨詢:2022年中國大數據分析平臺行業研究報告(50頁).pdf》由會員分享,可在線閱讀,更多相關《艾瑞咨詢:2022年中國大數據分析平臺行業研究報告(50頁).pdf(50頁珍藏版)》請在三個皮匠報告上搜索。
1、中國大數據分析平臺行業研究報告2022.12 iResearch Inc.22022.12 iResearch I摘要來源:艾瑞咨詢研究院自主研究繪制。趨勢洞察:傳統架構下的湖倉分體引發數據孤島,造成實施、運維和成本問題。湖倉一體架構在數據和查詢層面形成一體化架構,突破實時性和并發度、集群規模受限、非結構化數據無法整合、建模路徑冗長、數據一致性弱等瓶頸。同時,平臺融合 AI 自主學習和自適應能力,增強用數人員的分析和決策能力。行業界定:大數據分析平臺逐漸由產品態轉向集成態,行業邊界模糊。在技術架構上,主要包含數據采集與存儲、計算、分析與決策三個層級。在 OLAP 之上融合了深度學習等技術,在提
2、升數據分析深度和廣度的同時,也極大增加了數據服務在業務側的低門檻和友好性,滿足用戶運用數據分析驅動業務發展的需求。市場情況:盡管行業邊界泛化,市場參與者眾多,但按照部署模式、架構分類及能力補給,可分為以下五類:1)以云上數據湖方案為主的公有云廠商;2)以本地化大數據分析平臺為主的傳統軟件服務商;3)提供輕量化數倉架構的數據庫/數倉廠商;4)為數據應用層提供服務能力的軟件供應商;5)提升數據應用能力的人工智能廠商。行業市場整體呈現競合狀態。架構選型:搭建平臺前用戶首先需要明確自身的數據體量和業務場景需求。在明確大數據分析平臺需要具備的基本功能后,再決定平臺搭建過程中使用的大數據處理框架和工具。在
3、分層架構中,數據分析層的組件選型和整體搭建十分關鍵,尤其是存儲引擎的選型直接決定了離線、在線、實時三大場景的支撐和算力效率的高低。3大數據分析平臺市場分析2大數據分析平臺構建建議3行業應用與典型案例實踐4大數據分析平臺行業概述1大數據分析行業投資分析542022.12 iResearch I行業界定驅動業務的全場景數據分析平臺,提供實時、多維的數據分析和智能決策來源:艾瑞咨詢研究院自主研究及繪制。大數據分析平臺技術框架及核心組件大數據分析平臺,是企業用戶在大數據環境下用于分析與決策的平臺。按技術架構劃分,主要包含數據收集與存儲、數據計算、數據分析與決策三個層級。從服務邊界來看,大數據分析平臺概
4、念小于數據中臺,強調平臺的數據分析與決策能力,弱化了數據本身的規劃、治理與服務;在 OLAP 之上,又融合了深度學習等技術,在提升數據分析深度和廣度的同時,也極大增加了數據服務在業務側的低門檻和友好性。企業通過構建大數據分析平臺,聚攏各業務系統數據,打通全渠道組織各業務維度,用數據分析驅動業務,滿足企業級寬表實時分析、實時 BI 報表分析、用戶行為分析、自助分析、AI 智能分析等全方位需求。數據收集與存儲層數據計算層數據應用層企業內部結構化數據企業內部非結構化數據企業外部數據流計算批計算實時BI報表分析用戶行為分析運營數據分析用戶標簽體系數據分析與決策層實時分析離線分析多模分析AI分析深度學習
5、實時檢索52022.12 iResearch I2022.12 iResearch I技術沿革(一)來源:艾瑞咨詢研究院根據公開資料整理及繪制。平臺技術架構持續更新迭代,由離線處理向實時分析演進來源:艾瑞咨詢研究院根據公開資料整理及繪制。架構剖析架構剖析基于 Hadoop 分析架構的流程原理:各類結構化數據通過采集管道進入 Kafka,Spark 實時消費Kafka 的數據,寫入集群內的 HDFS,RDS 數據庫中的數據通過Spark 每天一次全量掃表同步至 HDFS。HDFS 存儲匯總用戶數據,對數據庫數據定期執行 snapshot?;?Hadoop 分析架構的優缺點:優點:借助 Hado
6、op 集群的高并發能力,實現百 TB 到 PB 級數據的離線計算和處理,同時數據存儲在 HDFS 上,存儲成本低。缺點:數據定期入庫,數據計算的時效性通常是 T+1。數據庫結合 AP 分析引擎架構的流程原理:將平臺架構引入 TP 引擎結合 AP 引擎實現實時分析平臺,各類結構化數據同步至分析引擎后便可進行交互分析。數據庫結合 AP 分析引擎架構的優缺點:優點:舍棄了傳統離線大數據架構,實現實時批量計算,在 GB到100TB 級別的計算有了很大提升,BI 人員無需等待 T+1的離線計算后得到最終結果,大幅提升數據資產的商業價值。缺點:在處理百 PB 級以上數據時,ClickHouse 架構的擴展
7、能力、復雜場景計算和存儲成本相對 Hadoop 方案較弱?;贖adoop的分析架構數據庫結合AP分析引擎架構(以ClickHouse為例)Key-ValuedatastoreKafka Logging LibraryMySQLPostgreSQLCassandraElasticsearchKafka原始數據HadoopHiveSparkPrestoNotebooks分析應用MySQLRedisKafkaClickHouse集群批計算報表即席查詢分析62022.12 iResearch I2022.12 iResearch I技術沿革(二)平臺技術架構持續更新迭代,產品在云上落地和升級來源:艾
8、瑞咨詢研究院根據公開資料整理。來源:艾瑞咨詢研究院根據公開資料整理。架構剖析架構剖析基于云上數據湖的分析架構的流程原理:可理解為借助云原生存儲引擎,基于傳統 Hadoop 方案的云上落地和升級,保留自建 HDFS 集群的分布式存儲可靠性和高吞吐能力,借助數據湖降低傳統方案的運維和存儲成本?;谠粕蠑祿姆治黾軜嫷膬炄秉c:優點:對大數據平臺的使用者做了區分和定義,針對不同的使用場景,數據的使用方式,分析復雜度和時效性也會有不同。缺點:數據湖方案本身并沒有解決傳統方案的所有痛點?;谠圃Y構化存儲引擎的分析架構的流程原理:將類似第二階段和第三階段的融合,在線庫和分析庫隔離,不依賴在線庫數據;全
9、量數據支持高效批量計算,分析結果集支持即席查詢,支持實時寫入實時流計算?;谠圃Y構化存儲引擎的分析架構的優點:優點:在具備寬表合并高吞吐低成本存儲的同時,可以提供 TB級別數據即席查詢和分析的能力,無需過度依賴額外的計算引擎,實現高效實時分析能力?;谠粕蠑祿姆治黾軜嫽谠圃Y構化存儲引擎的分析架構數據源n Forecastn SFAn SAPn POSn DMS集中存儲集中管理數據探索交互式查詢數據倉庫數據模型數據學家數據分析師商業決策數據用戶數據治理組件TP存儲引擎數據派生AP分析節點分布式文件系統行存列存+索引數據湖服務層應用層72022.12 iResearch I2022.
10、12 iResearch I核心應用流批一體:統一開發、統一計算、邏輯一致、降低成本來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。采用流計算+交互式分析雙引擎架構,流計算負責基礎數據,交互式分析引擎是中心,流計算引擎對數據進行實時 ETL 工作,與離線相比,降低了 ETL 過程的 latency。交互式分析引擎自帶存儲,通過計算存儲的協同化,實現高寫入 TPS、高查詢 QPS 和低查詢 latency,從而做到全鏈路的實時化和 SQL 化,實現用批的方式做到實時分析和按需分析,并能快速響應業務變化,兩者配合實現1+12的效果。流批一體實現了建立一套統一的系統,由同一個
11、開發團隊開發,同時支持流式計算和批量計算,提供一致的編程環境,降低開發和運維成本,減少資源浪費,提高數據口徑的一致性。流批一體的技術趨勢及行業應用流批一體的技術框架行業應用目前已在工業、農業、能源、金融、零售、教育、傳媒等行業落地應用,極大推動了實時計算,提升數據價值,節省計算資源。分析應用層面的工具生態廣義的流批一體包含存儲一體(湖倉一體)、計算一體(即狹義流批一體)、分析應用一體(數據同步、數據血緣等生態),目前分析應用部分還處于相對早期階段,不論是成熟型廠商還是新興型廠商都在積極探索。數據存儲層面的湖倉一體將數據倉庫的便捷管理、高質量數據特性與數據湖的可探索、高靈活性相融合,完成數據倉庫
12、到湖倉一體的轉變,實現對未知數據先統一存儲再靈活探索的能力,在數據架構層面更進一步。計算處理層DWSDWDODSKafkaFlink SQL(Stream&Batch)IcebergDWSDWDODS82022.12 iResearch I2022.12 iResearch I核心產品(一)商業智能 BI:通過數據整合分析實現商業價值來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。商業智能(BI,Business Intelligence)是大數據分析最典型應用領域,是由數據庫、數據倉庫、數據湖、湖倉一體、ETL、OLAP、數據挖掘、機器學習和人工智能等技術組成的一套完
13、整解決方案。隨著大數據處理技術的發展,商業智能的洞察和分析能力進一步提升,數據分析和可視化的門檻不斷降低,企業實現不同層級的拖拽式自助分析和多種類型的圖表展示,并在統一平臺進行整合和共享,獲得不同層級的數據洞察,最終用于商業決策。機器學習和人工智能在商業智能中扮演越來越重要的角色。BI 的技術發展趨勢BI 的行業應用及典型企業協作 BI商業智能與社交媒體和網絡技術等協作工具融合,允許共享報告,增加涉眾和專家互動,提升商業決策質量自助式 BI業務人員可獨立分析數據,生成定制報告,不再依賴 IT 部門或數據分析師BI 與新技術融合商業智能與流程自動化 RPA 和人工智能等新技術深度融合一站式平臺化
14、商業智能趨于集成數據倉庫提供存儲功能,集成 python 及 R 語言提供數據挖掘,延伸范圍越來越廣BI SaaS化云上落地是商業智能最大的技術發展趨勢互聯網服務金融消費品與零售政務行業應用交通運輸其他92022.12 iResearch I2022.12 iResearch I核心產品(二)數據孿生與增強分析:釋放數據潛力,加強數據價值轉化來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。數據孿生的技術趨勢及產品應用數據孿生:利用物理模型、傳感器更新、運行歷史數據,集成多學科、多物理量的仿真過程,在虛擬空間中完成映射,在信息化平臺創建虛擬的“數字孿生體”,融合多源異構數
15、據,打通企業數據孤島,讓數據在業務側發揮更大價值。增強分析:2017年由 Gartner 首次提出,并將其定義為下一代數據和分析范式,通過將機器學習和人工智能運用于現有的操作流程中,使數據管理和分析自動化,從而更有效地進行數據分析。增強分析使更多的用戶獲得更深入的數據洞察,減少了當前依賴 IT 處理所帶來的效率問題和口徑偏差。增強分析的技術趨勢及產品應用與智能駕駛產業創新融合在智能駕駛領域,數字孿生測試系統對整車測試場景虛擬重構,在虛擬場景中通過物理仿真工具對測試對象和流程做全程復現,評估分析測試結果,實現不同場景的測試。納入智慧城市的頂層框架隨著數字孿生技術日趨成熟,基礎設施的運行狀態和市政
16、資源的調配情況都可由感知件傳入數字孿生城市,幫助城市管理者分析決策。城市的長“生命周期”特性,讓數字孿生發揮更加深遠的價值。與5G萬物互聯場景強耦合通過感知采集數據,對物理實體進行動態監測和即時描述,可視化展現,提供系統內部生成的信息或對象質效評價信息,用作系統故障排除工具,優化改進性能,揭示要素間的復雜關系,預測物理實體未來狀態,輔助操作和決策。產品應用主要應用于 BI 領域,作為 AI 深度分析模塊集成 BI 產品,使數據洞察更為精準化、自動化、智能化。增強機器學習通過算法將特征工程、模型選擇與參數優化,以及深度神經網絡結構搜索等機器學習過程中的關鍵步驟自動化,幫助數據科學家更高效地得到滿
17、意的模型。增強數據分析一是自動洞察,代替一部分分析師的工作,從數據中發現潛在信息和價值;二是自動可視化,根據數據分析結果自動選擇可視化的方式進行展示,與 NLQ、NLG等技術配合,將大大加快整個分析流程。增強數據準備一是可視化交互,通過拖拉拽的方式實現可視化的數據配置、數據源的混合以及數據清洗工作,讓數據準備更加快捷;二是算法輔助,利用 ML 和 AI 技術實現部分流程的自動化。102022.12 iResearch I核心價值以強大算力提升用戶的數據洞察分析,推動行業整體發展來源:艾瑞咨詢研究院自主研究及繪制。1)放大數據分析價值:大數據分析平臺基于集體智慧的分布式數據驅動決策,使用者的數據
18、洞悉分析能力、用數效率和決策產出得到極大提升,數據資產的商業價值充分體現。2)降低分析門檻:低代碼和無代碼的分析工具極大降低了業務人員使用數據分析的門檻,有利于企業形成數據驅動文化,提高數據驅動效能,讓企業各個層級的人員都能夠參與到數據分析當中。3)降低分析成本:大數據分析平臺縮短了從數據提取到離線分析,再到報告制作的周期,無需重復提數,邊際成本趨近于零,顯著降低了時間和人力成本。大數據分析平臺核心價值2.商業價值轉化生成數據報表和實時監控指標體系,拆解、挖掘、構建用戶畫像,進行日常運營決策,提升經營業績。3.產品研發與升級數據湖方案較其他大數據產品更強調“海量異構數據統一存儲、多源數據統一管
19、理、多計算引擎統一調用”的能力。4.產業鏈供應鏈協同鏈接產業鏈全要素,實現供產銷信息的實時同步,優化產能配置,提升企業的柔性生產能力,提升產業鏈效率。5.風險管理通過分布式即席查詢、數據可視化等手段,為企業提供風險識別并持續監控,主動探索風險應對策略并評估控制效果。1.用戶保留與發展指標拆解分析,發現問題,尋找突破口,幫助企業制定精準方案獲取新用戶,并提升老用戶的滿意度。1.展示關鍵數據指標以數據報表、DashBoard 等可視化方式呈現,便于企業整體把握業務核心數據及發展趨勢。3.歸因收集多方面的復雜原因,提前解決矛盾以避免問題惡化或提升數據指標,總結沉淀為對產品和用戶的深刻洞察。4.預測對
20、產品或用戶行為的未來趨勢做出預判,指導經營活動,例如:預測 DAU、銷量、訂單量等。2.解讀通過簡單分析和解讀產品或用戶行為的一些現象或數據變化,了解現象發生或數據波動的原因。自身價值業務價值112022.12 iResearch I2022.12 iResearch I評估體系構建滿足場景需求的大數據分析平臺,選型評估十分關鍵來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。1)架構可擴展性:企業構建大數據分析平臺之初以小規模項目起步,待業務規模增加后再考慮復雜的解決方案。這時架構的可擴展性就顯得十分重要,確保業務數據規模上升后架構橫向擴展的能力是關鍵。2)數據實時性:
21、隨著流批一體等技術的不斷完善和推廣,數據的實時處理、分析和輸出展示都顯得十分重要。3)數據模式靈活性:在企業初創階段,數據經創新探索后才能沉淀,靈活度要求較高,數據湖架構較為適用;企業成熟階段數據規模和處理成本上升,平臺成長性決定了業務發展的持續性。4)數據可接入性:企業構建大數據分析平臺時應提供給開發者豐富、開放及資料完整的應用程序 API 接口。產品功能系統集成能力:關系型數據、非關系型數據、爬蟲數據,離線數據和實時數據及實時數據處理能力系統開發能力:對離線任務和實時任務的支持、開發調度配置等系統能力數據能力數據資產管理能力:數據標準管理、元數據管理、數據質量管理等數據科學能力:數據上傳、
22、預處理、特征工程、模型評估、模型發布等功能,主流算法框架和語言等數據應用能力:API 創建、生成、發布、執行、審批、鑒權、限流等功能,標簽開發、標簽分類、標簽目錄管理、業務確權等功能產品性能安全性完整性可靠性可用性可維護性重點考察最大節點數量、吞吐能力、并發能力、運算速度、相應時間、安全性等公司規模廠商狀況和業務規模影響其能否為企業提供長效服務咨詢能力方案咨詢和定制能力取決于垂直行業的knowhow積累服務案例廠商同行業客戶服務經驗、標桿案例和案例數量等市場價格項目價格包括產品費用、項目實施費用和維護服務費用,也是選擇廠商的重要指標12大數據分析平臺市場分析2大數據分析平臺構建建議3行業應用與
23、典型案例實踐4大數據分析平臺行業概述1大數據分析行業投資分析5132022.12 iResearch I發展歷程大數據分析平臺隨技術革新和市場需求不斷演進來源:艾瑞咨詢研究院自主研究及繪制。隨著增強分析演進到了人工智能時代,未來將成為大數據分析平臺的核心特性。湖倉一體技術不斷完善,未來也將成為大數據分析的基礎底座。流批一體技術讓有界數據和無界數據實現了打通,讓數據分析獲得了更好的一致性。中國大數據分析平臺正在逐年發展及突破,公有云廠商及其他行業廠商紛紛在做嘗試。我國大數據分析市場整體處于高速發展階段,未來發展空間廣闊。中國大數據分平臺行業發展歷程大數據技術大數據分析平臺20世紀60年代,計算機
24、開始廣泛地應用于數據管理,能夠統一管理和共享數據的數據庫管理系統(DBMS)誕生;20世紀90年代,為滿足企業數據分析的訴求,數據倉庫誕生?;ヂ摼W開始發展,數據量增長加速,數據庫/數倉難以承載海量數據,大數據興起;以Hadoop(開源)、Google、MicrosoftCosmos 為代表的分布式技術體系誕生,奠基了大數據時代的基本技術框架。數據倉庫不斷演進,在性能、成本、數據管理能力等方面不斷優化,Google BigQuery、Snowflake等優秀產品面市;以開源 Hadoop 體系為代表的開放式 HDFS 存儲、開放的文件格式、開放的元數據服務以及多種引擎(Presto、Spark、
25、Flink 等)協同工作的模式,形成了數據湖的雛形。數據分析1.0:大數據起源大數據技術逐步滲透到下游各行業,人們對大數據產品提出了成本、安全、穩定性等更加全面的企業級生產的要求;云上純托管的存儲系統逐步取代HDFS,引擎豐富度也不斷擴展,數據湖開始走向“云湖共生”階段;數據倉庫和數據湖在云的體系下得以打通,湖倉一體的解決方案在業界開始應用。這個階段的大數據分析工具更加貼合客戶的場景業務需求,為客戶提供更好的服務和更豐富的功能。數據科學領域應用而生,強調利用良好的數據,通過出色的分析模型來理解和分析實際現象,形成更好的數據結果。這個階段人工智能、機器學習、深度學習等新技術對大數據分析產生深刻影
26、響,通過機器學習創建更多模型,從而讓預測變得更加細化和精確。數據挖掘技術、機器學習算法都在大數據分析工具運用中取得了大量成果,自動化分析將成為未來大數據分析的典型特征。這個階段數據通過ETL和BI工具收集、轉換和查詢,商業智能只能處理過去發生的事情,而不能對未來趨勢進行預測。這個階段的大數據分析工具興起,逐漸能夠收集、轉化、處理數據,并在描述性和診斷分析的結果檢測趨勢、聚類和異常等方面逐步試探。數據分析2.0:大數據分析平臺與功能強大的數據產品1960s2006:2006 :142022.12 iResearch I驅動因素:政策面政府不斷出臺大數據相關政策,促進產業發展來源:公開資料,艾瑞咨
27、詢研究院整理及繪制。隨著5G、云計算、人工智能等新一代信息技術發展,信息技術與傳統產業加速融合,數字經濟蓬勃發展。大數據產業作為戰略性新興產業,是激活數據要素潛能的關鍵支撐,是加快經濟社會發展質量變革、效率變革、動力變革的重要引擎。2021年11月印發的“十四五”大數據產業發展規劃在“十三五”規劃的產業規模1萬億元目標基礎上,提出“到2025年底大數據產業測算規模突破3萬億元”的增長目標。在2022年10月的關于數字經濟發展情況的報告中提出,2023年底前,全國一體化政務大數據體系初步形成,基本具備數據目錄管理、數據歸集、數據治理、大數據分析、安全防護等能力。近年來,大數據政策已布局政務、金融
28、、工業、制造、制造、交通、能源、醫療等多個領域。2021-2022年中國大數據重點法律法規和產業政策脈絡全國一體化政務大數據體系建設指南2023年底前,全國一體化政務大數據體系初步形成,基本具備數據目錄管理、數據歸集、數據治理、大數據分析、安全防護等能力。2021.3 十三屆全國人大四次會議政府工作報告加快數字化發展,協同數字產業化和產業數字化轉型。中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要充分發揮海量數據和豐富應用場景優勢,促進數字技術與實體經濟深度融合。國家標準化發展綱要開展數據庫等方面標準化攻關,提升標準設計水平,制定安全可靠,國際先進的通用技術標準?!笆?/p>
29、五”軟件和信息技術服務業發展規劃夯實基礎軟件實力,提升工業軟件、行業軟件、平臺軟件、嵌入式軟件等應用軟件水平?!笆奈濉贝髷祿a業發展規劃提出“到2025年底大數據產業測算規模突破3萬億元”的增長目標?!笆奈濉睌底纸洕l展規劃數字技術驅動產業轉型,從骨干企業、重點行業、產業園區和產業集群等方面系統部署以促進創新。關于數字經濟發展情況的報告培育壯大云計算、大數據、區塊鏈、工業軟件等數字產業,探索建設中國特色的開源生態。2021.3 2021.10 2021.11 2021.11 2022.1 2022.3 2022年國務院政府工作報告逐步構建全國一體化大數據中心體系,促進產業數字化轉型,發展智
30、慧城市、數字鄉村。2022.10 2022.10 152022.12 iResearch I2022.12 iResearch I驅動因素:宏觀面全球數據消費量和國內數字經濟規模穩步增長來源:Statista 2022,艾瑞咨詢研究院整理及繪制。來源:中國電信招股說明書,艾瑞咨詢研究院整理及繪制。近年來大數據發展浪潮席卷全球,全球數據消費量穩步增長。隨著數據資產的不斷積累,用數場景和需求趨于復雜。據IDC 預測,2021年全球大數據和分析支出達2157億美元,比2020年增長10.1%,且未來五年全球大數據和分析支出還將繼續增長,2021-2025年預測期內復合年增長率(CAGR)預計為12.
31、8%。放眼國內,數字經濟發展熱潮興起,數字化轉型需求放量。大數據與云計算、人工智能、區塊鏈等新一代信息技術加速融合創新,驅動我國大數據產業生態日漸完善,應用領域不斷豐富。大數據在關鍵技術領域加快自主創新尤其在基礎軟件領域,各類自主研發的大數據平臺產品百花齊放,合力向數據共享、流通、開放的方向持續演進。2005-2021年中國數據經濟規模及全國占比22 32 49 64 83 92 99 101 114 3 5 10 16 27 31 36 39 45 12%15%19%25%33%34%36%39%39%200520082011201420172018201920202021國內生產總值(萬億
32、元)中國數字經濟規模(萬億元)中國數字經濟規模占比(%)2011-2025年全球數據消費量及增長率56.5912.515.51826334164.2799712014718130%38%39%24%16%44%27%24%57%23%23%24%23%23%201120122013201420152016201720182019202020212022e2023e2024e2025e數據消費量(ZB)增長率(%)162022.12 iResearch I驅動因素:微觀面受業務需求驅動,打通各業務維度,提供分析和決策洞察大數據創造價值的關鍵在于大數據應用,隨著大數據技術的發展,大數據應用已經滲透
33、至各行各業的企業當中。在企業的業務系統中,除了與業務直接相關的數據存儲在數據庫外,還有海量的系統監控數據和業務日志產生。隨著企業數據資產的日積月累,能夠全面覆蓋日常經營、輸出分析結果的指標體系成為企業的必需品。除了面對錯綜復雜的業務數據,集團性企業還需聚攏各業務系統的數據。因此,企業迫切希望能夠打通全渠道來組織各業務維度,讓業務數據能夠更持久的存儲,并提供實時/離線分析,幫助企業高層進一步了解企業的宏觀運營面、基本面、財務面,幫助業務部門及時鎖定潛在問題,提供精細化運營。由此,大數據分析平臺應用而生。來源:中國電信招股說明書,艾瑞咨詢研究院整理及繪制。大數據分析平臺主要解決的問題豐富的數據源支
34、持數據格式延遲綁定面對豐富的數據源,大數據分析平臺提供統一的數據接入,便于后續體系化分析數據接入主要包括文件日志、數據庫日志、關系型數據庫和應用程序等的接入相關組件起到了上游數據源與分析平臺存儲接口的結構作用存算彈性擴縮容TP 和 AP 隔離TP(事務型)數據庫和數據倉庫常采用寫入型 schema,即基于業務需求預先定義schema,適合變化少的固定業務,不適合分析型業務大數據分析平臺的分析系統多采用讀取型 schema,數據在分析時才會根據數據類型進行相應的處理TP 型業務適合行存儲,而AP 型業務適合列存儲,分析業務的大規模全量掃描會影響在線業務的 SLA大數據分析平臺的典型處理方式是復制
35、存儲,面相多維分析需求,重塑數據分布、格式、索引,優化系統的分析性能業務數據隨著各個業務系統運轉而日積月累,企業普遍面臨系統架構改造優化和數據遷移大數據分析平臺的搭建會對應考慮數據的分層存儲和存儲計算引擎的選擇,保證存算能力可按需擴縮容,并提供存算資源的編排優化172022.12 iResearch I產業圖譜產業鏈上中下游廠商與中游大數據分析廠商產品存在交叉注釋:以上廠商與行業為不完全列舉,排名不分先后。來源:艾瑞咨詢研究院自主研究及繪制。上游中游:大數據分析平臺廠商下游基礎設施網絡基礎服務器廠商芯片廠商基礎云服務SaaS行業方案金融零售政務制造醫療行業客戶云安全IDC廠商數據源企業數據政府
36、數據教育云平臺數據服務產業圖譜182022.12 iResearch I2022.12 iResearch I商業模式主要包括一體化解決方案、產品服務和行業應用來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。中國大數據分析平臺的商業模式大致可分為三類:1)解決方案,為企業搭建大數據分析系統,按照構建和部署大數據系統的費用+每年的維護/升級服務費用進行收取。2)產品服務,產品化服務模式包括情報挖掘、輿情分析、銷售追蹤、精準營銷、個性化推薦、可視化、網站/APP 分析工具等,訂閱式的按需購買,按年/月收費,持續更新。3)行業應用,大數據與傳統行業碰撞形成的商業模式,利用大數
37、據獲得行業洞察,實現更多的收益。沒有直接的變現,通過大數據技術深層挖掘價值,節約成本,優化行業模式。商業模式市場發展趨勢解決方案產品服務行業應用中國政府用戶和一些重點行業(如金融、電信等)更多選擇整體解決方案的本地部署及私有云/行業云模式,體現在大數據硬件采購占比顯著高于國外。行業特點:數據安全要求高,強政策導向,預算充裕。數量龐大的中小企業更傾向于訂閱式的產品服務接入大數據分析領域,開箱即用,按需付費,極大降低了技術門檻和資金投入門檻。行業特點:企業模式靈活,創新性強,對大數據新興技術敏感度高,但資本開支有限。傳統行業結合大數據技術派生的新商業模式,深化行業洞察,例如:智慧醫療系統(大數據+
38、醫療)、工業4.0(大數據+制造業)。雖無直接變現,但推廣復制潛力大,通過深挖垂直行業,補充前兩種商業模式。國產化大數據分析產品蓬勃發展,對比國外產品的精細化,國產化產品呈現出功能一體化,集成數據整合、數據加工、數據治理、數據分析、數據可視化于一身。國產化SaaS化隨著公有云技術不斷演進,訂閱模式下的 SaaS 產品表現出云端部署、按需調用、持續更新、省去本地運維的諸多優點,讓國內企業數字化轉型輕裝上陣。平民化企業部署大數據分析平臺的技術門檻、資金投入門檻和使用門檻不斷被降低,低代碼和無代碼模式的數據分析應用越來越偏向于業務側主導,數據技術更好的服務于企業業務本身。192022.12 iRes
39、earch I玩家類型行業邊界泛化,市場參與者眾多,服務類型多樣大數據分析平臺逐漸從產品態向集成態發展,行業市場的參與者眾多,服務類型豐富多樣,行業邊界趨于模糊,但也可大致分為以下幾類:1)公有云廠商借助云原生能力自然演進存算分離架構,提供方便接入各類數據、降低存儲和運維成本的數據湖方案。2)與云廠商以 PaaS 形式提供服務不同,傳統軟件商提供以本地化部署為主的一體化大數據分析平臺解決方案。3)國產數據庫/數據倉庫廠商融合創新技術,自主研發存儲和分析性能優異的產品和架構方案。4)為大數據分析平臺的應用層提供 BI 分析、用戶畫像、智能運營、可視化發布等能力的軟件服務商,與前述市場參與者逐步建
40、立起合作生態。此外,人工智能廠商提供的 AI 能力讓數據應用進一步延伸,讓數據接入、清洗、存儲、分析、訓練到可視化輸出的過程更加自動化,加強了場景需求與數據分析的自適應能力。來源:艾瑞咨詢研究院自主研究及繪制。大數據分析平臺行業的市場格局人工智能廠商數據應用層軟件商BI 分析用戶畫像智能運營營銷分析用戶標簽可視化實時檢索公有云廠商數據庫/數倉廠商本地化部署的軟件商202022.12 iResearch I中外對比國內外大數據分析平臺產業探索方向及落地方式有所不同國內外大數據分析平臺的目標客戶都主要鎖定在特定行業、具有商業前景的企業,致力于為其提供成長初期缺乏的資源,實現商業價值快速增長。雖然核
41、心訴求一致,但受限于體制、經濟與文化等差異,產品的探索方向及落地形式不盡相同。國外產品更注重創客文化及高技術投資回報,傾向于以股票收獲溢價作為主要的盈利方式,通過技術積累與項目展示收獲口碑;國內大數據分析平臺緊密圍繞政策導向和產業價值定位制定預期發展目標,通過打通產學研加速資源交換與聚焦,為企業獲得收益,不斷積累資源與品牌影響力形成雪球效應。來源:艾瑞咨詢研究院自主研究及繪制。國內外大數據分析平臺產品對比國內產品數加平臺數說立方神測分析數據深度整合、計算、挖掘,將計算的結果通過可視化工具進行個性化的數據分析和展現。優點是功能完善,提供 SQL 查詢。優點是體驗和功能良好,集數據處理、特征工程、
42、建模、文本挖掘為一體的機器學習平臺,支持 SaaS,私有化部署,有權限管理。產品支持私有部署、任意維度的交叉分析,并幫助客戶搭建專屬的數據倉庫。優點是專注用戶行為數據分析,提供 SQL 查詢。產品界面采取拖拽式,操作性強;數據兼容性強,適用于多種數據文件與數據庫。優點是產品功能完善和良好的圖形展現與客戶感知。優點是視圖種類豐富,界面簡潔,互動性強;可通過各類可視化效果,將 Qlik 擴展到任何應用程序中,支持使用標準的和最新的網絡 API。優點是交互界面形象易懂,對業務人員操作友好,便于進行復雜的數據分析,無需建數據倉庫就可直接從多個異構數據源提取數據進行分析。TableauQlikViewS
43、potfire國外產品212022.12 iResearch I應用痛點在數據兼容性、性能、開放性和行業經驗方面仍存痛點來源:艾瑞咨詢研究院自主研究及繪制。大數據分析平臺的應用痛點反饋現階段采購大數據分析平臺的企業 IT 基礎往往并非完全空白,企業內部積累了多類數據庫和多種數據文件。因此,企業希望大數據分析平臺能盡可能多的兼容多種格式的數據、多種平臺和操作系統。數據兼容性企業在實際使用時發現大數據分析平臺在處理結構化數據和GB級數據時差異不大,但處理非結構數據和TB/PB級數據時性能下降較大。對于數據波幅較大,且要求實時分析的企業,這是最大的痛點。許多企業都希望擁有一定的自主權,不與供應商完全
44、綁定。由于業務模式的變化,會經常有二次開發的需求。所以,企業會希望大數據分析平臺足夠開放,且提供足夠多的接口和可視化的開發工具。企業在使用時發現,現階段國內可以提供全鏈路服務的供應商較少,因此只能采購多家供應商來滿足自身從采集治理到分析可視化的需求。尤其是技術水平較弱的企業更希望廠商提供全面的服務。此類痛點集中于制造業和航空業等專業性較強的行業,他們具有大數據分析平臺的需求,但與此類供應商接觸時發現其不理解行業業務,因此主要考慮自己進行開發,或者尋求原來的硬件合作商幫助。企業希望大數據分析平臺除了基本的分析能力和常規的圖表展示外,還可以增加更豐富的功能,例如多維交叉分析,自定義分析字段,3D大
45、屏展示,可視化圖表嵌入等。性能提升開放性全鏈路能力行業理解功能豐富性222022.12 iResearch I趨勢一:架構演進湖倉融合,發揮海量、多模、實時的數據處理能力來源:艾瑞咨詢研究院自主研究及繪制。湖倉融合作為開放式的數據架構和管理模式,將數倉建于數據湖之上,融合二者優勢,優化企業的基礎技術棧。湖倉融合打通底層異構數據源/平臺,支持多種數據類型并存,實現數據共享。數據入湖后可直接加工處理,避免數據多份冗余和流動導致的算力、網絡及成本開銷。相比傳統數倉和數據湖方案,湖倉一體架構增強了實時業務處理以及非結構化數據的治理能力,優勢突出體現于:1)完善的數據管理能力;2)豐富的計算引擎支持;3
46、)更高的數據實時性;4)更高的開放性。此外,數據安全、訪問控制以及數據探索等企業級系統不可或缺的功能都可在湖倉融合架構中部署、測試和管理。湖倉融合技術理念數據資產管理數據服務數據統一開發治理HadoopLocal IDC/on ECSHMSHDFSEMR聯邦數據源RDSHBaseHive.湖倉融合架構緩存元服務冷熱分層SQLSparkPythonOSS對象存儲RDBMSNoSQL數據湖任務調度數據安全開發定制商業智能數據報表業務應用機器學習實時分析“關鍵屬性”對事務的 ACID 支持,確保數據并發訪問的一致性、正確性事務支持支持各類數據模型的實現和轉變,保證數據完整性以及健全的治理和審計機制模
47、型化和數據治理支持直接在源數據上使用BI 工具,加快分析效率,降低數據延時BI 支持實現對流的支持,為實時數據服務構建專用的系統端到端流232022.12 iResearch I趨勢二:AI 融合圍繞 AI 核心能力,增強人員分析和決策能力來源:艾瑞咨詢研究院自主研究及繪制。大數據分析隨著人工智能的發展而不斷演進,多層面、多維度的提升了數據使用人員的分析與決策能力。自新冠疫情爆發以來,企業業務環境發生了巨大變化,但從未削弱 AI 和機器學習發揮的重要作用。隨著業務決策變得更具關聯性、情境性和連續性,企業通過 AI 工程編排和優化系統,來適應、抵御或吸收各種干擾因素,提升自適應的 AI 能力,以
48、迅速適應場景變化,提供更加快速靈活的決策。自然語言處理(NLP)增強了計算機系統對自然語言的準確識別、分析和處理,讓搜索式分析成為全新的可視化交互方式,系統智能將自然語言結構的問題轉化為 SQL 語句進行查詢,易用性和自服務程度更高,對業務人員的使用門檻更低。大數據分析與 AI 技術的協同創新數據民主化企業所有成員,尤其是非專業技術成員,都能輕松應用數據資源,開展應用分析,做出業務決策,推動更好的客戶體驗數據編制通過對現有的、可發現的和可推斷的元數據資產進行持續分析,來支持數據系統跨平臺的設計、部署和使用,從而實現靈活的數據交付基于圖形技術的場景分析業務場景和分析需求的數據存儲于圖形中,基于相
49、似性、制約因素、路徑等識別和創建進一步的場景,利用數據點之間的關系及數據點本身實現深入分析?;趫D形技術的分析和 AI 模型將進一步取代建立在傳統數據基礎上的分析模型搜索式分析使用機器學習和自然語言處理(NLP)來自動化和處理數據,系統準確識別、分析和處理自然語言,智能將自然語言結構的問題轉化為 SQL 語句進行查詢,極大降低業務人員的數據分析門檻大數據分析人工智能自適應的 AI 能力通過 AI 工程編排和優化系統,來適應、抵御或吸收干擾因素,加強 AI 自適應管理能力,用以敏捷適應業務場景的變化,提供更加快速靈活的決策通過提升 AI 信任、險和安全管理,進而提升 AI 在業務目標實現和企業內
50、外部數據管理中的效果,即自適應的 AI 風險管理242022.12 iResearch I趨勢三:場景多元數據分析場景呈現多元化趨勢,不斷向多維縱深發展來源:艾瑞咨詢研究院自主研究及繪制。隨著數字化轉型的不斷深入,企業的精細化運營更加聚焦于通過數據分析來提升效率和優化生產。因此用戶對于取數的時效、維度、深度以及交互的方式方法(移動、托拉拽、操作的友好體驗)要求越來越高,分析場景和分析需求不斷深化,使得我們對大數據分析平臺所提供的算力、計算和存儲組件、資源調度等要求趨于復雜。企業的分析場景和需求呈現多元化發展,既要滿足前端業務人員的實時分析,提供運營人員實時查詢當前經營數據,又要向中臺建設人員提
51、供統一存算平臺,以滿足高并發 SQL 復雜查詢訪問。大數據分析場景的多元化發展市場發展支持采集終端用戶行為、服務器日志、業務數據和第三方等多方數據源為用戶生成個性化推薦利用深度學習和語義分析模型構建推薦引擎分析用戶轉化情況和渠道轉化情況,形成及時反饋國產化產品的高速發展SaaS 化產品的平民化數據生態系統復合化程度加強數據資源化競爭加劇架構需求運用 SDK 對網頁、App、小程序等多端進行數據采集,并整合外部數據統計分析用戶行為特征和標簽構成特征同時支持可視化界面和 SQL 創建用戶標簽支持標簽數據導出,進行二次加工和其他應用統一多模型大數據分析架構分布式系統架構廣泛應用云原生大數據平臺架構實
52、時計算和運營分析企業應用引入客戶行為數據,實時追蹤客戶監控變化實時進行 MRR 多維度分析進行客戶分級,搭建差異化分析指標體系情景驅動,知識圖譜利用率提升業務側主導數據分析應用決策驅動數據分析既要滿足前端經營數據的實時查詢和分析,又要滿足后端高并發復雜查詢數據分析場景多元化25大數據分析平臺市場分析2大數據分析平臺構建建議3行業應用與典型案例實踐4大數據分析平臺行業概述1大數據分析行業投資分析5262022.12 iResearch I整體思路明確業務場景需求,基于數據體量選定平臺框架和功能組件在搭建大數據分析平臺前,用戶首先要明確自身的數據體量和業務場景需求,希望通過大數據分析平臺得到哪些信
53、息,需要接入哪些數據,進行哪些主題分析,最終實現哪些功能。在明確大數據分析平臺需要具備的基本功能后,再決定平臺搭建過程中使用的大數據處理框架和工具,并將其有機結合以完成海量數據的挖掘和分析。在構建大數據分析平臺時,首先要建設企業的基礎數據中心,構建統一的數據存儲體系,統一數據建模。其次,集中組建數據處理中心,下沉數據處理能力,并通過統一的數據管理監控體系,保障平臺系統的穩定運行。最后,構建數據應用中心,統一輸出數據服務,滿足業務需求,體現數據價值。來源:艾瑞咨詢研究院自主研究及繪制。搭建大數據分析平臺的整體思路為什么需要搭建大數據分析平臺?需要解決什么業務問題?業務數據量有多少?是否有實時分析
54、的需求?是否有BI報表的需求?數據存儲在哪?分析主題是什么?是否需要搭建整體數倉?操作系統組件安裝數據導入數據分析可視化輸出數據接入(離線數據+實時數據)數據預處理數據建模模型訓練挖掘分析272022.12 iResearch I能力建設基于場景需求,選定分析指標,通過模型訓練構建分析能力大數據分析平臺的建設核心是分析能力的建設。不論用戶采用何種部署方式,數據分析能力的建設都萬變不離其宗。首先,根據業務場景需求選定指標進行建模,重點建設數據構造、合并和統計處理的運算能力。接著進行模型訓練,從大量有噪聲的、不完全的、模糊和隨機的數據中挖掘多源多維數據間的關聯性。通過多維分析數據,加深對數據的理解
55、,提取可能對業務結果相關的影響因子,探索數據的內在規律特征,并尋找模型最佳參數,支撐分析模型對業務的定量和定性分析。在完成指標建模、模型訓練后,對滿足業務分析需求的模型進行部署調試,形成可被調用的服務能力,為其它業務系統、模型提供數據分析能力。此外,大數據分析平臺應具備基礎框架功能,支持多廠家、多技術類型模型導入,提供對應功能和工作流程設計,保障分析能力實施落地。來源:艾瑞咨詢研究院自主研究及繪制。大數據分析能力建設指標建模通過原始數據關聯、聯合、自碰撞等方式生成業務場景所需數據通過分析業務類型篩選相似業務所需的數據清單支持跨庫數據的 SQL 聯合查詢能力支持可視化快速創建數據集,通過拖拽數據
56、源中多個數據表,搭建清晰的數據關聯關系模型訓練主要包括數據準備、數據探索、模型訓練、模型評估等步驟核心目的是從大量模糊和隨機的數據中提取隱含、不可預知的潛在有價值信息,并找出數據模型的最佳參數模型部署支持設置多種模型參數偏好,形成不同的模型參數配置策略,以適應不同的服務應用支持預測模型部署所需的計算資源,支持配置模型服務資源數量支持部署試運行,提供關于模型運行速度、資源使用率、運行錯誤等在內的運行報告數據準備數據探索訓練模型模型評估 根據業務分析需求,搜索與業務相關的內外部數據,進行數據挖掘以及數據預處理 設置數據標簽,自動匹配關聯數據清單 提供本地樣本文件上傳能力,支持樣本表預覽 支持數據標
57、準化處理 支持多源多維數據的關聯分類 支持數據樣本提取及抽樣分析,驗證數據指標 支持圖標繪制和計算特征統計,提取內在規律 支持模型自動化訓練 支持自動探索模型任務算法 支持特征自動交叉衍生與自動篩選 支持模型自動化調參 依據多種模型性能的度量指標,評估數據分析結果的合理性、合法性以及評價模型的優劣 支持評價標準的制定,對未達標模型反向篩選 支持分類模型評估的混淆矩陣查看282022.12 iResearch I部署方式依據行業特征、數據體量以及場景需要自由選擇部署方式大數據分析平臺的部署方式主要分為本地化部署和云上部署。本地化部署根據用戶數據體量的大小,又可分為基于Hadoop 生態的平臺搭建
58、和“數據庫+AP 分析引擎”的數倉方案。本地化部署的優點是自主可控和靈活度高,缺點是性能調優和運維復雜,自身技術能力要求和綜合成本高。云上部署以公有云廠商提供的“低成本存儲+彈性存算引擎”的數據湖方案為主,在保留 HDFS 集群分布式存儲可靠性和高吞吐能力的前提下,提供一站式云上 PaaS 能力,實現各類數據快速便捷入湖,用戶無需考慮兼容、安全、性能調優以及運維。盡管國內主流數據湖方案的底層存儲系統仍以 Hadoop的分布式架構構建為主,但架構上層擁有的讀寫優化、內存加速、數據融合等特性是云原生數據湖融合第三方開源組件的價值體現,是本地化部署的Hadoop方案所不具備的。來源:艾瑞咨詢研究院自
59、主研究及繪制。本地化部署 VS 云上部署云上部署本地化部署基于 Hadoop 的大數據方案“數據庫+AP 分析引擎”的數倉方案用戶畫像用戶數據總量達到百 TB乃至 PB 量級,每年新增數據量超過100 TB 以上,適合構建 Hadoop 平臺搭建方式業務場景以低時效要求的離線場景為主,業務側對分析結果敏感度低,可嘗試開源自建;否則,建議成熟穩定的商業版用戶畫像用戶的數據總量在 GB 到100 TB 級別,日增數據在幾十 GB 至百 GB,建議采用數倉方案方案亮點在有限數據體量下,借助存儲引擎自身的存儲格式和計算下推,支持實時批量計算,實時展現分析結果,性能亮眼云上數據湖方案用戶畫像公有云用戶(
60、80%來自互聯網行業,20%為非互聯網行業),業務數據已上云,使用云上 PaaS 平臺在開發難度、使用體驗、運維成本等方面達到最優傳統行業用戶的混合云部署(如政府、金融、醫藥公司等),雖本地建有大數據平臺,但希望通過云上平臺提供新算力資源,進行例如仿真計算在內的二次計算方案亮點基于 Hadoop 的分布式架構構建底層存儲系統,利用云原生數據湖的架構優勢,一方面實現多源異構數據的快速便捷入湖,降低存儲成本;另一方面融合第三方開源產品插件,提供讀寫優化、內存加速、數據融合等性能提升;同時免去了用戶性能調優、兼容、安全及運維等方面的煩惱292022.12 iResearch I架構選擇從離線、在線及
61、實時場景出發,按需選擇和組合分析架構廣義而言,大數據分析平臺不再局限于產品態,更趨近于包含數據采集層、存儲層、調度層、計算層、交互分析層、數據服務層等的集成態。如果從技術架構的角度進行抽象,大數據分析平臺的架構都可歸屬于 Lambda 或 Kappa 架構。若從場景角度進一步抽象,又可拆分為離線、在線以及實時分析架構。在自下而上分層的集成態中,三種分析架構的差異主要源于數據分析層中存算引擎的選用,以滿足各自的分析場景。從技術角度而言,數據分析層的部署最為復雜,但也最富于創新,既有云原生數據湖的存算分離與彈性擴縮容,也有本地化部署下,基于 Docker 技術的平臺解耦,解決物理服務器資源供給彈性
62、不足的問題,滿足存算能力的橫向擴展。在落地實施時,用戶的分析場景又趨于融合,既有 HTAP 數倉方案的融合框架縮影,也有融合 AP 和 TP 場景的海量大數據分析平臺,用戶皆可按需選取。來源:艾瑞咨詢研究院自主研究及繪制。Lambda 架構 VS Kappa 架構Lambda 架構Kappa 架構數據采集不可變更數據批處理層批作業速度層流作業服務層批視圖實時視圖應用合并查詢數據采集不可變更數據流處理系統流作業(版本N)流作業(版本N+1)服務層實時批視圖(N)實時批視圖(N+1)應用數據采集不可變更數據可變更數據流處理系統實時流處理實時數倉實時分析離線分析實時分析服務層實時視圖批視圖快照視圖應
63、用 Lambda 架構將數據分解為批處理層、速度層、服務層以解決不同數據集的數據需求,服務層通常使用 MySQL,HBase 等供業務應用查詢 Kappa 架構在 Lambda 架構的基礎上移除批處理層,利用流計算的分布式特征,加大流數據的時間窗口,統一批處理和流處理 Kappa 架構的運用主要依據使用場景,如果只是傳統企業的離線場景,則沒有必要采用,適用于像互聯網場景下的流批一體 Kappa 架構對全量數據完整性支持能力差,對于機器學習等對數據完整性和一致性有強要強的支持不足,于是衍生出補齊批處理的混合架構302022.12 iResearch I組件選擇采取自建方式部署,應著重關注分析層存
64、算引擎的組合搭建對于采取本地化部署的用戶,按照數據量級大致可分兩類:其一,年新增數據量在100TB 級的傳統行業頭部用戶,由于本地數據體量大,上云的帶寬成本高,同時還可能受到合規監管的約束,多采用開源自建或采購商業版 Hadoop 生態。其二,年新增數據量在 TB 級別以下的中小企業,選擇拋開架構繁復的 Hadoop生態,自建“數據庫+AP 分析引擎”的數倉方案。自建大數據分析平臺必然涉及組件選擇,尤其是數據分析層的組件集成,直接影響場景支撐和效率提升。而在數據分析層的存算引擎中,存儲引擎的選擇顯得格外重要。不難發現拋開計算引擎本身的性能,數據的寬表合并、CRUD、批量計算、實時流計算、即席查
65、詢等,都依賴大數據分析平臺自身的存儲引擎。來源:艾瑞咨詢研究院自主研究及繪制。大數據分析平臺的組件選擇采集層存儲層調度層計算層交互分析層服務層 Kafka:高吞吐量的分布式發布訂閱消息系統,靈活的對接、適配各種數據源采集,對于 Hadoop 的日志數據和離線分析系統,但又要求實時處理的限制,是可行的解決方案 Flume NG:實時日志收集系統,支持在日志系統中定制各類數據發送方,用于收集數據,并對數據進行簡單處理,寫入各種數據接收方(如文本、HDFS、Hbase等)Sqoop:主要用于外部數據的導入,將數據庫和 Hadoop 中的數據進行雙向轉移 HDFS:Hadoop 生態典型的分布式存儲系
66、統。優點是高容錯性,支持 PB 級數據規模,并支持在廉價機器上的多副本機制以提高可靠性;缺點是不適合低延時數據訪問,無法對大量小文件進行高效存儲 HBase:分布式、面向列的開源NoSQL數據庫,通過構建集群,提供大數據快速查詢能力,點查能力強 Redis:鍵值數據庫,通過存儲鍵值之間的映射提供高性能查詢能力,并將存儲在內存的鍵值對數據持久化到硬盤,使用復制特性來擴展性能 Kudu:圍繞 Hadoop 生態圈建立的存儲引擎,提供低延遲的隨機讀寫和高效的數據分析能力 S3 協議:基本所有云服務廠商提供的 oss 服務和開源的 oss 項目都遵循了S3協議,利用 API 接入訪問 Hive:將 S
67、QL 語句翻譯成 MR 程序,將結構化數據映射為數據庫表,并提供 HQL 查詢,解決關系型數據庫的大數據處理瓶頸。缺點是不提供實時查詢和基于行級的數據更新操作,不適用于低延遲應用 Spark:擁有 Hadoop MapReduce 所具有的特點,將 Job 中間輸出結果保存在內存中而無需讀取HDFS。Spark 啟用內存分布數據集,提供交互式查詢,支持優化迭代工作負載 Elasticsearch:開源的全文搜索引擎,基于 Lucene 的搜索服務器,快速儲存、搜索和分析海量數據 Redis:鍵值數據庫,通過存儲鍵值之間的映射提供高性能查詢能力,并將存儲在內存的鍵值對數據持久化到硬盤,使用復制特
68、性來擴展性能分析平臺分層Hadoop312022.12 iResearch I技術趨勢打破傳統架構下的技術異構,統一數據能力提升業務價值傳統 Hadoop 架構和以 MPP 為主的數倉架構都無法真正適應云平臺。Hadoop 將存儲和計算部署在同一物理集群以拉近與數據的距離,僅在同一集群下實現了存算分離,而 MPP 數據庫本身存算耦合。傳統架構下的湖倉分體引發數據孤島的原因有三:第一,異構技術架構;第二,集群規模受限;第三,集群高并發受限。數據孤島進而造成實施、運維和成本的問題。湖倉一體技術呼之欲出在數據和查詢層面形成一體化架構,解決實時性和并發度、集群規模受限、非結構化數據無法整合、建模路徑冗
69、長、數據一致性弱、性能瓶頸等問題,降低數據管理門檻和運維成本。從架構演進方向來看,國內以基于 Hadoop 的改造方案為主,從事務特性出發進行優化,如 Hudi 和 Iceberg 等,基于 HDFS 或 S3 實現支持事務的存儲層,其他與 Hadoop 區別不大。另一方面,以 Snowflake 為代表,基于多云的數倉架構方案在存算分離等方面的特性更具前瞻性,值得持續關注。來源:艾瑞咨詢研究院自主研究及繪制。架構演進方向及業務價值基于 Hadoop 的改造方案(以 Hudi 為例)基于云原生數倉架構的方案(以 Snowflake 為例)改造背景Apache Hudi 是由 Uber 工程師為
70、滿足內部數據分析需求而設計的,Hudi 的數據寫入不綁定 Spark,也可以使用 Hudi自帶寫入工具Snowflake 的湖倉一體方案基于Snowflake的云原生數據倉庫,Snowflake 實現了事務的支持,僅支持對象存儲實現原理使用 SparkSQL/Flink 作為 SQL 計算引擎,Spark Streaming/Flink 作為流處理引擎,存儲使用 HDFS/S3 對象存儲,Update/Delete 的事務實現由 Hudi 實現使用 Snowflake 作為 SQL 計算引擎,,Spark Streaming/Flink 作為流處理引擎,S3對象存儲,Update/Delete
71、 事務由 Snowflake 原生提供支持業務價值實時 T+0全量數據 T+0的流處理和實時按需查詢,滿足事前預測、事中判斷和事后分析一份數據所有用戶(BI 用戶、數據科學家等)可以共享同一份數據,避免數據孤島超高并發支持數十萬用戶使用復雜分析查詢,并發訪問同一份數據數據一致通過支持完善的事務機制,保障不同用戶同時查詢和更新同份數據時的一致性云原生適合云環境,自由增減計算和存儲資源,按用量計費,節約成本多類型數據支持關系表、文本、圖像、視頻等結構化數據和非結構化數據存儲32大數據分析平臺市場分析2大數據分析平臺構建建議3行業應用與典型案例實踐4大數據分析平臺行業概述1大數據分析行業投資分析53
72、32022.12 iResearch I行業聚焦-總覽指導政策覆蓋政務、金融、零售、醫療、交通和教育等領域來源:中國政務網國務院政策文件庫,艾瑞咨詢研究院根據公開資料自主研究及繪制。中國大數據分析平臺各賽道政策方向子賽道時間政策發布機關政策名稱政務2022.10國務院辦公廳全國一體化政務大數據體系建設指南金融2021.12中國人民銀行金融大數據平臺總體技術要求醫療2018.7國家衛生健康委員會國家健康醫療大數據標準、安全和服務管理辦法(試行)2016.6國家衛生計生委規劃與信息司關于促進和規范健康醫療大數據應用發展的指導意見交通2018.3交通運輸部辦公廳、國家旅游局辦公室關于加快推進交通旅游
73、服務大數據應用試點工作的通知2016.8交通運輸部關于推進交通運輸行業數據資源開放共享的實施意見教育2022.10中共中央辦公廳、國務院辦公廳關于新時代進一步加強科學技術普及工作的意見2022.9民政部辦公廳民政部關于落實國務院加強數字政府建設的指導意見水利2017.5水利部關于推進水利大數據發展的指導意見農業2016.10農業部農業部關于推進農業農村大數據發展的實施意見能源2016.7中國煤炭工業協會、中國煤炭運銷協會推進煤炭大數據發展的指導意見342022.12 iResearch I行業聚焦-政務構建全國一體化政務大數據體系,加快政府服務型建設來源:艾瑞咨詢研究院根據公開資料自主研究及繪
74、制。2022年10月國務院發布全國一體化政務大數據體系建設指南,就整合構建全國一體化政務大數據體系作出部署,提出加強數據匯聚融合、共享利用,促進數據高效流通使用,充分釋放政務數據資源價值,提高政府管理水平和服務效能。全國一體化政務大數據體系聚焦“惠民”、“善政”、“興業”和“城市管理”,依托城市大數據相關平臺和應用支撐,匯聚城市管理各相關部門業務數據,集中展示和分析?;诖髷祿七M政府改革,轉變執政理念,創新治理方式,由電子政務向智慧政務升級,提高政府工作效能。通過大數據推動產業結構優化升級,催生基于大數據、網絡經濟的新興產業,促進投資,拉動經濟增長。綜合提升城市運行管理、政務服務、城市綜合管
75、理決策和產業轉型升級等方面能力。全國一體化政務大數據體系構建安全保障制度健全數據資源高效配置數據分析能力增強國家政務大數據平臺國務院政務數據平臺政務數據標準規范省級政務數據平臺安全保障一體化健全安全制度規范數據安全運行管理統籌管理一體化建立完善政務大數據管理體系建立健全政務數據共享協調機制數據目錄一體化全量編制政務數據目錄規范編制政務數據目錄加強目錄同步更新管理數據資源一體化推進政務數據歸集加強政務數據治理建設完善數據庫資源標準規范一體化加快編制國家標準協同開展標準體系建設推進標準規范落地實施提升平臺防護能力算力設施一體化完善算力管理體系提升算力支撐能力建設國家主備節點數據服務一體化優化國家政
76、務數據服務門戶加大政務大數據應用創新力度加強政務大數據基礎能力建設推進政務數據資源開發利用共享交換一體化構建完善統一共享交換體系深入推進政務數據協同共享352022.12 iResearch I行業聚焦-金融基于大數據分析的精準營銷、實施管控、分析決策來源:艾瑞咨詢研究院根據公開資料自主研究及繪制。相比其他行業,金融大數據分析起步早、技術高、發展快,國家對金融行業大數據發展整體秉持鼓勵和支持的基調。一方面,出于對金融行業系統性和非系統性風險雙重考慮,國家對金融大數據分析出臺了細致的監管政策,涉及數據收集、數據治理標準、大數據軟件應用等多個方面。另一方面,金融作為數據密集型行業,數據體量大,數據
77、邏輯性強,對實時性、安全性和穩定性的要求高,同時結構化數據占比高,在分析工具成熟度方面具有明顯優勢。最后,金融行業的數據分析應用場景廣泛,包括精準營銷、風險控制、客戶關系管理、反欺詐檢測、反洗錢檢測、決策支持、股票預測、宏觀經濟分析與預測等多個方面。大數據分析在金融行領域蘊含了巨大的潛力和挑戰。金融行業的大數據分析需求和場景應用股價預測流失客戶預測個人客戶畫像保險定價投資景氣度預測個性化推薦交叉營銷企業客戶畫像客戶聚類細分證券賬戶監控客戶生命周期管理欺詐行為分析環境監測投資賬戶預警保險證券貸款風險管理實時欺詐交易分析銀行反洗錢分析新險種場景分析362022.12 iResearch I行業聚焦
78、-零售線上線下場景融合,智能設備終端接入,數據分析日趨復雜新零售模式下的算法模型和個性化推薦新零售,即依托互聯網、大數據、人工智能等手段,升級改造商品環節,深度融合線上服務、線下體驗以及現代物流,重塑“人-貨-場”業態結構與生態圈的零售新模式。新零售商在不同的業務場景下,布局各類智能終端設備,進行數據采集、算法運行和數據交互等操作。由于不同環節接入的設備終端采集的數據種類、敏感程度、商業價值不同,因而數據收集、處理場景和共享鏈條更加多樣和復雜。隨著新零售從消費終端獲取的數據量和類別“爆發式”增長,對大數據分析的維度和深度提出了新的要求,包括從“人臉驗證”“人臉識別”到“人臉分析”的創新應用、“
79、不殺熟”和“不強制”的算法模型和個性化推薦,以及數據交互的具體場景和風險識別等。010605040302算法模型消費記錄產品偏好消費能力商鋪定位收入水平價格敏感新零售,新業態新零售以“人”為本,收集數據呈現點多面廣的特征。生產環節涉及對存量用戶數據的分析,如客戶購物車數量、重復購買率、點擊瀏覽次數等。在銷售環節,新零售收集消費者的個人信息,包括生物識別信息,以實現如無人貨架、智能收銀等服務。線下體驗店結合線上平臺雙應用場景,也包含大量數據傳輸、存儲和處理。男性女性90后本科美妝電競本科寵物美食旅游來源:艾瑞咨詢研究院根據公開資料自主研究及繪制。372022.12 iResearch I行業聚焦
80、-醫療數據體量龐大,類型繁雜,與健康和生命安全息息相關醫療行業大數據分析的作用和難點與其他行業的數據相比,醫療行業的數據更為重要、復雜。不僅與健康和生命安全息息相關,而且數據結構和類型也更加龐雜和繁瑣。醫療大數據的來源包括:1)醫療數據資源,如電子病歷數據、臨床檢驗數據、醫學影像數據、醫患行為數據等;2)行業數據資源,如商業健康險、醫保、新藥研發、醫藥銷售等;3)學科相關數據資源,如生命科學、環境科學等;4)產生于互聯網的關于疾病、健康或尋醫的話題、搜尋內容、購藥行為以及網站訪問記錄等。醫療大數據呈現數據規模大、數據結構多樣、增長速度快、數據價值高等顯著特征。大數據分析在健康醫療領域的廣泛應用
81、,能夠大幅提高對患者治療的安全系數,為患者制定更有針對性的治療方案,并有效降低醫療成本,意義重大。疾病早期預警通過采集體征數據,分析和判斷相應的波動規律,預測健康變化趨勢,發現潛在風險,事前給予改善建議,降低風險形成的可能性輔助臨床決策通過查詢、分析過往病例,提高診斷疾病的準確性,選擇最佳疾病治療方案,抓住疾病治療的最佳時機,降低臨床用藥失誤的發生率推進醫改深化醫療大數據為醫療深化改革解決深層次的、制約醫藥衛生事業科學健康發展的體制、機制以及結構性的問題,提供了方法論和實踐思路數據體量大,類型復雜醫療行業數字化進程不一,數據紙質化現象較為嚴重,同時數據類型復雜,數據量龐大,醫療大數據挖掘和分析
82、受制因素較多數據采集不暢醫療大數據涉及病患的個人信息和使用藥物信息,隱私性強,此外制藥企業不愿向醫療機構分享藥物信息,數據分析交換共享存在阻力數據安全性不足目前健康醫療領域對大數據的保護不夠,保密性不足,計算機網絡技術的發展讓黑客更加容易獲取醫療領域的相關數據來源:艾瑞咨詢研究院根據公開資料自主研究及繪制。382022.12 iResearch I行業聚焦-交通交通大數據獨有地域和時域動態演化特征,實時性顯著智慧交通大數據分析的特點和應用智慧交通將大數據技術、傳感技術、信號技術等與城市交通系統相結合,建立智能化網絡交通體系,進而對交通系統覆蓋區域實現全過程、實時性監督,確保城市交通系統的正確運
83、行。大數據分析平臺依托云存儲和分布式數據處理技術,實現信息資源的存儲與分配,通過各個路口安裝的監控設備,對交通資源進行整合,在大數據技術的分化處理工作模式下,對交通環境進行立體化分析,以此提供更加全面的數據服務和交通體系網絡。交通行業的大數據分析平臺以人機交互系統、監控系統、信號傳輸系統、警報系統、信息傳輸系統、導航系統等為主,結合智能城市發展的需要,將大數據的數據采集、智能服務、安全指令等應用于智能城市建設,充分實現大數據時代智能城市交通系統的完善建設。時空移動性交通事件具有地域和時域特征。交通大數據在時間和空間維度具有動態演化特征多維結構特征交通大數據的多維結構特征明顯,如時間信息、空間信
84、息、天氣、駕駛員信息等社會關聯性交通大數據存在于信息空間和物理世界,二者與人類社會有機連接和互動時效性明顯交通管理和規劃決策更注重分析近期甚至實時數據,數據挖掘和分析的實時性高交通規劃發現交通片區趨勢和模式,支撐長期決策和城市規劃,分析交通流量,交通信號燈交通預測使用數據挖掘和機器學習算法,對可能的交通事件做出預測,交通擁堵和事故預測交通監督實時自適應交通控制系統、車牌車輛識別、檢測交通事故、分析道路危險狀況交通指引從歷史軌跡數據集中挖掘有規律的線路,提供乘車共享建議,路徑推薦、導航系統來源:艾瑞咨詢研究院根據公開資料自主研究及繪制。392022.12 iResearch I行業聚焦-教育數據
85、采集是教育大數據挖掘和分析的重點突破方向來源:艾瑞咨詢研究院根據公開資料自主研究及繪制。教育大數據分析的數據采集和應用教育大數據產生于教育實踐活動,既包括校園環境下的教學活動、管理活動、科研活動以及校園生活,也包括家庭、社區、博物館、圖書館等非正式環境下的學習活動;既包括線上教育活動,也包括線下的教學活動。教育大數據挖掘和分析的難點主要在于數據采集,是由于教育大數據的數據源主要來自“人”和“物”兩個方面。其中,“人”包括學生、教師、管理者和家長,因此數據采集需要綜合應用多種技術,每種技術采集的數據范圍和重點都有所不同。大數據分析在教育領域的應用主要包括:1)教育數據挖掘。對學習行為和學習過程進
86、行量化、分析和建模,探索和改進教學順序和內容等領域模型,促進有效學習。2)學習分析技術。對學習者及其學習環境的數據測量、收集和分析,理解和優化學習過程和學習環境,構建出學習者特征并推送個性化資源。教育大數據采集01020304平臺采集技術 日志搜索分析 在線學習與管理平臺 移動 APP 網絡爬蟲采集圖像識別技術 學生考試成績數據 學習筆記和練習數據 課程筆記數據視頻錄制技術 學習過程情感數據 校園安全數據 課堂教學數據物聯感知技術 學生學習行為數據 學生體質數據 學生生活數據 設備狀態數據優化教學策略自適應教學個性化教學教學干預預警利用數據分析結果,對知識掌握程度及潛在水平形成認識,優化教學方
87、法、合理安排教學活動與順序通過大數據分析形成可視化報告,能夠將學習者隱性的思維過程、能力素養等難以觀測的維度顯性化對學習者的學習過程與行為數據進行挖掘、聚類和分析,有利于教師開展真正意義上的個性化教學通過數據分析知曉學習交互發生過程,洞察學習偏好和路徑等規律,及時提供恰當干預措施402022.12 iResearch I北極九章基于自然語言搜索的智能分析工具,深掘業務數據價值北極九章于2018年成立,立足2B市場,對標美國BI服務商 ThoughtSpot。產品聚焦企業數據的搜索式分析引擎,界面與一般搜索引擎無異,亮點是實現中文自然問句與數據庫交互,搜索引擎智能識別和分析常規業務問題,對數據庫
88、深度搜索后自動生成數據分析,形成數據洞察賦能業務決策。搜索式的分析引擎獲取數據更加敏捷靈活,數據分析的使用門檻和成本更低,一線業務人員獲取數據分析能力更加輕松。產品生態方面,數字化時代下數據量陡增,對數據挖掘和分析型 BI提出更高要求,搜索式分析引擎是傳統BI功能和性能的重要補充。北極九章增強分析引擎技術架構XGBoostXGBoost數據層服務層應用層訪問層文字/語言搜索數據查看洞察預測自然語言處理引擎數據中臺行業數據第三方系統其他離線文件處理層問題解析&處理統一權限數據可視化機器學習(同步)機器學習(異步)數據預計算引擎異常數據處理數據可視化查詢引擎自動下鉆分析引擎時序預測引擎自助報表模型
89、管理場景鹿離線數據上傳移動設備PC設備瀏覽器來源:北極九章,艾瑞咨詢研究院整理及繪制。412022.12 iResearch I北極九章產品面向業務人員,與傳統BI形成合作生態1)產品定位方面:相比傳統 BI 的操作復雜、學習成本高,搜索式數據分析產品直接面向非數據分析專業的業務人員,交互方式簡單,顯著降低使用門檻,讓數據真正創造業務價值。兩類產品從底層思路和設計邏輯有本質差異,非直接競爭關系。2)產品技術方面:北極九章通過建立索引來獲取多源異構數據,在涉及一對多查詢時(如不同品牌間,或同一品牌在不同時間段對比),相對傳統 BI,在響應速度方面具備相對優勢。3)產品體驗方面:產品界面與搜索引擎
90、無異,自然語言輸入便可獲取數據洞察,使用零門檻;產品基于云原生架構,開箱即用,大大降低部署成本。北極九章產品服務領域與應用案例精細洞察提升營銷效果:通過分析各渠道客戶影響,即時確定最佳營銷活動,并不斷進行有效改進。即時洞察異常:利用產品洞察能力實時預警異常賬戶活動、信貸風險、信息安全以及市場和流動性需求等。小紅書業務數據劇增:業務擴張快,數據分析需求指數級增長,數據工程師人手不足。分析效率低:業務時效性要求高,但數據需求從提出申請到技術開發實現周期長。工具復雜:自研產品構造復雜,雖然有開放應用,但對人員的數據分析技術要求高。多場景接入:接入“用戶搜索日志數據”、“熱詞數據”、“品牌輿情數據”,
91、業務人員可通過搜索框分析用戶行為趨勢、品牌口碑變化、量化品牌投入效果。無縫集成:接入小紅書數據湖服務實現數據集成,與內部數據門戶無縫集成。痛點解決智慧金融智能營銷互聯網零售數據治理困難:數據豎井式建設,缺乏統一的規范和治理體系,數據質量參差不齊;面對監管和報送要求,不同部門的監管口徑不同,數據應用難度大。業務流程繁復:行業特殊性導致對客戶體驗、端到端業務流程的梳理阻力大。金融某銀行痛點解決來源:北極九章,艾瑞咨詢研究院整理及繪制。42大數據分析平臺市場分析2大數據分析平臺構建建議3行業應用與典型案例實踐4大數據分析平臺行業概述1大數據分析行業投資分析5432022.12 iResearch I
92、2022.12 iResearch I投資整體分析受疫情影響,大數據分析行業融資金額及融資頻次縮水明顯來源:IT桔子,艾瑞咨詢研究院整理及繪制。來源:IT桔子,艾瑞咨詢研究院整理及繪制。2019年-2022年5月,中國大數據分析行業的項目(公司)共計328個,融資事件達534次,項目平均融資事件數為1.63次,有162個項目(公司)(占比49.39%)獲得B輪及以上融資。244個項目(公司)已披露累計獲得近672.22億元融資金額。2019-2022年5月中國大數據分析行業融資金額及增長率2019-2022年5月中國大數據分析行業各輪次融資事件189 243 191 49 28%-22%-61
93、%2019202020212022.05大數據分析行業融資金額(億元)增長率(%)805148539353862915224202726424222572019202020212022.05天使輪/Pre-A/A/A+(個)Pre-B/B/B+(個)Pre-C/C/C+(個)Pre-IPO/IPO(個)戰略投資(個)442022.12 iResearch I投資輪次分析超六成項目難獲得后續融資,融資活動集中于頭部項目,市場風險偏好下行,資本更青睞產品集成度高的中后期企業來源:IT桔子,艾瑞咨詢研究院整理及繪制。2019-2022年5月,中國大數據分析行業的項目僅有131(39%)個項目獲得兩輪
94、及以上融資,197(61%)個項目僅獲得一輪融資。三年內僅獲得一輪融資的197個項目中,從起投年份看,64.4%起投年份為2019或2020年;從當前輪次看,56.93%處于融資早期階段(種子/天使輪、A輪、B輪),說明中國大數據分析行業的融資事件相對集中于少部分頭部項目,超六成早期項目難以獲得后續融資。早期項目多為初創或中小企業,技術實力和研發能力弱,資金投入大,在長期沒有外部資金注入的情況下,經營和管理缺乏創新動力,將會被市場淘汰。項目融資次數占比項目起投年份占比項目當年投資輪次占比種子輪/A/B輪56.93%C輪及以上43.07%1次60%2次24.0%3次11.0%4次3.0%5次(包
95、含5)2.0%2019年39%2020年25%2021年36%2022年0%452022.12 iResearch I2022.12 iResearch I投資周期分析投資機構向頭部聚攏,融資輪次偏向后期,資本與產業兩端的馬太效應凸顯來源:IT桔子,艾瑞咨詢研究院整理及繪制。來源:IT桔子,艾瑞咨詢研究院整理及繪制。2019-2022年5月,資本市場最初對大數據分析行業的早期項目有明顯偏好,伴隨大數據企業生命周期演進,資本更多投資于成長期和成熟期企業。高估值融資事件比重逐年提升,反映出大數據分析行業的馬太效應顯著,受資本青睞的頭部企業持續獲投,融資輪次多分布于中后期,資源高度集中。頭部企業憑借
96、關鍵技術和商業模式優勢迅速占領市場,借助資本的力量發展壯大成為行業獨角獸。對于初創企業而言,只有通過長期的技術積累,在垂直領域深挖,構建起技術壁壘,同時在商業模式上做出一定創新,才有可能在激烈的行業競爭中生存下來。2019-2022年5月項目融資次數占比趨勢2019-2022年5月融資后項目估值42%34%30%19%20%23%24%23%15%10%14%15%10%18%16%15%13%15%16%27%2019202020212022.5天使輪/Pre-A/A/A+Pre-B/B/B+Pre-C/C/C+Pre-IPO/IPO戰略投資14%13%6%42%30%30%31%18%20
97、%19%23%6%8%7%12%20%29%38%35%201920202021202215億(包含15)462022.12 iResearch I投資風險分析受疫情影響,市場風險偏好下行,投資風險需要重點關注來源:艾瑞咨詢研究院自主研究及繪制。在國家宏觀政策驅動下,數字經濟轉型仍是目前較為熱門的投資賽道,但受疫情影響整體市場風險偏好下行,大數據分析行業的投融資活動需重點關注項目的投資風險。從產業鏈各環節投資價值上看,中游數據服務層的成長期和成熟期項目普遍已進去中后期輪次,價格偏高,綜合性價比較低,新興型項目難獲得后續融資,退出風險較高,整體產業價值較??;建議重點關注中下游服務+應用的創新融合
98、層,聚焦深刻理解應用行業、有效解決行業難點、重點應用2-3個關鍵行業的目標項目。投資風險分析大數據分析行業受技術驅動的影響顯著,存在投資項目的技術研發不及預期風險。技術研發風險市場競爭超預期風險數據合規使用風險業務拓展慢于預期估值模式風險客戶流失或付費能力降低市場競爭超預期可能導致投資項目的市場份額、盈利能力和估值情況低于預期。大數據分析行業涉及數據采集分析,若監管政策變化,員工及合作方、客戶不當操作,可能產生數據合規風險,對投資項目的業績和估值產生不利影響。廠商業務面向大量垂直行業及政府客戶,新業務拓展和應用落地存在低于預期風險。大數據分析行業的研發和經營普遍具有較強的創新性,投資項目的業務
99、模式和技術細分領域與市場可比公司可能存在差異,存在可比估值誤差的風險。隨著行業競爭程度日益劇烈,存在客戶流失風險,從而對公司規模增長和業務拓展形成負面影響。47行業咨詢投資研究市 場 進 入競 爭 策 略IPO行業顧問募投商業盡職調查投后戰略咨詢為企業提供市場進入機會掃描,可行性分析及路徑規劃為企業提供競爭策略制定,幫助企業構建長期競爭壁壘為企業提供上市招股書編撰及相關工作流程中的行業顧問服務為企業提供融資、上市中的募投報告撰寫及咨詢服務為投資機構提供擬投標的所在行業的基本面研究、標的項目的機會收益風險等方面的深度調查為投資機構提供投后項目的跟蹤評估,包括盈利能力、風險情況、行業競對表現、未來
100、戰略等方向。協助投資機構為投后項目公司的長期經營增長提供咨詢服務艾瑞新經濟產業研究解決方案48艾瑞咨詢是中國新經濟與產業數字化洞察研究咨詢服務領域的領導品牌,為客戶提供專業的行業分析、數據洞察、市場研究、戰略咨詢及數字化解決方案,助力客戶提升認知水平、盈利能力和綜合競爭力。自2002年成立至今,累計發布超過3000份行業研究報告,在互聯網、新經濟領域的研究覆蓋能力處于行業領先水平。如今,艾瑞咨詢一直致力于通過科技與數據手段,并結合外部數據、客戶反饋數據、內部運營數據等全域數據的收集與分析,提升客戶的商業決策效率。并通過系統的數字產業、產業數據化研究及全面的供應商選擇,幫助客戶制定數字化戰略以及
101、落地數字化解決方案,提升客戶運營效率。未來,艾瑞咨詢將持續深耕商業決策服務領域,致力于成為解決商業決策問題的頂級服務機構。400-026-聯系我們 Contact Us企 業 微 信微 信 公 眾 號關于艾瑞49法律聲明版權聲明本報告為艾瑞咨詢制作,其版權歸屬艾瑞咨詢,沒有經過艾瑞咨詢的書面許可,任何組織和個人不得以任何形式復制、傳播或輸出中華人民共和國境外。任何未經授權使用本報告的相關商業行為都將違反中華人民共和國著作權法和其他法律法規以及有關國際公約的規定。免責條款本報告中行業數據及相關市場預測主要為公司研究員采用桌面研究、行業訪談、市場調查及其他研究方法,部分文字和數據采集于公開信息,并
102、且結合艾瑞監測產品數據,通過艾瑞統計預測模型估算獲得;企業數據主要為訪談獲得,艾瑞咨詢對該等信息的準確性、完整性或可靠性作盡最大努力的追求,但不作任何保證。在任何情況下,本報告中的信息或所表述的觀點均不構成任何建議。本報告中發布的調研數據采用樣本調研方法,其數據結果受到樣本的影響。由于調研方法及樣本的限制,調查資料收集范圍的限制,該數據僅代表調研時間和人群的基本狀況,僅服務于當前的調研目的,為市場和客戶提供基本參考。受研究方法和數據獲取資源的限制,本報告只提供給用戶作為市場參考資料,本公司對該報告的數據和觀點不承擔法律責任。合作說明該報告由北極九章和艾瑞共同發起,旨在體現行業發展狀況,供各界參考。