《計算機行業大數據系列(二):數據倉庫深度分析從Snowflake快速崛起深度解析數倉競爭要素-230922(39頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業大數據系列(二):數據倉庫深度分析從Snowflake快速崛起深度解析數倉競爭要素-230922(39頁).pdf(39頁珍藏版)》請在三個皮匠報告上搜索。
1、 敬請閱讀末頁的重要說明 證券研究報告|行業深度報告 2023 年 09 月 22 日 推薦推薦(維持)(維持)大數據系列(二):數據倉庫深度分析大數據系列(二):數據倉庫深度分析 TMT 及中小盤/計算機 數據倉庫因數據分析需求涌現而誕生,作為大數據分析的承載底座,將在數字數據倉庫因數據分析需求涌現而誕生,作為大數據分析的承載底座,將在數字經濟發展中扮演重要角色。本篇報告是我們大數據專題系列第二篇,我們從技經濟發展中扮演重要角色。本篇報告是我們大數據專題系列第二篇,我們從技術架構、術架構、OLAP 分類、數據模型、數倉架構演化、新一代云原生數倉發展等多分類、數據模型、數倉架構演化、新一代云原
2、生數倉發展等多方面對數倉發展進行了詳細解析;并深度挖掘了方面對數倉發展進行了詳細解析;并深度挖掘了 Snowflake 快速崛起背后的核快速崛起背后的核心競爭力與成長潛力,對大數據產業鏈分析與相關企業篩選起到借鑒意義。心競爭力與成長潛力,對大數據產業鏈分析與相關企業篩選起到借鑒意義。分析型數據倉庫因數據分析需求涌現而誕生分析型數據倉庫因數據分析需求涌現而誕生,將,將受益于受益于 BI 需求持續增長。需求持續增長。隨著企業對數據價值挖掘需求的涌現,傳統 OLTP 事務型數據庫存在部門間數據難以打通的問題,產生數據孤島,為挖掘數據價值帶來阻礙。數據倉庫能夠實現多源數據匯集,以及能夠通過數據分層實現
3、解耦合,在不占用業務資源的同時,使其作為 BI 的技術底座,滿足客戶的數據分析和決策支持。根據Gartner,全球現代 BI 及分析工具市場預計將從 20 年起以 CAGR 為 16%的增速增長至 26 年的 130 億美元,實現規模翻倍;根據 Modor Intelligence,全球數倉規模將與 BI 需求增長保持一致,2023 年全球數倉規模約為 90.1 億美元,預計2028年將達到152.5億美元,2023-2028年復合增長率為11.10%。數倉市場海外新老玩家角逐激烈,國內云廠商占據主導。數倉市場海外新老玩家角逐激烈,國內云廠商占據主導。海外市場,Microsoft、Amazon
4、、Google 等云計算龍頭與自身完善的云生態結合,憑借多產品協同效應持續在數倉賽道發力;Oracle、IBM 等老牌關系型數據庫龍頭,憑借與自身數據庫深度結合,在數據倉庫方面也保持一定份額。以 Snowflake 為代表的新興廠商憑借其中立身份、多云支持、算儲分離的創新架構帶來的彈性收費模式等優勢,快速搶占份額,與龍頭企業形成競爭與合作并存的發展邏輯。國內市場,對大數據平臺需求較高的行業主要包括政府、金融、運營商、互聯網等行業,華為、阿里等云廠商憑借在政企、互聯網等行業優勢,占據主要份額。他山之石:我們對新型云原生數倉企業他山之石:我們對新型云原生數倉企業 Snowflake 快速發展進行深
5、度分析,快速發展進行深度分析,發掘數倉行業競爭要素。發掘數倉行業競爭要素。通過對 Snowflake 的全面分析,我們認為其核心優勢包括:1)Snowflake 創新型算儲分離架構,使得資源分配更加合理。2)改變傳統預先設定規模的模式,算儲分離的彈性計費進一步降低使用門檻。3)作為中立的第三方平臺,提供多云支持更易受客戶青睞。未來數倉逐步向上層未來數倉逐步向上層 BI 應用融合與開辟數據交易市場,成為提升數倉產品應用融合與開辟數據交易市場,成為提升數倉產品價價值重要增量方向:值重要增量方向:1)以數倉為核,向 BI 融合:數據倉庫作為 BI 的技術底座,Snowflake 可在高標準化的數據倉
6、庫基礎上開發直接面向客戶、實現數據可視化功能的前端應用,逐步向上層 BI 拓展,有助于進一步提升數倉產品商業價值。2)數據交易提供業務增量:Snowflake 的數據分享功能孕育數據交易市場 Marketplace,目前已有 448 家數據供應商,公司憑借其中立第三方身份,提供跨云數據整合支持,同時交易的數據可在 Snowflake 平臺上直接應用存儲和計算資源,最終強化其核心業務變現能力。3)緊抓 AIGC 機遇,以數倉助力構建大模型。風險提示:風險提示:技術創新不及預期,數倉行業競爭加劇,大數據發展不及預期影技術創新不及預期,數倉行業競爭加劇,大數據發展不及預期影響數倉行業發展,被數據庫、
7、數據湖替代風險。響數倉行業發展,被數據庫、數據湖替代風險。行業規模行業規模 占比%股票家數(只)274 5.2 總市值(十億元)2761.3 3.4 流通市值(十億元)2264.6 3.2 行業指數行業指數%1m 6m 12m 絕對表現-7.0-11.9 27.8 相對表現-5.4-4.1 33.7 資料來源:公司數據、招商證券 相關相關報告報告 1、數據資產評估產業展望計算 機 行 業 周 觀 察20230917 2023-09-17 2、曙光已現,華為計算產業生態加速發展華為產業鏈深度梳理 2023-09-15 3、華為生態日漸完善,關注產業鏈相關投資機會計算機行業周觀察 20230910
8、2023-09-10 4、篳路藍縷,星火燎原大數據系列(一):數據庫深度復盤與展望2022-02-25 劉玉萍劉玉萍 S1090518120002 -20020406080Sep/22Jan/23May/23Aug/23(%)計算機滬深300從從 SnowflakeSnowflake 快速快速崛起崛起深度解析數倉競爭要素深度解析數倉競爭要素 敬請閱讀末頁的重要說明 2 行業深度報告 正文正文目錄目錄 一、分析需求增長促數倉快速發展.6 1、分析需求涌現:從數據庫到數據倉庫.6 2、數倉核心功能一:多源數據匯集,打破數據孤島.6 3、數倉核心功能二:通過數據分層解耦合,實現業務與分析分離.9 4
9、、實時分析需求快速增長,從離線數倉到實時數倉.10 5、實時數倉架構演進:從 Lambda 到 Kappa、從集中式到云原生.11 二、國外市場新老玩家各具優勢,國內市場云廠商占據主導.13 1、數倉作為技術底座,有望受益于 BI 需求增長.13 2、海外市場:新老玩家角逐激烈,同質化較高,以分析能力與生態建設為重要發力方向.14 3、國內市場:與海外廠商差距縮小,云廠商占據主導.19 三、顛覆傳統數據倉庫市場的 Snowflake.25 1、從算儲分離技術創新和業務創新看 Snowflake 崛起.25 2、以數倉為核心,不斷擴大功能邊界.26 3、架構創新:橫跨三大公有云,算儲解耦.26
10、4、商業創新:算儲分離下,實現單獨、彈性計費.27 5、成本優勢:Snowflake 存儲資源價格優勢明顯.28 6、財務與業務分析:營收亮眼,規模效應加強,客戶留存能力較強.29 四、Snowflake 核心競爭優勢及發展啟示:高性能、三方身份、網絡生態圈 32 1、高性能是數倉重要指標.32 2、專注于數倉的第三方身份更易受客戶青睞.32 3、依托網絡效應構筑生態護城河.33 4、增長看點一:數據量爆發式增長下,數倉需求快速增長.34 5、增長看點二:以數倉為核,向 BI 融合.35 6、增長看點三:數據交易供增量,強化平臺變現能力.36 7、增長看點四:與微軟和英偉達合作,共同構建 AI
11、 大模型解決方案.37 風險提示.38 圖表圖表目錄目錄 圖 1:數據倉將多源數據聚合并進行價值挖掘.7 OYiXuZoYdYnVvXoM9P9R7NpNmMtRpMjMmMvMkPsQpR8OqQuNvPsOuMwMsRyR 敬請閱讀末頁的重要說明 3 行業深度報告 圖 2:事實表與維度表示意圖.9 圖 3:星型模型與雪花模型示意圖.9 圖 4:常見的數據分層架構(數據分層:對數據進行層層加工).10 圖 5:實時數倉分層架構圖.11 圖 6:Lambda 架構 vs Kappa 架構.12 圖 7:Snowflake 算儲分離架構.13 圖 8:數倉市場活躍度地圖.14 圖 9:全球數據倉
12、庫及 BI 市場規模(億美元).14 圖 10:Snowflake 前期客戶數保持快速增長.15 圖 11:Azure Synapse 架構與 Snowflake 類似.16 圖 12:Microsoft Azure 云數據生態系統成熟度高,集數據存儲、分析、可視化等功能于一體.16 圖 13:AWS Redshift 主架構采用 MPP,數據存儲在計算節點中.17 圖 14:Google BigQuery 架構.18 圖 15:IDC 預計 2021-2026 年中國大數據市場規模將翻倍增長.19 圖 16:2023-2027 年我國數據倉庫軟件市場規模預測.19 圖 17:星環科技 201
13、6 年進入 Gartner 數據倉庫及數據管理解決方案魔力象限(左圖);阿里、騰訊 2022 年位列 Gartner 云數據庫管理方案魔力象限中(右圖).20 圖 18:我國數據倉庫軟件市場廠商份額本地部署模式,2022H2.20 圖 19:我國數據倉庫軟件市場廠商份額公有云模式,2022H2.20 圖 20:AnalyticDB 架構.21 圖 21:AnalyticDB 在 TPC-DS 性能測試中排名第一.21 圖 22:GaussDB(DWS)實時數據分析流程.22 圖 23:華為云 FusionInsight 智能數據湖方案圍繞數據周期建立.22 圖 24:騰訊云數據倉庫 Postg
14、reSQL 架構未實現存算分離:存儲和計算都在Segment 節點上進行.23 圖 25:PostgreSQL 應用場景之輔助經營分析決策.23 圖 26:PostgreSQL 應用場景之海量日志分析.24 圖 27:公司技術框架從基于開源逐漸演進至高度自研.25 圖 28:snowflake 在 3 年內為客戶創造 612%的 ROI.25 圖 29:2021 年 Snowflake 成功升級為云 DBMS 的領導者.26 圖 30:Snowflake 平臺的演化:從單一軟件到生態系統的初步蛻變.26 敬請閱讀末頁的重要說明 4 行業深度報告 圖 31:Snowflake 的平臺部署在全球
15、22 個地區.27 圖 32:Snowflake 的云數據平臺建立在三大公有云之上,云原生架構中層級分明.27 圖 33:Snowflake 實現資源彈性計費.28 圖 34:營收規模擴大,產品收入貢獻絕大部分營收.30 圖 35:凈利率,毛利率穩步提升.30 圖 36:第三方云服務成本占據高比例營業成本.30 圖 37:計算機三費費率大體呈下降趨勢.30 圖 38:剩余履約合同(RPO)增速快,收入增長可見度高.30 圖 39:客戶營收規模分布:受大型企業及小規模營收企業青睞.31 圖 40:Snowflake 凈收入留存率優異.31 圖 41:Snowflake 總客戶數不斷增長.31 圖
16、 42:大客戶粘性持續增強.31 圖 43:Snowflake 命令執行時間標準差較小,性能穩定.32 圖 44:Gigaom 部分測試結果,Snowflake 性能表現優異.32 圖 45:企業的“多云”策略.33 圖 46:55%的企業表明使用2 種公有云服務.33 圖 47:2020 年 2 月-7 月,Snowflake 賬戶之間的數據共享情況.34 圖 48:Snowflake 擴大生態合作伙伴圈.34 圖 49:全球數據圈每年規模.34 圖 50:企業成為數據使用的主要場合.35 圖 51:Snowflake 客戶中,營收小于 100 萬美元的小規??蛻舯壤^低.35 圖 52:簡
17、化 BI 架構:數據倉庫是承上啟下的中樞.36 圖 53:Snowflake 是數據與 BI 門戶間的橋梁.36 圖 54:目前 Snowflake Marketplace 平臺已經匯聚大量數據提供商.37 圖 55:固定月費模式.37 圖 56:按次收費模式.37 圖 57:英偉達 NeMO 產品框架.38 表 1:數據庫和數據倉庫的比較.6 表 2:數據倉庫架構設計.7 表 3:MOLAP、ROLAP、HOLAP 詳解.8 敬請閱讀末頁的重要說明 5 行業深度報告 表 4:傳統業務數據庫用于分析的痛點.10 表 5:數據分層優勢解析.10 表 6:實時分析應用場景舉例.11 表 7:數據倉
18、庫持續進化.13 表 8:2017-2021 Snowflake 市場排名快速上升.14 表 9:數據倉庫代表玩家發布產品的時間.15 表 10:云數據倉庫海外代表產品同質化程度較高.18 表 11:Snowflake 收費模式以“消費”為導向,用多少、付多少.28 表 12:Snowflake 預留付費模式下的存儲價格有相對優勢.28 表 13:Snowflake 客戶覆蓋領域廣泛.31 敬請閱讀末頁的重要說明 6 行業深度報告 一、一、分析需求增長促數倉快速發展分析需求增長促數倉快速發展 1、分析需求涌現:從數據庫到數據倉庫分析需求涌現:從數據庫到數據倉庫 回顧數據庫回顧數據庫 70 年發
19、展歷程,行業順應需求變化持續演化。年發展歷程,行業順應需求變化持續演化。根據我們大數據系列第一篇篳路藍縷,星火燎原大數據系列(一):數據庫深度復盤與展望對數據庫行業發展的詳細梳理:數據庫的誕生可追溯至 20 世紀 60 年代,其主要使命為存儲、查詢及管理數據,當前正處于以關系型數據庫與非關系型數據庫并行發展的時代。關系型數據庫占據主導地位,在企業 ERP、CRM 等核心業務領域被廣泛應用。非關系型數據庫,包括文檔數據庫、圖形數據庫、時序數據庫等,在金融反欺詐、智能制造等特定應用場景具有很好的適配性。隨著企業對數據分析需求的涌現,傳統事務型數據庫面臨瓶頸,數據倉庫應運隨著企業對數據分析需求的涌現
20、,傳統事務型數據庫面臨瓶頸,數據倉庫應運而生。而生。隨著數據規模增長,企業對數據價值挖掘需求快速增長,傳統模式下,企業會根據業務需求,將數據存儲在不同的數據庫中,部門間數據隔閡難以打通,產生數據孤島,為挖掘數據價值帶來阻礙。同時企業需通過分析大量數據以支持經營決策,而主要面向事務處理的傳統數據庫,其性能難以滿足數據分析等進階需求。為從大量數據中獲得洞察以支持企業決策,數據倉庫在此背景下誕生。表表 1:數據庫和數據倉庫的比較:數據庫和數據倉庫的比較 比較維度比較維度 數據庫數據庫 數據倉庫數據倉庫 定義不同定義不同 側重于 OLTP 事務型處理,針對具體業務,通常對記錄進行查詢、修改。OLTP
21、重在事務處理,主要面向交易過程,強調實時性和穩定性,常應用于 EPR、CRM、OA 等業務系統 側重于 OLAP 分析型處理,一般針對某些主題的歷史數據分析。OLAP 重在分析處理,主要對 OLTP 存儲的數據進行后期分析以輔助決策 目的不同目的不同 存儲、捕獲數據 為分析數據、支持決策而創建 面向對象不同面向對象不同 面向事務:操作型數據庫各業務系統間存在隔離,通常與某些特定應用相關,且是異構的 面向主題、集成的:主題指使用數倉進行決策時關心的重點方面,一個主題常與多個操作型數據庫有關。數據倉庫是多個異構的數據源有效集成,集成后按照主題進行重組。保證數倉內信息是關于整個企業一致的全局信息。數
22、據關注的時間數據關注的時間維度不同維度不同 關注當下時間點:存儲瞬間數據 關注歷史時間段:存儲歷史數據,反映歷史變化 操作類型不同操作類型不同 更新、刪除操作頻繁:數據通常實時更新 定期加載、刷新:數倉的數據所涉及操作主要是查詢,而修改和刪除操作很少,通常只需定期的加載、刷新 資料來源:javatpoint、招商證券 2、數倉核心功能一:多源數據數倉核心功能一:多源數據匯集,打破數據孤島匯集,打破數據孤島 數據倉庫有效打破原有數據孤島,建立集中存儲機制。數據倉庫有效打破原有數據孤島,建立集中存儲機制。企業往往會根據業務需求而存在多種數據庫,而數據庫由于架構不同、存儲容量限制等因素,在數據集中存
23、儲、跨庫操作等環節存在諸多問題。數據倉庫是將來自不同來源的數據聚合到集中且一致的數據存儲系統中,并解決傳統關系型數據庫無法跨庫操作的問題,其功能集中于從其他來源提取、清理和準備數據,以及在關系數據庫中加載和維護數據,并通過數據挖掘、人工智能等技術進行數據價值分析。數據倉庫從架構設計來看,分為底層多元異構數據匯聚層、中層 OLAP 處理層和頂層數據應用層。敬請閱讀末頁的重要說明 7 行業深度報告 圖圖 1:數據倉將多源數據聚合并進行價值挖數據倉將多源數據聚合并進行價值挖掘掘 資料來源:brain station、招商證券 表表 2:數據倉庫架構設計:數據倉庫架構設計 架構架構 詳細詳細 底層底層
24、 底層一般由多個業務庫組成(關系數據庫),通過 ETL 過程對多個業務庫數據進行提取、清洗、轉換等操作。中層中層 中層主要為 OLAP 庫,可實現數據的快速分析。OLAP 架構一般分為ROLAP、MOLAP、HOLAP 三種,具體根據業務需求進行選擇。頂層頂層 頂層為前端數據應用層,根據數據分析結果生成報表等幫助管理層做輔助決策。資料來源:騰訊云、dataversity、招商證券 底層:數據倉庫通過底層:數據倉庫通過 ETL 過程實現多源數據匯聚。過程實現多源數據匯聚。數據倉庫對多源數據進行采集,并經過數據分層處理,得到統一的、規范的數據后可以進行大數據分析,其核心是把數據從 OLTP 過程轉
25、換到 OLAP 平臺的一個過程。其中需要對數據進行操作和建模,這個過程統稱為 ETL(Extract-Transform-Load),主要是指將源數據經過抽取、清洗轉換之后加載到數據倉庫,目的是將業務庫中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供數據基礎。中層:中層:數據存儲和處理方式數據存儲和處理方式層面看,層面看,HOLAP 混合型成為重要方向?;旌闲统蔀橹匾较?。數據倉庫主要因分析型 OLAP 需求而誕生,其實現路徑主要包括 MOLAP、ROLAP、HOLAP,目前正朝著 HOLAP 混合型方向發展。OLAP 有多種實現方法,根據存儲數據的方式不同可以分為 ROLAP、M
26、OLAP,以及將前兩者取長補短的HOLAP。目前,OLAP 發展更偏向于 HOLAP,因為大廠既不想丟棄一直使用的關系型數據庫,又想在數據分析能力上獲得進一步提升,所以 HOLAP 方向成為更好的選擇。敬請閱讀末頁的重要說明 8 行業深度報告 表表 3:MOLAP、ROLAP、HOLAP 詳解詳解 分類分類 詳細詳細 優劣勢優劣勢 適用場景適用場景 MOLAP:基于多維基于多維數據組織數據組織的的 OLAP 需要對原始數據進行預計算得到需要的所有結果,并將其存儲到優化過的多維數組存儲 優勢:優勢:1)查詢時無需進行復雜計算,且以數組形式可以進行高效的免索引數據訪問,用戶發起的查詢均能夠穩定地快
27、速響應。2)最后存儲的預處理數據為高度聚合化,可以進行壓縮等操作來減少存儲占用空間。劣勢:劣勢:1)需要進行預計算,存儲需要花費較多時間,無法保證數據的實時性 2)如果需要發生變化,需要進行預定模型之外新的查詢操作,需要重新進行建模和預計算,不具有靈活性。適用于查詢場景相對固定并且對查詢性能要求非常高的場景。如廣告主經常使用的廣告投放報表分析。ROLAP:基于關系基于關系型數據庫型數據庫的的 OLAP 直接將原始數據同步,無需預計算,在每次查詢時進行即時計算。優勢:優勢:1)無需進行數據預處理,查詢靈活,可擴展性更好。2)數據入庫效率更高,可以保證數據的實時性 劣勢:劣勢:在查詢計算較為復雜的
28、場景下,需要較長時間返回結果。本質上,ROLAP 是把 MOLAP 預計算所需的時間分攤到了用戶的每次查詢上,會影響用戶實時查詢體驗,并消耗較多算力資源。適用于對查詢模式不固定、靈活性要求高的場景。如數據分析師的數據分析類產品,會對數據做各種預先不能確定的分析,所以需要更高的查詢靈活性。HOLAP:混合數據混合數據組織的組織的OLAP 將MOLAP和ROLAP優點互補,對于頻繁而穩定但又耗時的查詢,通過預計算來提速;對于運算較少、發生次數較少或新的查詢需求,像ROLAP 一樣直接通過計算來提取。優勢:優勢:結合了 MOLAP 和 ROLAP 的優勢之處,并且提供了聚合數據的快速查詢。同時因為它
29、僅將聚合信息存儲在OLAP 服務器上,而詳細記錄保留在關系數據庫中。因此,減少了數據冗余,平衡了磁盤空間需求。劣勢:劣勢:需要同時支持 MOLAP 與 ROLAP,導致架構更為復雜,維護難度也更高。具有通用性 資料來源:javatpoint、CSDN、招商證券 中層:數據建模層面看,從實體中層:數據建模層面看,從實體-關系模型走向星型關系模型走向星型/雪花型。雪花型。數據倉庫通過數據建模,將數據進行關聯,主要基于事實表與維度表,通過事實表將各個維度表進行關聯,從而建立完整的數據模型。其中事實表事實表是指處于數據結構的中心,存儲某種業務各個維度的數據,其中各個維度一般都是對應編碼,其本質可以理解
30、為關注的內容索引列表;維度表維度表可以看作是事實表的發散表,對應著事實表里面的每一個維度。根據業務需要,可以選擇需要的細分維度進行分析關聯。本質為將分析目標的多維度內容進行存儲。數據倉庫的數據模型根據事實表與維度表的關系可以分為星型(Star)與雪花(Snowflake)模型。星型模型星型模型中所有維度表直接與事實表關聯,不存在漸變維度,有一定數據冗余產生;雪花雪花模型模型中有一個或多個維表沒有直接連接到事實表,而是通過其他維表連接到事實表上,對星型模型的維表進一步層次化,雪花模型是對星型模型的擴展。敬請閱讀末頁的重要說明 9 行業深度報告 圖圖 2:事實表與維度表:事實表與維度表示意圖示意圖
31、 資料來源:騰訊云開發者社區、招商證券 圖圖 3:星型模型與雪花模型示意圖星型模型與雪花模型示意圖 資料來源:騰訊云開發者社區、招商證券 3、數倉核心功能二:通過數據分層解耦合,實現業務與分數倉核心功能二:通過數據分層解耦合,實現業務與分析分離析分離 為了防止數據分析對業務數據庫的干擾,數據倉庫另一核心功能為解耦合:為了防止數據分析對業務數據庫的干擾,數據倉庫另一核心功能為解耦合:即通過建立數據倉庫達到業務處理與數據分析分離的目的。數據倉庫除了將異構數據庫匯集,解決跨庫操作的難題外,將分析與業務解耦,也解決了傳統數據庫對于分析的諸多痛點。敬請閱讀末頁的重要說明 10 行業深度報告 表表 4:傳
32、統業務數據庫用于分析的痛點:傳統業務數據庫用于分析的痛點 痛點痛點 詳細詳細 結構復雜、大規模查詢困難 一般業務庫會以盡可能簡潔的方式進行存儲,表與表之間存在大量關聯索引,如進行大規模分析時,查詢需要花費大量時間,并占用較高的資源,可能會影響正常業務操作。數據不完善影響分析結果 在業務過程中可能由于系統故障等原因產生一些偏差數據,如果每次分析都對所有數據進行預處理,需要耗費大量時間與資源;不做處理,會導致分析誤差加大,影響管理層決策判斷。無法提供足夠的歷史數據 為了保證數據庫對業務的實時響應效率,一般不會存儲很長歷史的數據,無法滿足分析需要大量歷史數據的回溯。資料來源:帆軟、CSDN、招商證券
33、 數據分層是幫助數據倉庫實現解耦合能力的關鍵,避免了因為數據分析而干擾數據分層是幫助數據倉庫實現解耦合能力的關鍵,避免了因為數據分析而干擾數據庫的業務操作。數據庫的業務操作。由于數據倉庫需要進行大量數據分析操作,通過建立數據分層,可以避免用戶直接使用操作型數據,并更高效的訪問數據;同時,如果業務發生變化,只需要根據需要調整底層數據,使得業務調整并不會對應用層產生影響。表表 5:數據分層優勢解析:數據分層優勢解析 分層優勢分層優勢 詳細詳細 結構清晰 每一個數據分層都有它的作用域和職責,在使用表的時候能更方便地定位和理解 減少重復計算 通過通用的中間層數據,能夠減少極大的重復計算 統一數據口徑
34、提供統一的數據出口,統一對外輸出的數據口徑 簡化問題 將復雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。當數據出現問題之后,不用修復所有的數據,只需要從有問題的步驟開始修復。資料來源:帆軟、CSDN、招商證券 圖圖 4:常見的數據分層架構(常見的數據分層架構(數據分層:對數據數據分層:對數據進行層層加工進行層層加工)資料來源:CSDN、招商證券 4、實時分析需求實時分析需求快速快速增長增長,從離線數倉到實時數倉,從離線數倉到實時數倉 敬請閱讀末頁的重要說明 11 行業深度報告 大數據時代下業務場景不斷豐富,實時分析的需求快速增長,傳統離線數倉的批大數據時代下業務場景
35、不斷豐富,實時分析的需求快速增長,傳統離線數倉的批處理引擎難以滿足數據分析的實時性要求,以流處理為核心的實時數倉快速發展:處理引擎難以滿足數據分析的實時性要求,以流處理為核心的實時數倉快速發展:離線數倉擅長深度復雜的分析,但耗時較長無法滿足實時性需求。離線數倉擅長深度復雜的分析,但耗時較長無法滿足實時性需求。傳統的離線數倉主要采用批處理計算引擎,其優點為對于業務邏輯復雜、數據規模有限的場景下,具有更好的數據挖掘能力,可以獲得更優質的分析結果。但其運算耗時較長,時間跨度通常為分鐘級到小時級,因此難以滿足實時分析的要求。流處理模式強調處理速度,是構建實時數倉的核心計算引擎。流處理模式強調處理速度,
36、是構建實時數倉的核心計算引擎。實時計算一般采用流處理引擎,與離線計算相比,流處理減少了數據落地環節,實時對每個新到達的數據或者比較小的窗口數據進行計算,其分析計算量相對較小,使其可以在毫秒級到秒級完成,使時延可以達到實時系統要求。目前,實時數倉主要以 Lambda 架構(離線+實時混合)與 Kappa 架構(純實時)為主。圖圖 5:實時數倉實時數倉分層架構圖分層架構圖 資料來源:cnblogs、招商證券 表表 6:實時分析應用場景舉例實時分析應用場景舉例 場景場景 具體具體 實時智能推薦 智能推薦會根據用戶歷史的購買或瀏覽行為,通過推薦算法訓練模型,預測用戶未來可能會購買的物品或喜愛的資訊。隨
37、著互聯網快速發展,用戶對時延的要求越來越高,通過建立實時數倉,對用戶指標進行實時預測,并將預測的信息推送給 Web/App 端,幫助用戶獲取想要的資訊,有助于幫助企業提升銷售額,創造更大的商業價值。實時欺詐檢測 在金融業務中,常常出現各種類型的欺詐行為,例如信用卡欺詐,信貸申請欺詐等。隨著欺詐手段的不斷升級,傳統的反欺詐監測往往需要數小時才能通過交易數據計算出用戶的行為指標,然后通過規則判別出具有欺詐行為嫌疑的用戶,對于實效性大打折扣。而運用實時數倉的流式計算能夠在毫秒內就完成對欺詐行為判斷指標的計算,然后實時對交易流水進行實時攔截,避免因為處理不及時而導致的經濟損失。輿情分析 有的客戶需要做
38、輿情分析,要求所有數據存放若干年,輿情數據每日數據量可能超百萬,年數據量可達到幾十億的數據。而且爬蟲爬過來的數據是輿情,通過大數據技術進行分詞之后得到的可能是大段的網友評論,客戶往往要求對輿情進行查詢,做全文本搜索,并要求響應時間控制在秒級。爬蟲將數據爬到大數據平臺的 Kafka 里,在里面做 Flink 流處理,去重去噪做語音分析,寫到 ElasticSearch 里。大數據的一個特點是多數據源,大數據平臺能根據不同的場景選擇不同的數據源。資料來源:cnblogs、招商證券 5、實時數倉架構演進:從實時數倉架構演進:從 Lambda 到到 Kappa、從集中式到、從集中式到云原生云原生 敬請
39、閱讀末頁的重要說明 12 行業深度報告 (1)從從 Lambda 到到 Kappa Lambda 由于同時采用離線與實時兩套計算引擎,其架構復雜性大幅提升,也由于同時采用離線與實時兩套計算引擎,其架構復雜性大幅提升,也帶來一系列問題:帶來一系列問題:1)一個架構需要兩套代碼,維護繁瑣)一個架構需要兩套代碼,維護繁瑣?;趯崟r與離線兩套架構,需要對兩套代碼分別修改,獨立測試,同步上線,整體開發、維護難度較高。2)資源占用較高)資源占用較高。兩套邏輯需要計算兩次,系統資源占用較高。3)實時與離線引擎數據處理差異,易混淆實時與離線引擎數據處理差異,易混淆。由于流處理引擎尚不完善,離線處理會對實時處理
40、的結果再次計算,最后以離線處理為準,數據頻繁變更,容易引起混亂。隨著 Flink 等流處理引擎逐步成熟,采用純實時計算的 Kappa 架構出現,解決了兩套代碼問題,但由于采用全流處理流,其吞吐能力弱于 Lambda。因此,在真實的場景中,很多時候采用 Lambda 與 Kappa 混合架構,比如大部分實時指標使用 Kappa 完成計算,少量關鍵指標(如金額)使用 Lambda 架構用批處理重新計算,增加一次校對過程。圖圖 6:Lambda 架構架構 vs Kappa 架構架構 資料來源:cnblogs、CSDN、招商證券(2)從集中式到云原生從集中式到云原生 順應市場需求變化是數據倉庫發展的核
41、心驅動力,目前正處于向云原生算儲分順應市場需求變化是數據倉庫發展的核心驅動力,目前正處于向云原生算儲分離方向發展。離方向發展。1)初代數倉采用集中式部署)初代數倉采用集中式部署,其擴展成本高昂,且存在瓶頸,隨著企業業務數據爆發式增長,集中式部署存在明顯瓶頸;2)第二代數倉采)第二代數倉采用用 Hadoop 等分布式開源框架等分布式開源框架,相較于集中式部署,其具有靈活擴展能力,對于算力與存儲容量等方面均有大幅提升;3)隨云計算的普及,第三代數倉)隨云計算的普及,第三代數倉向云托管發展向云托管發展,擴展能力與運維成本更加友好,但數據倉庫架構仍未解決存算一體化的根本問題:使用存算耦合架構時,兩種資
42、源互相影響,需同步擴/縮容,無法根據需求靈活、合理匹配資源,經常造成資源的浪費和閑置。以以 Snowflake 為代表的第四代云原生數據倉庫,采用算儲分離架構,使得資為代表的第四代云原生數據倉庫,采用算儲分離架構,使得資源分配更加合理源分配更加合理。Snowflake 基于云原生的數據倉庫平臺,首創“存算分離,支持單獨擴展”,實現兩種資源的“彈性使用”,使得企業可以根據自身業務需 敬請閱讀末頁的重要說明 13 行業深度報告 求,對存儲容量與計算資源進行合理分配,并通過數據倉庫平臺為企業提供存儲、訪問及數據分析能力。表表 7:數據倉庫持續進化:數據倉庫持續進化 第一代:第一代:本地集中部署本地集
43、中部署 第二代:第二代:本地分布式部署本地分布式部署 第三代:第三代:云托管云托管 第四代:第四代:云原生云原生 軟硬一體架構 擴展性有限 擴容成本高昂 基于 Hadoop、Hive、Spark 等開源分布式架構 適配百 BP 級數據計算 靈活擴展 按需分配云資源 擴容能力大幅提升 更低的擴容成本 運維成本降低 算儲分離,資源分配更合理 更低的成本,數據分析門檻進一步降低 更高的并發性能與更低的延遲 資料來源:CSDN、招商證券 圖圖 7:Snowflake 算儲分離架構算儲分離架構 資料來源:Snowflake 招股書、招商證券 二、二、國外市場新老玩家各具優勢,國內市場國外市場新老玩家各具
44、優勢,國內市場云廠商占云廠商占據主導據主導 1、數倉作為技術底座,有望受益于數倉作為技術底座,有望受益于 BI 需求增長需求增長 數據倉庫是數據倉庫是 BI 的技術底座,有望受益于的技術底座,有望受益于 BI 需求增長。需求增長。數據倉庫根據 Gartner等官方定義:即多個數據庫上的大容量存儲庫,它的作用在于存儲大量的結構化數據,并能進行頻繁和可重復的分析,幫助企業構建商業智能(BI)??梢岳斫鈹祩}即 BI 的技術底座,通過從多源數據庫系統提取數據,進行清洗、轉換、標準化等操作,將數據加載到 BI 平臺,進而滿足業務用戶的數據分析和決策支持?,F代現代 BI 及分析工具細分賽道領漲商業及分析工
45、具細分賽道領漲商業智能市場大類。智能市場大類。根據 Gartner,現代 BI及分析工具市場 2015 年和 2019 年增速分別為 63.6、17.9,均為大類中增長最快類別;預計全球現代BI及分析工具市場將從20年起以CAGR為16%的增速增長至 26 年的 130 億美元,實現規模翻倍。據研究機構 Modor Intelligence 預計,全球數倉規模將與 BI 需求增長保持一致,2023 年全球數倉 敬請閱讀末頁的重要說明 14 行業深度報告 規模約為 90.1 億美元,預計 2028 年將達到 152.5 億美元,2023-2028 年復合增長率為 11.10%,其中以中國為代表的
46、亞洲地區將是主要增長驅動力。我們認為未來企業產生的數據將繼續呈爆發式增長,隨之而來的是企業從海量我們認為未來企業產生的數據將繼續呈爆發式增長,隨之而來的是企業從海量數據中獲取洞察以輔助決策的需求增長。對數據中獲取洞察以輔助決策的需求增長。對 BI 應用的落地場景將不斷豐富,應用的落地場景將不斷豐富,作為其技術底座的數據倉庫應用亦將持續受益于前端作為其技術底座的數據倉庫應用亦將持續受益于前端 BI 的增長的增長。圖圖 8:數倉市場活躍度地圖數倉市場活躍度地圖 圖圖 9:全球數據倉庫及全球數據倉庫及 BI 市場規模(億美元)市場規模(億美元)資料來源:Modor Intelligence、招商證券
47、 資料來源:Modor Intelligence、招商證券 2、海外市場:新老玩家角逐激烈,同質化較高,以分析能海外市場:新老玩家角逐激烈,同質化較高,以分析能力與生態建設為重要發力方向力與生態建設為重要發力方向 數據庫云化是行業發展重要趨勢。數據庫云化是行業發展重要趨勢。Gartner 研究顯示,2018 年全球數據庫管理系統收入增長 18.4(其中云數據庫管理系統收入增長 68%),達到 460 億美元。到 2022 年,75%的數據庫都將部署或者遷移到云數據平臺;到 2023年,云數據庫管理系統收入將占數據庫管理系統市場總收入的 50%。傳統科技巨頭布局較早,憑借其完善的生態,占據大量市
48、場份額。傳統科技巨頭布局較早,憑借其完善的生態,占據大量市場份額。Microsoft、AWS 等云服務龍頭憑借在云數據庫布局,并通過自身客戶規模與完善的生態在云數據倉庫市場取得較高份額;Oracle、IBM、SAP 等老牌關系型數據庫龍頭,憑借在數據庫領域的先天優勢,在數據倉庫方面也取得領先優勢。以以 Snowflake 為代表的新勢力快速崛起。為代表的新勢力快速崛起。以 Snowflake 為代表的新興廠商具備以下優勢:1)支持多云靈活部署。)支持多云靈活部署。Snowflake 把自身架構同時部署于三大公有云之上,根據Snowflake CFO,截止22年7月AWS承載Snowflake
49、80+%的工作負載,其余 18%分布在 Azure 上,2%分布在 Google Cloud Platform上,在多云支持方面具備優勢。2)算儲分離新型架構。)算儲分離新型架構。Snowflake 率先采用算儲分離彈性架構,在成本端更具優勢,具有先發優勢,在前期快速搶占市場份額。而傳統廠商主要基于 MPP 架構,對存量的架構升級投入較大,具有一定滯后性。表表 8:2017-2021 Snowflake 市場排名快速上升市場排名快速上升 2017 2021 排名 廠商 份額 排名 廠商 份額 1 Oracle 36.1%1 Microsoft 24.0%268.1424.990.1152.50
50、10020030040050020232028BI數倉CAGR:11.10%CAGR:9.65%敬請閱讀末頁的重要說明 15 行業深度報告 2 Microsoft 21.5%2 AWS 23.9%3 IBM 12.7%3 Oracle 20.6%4 AWS 9.2%4 Google 6.5%5 SAP 7.4%5 IBM 5.6%29 Snowflake-13 Snowflake-資料來源:Gartner、墨天輪、招商證券 表表 9:數據倉庫代表玩家發布產品的時間數據倉庫代表玩家發布產品的時間 產品產品 初始版本發布時間初始版本發布時間 Google BigQuery 2010 Amazon
51、Redshift 2013 Snowflake 2014 Microsoft Azure Synapse 前身 Azure SQL Data Warehouse 于 2016年發布,Synapse 于 2019 年發布 資料來源:Gartner、HG Insights、IDC、Wiki、墨天輪、招商證券 圖圖 10:Snowflake 前期客戶數保持快速增長前期客戶數保持快速增長 資料來源:Snowflake 招股書、招商證券(1)微軟微軟 Azure Synapse:可實現多源數據集成可實現多源數據集成,聚焦上層,聚焦上層 BI 應用應用 Azure Synapse聚 焦 上 層聚 焦 上
52、層BI應 用。應 用。2016年Azure SQL Data Warehouse(Azure Synapse 的前身)誕生。2019 年底微軟宣布將 SQL Data Warehouse 升級為數據倉庫+數據分析一體化平臺。Synapse 可實現多源數據集成:可以將本地數據、私有云/公有云數據、SaaS 等多種數據源加載到Synapse中。與Snowflake相比,Synapse更聚焦于上層的BI應用;且Synapse與微軟生態中其他應用協同,云數據生態系統成熟度高。Synapse 可與 Power BI 實現數據的可視化;與 Azure Machine Learning、SQL 和 Spar
53、k 深度集成以訓練機器模型。948239241395944152%73%44%0%20%40%60%80%100%120%140%160%01000200030004000500060007000FY2019FY2020FY2021FY2022客戶數YoY 敬請閱讀末頁的重要說明 16 行業深度報告 圖圖 11:Azure Synapse 架構與架構與 Snowflake 類似類似 資料來源:Microsoft Azure 官網、招商證券 圖圖 12:Microsoft Azure 云數據生態系統成熟度高,集數據存儲、分析、可視化等功能于一體云數據生態系統成熟度高,集數據存儲、分析、可視化等功
54、能于一體 資料來源:Microsoft Azure 官網、招商證券(2)Amazon:AWS Redshift 引入引入 RA3 節點實現存算分離節點實現存算分離 AWS Redshift擁有龐大的擁有龐大的Amazon生態作為支撐,與生態作為支撐,與AWS產品等無縫連接。產品等無縫連接。作為 Amazon Web Services(AWS)生態系統的一部分,Redshift 數據倉庫服務提供了諸如將用戶數據從數據湖中導出,并與其他平臺(如:Salesforce、Google Analytics、Facebook Ads、Slack、Jira、Splunk、以及 Marketo)相集成等服務。
55、此外,Redshift 倉庫服務使用列式存儲、數據壓縮、以及區域映射,來實現高性能和高效存儲。與其他云原生數據倉庫相比,Redshift 劣勢在于維護難度較大。Redshift 需要大量手動維護,且需要有一定 AWS 架構知識的人員監控集群以提高性能。Redshift 迎合行業“存算分離”趨勢較慢。迎合行業“存算分離”趨勢較慢。由于 AWS Redshift 本身采用 MPP架構,即存儲與計算共享一個節點,數據存儲在計算節點中(下圖中紅框)。隨其他巨頭數倉產品相繼效仿 Snowflake 采取創新架構,而未實現存算解耦的Redshift 受到詬病頗多。為迎合客戶需求與行業趨勢,Redshift
56、 后于 2019 年底引入節點“RA3”實現存算分離,支持存儲和計算資源的獨立拓展。敬請閱讀末頁的重要說明 17 行業深度報告 圖圖 13:AWS Redshift 主架構采用主架構采用 MPP,數據存儲在計算節點中,數據存儲在計算節點中 資料來源:AWS Redshift、招商證券(3)Google:BigQuery 特有元素鮮明,生態完善特有元素鮮明,生態完善 云原生數據倉庫云原生數據倉庫 BigQuery,源自谷歌內部工具的整合。,源自谷歌內部工具的整合。起初,Google 發明工具 Colossus,Jupiter 和 Dremel 以解決海量數據的存儲和查詢需求,且僅供內部使用。其中
57、 Dremel 是 BigQuery 的查詢執行引擎,高度可擴展的系統,旨在對 PB 級數據集處理;Colossus 是分布式文件系統,用于數據的備份;Jupiter 網絡是 Colossus 存儲和 Dremel 執行引擎之間的橋梁。后 Google 將這些工具整合到谷歌云平臺上并對外產品化,更名 BigQuery。BigQuery 基于谷歌強大的技術與生態加持,在機器學習、大數據分析等方面基于谷歌強大的技術與生態加持,在機器學習、大數據分析等方面具有較強優勢。具有較強優勢。其中 BigQuery ML:使用 SQL 即可進行機器模型的訓練和使用,目前支持包括 K-means、深度神經網絡等
58、 10 種模型;BigQuery GIS:實現對地理空間分析的原生支持,進而挖掘位置信息價值;高級分析功能BigQuery BI Engine:允許用戶以互動方式分析 BigQuery 中大型數據集。大數據生態系統集成:BigQuery 借助 Dataproc 和 Dataflow,實現與 Apache 大數據生態系統的集成,Hadoop/Spark 能夠使用 Storage API 直接從 BigQuery 讀寫數據。敬請閱讀末頁的重要說明 18 行業深度報告 圖圖 14:Google BigQuery 架構架構 資料來源:Google、招商證券 數據倉庫產品功能具有一定同質化,以機器學習為
59、核心的分析能力與生態建設數據倉庫產品功能具有一定同質化,以機器學習為核心的分析能力與生態建設是重要發力方向:是重要發力方向:海外云數據倉庫產品功能同質化較高:海外云數據倉庫產品功能同質化較高:Snowflake 率先實現存算分離掀起行業變革浪潮,巨頭紛紛效仿,優化自身架構,均以實現存算彈性化;提升以機器學習為核心的分析能力是各廠商重要的發力方向,科技巨頭與自身技術積累結合,Snowflake 則是選擇與第三方平臺(Zepl)等進行合作??萍季揞^數倉可以與自身生態無縫集成,具備先天優勢:科技巨頭數倉可以與自身生態無縫集成,具備先天優勢:亞馬遜、谷歌及微軟等憑借完善的生態體系,與其數倉產品進行功能
60、協同,增加各自數倉的競爭力,提供與其他產品無縫銜接的使用體驗,具有先天優勢;Snowflake 也在通過Snowflake Partner Connect 的合作伙伴,不斷強化自身生態建設。表表 10:云數據倉庫海外代表產品同質化程度較高:云數據倉庫海外代表產品同質化程度較高 功能功能 AWS-Redshift Google-BigQuery Micorsoft Azure-Synapse Snowflake 數據處理能力 PB 級別 PB 級別 PB 級別 PB 級別 存儲空間和計算空間的獨立拓展能力 否 是 是 是 彈性(根據工作負載上下調整計算能力)是 是 是 是 自動暫停和恢復(在沒有
61、查詢需求時自動停止)否 不適用(Serverless 架構無需客戶控制)是 是 分析及機器學習能力 Amazon Sagemaker(可大規??焖贅嫿?、訓練和部 署 ML 模 型)、Amazon Redshift ML 用戶可通過SQL語句執行機器學習模型 提供原生“PREDICT”語句,該語句可以對在Apache Spark 或等框架中訓練的機器學習模型評分,無需執行大規模數據移動 本身不能運行機器學習、沒有專門的機器學習組件,但與第三方數據分析平臺(如 Zepl)進行集成以提供該功能 敬請閱讀末頁的重要說明 19 行業深度報告 集成能力 與 AWS 一系列服務集成,包括 Kinesis D
62、ata Firehose,SageMaker,EMR,Glue,DynamoDB等 與Google Cloud Platform 一系列服務集成 與其他 Azure 產品輕松集成 集成能力有限,可以通過其他入口集成部分Amazon服務,例如使用Snowpipe將AWS上的數據導入到Snowflake 數據倉庫部署地區數量 24 個,分布于美洲、歐洲、亞太地區、中東及非洲 34 個,分布于美洲、歐洲、亞太地區、中東及非洲 60 余個,分布于美洲、歐洲、非洲及亞太地區 22 個,分布于北美洲、歐洲及亞太地區 用戶對平臺的管理和維護難度 成本較高、難度較大,需要 AWS 架構知識 維護負擔低,近乎為
63、 0,Google 負責運維 維護負擔低 維護負擔低,管理和運維成本幾乎為0,Snowflake 負責運維 資料來源:各公司官網、招商證券 3、國內市場:與海外廠商差距縮小,云廠商占據主導國內市場:與海外廠商差距縮小,云廠商占據主導 中國大數據軟件規模占比與海外仍有較大差距,“十四五”期間有望快速發展。中國大數據軟件規模占比與海外仍有較大差距,“十四五”期間有望快速發展。根據 IDC,2021 年全球大數據市場的 IT 總投資規模為 2,176.1 億美元,并有望在 2026 年增至 4,491.1 億美元,2021-2026 年 CAGR 約為 15.6%;中國市場方面,2022 年中國大數
64、據市場總體 IT 投資規模約為 170 億美元,并將在2026 年增至 364.9 億美元,實現規模翻倍。與全球總規模相比,中國市場在五年預測期內占比持續增高,有望在 2024 年超越亞太(除中日)總和,并在2026 年接近全球總規模的 8%。作為大數據市場中高增長細分賽道頭部選手,數據倉庫具有較強成長潛力。作為大數據市場中高增長細分賽道頭部選手,數據倉庫具有較強成長潛力。數據分析需求在海量數據時代不斷增長,大數據技術是滿足數據分析需求的有利工具,其核心在于從海量數據中挖掘價值,而數據挖掘與分析鏈條的第一環即是數據倉庫。我們認為數據倉庫成長空間有望與數據分析需求市場空間保持同比例增幅。根據 I
65、DC 2022 年下半年中國數據倉庫軟件市場跟蹤報告,2022年中國數據倉庫軟件市場規模為 8.7 億美元,同比增長 23.7%。其中,本地部署數據倉庫軟件規模為 4.6 億美元,同比增長 12.5%;公有云數據倉庫軟件規模為 4.1 億美元,同比增長 39.3%。到 2027 年,中國數據倉庫軟件市場規模預計將達到 27.3 億美元,2022-2027 的 5 年市場年復合增長率(CAGR)為25.7%。圖圖 15:IDC 預計預計 2021-2026 年中國大數據市場規模將翻年中國大數據市場規模將翻倍增長倍增長 圖圖 16:2023-2027 年我國年我國數據倉庫軟件市場規模預測數據倉庫軟
66、件市場規模預測 資料來源:IDC、招商證券 資料來源:IDC、招商證券 敬請閱讀末頁的重要說明 20 行業深度報告 Gartner 魔力象限顯示中國廠商實力不斷增強,與海外巨頭差距正持續縮小。魔力象限顯示中國廠商實力不斷增強,與海外巨頭差距正持續縮小。2016 年星環科技進入 Gartner 數據倉庫和數據管理魔力象限的遠見者象限,在前瞻性維度上優于 Cloudera、Hortonworks 等美國主流大數據平臺廠商,是國內第一家入選廠商;2017 年華為云入選,2018 年阿里云入選,2021 年阿里云已進入云數據庫管理系統的領導者象限。與海外相似,在國內數倉競爭與海外相似,在國內數倉競爭中
67、,云廠商占據主導。中,云廠商占據主導。根據 IDC,國內市場對大數據平臺需求較高的行業主要包括政府、金融、運營商、互聯網等行業。1)傳統政企、金融等領域對于大數據建設的關注點在于軟硬件的高度集成,安裝部署實施運維服務,以及在大數據平臺之上的數據分析應用,其中華為云具備完善的產品體系以及在政企等大客戶積累廣泛,具有較強競爭優勢;2)互聯網行業,用戶的關注點在于彈性可擴展、性能、成本與性價比,并且對最前沿的技術高度關注,阿里云憑借其在公有云上積累的大批互聯網行業用戶,牢牢占據公有云數倉主要份額;3)亞馬遜云科技則依托智能湖倉一體、全面豐富的數據管理及分析產品組合在中國市場獲得大批公有云用戶。圖圖
68、17:星環科技星環科技 2016 年進入年進入 Gartner 數據倉庫及數據數據倉庫及數據管理解決方案魔力象限管理解決方案魔力象限(左圖);阿里、騰訊(左圖);阿里、騰訊 2022 年位年位列列 Gartner 云數據庫管理方案魔力象限中(右圖)云數據庫管理方案魔力象限中(右圖)資料來源:Gartner、招商證券 圖圖 18:我國我國數據倉庫軟件市場廠商份額數據倉庫軟件市場廠商份額本地部署模本地部署模式,式,2022H2 圖圖 19:我國數據倉庫軟件市場廠商份額我國數據倉庫軟件市場廠商份額公有云模式,公有云模式,2022H2 資料來源:IDC、招商證券 資料來源:IDC、招商證券 敬請閱讀末
69、頁的重要說明 21 行業深度報告 (1)阿里:阿里:AnalyticDB 精細打磨,性能不凡精細打磨,性能不凡 AnalyticDB 是經阿里巴巴內部精細打磨的云原生數據倉庫,性能超前。是經阿里巴巴內部精細打磨的云原生數據倉庫,性能超前。2012年 AnalyticDB 在集團內部上線,2014 年借助阿里云正式對外輸出。2019 年、2020年均被全球知名的數據管理系統評測標準化TPC組織評為全球最快的實時數據倉庫。其架構主要分為 3 部分:1)數據庫級別服務組件:包括前端節點、計算節點和緩沖節點。2)集群級別服務組件:包括一系列面向開發人員、管理人員的服務。3)數據模型:分為事實表組和維度
70、表組,數據模型是支撐其實現單數庫 PB 級數據實時分析能力的關鍵,阿里云上某客戶曾單日分析查詢超過 1 億次。AnalyticDB 自研核心技術領先業界:自研核心技術領先業界:1)高性能 SQL Parser:曾經的主流 SQL語法解析器 Antlr,JavaC 無法滿足 AnalyticDB 需求,阿里巴巴引入自研組件FastSQL 提高查詢與實時寫入能力。2)玄武存儲引擎:讀/寫分離,可分別獨立擴展,海量數據寫入不影響查詢分析性能。圖圖 20:AnalyticDB 架構架構 資料來源:阿里云、招商證券 圖圖 21:AnalyticDB 在在 TPC-DS 性能測試中排名第一性能測試中排名第
71、一 資料來源:阿里技術公眾號、TPC、招商證券(2)華為:華為:從從 GaussDB(DWS)到一站式數據平臺到一站式數據平臺 敬請閱讀末頁的重要說明 22 行業深度報告 2020 年年 8 月,華為云發布月,華為云發布 GaussDB(DWS)實時數倉,主要覆蓋數據庫遷移、實時數倉,主要覆蓋數據庫遷移、交互式交互式 BI 分析、數據湖分析、實時數據分析四大應用場景。分析、數據湖分析、實時數據分析四大應用場景。其中數據庫遷移指提供配套遷移工具,數據可從常用數據系統平滑遷移;交互式 BI 分析指實時整合業務數據,及時優化、調整經營決策;數據湖分析指整合數據資源,構建大數據平臺,使用 SQL 語言
72、即可訪問數據。實時數據分析指快速入庫和數據查詢功能支撐來自 IoT 和互聯網等數據的實時分析。針對上述應用場景,華為配備附屬性業務提供全面的解決方案、擴大產品邊界。華為云為數據湖分析場景搭配 MRS 服務(提供企業級大數據集群云服務,運行Hadoop、Spark 等大數據組件),數據湖分析可進階為“華為云 FusionInsight智能數據湖”,提供貫穿數據生命周期“采、存、算、管、用”的大數據平臺解決方案。圖圖 22:GaussDB(DWS)實時數據分析流程實時數據分析流程 資料來源:華為云官網、招商證券 圖圖 23:華為云:華為云 FusionInsight 智能數據湖方案圍繞數據周期建立
73、智能數據湖方案圍繞數據周期建立 資料來源:華為云 TechWave 大數據專題日、招商證券 敬請閱讀末頁的重要說明 23 行業深度報告 (3)騰訊騰訊云數倉云數倉 PostgreSQL 圍繞核心業務展開圍繞核心業務展開 騰訊云數據倉庫騰訊云數據倉庫 PostgreSQL 基于基于 MPP 架構,并對接豐富開源生態架構,并對接豐富開源生態工具。工具。云數據倉庫 PostgreSQL(原 Snova 數據倉庫)為用戶提供簡單、快速的 PB 級云端數據倉庫解決方案。借助云數據倉庫 PostgreSQL,客戶可使用豐富的 PostgreSQL 開源生態工具,實現對數據倉庫中海量數據的即席查詢分析、ET
74、L 處理及可視化探索;還可以借助云端數據無縫集成特性,分析位于 COS、TencentDB、ES 等數據引擎上的 PB 級數據。騰訊云數據倉庫是一種基于 MPP(大規模并行處理)架構的數倉服務,未實現存算分離,本質上更接近于第三代數據倉庫。騰訊云數據倉庫騰訊云數據倉庫 PostgreSQL 圍繞騰訊核心的金融、游戲等領域開展圍繞騰訊核心的金融、游戲等領域開展經營分經營分析決策析決策、海量日志分析海量日志分析、用戶行為實時洞察用戶行為實時洞察三大應用場景。三大應用場景。經營分析決策指在金融、零售等領域,對多種業務數據匯總分析,以掌握公司經營情況、提高決策精準度。海量日志分析指在互聯網金融、游戲、
75、O2O 等領域,分析 PB 級用戶行為、系統日志、訂單等結構化或半結構化數據。用戶行為實時洞察指在互聯網、游戲領域,對用戶行為實時分析、優化運營策略。圖圖 24:騰訊云數據倉庫:騰訊云數據倉庫 PostgreSQL 架構未實現存算分離:存儲和計算都在架構未實現存算分離:存儲和計算都在 Segment 節點上進行節點上進行 資料來源:騰訊云、招商證券 圖圖 25:PostgreSQL 應用場景之輔助經營分析決策應用場景之輔助經營分析決策 資料來源:騰訊云、招商證券 敬請閱讀末頁的重要說明 24 行業深度報告 圖圖 26:PostgreSQL 應用場景之海量日志分析應用場景之海量日志分析 資料來源
76、:騰訊云、招商證券(4)星環科技:高度自主,具有多模等先進技術儲備星環科技:高度自主,具有多模等先進技術儲備 星環科技的大數據基礎平臺星環科技的大數據基礎平臺 TDH 具有以下重要特點:具有以下重要特點:支持多種數據結構,擁有多模型技術。支持多種數據結構,擁有多模型技術。傳統 Oracle 等關系型數據庫僅能支持結構化數據,公司產品除結構化數據外還可以支持圖、文檔、時序、時空地理等在內的多種半結構化和非結構化數據,且擁有統一 SQL、計算引擎對多源異構數據整合,打通不同類型數據庫之間的數據孤島;高度兼容高度兼容 SQL,可以實現對,可以實現對 Oracle 等傳統數據庫的平滑替代。等傳統數據庫
77、的平滑替代。TDH 已經兼容大部分SQL 99、SQL 2003 OLAP標準;同時,逐步實現了對Oracle、IBM DB2 和 Teradata 等數據庫 SQL 方言的支持,以及 Oracle PL/SQL、IBM DB2 SQL PL 等 SQL 擴展;采用分布式技術。采用分布式技術。支持分布式事務,保證數據的一致性和準確性,并將分布式事務處理能力用于數據倉庫等核心數據業務系統中。采用容器技術。采用容器技術。TDH 采用容器技術來部署、調度和管理,從而可以適配更復雜的異構硬件資源以及降低系統的運維難度。高度自主研發。高度自主研發。公司 TDH 產品技術基本實現全部自研,不依賴主流開源技
78、術,這是公司區別于其他市場參與者的重要特征。開源技術進入壁壘低、成本低、修改靈活,是當前市面上大多數大數據基礎平臺的選擇,但為適應傳統硬件特性而設計的開源技術架構存在局限性,且目前數據庫開源體系由國外主導,其修改和發行等仍然要受到版權法或者開源軟件許可證的制約,在逆全球化背景下,公司采取全部自研策略、突破核心技術瓶頸具有重要意義,既體現公司硬核技術能力,又能獲得對安全性要求高的客戶青睞。敬請閱讀末頁的重要說明 25 行業深度報告 圖圖 27:公司技術框架從基于開源逐漸演進至高度自研公司技術框架從基于開源逐漸演進至高度自研 資料來源:星環科技招股說明書,招商證券 三、三、顛覆傳統數據倉庫市場顛覆
79、傳統數據倉庫市場的的 Snowflake 1、從算儲分離技術創新和業務創新看從算儲分離技術創新和業務創新看 Snowflake 崛起崛起 Snowflake 將存儲和計算功能分離是區別于傳統數倉最大的技術革新。將存儲和計算功能分離是區別于傳統數倉最大的技術革新。傳統數倉無法實現存儲和計算單獨拓展,而 Snowflake 存算分離架構實現“不影響數據庫(存儲層)工作狀態的條件下,根據需求動態匹配計算資源”。沒有查詢語句執行時,可徹底“關閉”計算資源,減少資源浪費。提供橫跨多個公有云的存儲、遷移服務是提供橫跨多個公有云的存儲、遷移服務是 Snowflake 最亮點的業務創新。最亮點的業務創新。為平
80、衡商業、技術等風險,企業傾向選擇多家云服務廠商部署資源,例如Salesforce 與 Google、IBM 等多個云服務提供商開展合作。多云平臺帶來操作復雜性,為數據整合、同步、對接帶來困境,而 Snowflake 允許用戶將數據存儲三大公有云中且提供云間遷移服務。根據 Forrester 咨詢公司對四家 Snowflake 客戶的調查,Snowflake 預計在三年內幫助客戶累計獲得超過 2150 萬美元的收益,承擔的成本為 300 萬美元,投資回報率為 612%。圖圖 28:snowflake 在在 3 年內為客戶創造年內為客戶創造 612%的的 ROI 資料來源:Forrester、招商
81、證券 敬請閱讀末頁的重要說明 26 行業深度報告 2、以數倉為核心,不斷擴大功能邊界以數倉為核心,不斷擴大功能邊界 Snowflake 從單一數據倉庫產品向數據融合、智能實時分析等方向拓展,不從單一數據倉庫產品向數據融合、智能實時分析等方向拓展,不斷朝著數據云一體化方向進化斷朝著數據云一體化方向進化。Snowflake 打破傳統數據倉庫發展桎梏,持續提升產品能力。根據最新的 Gartner 云數據管理系統(Cloud DBMS)魔力象限統計,Snowflake 的技術創新加速行業升級變革,成功由 2020 年的挑戰者升級為 2021 年的領導者。Snowflake 于 2014 年推出云數據倉
82、庫產品,實現數據高效存儲和計算;2019 年數據倉庫進化為云數據平臺,實現數據的合并、分析等功能;2020 年云數據平臺升級為可看作生態系統的數據云,用戶、合作伙伴、數據提供者可在 Snowflake 平臺內緊密交互,深度挖掘數據價值,實現數據分析和決策。圖圖 29:2021 年年 Snowflake 成功升級為云成功升級為云 DBMS 的領導的領導者者 圖圖 30:Snowflake 平臺的演化:從單一軟件到生態系統平臺的演化:從單一軟件到生態系統的初步蛻變的初步蛻變 資料來源:Gartner、招商證券 資料來源:Gartner、Snowflake 招股說明書、招商證券 3、架構創新:橫跨三
83、大公有云,算儲解耦架構創新:橫跨三大公有云,算儲解耦 Snowflake平臺建立在三大公有云上,由平臺建立在三大公有云上,由3個獨立的可拓展層組成。個獨立的可拓展層組成。Snowflake的云原生架構部署在橫跨全球 22 個地區的三個公共云 Google Cloud、AWS和 Microsoft Azure 上。中心存儲層:中心存儲層:基于三大公有云的存儲設施,可存儲結構化和半結構化數據,獨立于計算資源進行擴展并對數據自動分區。Snowflake允許用戶將數據存儲在三個公有云任意之一。多集群計算層:多集群計算層:虛擬數據倉庫是計算集群的核心,數據查詢在此完成。每個虛擬倉庫都是一個計算集群,集群
84、使用多個云提供商提供的計算節點,由 Snowflake 分配組成。云服務層:云服務層:與客戶直接交互的接口,包含一系列的服務,可執行優化查詢、系統監測、數據治理等功能。敬請閱讀末頁的重要說明 27 行業深度報告 圖圖 31:Snowflake 的平臺部署在全球的平臺部署在全球 22 個地區個地區 資料來源:ClicData 官網、招商證券 圖圖 32:Snowflake 的云數據平臺建立在三大公有云之上,云原生架的云數據平臺建立在三大公有云之上,云原生架構中層級分明構中層級分明 資料來源:Snowflake 招股說明書、Snowflake 官網、招商證券 4、商業創新:算儲分離下,實現單獨、彈
85、性計費商業創新:算儲分離下,實現單獨、彈性計費 收費模式靈活創新,將存儲、計算、轉移項目單獨計費,有助于降低客戶使用收費模式靈活創新,將存儲、計算、轉移項目單獨計費,有助于降低客戶使用成本。成本。Snowflake 存算分離的架構使收費項目的單獨計費成為可能:過往使用云服務時,廠商不會公布存儲和計算資源分別消耗多少,而 Snowflake 開創單獨計費的先河。Snowflake 的產品收入可看成三部分:來自存儲、計算和數據傳輸的費用,但 Snowflake 是將三種服務視為統一整體,即計算、存儲和數據傳輸共同推動用戶消費。Snowflake 采用關鍵客戶精準營銷采用關鍵客戶精準營銷(Accou
86、nt-based Marketing,ABM)方法方法提高營銷效率。提高營銷效率。ABM 是一種針對性較強的營銷方法,針對特定潛在客戶和高價值的客戶提供個性化的營銷。Snowflake 銷售重點放在大型組織上,營銷方式的成功在 Snowflake 高凈收入留存率中可見一斑。敬請閱讀末頁的重要說明 28 行業深度報告 表表 11:Snowflake 收費模式以“消費”為導向,用多少、付多少收費模式以“消費”為導向,用多少、付多少 Snowflake 收費模式收費模式 資源預留(Capacity arrangement)用戶承諾在規定的時間內消耗一定數量的資源,通常是按年付費且提前收費。若用戶未在
87、規定時間內消耗完合同規定的資源,可將未使用的資源滾動到未來,若用戶超量使用,可再繼續購買資源或提前續訂。按需付費(On-demand arrangement)實行按月付費制度,且 Snowflake 對這類用戶實行“先使用、后付款”。此類合同收入占比低于 10%,主要是新客戶作為嘗試 Snowflake 的初始消費。資料來源:Snowflake 招股說明書、招商證券 圖圖 33:Snowflake 實現資源彈性計費實現資源彈性計費 資料來源:Snowflake 招股說明書、招商證券 5、成本優勢:成本優勢:Snowflake 存儲資源價格優勢明顯存儲資源價格優勢明顯 Snowflake 采用關
88、鍵客戶精準營銷采用關鍵客戶精準營銷(Account-based Marketing,ABM)方法方法提高營銷效率。提高營銷效率。ABM 是一種針對性較強的營銷方法,針對特定潛在客戶和高價值的客戶提供個性化的營銷。Snowflake 銷售重點放在大型組織上,營銷方式的成功在 Snowflake 高凈收入留存率中可見一斑。表表 12:Snowflake 預留付費模式下的存儲價格有相對優勢預留付費模式下的存儲價格有相對優勢 地區地區 Snowflake BigQuery us-central1 按需付費 35 美元/TB/月,預留資源 20美元/TB/月 活躍存儲 0.023 美元/GB/月,折合
89、23.32 美元/TB/月;長期存儲 0.016 美元/GB/月,折合 16.22美元/TB/月。每月前 10GB 免費 europe-west2 按需付費 40 美元/TB/月,預留資源 23美元/TB/月 活躍存儲 0.023 美元/GB/月,折合 23.32 美元/TB/月;長期存儲 0.016 美元/GB/月,折合 16.22美元/TB/月。每月前 10GB 免費 europe-west4 按需付費 35 美元/TB/月,預留資源 20美元/TB/月 活躍存儲 0.02 美元/GB/月,折合 20.28 美元/TB/月;長期存儲 0.01 美元/GB/月,折合 10.14 美元/TB/
90、月。每月前 10GB 免費 地區地區 Snowflake Microsoft Azure-Synapse East US 2 按需付費 40 美元/TB/月,預留資源 23美元/TB/月 23 美元/TB West US 2 按需付費 40 美元/TB/月,預留資源 23美元/TB/月 23 美元/TB Canada Central 按需付費 46 美元/TB/月,預留資源 25美元/TB/月 25 美元/TB West Europe 按需付費 40 美元/TB/月,預留資源 23美元/TB/月 23 美元/TB Australia East 按需付費 46 美元/TB/月,預留資源 25美元
91、/TB/月 23.55 美元/TB 敬請閱讀末頁的重要說明 29 行業深度報告 Southeast Asia 按需付費 46 美元/TB/月,預留資源 25美元/TB/月 23 美元/TB Switzerland North 按需付費 50.5 美元/TB/月,預留資源28.8 美元/TB/月 25.30 美元/TB US Gov Virginia 按需付費 68 美元/TB/月,預留資源 39美元/TB/月 28.75 美元/TB 地區地區 Snowflake AWS Redshift US East(Northern Virginia)按需付費 40 美元/TB/月,預留資源 23美元/T
92、B/月 0.024 美元/GB,折合每月 24.58 美元/TB US East(Ohio)按需付費 40 美元/TB/月,預留資源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB US West(Oregon)按需付費 40 美元/TB/月,預留資源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB Canada Central 按需付費 46 美元/TB/月,預留資源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB EU(London)按需付費 42 美元/TB/月,預留資源 24美元/TB/月 0.
93、025 美元/GB,折合每月 25.60 美元/TB EU(Ireland)按需付費 40 美元/TB/月,預留資源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB EU(Frankfurt)按需付費45美元/TB/月,預留資源24.5美元/TB/月 0.0256 美元/GB,折合每月 26.21 美元/TB Asia Pacific(Sydney)按需付費 46 美元/TB/月,預留資源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB Asia Pacific(Singapore)按需付費 46 美元/TB/月,預留資源 25美元
94、/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB Asia Pacific(Tokyo)按需付費 46 美元/TB/月,預留資源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB Asia Pacific(Mumbai)按需付費 46 美元/TB/月,預留資源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB US East(Commercial Gov-N.VA)按需付費 40 美元/TB/月,預留資源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB 資料來源:Snowflake
95、官網、招商證券 6、財務與業務分析:營收亮眼,規模效應加強,財務與業務分析:營收亮眼,規模效應加強,客戶留存客戶留存能力較強能力較強 營收增長強勁,產品收入占比高。營收增長強勁,產品收入占比高。Snowflake FY2020-FY2022 增速均超過100%,產品收入是指 Snowflake 將存儲、計算和轉移數據所消耗的資源作為整體向用戶收取的費用,專業服務和其他服務包括咨詢、為客戶培訓及現場技術解決方案,產品收入占據絕大部分營收。隨著規模效應不斷強化,盈利能力持續改善。隨著規模效應不斷強化,盈利能力持續改善。隨著用戶規模不斷擴大,公司凈利率持續回升,盈利能力不斷改善;同時得益于云服務購買
96、基數增大帶來折扣,毛利率穩步提升。但我們認為,因需從第三方采云服務基礎設施,Snowflake毛利率提升空間有限。敬請閱讀末頁的重要說明 30 行業深度報告 圖圖 34:營收規模擴大,產品收入貢獻絕大部分營收營收規模擴大,產品收入貢獻絕大部分營收 圖圖 35:凈利率,毛利率穩步提升凈利率,毛利率穩步提升 資料來源:公司招股書、財務報告、招商證券 資料來源:公司招股書、財務報告、招商證券 營業成本主要由第三方云服務基礎設施營業成本主要由第三方云服務基礎設施(即產品收入成本即產品收入成本)成本構成,主要包括成本構成,主要包括存儲、計算資源。存儲、計算資源。Snowflake 盈利模式為:購買公有云
97、基礎服務-為客戶分配存儲和計算資源-通過數據資源的消耗和集成外部應用形成增值產品。因此購置第三方云服務基礎設施成本比例較高。剩余履約合同剩余履約合同(RPO)的增長反映的增長反映 Snowflake 產品獲得認可。產品獲得認可。據公司招股書,RPO 的提升主要是由于客戶在與 Snowflake 簽署合同時間更長、規模更大的資源預留合同,部分訂單金額攀升和服務期限延長表明 Snowflake 產品認可度較高。圖圖 36:第三方云服務成本占據高比例營業成本第三方云服務成本占據高比例營業成本 圖圖 37:計算機計算機三費費率大體呈下降趨勢三費費率大體呈下降趨勢 資料來源:公司招股書、財務報告、招商證
98、券 資料來源:公司招股書、財務報告、招商證券 圖圖 38:剩余履約合同剩余履約合同(RPO)增速快,收入增長可見度高增速快,收入增長可見度高 資料來源:Snowflake 招股說明書、Snowflake 財報、招商證券。注:財年截至每年 1 月 31 日。如:FY2021 對應 2020 年 1 月 31日-2021 年 1 月 31 日;遞延收入+未開票遞延收入=RPO 0.962.525.5411.40.010.130.380.79173.2%123.4%105.9%0%50%100%150%200%051015FY2019FY2020FY2021FY2022專業服務和其他(億美元,左軸)
99、產品收入(億美元,,左軸)總收入增速(右軸)-184%-132%-91%-55.76%46%56%59%62.40%-200%-150%-100%-50%0%50%100%FY2019FY2020FY2021FY2022凈利率毛利率0.420.971.943.480.10.20.491.11125%108%89%0%20%40%60%80%100%120%140%012345FY2019FY2020FY2021FY2022專業服務及其他收入的成本(億美元,左軸)產品收入成本(億美元,左軸)總營業成本同比增長(右軸)129.90%110.94%80.85%61.03%71.13%40.00%35
100、.82%38.31%37.11%40.75%28.86%21.74%0.00%20.00%40.00%60.00%80.00%100.00%120.00%140.00%FY2019FY2020FY2021FY2022銷售費用率研發費用率管理費用率1.284.2613.3326.46233%213%98%0%50%100%150%200%250%051015202530FY2019FY2020FY2021FY2022RPO(億美元,左軸)RPO同比增長(右軸)敬請閱讀末頁的重要說明 31 行業深度報告 業務方面,業務方面,Snowflake 獲得大量財富榜單公司青睞。獲得大量財富榜單公司青睞。2
101、020 年 1-7 月,來自 7家財富 10 強公司和 146 家財富 500 強公司的收入比例為 4%和 26%。優異的凈收入留存率反映客單價的提升和高用戶粘性。優異的凈收入留存率反映客單價的提升和高用戶粘性。FY2020 的凈收入留存率為 169%系由于資源預留合同價格同比增長 12%。我們認為,Snowflake 留住客戶的能力較強且客戶粘性極高。高付費能力用戶為高付費能力用戶為 Snowflake 持續付費意愿強。持續付費意愿強。Snowflake 有 56 個客戶在2019 年 8 月-2020 年 7 月間貢獻收入超過 100 萬美元,這些用戶合共貢獻對應時期營收的 46%。而這一
102、數字在 2019 年 7 月僅為 22 個客戶,貢獻相應時期 47%的營收。表表 13:Snowflake 客戶覆蓋領域廣泛客戶覆蓋領域廣泛 行業行業 代表客戶代表客戶 娛樂媒體廣告 2K Games、Accordant Media、KIXEYE、Nielsen、PLAYSTUDIOS、Sharethrough 金融服務 AXA、Bankrate、Capital One、CapSpecialty、Chime、Experian 醫療生命健康 Amino、Asics、HC1、McKesson、Strava 制造零售業 Logitech、Madison Reed、Office Depot、Sains
103、burys、Sony、US Foods 在線服務 Ask、Blackboard、DoorDash、Instacart、OfferUP 科技 Adobe、Akamai、DocuSign、Dropbox、Micron 資料來源:Snowflake 招股說明書、公司財報、招商證券 圖圖 39:客戶營收規模分布:受大型企業及小規模營收企客戶營收規模分布:受大型企業及小規模營收企業青睞業青睞 圖圖 40:Snowflake 凈收入留存率優異凈收入留存率優異 資料來源:Snowflake 招股說明書、公司財報、招商證券 資料來源:Snowflake 招股說明書、公司財報、招商證券 圖圖 41:Snowfl
104、ake 總客戶數不斷增長總客戶數不斷增長 圖圖 42:大客戶粘性持續增強大客戶粘性持續增強 資料來源:Snowflake 招股說明書、公司財報、招商證券 資料來源:Snowflake 招股說明書、公司財報、招商證券 1541192124639262128012730200400600800100012001400180%169%168%178%160%165%170%175%180%185%FY2019FY2020FY2021FY2022948239241395944152%73%44%0%20%40%60%80%100%120%140%160%010002000300040005000600
105、07000FY2019FY2020FY2021FY2022客戶數YoY144177184193%88%139%0%50%100%150%200%250%020406080100120140160180200FY2019FY2020FY 2021FY2022一年內貢獻收入超100萬美元客戶數YoY 敬請閱讀末頁的重要說明 32 行業深度報告 四、四、Snowflake 核心競爭優勢及發展啟示核心競爭優勢及發展啟示:高性能、:高性能、三方身份、網絡生態圈三方身份、網絡生態圈 1、高性能是數倉重要指標高性能是數倉重要指標 Snowflake 數倉在性能方面處于行業領先水平。根據我們開篇的分析,數倉性
106、能取決于架構、模型選擇、數據分層優化等多方面因素,在產品優化方面具有較高難度,Snowflake 多項測評均處于行業前列,顯示出其產品具有較強市場競爭力:Snowflake 語句執行時間短,產品性能方面具有領先優勢:語句執行時間短,產品性能方面具有領先優勢:GigaOm 對時下最熱的四大云數據倉庫 SDL DW(Synapse 前身)、AWS Redshift、Snowflake 和Google BigQuery 進行測試,該測試共執行在 22 個查詢語句,包括查詢總和、平均值、表間 JOIN 連接等操作。在部分語句執行結果中,Snowflake 表現較為突出,運行時長較短。Snowflake
107、 產品具有較高的穩定性:產品具有較高的穩定性:在根據執行時間標準差判斷產品穩定性中,Snowflake 命令執行時間總體方差較小,表明 Snowflake 在執行查詢及數據分析時性能表現較為一致。圖圖 43:Snowflake 命令執行時間標準差較小,性能穩定命令執行時間標準差較小,性能穩定 資料來源:Gigaom、Microsoft、招商證券 圖圖 44:Gigaom 部分測試結果,部分測試結果,Snowflake 性能表現優異性能表現優異 資料來源:Gigaom、Microsoft、招商證券 敬請閱讀末頁的重要說明 33 行業深度報告 2、專注于數倉的第三方身份更易受客戶青睞專注于數倉的第
108、三方身份更易受客戶青睞 多云部署逐漸成為企業的主流方案,潛在需求市場廣闊。多云部署逐漸成為企業的主流方案,潛在需求市場廣闊。多云戰略意指企業同時購買多家云服務,同時將數據和 IT 資源部署在多個云中。據 IDC 2020 年研究表明,55的組織選擇會在多個公共云上運行服務,其中 21的組織表示使用 3 個云或更多。中立性是中立性是 Snowflake 與大型云服務提供商的最大區別與大型云服務提供商的最大區別:Snowflake 深度洞察到企業對多云戰略的需求,作為專注于提供云數倉存儲服務的第三方廠商,其中立性更易受客戶青睞。Snowflake 于 2014-2019 年間陸續在三大公有云上運行
109、。目前大型公有云服務商未提供與其他云服務商無縫對接的能力,Snowflake允許客戶在任意一家公有云上存儲數據、在不同云間無縫遷移數據,能夠幫助分攤客戶依賴、綁定單一廠商帶來的多重風險,包括技術與業務風險(減少單一云出現服務中斷造成的損失)、議價風險(間接提升客戶的議價能力,降低單一廠商提價風險)等,客戶可對比多家云服務質量,根據自身需求靈活變更廠商。圖圖 45:企業的“多云”策略企業的“多云”策略 圖圖 46:55%的企業表明使用的企業表明使用2 種種公有云服務公有云服務 資料來源:Snowflake 招股說明書、招商證券 資料來源:IDC、招商證券 3、依托網絡效應構筑生態護城河依托網絡效
110、應構筑生態護城河 Snowflake 強大的分享、交換機制帶來的網絡效應逐步建立護城河。強大的分享、交換機制帶來的網絡效應逐步建立護城河。Snowflake 賦予用戶分享數據的能力,將數據提供商、合作伙伴和客戶緊密結合且。Snowflake 的用戶及分享的數據的增長會帶動合作伙伴或數據提供商加入 Snowflake。隨數據不斷遷移到數據云,這種網絡效應的正向反饋會不斷擴大 Snowflake 數據云的邊界,形成一定的規模效應后會轉化為 Snowflake 的生態護城河。生態系統內成員價值得到發揮,需求得到滿足。數據提供商:生態系統內成員價值得到發揮,需求得到滿足。數據提供商:2020 年 3
111、月,Starschema(領先的數據提供商)在Snowflake上發布其COVID-19流行病學數據,截至 2020 年 7 月 31 日,數百名 Snowflake 的客戶利用這些數據分析疫情對自身業務的影響;Snowflake 提供專門的數據連接器,Adobe 的用戶可以直接分析數據、改進策略。應用開發商:應用開發商:Lime 是短途出行共享平臺,提供共享單車、電動單車及共享汽車服務,其借助 Snowflake 發布騎行路線數據,協助智能出行系統開發??萍紡S商:科技廠商:Tableau、Qlik 通過與 Snowflake 的集成實 敬請閱讀末頁的重要說明 34 行業深度報告 現高性能數據
112、處理,改進現有用戶體驗、擴展客群。Snowflake 作為連結器,粘合眾多伙伴,平臺溢價不斷提升。圖圖 47:2020 年年 2 月月-7 月,月,Snowflake 賬戶之間的數據賬戶之間的數據共享情況共享情況 圖圖 48:Snowflake 擴大生態合作伙伴圈擴大生態合作伙伴圈 資料來源:Snowflake 招股說明書、招商證券 資料來源:Snowflake 招股說明書、招商證券 4、增長看點一:數據量爆發式增長下,數倉需求快速增長增長看點一:數據量爆發式增長下,數倉需求快速增長 從行業趨勢看:數據量爆發式增長下,對數據分析及數據倉庫相關需求將快速從行業趨勢看:數據量爆發式增長下,對數據分
113、析及數據倉庫相關需求將快速增長。增長。據 IDC 預測,2025 年全球數據圈數據總量將達 175ZB,其中超過 25%是實時數據;而 2018 年全球數據圈數據總量僅為 33ZB,呈現爆發式增長。數據量的激增或將帶來成倍的數據分析需求:企業對從數據中獲取洞察的需求日益增長,實時數據分析需求尤甚。我們認為,作為數據分析工具后端引擎的Snowflake 將繼續受益于行業需求的增長。圖圖 49:全球數據圈每年規模全球數據圈每年規模 資料來源:IDC、招商證券 33ZB 敬請閱讀末頁的重要說明 35 行業深度報告 圖圖 50:企業成為數據使用的主要場合企業成為數據使用的主要場合 資料來源:cloud
114、ian、招商證券 Snowflake 通過更低的成本優勢,向中小型企業拓展,縱向注重渠道下沉。通過更低的成本優勢,向中小型企業拓展,縱向注重渠道下沉。先前提及大型客戶是 Snowflake 的營銷重心。通過對比 Snowflake 及目前主流云數倉產品客戶結構,我們發現Snowflake客戶中營收超過10億的比例較高,而營收小于 100 萬美元的客戶比例仍有提升空間,未來 Snowflake 可以注重中小型客戶池的開發,優化客戶結構。圖圖 51:Snowflake 客戶中,營收小于客戶中,營收小于 100 萬美元的小規??蛻舯壤^低萬美元的小規??蛻舯壤^低 資料來源:Snowflake 招股
115、說明書、招商證券 5、增長看點二:增長看點二:以數倉為核,向以數倉為核,向 BI 融合融合 數倉作為數倉作為 BI 的技術底座,的技術底座,Snowflake 已具備已具備 BI 雛形。雛形。在 BI 架構中,數據倉庫上承面向用戶的應用,下接多類型源數據。Snowflake 已經緊握 BI 的重要引擎-數據倉庫,依靠自身數據倉庫標準化高、普適性高的優勢,發展面向多行業的差異性產品。Snowflake 目前聚焦在目前聚焦在 BI 產業鏈中部的數倉功能,缺少原生的數據分析上層產業鏈中部的數倉功能,缺少原生的數據分析上層應用。應用。主流的 BI 應用如 Tableau、Looker、PowerBI
116、更專注于數據的可視化,Snowflake 目前攻破更為底層的存儲、計算功能 且主要靠集成、調用外部應用 Tableau 等間接提供數據可視化服務,缺少原生的數據分析、可視化應用。敬請閱讀末頁的重要說明 36 行業深度報告 圖圖 52:簡化簡化 BI 架構:數據倉庫是承上啟下的中樞架構:數據倉庫是承上啟下的中樞 資料來源:saudi-solutions、招商證券 向向 BI 看齊,集成中層數據倉庫看齊,集成中層數據倉庫+面向用戶的業務前端應用形成“一站式”平臺。面向用戶的業務前端應用形成“一站式”平臺。除集成第三方BI應用外,Snowflake未來可創建基于自身數據倉庫的BI產品,植入自身基因的
117、 BI 應用與數據倉庫無縫銜接和高效協同有望帶來更優質的用戶體驗。Snowflake 已在已在 BI 領域的初步開拓。領域的初步開拓。Snowsight 是 Snowflake 自身團隊研發的 BI 應用,預計于 2021 年上半年發布,可開發數據可視化和儀表板以執行數據驅動決策。圖圖 53:Snowflake 是數據與是數據與 BI 門戶間的橋梁門戶間的橋梁 資料來源:Snowflake 官網、招商證券 6、增長看點三:增長看點三:數據交易供增量,強化平臺變現能力數據交易供增量,強化平臺變現能力 數據分享需求創造“數據交易”增量市場。數據分享需求創造“數據交易”增量市場。Snowflake
118、構建起數據分享平臺Marketplace,允許客戶購買并使用所需要的數據,截至目前,平臺已經匯聚448 家數據供應商,覆蓋商業、環境、財經、生命科學、媒體、體育等眾多行業。我們認為,Snowflake 作為一個第三方平臺,可促成跨多云平臺的數據整合,并促成提供者和需求者間的交易,強化自身數倉平臺變現能力。Snowflake 以中立第三方身份,憑借多云支持與數倉一站式平臺,在數據交以中立第三方身份,憑借多云支持與數倉一站式平臺,在數據交 敬請閱讀末頁的重要說明 37 行業深度報告 易中具有較強競爭優勢。易中具有較強競爭優勢。Redshift、BigQuery 和 Synapse 僅支持存儲在自身
119、云上的數據的分享,而 Snowflake 橫跨三大公有云,為用戶分享跨云的數據帶來極大便利。此外,Snowflake 非僅促成交易的中介,數據需求者獲取數據后可直接在 Snowflake 平臺上進行分析處理,交換+分析的一站式服務下Snowflake 囊括該場景全部鏈條。即可向交易雙方收取一定費用,數據的存儲與分析亦會在交易發生后產生收入。圖圖 54:目前目前 Snowflake Marketplace 平臺已經匯聚大量數據提供商平臺已經匯聚大量數據提供商 資料來源:Snowflake 官網、招商證券 Snowflake Marketplace 的數據定價由數據提供商決定,主要包括四種收費的數
120、據定價由數據提供商決定,主要包括四種收費方式:方式:1)固定月費:每月支付固定價格(不同數據產品價格不同),至少使用一次付費數據的查詢,如不使用,則不收取月費。2)按次查詢費用:每次查詢支付固定價格,如果定價計劃包括月費,則除收取固定月費外,還會按查詢量收費。3)每月最高總費用:數據提供商可定義每月最高收費,達到最大值后,該數據的后續查詢將免費。4)免費查詢次數:第一次查詢之后,按查詢價格收費之前,一個月內允許的免費查詢次數。每個月的第一次查詢會產生固定月費、每次查詢費用或者兩者都有,具體取決于供應商的定價計劃。圖圖 55:固定月費模式固定月費模式 圖圖 56:按次收費模式按次收費模式 資料來
121、源:Snowflake 招股說明書、招商證券 資料來源:Snowflake 招股說明書、招商證券 7、增長看點四:增長看點四:與微軟和英偉達合作與微軟和英偉達合作,共同構建共同構建 AI 大模型大模型 敬請閱讀末頁的重要說明 38 行業深度報告 解決方案解決方案 Snowflakes 與與微軟微軟合作,將公司的數據云專業知識與合作,將公司的數據云專業知識與人工智能龍頭企業的人工智能龍頭企業的云云技術技術、人工智能功能人工智能功能和算力優勢和算力優勢相結合,幫助企業更加安全、更加便捷地構建相結合,幫助企業更加安全、更加便捷地構建專屬專屬 AI 大模型。大模型。目前,微軟的云技術、人工智能功能在業
122、內均處于領先地位;Snowflake 與微軟的合作旨在構建人工智能、低代碼及 no-code 應用開發和數據治理方面的尖端解決方案。而英偉達作為 AI“算力之王”,Snowflake 將整合其人工智能軟件和芯片領域優勢,為企業根據 Snowflakes 平臺數據構建 AI模型提供動力。具體而言,微軟將把生成式具體而言,微軟將把生成式 AI 引入引入 Snowflake 的數據云平臺,并將該公司與的數據云平臺,并將該公司與OpenAI 聯系起來。英偉達則提供了底層工具包聯系起來。英偉達則提供了底層工具包 NeMO 和基礎設施。和基礎設施。其中NeMO 提供了一個基礎的大型語言模型,Snowfla
123、ke 客戶可以使用自己的數據進行模型自定義。而英偉達提供的基礎設施包括客戶培訓其生成人工智能模型所需的圖形處理單元等。三家公司共同構建的 AI 模型解決方案將使 Snowflake客戶將能夠利用他們賬戶中的數據量身定制大語言模型,從而用于打造高級生成式 AI 服務,比如聊天機器人、搜索和總結等;還可以在不移動數據的情況下定制 LLM,從而使專有信息在 Snowflake 平臺內保持完全安全并受到管理。圖圖 57:英偉達英偉達 NeMO 產品框架產品框架 資料來源:英偉達官網、招商證券 風險提示風險提示 技術創新不及預期:技術創新不及預期:數倉行業正朝著存算分離等新型架構發展,如果技術創新不及預
124、期,可能會導致行業發展受影響。數倉行業競爭加?。簲祩}行業競爭加?。簲祩}行業玩家眾多,包括云廠商、數據庫廠商、初創廠商等,可能導致未來競爭加劇,對行業發展產生不利影響。大數據發展不及預期影響數倉行業發展:大數據發展不及預期影響數倉行業發展:大數據發展是數倉發展的重要驅動力,如果未來大數據產業發展不及預期,可能對數倉發展產生影響。被數據庫、數據湖替代風險:被數據庫、數據湖替代風險:目前數據庫、數據湖等行業正朝著融合的方向發展,數倉行業未來存在被其他產品替代的可能性。敬請閱讀末頁的重要說明 39 行業深度報告 分析師分析師承諾承諾 負責本研究報告的每一位證券分析師,在此申明,本報告清晰、準確地反映了
125、分析師本人的研究觀點。本人薪酬的任何部分過去不曾與、現在不與,未來也將不會與本報告中的具體推薦或觀點直接或間接相關。評級評級說明說明 報告中所涉及的投資評級采用相對評級體系,基于報告發布日后 6-12 個月內公司股價(或行業指數)相對同期當地市場基準指數的市場表現預期。其中,A 股市場以滬深 300 指數為基準;香港市場以恒生指數為基準;美國市場以標普 500 指數為基準。具體標準如下:股票股票評級評級 強烈推薦:預期公司股價漲幅超越基準指數 20%以上 增持:預期公司股價漲幅超越基準指數 5-20%之間 中性:預期公司股價變動幅度相對基準指數介于 5%之間 減持:預期公司股價表現弱于基準指數
126、 5%以上 行業評級行業評級 推薦:行業基本面向好,預期行業指數超越基準指數 中性:行業基本面穩定,預期行業指數跟隨基準指數 回避:行業基本面轉弱,預期行業指數弱于基準指數 重要重要聲明聲明 本報告由招商證券股份有限公司(以下簡稱“本公司”)編制。本公司具有中國證監會許可的證券投資咨詢業務資格。本報告基于合法取得的信息,但本公司對這些信息的準確性和完整性不作任何保證。本報告所包含的分析基于各種假設,不同假設可能導致分析結果出現重大不同。報告中的內容和意見僅供參考,并不構成對所述證券買賣的出價,在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。除法律或規則規定必須承擔的責任外,本公司及其雇員不對使用本報告及其內容所引發的任何直接或間接損失負任何責任。本公司或關聯機構可能會持有報告中所提到的公司所發行的證券頭寸并進行交易,還可能為這些公司提供或爭取提供投資銀行業務服務??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突。本報告版權歸本公司所有。本公司保留所有權利。未經本公司事先書面許可,任何機構和個人均不得以任何形式翻版、復制、引用或轉載,否則,本公司將保留隨時追究其法律責任的權利。