1、 書 WHITE PAPER Kyligence 智能分層存儲 架構技術書(智能分(智能分層層存存儲儲功能詳解)功能詳解)2 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All right
2、s reserved.Visit us at kyligence.io.錄 Kyligence 公司及產品 3 Kyligence 公司 3 Apache Kylin 簡介 3 Kyligence Enterprise 簡介 4 Kyligence Cloud 簡介 5 Kyligence 產品的核價值 6 什么是智能分層存儲 8 智能分層存儲的必要性 9 智能分層存儲的性能 10 智能分層存儲撐的業務場景 11 智能分層存儲是如何作的 13 啟動智能分層存儲,快速建模 13 加載數據,存儲數據 13 數據查詢 13 查詢原則 13 安裝部署和運維管理 15 安裝部署 15 運維管理 15 第
3、層:對分層存儲的擴縮容 15 第層:對分布式存儲的擴縮容 15 計費模式 16 本地部署計費模式 16 云上部署計費模式 16 數據安全保護 17 3 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective own
4、ers.All rights reserved.Visit us at kyligence.io.Kyligence 公司及產品 Kyligence 公司 Kyligence 由 Apache Kylin 創始團隊于 2016 年創辦,致于打造下代企業級智能多維數據庫,為企業簡化數據湖上的多維數據分析(OLAP)。Apache Kylin 是開源 OLAP 的領導者,是第個由中國團隊貢獻到 Apache 軟件基會(ASF)的頂級開源項,已被全球超過 1500 多家公司作為核數據分析平臺使。Kyligence 通過 AI 增強引擎從核業務查詢中識別關鍵特征和模式,并動構建和管理分布式數據集市,為
5、業務提供更可靠的指標體系,進步縮短數據湖開發流程,釋放業務助分析潛。Kyligence 的統 SQL 接及服務,能夠在云端對象存儲(如 AWS S3、Azure ADLS 等)、多維體、速索引及底層數據源上進智能路由,為上層分析應提供成本最優的性能查詢能,以撐商務智能(BI)分析、靈活查詢和互聯級數據服務等多類應場景。Kyligence 已服務中國、美國、歐洲及亞太的多個銀、證券、保險、制造、零售等業客,包括建設銀、浦發銀、招商銀、平安銀、寧波銀、太平洋保險、中國銀聯、上汽、Costa、UBS、MetLife 等全球知名企業,并和微軟、亞遜、華為、Tableau 等技術領導者達成全球合作伙伴關
6、系。Kyligence 獲得了來紅點、思科、寬帶資本、順為資本、斯道資本(富達國際有投資機構)、Coatue Management、浦銀國際、中資本旗下基、歌斐資產、國資本、ASG、宏兆基、浦信資本等投資機構的多輪投資。前公司已經在上海、北京、深圳、廈、武漢及美國的硅、紐約、西雅圖等開設分公司或辦事機構。!Apache Kylin 簡介 Apache Kylin 是開源分布式的分析型數據倉庫的領導者,提供 Hadoop/Spark 之上超規模數據的 SQL 查詢接及多維分析(OLAP)能。Apache Kylin 于 2015 年成為 Apache 軟件基會(ASF)的頂級項,是第個由中國貢獻
7、到 ASF 的頂級開源項。前全球有超過 1500 多家公司使 Kylin 作為核數據分析平臺。4 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Vis
8、it us at kyligence.io.!Apache Kylin 架構圖 Apache Kylin 能夠處理 TB 乃 PB 級別的分析任務,標是通過超性能(亞秒級延遲)和標準 SQL 來搭建Hadoop 數據平臺和之間的橋梁,讓業務分析員能夠直接、效地通過 Hadoop 平臺進數據查詢和分析。Apache Kylin構建在Hadoop等分布式計算平臺之上,充分利了MapReduce的并處理能和可擴展基礎設施,效地處理超規模數據,可根據數據的規模實現架構的可伸縮。Apache Kylin 作為 OLAP 引擎包含了從數據源(Hive/Kafka 等)獲取源數據,基于 MapReduce
9、構建多維體(Cube),并充分利 HBase 的列式特性來分布式的存儲體數據,提供標準 SQL 解析與查詢優化,以及 ODBC/JDBC 驅動及 REST API 等多個模塊?;诳刹灏蔚撵`活架構,允許持更多的數據源接 Kylin,也持采其它技術作為存儲引擎。Kyligence Enterprise 簡介 Kyligence Enterprise 是 Kyligence 提供的基于 Apache Kylin 的企業級智能多維數據庫平臺,在 PB 級數據集上實現亞秒級標準 SQL 查詢響應,持并發訪問;內置 AI 增強引擎,通過學習分析為及數據特征,幫助數據建模師動完成數據模型的準備和優化,助數
10、據分析師與業務快速發現海量數據中的業務價值。Kyligence Enterprise 持多數據源對接、批流體等能,打破數據孤島,拓寬數據應及分析場景;提供低代碼、助式數據建模能,需編程完成全流程;引分層存儲,智能匹配最佳存儲引擎;并通過標準接與主流 BI 具實現縫集成。此外,在企業所關注的實施效率、安全控制、性能優化、系統監控和管理等都進了全創新和增強。5 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the
11、United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.!Kyligence Enterprise 架構圖 Kyligence Cloud 簡介 Kyligence Cloud 是 Kyligence 提供的云原智能多維數據庫平臺,利云計算帶來的低成本、擴展、易運維等特點,在提企業數據分析上云效率的同時,可以有效降低成本。Kyligence Clo
12、ud 以 Kyligence Enterprise 為核,充分發揮其性能、并發等優勢。借助于云原的架構,可以在公有云(微軟 Azure、亞遜 AWS、華為云、Google Cloud 等)上快速部署 Kyligence Cloud,接各種云端數據源并進建模分析,同時基于統的語義層,助業務分析師和數據科學家快速洞察數據內在價值,驅動商業決策。6 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United
13、States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.Kyligence Cloud 架構圖 Kyligence 產品的核價值!極簡化-以標準化數據服務簡化數據洞察 提供統語義層:基于多維模型將技術封裝為業務,對外提供統的服務接 統數據服務:標準的 SQL、MDX 接,撐豐富的數據應態 數據治理:以模型管理最有價值的數據,通過統計量化數據的價值 動化-以機器學
14、習引擎動化系統調優 智能預計算:智能推薦空間換時間的優化策略,提升系統性能 智能路由:根據業務場景,只能選擇 ROI 最的執引擎和存儲式 智能優化存儲:智能識別低效存儲,并按照 ROI 進優化 低成本-以低成本撐并發的數據服務 云原:鍵部署,計算存儲分離,資源按需彈性伸縮,動化運維 7 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries
15、.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.預計算:以低廉的存儲成本來節省昂貴的計算成本,的越多越省錢 按量付費:根據使的數據和計算資源計費!8 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United State
16、s and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.什么是智能分層存儲 智能分層存儲是 Kyligence 4.5(Kyligence Enterprise 4.5 和 Kyligence Cloud 4.5)中提供的級功能,可以幫助在未進預計算的情況下快速冷啟動進查詢,可以顯著地提升超多維度靈活分析和明細查詢的性能。同時,基于 HDFS/對象存儲和向量引擎的兩級存儲
17、設計,可全覆蓋各種分析場景,為帶來基于海量數據下的分析探索的更多可能性。智能分層存儲不僅能夠持多維度隨機組合的靈活即席查詢的場景,如標簽分析或為分析等場景,為企業的精細化運營和輔助商業決策帶來更的助;同時智能分層存儲可對接 Kyligence 統的模型來管理數據,縫對接主流商業 BI 具和 Excel 的能來賦能業務分析員進助式分析。啟智能分層存儲后,需關數據如何分布以及如何導,只需要根據業務需求進建模型,這樣可以幅度地減少建模和模型調優階段的成本出和時間成本出,縮減了新業務的上線周期,從幫助更及時地響應業務分析需求。智能分層存儲架構圖 1 9 Copyright 2022 Kyligence
18、 USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.智能分層存儲的必要性 以往企業的 IT 部在搭建數據分析平臺時,由于單引擎往往只能服務單場景,所以要滿
19、業務不同的需求時,則要引不同的數據 pipeline 和數據引擎,業務數據就會分散在不同的數據引擎當中。雖然這樣做確實能滿業務的需求,但是數據平臺會逐漸龐臃腫,會帶來下個問題:1.維護成本:不同的系統所帶來的學習成本和維護成本都很;2.數據致性低:數據會分布在不同的系統中,容易導致數據不致以及數據孤島問題;3.問題排查難:旦出現問題,排查鏈路,難度;4.低效作多:上下游需要做很多的對接作。所以在 Kyligence 中,我們將不同類型的索引數據存放在合適的引擎當中,如將適合固定式聚合分析場景的聚合索引存放在 Kylin 引擎當中,將適合明細分析場景的索引放在向量引擎當中,這樣就能夠做到 OLA
20、P 全場景的覆蓋。智能分層存儲架構圖 2 10 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.智能分
21、層存儲的性能 基于 SSB 數據集上的性能測試結果,啟了智能分層存儲的 Kyligence 4.5 版本相較于以往版本在明細場景有 5 倍性能提升,在 Ad-Hoc 場景有 1.6 倍性能提升。當然,在這些不同的場景下會有性能最終表現的不同,影響性能表現的因素有:u 機器的性能,以及機器是否做過虛擬化;u 數據量和數據特征;u 查詢的 SQL 類型、復雜性;u 絡環境的穩定性等??傮w來說,智能分層存儲可助企業在聚合查詢、明細查詢、Ad-Hoc 查詢的性能皆得到明顯突破。11 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence
22、 logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.智能分層存儲撐的業務場景 智能分層存儲技術的核亮點,就在于其分層架構的合理設計以及對不同技術底座的有機融合。在 Kyligence 產品的基座中,在原有聚合分析的性能之上,更
23、有效提升了明細分析、Ad-Hoc 查詢等場景的性能和優勢。Kyligence 在產品存儲的架構進了分層的設計:u 第層:MPP 引擎層將數據存儲在向量引擎中(前僅存放表索引)u 第層:分布式存儲層將數據存儲在 HDFS/對象存儲中(存放預計算后的聚合索引)u 第三層:查詢下壓層查詢可下推到其他數據源,如 SparkSql 以及各類 RDBMS 系統 在未來,我們可以利其他引擎來構建更多的層,如添加 Redis 來構建個緩存層。由個平臺提供統的數據服務,不同類型的數據存儲在不同的存儲引擎當中,但對外暴露統的元數據和查詢接。這樣的分層結構可以很好的撐些過去套架構不能便持的場景,如現在最流的畫像分析
24、場景。!此場景下,企業需要具備以下諸多能:u 需要具有開箱即的標簽管理、篩選、導出、集成能;u 需要持圈選、導出、對、即席分析、分組統計等場景;u 需要持均更新百萬條標簽,數千標簽量,上億;12 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property o
25、f their respective owners.All rights reserved.Visit us at kyligence.io.u 需要持實時或離線的特征計算,持海量特征標簽存儲。Kyligence 的智能分層存儲功能為企業提供了個效的解題思路。通過提供以下能,從多個維度滿企業在畫像場景下的需求:u 快速圈選,指標聚合 n 持對數千標簽、上億的快速圈選,在圈選后由進指標聚合;u 開箱即,縫導出 n 提供開箱即的具,能夠與查詢引擎縫對接;n 提供標簽管理、篩選、圈選后導出能;u 開放態,保護投資 n 通過多種接協議與第三標簽分析平臺、BI 平臺縫對接;n 持與主流標簽成引擎及存儲對
26、接,持對接業務系統;n 保護已有技術投資、降低學習成本。畫像是智能分層存儲諸多應場景中的個,除此以外,還有更多數據探索式和場景,如為分析、助式靈活探索分析等。13 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respecti
27、ve owners.All rights reserved.Visit us at kyligence.io.智能分層存儲是如何作的 啟動智能分層存儲,快速建模 在 Kyligence 數據模型中您可以選擇開啟智能分層存儲功能,在使數據源定義數據模型之后,可通過在保存模型的時候來開啟智能分層存儲,后續的數據加載中,模型會利智能分層存儲中來進數據索引的構建。加載數據,存儲數據 可以在 Kyligence 中通過模型來管理數據的命周期,通過構建索引的式,來進模型數據的加載,數據會以 Segment 分區的式被模型管理。在 Kyligence 中針對業務需求建好模型后,可以通過構建索引的式進模型數據
28、的加載。如果該模型啟了智能分層存儲功能,當索引構建結束后,系統會動的將表索引(Table Index)導分層存儲節點中,需動進數據導。同時表索引會存儲在 HDFS 或對象存儲中,可以根據業務需求,選擇將部分表索引導 分層存節點或者從分層存儲節點中移除。Kyligence 會管理模型和表的元數據,以及模型和表的元數據映射關系。分層存儲中數據的命周期被 Kyligence 的模型所管理,需關分層存儲中表的創建,數據導,數據分布和數據清除。數據查詢 通過 Kyligence 平臺,可以實現將的原始數據,預計算索引,表索引通過標準的 SQL 以及 MDX 查詢接統對外提供數據服務。查詢原則 Kylig
29、ence 查詢引擎會根據查詢做智能路由的匹配。先解析每條 SQL 查詢,進模型和索引的匹配。如果這個時候有個預計算索引的話,那么就會預計算索引來回答該查詢;如果沒有預計算索引可以回答該查詢,就會回到表索引上。14 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the p
30、roperty of their respective owners.All rights reserved.Visit us at kyligence.io.智能分層存儲的查詢路由架構 Kyligence 暴露標準 SQL 接,所以對分析端暴露的是源數據的表信息,查詢引擎對模型和索引的匹配是透明的。前分層存儲引擎只持存儲和查詢表索引,但在 Kyligence 產品規劃內,后續會在迭代中持存儲和查詢聚合索引。15 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks
31、 of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.同時,我們可以通過 AI 引擎來對模型進優化,通過對群體分析為的特征抽取,結合機器學習,智能的給模型推薦優化建議,推薦出更合適的索引。在建模的過程中,可以結合聚合索引組的設計以及智能分層存儲功能,使得單模型能夠服務更全的場景。我們般建議
32、同時使聚合索引和智能分層存儲起來建模型。安裝部署和運維管理 安裝部署 云端部署:在云上使 Kyligence 時,您不需要安裝維護分層存儲集群,Kyligence Cloud 中直接提供安裝、運維、監控報警功能。本地部署:Kyligence 4.5 在本地持部署在 Hadoop 的邊緣節點的虛擬機上,由于分層存儲向量化執引擎的特性,分層存儲實例建議在物理機上進部署。運維管理 Kyligence 對智能分層存儲的每層使不同式來處理擴縮容,下我們分層來進解釋:第層:對分層存儲的擴縮容 智能分層存儲功能本持集群的彈性擴展,彈性擴展分為以下兩種形式,可以根據的實際情況,來選擇擴容的式。平擴展-擴展分層
33、存儲實例節點的數量 縱向擴展-增加分層存儲實例節點的配置(CPU、Mem)前智能分層存儲第層使存儲與計算耦合的設計,這意味著存儲和計算資源需要起進擴展。您可以根據實際的使需要來選擇擴展式。第層:對分布式存儲的擴縮容 對于分布式存儲,Kyligence 在本地使 HDFS,在云上使對象存儲。Kyligence 在這層存儲采存儲和計算分離的架構,可以分別管理存儲和計算的擴展。計算資源擴縮容 16 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligen
34、ce USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.u 云上:云上計算資源可平彈性擴展,構建資源會智能地隨著任務所需資源來進動擴縮容,查詢集群可以動調整;u 本地:對于本地計算資源,如果 Hadoop 集群算充,只需動調整所需 CPU/MEM 的參數即可。如果 Hadoop 算不充的情況下,就需要同樣擴容 H
35、adoop 節點;存儲資源擴縮容 u 云上:Kyligence 使的是對象存儲,不需要考慮擴容的問題,可輕松實現彈性伸縮;u 本地:本地存儲資源則為 HDFS 擴容,擴容操作需要運維團隊,在存儲擴容的同時般需要同步擴容機器,較為復雜。計費模式 Kyligence 的計費模式分本地部署,云上部署兩種:本地部署計費模式 本地部署的 Kyligence Enterprise 基于 Kyligence Source Data Capacity 和 Kyligence Service Nodes 計價:u Kyligence Source Data Capacity 是載 Kyligence Enter
36、prise 的不壓縮的數據量 u Kyligence Service Nodes 是安裝 Kyligence 機器的數量 智能分層存儲功能在本地部署模式下,不計 Kyligence Service Nodes 中。云上部署計費模式 云上部署的 Kyligence Cloud 許可證基于 KCU(Kyligence Compute Unit)和 KDU(Kyligence Data Unit)計價。u KCU 是定義于查詢分析負載的計算資源配額的基本單位 u KDU 是定義在 Kyligence Cloud 中被載的數據量配額的基本單位 智能分層存儲功能在云上部署模式下,分層存儲節點使的 CPU
37、 數量會被計 KCU 中。17 Copyright 2022 Kyligence USA,Inc.Kyligence and the Kyligence logo are registered trademarks of Kyligence USA,Inc.in the United States and/or other countries.All other brands and names are the property of their respective owners.All rights reserved.Visit us at kyligence.io.數據安全保護 Kyligence 在分層存儲節點中創建的表的 Schema 是經過脫敏處理的,表的組織結構以及 Schema 和原始數據是不樣的。您需擔分層存儲上的數據丟失問題。Kyligence 構建的表索引數據是冷熱備設計,數據同時分布在 HDFS 以及 分層存儲的節點上。當分層存儲上的數據出現了問題,或者當出現了節點故障,那么可以在更換分層存儲的節點或磁盤后,重新從 HDFS 上進數據恢復操作,可以簡單的重新選中需要恢復的模型或者項,重新加載智能分層存儲中即可。