1、DataFunSummitDataFunSummit#20232023金融信創湖倉一體數據平臺架構實踐原攀峰-數新網絡-CTO云數據智能平臺DataCyber數據平臺架構演進1金融信創對數據平臺的挑戰23金融信創數據平臺落地路徑4金融信創數據平臺實踐案例52.2.數據平臺階段數據平臺階段大規模數據存儲計算能力沒有明顯離線在線的區分大量在線數據服務3.3.數據中臺階段數據中臺階段數據平臺+數據體系+組織變革4.4.云數據平臺階段云數據平臺階段云原生架構,云數倉:多租戶,資源按需彈性使用和計量計費1.1.數據倉庫階段數據倉庫階段OLAP,BI報表,數據分析,數據集市大數據基礎設施發展階段Data
2、WarehouseData Warehouse架構架構共享存儲:共享存儲:Oracle大規模并行處理:大規模并行處理:Teradata、GreenplumData LakeData Lake架構架構大數據基礎框架(大數據基礎框架(Hadoop 1.xHadoop 1.x):):單一MapReduce分析計算多元化(計算多元化(Hadoop 2.xHadoop 2.x):):Hive、Spark、Flink、Impala、Presto等,復合分析Data LakehouseData Lakehouse架構架構存儲多元化:存儲多元化:Hadoop 3.x、對象存儲,MPP數據庫云數據倉庫:云數據倉
3、庫:Snowflake、Databricks,大數據+AI分析Kubernetes集群物理機/虛擬機HiveSparkFlinkPrestoDorisJupyterLabHadoopKafkaMinIO業務方1業務方2業務方3云原生大數據是一種以云原生化技術為基礎,實現計算云原生調度、存儲統一負載的新型數據平臺架構,從而支持多種計算負載,計算調度更彈性,存儲效能更高多種計算負載,計算調度更彈性,存儲效能更高的大數據處理和分析平臺。云原生帶來的優勢:云原生帶來的優勢:擴展性大幅提升:擴展性大幅提升:資源調度和管理能夠根據業務峰谷實現大數據計算組件的彈性伸縮。資源利用率提升:資源利用率提升:通過存
4、算分離和離在線混合部署等,提升資源利用率,節省整體成本。標準化發布流程:標準化發布流程:基于容器化技術,實現大數據組件的標準化部署與升級。數據平臺發展趨勢:云原生數據平臺發展趨勢:湖倉一體數據湖(Hadoop)數據倉庫(MPP)湖倉融合湖倉融合ETL湖倉一體(Lakehouse)是指融合數據湖與數據倉庫的優勢,形成一體化、開放式數據處理平臺的技術。它是一種新的數據管理范式,從根本上簡化了企業數據基礎架構根本上簡化了企業數據基礎架構,并且有望在機器學習已滲透每個行業的時代進一步加速創新。數據源結構化半結構化非結構化數據應用BI報表查詢數據湖(Hadoop)數據倉庫(MPP)湖倉一體湖倉一體計算移
5、動數據源結構化半結構化非結構化數據應用BI報表AI&ML統一存儲統一元數據湖倉數據治理LakehouseLakehouse關鍵:關鍵:開放式存儲格式 統一元數據管理 多樣化計算引擎數據平臺發展趨勢:存算分離HadoopHadoop集群集群ResourceManager資源調度集群(資源調度集群(YarnYarn)NameNode存儲集群(存儲集群(HDFSHDFS)DataNodeNodeManager10Gb萬兆網絡ResourceManagerNodeManagerNameNodeDataNode存算耦合HadoopHadoop存算分離存算分離(私有云)Spark計算引擎計算引擎Flink
6、.資源調度集群(資源調度集群(K8SK8S)存儲集群存儲集群標準協議Spark計算引擎計算引擎Flink.云原生存算分離云原生存算分離(公有云)HDFSS3.OSSSpark計算引擎計算引擎Flink.MasterNode數據平臺發展趨勢:混合云、數據云私有云私有云數據平臺數據平臺公有云數據云公有云數據云公有云數據云公有云數據云跨境網絡跨境網絡混合云租戶n混合云租戶1私有云數據平臺私有云數據平臺租戶n租戶1數據跨境合規流動租戶n租戶1混合云租戶1混合云租戶n數據流動數據流動混合云租戶1混合云租戶n挑戰一:大數據組件信創適配CPU芯片鯤鵬飛騰海光龍芯.操作系統銀河麒麟中標麒麟統信UOS歐拉.數據
7、庫達夢人大金倉南大通用神舟通用.云平臺阿里云華為云騰訊云字節云.“信創”是信息技術應用創新的簡稱,涵蓋了IT產業鏈核心技術產品的國產化安全自主可控。目前金融信創成為了繼黨、政信創之后,信創落地應用進展最快的行業。國產軟硬件適配國產軟硬件適配(X86、ARM 等)組件兼容性適配組件兼容性適配(組件依賴、組件版本、Jar包依賴)組件編譯組件編譯(編譯、so庫)組件組裝組件組裝(集成、配置)組件打包組件打包(rpm包、鏡像等)組件部署與測試組件部署與測試(部署、功能、性能測試)挑戰二:大數據組件穩定性、性能、安全統一存儲用戶登錄、訪問、操作等審計信息,并提供可視化頁面展示審計中心審計中心權限管理權限
8、管理租戶管理租戶管理用戶管理用戶管理提供最細至行列級別權限控制,并支持用戶自定義策略規則,自定義數據隔離多租戶架構,資源嚴格隔離,提高資源利用率與安全性基于kerberos+OpenLdap的用戶認證體系,嚴格拒絕非法用戶訪問大數據組件適配適配覆蓋主流大數據計算和存儲組件云原生環境下的組件適配.大數據組件調優調優信創環境下組件配置調優存算分離架構穩定性和性能優化云原生優化:Hive on Spark on K8S,Spark Operator等大規模性能壓測與優化.挑戰三:大數據集群遷移、混合部署NNRMX86NNRMX86DNNMX86DNNMX86DNNMX86DNNMX86NNRMARM
9、NNRMARMDNNMX86DNNMARMDNNMX86DNNMARM集群遷移機器復用(利舊)不同CPU架構(X86/ARM)不同硬件規格(CPU/內存/硬盤)不同操作系統現有集群信創集群信創集群設計目標 國產信創,自主可控大數據平臺 云原生湖倉一體架構 Data+AI一體化設計 多租戶體系 擁抱開源,保持開放性 多云/混合云/私有云/公有云 支持數據共享開放CCSA TC601云原生湖倉一體數據平臺技術要求標準總體框架數智引擎功能架構(CyberEngine)用戶管理租戶管理平臺升級審計日志權限管理數據平臺AI平臺集群管理 硬件環境(X86/ARM/MIPS)云平臺(私有云/公有云/混合云/
10、多云)數據存儲統一任務調度引擎 (CyberScheduler)統一元數據服務引擎(CyberMeta)流批引擎Flink/Spark/HiveMPP分析引擎 Impala/Presto/TrinoMPP數據庫Doris/StarRocks/Clickhouse/GaussDB機器學習 TensorFlow/PyTorch/XGboostNoSQL數據庫HBase/Phoenix搜索引擎 Solr/ElasticSearch/Milvus數據引擎統一SQL引擎 (CyberSQL)統一數據集成引擎 (CyberIntergration)管理平臺基礎設施資源調度.組件管理 主機/機架管理彈性伸縮
11、容災備份智能運維監控告警場景化一鍵部署(離線、實時、湖倉、OLAP分析、全文檢索、大模型)業務應用安全管理控制臺YARN調度云原生調度Serverless調度多云部署與調度統一資源管理(統一資源管理(YARN/YARN/K8SK8S)統一存儲統一存儲 (HDFS/S3)|HDFS/S3)|湖倉數據格式(湖倉數據格式(Hudi/Iceberg Hudi/Iceberg)元數據服務數據入湖數據湖管理數據湖加速.三方賬號數據平臺功能架構(CyberData)控制臺數據服務數據治理數據開發租戶管理用戶管理項目管理權限認證集群配置審計日志三方賬號數倉規劃規范設計數據標準數據資產元數據采集數據檢索和目錄數
12、據血緣數據熱度分析數據分類分級敏感數據保護數據權限管理數據安全全量同步增量同步數據集成實時同步數據轉換離線開發周期調度數據開發聯邦查詢交互分析離線任務運維手動任務運維監控運維實時任務運維智能監控告警數據引擎HiveSparkFlinkPrestoDoris統一元數據管理數據湖分布式文件系統(HDFS)對象存儲(S3)數據源MySQL/Oracle/SqlServer/DB2/DM/PostgreSQL等HBase/MongoDB/OceanBase等GreenPlum/MaxCompute/GaussDB等FTP/HDFS/Minio等Kafka/Plusar等全量入湖(離線+實時)結構化數據
13、(parquet/orc/hudi/iceberg)半結構化數據(csv/json)非結構化數據(圖片/音視頻/模型)StarRocks.數據應用BI客戶管理/渠道管理等報表運營大盤等數據科學市場輿情/產業圖譜等機器學習精準營銷/智能風控等整庫同步分庫分表同步實時開發手動調度數據風險審計離線數據監控實時數據監控數據質量質量報告健康檢查數據指標API構建API發布API調用監控API網關服務安全數倉建模智能平臺功能架構(CyberAI)智能應用教育行業:教學平臺/平臺/建模競賽 科研金融行業:智能風控/量化交易/營銷推薦大模型:行業知識庫/對話系統/AIGC模型服務平臺服務模型框架TensorF
14、lowKerasPyTorchCaffe2MXNetScikit-LearnXGBoostFate優化引擎算子優化器梯度優化器管道加速器硬件適配器CUDAcuDNNTensorRTPyCUDAPytorch DDPGpipeHorovodDeepSpeedGPU 加速引擎并行訓練引擎基礎設施統一資源接入統一數據接入K8SKVMX86/CPU/GPU云平臺MySQL/Oracle等HBase/MongoDB等HDFS/MinIO等 Kafka/Plusar等多模態數據樣本生成特征嵌入特征增強Jupter Notebook自定義鏡像多數據源訪問深度學習集成100+算子組件 10+場景模板自定義建模
15、自動化管道超參搜索離線任務并行訓練自動學習數據交集多方訓練安全協議去中心化存儲租戶隔離數據隔離資源隔離獨立容器模型微調模型壓縮提示工具內置模型數據特征交互式建??梢暬DP陀柧毬摪顚W習算法沙箱大模型一鍵部署灰度發布平滑升級彈性伸縮指標監控批量推理視覺模型語言模型文本模型量化模型模型推理模型市場控制臺租戶管理用戶管理身份管理項目管理資源管理權限管理操作審計三方賬號信創化數據平臺的實施路徑構建統一納管平臺可使得大數據平臺對業務表現統一,做到切換平滑、管理統一切換平滑、管理統一,增加業務接受程度構建納管構建納管平臺平臺選擇業務選擇業務切換場景切換場景規劃信規劃信創集群創集群數據集數據集群遷移群遷移
16、業務壓測業務壓測與驗證與驗證異構多集異構多集群運行群運行根據新業務場景數據需求,規劃信創湖倉集群架構,并依據架構進行集群計算、存集群計算、存儲、網絡等資源設計儲、網絡等資源設計基于新老集群架構進行數據遷移,包括離線離線數據遷移和實時實時數據遷移,同時做好數據驗證與比對根據數據量級和業務要求進行信創集群壓測與調優壓測與調優,基于業務情況進行多類型業務場景驗證基于用戶多業務、多場景、大數據量場景,信創、非信創集群并行運行并行運行后切換集群根據客戶具體業務情況具體業務情況選擇合適的業務場景進行信創集群的切換聯系我們數新網絡科技號郵箱:電話:0571-85153720地址:浙江省杭州市余杭區文一西路恒生科技園7號樓3樓官網網址:https:/