《韓炳濤 -AI融合大數據助力產業數字化升級(GOTC上海會場)(13頁).pdf》由會員分享,可在線閱讀,更多相關《韓炳濤 -AI融合大數據助力產業數字化升級(GOTC上海會場)(13頁).pdf(13頁珍藏版)》請在三個皮匠報告上搜索。
1、AI、大數據與數字經濟論壇專場韓炳濤 2021年07月10日本期議題:AI融合大數據,助力產業數字化升級AI融合大數據,技術中臺賦能數字化轉型3種應用部署模式N個數字化場景數字治理數字經濟數據治理推理加速自動分布式訓練低代碼建模開箱即用Inference RuntimeOperation System&Device Driversx86x86ARMARMGPUGPUFPGAFPGAMaliMali端KubernetesDockerGPUGPU 集群集群存儲集群存儲集群管理節點管理節點Service PortalMicro Micro ServicesServices云聯邦Task Manage
2、rCross SiloCloud OSCaaSDockerT1T2Cross DeviceOSLinuxAndroidTask Processx86ARMGPUFPGAIOSServerClientCoordinator1Coordinator2Selector數字生活數據統一1高效開發2云端協同3異構適配4場景閉環非侵入式開箱即用以分布式云為基礎,實現大數據+AI全場景部署 420G大帶寬 一體化部署,分鐘級交付極寬 5ms超低時延 裸容器輕量化部署極速 硬件加速 2000節點規模部署極強全網算力快速部署,一體化協同TECS Cloud Foundation邊緣機房接入站點中心機房AnySe
3、rviceAnyScaleAnyWhere全場景算力1統一雙核云底座2積木式行業云套件3集中化統一管理4大數據+AI整體上云技術挑戰 高效的存算分離架構 批流一體的計算架構 基于K8S的統一調度器 數據分析和深度學習統一建模 自動化模型部署物理集群物理集群/IaaS/PaaS/.HDFSGolden DB第三方Yarn/Kubenetes海量計算實時計算實時交互數據倉庫深度學習MR、sparkStorm、FlinksparkSQL、HBase、ESHIVE、KlyinTensorFlow、Ray、PyTorch數據處理數據處理建模建模分析訓練基礎設施數據存儲數據計算數據服務manager安全管
4、理運維管理license管理數據應用存算分離架構優勢與挑戰統一命名空間HDFS聯邦主存儲第三方存儲主計算組件第三方計算組件緩存加速組件 Alluxio其它存儲組件大數據+AI應用數據遷移數據互通彈性擴展計算區獨立部署和擴展中間層存算解耦、存算粘合存儲區獨立部署和擴展熱 RAM溫 SSD冷 HDD存儲、計算解耦,各自獨立集群各自彈性擴縮容,減少浪費、提高資源利用率專用的存儲集群可實現跨文件系統的數據融合計算集群可以更為靈活的部署算法分級緩存加速數據讀取基于開源接口實現,上層應用無感知存儲計算一體存儲計算分離性能高性能中不夠靈活(計算力、存儲量、應用量)組網靈活,按需增減硬件采購成本高異構硬件,降
5、低成本解決存算分離的性能降級問題IO密集型場景性能最多可提升40%,總帶寬節省10%-50%Alluxio緩存計算節點計算組件計算節點Alluxio存儲集群熱數據熱點數據計算中間結果糾刪碼Block1Block2Block4Block 5Block 60-1MB1-2MBParityBlock32-MBData相較HDFS(三副本),寫性能提升40%,存儲節省50%(4+2)多模shuffle寫緩存技術Client內存存儲集群SSD/HDDClientHDDSSDHDDSSDHDDSSD通過SSD快速落盤,再異步寫到HDD。節點比ALL_SSD性能低17%,比ALL_DISK性能提高108%s
6、trip 1 strip n .異步寫根據不同的配置客戶端shuffle到不同的系統中批流一體的計算架構Log MessageRDS清洗關聯轉換輕度匯總高度匯總數據湖層業務層數據修補OLAP、報表取數服務AD-Hoc即席查詢、監控、在線類服務特點:流批一體,計算引擎統一;湖倉一體,統一存儲,降低數據孤島問題明細層加工匯聚層加工基于K8S統一調度框架Kubernets.大數據作業接口層配置中心物理資源池存儲服務網絡服務標簽服務云底座服務調度框架Scheduling FrameworkKubernetes-Scheduler本地存儲調度數據拓撲感知調度標簽調度優先級調度Gang Schedulin
7、gCapacity SchedulingBinpackFAIR隊列/PodGroup容災調度默認基礎調度調度Cache數據拓撲網絡拓撲存儲拓撲標簽數據運行指標配置數據AI模型推理服務工作負載u 面向批量計算:支持大數據、AI類型任務的調度,將數據計算類型中常用多Queue、Gang Scheduling、Capacity Scheduling等特性,融入到原生Kubernetes中,保證對社區原有調度能力完全兼容性,并與K8S解耦u 支持資源隊列,支持多租戶場景下的資源調度u 支持細粒度資源調度,保障資源共享與隔離AI訓練作業數據分析和深度學習統一建模全流程可視化“數據預處理、模型訓練算法、模
8、型效果、模型發布、能力部署”全流程可視化編排機器學習、深度學習、強化學習可視化算子分類、回歸、聚類、推薦 等機器學習算子CNN、DNN、RNN、GAN、BERT等深度學習算子及模型深度DQN、DDPG等強化學習算子數據、過程、結果可視化柱狀圖、折線圖、散點圖 等數據可視化工具訓練過程 LOSS 曲線可視化訓練結果可視化評估工具圖像展示餅圖分類聚類雷達圖3D散點圖折線圖累積分布圖散點圖相關系數熱力圖根據算子類型派發至對應的計算引擎深度學習引擎結果評估與展示讀數據算子Notebook開發環境分布式文件系統AI作業調度器 AI算子機器學習流水線編排器數據源TensorFlowRayPyTorchcs
9、v文件hdfs文件hive表sparksql表kafka大數據引擎Kubernetes+DockerSparkFlink與現有大數據集群共部署集中數據存儲,節省存儲空間,也避免大規模數據遷移造成的效率降低計算資源得到充分利用,減少浪費降低總體硬件投入多引擎統一調度AI算子可選Spark、TensorFlow等不同計算引擎,調度器派發任務到相應引擎執行基于相同的分布式存儲,實現多引擎間數據交換統一編排將數據和算子編排在一起,通過DAG描述算子間依賴關系云邊端自動化模型部署模型訓練模型優化模型編譯Adlik 云推理引擎量化剪枝大模型 fp32小模型 int8圖轉化層融合KubernetesDocker壓縮鏡像引擎+模型二進制引擎GPU集群存儲集群管理節點服務門戶微服務推理引擎運行時操作系統&設備驅動x86ARMGPU二進制文件AI應用程序靜態/動態加載8bit模型導出FPGAKubernetesDockerGPU存儲節點管理節點服務門戶微服務Adlik 邊緣推理引擎云側部署邊緣部署端側設備部署Adlik 設備推理引擎模型文件鏡像引擎文件模型Mali大數據+AI融合技術趨勢,進一步提升全場景部署能力異構跨集群數據協同大數據AI融合的云邊端協同極大極小彈性環境容器/裸金屬一體化計算存儲分離THANKS