《2018年大數據和人工智能在Power服務器上的實踐分享.pdf》由會員分享,可在線閱讀,更多相關《2018年大數據和人工智能在Power服務器上的實踐分享.pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、Power服務器上大數據方案介紹大數據案例分享Power服務器:AI的強力支撐平臺內容開放的Hadoop組件架構藍色部分是基礎的框架,黃色部分是一些SQL化的組件,沒辦法單獨執行,依賴于藍色及灰色部分。Apache hadoop社區貢獻第一名:HortonworksHortonworks成立時間2011年員工1110+Apache社區Committer208全球合作伙伴2100+全球客戶數量1000+產品許可無商業許可產品開源程度完全開源Apache V2.0協議Hortonworks Data Platform(HDP)可用于創建安全的企業數據湖,提供您實現快速創新、運用實時商業洞察力所需的
2、分析信息,完全開源??梢院w數據的采集、數據的預處理、海量數據存儲、數據分析及發掘、數據的呈現與應用等各個部分。ODPi成員對大數據生態的貢獻 ODPi是一個非營利組織致力于簡化和標準化大數據生態系統使用通用的參考規范和測試套件。HDP 特點100%開源HDP 2.6.5包含的組件HDP 3.0包含的組件HDP一鍵化安裝能提供Hadoop套件的兩個主要軟件廠商:Cloudera,Hortonworks信息抽取切詞文本分類屬性提取網頁爬取統一數據采集SQL消息API文件服務總線統一數據中心大數據平臺應用數據治理平臺運維目標庫MPP數據庫MPP(雙活)Agent CollectorStorageM
3、asterFlumeZookeeper文件/消息(含信令)FTP文件Socket消息sqoop基于多租戶的開放框架TomcatMySQLPuppetGangliaNagiosAmbariBootstrapSpringHibernateJQueryRDBMS統一大數據存儲HDFSzookeeper資源調度與管理 YARNSPARKScalaMLlibHBASEM/RHiveRSparkSQLIBMStreamsRedisSparkStreamingKAFKADockerSlider某客戶大數據平臺技術架構某客戶Hadoop平臺S812LCS812LCCodisCodisHbaseHbaseNod
4、emanager&DatanodeNodemanager&DatanodeNamenodeNamenodeZookeeperZookeeperHive-Hive-serverserverMapreduceMapreduce采用HotonWorks大數據平臺方案集群調度節點:Zookeeper。Hive 元數據節點:Hive 是用類SQL 語句來驅動MapReduce做查詢的一個模塊。Hbase:Hadoop數據庫,是一個列式數據庫,可以方便的保存非結構化數據,比如json類型數據。計算及存儲節點:保存數據,并實際執行MapReduce的節點。Codis:分布式Redis,上層應用可以象使用單機
5、Redis一樣來用Codis。某客戶HDP集群支撐業務:-流量分析-上網日志分析-ICA-企業級多租戶業務共224臺S812LC主要部件:-Codis-Mapreduce-Hive-Hbase某客戶流式計算架構圖采集服務器集群(腳本/java程序)Hbase集群詳單存儲Hadoop集群15 分鐘匯總數據小時匯總數據天匯總數據Kafka 集群Storm 集群結果保存Redis/Kafka 數據共享流處理平臺:流處理平臺:流處理平臺主要有 Storm、Jstorm、Spark 流處理平臺主要有 Storm、Jstorm、Spark Streaming 等。Streaming 等。流式處理常用場景流
6、式處理常用場景:事件流:Storm 處理源源不斷流進來的消息,處理之后將結果寫入到某個存儲中去。電信運營商實時信令分析上網行為分析實時營銷持續計算:連續發送數據到客戶端,使它們能夠實時更新并顯示結果,如網站指標?;ヂ摼W的實時數據監控微博熱門話題的實時推送實時網絡攻擊監測流處理平臺流處理平臺POWER平臺上打包的開源框架集合POWERAIBase安裝安裝易易版本版本新新企業企業級級優化優化庫庫包含內容包含內容CaffeLarge Model Support(LMS)Distributed Deep Learning(DDL)開發經驗客戶PowerAI BasePowerAI BaseFree P
7、OWER CPUPOWER CPUPOWER CPUPOWER CPUDDR4DDR4DDR4DDR4GPUGPUGPUGPUNVLinkGraphics MemoryGraphics MemoryPOWER NVLinkPOWER NVLinkData PipeData Pipe124816326412825641664256SpeedupNumber of GPUsIdeal ScalingDDL Actual Scaling95%Scaling with 256 95%Scaling with 256 GPUSGPUSCaffe with PowerAI DDL,Running on M
8、insky Power8 System16 Days7 HoursPower獨有獨有PowerAI Enterprise PlatformAI訓練平臺訓練平臺-全生命周期管理的集成開發環境業務需求數據提取并標簽化數據準備及清洗設計模型并進行調優模型評價驗收部署模型上線運維調整模型Data Science Of Deep Learning Project Lifecycle數據是一切的基礎,是整個人工智能引擎的燃料。標簽化數據的質量直接影響后面的所有過程隨著業務模型的改變和數據變化,持續訓練和增量訓練會不斷應用在生產線中多種評價體系從不同維度驗證模型的準確率和上線后的風險訓練工作和線上預測工作可
9、以在同一集群實現,最大化資源利用率數據的清洗,重分布,準確率的提升是最關鍵部分數據的清洗,重分布,數字化生成,模型調優對得到一個可用模型至關重要統一數據層統一數據層支持多種支持多種深度學深度學習框架習框架為不同深度學習框架提供為不同深度學習框架提供統統一的對外一的對外inference restfulAPI增強的增強的企業級分布式企業級分布式Inference能力能力靈活的同步和異步靈活的同步和異步數據并行數據并行訓練能力訓練能力在大規模集群中保持在大規模集群中保持加速率加速率在在90%以上以上的獨特算法的獨特算法訓練日志持續訓練日志持續可視化可視化提供神經網絡和超參數提供神經網絡和超參數優化
10、優化建議建議PowerAI Enterprise價值點價值點數據導入訓練監控超參搜索資源調度AI解決方案解決方案寬帶安裝復核寬帶安裝復核(目標檢測目標檢測&OCR)金融單據字符識別金融單據字符識別(OCR&NLP)視頻中的物體識別視頻中的物體識別(目標檢測目標檢測)晶元瑕疵檢測晶元瑕疵檢測(目標檢測目標檢測&分類分類)AI解決方案解決方案衛星圖像缺陷檢測衛星圖像缺陷檢測(目標檢測目標檢測)鐵路部件質檢鐵路部件質檢(目標檢測目標檢測)股指期貨預測股指期貨預測(時序數列處理時序數列處理)誤停機風險分析誤停機風險分析(用戶畫像用戶畫像)MLCodeStoring InfrastructurePowe
11、rAI Enterprise企業級彈性分布式推理服務易用性:一鍵發布并部署訓練模型為推理服務可擴展:根據推理請求自動進行彈性伸縮擴展模型管理:端到端的模型全生命周期管理,支持推理結果和性能實時監控安全性:支持多租戶間的資源隔離和權限管理,支持TLS/SSL,HTTPS等保證數據安全高性能:支持毫秒級的作業調度推理加速:Power推理加速器支持CPU,GPU及FPGA,ASIC等各種協處理器Rest API,gRPC,streaming APIInference APIDistributed auto scale in/outLow latencyBatchingHigh Availabilit
12、yLoad balanceHigh throughputEasy to useSecurity(Token,RBAC,SSL)Monitoring(metrics)Task historyAlertingWeb style GUIData Scientiststrained modelsAdminssettingmonitoringdataresult為多種框架下的ML/DL訓練模型提供了統一的推理服務管理平臺,在保證易用性、安全性和健壯性的基礎上,支持大量并發推理請求以及分布式的彈性伸縮擴展用例1 頻繁的推理請求高吞吐率圖像分類任務信用評估金融服務每分鐘需要處理100,000 張圖像每分鐘需
13、要處理100,000 信用評估請求根據推理請求數量自動調整推理服務規模適用于包含獨立數據的頻繁推理請求,例如利用卷積神經網絡進行圖像分類利用卷積神經網絡進行目標檢測深度神經網絡進行語音識別基于xgboost的分類任務基于scikit-learn的分類或回歸任務PowerInference servicewith model deployedGPU(s)FPGAinput:imagesoutput:categoryclient application(s)rest APIPowerGPU(s)FPGAPowerGPU(s)FPGAPowerGPU(s)FPGA大象用例2 基于流的推理請求視頻中的
14、目標檢測分類或者ReID任務海量攝像頭每秒30幀影像的低延遲處理多種模型協同工作high speed storageInference as a servicewith object detection model deployedInference as a servicewith ReID model deployedstreaming inference apicombined objectdetection result fromdifferent cameraPowerGPU(s)FPGAPowerGPU(s)FPGAPowerGPU(s)FPGAPowerGPU(s)FPGA浪潮商
15、用機器浪潮商用機器Open Power產品家族產品家族AIAIBigDataBigDataEnterpriseEnterpriseFP54FP5488G28G24U6 6GPU NVlink2.0FP5290G2FP5290G2面向金融、通信高端平臺面向金融、通信高端平臺FP5280G2FP5280G2通用平臺通用平臺FP54FP5468G28G24U 8GPU PCIe4.0云計算租賃業務云計算租賃業務FP52FP5212G2G2互聯網大數據互聯網大數據FP5295G2FP5295G2企業級AI最佳平臺企業級AI最佳平臺FP5466G2FP5466G24U40盤 存儲型服務器4U40盤 存儲
16、型服務器Inspur Power SystemsFP5295G2專為企業 AI 而重新設計 IT 基礎架構。提供最佳支持AI和HPC的平臺,企業可充滿信心地部署深度學習框架和加速數據庫等數據密集型工作負載。3.8倍提升深度學習框架AI模型訓練效率1.8倍更好的加速數據庫性能面向企業 AI 與HPC應用的面向企業 AI 與HPC應用的全球最高性能計算平臺節點全球最高性能計算平臺節點FP5295G2 核心優勢最卓越最卓越CPU+最強悍最強悍GPU 專為AI 設計的POWER9 CPU,2 倍線程數量,更大L3緩存,NVLink原生直連支持4 個NVIDIA Tesla V100 GPU,最新32G
17、顯存GPU最簡單最有特色的最簡單最有特色的AI/HPC架構架構NVLink實現跨GPU 和CPU 的內存共享,實現編程的便利性,NVLink速度更快-I/O 帶寬可高達x86 服務器的5.6 倍企業應用就緒企業應用就緒IBM 支持的PowerAI框架HPCPowerAI超算超算4320個節點!個節點!超算超算4608個節點!個節點!FP5295G2 VS X86 FP5295G2 VS X86 CPU GPU互聯:150GB/s VS 32GB/s CPU GPU互聯:150GB/s VS 32GB/s 內存帶寬:170GB/s VS 76.8GB/s內存帶寬:170GB/s VS 76.8G
18、B/s世界企業級服務器FP5295G2 4個V100 GPU FP5295G2 4個V100 GPU FP5295G2 6個V100 GPU FP5295G2 6個V100 GPU X86 ServerX86 ServerPower9先進的先進的IO系統系統NVlink 2.0 帶寬是帶寬是PCIe3 的的5.6倍!倍!PCIe332 GB/sGPUGPUx86x86GPUGPUGPUGPUx86x86GPUGPUNVLink150 GB/sGPUGPUP9P9GPUGPUGPUGPUP9P9GPUGPUPower9的優勢 2倍線程數 5x+的I/O帶寬 2倍的內存帶寬 OpenCAPI、NV
19、Link2.0、PCIe Gen46個GPU VS 6個GPU 白色的部分是GPU等待Memory的時間,FP5295G2訓練時間更快GPU更有效利用FP5295G2NVLink2.0帶寬是PCIe3.0的5.6倍!NVLink2.0帶寬是PCIe3.0的5.6倍!Power9的高速NVlink使GPU高效率計算NVLink助力FP5295G2性能極大提升NVLink助力FP5295G2性能極大提升3.8x!97092622020004000600080001000012000Xeon x86 2640 v4/4xTesla V100Power AC922 w/4xTesla V100Time
20、(secs)ChainerRuntime of 1000 Iterations3.7x!Power硬件:FP5295G2;40 cores(2 x 20c chips),POWER9 with NVLink 2.0;2.25 GHz,1024 GB memory,4xTesla V100 GPU Pegas 1.0 Ubuntu 16.04.X86硬件:2x Xeon E5-2640 v4;20 cores(2 x 10c chips)/40 threads;Intel Xeon E5-2640 v4;2.4 GHz;1024 GB memory,4xTesla V100 GPU,Ubuntu
21、 16.04來自https:/ x86 E5-2640 v42x10c+4xTesla P100PowerS822LC2x10cPOWER8+4xTesla P100PowerFP5295G2 2x20c POWER9+4xTeslaV100Time(secs)Molecular Dynamics(CPMD)Runtime(secs)Lower is betterCPMD 分子動力學高性能計算分子動力學高性能計算FP5295 配置了通過NVLink 2.0 全互連的Nvidia V100 GPU對比X86系統縮短2.9X 化學模擬計算執行時間計算過程需要在CPU與GPU之間傳輸3.3TB數據N
22、VLink通道用時70sPCIe通道用時超過300s2.9X 以上計算時間縮減以上計算時間縮減GPU ID012 3 4 5 67Averagex86+GPUx86+GPU,1 GPU 1443216216FP5295G2FP5295G21 GPU 1443197197x86+GPUx86+GPU,1 GPU 192314671467FP5295G2FP5295G21 GPU 1923590590GPU ID01234567Averagex86+GPUx86+GPU,4 GPU 1443219219218218219FP5295G2FP5295G24 GPU 14431971981982092
23、00 x86+GPUx86+GPU,4 GPU 192315201508149614981506FP5295G2FP5295G24 GPU 1923594602598605600GPU ID01234567Averagex86+GPUx86+GPU,6 GPU 19231514206720811991199115061858FP5295G2FP5295G26 GPU 1923674674681675672682676x86+GPUx86+GPU,8 GPU 1923211021082146211620252025203820382076真實案例-訓練高分辨率的3D圖像1個GPU 訓練速度2.48倍!4個GPU-訓練速度2.5倍!6個GPU 訓練速度3.07倍!NVLINK+LMS特別適合醫療影像!NVLINK+LMS特別適合醫療影像!thanks