《聯想王永超:夯實數據底座護航金融轉型發展.pdf》由會員分享,可在線閱讀,更多相關《聯想王永超:夯實數據底座護航金融轉型發展.pdf(13頁珍藏版)》請在三個皮匠報告上搜索。
1、2024 Lenovo Internal.All rights reserved.夯實數據底座護航金融轉型發展聯想萬全異構智算平臺聯想金融行業資深架構師王永超2024 Lenovo Internal.All rights reserved.智算與超算的融合發展PFlopsEFlops計算精度FP64FP32FP8FP16數據規模GBTBPBEB工程計算科學計算超算中心AI邊緣計算模型推理深度學習模型訓練Transformer大語言模型訓練智算中心計算規模CPU并行計算為主GFlopsTFlopsGPU、TPU、DPU等計算為主GPU計算為主GPU加速AI for Science2024 Len
2、ovo Internal.All rights reserved.高速交易決策快速分析海量市場數據毫秒級別內做出交易決策應用案例算法交易開發算法交易策略,包括高頻交易和算法交易風險管理與異常檢測對投資組合進行全面風險管理檢測市場中異常行為或欺詐行為個性化投資策略AI大模型的個性化投資策略組合優化優化投資組合,實現最佳的投資回報并降低風險模型預測預測股市未來走勢,預測特定股票的價格變動,或整個市場趨勢自動化交易執行預設交易規則和條件,AI自動執行交易操作,根據市場實時變化做出調整量化交易策略優化對歷史交易數據進行分析和挖掘,發現潛在的交易策略和規律某金融機構利用AI大模型進行量化交易:該私募公司
3、利用AI大模型技術,對板塊、研報、另類數據、Tick級交易數據進行因子掃描和挖掘,提前發現潛力價值板塊,然后用于量化交易策略中。以此獲取更高的阿爾法收益。AI大模型在中國金融行業中的應用場景2024 Lenovo Internal.All rights reserved.中國AI用戶面臨新的挑戰GPU市場從NV一家獨大,變為MNC(NV/Intel/AMD)+Local(天數/寒武紀/燧原/昆侖等)共存局面百花齊放的GPU市場,帶動軟件生態的多元化(不同GPU需對應不同軟件生態,導致客戶應用AI算力面臨巨大挑戰)國產NV一家獨大MNC2024 Lenovo Internal.All right
4、s reserved.異構算力管理平臺統一管理、調度和優化智能和科學算力基于不同GPU算子庫實現的算法框架和并行加速庫云統一管理CPU為主的通用算力算力管理平臺應用生態企業應用行業方案智慧金融智慧醫療智能制造AI模型開發持續打造極致性能、極簡易用的人工智能平臺開發平臺硬件平臺AI 硬件設備 GPU 芯片WA7780 G3WA5480 G3WR5220 G3交換機存儲SE350 V2SE360 V2邊緣400G200GDE-F SAN存儲DM-F 統一存儲EF300/EF600智能計算科學計算服務器通用計算國產算力芯片2024 Lenovo Internal.All rights reserve
5、d.AI算力生態:芯片、核心部件 數據治理訓練、精調AI異構智算平臺模型優化模型發布推理推理服務發布AI軟件生態:工具、模型 算力管理與監控異構算子庫的集成算力調度與優化數據集場景需求應用開發聯想萬全異構智算平臺統一管理、調度和優化智能和科學算力2024 Lenovo Internal.All rights reserved.5+種主流算法框架 10+類算子庫 10+家GPU 廠商3類網絡3類存儲解決之道:針對場景,全自動規劃和調度最佳算法與集群配置,為用戶跳過繁雜的算力選擇和驗證聯想異構智算平臺自動匹配算法、算子自動定義最優硬件配置廣泛兼容30+主流GPU靈活配置豐富算力集群聯想智能硬件如何
6、驗證和匹配上百種算力組合?11大類應用場景/數百種子應用場景算力魔方-將多元場景與多元算力自動匹配2024 Lenovo Internal.All rights reserved.用戶態K8S調度OS容器1容器N虛擬化算法無法有效限制容器間資源占用比例資源調度路徑長,性能開銷大算力分配粒度粗(10%)應用性能波動大,無保障算力利用率vGPU利用率從 80%提升到 95%GPU內核態虛擬化-挖掘處理器潛力內核態GPU驅動虛擬化算法隔離算法:隔離容器算力、顯存和故障,保障應用性能調度策略:貼近硬件,以最短路徑完成資源調配,開銷小于5%算力分配顆粒度可精細到1%2024 Lenovo Interna
7、l.All rights reserved.聯想集合通訊庫+突破集群計算瓶頸訓練效率提升10%-15%網絡拓撲優化和感知通信算法深度優化例:蟻群尋路原理數學:蟻群算法通信路徑優化算法Fat Tree DragonFly+DDC2024 Lenovo Internal.All rights reserved.分鐘級AI斷點續訓讓AI集群持續可用排障重啟續訓斷點檢查點檢查點任務啟動預設斷點續訓數據備份更新 數據備份更新常規斷點續訓聯想斷點續訓分鐘級恢復+多級備份策略全面實時監控以AI預測AI故障節點本地內存相鄰節點內存備份節點訓練故障特征庫模型對斷點預判軟、硬 件 和 任務 實 時 分 析 和診
8、斷 針 對 特 征優化備份設檢查點預置備份策略恢復時間恢復時間 數小時數小時2024 Lenovo Internal.All rights reserved.庫、運行時系統生物特征影像識別照片翻拍識別圖像篡改識別故障檢測識別智能客服智能檢查智能理賠SR658H v2服務器國產GPU(推理卡、訓練卡)NVIDIA GPU(V100、A40、A10、T4、L4)麒麟OS資源調度模塊GPU拓撲感知調度優先級調度彈性調度GPU細粒度調度親和性調度Gang調度Spread調度Binpack調度鏡像在線開發鏡像訓練鏡像推理鏡像軟件庫GPU運行時庫GPU算子庫數學庫集合通信庫監控模塊平臺門戶數據管理模板管理
9、任務管理在線開發日志管理權限管理算力管理監控報警鏡像管理國產GPU 算子庫NVIDIA GPU 算子庫國產GPU Runtime LibNVIDIA GPU Runtime Lib 替代部分原NVIDIA GPU算力集群 納管NVIDIA和國產GPU 支持19種模型,涵蓋多種應用場景 具備資源池化和GPU虛擬化功能 動態擴縮容,訓推混合調度 具備較完善的平臺管理功能構 建 了 一 套 基 于 NVIDIA 和 國 產GPU異構資源的AI訓練和推理系統,參與某金融客戶組織的測試評比,在眾多競標廠商中唯一在國產GPU上通過大模型訓練驗證。某金融國產化AI開發平臺2024 Lenovo Intern
10、al.All rights reserved.高密度計算結點GPU A100 4卡計算結點計算網HDR萬兆管理網共享數據并行存儲系統一期建設HPC/AI算力達2.73P(FP64)/60P(FP16)GPU A100 8卡 計算結點二期擴容AI算力4.31P(FP64)/120P(FP16)成功案例某大數據智算中心某大數據智算中心通過前后兩期的建設,總共包含100臺高密度計算節點(Intel Icelake)、100臺 SR670V2 八卡AI GPU節點(Nvidia A100/A800),10PB DSS-G并行存儲,形成了高達7 PFLOPs(FP64)HPC CPU算力及180PFLOPs的AI GPU計算能力。聯想萬全異構智算平臺作為核心支撐系統,為智算中心提供了HPC(高性能計算)與AI(人工智能)的全方位統一管理和運營服務,尤其針對AI部分實施了精細化的GPU算力管理與調度策略,不僅支撐了科學計算、工程計算等傳統HPC的算力需求,更深度滿足了人工智能大模型開發與探索萬全異構智算平臺門戶系統作業門戶、資源分析、計費AI作業調度K8s統一運維監控監控告警、日志分析、擴容HPC作業調度Slurm,LSF,PBS任務管理HPC和AI任務統一管理