《王羽中-構建云原生算力基礎設施驅動大模型創新實.pdf》由會員分享,可在線閱讀,更多相關《王羽中-構建云原生算力基礎設施驅動大模型創新實.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、構建云原生算力基礎設施驅動大模型創新實踐王羽中杭州諧云科技有限公司演講嘉賓王羽中杭州諧云科技有限公司 技術總監負責諧云科技邊緣智能、算力管理平臺、MLP平臺、大模型支撐平臺等核心產品的技術演進。研究關注范圍包括云原生技術、AI大模型、云邊協同技術等,具有豐富的大規模底層支持系統架構設計經驗和實踐落地經驗。目 錄CONTENTS1.背景介紹2.關鍵要素3.技術方案4.未來展望背景介紹PART 01大模型的重要性 2022年8月,科技部發布關于支持建設新一代人工智能示范應用場景的通知中指出堅持面向世界科技前沿、面向經濟主戰場、面向國家重大需求、面向人民生命健康,充分發揮人工智能賦能經濟社會發展的作
2、用,打造形成一批可復制、可推廣的標桿型示范應用場景。2023年12月,國家數據局發布“數據要素x”三年行動計劃(20242026年)(征求意見稿),提出以科學數據支持大模型開發,建設高質量語料庫和基礎科學數據集,支持開展通用人工智能大模型和垂直領域人工智能大模型訓練。同時,北京、上海、深圳、安徽、四川等省市也陸續出臺大模型產業發展措施,加速大模型應用落地。其他政策.產研方面政策方面政策方面自2022年11月30日ChatGPT發布以來,AI大模型在全球范圍內掀起了有史以來規模最大的人工智能浪潮。大模型因其擁有表達能力好、泛化能力好、能夠處理復雜任務和語義理解、知識庫存儲容量大等優勢很快迎來了迅
3、猛發展。大模型將重新塑造人類知識應用、創造和轉化的模式,在經濟社會發展中產生巨大價值。中商產業研究院分析師預測,2023年中國大模型產業規模將達到147億元,2024年將達到216億元。據不完全統計,截至2023年8月,中國已發布的各類大模型數量已超上百個;根據科技部“新一代人工智能發展研究中心”發布的數據,截止至2023年我國參數規模在10億以上的大模型總數量達79個。截至2023年10月,擁有10億參數規模以上大模型的廠商及高校院所達到了254家。數據來源:中商產業研究院整理大模型落地情況大模型落地面臨的關鍵問題:大模型幻覺現階段,大模型輸出準確度能夠達到70%-90%左右。由于對準確性、
4、可控性要求較高,大模型面客應用都暫時無法落地。應用將以對內為主。答案時效性大模型需要將最新數據通過預訓練方式灌注到模型中,因此很難囊括最新知識,其回答內容的時效性也受到限制。數據質量問題當前專業的領域知識數據都孤立在各個企業和機構中,沒法構建大規模高質量的數據集,造成大模型在專業領域和垂直行業效果不佳。統計數據顯示,在大模型落地應用中,45%的企業處于觀望階段、39%的企業處于探索可研階段、16%的企業處于試點應用階段,而全面落地應用的企業為零。國內外大模型對比 在大模型數量上,我國已經和美國逐年持平;在模型的效果上依舊存在較大的差距;據專業的SuperCLUE組織公開數據顯示,截止2024年
5、2月,美國以GPT-4為代表的大模型的總分達到92.71,國內以文心一言4.0為代表的大模型的總分為87.75;國外以GPT-4為代表的大模型參數規模已經達到了1.8萬億,國內以文心一言4.0為代表的大模型參數規模尚未突破萬億規模的參數,參數規模是影響模型效果的重要因素之一;2019年2020年2021年2022年2023年1-5月美國411303718中國02302819其他01811105101520253035402019-2023年1-5月全球AI大模型數量對比美國中國其他算力對大模型的重要性算力規模決定大模型參數規模,從而間接決定大模型的效果和落地實踐的可行性。如何解決大模型落地進程
6、慢,縮短國內大模型與國外大模型性能差距,算力作為大模型的基礎設施都起著決定性作用。要實現大模型的彎道超車,要實現大模型的全面落地實踐,算力基礎設施建設是重中之重。人工智能大模型的快速發展,讓算力引發前所未有的關注。伴隨算力發展規劃政策相繼出臺,算力整體布局持續優化,全國上下已形成積極推動算力產業快速健康發展的局面。在大模型領域,模型的性能通常與其規模成正比。也就是說,模型越大,它的性能和表現就會越好。作為大模型的基礎“底座”,算力在其中發揮著關鍵的作用。動輒百億甚至千億數據規模的大模型訓練,例如OpenAI訓練GPT-4,在大約25000個A100上訓練了90到100天。百度文心一言4.0大模
7、型也是在萬卡的集群中訓練數十天才完成。算力基礎設施建設近年來,圍繞加快算力基礎設施建設應用,我國出臺一系列重要政策舉措,實施一大批重大工程項目。截至目前,從計算設備側看,我國近六年累計出貨超過2091萬臺通用服務器,82萬臺AI服務器,算力總規模達到302EFlops,全球占比33%,增速達50%,其中智能算力保持穩定高速增長,增速達72%。2022年全球計算指數評估報告得出,計算力指數平均每提高1點,國家的數字經濟和GDP將分別增長3.5和1.8伴隨算力經濟的發展,算力技術和人工智能的融合創新讓智能計算中心成為新基建熱點,即專門用于人工智能計算的中心。截至2023年3月,國內有超過30個城市
8、正在建設或提出建設智能計算中心。近年來,我國以“東數西算”工程為牽引,加快推進信息基礎設施建設,提高算力對人工智能、數字經濟等的支撐能力,助力經濟高質量發展。北京市經濟和信息化局北京市通信管理局關于印發北京市算力基礎設施建設實施方案(20242027年)的通知中重點指出大力推動人工智能大模型與自主可控芯片開展適配,提高我國智算產業供應鏈安全性、穩定性和堅韌性。算力基礎設施建設進程加快,如何建設高效、靈活、穩定的算力管理平臺,向下實現算力資源的統一納管,向上為大模型提供算力服務,加速大模型落地實踐。關鍵要素PART 02支持異構算力調度中國算力白皮書(2022)和中國信通院的數據,2021年第四
9、季度,英特爾占據了全球84%的CPU算力芯片市場份額和71%的FPGA算力芯片市場份額,英偉達占據了全球95.7%的GPU算力芯片市場份額。美國政府制裁分為三個層面:1、美國要求英偉達和AMD停止對華供貨高端GPU。2、限制芯片設計人才在華就業。3、限制為大陸芯片企業代工。據統計,近年來國產芯片自給率不斷提升,2019年為30%中國制造2025計劃要求在2025年,國產芯片自給率要達到70%以上。未來的算力中心必定是存量的英偉達GPU和國產的AI芯片共存的模式,因此算力管理平臺必須能統一納管英偉達GPU和國產AI芯片等各種異構算力資源,實現算力的統一分配和調度;優化算力設施建設布局 推動算力結
10、構多元配置,推動不同計算架構的智能算力與通用算力協同發展。完善算力綜合供給體系工業和信息化部等六部門聯合印發算力基礎設施高質量發展行動計劃算力國產化取得顯著成果過度依賴算力芯片進口,依然成為“卡脖子”技術支持跨算力中心調度算力管理平臺需要支撐跨算力集群和算力中心的算力管理和調度;有效整合分散在各個算力中心的算力資源,聚少成多,為大模型的訓練提高算力支撐;動輒百億、千億甚至萬億參數規模的大模型訓練需要大量的算力資源支撐,例如OpenAI訓練GPT-4,在大約25000個A100上訓練了90到100天。百度文心一言4.0大模型也是在萬卡的集群中訓練數十天才完成。國內缺乏超大規模算力集群,單算力中心
11、算力資源有限,無法支撐超大規模大模型的高效訓練;智算中心、超算中心、數據中心、邊緣側都分布有算力資源,無法有效整合,造成資源浪費;算力調度大模型訓練支撐智算中心超算中心數據中心邊緣算力支持多種類型任務調度大模型優勢擁有更多的參數,能夠更準確地捕捉數據中的模式和特征,處理復雜任務的表現更好,能夠實現更準確、自然的內容輸出;通過學習大量數據中的細微差異,能夠更好地適應任務需求,在處理大規模數據集或未見樣本的預測表現更出色;大模型能夠處理更復雜的語言結構,理解更深層次的語義;擁有更大的容量,可以存儲更多的知識和經驗;小模型優勢參數量較少,因此訓練和推理速度更快;占用資源較少,小模型在移動設備、嵌入式
12、系統或低功耗環境中更易于部署和集成,占用資源少,能夠在資源受限的設備上運行;當面對少量標注數據時,大模型可能會因為過擬合而出現性能下降的情況,而小模型通常能夠更好地泛化,提供更準確的結果;在一些特定場景下,效果反而比大模型更好;算力管理平臺需要支持大模型、小模型等多種類型任務的調度;大模型和小模型的結合將成為未來AI產品的重要發展趨勢,也是人工智能應用賦能行業發展的重要方向。支撐算力精細化調度2018年,AWS在AWS re:Invent2018大會曾提及,在AWS上GPU利用率只有10%至30%。2020年,香港IDC新天域互聯公布數據,企業通常僅使用15%至30%的GPU服務器資源。算力管
13、理平臺對任務的精細化調度:算力聚合和單卡共享;算力超分和優先級調度;算力動態分配和調度;實現算力資源利用率的有效提升,發揮算力資源的最大價值,實現降本增效。其他關鍵要素開箱即用的算力服務;提供一些算力模版和服務套件,支持用戶快速使用算力服務;支持對內提供算力服務,對外提供算力運營;算力中心的算力在部分時間處于空閑狀態,支持算力對內提供算力服務,對外提供算力運營;算力的精細化計量計費;在算力運營場景下,支持算力的精細化計量計費,支持包年包月和按量計費等模式,支持任務級、秒級的計費粒度;算力的統一監控運維;支持對算力中心和算力集群的統一監控運維,管理員可以很方便的了解到各個算力中心的健康狀態、資源
14、情況、任務運行情況等信息;算力的租戶隔離;在多組織、多租戶的使用場景下,支持算力在租戶間的分配、限制和隔離;技術方案PART 03云原生是建設算力管理平臺的最佳方案云原生是算力基礎設施建設的核心技術,是發揮算力資源效能的最佳實踐路徑。資源納管以Kubernetes為代表的云原生技術支持大規模資源、異構資源的高效管理和運維,也提供了靈活的擴展方式。應用支撐云原生技術的焦點就是支撐分布式、微服務等應用的編排調度、彈性擴所容、高可用等,因此針對大模型場景下精調/微調任務,大模型服務等都具有很好的支撐。生態成熟云原生技術經過多年的發展已經趨于成熟,在日志監控、權限控制、租戶管理等方面都有成熟的生態系統
15、支撐。主流趨勢云原生技術作為一種公認的技術趨勢已經廣泛被用于算力基礎建設,據統計90%以上的智算中心都采用云原生技術建設。平臺架構算力管理平臺針對智算算力、HPC算力、邊緣算力等算力資源,非侵入式接入異構資源,通過按需分配、精細化管理與調度,為大模型應用、算力運營等提供算力底座支撐。云原生AI平臺針對大模型精調/微調、大模型服務等場景,構建云原生AI平臺,整合分布式訓練、服務部署、數據服務等能力,提高大模型開發部署效率。統一算力門戶基于算力管理底座提供算力資源申請、運行、監控等管理全流程。應用PaaSIaaS云原生算力管理解決方案算力管理平臺云原生AI平臺數據服務大模型服務大模型精調/微調AI
16、資產統一算力門戶算力運營資源申請計費計量任務提交異構算力管理算力接入算力共享和隔離算力池化監控告警多集群管理算力調度租戶隔離大模型應用科學計算應用托管AI工具AI服務應用場景智算中心超算中心數據中心邊緣算力關鍵技術點1-跨算力中心的納管和調度智算集群HPC集群其他集群Proxy日志Agent監控Agent日志Agent監控AgentProxy日志Agent監控AgentKubernetesSlurm節點節點節點節點統一日志統一監控Cluster ManagersK8s Manager SlurmManager.調度器優先級調度執行時間最短調度價格最低調度資源親和調度手動調度.統一計量計量Age
17、nt計量AgentProxy計量Agent云原生算力管理平臺Kubernetes控制集群節點節點節點節點上層控制集群中引入自研調度器,實現將用戶提交的任務調度到對應的算力集群中運行,支持優先級調度、價格最低調度等多種調度策略;Proxy和Manager一一對應,實現任務的下發和底層算力集群的狀態、資源、任務狀態等上報;針對不同類型集群開發對應的Proxy,實現底層集群的差異性屏蔽;智算集群的Proxy與API Server交互,HPC集群的Proxy與Slurm交互,一些自帶管理系統的算力集群(商業系統、公有云等)的Proxy與管理系統的API交互;關鍵技術點2-異構資源納管和調度以云原生技術
18、為核心實現對多種異構資源的統一管理與調度。Device Plugin注冊、管理AI算力卡在社區已經成為事實標準?;贒evice Plugin實現各種異構資源無侵入的注冊和接入;基于Volcano的高性能工作負載調度引擎實現AI、高性能計算等批量計算任務調度和編排管理和調度。調度引擎支持按卡類型調度、資源空閑最多調度、binpack調度、批量調度、資源均衡調度等多種調度策略;基于Queue實現租戶間的資源隔離和資源限制;關鍵技術點3-算力超分和優先級調度集群實際資源低優先級隊列高優先級隊列超分資源干擾檢測內核指標實際資源時延其他指標沖突處理禁止調度恢復調度killthrottle驅逐業務干擾檢
19、測模型支持資源超分,所有隊列申請資源總和可大于集群實際資源總和;基于任務的資源實際使用情況和資源預測,動態計算和調整高低隊列資源大??;當高優先級隊列提交的任務沒有足夠資源運行時,可以驅逐和搶占低優先級隊列資源;構建干擾檢測模型實時監測高優先級任務是否受到干擾,高優先級任務受到干擾時,可以壓制和驅逐低優先級任務;關鍵技術點4-算力資源共享和隔離支持MIG和vCUDA兩種算力資源共享和隔離方式;用戶可針對業務場景和應用類型靈活選擇不同的方式;在CUDA調用層針對業務編程接口進行適配改造,實現算力和顯存的調度API攔截,并基于Schuedler實現調用頻率的控制,從而實現算力細粒度共享和隔離。最小支
20、持以 0.01算力,1MB顯存的 vGPU 供業務使用,透明無感。這種方式不依賴于各個硬件廠商的能力,便于擴展。MIG支持SIngle和Mixed兩個模式的動態配置和調度。調度引擎Kubernetes+Valcano+Extender SchedlerPod1/8 GPUPod1/4 GPUPod1 GPUPod2 GPUGPU0GPU1GPU.GPU DriverGPU節點容器應用GPU0GPU1GPU.GPU節點GPU MIG ManagerCUDAGPU vCUDA ManagerGPU DriverCUDACUDA調用隊列CUDA API 攔截器CUDA調用Scheduler關鍵技術點
21、5-算力資源動態共享容器可使用的算力資源可根據共享同一張卡的其他任務容器的使用情況動態調整;引入limit特性,限制使用上限;引入節點算力資源超分能力,即節點上的容器的算力資源申請總和可大于節點實際資源,CUDA調用Scheduler可根據任務的優先級選擇CUDA調用,在資源發生搶占時,優先調度高優先級任務的CUDA調用,保障高優先級任務的資源需求;GPUGPU vCUDA Manager任務1(申請0.5張,使用0.1張)GPU物理機任務1申請0.5張卡現狀-資源靜態分配任務2申請0.5張卡大部分時間是空閑部分時間段需要整張卡資源靜態分配,有些任務申請的資源大部分時間處于空閑狀態;某些任務在
22、峰值時需要的算力資源會超過申請的量,但是最多只能使用申請的算力資源;算力資源利用率底,但部分任務又存在資源不足的情況;任務2(申請0.5張,使用0.9張)CUDA調用CUDA調用CUDA調用隊列CUDACUDA調用Scheduler選擇CUDA調用CUDA調用GPU DriverGPU調用關鍵技術點6-多卡共享GPU物理機現狀-資源碎片化GPUallocated:70%allocated:50%提交一個新任務,資源申請量為0.6張卡,所有卡的單卡剩余量最大為0.5,因此無法調度。任務(申請0.6張卡)無法調度在算力卡共享的場景下,經常存在算力卡資源碎片化問題;如果單卡的剩余資源量無法滿足新任務
23、的算力資源申請量,新任務將無法調度運行;存在整臺物理機資源很充足,但新任務無法調度的現象,造成算力資源利用率低;GPU vCUDA Manager根據節點上每張卡的可分配量以及新任務的算力資源申請量,自動尋找最優的調度方案;如果有單卡能滿足新任務的算力資源申請量,優先將新任務調度到單卡上,如果沒有單卡能滿足新任務的算力資源申請量,則以碎片化最小原則為調度目標將任務調度到多張卡上;CUDA調用Scheduler根據調度方案,將對應比例的CUDA調用調度到對應的算力卡上;GPU1(allocatable:0.3)GPU vCUDA Manager新任務(申請0.6張)CUDA調用CUDA調用隊列C
24、UDACUDA調用Scheduler選擇CUDA調用CUDA調用GPU DriverGPU調用GPU2(allocatable:0.5)新任務50%的CUDA調用調度到GPU1上新任務50%的CUDA調用調度到GPU2上關鍵技術點7-精細化計費計量支持計費模式:包年包月(裸金屬、虛擬機);按使用量計費(容器);支持的workload類型:argo workflow;volcano job;k8s deployment;k8s job;支持統計的資源緯度:CPU;Memory;GPU;GPU Memory;NPU;NPU Memory;Storage;API ServerCharging Tim
25、er Usersubmit taskdelete taskPromethues Mysql TaskTaskTaskcreateupdatedeleteresource usageresource requestlist/watcheventCheckAccountget all task and eventsget data with PromQL and calculate AccountCharging Timer通過list/watch實現對所有任務的提交、運行、刪除等用戶行為感知,并記錄相應的Event(User、Task、Action、Time)到數據庫中;當用戶查詢賬單時,先查詢
26、指定時間段內的所有任務和任務事件,并拼接成PromQL語句去Promethues中查詢任務的資源使用數據,最終計算出資源使用量數據和賬單數據;針對容器的爆發模式,使用Request和Usage取最大值的方式實現精確計費;Charging Timer模塊會按天進行賬單合并,增加賬單查詢速度;關鍵技術點8-云原生AI平臺一站式大模型應用開發上線體驗支持從數據上傳、數據預處理、數據標注、模型訓練、模型評估到模型部署發布的大模型開發上線全流程;豐富的模型訓練方式支持交互式建模、可視化建模、任務式建模等多種訓練方式,滿足各種場景、各種用戶的需求;支持主流分布式訓練框架支持TensorFlow PS、Py
27、Torch DDP、MPI等主流的分布式訓練框架,支持斷點續訓等能力;一鍵式的大模型精調/微調平臺集成常用的開源大模型,支持用戶基于領域數據一鍵式完成大模型精調/微調;平臺層數據管理數據處理數據集管理在線標注模型訓練算力管理底座模型管理模型倉庫模型優化模型評估模型轉換模型服務在線服務批量服務服務監控交互式建??梢暬H蝿帐浇YY產管理算法庫鏡像庫訓練框架分布式訓練單機多卡訓練斷點續訓Pre-TrainingSFTRLHF擴縮容服務暴露典型案例x86對外運營多集群管理資源池管理配額管理多租戶管理API/SDK算力接入算力管理算力管理平臺權限管理監控中心日志中心容器IaaS:自有、運營商、云廠商
28、通用算力ARMHPC胖CPU胖CPU智算英偉達昇騰其他裸金屬虛擬機算力注冊算力編排調度任務統計資源統計統一認證登錄官網算力商城算力購買計費計量訂單管理充值記錄操作審計某高校面向校內和校外的科研需求建設一個國內領先的算力中心,諧云為該高校計算中心打造的異構資源管理平臺,統一管理高校自有算力中心與來自各類運營商、云廠商等提供的算力資源,實現資源一站式管理與運營,提升用戶體驗。典型案例一體化MLP平臺數據管理數據集管理標簽組管理在線標注數據處理MLOps數據標注數據處理模型構建模型訓練模型部署服務監控算力管理算力多集群管理租戶管理資源池管理資源監控資產管理算法庫樣本庫鏡像庫通用模型場景模型資源層公共
29、數據資源管理系統智算中心組件中心算法廠商應用層基層治理智慧交通智慧城管.通用算力:x86/ARM智算算力:英偉達/昇騰其他配額管理某政府針對算力資源、數據、行業算法模型等資源分散、無法高效利用等問題,聯合諧云建設一體化MLP平臺,實現:實現對全市異構的、分散的算力進行統一納管,并對外為用戶提供算力服務;提供大模型、小模型等全鏈路服務,從數據標注-模型構建-模型訓練-模型服務-服務應用的端到端服務;提供將數據、模型、算法等進行共享,提高資源復用能力;未來展望PART 04算力中間件跨算力類型的鏡像、模型和代碼都要做相應的適配,工作量極大;無法實現真正意義上的異構算力調度,用戶在運行任務時必須指定
30、運行在哪種類型算力資源上;異構算力無法真正融合使用,單一類型算力資源有限,無法支撐大規模任務的運行;現狀-異構算力不兼容GPU物理機GPUNPU物理機NPUGPU訓練模型GPU訓練/推理代碼GPU訓練/推理鏡像可運行不可運行NPU訓練模型NPU訓練/推理代碼NPU訓練/推理鏡像可運行手動適配GPUGPUNPUNPU算力中間件TensorflowPytorchPaddlePaddle.任務容器環境依賴模型代碼CUDACANN研發算力中間件,實現算子指令的自動轉換,屏蔽底層的異構算力,真正做到同一個任務容器可以跨算力類型運行;實現真正意義上的異構算力調度;實現異構算力的池化,支撐大規模任務的運行;跨集群算力池化和調度基于分布式框架將分布式任務切分成多個Task,并調度到不同的算力集群中運行;通過平臺調度引擎實現單一分布式任務跨算力集群調度,實現分散算力集群資源池化,支撐超大規模任務執行;算力集群1算力集群2算力集群N分布式任務調度引擎+分布式框架TasksTasks當前單個應用只支持在單個算力集群中運行;算力集群之間的資源孤島問題依然存在;現狀Tasks.網絡、存儲中間數據中間數據THANKS