《火山引擎:如何利用云原生構建 AIGC 業務基石(2023)(24頁).pdf》由會員分享,可在線閱讀,更多相關《火山引擎:如何利用云原生構建 AIGC 業務基石(2023)(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、山火山引擎開發者社區如何利用云原生構建AIGC業務基石李玉光|火山引擎資深云原生架構師2023/3/26#page#1.什么是AIGC目錄2.云原生機器學習的核心場景Contents3.云原生如何助力AIGC業務4.業界成功實踐2#page#什么是AIGC#page#什么是AIGCAIGC全稱為ArtificiallnteligenceGeneratedContent(人工智能生成內容),是指AI通過海量現存數據(如文本、音頻或圖像)生成新內容的技術。The Four PhasesofContent CreationAIGC著重于內容的生成,而內容生態的發展則可分為四個階段:品5PGC:電視臺
2、、線上專業視頻網站是主要的PGC內容生產方,包括電影、電視劇、紀錄片等UGC:互聯網短視頻如抖音、西瓜、等大都屬于UGC平臺Al-assistedUser-generatedContent:主要由UGC平臺推廣,處于AI輔助生成內容階段,并未進入自AI內容自動生成階段AIGC:自動生成文字、圖片、音頻、視頻,甚至3D模型和代碼單人體驗路合時在我社交愛元家擊期者火山引擎開發者社區#page#5AIGC現狀AI生成文字方面目前AI已經可以設計營銷文案、寫郵件、寫廣告、自動生成代碼等內容。(內容復命度)AI生成圖片已經可以生成專業畫師水平的作品。Al輔助生成作品太空歌劇院擊敗其他純人工作品奪得數字藝
3、術類比賽冠軍。AI生成音頻去年在網上有一段AI生成的對于喬布斯的20分鐘的采訪音頻,在音頻中喬布斯談到自己的大學時代、對計算機、工作狀態和信仰的看法,已經很難區分出真假。AI生成視頻目前AI生成視頻的算法模型還未成熟,也還沒出現一家獨大的局面。不過已經可以做到文字轉視頻、圖片轉視頻、視頻生成視頻三種功能。比如通過文本描述,就可以生成一段情節連貴的視頻。AI生成3D我三身首出回季我三季要我三器8.我Y模型,技術要求比較高,需要懂美術、熟悉3DMAX和Maya等軟件,還需要大量的時間去人工繪制?,F在的技術可以把全景相機拍攝的視頻自動造染為3D場景,減少了人工3D建模的過程?;鹕揭骈_發者社區#pa
4、ge#6AIGC熱點事件太空歌劇院是游戲設計師杰森艾倫的繪畫作品,該幅畫作是Allen使用AI繪圖工具Midjourney生成,再經Photoshop潤色而來。2022年8月,美國科羅拉多州舉辦的藝術比賽中,太空歌劇院獲得數字藝術類別冠軍?;鹕揭骈_發者社區#page#AIGC熱點事件由OpenAI開發的一個人工智能聊天機器人程序,于OpenAI2022年11月推出。使用基于GPT-3.5架構的大型語言模型并通過強化學習進行訓練。GPT-4大型多模態模型(largemultimodalCHATGPTmodel),支持圖像和文本的輸入,并生成文本結果。自動生成文章、生成代碼、自動摘要等在內的多種
5、任務??芍С謭D片輸入,并且可以閱讀圖片和解釋。GPT-4在各種職業和學術考試上表現和人類水平相當?;鹕揭骈_發者社區#page#8AIGC基礎設施挑戰超大鏡像異構資源流程標準化高性能和可擴展存儲CPU系統鏡像和容器鏡像大,容器鏡基礎架構帶來算法結果差異帶寬:單租戶百GB/s的帶寬吞吐GPU,A100、V100為主,A30、像普遍10-20G+,部分容器鏡算法改進T4為輔像40G+,單層30G+,如何復現前人工作結果延退:亞毫秒級延退Nic:TCP/RDMA/Smart管理并對比不同的實驗容量:PB級別的容量Tos、NAS、HDFS數千個計算實例同時訪問的高性能共享存儲火山引擎開發者社區#pag
6、e#AIGC基礎設施挑戰-資源利用率目前NVIDIAGPU在硬件上同一時刻只能運行一個CUDAcontext(通常對應一個進程)10%資源使用20%資源使30%資源使用機型價格(元/年)成本浪費成本浪費用成本浪費22萬Tesla V100 *120萬18萬16萬急需一種能夠提高GPU資源率的QOS方案GPUGPUGPU人驗識別語音識時OCR火山引擎開發者社區#page#10云原生機器學習的核心場景書藝#page#11云原生AI核心場景優化異構資源管理異構工作負載計算資源:如CPU、GPU、FPGA3dmlcS56R存儲資源:TOS、NAS、HDFSPyTorchmxnetTensorFlow網
7、絡:TCP、RDMA優化調度策略統一工作流感知異構資源,優化訓練任務調度,最大化利用計算和帶寬資源。分布式訓練中數據通信帶寬成為限制GPU計算性能的瓶頸容器Kubeflow火山引擎VKEGPU拓撲感知調度,獲取所有節點GPU卡之間的拓撲結構中拓撲信息:NVLINK、PCleSwitch、Numa、RDMA統一管理,統一調度中自動選擇出能夠提供最大通信帶寬的GPU卡組合統一管理異構工作負載火山引擎異構資源訓練框架和訓練任務的生命周期管理,一鍵發起訓練任務CPUGPUFPGARDMAHDFS其它統一標準化的調度任務工作流,保證訓練任務的規模和性能VPO我0DPA持續改善開發運維體驗和工程效率,構建
8、符合用戶使用習慣的MLOps流程#page#12Kubernetes強大的抽象擴展能力Kubernetes云原生操作系統Master強大的抽象能力。良好的擴展和分布式特性ScadulerpuainOpertor高度統一的規范標準Kubernetes可擴展組件SchedulerPlugin:復雜場景的調度的擴展Resource PoolOperator:依據業務場景定制ControllerKubaletKubelatCRI/CNI/CSI:容器運行時、容器網絡、容器存CRICRI儲的擴展標準CNCNDevicePlugin:擴展系統硬件資源SS支持業務類型DevlcaPluginDavcaPlu
9、gi微服務大數據機器學習#page#13云原生如何助力AIGC業務中#page#14火山引擎云原生機器學習把數據科學家和算法工程師從繁雜低效的環境管理、資源分配和任務調度工作中解放出來,把更多的精力留給實際的業務處理。Web頁面OpenAPIPythonsDk交互式命令行Pipeline數據標注開發機Job化訓練在線推理監控離線批量推理(KFP/Cromwe三)AML標準化AI流程訓練框架及加速優化推理引擎及加速優化告警(PyTorch/ Tensorflow / BytePS(Trition/OpenVINOITensorRT/Lego)/veGiantModel / MPI/ Slurm)
10、云原生機器學習Workload(Scheduler+Operator+DevicePlugin)日志容器服務VKE/彈性容器VCI/鏡像倉庫CR云原生底座CRICNICSTerminal異構資源CPUGPUFPGAHDFSRDMAVPCTOS其它P行Q0nA火山引擎開發者社區#page#5資源利用率提升mGPU共享調度mGPU是火山引擎基于內核虛擬化結合自研調度框架提供的容器共享GPU方案,可以按模型的GPU算力和顯存需求量,在容器之間共享GPU,最大限度地占滿GPU資源。Pod 1/8 GPUPod 14GPUPod12GPUPod1GPU彈性伸縮VKE (mGPUScheduler + m
11、GPuDovice Plugin)監控CUDACUDAContainerCUDA ContainerCUDA ContainerContainer分配策略容錯mGPUContainerRuntime(顯存和算力配置)隔離能力自意mGPU虛擬化層,對內核態驅動層(NVIDlAdriver)進行動持運維能力(提供算力、顯存、故障隔離能力)日志GPUDriver可視化GPUOGPU1GPU2GPU3GPU火山引擎開發者社區#page#16資源利用率提升mGPUBinpack/Spread調度通過結合使用PodsBinpack/Spread調度策略,可以在GPU卡的分配密度和高可用之間做一個平衡Nod
12、eNodeNodeGPUGPUGPUGPUGPUGPUGPUGPUMGPUYGPUYGPU1551.1.115GPUGPUGPUGPUGPUGPUGPUYGPUnd9%GPLYGPUYGPUBinpackS#page#17鏡像倉庫服務CR鏡像加速支持鏡像就近拉取、按需加載、鏡像緩存、支持跨地域同步分發,大規模集群拉取支持P2P加速。大鏡像拉取場景按需加載鏡像緩存高并發鏡像拉取場景P2P加速經過優化的默認鏡像PyTorchTensorFlow火山引擎開發者社區#page#18彈性容器VCI彈性容器實例是火山引擎容器服務的核心能力之一,基于MicroVM和Virtualkubelet技術,為用戶提
13、供安全、高效隔離、高性能、簡單易用的Serverless容器服務能力。容器服務VKE66極致彈性秒級彈性伸縮,分鐘級交付上干核資源安全隔離基于MicroVM技術,提供虛擬機級隔離能力消耗更小更高效Virtual Node 1虛擬機Node1Virtual Node 2高性能PODPODPOD基于火山自研軟硬件加速能力,提供更高性能的容器能力PODPODPOD簡單易用PODPODPOD無縫集成于容器服務VKE中,提供全托管serverless能力,即開即用萬山火山引擎開發者社區#page#19存儲優化CloudFS-TOS透明緩存加速GPU K8S PODS豐容器分布式目錄樹服務為平鋪的TOS文
14、件建立目錄樹結構FUSEXGBoostTensorFlowPyTorchClient可支撐百萬QPS,專為小文件優化分布式Blob緩存和GPU機器就近部署緩存WorkerhostPathWorker之間有一個服務發現的機制,不經過負載均衡,和volumeGPU機器直連,提供百Gbps帶寬和亞毫秒級延退保障支持Wammup預熱,解決首個epoch性能問題FUSE ClientiaFUSEClient端可以把分布式目錄樹服務里面的元信息轉成本車Mfle1file2地文件系統接口,以Posix系統的文件接口直接讀寫,無需適Write toCache配TOS/HDFSHotBlockCache本地的C
15、lient緩存,第2個epoch獲得內存級性能file2-blk-0file1-blk-0la/fle1file2-blk-0file1-blk-1solguksla/fle2TOS/HDFSCloudFS火山引擎開發者社區#page#20訓練加速優化一數據通信優化20離線訓練場景中,我們通過引入RDMA技術來加速模型訓練的數據傳輸,從而實現模型訓練的提速。SenderRecotvorLocalApplication LayerLocal ApplicationLayerTCPAIPSocketsSocketsletwor不需要做用戶態和內核態數據的切換LocalTransport Layer
16、LocalTransportLayerLocal NicDriverLocal Nic Driver和拷貝Local NicLocal Nic高CPU消耗應用程序在用戶態可以直接操作IO通過網卡直接把本地數據通過網絡寫ReceiverSender到對端的內存LocalApplcation LayerLocalApplication LayerRDMA節點之間的通信就不需要CPU的參與Local Nic DriverLocal Nic Drver低延退Local NicLocal Nic低CPU消耗高帶寬火山引擎開發者社區#page#21火山引擎云原生服務云原生服務不僅支撐了很多火山引擎的上層服
17、務,也持續支撐了大量內部和外部客戶的各種業務應用負載的穩定運行和各種行業解決方案的落地。行業解決方案生信科學計算pipeline工業云邊協同/數據智能金融DevOps集成/安全零售/電商資源彈性觀測治理域交付運維域Serverless云原生計算引擎應用韌性增強服務流式計算云原生消息引API網關持續交付CPARESFlink版BMQAPIG制品倉庫批式計算云搜索服務函數服務微服務引擎MSE服務網格AMSArtifactsveFaaSSpark版OpanSearch堡壘機大數據文件存儲CloudFSVMP分布式云原生平臺DCP基礎容器域容器服務VKE鏡像倉庫CR彈性容器VCI火山引攀公有云火山引混
18、合云(veStack敏捷版)火山引擎混合云(veStack全棧版)#page#22業界成功實踐#page#23業界成功實踐-火山引擎賦能C端業務快速增長,服務端壓力過大,資源上傳下載需要快速擴容;XX云用戶,資源的運營成本壓力;用戶容器鏡像較多,大部分容器大小在20G左右,少量30G+,模型加載時間長NATVPC網關VKE+VCI、ECS(V100、VKEVCIA30)+TOS+NAS等彈性容器實例GPU云服務器GPU云服務器包年包月資源部分保證常駐業務需求彈性資源部分,保證臨時突發業務需求0??焖贁U容,P及時縮容節約成本CRTOSNAS本地存儲mGPU提升資源利用率AIGC推理平臺鏡速能力,鏡像拉取時間縮短50%+售后服務響應快,服務質量高#page#Thanks火山引擎開發者社區#page#