當前位置：首頁 > 報告詳情

2019年大規模GPU虛擬化技術在訊飛AI業務中的應用.pdf

上傳人：云閑編號：95871 2021-01-01 PDF PDF 28頁 1.01MB

該報告所屬合集： 2019年QCon全球軟件開發者大會-北京站嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/28

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《2019年大規模GPU虛擬化技術在訊飛AI業務中的應用.pdf》由會員分享，可在線閱讀，更多相關《2019年大規模GPU虛擬化技術在訊飛AI業務中的應用.pdf（28頁珍藏版）》請在三個皮匠報告上搜索。

1、大規模GPU虛擬化在訊飛AI業務上的實踐虛擬化團隊負責人目錄訊飛AI業務的發展 GPU虛擬化技術異構資源管理業務落地方案與實踐訊飛AI業務的發展語音識別語音合成人臉識別語義理解場景識別物體識別個性化2018年6月12日識別準確率提高至98%2018年07月14日Blizzard Challenge 十三連冠識別率高達99.4%自然語言各項指標名列前列全球領先的通用物體檢測算法，有效檢測圖像中2萬多種生活常見物體精準識別自然環境下數十種場景個性化定制場景高到171項訊飛AI業務整體架構AI云平臺用戶管理任務接入任務編排個性化管理AI引擎平臺集群管控資源管控個性化系統形成標準協議向下傳遞業

2、務突增，擁有開發者90W+平均日服務量，達40億人次隨之帶來的資產規模擴大，管理混亂資源分配不均勻資源利用率較低成本倍增（尤其是cpu切換為gpu設備后）訊飛AI業務發展痛點2015年 GPU全天平均利用率48.6%目錄訊飛AI業務的發展 GPU虛擬化技術異構資源管理業務落地方案與實踐GPU虛擬化技術-協議傳遞VM/ContaineropenGL/Direct3D RedirectorGuestRPC EndpointopenGL/Direct3DGPU DriverGPU HardwareHosthardware前置api接口內嵌虛擬機/容器Rpc調用傳到命令和參數到內核庫內存

3、庫調用驅動，最終調用硬件設備處理請求GPU虛擬化技術-協議傳遞缺點資源隔離差多次中斷切換，效率差高性能計算下，性能損耗驗證優點無需定制無硬件要求簡單方便小規模壓力下，性能表現較好業務無感知可任意遷移GPU虛擬化技術-設備透傳VM/ContainerGPU DriverPass-through GPUHypervisorGPU HardwareVT-DGuestHostHardwareDMAMMIOIROPCIVt-d技術通過IOMMU實現DMA，使設備地址映射到內存中，供用戶態程序訪問通過MMIO設備實現設備內存空間的直接讀寫設備終端直接傳遞至虛擬機內，實現PCI透傳GPU虛擬

4、化技術-設備透傳缺點獨占資源不宜遷移需要硬件進行支持優點隔離性好性能損耗低于10%Nvidia vGPUVMGPU DriverPass-through VGPUHypervisorGPU HardwareGuestHostHardwareNvidia gpu managerinterfaceschedulervGPUdecodeencodeDMA通過VFIO獲取PCI設備操作權限虛擬化層內嵌GPU管理程序完成資源分配和設備管理硬件層完成GPU的虛擬化，設備按顯存規格切分成不同大小的虛擬設備Nvidia vGPU缺點資源隔離不完全需要硬件進行支持優點一虛多，資源合理利用高性能

5、計算下，性能損耗低于15%可用于各個業務場景，兼容性好GPU虛擬化-模擬設備VMGPU DriverDevice EmulationHypervisorGPU HardwareGuestHostHardwareMdevVFIOVFIO-Mdev FrameworkDriver Interface實現1、基于4.10內核添加GPU驅動程序2、基于VFIO-Mdev生成中間的mediated device3、mediated device提供用戶態的接口，操作Mdev Bus3、通過Mdev注冊管理Pdev和Mdev4、VFIO通過IOMMU管控控制設備IO5、虛擬設備透傳入虛擬機或者容器中GPU

6、虛擬化-模擬設備缺點資源隔離不完全對內核版本要求較高維護難度高，需要進行驅動和內核定制開發性能相較VGPU方案，損失較大優點一虛多，資源合理利用高性能計算下，性能損耗25%可用于各個業務場景兼容性好基于VFIO，可統一設備驅動接口總結協議透傳設備透傳VGPU模擬設備透傳GPU利用率由48.6%提升至72%GPU利用率由72%提升至96%目錄訊飛AI業務的發展 GPU虛擬化技術異構資源管理業務落地方案與實踐異構資源管理GPU節點AgentGPU HardwareRPCcontrol分布式消息中間件APIschedulerDatasetDriver異構資源管理系統IAAS計算

7、系統存儲系統網絡系統PAAS數據系統Web 展示頁面運維系統用戶系統中間件數據庫日志服務異構資源管理ABB任務強烈依賴A任務處理后的數據ACBXABBACBX1、cache任務中綁定同一機器資源3、優先為B任務預留資源2、cache任務中綁定同一機器資源失敗AC B異構資源管理ABAB任務無強烈依賴，但會搶走磁盤或者gpu算力需要分離XAB1、cache中A任務綁定一機器資源2、cache中剔除之前機器列表123423、B從剩于隊列中選擇機器，采用資源均衡模式1345B目錄訊飛AI業務的發展 GPU虛擬化技術異構資源管理業務落地方案與實踐業務落地方案于實踐問題斷點任務批任務調度斷點任務離

8、線任務特點資源大任務集中處理時間長不需要太高的計算能力對資源管控和調度的挑戰存儲壓力大資源占用時間長不易多類型集群調度解決方案分布式存儲分布式任務調度斷點任務離線任務1234任務切分，錄入隊列scheduler分布式存儲blk1blk2blk3blk4blk5blk6GPU(1)GPU(2)GPU(3/d)GPU(4)GPUGPUGPU(3)GPU 深度學習中經常會出現多機多卡的任務，也就是同時會起多個實例，多個實例屬于同一個任務默認調度器是一個一個進行調度的，只會檢查單個實例資源夠不夠，這樣前99個都能成功，最后一個pod調度失敗。這樣就會造成任務跑不了前99個占著GPU不釋放，新的任務無

9、法調度嚴重時整個集群死鎖批任務調度批任務調度-延遲綁定suggesthostIs a batch task?cacheYbind-queuebind-workbindNmutex如果是普通的pod，找到節點后assume就直接bind如果是批處理任務，直接扔到批處理緩存中返回有個協程一直檢查批緩存中是否有成功的task(pod都齊了)成功的task扔進binding隊列，worker取成功的task進行批量綁定綁定時與普通pod互斥Batch-schedule執行流程schedulerschedulerbatchbatchtaskcachetaskcachequeuequeueSuccess

10、assume a podSuccess assume a podRun()RunBind()ListReadyTask()Push()Pop task()原生調度器在預選優選結束后交給Batch-scheduler處理原生調度器中增加集群GPU資源檢查FilterTaskcache中的批任務pod都到齊了扔進Batch隊列Batch隊列取批任務pod進行綁定總結訊飛在資源調度中解決的問題實現6000多張物理，虛擬設備的混合管理和互調實現了在線集群和離線集群的資源動態互調實現了針對離線任務和在線任務的個性化調度需求面臨的挑戰模擬設備的性能優化針對實時計算的調度能力多異構資源的納管，比如FPGA 個性化業務場景對調度和資源管控層面的需求

相關圖表

本文主要介紹了科大訊飛在AI業務實踐中大規模GPU虛擬化的應用。訊飛AI業務涵蓋語音識別、合成、人臉識別、語義理解等多個領域，并取得了顯著成效，如2018年語音識別準確率提高至98%，物體檢測算法在全球領先。但隨著業務發展，面臨資源管理混亂、分配不均、利用率低等問題。為解決這些問題，訊飛采用了GPU虛擬化技術，包括協議傳遞、設備透傳和模擬設備透傳等方法，提高了GPU利用率。同時，通過異構資源管理系統，實現對GPU、CPU等資源的混合管理和動態互調，優化了任務調度。此外，訊飛還針對離線和在線任務特點，設計了個性化調度策略。盡管取得一定成果，但仍面臨模擬設備性能優化、實時計算調度能力、多異構資源納管等挑戰。

"訊飛AI業務如何實現GPU虛擬化？" "如何解決訊飛AI業務中的資源調度難題？" "訊飛AI業務如何實現離線任務與在線任務的個性化調度？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站