《2020年終大會-機器學習平臺:13-1.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-機器學習平臺:13-1.pdf(15頁珍藏版)》請在三個皮匠報告上搜索。
1、CPU Node GPU Node GPU Node CPU Node XIAOMI CloudMl Model Trainnig Model Inference Thetis MIG Grid MPS cGPU vCuda Orion/vir taitech 減少資源浪費 提高集群的GPU任務量吞吐 減少任務排隊時間 實現方式不同 vGPU實現的層次不同 適用場景不同 優點: 上手容易,實現簡單 缺點: 沒有算力以及顯存隔離 適用場景: 測試集群,模擬GPU資源 https:/ 優點: 共用Cuda Context,減少切換時間 實現空間上的并行處理 缺點: 同一個Cuda Context中
2、的任務出現錯誤會互相影響,沒有強隔離 場景:MPI 類任務,小模型任務。 https:/ 優點: 適用于虛擬機,強隔離 缺點: 不適用容器 試用場景: 虛擬化平臺 https:/ 優點: 強隔離,軟硬件支持 缺點: 昂貴、無法兼容老機型、顯存和算力 大小無法定制 試用場景: 新集群、小模型 https:/ 優點: 實現了顯存和算力隔離,可以任意劃分 支持軟隔離 缺點: 影響應用運行時環境 試用場景: 容器平臺 https:/ 優點: 實現算力及顯存的隔離 不侵入應用運行時環境 缺點: 影響Nvidia Driver,維護困難 試用場景: 阿里云 https:/ GPU Node GPU Nod
3、e GPU Node GPU Node GPU Node GPU Node Kubelet GPU Node K8S Master Scheduler GPU 0 Idle GPU 2 Idle GPU 1 Idle GPU n Pod CPUMemory https:/ K8S Master Scheduler GPU Node CPU Node Orion Controller Scheduler GPUvGPU GPU Node GPUvGPU GPU Node GPUvGPU GPU Node GPUvGPU CPU Node CPU Node CPU Node apiVersionapiVersion: v1 kindkind: Pod specspec: Resource: requests: CPU、Mem、 GPU vGPU Pod 1. 應用的服務質量保證 2. 不侵入用