《2020年終大會-機器學習平臺:13-3.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-機器學習平臺:13-3.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、Data Provider Solution for DLT on Brain+ 曠視科技楊陽 背景 瓶頸分析 解決方案 未來和展望 分享大綱 背景 Deep Learning training (DLT): an important workload on clusters 應用廣泛: Image Classification Object Detection Natural Language Processing Recommender Systems 視覺領域數據密集 ImageNet-1K: 1.28 million images Open Image: 9 million image
2、s 成本昂貴, i.e., GPUs Training the well-known ResNet-50 model on the ImageNet-1K dataset takes more than 30 hours in a cluster Brain+: DLT 的生產力平臺 抽象基礎設施 CPU/GPU/Memory/Storage 研究員友好 而不是工程師友好 工程化 DLT 流程上盡可能節省研究員時間 提供易用而高效的定制基礎設施 核心目標:解放研究員的生產力 問題聚焦 數據供給問題:又快又好的讓模型可以吃到數據 問題特征: 大規模數據集 復雜的 CPU 上數據增廣策略 數據復用
3、明顯 瓶頸分析 ExampleExample WorkloadWorkload Resnet50Resnet50 is a popular vision model Process 10,500 images/sec on 8 Nvidia V100s Goal: Keep GPUs busy and utilize them efficientlyGoal: Keep GPUs busy and utilize them efficiently Remote Remote store store with with several several TBs of TBs of training training datadata 2GB/s ExampleExample WorkloadWorkload Resnet50Resnet50 is a popular vision model