《智能鈦機器學習平臺計算優化實踐.pdf》由會員分享,可在線閱讀,更多相關《智能鈦機器學習平臺計算優化實踐.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊云智能鈦機器學習平臺計算優化實踐騰訊云AI基礎產品中心CONFIDENCIAL MATERIAL FROM TENCENT CLOUD#page#騰訊云一連接智能未來目錄智能鈦產品介紹01產品能力與核心價值TI-TensorFlow優化能力02智能鈦定制版TensorFlow的技術優勢TI-TNN推理技術03TNN模型推理方法介紹CONFIDENCIAL MATERIALFROMTENCLOUD#page#騰訊云連接智能未來智能鈦機器學習平臺介紹二夫速發展鈦(Ti)是一種輕量級、高強度的金屬,也是制造鋼鐵俠飛行戰衣的材料。在人的重要的今天,智能鈦機器學習平臺(TI-ONE)作為騰訊AI戰略
2、發展(TencentIntelligence組成部分,致力于讓廣大用戶擁有如鈦(TI)一般輕量級、高水準的體驗,致力于為開發者提供(THONE)覆蓋整個機器學習閉環的全流程、一站式(ONE)服務,這就是智能鈦機器學習平臺的含義和愿景。#page#開發者訴求分析騰訊云一連接智能未來用戶現狀智能鈦風險大在線服務版本切換灰度發布、流量切換模型效果多版本比對橫型服務調參久模型自動調參、參數/定時運行數據更新算法效果比對超參數調優調優機器學習:分類、聚類、回歸門檻高NLP圖算法圖像算法.尊法深度學習:CNNRNNDNN-PYT6RCH維護繁項內置各框架各版本計算框架Caffe2計算資源、存儲、網絡CPU
3、GPU成本高底層資源效率優化CONFIDENCIAL MATERIAL FROM TENCENT CLOUD#page#智能鈦機器學習平臺能力模型騰訊云一連接智能未來解決方案層(內容審核/金融風控/推薦/搜索.)TI-ONETI-EMS客戶特征產品能力核心價值數據調優模型維護算法開發業務流部署DevOps/CICD處理監控評估管理模型訓練算法集施里式NtM快速交付/標準化系統接入/平臺集成/模型市場服務能力模型管理/支撐計算優化算法優化/框架優化集群管理模型優化框架優化計算優化加速資源的高效利用資源管理彈性資源管理,池化低成本CONFIDENCIAL MATERIAL FROM TENCENT
4、 CLOUD#page#計算優化是永恒的話題騰訊云一連接智能未來f(x,y,z)=h(g(x,y),z)g(i,j)=i+j高級計算圖語言需求:語言越接近人類時候計算效率越低h(p,q)=p*q符合神經網絡的建模,結構化的體現計算過程巨大的神經網絡幾乎不可能用符號公式表達數據流建模神經網絡的研究與開發集中在結構調整經濟價值需求:算力昂貴,人工智能算力機渴成為業務瓶頸有現實商業需求背景計算架構需求Edsoltdso-馮諾依曼架構下存儲帶寬趕不上計算能力的發展通用CPU/GPU與AISC融合,出現AI計算專用能力(INT8/TensorCore)WOPOV1CONFIDENCIAL MATERIA
5、L FROM TENNCENT CLOUD#page#TI-ONE具備業界領先的訓練能力騰訊云一連接智能未來2分31秒!騰訊云創造128卡訓練ImageNet新記錄1業界速度騰訊云速度大Batch收魚機訓終優化能福福視CPU云服務器焦群MLPerf最新發布的訓練性能數據,騰訊云單機8卡Transformer訓練時間比第二名快30%12)MLPe單機8卡V100https:/ MATERIAL FROM TENCENT CLOUD#page#優化實現降本增效的價值騰訊云一連接智能未來騰訊云視頻分類服務,通過使用智能鈦彈性模型推理服務TIEMS,推理服務成本降低62%TIEMS支持自動加速Face
6、bookDetectron框架推理性能1支持動態大小圖片輸入支持模型量化CascadeR-CNN+FPN模型優化前后推理性能對比(images/sec)部分優化貢獻到開源社區212(提升160%)優化前優化后https/ MATERIAL FROM TENCENT CLOUD#page#騰訊云連接智能未來TI-TensorFlow文1、模型編譯優化2、高維動態稀疏特征支持3、混合精度訓練4、量化訓練技術#page#模型編譯優化騰訊云丨連接智能未來,模型的執行可以等效于程序的編譯,因而模型的優化可以借鑒程序編譯的優化方法 TensorFlow Grappler XLA (Accelerated
7、LinearAlgebra) MLIR (Multi-Layer Intermediate Representation)XLA的典型流程如下TensorfowTFZXLAXLAGPUGraphDefClusteringCompiling andExecutionoptimizationsCONFIDENCIAL MATERIAL FROM TENNCENT CLOUD#page#模型編譯優化Ti-TensorFlow騰訊云一連接智能未來XLA支持horovod算子Ti-Tensorflow通過將HorovodAllreduceOp與XLACluster融合,將通信與計算并行,提升了訓練速度,
8、在絕藝圍棋AI訓練場景下,512卡擴展性從72.58%提升至91.32%通過jit_scope自動切分clusterPU空CONFIDENCIAL MATERIAL FROM#page#高維動態稀疏特征支持Ti-TensorFlow騰訊云一連接智能未來,TensorFlow原生靜態Embedding存在的問題。TensorFlow(1.15)embedding:固定大小的tVariable,對業務常用的增刪操作不友好,十分不靈活利用hash_table實現動態Embedding原生大小圈定,增加特征不支持效果1原生算子完全復用mbeddingVector工程量小效果3:侵入小封裝HashTab
9、le(lookup),存儲群疏參數淘達特征只能內存置Tensor(數組索引)封裝查找和插入兩個稀監域隔離算子參數表達分層,插入原生對象表達法代參數CONFIDENCIAL MATERIAL FROM TENCENT CLOU#page#高維動態稀疏特征支持Ti-TensorFlow騰訊云丨連接智能未來動態Embedding動態Embedding機制基于HashTable原理實現,并使HashTable在TensorFlow中可訓練(Trainable)沒有hash沖突,效果更好,內存動態伸縮,單機也能調高維模型,并兼容所有tensorflow原生APIimport tensorflowastf
10、#graphdefinationX,labels=datasethttps:/ MATERIAL FROM TENCENT CLOUD#page#騰訊云一連接智能未來混合精度訓練Ti-TensorFlow如何解決fp16計算造成的精度上的損失?自適應混合精度訓練可解決在超大規模分類網絡億分之一FAR指標下降問題設計混合精度開關和策略,完成時間維度自適應混合精度訓練LRPolicyfrom tensorflow.python.training.experimentalimportmixed_precisionpolicy年用戶調用一個policy,目前提供LossDescendingspeedP
11、olicy#TimeSchedulePolicy和TimeAndLrSchedulePolicy#或者可以根據提供的MixedPrecisionTrainingPolicy類自行創建。AotodotpousouKofoduoTsJdpoxKTTOdstart_step=100,end_step=1000)for-inrange(num_step)#policy判斷當前的狀態是否應該打開混合精度flag=policy.enablemixed_precision(step,loss=loss,#利用RunOptions傳遞配置run_options=tf.RunOptions()run_optio
12、ns.experimental.enable_mixed_precisionflagSess.un(train_op,run_options=run_options)0100CONFIDENCIAL MATERIAL FROM TENCENT CLOUD#page#量化訓練技術騰訊云一連接智能未來低比特量化(quantization)是一種常用的模型壓縮方法NVIDIATESLA P40NVIDIAT4INFERENCINGACCELERATORTENSOR CORE GPUGPU ArchitectureNVIDIA Pascal”GPU ArchitectureNVIDIA TuringS
13、ingle-Precision12 TeraFLOPS+8.1TFLOPSSingle-PrecisionPerformanceINT8130TOPSInteger Operations (INT847TOPS*Tera-Operations perSINT4260TOPSReLU模型量化訓練是指在訓練過程中插入“偽量化節點”,來模擬前向量化帶來的誤差CONFIDENCIAL MATERIAL FROM TENCENT CLOUD#page#量化訓練技術Ti-TensorFlow騰訊云一連接智能未來量化訓練入口import ti tensorflow as tffrom ti tensorfl
14、ow.contribimportquantizeif mode = tf.estimator.ModeKeys.TRAIN:quantize.ti_create_training_graph(tf.get_default_graph()elsequantize.ti_create_eval_graph(tf.get_default_graph()#sess.run().一鍵完成fp32訓練圖fakequantize訓練圖/評估圖切換。無需改動任何訓練代碼!自動完成batch normalization layer fusion:conv+bn-conv_folded,add_folded自動完
15、成quantize_and_dequantize_v3節點插入(fakequant)接口簡單,高效,通用!CONFIDENCIAL MATERIAL FROM TENCENT CLOU#page#量化訓練技術Ti-TensorFlow騰訊云一連接智能未來以Resnet-v1 block為例8Quantization圖優化后的最終圖CONFIDENNCIAL MATERIALFROM TENCENT CLOUD#page#騰訊云丨連接智能未來量化訓練技術Ti-TensorFlow常見模型的INT8加速效果和模型效果(imagenet數據集,NvidiaT4測速)Resnet50-v1和32Int
16、8(Calibration)Int8(QAT)76.55%76.17%76.61%Top1(%6)122.59ms13.27ms14.06msGPU latency(bs=64)Mobilenet-v2132Int8(Calibration)Int8(QAT)71.58%68.73%71.04%Top1(%)GPU latency(bs=64)24.9733ms5.247ms5.655msCONFIDENCIAALMATERIALFROM TENCENTCLOUD#page#跨平臺推理框架-TNN騰訊云一連接智能未來極致平臺性能:pytorchcaffetensorflowmxnet移動端CP
17、UGPU業界領先模型訓練ONNX模型多種計算精度:INT8,fp16,bfp16模型轉換模型解析與轉換極低內存需求:模型內存圖優化低精度優化FP16低精度轉換、INT8后訓練量化模型間內存復用廣泛模型支持:算子編譯優化算子tuning、布局優化、Op融合、計算圖優化TNN推斷支持Pytorch、Tensorflow等主流框架框架80+常用CNN算子高性能Kernel實現高效能內存調度ARM NEONOPENCL內存圖優化異物零接貝優化后第士跨平臺硬件適配METALHiA跨模型內存優化動態內存分配已開源:CPU:ARMV7、ARMV8基于異構計算的統一高性能Kernel接口GPU:NVIDA G
18、PU、Mali、Adreno、ARMGPU硬件架構AppleIntel X86 CPUARMV7ARMVSAARMV3.2MALADRENOAPPLENVIDLA Block Attention ModuleChannelSpatialAttentiorOTLmponC性能數據TensorRTTNN-TRTSpeed upTesla T421.15ms20.08ms5.3%Tesla V10013.37ms17.7%15.74ms#page#TNN-TRT量化模型的支持騰訊云一連接智能未來TensorRTCalibration模式,精度損失不可控Mobilenet-v2132Int8(Cali
19、bration)Int8(QAT)71.58%Top1(%)68.73%71.04%GPUlatency(bs=64)5.247ms5.655ms24.9733msQAT模式精度損失可控,可通過TI-TensorFlow生成QAT模型權重也需要量化,TensorRT當前支持比較有限原始模型TI-TensorFlowQATTNN模型TNN多平臺部署#page#TNN-TRT量化模型的支持騰訊云丨連接智能未來WeightInput通過TensorRTQDQ模式支持QAT模型o量化權重通過Fakelnt8+Scale形式導入DQDQ量化卷積層通過Conv+Q+DQ形式導入ConvQDQTensorR
20、T7.1.3局限僅支持Per-Tensor量化模式QInputQWeightExplicit-Precision模式不支持混合精度Q ConvPo#page#TNN特征檢索加速騰訊云一連接智能未來高維特征檢索的過程容易成為業務性能瓶頸數據輸入前向計算高維特征特征檢索特征檢索通常使用L2及Cosine距離,計算量大高維特征檢索時,面臨維度災難問題,業界主流方法無法多Batch加速常見方法二:乘積量化常見方法一:IVF索引優點:2048B優點:分組有效降低特征存儲空間能有效降低檢索特征數量32FP3缺點:缺點:聚類編號無法有效使用GPU計算能力168需要預聚類,耗時較高效果損失大,且不可控效果損失
21、大,高度依賴于聚類有效性無法多Batch加速#page#TNN特征檢索加速騰訊云一連接智能未來業務挑戰:NVIDIAT4算力(TOPS)300亳秒級時間內完成億級庫檢索,性能和顯存要求十分嚴格2502001億庫(512維FP32特征)對應顯存大?。?00x512x4MB=200GB150低精度算力相比浮點提升巨大,傳統檢索方法無法受益100500FP32INTS INT4口FP6TNNInt4分級檢索FP32+512特征量化為int4,減少顯存占用P32KB/特征多Batch轉換為矩陣乘法,高效計算通過TensorCore加速Int4計算,性能大幅提升NT4512INT4無建庫時間,增刪成本極低NT16256B/特征#page#THANK YOU!感謝玲聽!CONFIDENCIAL MATERIAL FROM TENCENT CLOUD