Lightseq：GPU 高性能序列推理實踐.pdf

報告預覽

Lightseq：GPU 高性能序列推理實踐.pdf

編號：29526

PDF 28頁 2.05MB 下載積分：VIP專享

下載報告請您先登錄！

Lightseq：GPU 高性能序列推理實踐.pdf

1、010302CUDA壓縮量化TVM#page#01CUDA#page#項目介紹基于CUDAToolkit，聚焦NLP序列模型推理支持Bert/GPT/Transformer及VAE支持Beam Search/Diverse Beam Search/sampling2019.7上線FP32，2019.09上線FP16，2019.12開源#page#項目背景模型應用廣泛，例如機器翻譯、智能寫作、自動問答等原生深度學習框架，如TensorFlow、PyTorch，秒級延退模型結構收斂，復用性高，研發成本可控簡單易用的CUDA多線程范式、社區成熟ONVIDDIATeamofFour團隊的專業支持#pa

2、ge#優化方法算子多運算融合動態顯存復用層級式解碼計算#page#算子多運算融合TF和LightSeg中的Layer Normalization1mean=tf.reduce_mean(x，axis=-1）b：and rolumean）2variance=tf.reducemean（tf.square（xFFNmean）*tf.rsqrt（varianceepsilon）3norm=（x-Y=Y.Wscale+bias4result=normLNandntemplate ctypenTbias）Y=Y.W+binti=blockIdx.adIdx.xpeubrsu*bLockDfloat va

3、atrixi；odwuso/step8.shared_float s_meanfloat reduce_ref（threadIdxx=0）5sofma_syncthreads（；S=QK/pshared_foat s_var；Custom kernreshap0，KVif（threadIdx.x=）O.KV=X.（WoWxW）+CuBLAS GEMMsvar=rsgrtf（reduce_res/float(blocki.e0sf1onsyncthreads；LNandresldual/step 2.layer norsmatrixi=X=X+XAS*1EA#page#層級式解碼計算Tensor

4、Flow1#1.計算以每個token為結尾的序列的Logprobability2 og_token_prob=tf.nn.log_softmax(logit）#batch_size，beam_size，vocab_size3 log_seq_prob += log_token_prob #fbatch_size，beam_size，vocab_size4 Log_seq_prob = tf.reshape(log_seq_prob，-l，beam_size vocab_size）5#2.為每個序列（batchelement）找出排名topk的token0-0S0S152sn6topk_log_

5、probs，topk_indices=tf.nn.top_k（log_seq_prob，k=K）S20-1S0S1sn7#3.根據beamid，刷新decoder中的selfattention模塊中的key和value的緩存1-0S1S2SnS08refresh_cache（cache，topk_indices）S1S21-1S0snlogitsBatchsize=2存在元余計算，難以并行化，占一次推理延退的30%+beam=2nisvocab sizeA#page#層級式解碼計算LightSeq粗選+精排。粗選過程，遍歷logit矩陣兩次：1.對每個beam，將其logit值隨機分成k組，每

6、組求最大值，然后對k個最大值求最小值，作為一個粗略的topk值，記為Rtopk2.對每個beam，將每個大于Rtopk的logit值，寫入精排隊列24243512粗選-第一次遍歷1586372424351137415865粗選-第二次遍歷直接排序1112223344455678441578精排10#page#性能分析1.矩陣乘法占比80%+，已成推理效率主要矛盾（對比TF僅有25%）。2.緩存刷新在FP32和FP16中分別占比10%和6%，可嘗試降低decoder層數，降低緩存精度等，繼續提升。3.其他運算總計在FP32和FP16中分別占比8%和6%，計算融合收益明顯已逼近優化上界11#pag

7、e#優勢分析：性能高TensorflowTensorflowFasterTransformeFasterTransformerUghtseqLightSeq1412132，（Batchsizehttps:/ TransformerXTurbo TransformersLightSeqhttps: en-deModelBLEU Param/mATransformer參數分布（M）245FTransformer-big28.5812027.730.85Depth-wise22010006ConvolutionalLighweight28.37244-0.2181seq2seq560249-0.10

8、Dynamic28.483027.97-0.61Depth-wise2140LSRALigh-weight28.35227-0.23mEmbeddingAttentionFFNDynamic28.49230-0.0916#page#序列模型壓縮ModelBLEU Param/mA258ATransformerbig30.6929.42古1.27ls+ed(128）+dp01Y50-0.2130.485030.50-0.19W=wW+b層參數共享+變換29.9140-0.78embsharels+ed(256）33emb（6k）27.42-3.27詞向量分解+ap01fn（2048）29.57書

9、-1.1250-0.3612e3d30.3312e6d+dm（768）30.0941-0.60+head（12）302545ls+hierarchicalemb+dp0117https:/arxiv.org/abs/1909.11942#page#量化流程預訓練Fine-tune （QAT）BLEUAModel1Transformer-big30.84-0.09fixedrangeclip30.7530.75-0.09percentageclipQAT30.72-0.12asymmetrical30.75-0.09symmetrical-0.41fixed range clip30.4330.

10、41-0.43percentage clipPTQ30.25-0.59asymmetrical30.41-0.43symmetricalhttps:/arxiv.org/abs/1511.0036318https:f/arxiv.org/abs/1712.05877#page#量化：裁剪+對稱AsymmetricalSymmetrical0.08127Asymmetrical quantization:bound= maxIWeminlIwemaxlqq2=（i-z）S.（i2-z2）.22%-1=5.S2.（i.i2-iz2-i2.z+z.）Wnn=-bound.2n-1-1Symmetri

11、cal quantization:Wemaxboudqq2=(iS）.（i22)=SS2.（i.i）19#page#高效局部量化Training量化所有weights僅量化計算密集型運算Inference20#page#結論LightFastAccurateFLOPs1/4（1019Score-1%（BLEU）Modelsize1/20（MB）2.8120030.930.842.39842.39002.130.830.676001.430.70.63000.730.530.50190470.030.4CompressionCompressionTransformer-big+Quantizat

12、ion21#page#03TVM22#page#背景提升計算密集型運算的性能具備多端部署能力23https:/ seq_lenl - batch token numJ移除paddingtoken填充一定數量paddingtoken，離散化batch_token_num（例如至8整數倍）buildtime，對運行環境+model+量化后dynamicshape，搜索參數并生成執行代碼runtime，執行對應shape代碼預計2020年底開源，歡迎關注5#page#LightSeg應用案例火山翻譯http:/ paper:https:/arxiv.org/abs/2010.13887CSDN分享：https:/ you28

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后，可能會被瀏覽器默認打開，此種情況可以點擊瀏覽器菜單，保存網頁到桌面，就可以正常下載了。
3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮，下載后原文更清晰。

本文（Lightseq：GPU 高性能序列推理實踐.pdf）為本站（X-iao）主動上傳，三個皮匠報告文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對上載內容本身不做任何修改或編輯。若此文所含內容侵犯了您的版權或隱私，請立即通知三個皮匠報告文庫（點擊聯系客服），我們立即給予刪除！

溫馨提示：如果因為網速或其他原因下載失敗請重新下載，重復下載不扣分。

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站