2020年WaveSummit深度學習開發者峰會嘉賓演講PPT資料合集.rar

編號:97265 RAR 92.06MB 下載積分:VIP專享
下載報告請您先登錄!

2020年WaveSummit深度學習開發者峰會嘉賓演講PPT資料合集.rar

1、?n?n?n?nNeural Network Architecture Searchn?n?n?n?n?-?n?n?n?n?n?nPaddlePaddlenPARL?n?n?nfrom scratch?n?n?n?layer/op?n?nReinforcement Learningn?RNN?LSTM?n?AutoDL?+?nLSTM?nfc+multinomial-id?nfc+bernoulli-?n?n?n?id?n?n?id?n?n?nEarly stop(b)Reduction Cellc_k-1c_k-2c_k3201skip_connectskip_connectsep_conv

2、_3x3sep_conv_3x3sep_conv_3x3c_k-2c_k-12130c_kmax_pool_3x3max_pool_3x3(a)Normal Celldil_conv_3x3skip_connectskip_connectskip_connectskip_connectskip_connectdil_conv_3x3skip_connectskip_connect?n?CIFAR10?6?n?97+%n?98%?nPaddlePaddle+PARLn?demo?1?CIFAR10?0.10.20.30.40.50.60.70.80.91120395877961151341531

3、721912102292482672863053243433623814004194384574764955145335525715906096286476666857047237427617807998188378568758949139329519709891008AutoDL?n?PaddlePaddle?PARLn?PaddlePaddle/AutoDLn?MNIST?CIFAR10?n?n?nRNN?n?cell?n?n?n3*3?1*3?3*1?n?n?THANKSPaddle Fluid?batch?batch?batch sizeBatch?epochEpoch?Shuffle

4、?Random Crop?Flip?Mnist?16?28*28*1bytes?0,255?8?1byte/per image?0,9?n?60000?n?http:/ Fluid?reader?batch?Paddle Fluid API?Feed?py_reader?Executor:Run()?Mnist?reader?Reader?Python?(generator)?yield?reader?Paddle?Mnist Reader API?Mnist?reader?reader?shuffle?reader?paddle.batch?batch?reader?shuffle?read

5、erSample 1Sample 2Sample 3Sample 4Sample 5Sample 6Sample NSample 6Sample 3Sample 1Sample 5Sample 4Sample 2Sample KBatch 1Sample 6Sample 3Sample 1Batch 2Sample 5Sample 4Sample 2Paddle C+BackendExecutor:Run()?reader?shufflebuf_size=6Shuffled reader?batchbatch_size=3Data feeder?py_reader?Batch readerFe

6、ed?reader?data feeder?Paddle?Tensor?https:/ layer?data layer?2.?data feeder?3.?DataFeeder.feed()?batch_reader?paddle?Tensor?py_reader?Python?Paddle backend?Python?Paddle Python FrontendBatch readerPython?Paddle C+Backend?Executor:Run(.)Queue:Push()Queue:Push()?feed?py_reader?feed?API?1.?py_reader?ca

7、pacity?shapes?dtypes?feed?data layer shape?dtype?2.?read_file?read_file?py_reader?read_file?feed?data layer3.?reader?reader?py_reader?4.?py_reader.start()?Python?py_reader.reset()?epoch?C+Backend?EOF?py_reader.reset()?py_reader?epoch?Loss?.?softmax?X?Y?softmax?W?b?yi=!#$%&(wijxj+bi)j!#$%&(i)=jexyexy

8、?+1?1.?W?012783+1net0net1net9!#$%&y0y1y9?bhttp:/paddlepaddle.org/http:/paddlepaddle.org/Dataconv2dpool2dconv2dpool2dfccross_entropyLabellossavg_lossReluReluDataconv2dpool2dconv2dpool2dfccross_entropyLabellossavg_lossReluRelu?Fluid?loss?cross_entropy,linear_chain_crf,bpr_loss,edit_distance,warpctc,di

9、ce_loss,mean_iou,log_loss,huber_loss?loss?cross_entropy:soft_label=True:soft_label=False:Dataconv2dpool2dconv2dpool2dfccross_entropyLabellossavg_lossReluReluFluid?SGD,Momentum,Adagrad,Adam,Adamax,DecayedAdagrad,Ftrl,Adadelta,RMSProp,LarsMomentum?fluid.Programstartup_program?main_program?n?fluid.defa

10、ult_startup_program()?n?GPU?place?fluid.CUDAPlace(0)?startup_program?main_program?n?fluid.Executor()?run()?fluid.Program?n?run(feed=.)?run(fetch=.)?startup_program?main_program?Dataconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2dconv2dpool2

11、dData?nFluid?Program?n?Program?Program?fluid.Executor?n?GPU?export CUDA_VISIBLE_DEVICES=0,1,2,3?:fluid.default_main_program()-compiled_programhttp:/paddlepaddle.org/THANKSPaddle Fluid?ProgramPython API?CPU/GPU?Runtime?Runtime?API?Runtime?API?CV?NLP?API?API?VariablesOperatorsLayersControl FlowExecuto

12、rSaveRestoreBlockBlock.Layer.Variable.ProgramnProgram:?Variable?Layer?fluid.default_startup_program()fluid.default_main_program()nLayer:?layer?operator?Layer?Variable?Layer?out=fluid.layers.relu(x)out=fluid.layers.fc(input=x,size=1000,act=tanh)nVariable:?Tensor?Variable?Layer?Variable?Variable?var=l

13、ayers.fill_constant(shape=1,dtype=int64,value=5)nExecutor:?Program?Executor?Program?feed?Program?fetch_list?x+y=z?Compile TimeRun Time?CRIM?ZN?25,000?INDUS?CHAS?Charles River?1=?0=?NOX?RM?AGE1940?DIS?5?default_main_programblock_0import paddle.fluid as fluidvarsopsx=fluid.layers.data(name=x,shape=13,

14、dtype=float32)xy=fluid.layers.data(name=y,shape=1,dtype=float32)yy_predict=fluid.layers.fc(input=x,size=1,act=None)fc_0.tmp_1fc_0.b_0mulelement_addfc_0.tmp_0fc_0.w_0avg_cost=fluid.layers.mean(name=mean,x=cost)mean.tmp_0meancost=fluid.layers.square_error_cost(name=cost,input=y_predict,label=y)cost.tm

15、p_1cost.tmp_0element_subsquarevarssgd_optimizer=fluid.optimizer.SGD(learning_rate=0.001)sgd_optimizer.minimize(avg_cost)lr_1lr_0fc_0.tmp_0GRADfc_0.tmp_1GRADfc_0.w_0GRADfc_0.b_0GRADcost.tmp_0GRADcost.tmp_1GRADmean.tmp_0GRADmean_gradsquare_gradelement_sub_gradelement_add_gradmul_gradsgdsgdTHANKS?P?I?P

16、?A?P?PaddleHubResNetMobileNetSSDNASNetERNIEBERTLACSentaCommandLine ToolFinetune API?-?F?F?10000+GPU Hours?Paddle Model?10?+5?pip install paddlehub?.?.?.?.?Output Tensor 1Output Tensor 2Output Tensor 3?Input Tensor 1Input Tensor 2Input Tensor 3DataFeeder?1?-?1?-?1?+?-0?dataset=hub.dataset.ChnSentiCor

17、p()reader=hub.reader.ClassifyReader(dataset=dataset,vocab_path=module.get_vocab_path(),max_seq_len=128)Dataset?input_ids12340567position_ids00000000segment_id11111100input_maskClassifyReaderTokenizerCLSSEPPADPADText:?Label:1?ClassifyReaderSequenceLabelReaderinput_idsposition_idssegment_idsinput_mask

18、ERNIE/BERTCLST1T2TnPaddleHub?Text Classification TaskSequence Labeling Taskpooled_outputsequence_output?1?2?.?CFTRCFTRA?CF?A?N?_?B?(?W?W?A)?DA?DA?L?_?S?D?$visualdl-logdir=/path/to/log/?PaddleHub?./?0?1?:?THANKSPaddleNLP?N L P?2?2?+?9?0?NLP?NLP?NLP?NLP?More?NLP?Flexible?NLP?Performance?BERTELMoErnie?

19、(?)?10?NLP?4?NLP?3?PaddleNLPBiLSTM?TextCNN?ERNIEBOW?CNN?LSTM?GRUBiGRU-CRF?ERNIEBOW?CNN?GRU?LSTM?MMDNNTransformerBiDAF?BERT10?NLP?4?NLP?(ERNIE)?TextCNN76.8%BERT78.6%ERNIE80.6%BiLSTM91.8%BERT94.3%ERNIE95.4%BiGRU-CRF88.0%BERT90.2%ERNIE92.0%?DuReader30?150?SQuAD10?2?12?360?paddlepaddle.org/paddlenlpTHAN

20、KS?Neural NetworkForwardBackward?Parameter Server?-?CPU&GPU?CPU&FPGAPipelineAPipelineBdata shard A data shard Bdata shard X?data shard Adata shard Bdata shard X?data shard Adata shard Bdata shard X?n?GPU?n?n?n?CPU?n?n?DataAGPU1DataBGPU2DataCGPU3DataDGPU4Gradient/Parameter SyncCollective ModeParamete

21、r Server ModeWW?&?n?n?n?&?n?n?n?ProgramDistributedProgramProgramServerProgramWorkerProgramProgramCollectiveProgramQuery=?User Id?News Id?Video Id?News Tag?User Id-News Id?T?Embedding Representation?T?DNN?&?WWPaddle?n?n?nIO?&?n?n?CPU?n?Worker?Hogwild!Training ThreadsAggregate and sendgrad to serverPu

22、sh GradientsPush GradientsFF/BP OpSExecutionPu11 SparseParameterData FeedingData ShardAsync commAsync readFF/BP OpSExecutionPu11 SparseParameterData FeedingData ShardAsync commAsync readDense ModelParameterIn Global ScopeSparse ModelParameterIn Thread ScopePul1DenseParaneterKey-Value Table orn Each

23、NodeAuto Growwth?KV?Baidu-rpcsupportedKeyValue?MLP?140M?180M?1k?117Multi-Field MLP?ReLU-32ReLU-128ReLU-256ReLU-1024Emb SumEmb SumEmb SumEmb Sum?0204060801001node*10threads25nodes*10threads50nodes*10threads100nodes*10threadsbatch=32batch=128batch=512?CTR?CTR?0400000800000120000016000001node*10threads

24、25nodes*10threads50nodes*10threads100nodes*10threadsbatch=32batch=128batch=512PaddlePaddleK8S?:https:/PARL?PARLGood Weather Today!Wanna go out for a walk?DRL?n?RL?n?Trick?DRL?n?RL?RL?nGitHub?10000+?DRL?PARL?n?DRL?n?DRL?SimulatorObservation(!)#(%&,(&=*+)#(%&,(&=-./0)#(%&,(&=1230)#(%&,(&=5678)Q Networ

25、k(#9)Action(&Trajectory&Feedback:&TrainingReplay BufferUpdating Network(!)Target Network(!#)SynchronizingLoss Function$(&)=)+,(-.,0,+2,4max8-#.,0 GradientStep 2:?Updating?&Target?def deep_q_net_update(image):conv_1=fluid.layers.conv2d()conv_2=output=fluid.layers.fc()return output,varsdef deep_q_net_

26、target(image):Step 3:?,?Program#Train programupdate_q,update_vars=deep_q_net_update(image)target_q,target_vars=deep_q_net_target(image)max_target_q?fluid.layers.reduce_max(target_q,)max_target_q.stop_gradient=Trueloss=fluid.layers.square_error_cost()#Test program#Synchronizing Programfor i,var in en

27、umerate(update_vars):sync_ops.append(fluid.layers.assign(update_varsi,target_varsi)Step 1:?def get_input():return fluid.layers.data(name=state,),fluid.layers.data(name=action,),fluid.layers.data(name=reward,),Step 4:?Replay MemoryClass ReplayMemory(object):def push():def sample_batch():Step 5:?rpm=R

28、eplayMemory()while():action=next_state=rpm.push()if train_step%synchronizing_interval=0:#?synchronizing?=rpm.sample_batch()#?Step 1:?from parl.algorithms import DQNalgorithm=DQN()cost=algorithm.define_learn()if():algorithm.sync_target(self.gpu_id)Step 2:?Updating?Step 3:?AlgorithmStep 4:?ReplayMemor

29、y?Model,Agent,Algorithm?RL?Simulator?State-Action?Agent?(Q-Learning,DDPG,PPO?)?/?APIdefine_learndefine_predictsync_targetAlgorithm?Policy?Value?PARL?Layer Wrapper?ModelActorLearner?classLayerFunc(object):def _deepcopy_(self,memo):target_q=copy.deepcopy(update_q)algorithm.sync_params_to(target_q,)?de

30、fremote_class(cls):class ClientWrapper(object):def as_remote(self,server_ip,server_port,remote_ip=None,remote_port=None):#?self._connect_server()#?reply_thread=threading.Thread()reply_thread.setDaemon(True)reply_thread.start()?parl.remote_classclassActor(object):def sample(self):return sample_dataac

31、tor=Actor()actor.as_remote()Remote_manager=RemoteManager(port=)while True:remote_actor=remote_manager.get_remote()batch=remote_actor.sample()ActorActorActorData ServerLearnerCPU ClusterGPUTraining dataSimulatorSimulatorSimulatorSimulatorActorMemoryLearnerBottleneckTraining data?PARL?Ray-RLLib(UC Ber

32、keley)?RL?,?NeurIPS 2018 AI for Prosthetics Competition-Champions SolutionTop-3 Teams3rd2ndOurs9947.0969949.939980.46Cumulative RewardQ valueQ valueQ valueDenseDenseDenseDenseDenseDenseObservatioActionControlCommandActionActionActionDenseDenseDenseDenseDenseDenseObservationControl CommandCritic Netw

33、orkPolicy Network?Rllib?mean_episode_rewards?IMPALA?P40GPU+24?CPU?40?CPU?8?python3.5+paddle1.3.01hBreakoutNoFrameskip-v4538?582?426?495BeamRiderNoFrameskip-v43181?5308?4411?3819SpacelnvadersNoFrameskip-v4843?977?1516?1266QbertNoFrameskip-v410850?19680?15611?17538BufferWorkersEnvPolicyEnvPolicyEnvPol

34、icyEnvPolicyEnvPolicyLearnersPolicy-Lag CorrectionTrainSynchronizingValuePolicyIMPALA?PARL?IMPALA?PARL?Feature&?1.02019.01DQN,Double DQN,Policy Gradient,Proximal Policy Optimization,Distributed DDPG1.12019.04A2C,GA3C,IMPALA,?1.2In PlanningEvolutional Learning,World Model&Planning,Learner?THANKS?Padd

35、lePaddle?T?End-to-end?Flying Cards3D CNN,TSN/TSM(C3D,I3D,P3D,Non-local)Two-Stage?2D CNNLocal Feature Integration(LSTM,AttentionCluster,)Flying Cards?:10?+?110?110?1?l?inference?l?TSN?2D-CNN?Kinetics-400Top-1local?0.67Non-Local?Kinetics-400Top-1local?0.62?0.74?StNet?Kinetics-400Top-1local&global?0.69

36、TSM?Kinetics-400Top-1local?0.70Attention LSTM?RNN?Youtube-8MGAPglobal?0.86Attention Clusters?Youtube-8MGAPNO?0.87NeXtVLAD2nd-Youtube-8M?Youtube-8MGAPNo?0.87ConvNetConvNetConvNetSegmentalConsensuslTemporally sample several snippets lAverage predictions of these snippetsPixels should be related with e

37、ach other in the spatial-temporal spaceTxHx W?10241x1?1T x H x W?512THW?512SoftmaxTHW?512T x H x W?512THW?512T x H x W?512THW x THWTHW?512T x H x W?512:1?1?1:1?1?1g:1?1?1T x H x W?1024ZXFacebook?self-attention?Temporally sampling“super-images”2D-Conv on super-images for local S-T modelingStacked 3D/

38、2D-Conv blocks for global S-T modelingTemporal 1D-Xception for long term dynamic modeling N 1 2 T?3N?H?WConv1Res2Res3Res4TemporalModellingBlockTemporalModellingBlockRes5AvgPoolReshapeT?Ci x Hi?WiReshape1?Ci?T?Hi?WiConv_3d(Ci,(3,1,1),1)BN _3dReLUReshapeT?Ci?Hi?WiT?CTemporal Xception BlockFCActivityNe

39、t2018?single?AAAI19?VideS1S2N SegmentsSNSampleN FramesFrames2D ConvChannel CFeature MapTemporal TTemporalShift2D ConvIdentitylTemporally sample several snippets lExchange part of channels among nearby snippetsl2D Conv to accomplish 3D spatial-temporal modelingTSN?SOTAActivityNet17?single model?Sigmo

40、idFC4096FC8192AttentionConcatenateAttention.Concatenate.Bi-directionalSequence Model.RGBAudioBidirectional LSTM+Self-attention PoolingRGB Attention ClusterConcatenateFlow Attention ClusterConcatenateAudio Attention ClusterConcatenateConcatenateFully ConnectedSoftmaxLocal FeaturesAttention UnitsSingl

41、e Attention Unitwith Shifting OperationSingle OutputShifting OperationSummationMulWeightingFunctionLocal Feature SetCVPR18?local feature sequence?channel?group,?End-to-End learnable VLAD encoding?Group?Squeeze-and-Excitation?Per-Channel AttentionNNFCCKNGKNGHvideo-levelclassifierFCGNKFCsoftmaxgk(.)FC

42、softmaxgk(.)GNYoutube-8M 2018?single model?l?inference?l?Youtube-8M,Kinetics?https:/ scripts/test/test_stnet.sh?bash scripts/test/test_stnet.shhttps:/ MobileNet?3D-CNN?feature?topK?gap?C+API?TensorRT?l?inference?l?GAN?Q2Q3Q4THANKS森林里的深度學習應用森林里的深度學習應用紅脂大小蠹目標檢測半小時源于產業實踐的開源深度學習平臺PaddlePaddlePaddlePaddl

43、e模 型 庫PaddlePaddle全景開發動態圖靜態圖訓練大規模分布式訓練工業級數據處理預測Paddle ServingPaddle MobilePaddleSlim安全與加密PaddleRecPaddleNLPPaddleCV核心框架工具組件VisualDL 訓練可視化工具PaddleHub 遷移學習PARL 強化學習EDL 彈性深度學習計算EasyDL 零基礎定制化訓練和服務平臺 AI Studio 一站式開發平臺服務平臺AutoDL Design 自動化網絡結構設計PaddlePaddle全景模 型 庫PaddlePaddle全景開發動態圖靜態圖訓練預測Paddle MobilePad

44、dleSlim安全與加密核心框架工具組件EDL 彈性深度學習計算EasyDL 零基礎定制化訓練和服務平臺 AI Studio 一站式開發平臺服務平臺PaddlePaddle全景PaddleHub 遷移學習PaddleRecPaddleNLPPaddleCV大規模分布式訓練工業級數據處理VisualDL 訓練可視化工具Paddle ServingAutoDL Design 自動化網絡結構設計PARL 強化學習開發訓練預測工具服務PaddleNLP視頻識別工具集語義匹配組網集 SimNet,DAM分割組網集 ICNet,DeepLab v3+官方支持60+主流模型PaddleRecPaddleNL

45、PPaddleCV關鍵點檢測人臉檢測字符識別圖像生成對話生成閱讀理解詞法分析機器翻譯情感分析語義表示 ERNIE,BERT,ELMo語言模型 LSTM,GRU大規模CTR預估排序組網集 Deep Interest Network,DeepCTR,GRU4Rec,GNN候選召回候選標簽官方支持60+主流模型VGG,ResNet,SE-ResNeXt,Inception v4,MobileNet分類組網集Fast R-CNN,Faster R-CNN,Mask R-CNN,SSD,YOLO v3檢測組網集視頻分類任務層算法層全面豐富/靈活插拔/工業級效果PaddleNLP基于PaddlePaddl

46、e 打造的面向工業應用的中文NLP工具集,最懂中文PaddleNLPPaddleNLP應 用 任 務 層基 礎 網 絡 層序列標注組網集語義匹配組網集語言生成與復雜任務組網集文本分類組網集語義表示(含預訓練模型)BERT ERNIE ELMo語言模型組網集文本情感分類對話情緒識別閱讀理解機器翻譯對話模型工具箱中文詞法分析短文語義匹配語言模型知識驅動對話ERNIE 中文NLP任務表現全面領先Enhanced Representation through kNowledge IntEgration哈爾濱冰雪Learned by ERNIE XXX是黑龍江的省會,國際XX文化名城Transforme

47、r任務名稱自然語言推斷任務語義匹配任務命名實體識別任務情感分析任務檢索式問答任務數據集XNLILCQMCMASK-NERChnSentiCorpNLPCC-DBQA評估指標準確率準確率F1準確率MRRF1BERT77.20%87.00%92.60%94.30%94.60%80.80%ERNIE78.4%87.4%93.8%94.3%95.1%82.7%BenchmarkERNIE 中文NLP任務表現全面領先PaddleNLPPaddleNLP共享骨架代碼/視頻識別模型種類齊全/一鍵式任務啟動視頻識別工具集覆蓋主流實用的序列建模算法與端到端視頻識別模型,高效配置模型完成訓練和評測PaddlePa

48、ddle 視頻識別工具集PaddlePaddle 視頻識別工具集stNetActivityNet 2018 最佳single model,AAAI 2019,融合局部與全局的時序模型Attention Cluster CVPR 2018,引入不同模態的不同注意力聚合模型,更好捕獲特征間的組合關系Attention LSTMActivityNet 2017最佳single model,更穩定的時序模型TSN經典網絡結構,首次引入序列信息到視頻分類,證明序列信息有效性Non-LocalFacebook首次提出的時空非局部建模,引入類似self-attention機制,效果好,計算量大TSMTSN改

49、進版,簡單高效,計算簡單,當前的SOTANeXtVLADYoutube-8M 2018最佳single model,弱化時序關系,適合建模短視頻核心業務應用核心業務應用視頻自動分類 可全免人審 視頻語義向量 推薦/搜索模型效果顯著提升視頻標簽集 top5準確率達 96%百度 Feed流 百度搜索 百度云 VCA 系統 模 型 庫PaddlePaddle全景開發訓練預測PaddleRecPaddleNLPPaddleCV核心框架工具組件VisualDL 訓練可視化工具PARL 強化學習EDL 彈性深度學習計算EasyDL 零基礎定制化訓練和服務平臺 AI Studio 一站式開發平臺服務平臺Au

50、toDL Design 自動化網絡結構設計PaddlePaddle全景PaddleHub 遷移學習動態圖靜態圖大規模分布式訓練工業級數據處理Paddle ServingPaddle MobilePaddleSlim安全與加密開發訓練預測工具服務大規模分布式訓練工業級數據處理多機多卡/大規模稀疏參數服務器/K8S生態支持基于工業實踐打造業界最強的超大規模并行深度學習能力分布式訓練分布式訓練 Benchmark分布式訓練 Benchmark40003000200010000 1Gb/sResNet50 BaselineResNet50 Bandwidth-EfficientResNet50 on

51、4 x 4 v100 under different bandwidth8Gb/s1000Gb/s1000Gb/s with IB60004500300015000 1x1FP321x82x84x8FP16ResNet50 on ImageNet with FP32 and FP16個性化點擊率預估任務在不同并發資源下的單位時間吞吐量對比 個性化點擊率預估任務在不同Batch下的加速比對比16000001400000120000010000008000006000004000002000000 1node*10threads25node*10threads50node*10threads100

52、node*10threadsbatch=32batch=128batch=512縱軸:樣本總吞吐/s橫軸:節點數x工作線程數100908070605040300 1node*10threads25node*10threads50node*10threads100node*10threads縱軸:加速比橫軸:節點數x工作線程數2010分布式訓練 Benchmark分布式訓練 Benchmarkbatch=32batch=128batch=512大規模稀疏參數服務器大規模稀疏參數服務器異步高并發Worker線程級的異步IO、異步計算、異步通信高并發Server和參數退場機制高性能通信庫-BRPC模

53、型參數分片稀疏模型參數退場機制百度Feed流百度商業推廣系統已經過百度內核心業務驗證:超大規模數據海量特征&自膨脹高頻率模型迭代解決的問題工業級數據處理工業級數據處理技術優勢分布式文件系統IO支持分布式樣本Shuffle高性能多生產者-多消費者設計多種語言IO組件的靈活嵌入30000750001threaddatasetIMDB數據不同線程數下的吞吐量2thread3thread4thread5thread6thread7thread8thread9thread10thread1500022500模 型 庫PaddlePaddle全景開發動態圖靜態圖訓練預測Paddle ServingPadd

54、le MobilePaddleSlim安全與加密PaddleRecPaddleNLPPaddleCV核心框架工具組件VisualDL 訓練可視化工具PaddleHub 遷移學習PARL 強化學習EDL 彈性深度學習計算EasyDL 零基礎定制化訓練和服務平臺 AI Studio 一站式開發平臺服務平臺AutoDL Design 自動化網絡結構設計PaddlePaddle全景大規模分布式訓練工業級數據處理開發訓練預測工具服務軟硬一體推理引擎Benchmark模型壓縮 PaddleSlim服務端部署 Paddle Serving底層硬件GPUCPUNVAMDCambriconIntel推理引擎工具

55、PaddleSlim 安全與加密軟硬一體方案部署手冊PythonJavascript多語言支持方案與服務Paddle ServingPaddle Mobile硬件加速庫端到端全流程部署方案端到端全流程部署方案habanna華為DSPC+ARM服務端移動端CPUGPUMaliAdrenoMetal高速推理引擎 Benchmark高速推理引擎 Benchmark本測試基于PaddlePaddle v1.4.0版本,GPU P4,單卡,CPU E5-2650 v4,8線程,batch_size=1。warmup10次,運行10次取均值。https:/ 806040200ResNet50ResNet1

56、01MobileNet v1MobileNet v2PaddlePaddle主流實現GoogleNetBenchmark on CPU E5-2650(ms)107.552.50ResNet50ResNet101MobileNet v1MobileNet v2GoogleNetBenchmark on GPU P4(ms)PaddlePaddle主流實現本測試基于PaddlePaddle v1.4.0版本,采用android ndk r16交叉編譯,gcc 4.9,enable neon,ABI:armveabi-v7a with neon-mfloat-abi=softfp/armv8。1線

57、程,warmup10次,運行10次取均值。https:/ v1 INT8 model on ARM Latency(ms)-v84060801001201401604003002001000麒麟960高通835rk3399高通653PaddlePaddle主流實現1高通625MobileNet v1 FP32 model on ARM Latency(ms)-v8主流實現2主流實現3高速推理引擎 Benchmark高速推理引擎 BenchmarkPaddlePaddle主流實現1主流實現2完備的在線服務能力/Built-in模型服務支持/硬件設備可擴展模型訓練到上線無縫銜接Paddle Ser

58、vingPaddle Serving 架構圖Paddle ServingPaddle ServingBuilt-in模型服務支持 圖像分類 文本分類Paddle Serving 技術優勢百度產品線驗證 百度商業廣告系統 百度Feed流完備的在線服務能力 單服務多模型 多版本模型A/B Testing 模型熱更新硬件設備可擴展 CPU GPUUser Defined Input MessageClient Configuration ManagementA/B TestingRPC Proto Parserrun-timeofflineDAG ExecutorServer Configurati

59、on ManagementDAG ParserRPC Proto ParserBRPC ServiceServing Operator Base Built-in Op/User-Impl OpEngine Base CPU/GPUInference EngineClientServerClient SDKPredictors ParserInference Engine Conf參數集中管理/模型自動壓縮/兩行python代碼調用自動化模型壓縮模型壓縮工具庫,能夠在精度損失較小的情況下高效進行模型體積壓縮PaddleSlim兩行python代碼調用自動化模型壓縮剪枝量化蒸餾PaddleSli

60、mPaddleSlimSensitive Filter Pruning多種模式int8量化訓練多種Loss 任意組合活體檢測模型 人臉檢測模型 人臉屬性模型 PaddleSlimPaddleSlimDynamic QuantizerStatic QuantizerStructure PrunerFSP distillerL2-loss distillerGraph C+APISensitivePruner StrategyQuantization StrategyDistillation StrategyUniformPrune StrategyProgramFCFusePass(C+)Gra

61、ph WrapperPruneParamPass(python)ConvBNFusePass(C+)FSPDistillationPass(python)FCFusePass(python)ConvBNFusePass(python)SoftLabel distiller人臉對齊模型 人臉識別-71.76%蒸餾+int8量化訓練剪切+int8量化訓練+1.10%-86.47%-1.71%精度模型大小MobileNet v1 on ImageNetCore:Compressor?D?B?N?L?C?F?+?+?+?+?+?+?(?2?2?2?+?+?+?2?2?(?2?2?(?(?-2?2?-2

62、?2?(?2?(?2?2?(?2?2?2?(?)?2?(?(?+?-2?2?用戶接口基礎框架百元級硬件和全面的工具棧推動深度學習技術落地PaddlePaddle模型在邊緣設備的部署編譯轉化后基礎模型+業務數據自定義模型訓練與下載模型編譯與適配邊緣設備部署與加速模型工具棧板芯平臺合作伙伴的板芯硬件部署流程設備端部署解決方案 完成AI識蟲YOLO v3模型+蠹蟲圖片識蟲模型訓練與下載Paddle派210芯片板卡性能高,本地運行YOLO v3可達30FPS成本低,百元級售價體積小,38*38mm功耗低,工作功率1.2W內置電源,野外工作可達一年工業封裝,有效防塵防水,防水等級IP65無需聯網,本地完

63、成預測,計算快速安全設備端部署解決方案 完成AI識蟲百度AI Studio提供 模型訓練、下載、編譯的完整工作流程合 作 研 發。硬 件 板 卡 和 設 備 5 月 在 百 度 A I 市 場 發 售。注:此 設 備 由AI識蟲AI識蟲模 型 庫PaddlePaddle全景開發訓練預測PaddleRecPaddleNLPPaddleCV核心框架工具組件VisualDL 訓練可視化工具PARL 強化學習EDL 彈性深度學習計算EasyDL 零基礎定制化訓練和服務平臺 AI Studio 一站式開發平臺服務平臺AutoDL Design 自動化網絡結構設計PaddlePaddle全景PaddleH

64、ub 遷移學習動態圖靜態圖大規模分布式訓練工業級數據處理Paddle ServingPaddle MobilePaddleSlim安全與加密AutoDL DesignPARLPaddleHub開發訓練預測工具服務正式開源/多個自動設計的優質模型/特定場景優于專家設計網絡AutoDL Design通過網絡結構搜索得到多個性能優異的神經網絡結構c_k-1c_k-2c_k3201skip_connectskip_connectsep_conv_3x3sep_conv_3x3sep_conv_3x3dil_conv_3x3skip_connectskip_connectc_k-2c_k-12130c_

65、kmax_pool_3x3max_pool_3x3skip_connectskip_connectskip_connectdil_conv_3x3skip_connectskip_connectAutoDL DesignAutoDL Design開源開源基于PaddlePaddle實現的AutoDL Design源碼效果CIFAR-10 數據集上精度達到98.01%模型基于Local Rademacher Complexity Regularization的模型開源算法覆蓋更全面/高性能通訊協議/方便定制的并行APIPARL深度強化學習框架,具備高靈活性和可擴展性,能夠支持可定制的并行擴展贏得

66、NeurIPS 2018 AI假肢挑戰賽冠軍Target Driven DDPG+Bootstrapping 千臺CPU+單GPUPARLPARL10分鐘以內訓練一個Atari 智能體7分鐘訓練Pong游戲智能體32 CPU 計算集群1個并行通訊修飾符IMPALA/A2C/GA3C并行算法提升80%樣本收集效率10行代碼完成遷移學習/即拿即用的模型/命令行工具PaddleHub簡明易用的預訓練模型管理工具數據集即拿即用 的預訓練模型數據處理遷移任務優化策略Finetune API命令行NLP/CV DataSetNLPReaderCVReader文本分類 序列標注圖像分類AdamWeightD

67、ecayStrategyL2SPStrategyhub.finetune_and_evalinstalluninstallshowdownloadsearchlistrunhelpversionPaddleHub 10行代碼完成遷移學習PaddleHub 10行代碼完成遷移學習視頻分類Transformer目標檢測圖像分類詞法分析語言模型情感分析圖像生成視頻分類PaddleHubPaddleHub模 型 庫PaddlePaddle全景開發訓練預測PaddleRecPaddleNLPPaddleCV核心框架工具組件VisualDL 訓練可視化工具PARL強化學習EDL 彈性深度學習計算EasyD

68、L 零基礎定制化訓練和服務平臺 AI Studio 一站式開發平臺服務平臺AutoDL Design自動化網絡結構設計PaddlePaddle全景PaddleHub遷移學習動態圖靜態圖大規模分布式訓練工業級數據處理Paddle ServingPaddle MobilePaddleSlim安全與加密竭誠服務開發者,推動中國深度學習發展開發訓練預測工具服務破除算力桎梏,促進深度學習發展AI Studio億元算力支持計劃免費使用工業旗艦GPU,同時提供免安裝的集成環境,直接上手使用一人一卡模式遠程集群模式V100訓練卡,人手一張16GB顯存最高2TB存儲空間超強算力 使用邀請碼即可獲贈算力時長 邀請

69、好友加入可以獲贈更多時長高性能集群,免費使用即刻登錄AI Studio即可使用獲取方法獲取方法 1億元免費算力 助力開發者成功 1億元免費算力 助力開發者成功可多卡并行訓練不限時免費使用單卡12GB顯存高校開發者企業黃埔學院 AI快車道 百度AI技術生態扶持免費在線課程 免費算力支持 不間斷賽事互動深度學習師資培訓班 協同育人專項基金 AI Studio教育版全面推動中國深度學習技術發展全面推動中國深度學習技術發展深度學習案例現場剖析/即學即用的Code Live/共享黃埔學院精華課程AI快車道-企業深度學習實戰營1000家企業深度學習技術應用扶持計劃PaddlePaddle Roadmap2

70、016年:PaddlePaddle正式開源 2017年:發布新一代深度學習框架Paddle Fluid 2018年:PaddlePaddle升級為端到端深度學習平臺發 布 P ad d l e NL P、業界 首 個 視 頻識 別工 具集 發 布 分布 式 訓 練 B en ch m a rk 以及 大規 模稀 疏參 數服 務器 能力 發 布 P ad d l e Se rv in g、P a d d leS l im,具備一站式部署能力 發 布 Aut o DL D e si g n,P AR L,P ad dl e Hu b動態圖基本功能完善,新增流水線并行能力 提供視覺檢測、生成工具集,

71、使用文檔全面優化 顯存占用優化,靜態圖訓練速度全面提升 優化高速推理引擎,支持在更多硬件的快速擴展,完善支持半精度動態圖實現與靜態圖靈活轉換,支持高層API 動態圖訓練速度全面優化 PaddleHub 2.0,基于最完備的預訓練模型庫 進行遷移學習 多項行業應用解決方案發布PaddlePaddle Roadmap2019年11月2016年-2018年2019年7月2019年4月PaddlePaddlePaddlePaddle?API?PaddlePaddle v1.4.0?GPU:P4?,CPU:E5-2650 v4?8?batch_size=1?warmup10?10?:https:/ v1

72、 MobileNet v2GoogleNetPaddlePaddle?0102030405060708090ResNet50ResNet101MobileNet v1 MobileNet v2GoogleNetPaddlePaddle?Benchmark on GPU P4?ms?Benchmark on CPU E5-2650?ms?Mobilenet v1 FP32 model on ARM Latency(ms)-v8 050100150200250300350?960?835rk3399?653?625PaddlePaddle?1?2?3Mobilenet v1 INT8 model

73、on ARM Latency(ms)-v8 020406080100120140160180?960?835rk3399?653?625PaddlePaddle?1?2?PaddlePaddle v1.4.0?android ndk r16?gcc 4.9?enable neon?ABI?armveabi-v7a with neon-mfloat-abi=softfp/armv8?1?warmup10?10?:https:/ abstract graphOptimized interpreterBackend hardware functorIRIRSchedulerResourceGraph

74、GPU/X86/ARMExecuter1?2?3?dispatchConvReLUInputConvReluPoolConvReluPoolInputConvolutionReLUConvolutionReLUPoolingConvolutionPoolingReLUname:conv_3group(int):1axis(int):1bias_term(bool):falsestrides(list):2,2fliter_num(int):32ParameterTensor shapeweight_1(tensor):32,3,3,31?2?3?Graphinputconv2Dconv2Dso

75、ftmaxsoftmaxFronted abstract graphOptimized interpreterBackend hardware functorIRIRSchedulerResourceGraphGPU/X86/ARMExecuterdispatch1?2?3?/?Config?inference?AnalysisConfig config;Config.SetMode(model_path,params_path);/?./?auto*predictor=CreatePaddlePredictor(config);/?for(auto&name:predictor-GetInp

76、utNames()/?tensorauto*input_t=predictor-GetInputTensor(name);/?reshape?input_t-Reshape(N,C,H,W);/?CPU?CPU?input_t-copy_from_cpu(some cpu data);/?Predictor-ZeroCopyRun();/?for(auto&name:predictor-GetOutputNames()/?tensorauto out_t=predictor-GetOutputTensor(name);PaddlePaddle?API?1?2?PaddlePaddle ARM?

77、/?inference?Paddle?inferencePaddle?/?inference?Config.EnableTensorRtEngine(120,batch);TensorRT/?inference?Config.EnableAnakinEngine();AnakinPaddlePaddle?API?1?2?PaddlePaddle ARM?/?inference?Paddle?inferencePaddle?/?inference?Config.EnableTensorRtEngine(120,batch);TensorRT/?inference?Config.EnableAna

78、kinEngine();Anakin/?Config?inference?AnalysisConfig config;Config.SetMode(model_path,params_path);/?./?auto*predictor=CreatePaddlePredictor(config);/?std:vector threads;Std:vector predictors;/?(Clone?predictor)?for(int i=0;i Clone();/?for(int i=0;i Run(););/?for(int i=0;i thread_num;i+)if(threadsi.j

79、oinable()threadsi.join();PaddlePaddle?API?1?2?PaddlePaddle ARM?/?Config?Anakin inference?Contrib:AnakinConfig config;Config.model_file=anakin_model_path;Config.TargetType=AnakinConfig:ARM;/?Anakin?paddle predictorUnique_ptr predictor=CreatePaddlePredictor(config);/?auto&in_names=predictor-GetInputNames();std:vector inputs,outputs;std:vectorstd:vector in_shapes;SetupTensor(in_shapes,in_names,&inputs);/?auto&out_names=predcitor-GetOutputNames();outputs.resize(out_names.size();for(auto&name:out_names)outputsi.name=name;/?inferencePredictor-Run(inputs,outputs);THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(2020年WaveSummit深度學習開發者峰會嘉賓演講PPT資料合集.rar)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站