當前位置：首頁 > 報告詳情

PAI-ChatLearn 靈活易用大規模RLHF高訓練框架.pdf

上傳人： 2*** 編號：149580 2023-12-18 PDF PDF 17頁 91.21MB

該報告所屬合集： 2023云棲大會嘉賓演講ppt合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/17

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《PAI-ChatLearn 靈活易用大規模RLHF高訓練框架.pdf》由會員分享，可在線閱讀，更多相關《PAI-ChatLearn 靈活易用大規模RLHF高訓練框架.pdf（17頁珍藏版）》請在三個皮匠報告上搜索。

1、PAI-ChatLearn!#$%&!#$%-&$%()PAI!#$%&(RLHF)*+,-.Contents目錄0102PAI-ChatLearn03PAI-ChatLearn01#$%&*+,-./?!#$%&()*+,-(./!Zero DP/FSDP 01234567Zero DP!#$#$%&*+#./?!89:;?#$ABC#$D(!E;F89GGPT3-175BD=HIJK#$LM?#$BC#$?#$+!#$BC#$+!#$?#$+BC#$+!#$#$%&*+01./?!JNO/J8P89()MPMDPathways1RLHF21 https:/blog.google/techn

2、ologyai/introducing-pathways-next-generation-ai-architecture/2 https:/arxiv.org/abs/2204.05862PAI-ChatLearn02RLHF(Reinforcement Learning from Human Feedback)RLHF234567#89:;RL?A/BCDEFGHIJ?!?!?!?!?!?PAI-ChatLearnPAI-ChatLearnKLMN/O!P RLHF QR$%*+?!?!?!?!?!?!?PAI-ChatLearn36?!APIY*Z898)RLHF Config_e2e(!

3、)Model Config_abmodelF!EngineYcdefghijk/)cd(jlmFnop$!DistActor7Uqr,bistNOjgh)cdabmodelFp$uvjghi!(jlmwxy7zFBackend)|Gy7Megatron()y7vLLMlmPAI-ChatLearn初始化定義模型定義engine和數據集開始訓練運行環境配置模型配置RLHF訓練配置PAI-ChatLearn03PAI-ChatLearn?-#AB?!RLHFModule()!nsetupAforward_stepAtrain_step X!MegatronADeepspeedAPyTorchAvL

4、LMATorchAccXnVicuna 13B+13B=?!)t query:,response:!hVicuna89)Vicuna-13B89|!(t!ChatLearn*ZetransformersMegatront)k7ChatLearnS$SFT(?!)t query:,response:1,2,.,score:score1,score2,.!(!y7SFT89!UReward Model!k7ChatLearnS$Reward Model(?!t prompt:!(!y7SFT89!Policy/Reference Model!y7RM89!Reward/Value model!k7

5、ChatLearnS$RLHF(?!(F89Inference!k7MegatronS$C!k7ChatLearneTransformertInferenceVicuna 13B+13B=?!13B(Policy/Reference Model)+13B(Reward/PPOValue Model)!QHH(helpful&harmless)!S$SFTARLHF(!RLHF(Reward ModelFiG!QMT-Benchy7GPT-4 APISFTjRLHF89FVW)i*+11%PAI-ChatLearnCDEFG?!7B+7B30B+30B8DeepSpeed-chat&48%82%!DeepSpeed-Chat 66B+66BOOM!ChatLearn66B+66BA175B+175B8(!Qwen-14BRLHF89VW4SFT89!#$%&()*+,!#%)*+,#!%-./0123/42567)894:*;)?A/85B*80C6%6D-!E&E&#E&$E&)*+,!#%)*+,#!%-./0123/42567)894:*;)?A/85B*80C6#-6D-!THANKS

相關圖表

本文主要介紹了PAI-ChatLearn和RLHF的相關內容。PAI-ChatLearn是一種人工智能架構，而RLHF是Reinforcement Learning from Human Feedback的縮寫，意為人類反饋的強化學習。文章中提到了一些核心數據，如Zero DP、FSDP、GPT3-175B、GPT4X、Megatron、Deepspeed、Vicuna等。此外，還提到了PAI-ChatLearn的初始化、定義模型、定義engine和數據集、開始訓練、運行環境配置、模型配置、RLHF訓練配置等關鍵步驟。最后，文章還涉及了Policy/Reference Model、Reward/Value model、Inference等方面的內容。

"PAI-ChatLearn技術詳解" "RLHF訓練配置揭秘" "DeepSpeed-Chat性能分析"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站