當前位置:首頁 > 報告詳情

黃世宇-OpenRL支持大模型訓練的強化學習框架與大模型時代的PluginStore.pdf

上傳人: 2*** 編號:142161 2023-09-10 61頁 8.33MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。
本文主要介紹了黃世宇,第四范式強化學習科學家,開源強化學習OpenRL Lab負責人。他畢業于清華大學計算機系,師從朱軍和陳挺教授,并在CMU交換,師從Deva Ramanan教授。他的主要研究方向為強化學習,多智能體強化學習和分布式強化學習。他曾多次在ICLR、CVPR、AAAI、NeurIPS、Nature Machine Intelligence、ICML、AAMAS、Pattern Recognition等會議和期刊發表多篇學術論文。他領導開發的TiZero谷歌足球游戲智能體曾在及第平臺上取得排名第一的成績。黃世宇曾在騰訊AI Lab、華為諾亞、商湯、瑞萊智慧等工作。他還是OpenRL框架的創始人,該框架是一個開源的強化學習框架,具有友好的用戶界面和高度可定制的能力。OpenRL框架支持離線強化學習,可以學習從交互和專家數據中。此外,OpenRL框架還支持大規模強化學習,可以處理大型模型、大型集群和大型種群。最后,他還介紹了OpenPlugin,這是一個用于大型語言模型(LLM)的插件,可以簡化LLM的使用和分享。
"OpenRL框架有哪些主要特點?" "OpenPlugin插件如何簡化LLM的使用和分享?" "黃世宇在強化學習和多智能體強化學習領域有哪些重要貢獻?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站