ERNIE3.0模型引入大規模參數/數據,擴展網絡層數至48層,融合自編碼網絡和自回歸網絡 此外,ERNIE 3.0 的 語料庫包括百科、Feed、百度搜索(包括百家 號、知乎、貼吧、經驗)、網絡文本、QA-long、QA-short、Poetry 2&Couplet 3、醫療、法律、金融等領域的特定數據以及百度知識圖譜(超過 5000萬條事實),相比 CLUECorpus2020(100GB)、中文多模態預訓練數據(300GB)、CPM-2 使用的 WuDaoCorpus2.0(2.3TB 中文數據和 300GB 英文數據)和 PanGu Corpus(1.1TB)相比,ERNIE 3.0 采取了當時最大的中文預訓練語料。 行業數據 下載Excel 下載圖片 原圖定位