初代GPT與BERT模型參數比較 初代 GPT由于使用了 12層 Decoder架構,配合上 Masked Multi-Head Attention,只能根據前文單向預測下一個單詞,因此訓練速度不如 BERT,但更擅長文本推理和文本生成。 行業數據 下載Excel 下載圖片 原圖定位