
Transformer模型可以替代當前的遞歸模型,消減對輸入輸出的順序依賴。Transformer 模型作為完全基于注意力機制的新神經網絡架構,在技術特征上主要體現為可以并行、速度更快。過往要訓練一個深度學習模型,必須使用大規模的標記好的數據集合來訓練,這些數據集合需要人工標注,成本極高。在 Transformer 下,通過 Mask 機制,遮擋已有文章中的句段,讓 AI 去填空,從而使很多現成的文章、網頁等信息就成為天然的標注數據集,成本節省極為明顯;同時,RNN 的順序計算、單一流水線的問題在 Transformer 的并行機制下也能得到有效解決。Transformer 問世后,迅速取代循環神經網絡 RNN 的系列變種,可以滿足市面上幾乎所有的自然語言處理的需求,成為主流的模型架構基礎。openAI、谷歌、百度等都是基于 Transformer 模型進行大模型研發和應用。