
訓練階段:考慮采用精度為32位的單精度浮點數數據進行訓練和推理。以A100 PCle芯片為例(H100 PCle芯片同理),根據前述公式,GPT-3訓練所需運算次數為:樣本token數3000億個*6*參數量1750億個=315*10^21FLOPs;考慮訓練時間要求在30天完成(訓練時間為2592000秒),則對應GPT-3訓練所需算力為121528TFLOPS;結合A100有效算力78TFLOPS,得到所需GPU數量為1558個,對應AI服務器為195臺。推理階段:按谷歌每日搜索量35億次進行估計,假設每次訪問提問4次,每次提問+回答需處理字數425字,平均每個字轉換為token比例為4/3,則每日GPT-3需推理token數為79330億個,則推理所需運算次數為4760*10^21FLOPs;考慮推理時間以每日為單位(推理時間為86400秒),則對應GPT-3推理所需算力為55*10^6TFLOPS;結合A100有效算力78TFLOPS,得到所需GPU數量為706315個,對應AI服務器為8.8萬臺。