
TPU 的主要任務是進行矩陣處理,即乘法和累加運算的結合。一個 TPU 芯片包含一個或多個 TensorCore,每個 TensorCore 當中包含一個或多個矩陣乘法單元(MXU)、矢量單元和標量單元,MXU 由收縮陣列中的 128 x 128個乘積累加器組成。TPU 包含數千個乘法累加器。TPU 主機將數據流式傳輸到饋入隊列中,從饋入隊列加載數據,并將其存儲在 HBM 內存中。執行乘法運算時,結果會傳遞到下一個乘積累加器,輸出是數據和參數之間的乘積總和,在矩陣乘法過程中,不需要訪問內存。計算完成后,TPU 會將結果加載到饋出隊列中。然后,TPU 主機從饋出隊列讀取結果并將其存儲在主機的內存中。