
CUDA 硬件和數據架構的對應關系:(1)從硬件的構成關系上,CUDA Core 是英偉達 GPU 最小的計算單元,多個 CUDA Core 疊加 warp scheduler,register,shared memory 等構成一個 SM(streaming multiprocessor),多個 SM 再構成整個 GPU;(2)從數據架構上看,一個 CUDA Core 一次可以執行一個 Thread(線程),數個 Threads組成一個 Block,同一個 Block 中的 Threads 可以同步,也可以通過 shared memory通信,最后,多個 Blocks 則會再構成 Grid。此外,英偉達通常將 32 個 Thread 組合成一個 Warp,作為調度和運行的基本數據單元。