
視頻生成的訓練和推理成本較為高昂,對算力造成了較大挑戰。根據FactorialFunds測算,訓練成本方面,將DiT從圖像生成擴展到視頻生成時,計算需求顯著增加,主要體現在視頻的時間維度壓縮、模型參數量增長和數據集規模增加等方面。DiT是Sora的技術基礎,其最大模型DiT-XL具有6.75億參數,訓練總計算預算約為1021FLOPS,相當于1張H100運行12天。而Sora的訓練計算預算范圍被估算為1.1X1025FLOPS~2.7X1025FLOPS,大約需要4211至10528張H100運行1個月。而在推理成本方面,預估每張H100每小時生成5分鐘視頻,進一步凸顯了視頻生成模型在算力方面的巨大需求。