MegaScale訓練175B模型對MFU的優化 國內廠商也在積極推進大規模集群搭建。字節跳動于2月23日發布萬卡集群方案MegaScale。MegaScale是一個規模超過10,000個GPU的集群。在12288塊GPU上訓練1750億參數大語言模型時,MegaScale實現了55.2%的算力利用率(MFU),能在1.75天內完成GPT-3規模模型(175B)的訓練。百度智能云則聯同NVIDIA共同完成了萬卡以上規模的IB網絡架構設計,于22年4月將集群建設完成,提供單集群EFLOPS級別的算力,目前該集群的規模正不斷擴大。 其它 下載Excel 下載圖片 原圖定位