《基于 CPU-GPU 異構平臺的第一性原理密度泛函理論高性能計算.pdf》由會員分享,可在線閱讀,更多相關《基于 CPU-GPU 異構平臺的第一性原理密度泛函理論高性能計算.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、基于CPU-GPU異構平臺的第一性原理密度泛函理論高性能計算胡偉合肥微尺度物質科學國家研究中心中國科學技術大學#page#第一性原理密度泛函理論簡介錄2CPU-MPI和GPU-CUDA異構并行計算3第一性原理功能材料設計和計算模擬#page#研究領域:理論與計算化學基于第一性原理(量子力學)的理論計算方法不需要任何實驗參數,只需要原子結構和一些基本物理常量揭示物質的本質和調控物質的特性設計新型先進功能材料并預測新奇性質人模擬并解釋實驗新現象,分析本征物理化學機制分子固體材料生物藥物D實驗應用需求廣泛理論計算化學體系錯綜復雜計算理論催化光譜動力學#page#密度泛函理論A+Vn+Vll+Vclf
2、u)y=cuKohn-Sham方程如何算得更準、更快、更大ClusterAtomParticeElectrodeElectronTimeMacroscopThermodynamicsEquationofmotiorMaxwel/PossionequationConstitutiveequaton固液界面MesoscaleDamicsMolecularDynamcsNewton:F=MaMaterilsLengthHd=Ed生物體系市心Angstrom#page#如何實現大規模密度泛函理論計算?A+Va+Vll+Vxolf))=Kohn-Sham方程基礎前沿交叉:量子力學、理論化學、數值算法、高
3、性能并行計算人第一原理計算對于材料、能源、環境、生物等領域的重要意義如何算得更準、更快、更大?準:第一性原理密度泛函理論傳統計算方法線性標度算法實驗大:低標度計算(線性標度)快:高性能計算和超級計算機先進功能材料和能源材料理論 計算人高性能計算軟件與大數據平臺體系尺寸N高性能計算軟件超級計算機#page#2單核時代的摩爾定律CPU時鐘頻率每18個月翻一番CPU制造工藝逐漸接近物理極限功耗和發熱成為巨大的障礙Pentium Tejas1000STOF10004740O0878福#page#2GPU vs CPU設計重心轉向到多核異構的集成技術GPU是一種特殊的多核處理器更強的浮點計算能力、存儲器
4、帶寬Peak Doublc Precision Flops (GFlops)Peak Memory Bandwidth (GB/s)diacpuvida cPU1000A100A10000060)V100400P1000K202000M2090106M10620122014022016010201400#page#2CPU-GPU異構平臺CPU:Latency-Oriented更多資源用于緩存和邏輯控制GPU:HighThroughput-Oriented更多資源用于計算,適用于高并行性、大規模數據密集型、可預測的計算模式CPU-GPU異構平臺:結合兩者優勢加速第一性原理計算ALLALUAUA
5、LU0中5DRAMCPU28DRAMdatafrom https:/ Studio用戶代號1.2%口共店公”第一性原理計算材料模擬占主導地位瓶頸:VASPP排名第一,模擬數百原子體系,小規模干核并行計算#page#2開發第一性原理高性能計算軟件10010,000基組/電子平面波基組完備基組,周期性(PWDFT,VASPQuantumEsspresso,ABINIT)原子基組1100基組/電子局域基組(HONPAS,ABACUS,SIESTA,Gaussian,FHl-aims)自適應局域基組(ALB)1100基組/電子正交局域完備基組,考慮到復雜化學環境的影響人PWDFT: Plane-Wav
6、e Density Functional TheoryHONPAS: Hefei Order-N Packages for Ab initio SimulationsDGDFT: Discontinuous Galerkin Method for Density Functional TheoryLin Lin, Jianfeng Lu Lexing Ying, and Weinan E,J.Comput. Phys.231,2140 (2012)WeiHuLin Lin,and Chao Yang,J.Chem. Phys.143,124110(2015)Wei Hu Lin Lin.and
7、 Chao Yang, Phys.Chem.Chem. Phys.17,31397(2015)Wei Hu Hong An*,Jinlong Yang* et al Science Bulletin (2020)10#page#2PlaneWaveDensityFunctional TheoryPWDFT: Standard plane-wave DFT software人New eigensolvers (LOBPCG and PPCG)人High performance computing C10,000 CPU cores or 3000 GPUS)人C/C+ +,MPI/OpenMP/
8、CUDAYFFT BLAS/LAPACKB=HV-aWBG=(00)5tbdiagtV+P(r)+Z(sXsly(r)=Hp(r)=By(r)B=aH-ond.c6stp一一(2)Pon(y-NB=HV-vp()=2l()w=wcose+sineLinV(r)W-(valv)om聯BG3=(mm)ae#page#2Eigensolver: LOBPCG/PPCGlterative conjugate-gradient (CG) algorithm:人Large subspace (gradients, residual)人Many Rayleigh-Ritz COrthonormalizati
9、on)LOBPCG Locally Optimal Block Preconditioned Conjugate Gradient methodAlgorithm3 LOBPCG method for solving the KSDFT eigenvalue problems H=Iput:Hamiltonian matrixHand initial wavefunctions.Output:Eigenvaleseandwave fmctionsfu)1Iitializebyeand orthomormalizeXbyusingthe Cholesky factorization.2:whil
10、e comvergence mot reached doComputetheprecomditionedresidual WT(HX-X(XTAX),whereTis the Teter3:preconditionerofthe Laplacian operator.4Update thetrial subspaceStx,WP5:Computetheoptical parametersC=Cx,Cw,Cpjrby performing the Rayleigh-Ritzprocedure ofSHSC=STSCA.6:Compute the conjugate gradient direct
11、ionPWCy+PCp.7:ComputeXXCx+P.S:end while9:Computeef名byX.#page#2標準平面波電子結構計算軟件PWDFT可擴展性更強:(10.000CPU核,3.000GPU卡特色功能:大體系雜化泛函和激發態電子結構計算支持CPU-MPI/OpenMP和GPU-CUDA異構并行100002400MPI Bcast(b)(a)Memory copy operaton10002100MPIAlltoallv833331800MPI Allreduce1000Computational time1001500me(s)(S)Time12001000610060
12、0InnerSCF300-OuterSCFIdeal010010001600036721442883847681536Number of coresNumber of atomsNumber of GPUs標準平面波雜化泛函計算4.000原子和多層次并行化計算8.000核,標準平面波雜化泛函計算1.000原子和多層次并行化計算1.536GPU卡.13#page#2PWDFT vs VASPPWDFT速度優于世界排名第一的VASP特色功能:大體系雜化泛函和激發態電子結構計算Si10004GPU卡(DGX-1v100)20s一步SCF計算Intel(R) Xeon(R) CPU E5-2690 v
13、4 2.60GHzNVIDIA TESLA V100 32GB-PWDFTEach SCF TimeVASP16times28timesnber ofGPU測試體系:Si1000;5Hartree;2000bands測試體系:Si1000;10Hartree;2000bands#page#2第一原理低標度高性能軟件開發自主開發:DGDFT:ALB基組,平面波精度,超大規模并行計算HONPAS:原子數值基組,線性標度電子結構計算http:/ Hu*,Lin Lin*,Chao Yang*,Jun Daiand Jinlong Yang,Nano Lett,16,1675(2016)WeiHu*
14、Lin Lin* Ruiqi Zhang,Chao Yangand Jinlong YangJ.Am.Chem. Soc.139,15429 (2017)Kai WuHuanhuan Ma, Yunzhi GaoWei Hu* and Jinlong Yang*,J.Mater Chem.A7,7430(2019)Xiaofeng Liu Pengfei Gao,Wei Hu*.and Jinlong Yang*,J.Phys.Chem. Lett, 11,4070(2020)#page#3材料模擬:設計碳基磁性材料控制原子結構和電子旋轉,實現磁性石墨烯磁性石墨烯量子點(10納米4000原子)
15、鋸齒形邊界形成強烈的不穩定金屬局域態,壁裂為反鐵磁性態20CH15-ZZGNFS(NM)DFTZZGNFs(AFM1.0(eV)olACGNFs(NM0.5gygap0.020+10Hubbard0.50.02101112138Diameter(nm)Wei Hu,Lin Lin*,Chao Yang*2DMater.Appl.3,1(2019)#page#國內外合作者中國科學技術大學楊金龍、羅毅、李震宇、武曉君、江俊課題組(物理化學)安虹課題組(計算機),楊周旺和徐巖課題組(應用數學)復旦大學高衛國/邵美悅課題組(應用數學/高性能計算)中國科學院計算網絡中心/計算所/軟件所金鐘課題組,張云泉和商紅慧課題組,劉芳芳課題組(高性能計算)英偉達DGX-1和Hackathon(高性能計算硬件和軟件支持)美國加州大學伯克利分校/勞倫斯伯克利國家實驗室林霖和賈偉樂課題組,楊超課題組(應用數學和高性能計算)18#page#THANKS#page#