1、基于英特爾CPU MAX處理器加速AI4Science姓名 鄧會鵬職務英特爾AI解決方案架構師議程基于英特爾 oneAPI和TPP張量函數庫加速AlphaFold2的蛋白結構預測分析基于開源組學加速框架的scRNA聚類、降維和可視化基于英特爾 OpenVINOTM Model Server 部署生物影像目標檢測和圖像分割基于英特爾 實現CPU上LLM大語言模型推理量化加速英特爾 CPU MAX 計算加速的新特性此處放置LogoAlphaFold2 的意義和挑戰Z.M.Lin et al.bioRxiv 2022受體脫孤/靶點發現A.Anishchico et al.Nature 2021人工工
2、具蛋白設計X.G.Peng et al.arxiv 2022基于對接的小分子藥物設計AlphaFold2單克隆抗體設計J.A.Ruffolo et al.20222.AlphaFold2 已成為AI制藥新的基礎架構AlphaFold2預測的新冠病毒刺突蛋白結構ModernNMRCryoEMX-rayTraditional1.AlphaFold2 加速結構解析:抗菌肽90轉錄調控蛋白210本體感受受體 1300新冠病毒刺突蛋白1400細菌調控蛋白800亨氏綜合癥蛋白3200觸覺受體B 2500觸覺受體A 22003.Intel AlphaFold2 在阿里云上的結果樣例:此處放置Logo結果總結
3、高通量場景(非阿里云數據)單實例場景(阿里云數據)長序列場景(阿里云數據)05001000150020002500300002000400060008000內存峰值(GB)序列長度(aa)TBGB長度3600長度1700Jax-AF2Intel-AF2越長越好最大內存/顯存的實例上,在SPR上用Intel-AF2能預測的樣本長度翻了2.1x且SPR實例月租只有V100實例的23.2%256GB26.24.6105.4156.3A100stock JAX onICXPyTorch IPEXon ICXPyTorch IPEXon SPR5.97x多實例預測在SPR單節點上總通量達到單卡A100的
4、 5.97x且4臺g8i-2x實例月租才與gn6v.2x實例的相當(95%)input=768aa3483230205001000150020002500300035004000gn6v.2xg8i.16x越低越好越高越好提升1.51x單實例預測在g8i-16x SPR實例上達到gn6v.2x 單卡V100實例的 1.51x且g8i-16x實例月租與gn6v.2x相當的92%前者性價比(通量/RMB)是后者的 1.64x議程基于英特爾 oneAPI和TPP張量函數庫加速AlphaFold2的蛋白結構預測分析基于開源組學加速框架的scRNA聚類、降維和可視化基于英特爾 OpenVINOTM Mo
5、del Server 部署生物影像目標檢測和圖像分割基于英特爾 實現CPU上LLM大語言模型推理量化加速英特爾 CPU MAX 計算加速的新特性此處放置Logo基于英特爾至強的scRNA單細胞測序后分析正文(微軟雅黑,16號字)https:/ scRNA分析支持多種聚類方式和特征維度提供優化的測序或結構分析工具及教程此處放置Logo基于英特爾至強的scRNA單細胞測序后分析scRNA后分析的管線示意圖:其中降維、聚類和可視化處理是計算耗時的主要瓶頸https:/ 此處放置Logo基于英特爾至強的scRNA單細胞測序后分析scRNA后分析的管線示意圖:其中降維、聚類和可視化處理是計算耗時的主要瓶
6、頸scRNA后分析在英特爾至強 CPU上的速度優化到原來的40 x,比單卡參考GPU速度還快https:/ 此處放置Logo基于開源組學加速框架的降維、聚類和可視化流程https:/ 基于Katana 和 PyScan 的 Louvain的圖聚類分析和UMAP可視化基于Kmeans 聚類和tSNE可視化此處放置LogoOpenVINO 工具使用路徑OpenVINO 工具使用路徑模型訓練構建優化部署321Deep Learning Workbench可視化模型微調和推理部署Model Optimizer利用OV支持的框架轉換和優化已訓練的模型IR 數據讀取,加載,推理Intermediate R
7、epresentation(.xml,.bin)推理引擎利用一套通用 API 調用各種硬件加速部署模型的推理OpenCVOpenCL Drivers&Runtime LinuxDeep Learning StreamerCode Samples and Demos(e.g.Benchmark app,AccuracyChecker,Model Downloader)訓練后優化工具(POT)無需重訓練將模型轉為INT8低精度,并將精度下降控制在可接受的范圍(比如0.5%)模型服務(OVMS)基于C+后端的gRPC/REST 推理服務Deployment Manager開源模型庫280+可下載的開
8、源優化的預訓練模型議程基于英特爾 oneAPI和TPP張量函數庫加速AlphaFold2的蛋白結構預測分析基于開源組學加速框架的scRNA聚類、降維和可視化基于英特爾 OpenVINOTM Model Server 部署生物影像目標檢測和圖像分割基于英特爾 實現CPU上LLM大語言模型推理量化加速英特爾 CPU MAX 計算加速的新特性此處放置Logo匯醫慧影AI醫學影像解決方案基于匯醫慧影的Dr.Turing AI平臺的新冠肺炎篩查基于ResNet50-RetinaNet模型的乳腺癌篩查OpenVINO 低精度加速INT8推理速度提升使用OpenVINO工具套件對新冠肺炎CT檢測模型優化前后
9、效果對比基于U-Net+和HRNet的病灶分割任務1(圖像分割)任務2(目標檢測)1.2 模型1.3 性能2.2 模型性能此處放置Logohttps:/ 清洗數據集模型訓練模型部署標注新數據手手動標注注自動圖像標注模型訓練模型部署自動更新標注Segment-Anything 革新了生物圖像分析流程英特爾OpenVINO加速的SAM議程基于英特爾 oneAPI和TPP張量函數庫加速AlphaFold2的蛋白結構預測分析基于開源組學加速框架的scRNA聚類、降維和可視化基于英特爾 OpenVINOTM Model Server 部署生物影像目標檢測和圖像分割基于英特爾 實現CPU上LLM大語言模型
10、推理量化加速英特爾 CPU MAX 計算加速的新特性此處放置LogoChatGLM-6B:醫療大模型BF16非量化推理加速4.032.10OOBOpenVINO1st token latency(sec)1.92x182.8647.96OOBOpenVINOrest average token latency(ms/token)3.81x首詞延時下降(2K輸入)其余平均延時下降(2K輸入)1S-SPR9468 Quadrant/HBM-Cache英特爾英特爾 OpenVINOTMTM-LLM非量化方案非量化方案加速英特爾加速英特爾至強至強MAX實例加速性能實例加速性能(48核核)HuiMei此
11、處放置Logo低精度(INT8)加速 LLM 在 SPR 上的推理性能 支持所有主流支持所有主流huggingface或或ggml的的LLM推理推理 將 FP16/BF16 轉為 INT8/INT4,以便簡化計算復雜度LLaMA-7B,BLOOM-7B1,Startcoder-15B,Pheonix on ggml+BigDLllama.cpp ggml OpenBLAS AVX2-intrinsics AVX512-VNNI(INT8/4)基于基于Sapphire Rapids BigDL Nano 的的 INT4 實時實時 Demohttps:/ 議程基于英特爾 oneAPI和TPP張量函
12、數庫加速AlphaFold2的蛋白結構預測分析基于開源組學加速框架的scRNA聚類、降維和可視化基于英特爾 OpenVINOTM Model Server 部署生物影像目標檢測和圖像分割基于英特爾 實現CPU上LLM大語言模型推理量化加速英特爾 CPU MAX 計算加速的新特性此處放置Logo英特爾 CPU Max處理器64GBHBM2e ComputeMemoryTechnologyI/OAMXAdvancedMatrix Extensions內存帶寬受限的應用中有2x*性能提升此處放置Logo英特爾 高級矩陣指令擴展集(AMX)64256Ops/Cycle per core 100%uti
13、lization10242048AVX-512(2xFMA)FP32AMX(TMUL)BF16AMX(TMUL)INT8AVX-512(2xFMA)INT8AMX 架構包含兩個部分:Tiles 數據塊一種全新的2D可擴展寄存器組 8個新的寄存器,每個1Kb:T0-T7該寄存器組支持基本操作包括 load/store,clear,set to constant等TILES 支持通過XSAVE架構保存狀態并接受系統管理TMUL 脈動陣列矩陣乘法指令集,是首個基于TILES的指令集包括一組 MAC 計算網格用于計算”成塊”的數據TMUL 使用3組Tile寄存器(T2=+T1*T0)執行矩陣的乘加運算
14、(C=+A*C)TMUL 計算依賴于 TILE 寄存器Express more work per instruction and per op save power for fetch/decode/OOOCC1C2+=ABxA1A2B1此處放置Logo數據中心 計算方法 的加速概覽CPUGPUTPU矩陣加速:AMX-BF16/INT8內存擴展:DDR5,HBM2e隱私計算:SGD/TDX,PPML易獲取的AI算力易擴展的異構算力高密度的AI算力XMX矩陣加速引擎VectorEngine矢量加速引擎高性能AI訓練/推理:LLM等多卡分布式:Gaudi LinkScikit-learnScanP
15、yRegressionSVMCNN RNNTransformersGCN/GRNRL小分子生成 AGME屬性預測大分子結構預測抗體-抗原-TCR 界面設計任務模型框架硬件分子對接服務公有云HPC集群分子動力學蛋白互作一體機私有云私有服務器MLPClustering PCAXGBoostBayesianGPT此處放置Logo總結英特爾提供包括oneAPI,TPP/libxmm,OpenVINO,xFasterTransformer等加速阿里云上的8代ECS實例(SPR-SP)和SPR-HBM實例在蛋白結構預測和大分子設計領域,英特爾實現了AlphaFold2管線端到端優化,并在阿里云8代ECS實例完成了部署和TCO及性能驗證在醫療影像領域,英特爾全面實現了通用CV模型的適配和加速英特爾聯合多家partner,可以為醫療計算提供更完整的生態謝謝