《英特爾:英特爾中國AI應用案例集錦(81頁).pdf》由會員分享,可在線閱讀,更多相關《英特爾:英特爾中國AI應用案例集錦(81頁).pdf(81頁珍藏版)》請在三個皮匠報告上搜索。
1、1英特爾中國AI 應用案例集錦#全棧算力 加速行業 AI 落地2英特爾中國 AI 實戰資源庫英特爾中國制造與能源行業AI 實戰手冊英特爾中國物流與交通行業AI 實戰手冊英特爾中國金融行業AI 實戰手冊英特爾中國 AI 應用案例集錦英特爾中國醫療健康行業AI 實戰手冊英特爾中國互聯網行業AI 加速實踐手冊英特爾中國教育行業AI 實戰手冊英特爾中國最“in”大模型專欄1英特爾中國AI 應用案例集錦#全棧算力 加速行業 AI 落地3Large Language Model(LLM)大語言模型AI Pipeline AI 全流程AI for Science 科學智能Traditional Deep L
2、earning 傳統深度學習Privacy Preserving Machine Learning 隱私保護機器學習(PPML)Green Datacenter 綠色數據中心技術篇:英特爾 AI 產品組合英特爾 AI 實戰視頻課程基于英特爾 架構的 AI 軟件工具組合041120235356597379CONTENT目錄Large Language Model(LLM)大語言模型4千帆大模型平臺利用百度智能云平臺中豐富的英特爾 至強 可擴展處理器資源,加速 LLM 模型推理,滿足 LLM 模型實際部署需求?;谥翉?可擴展處理器不斷提升的算力和內存帶寬,有效支持 LLM 實現端到端加速;采用第
3、四代/第五代至強 可擴展處理器內置的 AI 加速引擎 英特爾 AMX,最大限度地利用計算資源,顯著增加 AI 應用程序的每時鐘指令數(IPC);利用大模型推理軟件解決方案 xFasterTransformer(xFT),進一步加速 LLM 推理。讓更加可及、經濟的 AI 算力資源,在千行百業揚“千帆”挑戰解決方案大模型推理優化解決方案AI 服務平臺2.32倍相較于第三代至強 可擴展處理器,基于第五代至強 可擴展處理器的 Llama-2-7b 模型輸出 Token 吞吐提升達175%相較于第三代至強 可擴展處理器,基于第五代至強 可擴展處理器的 Llama-2-7b 模型首 Token 時延降低
4、達利用充足的 CPU 資源,降低 LLM 推理服務 TCO百度智能云千帆大模型平臺可支持廣泛的英特爾 CPU 選擇掃碼獲取全文英特爾 AMX 可以更高效地實現 AI 加速85 int8 ops/cycle/corewith 2 FMA256 int8 ops/cycle/corewith 2 FMAs2048 int8 ops/cycle/coreMulti-fold MACs in one instructionLLM 推理中大量矩陣及向量矩陣乘法對硬件的較高需求滿足行業離線 LLM 應用需求,并支持用戶快速部署 LLM解決 30B 等規模的 LLM 使用高端 GPU 成本較高等問題Inte
5、l AVX-512vpmaddubswvpmaddwdvpadddClock cycle 1Clock cycle 2Clock cycle 316-bitconstant16-bitconstant16-bitoutput32-bitacc output32-bitacc output8-bitinput8-bitinputIntel AVX-512(VNNI)Intel AMX8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc output8-bit new instructionvpdpbus
6、d8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new in
7、structionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructiontdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc ou
8、tputFP32 s8 bit exp 23 bit mantissaBF16s8 bit exp7 bit mantissaFP16s5 bit exp10 bit mantissaINT16 s15 bit mantissaINT8s7 bit mantissa第三代英特爾 至強 可擴展處理器模型廣場我的模型百度文心大模型第三方大模型第五代英特爾 至強 可擴展處理器英特爾 CPU模型管理數據管理模型精調模型評估&優化推理服務部署第四代英特爾 至強 可擴展處理器下一代英特爾 至強 可擴展處理器模型評估模型壓縮Post-pretrainSFT-全量更新RLHFSFT-LoRA增量訓練自動評估人
9、工評估快速體驗推理加速多算力規格潮汐調度實時監控數據構建數據回流數據標注分析增強清洗預置 Prompt 模板自制 Prompt 模板Prompt 評估Prompt 優化51.2 有關性能和基準測試結果的更完整信息,請訪問:https:/ 可擴展平臺打造醫療大模型雙維優化方案,優化醫療大模型推理性能,在保證精準度及不增加成本的情況下,顯著提升 AI 應用處理效率。使用英特爾 AVX-512_VNNI 指令集,配合 BigDL-LLM,加速醫療大模型基于 INT4 的推理;借助 BigDL-LLM 提供的 API 接口,更高效地將 LLM 整合進項目代碼,更加便捷地完成模型部署;利用 OpenVI
10、NO 工具套件的 Pipeline 構建醫療大模型的高效推理服務,并優化模型推理流水線,構建非量化優化方案。醫療大模型“絲滑”部署的 背后功臣竟然是 CPU!挑戰解決方案降低 LLM 方案建設成本,突破傳統 LLM 訓練和推理對高成本專用芯片的依賴加強數據安全防護,滿足醫療機構極高的數據合規要求和私有化部署需求大模型推理優化解決方案智慧醫療第 1 名獲“CHIP2023-PromptCBLUE 醫療大模型評測”參數高效微調賽道123%+應用上線一月后,鑒別診斷應用的使用率已達215%+應用上線一月后,出院記錄自動生成應用的使用率達到3集成大模型的惠每新一代 AI 大數據處理平臺架構 掃碼獲取全
11、文BigDL-LLM 為醫療大模型提供推理加速1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 21.4%的年復合增長率(Compound Annual Growth Rate,CAGR),到 2029 年或達 408 億美元的市場規模1。在醫療行業,無論是面向大眾提供普惠醫療服務的智能問答與家庭醫療助手,還是有助于醫護人員提升效率的 AI 導診和臨床輔助診療應用,或是加速醫療影像處理效能,提高大病、惡疾早期發現率的 AI 閱片等,眾多醫療 AI 企業正在借助大模型來提升這些應用的性能,幫助醫療機構在診療服務全流程中實現更全面且優質的服務能力、更精準的結果輸出以及更廣泛的
12、運用范圍。而其中,深耕醫療信息化多年,具有出色醫療 AI 應用研發能力和頭部優勢的惠每科技,也在這一趨勢中將大模型作為其技術再突破、服務再提升的重要抓手。一直以來,惠每科技的 CDSS 產品(如醫院端核心應用Dr.Mayson、臨床科研平臺 Darwin 等),都是通過實時數據分析與事中智能提示等核心能力的打造,助力醫療機構在臨床診療決策、病案與病歷管理、診療風險預警以及醫保費用管理等環節中提升服務質量、診療效率和管理效能。而這些場景對自然語言處理(Natural Language Processing,NLP)、計算機視覺(Computer Vision,CV)等 AI 能力的需求,正好讓大
13、模型有了用武之地。如圖 1 所示,在惠每科技最新發布的 CDSS 3.0 架構中,新一代 AI 大數據處理平臺已集成了醫療大模型。這些醫療大模型是通過海量數據在一系列大模型上重新訓練而成的,不僅融合了惠每科技在醫學知識庫、專家系統上的雄厚知識積累,也凝集了其落地于 600 余家醫療機構所獲得的豐富實戰經驗,已在病歷生成等場景中獲得了成功運用。推動高質量、低成本的私有化部署,是醫療大模型落地的主要挑戰然而在推進醫療大模型落地的過程中,惠每科技面臨著嚴峻挑戰,其中主要的是如何幫助醫療機構實現高質量、低成本的私有化部署:降低建設成本:傳統上的大模型訓練和推理工作通常需要借助專用加速芯片來完成,但這類
14、芯片昂貴的價格往往讓醫療機構望而卻步,同時其普遍缺貨或供貨周期較長的問題也會大幅拉長方案的建設周期。保障數據安全:行業的特殊性使醫療機構對數據安全、隱私保護極為重視,任何醫療數據都不能離開安全可控的內網環境,所以醫療大模型需要進行私有化部署。圖 1 集成大模型的惠每新一代 AI 大數據處理平臺架構交互層功能層費用預警檢驗檢查推薦輔助問診醫囑審核過程質控治療方案推薦診斷推薦異常預警并發癥預警病歷文獻輔檢專著醫囑教材監護藥典患者數據醫生護士醫技管理惠每 AI 大數據處理平臺醫學知識庫數據接入層患者畫像專家模型醫療大模型深度學習 模型惠每知識圖譜英特爾 AVX-512_VNNI 指令集第四代英特爾
15、至強 可擴展處理器BigDL-LLMLLM on PyTorchLangChain APILLM on GGML-INT4Huggingface-Style Python Bindingllm-convertbigdl.llm.langchainllm-cli/llm-chatbigdl.llm.transformersinference benchmarkPrompt CLICLI 方式 API 方式京東云推出搭載第五代至強 可擴展處理器的新一代云服務器,以處理器內置 AI 引擎顯著加速多種云上大模型推理,有效支撐 11.11 促銷運行高峰。利用第五代至強 可擴展處理器及其內置的 AI 加速
16、引擎-英特爾 AMX,在提升算力的同時,高效處理大量矩陣乘法運算,提升 AI 推理性能;使用英特爾 oneDNN 對 CPU、GPU 或兩者使用相同的 API,抽象出指令集的其他復雜的性能優化,實現深度學習構建塊的高度優化??慈绾斡?CPU 加速的 AI 大模型構建數智化供應鏈挑戰解決方案云服務器升級解決方案大模型推理調優4.19倍基于第五代至強 可擴展處理器,通過英特爾 AMX 將模型轉化為 BF16,JD SE-ResNext-50推理性能提升高達1 51%+京東與英特爾聯合定制優化的第五代至強 可擴展 處理器較上一代的推理性能(Token 生成速度)提升了2避免采購專用硬件 加速器的高昂
17、支出Llama2-13B 推理性能測試數據3 掃碼獲取全文英特爾 AMX 架構1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ AI 服務器帶來的靈活性挑戰每核可存儲更大的數據塊可在單次運算中計算更大矩陣的指令TILE2D 寄存器文件平鋪矩陣乘法(TMUL)2 9 01 3 52 4 78 1 5英特爾 AMX11.5100.20.40.60.811.21.41.6 8438C AMX,BF16)8538C AMX,BF16)以 8438C Llama2-13B 推理性能(越高越好)78金山云推出搭載第四代至強 可擴展處理器的新一代云服務器,以針對性調優的模型鏡像,充分利
18、用原生 AI 加速能力,有效提升云上大模型推理性能。利用第四代至強 可擴展處理器提供的強勁底層算力支撐,及內置 AI 加速引擎-英特爾 AMX,以矩陣運算顯著提升 AI 推理性能;基于英特爾 MKL 及英特爾 oneDNN 搭建大模型鏡像,在滿足計算準確率的前提下,進一步提升模型 性能。實現云端“算力+模型”一站式部署挑戰解決方案云服務器升級解決方案大模型推理調優3.97-4.96倍采用 IPEX 2.0 BF16 優化后,Stable Diffusion 模型推理性能提升達12.52-2.62倍在 LLaMa2-AMX 和 ChatGLM2-AMX 性能測試中,經英特爾 Super-Fuse
19、 優化后,LLM 推理性能提升達2靈活滿足各種應用負載所需Stable-Diffusion 模型優化前后性能對比3掃碼獲取全文大語言模型優化前后性能對比4采用高性能、高經濟性的模型推理算力基礎利用創新的 AI 硬件加速策略,提升模型推理靈活性以經過調優的模型鏡像,充分調用硬件加速能力051015202530Stock PyTorch v2.0 FP32Super-Fuse LLM Sol.LLaMa2-7BChatGLM2-6BLLM(BS=1,Prompt Seq Length=34/59,Maxout=100)在 SPR8458P 48vcore 上推理性能(PyTorch FP32 vs
20、.Super-Fuse LLM Solution,9.4724.822.62 倍加速比22.338.852.52 倍加速比1.2.3.4 有關性能和基準測試結果的更完整信息,請訪問:https:/ 20.00 40.00 60.00 80.00 100.00 120.00 140.00 160.00 512 w/50 steps50.20 65.39148.7614.4112.653.97 倍加速比4.54 倍加速比768 w/20 steps7s720p w/20 steps在上推理性能(PyTorch FP32 vs.IPEX BF16,越低越好)Stock PyTorch v2.0 FP
21、32IPEX v2.0 BF1629.984.96 倍加速比火山引擎第三代彈性計算云服務器實例 g3i 引入第五代至強 可擴展處理器進行全新升級,通用性能與應用場景性能均大幅提升,可有力勝任高達 80 億參數的模型推理,并兼顧速度與成本?;诨鹕揭孀钚伦匝?DPU2.0 架構和第五代至強 可擴展處理器顯著提升的代際性能、更高的 CPU 核心數、更快的內存以及更大的末級緩存容量,顯著提升 g3i 算力性能,實現內存擴容,有效為 LLM 與更多場景提供支撐;利用第五代至強 可擴展處理器及其內置的 AI 加速引擎-英特爾 AMX,在提升算力的同時,高效處理大量矩陣乘法運算,提升 AI 推理性能,勝
22、任 80 億參數模型推理,降低中小模型推理成本。中小模型推理新選擇!算力 性能倍增,實例全新升級挑戰解決方案云實例算力升級解決方案云服務/彈性計算122%火山引擎 g3i 整機算力提升175%火山引擎 g3i 內存帶寬提升23.43倍在 1,024*1,024 分辨率下,使用英特爾 AMX 將數據 轉換為 BF16,SDXL-Turbo 文生圖推理可實現加速比3SDXL-Turbo 文生圖推理性能4火山引擎 g3i 可勝任 80 億參數的模型推理5LIama-3-8B首包時延0.75s吞吐性能22 Token/s1.2.3.4.5 數據來源于火山引擎未公開的內部測試,如欲了解更多詳情,請聯系火
23、山引擎:https:/英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。提供更加穩定可靠、彈性靈活、性能優越的云實例不斷拉升云實例算力性能,滿足變化迅速的業務需求支持內置 AI 加速的算力需求,兼顧速度與成本201510501024*1024512*512圖片像素3.43 倍加速比3.57 倍加速比單次平均耗時FP32BF16910衛寧健康基于第五代至強 可擴展平臺優化醫療大模型 WiNGPT 推理性能,并聯合英特爾進行內存訪問速度優化,加速新興 AI 應用部署。借助至強 CPU 內置 AI 加速引擎英特爾 AMX 的矩陣運算能力,提升大模型推理性能;圖優化
24、:借助 IPEX,使用英特爾 oneDNN 和英特爾 oneCCL 等加速庫實現算子優化,提升 PyTorch 性能;僅權重量化:在保證計算精度的前提下,將參數權重轉存為 INT8,并在計算時恢復到半精度,降低模型推理內存用量,加快計算速度。讓醫院迅速上崗大模型,以 CPU 強化醫療 AI 落地效率挑戰解決方案復雜業務場景對算力平臺和數據安全防護的挑戰硬件升級頻率較低,且已有的計算資源難以充分利用部署專用模型推理服務器成本較高,且存在局限性大模型推理優化解決方案智慧醫療3.08倍基于第五代至強 可擴展處理器的 WiNGPT 7B 推理性能提升可達1優化大模型性能,提升應用體驗控制構建成本,提升
25、經濟性,兼顧不同應用oneDNN oneCCL PyTorch Intel Extension for PyTorch 庫 框架 生態系統 torchvision TorchServe Hugging Face PyTorch Lightning 圖 2.英特爾針對 PyTorch 的優化 僅權重量化僅權重量化是針對大模型的一種在保證計算精度的前提下,將參數權重轉存為 INT8,但是計算時恢復到半精度的一種優化方式,這有助于減少模型推理時的內存用量,加快計算速度。圖 3.WinGPT 優化架構應用層 并發調度優化 軟件層 Weight Prepack Weight Compressed Ind
26、irect Access KV Cache 分布式推理 圖優化 框架層 Intel Extension for PyTorch Intel AI Analytics Toolkit 硬件層 AI 指令集自動調度(AMX/VNNI/AVX512)內存優化 8,9 數據援引自衛寧健康截至 2023 年 11 月的內部測試結果。測試配置 基準配置:雙路英特爾 至強 鉑金 8380 處理器 2.30 GHz,1024 GB 總內存(16x64 GB DDR4 3200 MT/s),745.2 GB 固態盤,Ubuntu 22.04.3 LTS;新配置:雙路英特爾 至強 鉑金 8592+處理器 1.90
27、 GHz,512 GB 總內存(16x32 GB DDR5 5600 MT/s),1.1 TB 固態盤,Ubuntu 22.04.3 LTS。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。實際性能受使用情況、配置和其他因素的差異影響。更多信息請見 www.I WiNGPT 的推理進行了優化,提升了內存使用效率,并通過對 PyTorch 在 CPU 平臺上主要算子的算法進行改良,進一步加快了深度學習框架的推理速度。在基于測試驗證的環境中,在 LLaMA2 模型推理速度達到了 52ms 每個 token,在醫技的報告自動生成場景中,單條結果輸出時間小于 3
28、秒8。在測試中,衛寧健康將基于第五代英特爾 至強 可擴展處理器的方案與基于第三代英特爾 至強 可擴展處理器的方案進行了對比,結果顯示,新一代處理器器可將性能提升超過 3 倍9。在 WinGPT 的使用場景中,業務對于大語言模型的延遲要求相對寬容,因此第五代英特爾 至強 可擴展處理器的強大性能足以滿足用戶的需求。同時,CPU 方案還具有可以輕松擴展推理實例數量的優勢,并且可以在各種平臺上適配進行推理。13.0800.511.522.533.5雙路英特爾 至強 鉑金 8380 處理器雙路英特爾 至強 鉑金 8592+處理器以 8380 處理器的性能結果為基準 WinGPT 7B 推理性能提升(越高
29、越好)圖 4.WinGPT 在不同代處理器上的性能表現收益基于第五代英特爾 至強 可擴展處理器的 WiNGPT 解決方案能夠為醫療機構帶來如下價值:優化大模型性能,提升應用體驗:方案充分釋放了第五代英特爾 至強 可擴展處理器的 AI 性能優勢,結合雙方的技術優化,能夠滿足報告自動生成等場景對于模型推理性能的要求,縮短生成時間,保障用戶的應用體驗??刂扑懔ζ脚_構建成本,提升經濟性:方案可以利用醫療機構部署的通用服務器進行推理,無需額外部署專用的推理服務器,有助于降低相關的采購、部署、運維、能耗等成本。兼顧大模型與其他信息化應用:方案可采用 CPU 進行推理意味著,醫療機構可根據任務需求,靈活地在
30、大模型推理與其他信息化應用之間進行 CPU 算力資源調配,提升了算力分配的敏捷性與靈活性。WiNGPT 優化架構掃碼獲取全文WiNGPT 在不同代際至強 處理器上的性能表現21.2 有關性能和基準測試結果的更完整信息,請訪問:https:/ Pipeline AI 全流程1112亞信科技導入至強 可擴展平臺及英特爾 oneAPI 工具套件、BigDL 等軟硬件組合,以豐富的測量報告數據為基礎,為用戶提供高可用的智能網絡應用解決方案。導入英特爾 至強 可擴展處理器,為方案的高密度計算負荷提供高效算力支持;利用 BigDL 將面向 MR 定位數據的完整模型訓練和預測方案無縫部署在 Spark 平臺
31、上,實現 XGBoost 單機方案的分布式部署;引入英特爾 oneAPI 工具套件,實現從數據預處理到數據特征工程、數據建模和部署的整體端到端優化。內鑄智能運維 外促網絡+AI 融合創新挑戰解決方案算法/模型優化與部署案例研究Network AI10%-15%在精準軌跡預測模型中,新方案相較于傳統算法,定位精度提升了150米在精準軌跡預測模型中,新方案相較于傳統算法,模型預測誤差可小于2全面提升多個維度上的優化使方案在可用性、時效性和準確率上實現基于 BigDL 部署的 Spark+XGBoost 的方案架構掃碼獲取全文亞信科技基于 MR 數據的應用解決方案1.2 有關性能和基準測試結果的更完
32、整信息,請訪問:https:/ 建模和快速處理保證算法模型的時效性 和準確性4案例研究|亞信科技借力英特爾軟硬件組合,基于網絡大數據探索智能網絡應用基于對以上三個維度的梳理,如圖四所示,英特爾幫助亞信科技將面向 MR 定位數據的完整模型訓練和預測方案通過BigDL 無縫部署在 Spark 平臺上,以更小的工作量實現了 AI模型從線下訓練到線上部署的全過程。特征工程機器學習Spark MLLibXGBoost數據預處理ETL結構轉換歸一化交叉特征參數優化模型訓練推理預測BigDLSpark圖四 基于 BigDL 部署的 Spark+XGBoost 的方案架構作為由英特爾開發和開源的統一大數據分析
33、和 AI 平臺,BigDL 能通過一個易于擴展的架構,將 Spark、TensorFlow、PyTorch、XGBoost、OpenVINO 工具套件等常見框架和軟件聚合在一起,通過打造一條從數據采集、清洗、AI 訓練、一直到推理應用的端到端管道,來更高效地幫助使用者構建出對接高價值網絡數據與智能應用的捷徑。在本方案的實際開發與部署中,得益于對 Spark 和 XGBoost的良好支持,BigDL 成功幫助亞信科技實現了 XGBoost 單機方案的分布式部署,使方案中巨大的計算負荷更為均衡地落地在整個集群上,從而解決了方案在面向大規模 MR 數據處理時遇到的工程挑戰和性能挑戰。作為方案所用基礎
34、設施的核心,英特爾 至強 可擴展平臺為方案的高密度計算負荷提供了高效的算力支持。尤其引入第三代英特爾 至強 可擴展處理器后,可借助其全新的微架構設計、更優的內核性能、更大的內存和 I/O 帶寬,以及多種內置技術特性,或者說對特定應用的加速能力來為方案涉及的不同算法提供性能加速。例如 XGBoost 的重要特性之一是其對并行計算有良好的支持,因此可充分利用處理器的多線程能力實現性能優化,而第三代英特爾 至強 可擴展處理器在這方面就提供了出色的支持(在面向單路和雙路的第三代英特爾 至強 可擴展處理器中,每處理器最多可集成 40 個內核、支持 80 路線程),而且這款處理器內置的英特爾 高級矢量擴展
35、 512(英特爾 AVX-512)技術,也同樣在利用不斷更新迭代的 SIMD(Single Instruction Multiple Data,單指令多數據流)指令集為并行計算提供更進一步的加速能力。另一項重要的優化措施來自英特爾 oneAPI 工具套件。如圖五所示,這一集成了多種英特爾軟件開發工具和高性能庫的工具套件,不僅能提供友好的編程環境,還能為方案提供英特爾 oneAPI Data Analytics Library(oneDAL)、面向英特爾 架構優化的 Python 以及優化的開源深度學習/機器學習框架 (如 TensorFlow)等,以快速實現從數據預處理到數據特征工程、數據建模
36、和部署的整體端到端優化,讓亞信科技能夠在多種基于英特爾 架構的硬件(包括 CPU、GPU 以及 FPGA 等)上構建和部署以數據為中心的高性能應用程序,并實現更優的硬件性能。根據工作負載需求采用不同的硬件中間件&框架行業計劃 英特爾產品標量CPUGPUFPGA其他加速器矢量空間矩陣圖五 英特爾 oneAPI 工具套件架構機器學習數據分析直接編程深度學習英特爾 oneAPI AI Analytics 工具套件CPUGPUIntel Extensionfor Scikit-learnIntel-Optimized XGBoostIntel Distribution of Modin with Om
37、niSci BackendIntel Distribution for PythonIntel Optimizationfor TensorFlowIntel Optimizationfor PyTorchIntel Neural CompressorModel Zoo for Intel Architecture圖六 英特爾 oneAPI AI Analytics工具套件組成2案例研究|亞信科技借力英特爾軟硬件組合,基于網絡大數據探索智能網絡應用在移動通信這一專業領域,大數據同樣在扮演越來越重要的角色。不管是對市場和用戶的精細化運營,還是對設備和站點的集中化管理,亦或對新商業機遇的探索,各個
38、電信運營商、終端廠商、應用軟件開發商以及最終用戶都在高效匯集海量數據,并引入諸多新算法、新平臺來實現更優的數據處理方式,并以此推動上述創新應用場景的演進與實踐。作為電信領域重要的數字化轉型使能者,亞信科技也正憑借其深耕移動通信領域多年所積累的經驗,基于 MR 數據等基礎網絡信息資源,助力電信運營商及其它相關服務提供商打造一系列基于網絡大數據的智能應用,來開展對網絡質量的分析、對網絡性能的評估和對電信網絡服務的優化,以求從用戶的真實感知出發來全面提升用戶體驗。MR 數據正是移動通信中評估無線環境的重要依據之一,例如上行 MR 數據就能及時準確地上報終端的信號環境信息,包括參考信號接收功率(Ref
39、erence Signal Receiving Power,RSRP)、參考信號接收質量(Reference Signal Receiving Quality,RSRQ)等。通過對海量 MR 數據的匯集、處理與分析,并與其它網絡數據融合處理,就能為多種智能網絡應用與服務提供有效數據載體。亞信科技基于 MR 數據的典型應用解決方案如圖一所示,來自無線網絡的各種原始 MR 信息在與信令信息等進行合并后形成 MR 數據上報,上報后的數據在利用“MR 定位指紋庫”(由路測數據、關聯 MR 數據、位置特征庫等數據融合訓練得到)模型開展推理預測后,會形成可用的 MR 定位數據,并結合由電信信令提供的定位修
40、正、GIS 場景修正和標簽融合能力,共同為無線網絡質量提升、用戶感知提升、位置能力等上層應用提供數據源。以利用 MR 定位數據開展無線網絡優化為例,電信運營商可通過 MR 定位數據的變化來分析基站所在地的無線環境變化。如圖二所示,當基站 A 的無線環境受到干擾,會引發最終的 MR 定位數據同步發生變化,網絡運維和優化團隊可據此對網絡質量進行預警或治理。信令合并模型訓練/推理定位修正/GIS 場景修正/標簽融合/MR 定位指紋庫路測數據關聯 MR 數據MR 數據MR 定位基于 MR 定位的各類應用原始 MR 信息信令信息京東方在構建工業互聯網邊緣計算平臺及相關應用的過程中,引入一系列英特爾軟硬件
41、產品和技術,在更快響應產線需求、確保生產連續性的同時,使產品品質更趨穩定。引入英特爾 至強 可擴展處理器作為邊緣服務器的核心計算引擎;采用至強 可擴展處理器內置的英特爾 AVX-512 技術為深度學習推理任務中的密集計算提供特定硬件加速支持;引入 OpenVINO 工具套件,為檢測提供軟件調優支持,有效提升系統的整體處理效能。強化工業互聯網邊緣計算能力,收獲產能和品質雙贏挑戰解決方案云邊協同案例研究AI 瑕疵檢測/不良根因分析96%檢測準確率70%人工替代率56%大數據不良根因分析系統使產線效率提升2 60%檢測工藝和維修工藝的操作人員 也可因此減少3基于云邊協同的品質控制解決方案掃碼獲取全文
42、京東方 AI 缺陷檢測系統架構及工作流程示意圖1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ IT 基礎設施予以支撐海量數據給網絡帶寬和數據中心處理能力造成巨大壓力需要采集更多數據滿足建模、分析和訓練的需要AI 缺陷檢測系統1數據中心人環法訓練數據模型/分析結果邊緣服務器品控指令機工廠產線料傳感器PLC 數據工控機數據AI圖三 基于邊緣計算的品質控制解決方案為此,京東方與合作伙伴英特爾一起,開始在其工業互聯網中導入更加強大、也更為智能的邊緣計算技術,主要目標就是在靠近產線的地方將數據采集、預處理,產線管控等工作負載進行整合。如圖三所示,一方面,新方案可以通過各類傳感器和
43、數據接入技術,將人、機、料、法、環等各維度的數據實施更全面的采集,并通過部署在生產一線的邊緣服務器進行數據清洗、預處理等工作;另一方面,后端的數據中心或云也可以通過邊緣服務器匯入的數據進行深度學習訓練、大數據分析建模等工作,爾后再將更新的模型和分析結果返回邊緣服務器,使之對產線進行更為高效的控制調整??梢钥吹?,新方案這種將管控能力充分前置,并提供持續迭代優化的能力,非常有利于保證生產的連續性以及產品品質的穩定性。目前,新方案在檢測準確度、產線效率以及成本控制等方面都獲得了出色的成績。英特爾 至強 可擴展平臺在邊緣加速 AI 缺陷檢測缺陷檢測是屏幕、傳感器等精密器件生產中的關鍵環節,此前的傳統檢
44、測方式是通過電學或光學設備對產品進行測試比對來判斷是否與初始設計相符,但這只能對缺陷進行定位,要獲知缺陷嚴重程度、引發原因以及是否可修復,則仍需人工參與。人工檢測有著諸多先天不足,首先,培訓一名熟練的檢測工程師需要數月時間,而且,即便掌握全部工藝流程的工程師,每天面對1萬到2萬張的復雜圖像,檢測準確率也會大打折扣;其次,隨著工藝飛速發展,涉及的缺陷類型越來越多,且許多已經很難用肉眼發現,例如一塊大屏上可能存在上百種不同的缺陷類型,有些可以進行修復,有些則必須予以切割,一旦關鍵缺陷未被檢出,就會造成整體不良率的上升。為此,京東方曾經需要培訓和安排大量檢測工程師來確保產品質量。以某工廠產線為例,每
45、天需要安排36個工程師,分三班輪流工作來保證檢測效率和準確率,這無疑會帶來巨大的成本支出,同時也難以確保精準且穩定的檢測結果。為解決這一日漸困擾產能和品質提升的難題,京東方自主研發了基于深度學習方法的自動化缺陷分類(AutomatedDefectClassification,ADC)系統,與英特爾一起,利用邊緣計算提升缺陷檢測效率。如圖四所示,在新的AI缺陷檢測系統中,歷史積累的圖像以及由自動光學檢測(AutomatedOpticalInspection,AOI)等設備采集的圖像,都會由邊緣服務器預處理后匯入數據中心,并3案例研究|強化工業互聯網邊緣計算能力收獲產能與品質雙贏計算機視覺機器學習
46、深度學習使用ResNet、Faster-RCNN等圖像檢測和分類算法進行訓練,輸出的模型會被部署到邊緣服務器中。在實際生產過程中,AOI等設備采集的圖像被輸入邊緣服務器后,服務器將選擇合理的模型對其實施推理,并執行圖像標注、不良分類、缺陷識別、趨勢分析以及質量預警等任務,最終將結果輸出到工程師的監控大屏上。為有效提升AI缺陷檢測系統的工作效能,京東方引入英特爾至強可擴展處理器作為其邊緣服務器的核心計算引擎。該處理器不僅具備優秀的微架構設計,通過集成更多的核心、線程以及更大容量的高速緩存來提供出色的基礎算力,它還集成了英特爾高級矢量擴展512(英特爾AVX-512)等技術,來對深度學習推理任務中
47、的密集計算提供特定硬件加速支持。與這款集成AI加速能力的處理器相搭配,京東方還引入了OpenVINO工具套件,為檢測提供軟件調優支持。這款由英特爾開源的工具套件對OpenCV圖像處理庫的指令集進行了全方位優化,在系統的實踐運用中,來自OpenVINO工具套件的OpenCV被證明能有效提升系統的整體處理效能?;谠七厖f同的新AI缺陷檢測系統在京東方各廠區上線部署后,不僅在檢測準確率上取得了高達96%的優異成績,同時還使人工替代率達到了70%7?;诖髷祿夹g打造不良根因分析系統AI缺陷檢測解決的是生產過程中的檢測效率問題,而為了降低整個產線,乃至整個工廠的產品不良率,京東方還依托邊緣計算帶來的數
48、據采集和處理優勢,基于云邊協同體系和大數據技術研發了不良根因分析系統。與前文談及的、傳統的缺陷檢測類似,京東方的不良根因分析在過去也需要由人工完成,其流程是:首先,人工從芯片制造良率分析系統(YieldManagementSystem,YMS)等系統中刷取報表來監控不良數據,而后人為地對相關數據等進行整合,并以工具或經驗來對不良根因進行分析判斷。這種較為依靠人工的方式不僅有著響應時間滯后、處理效率低、數據間關聯性差等缺陷,而且還無法為決策判斷提供詳實可靠的數據支撐,工程師往往還要依靠經驗進行調整。在生產一線部署更強的邊緣計算能力后,京東方運用大數據進行不良根因分析就具備了更為堅實的基礎。如圖五
49、所示,新的分析流程包括了監控、聚類和根因分析三個主要部分。在監控階段,來自產線的各項數據,包括Map數據、檢測數據、生產履歷以及設備參數等數據,將通過各類傳感器、工控機、PLC等設備,被實時采集到邊緣服務器中。邊緣服務器會對海量數據開展抽取-轉換-加載(Extract-Transform-Load,ETL)等預處理流程,然后才會把經過預處理的數據送往云或數據中心上的大數據平臺進行進一步分析和處理。監控聚類根因分析實時監控智能挖掘Trace分析MAP分析圖五大數據不良根因分析流程在聚類階段,大數據平臺會選擇合適的聚類算法對數據實施相關性分析和處理;在根因分析階段,平臺則會通過智能挖掘圖四 京東方
50、AI缺陷檢測系統架構及工作流程示意圖案例研究|強化工業互聯網邊緣計算能力收獲產能與品質雙贏閾值分割OpenCVAForgeTensorFlowKeras線性回歸DensenetAutoEncoder霍夫變換貝葉斯分類GANOpenVINOK 均值聚類Faster-RCNNResNetFFT決策樹VGG歷史積累圖像工業相機采集AOI 設備輸出輸入質量預警狀態預測缺陷控制產品分類智能診斷輸出算法層框架基礎設施計算存儲網絡圖片輸入圖片輸入推理任務結果輸出邊緣服務器樣本標注模型訓練測試驗證模型輸出模型部署1122334456數據中心模型選擇ADC訓練推理1314寧德時代導入英特爾 至強 可擴展平臺及多
51、種配套軟件工具,成功構建橫跨“云-邊-端”,融合計算機視覺、深度學習和機器學習技術的 AI 電池缺陷檢測方案。借英特爾 至強 可擴展處理器及內置 AI 加速能力,為方案提供算力支持和更優 AI 推理能力;以 OpenVINO 工具套件進行模型轉換,進一步提升 AI 推理性能;利用面向英特爾 架構優化的 PyTorch 及其內置的英特爾 oneDNN,提升深度學習框架性能。用“云-邊-端”AI 缺陷檢測 實現產能與品質雙贏挑戰解決方案CV+DL+ML案例研究電池缺陷檢測零漏檢達到預定目標400 FPS圖像處理速度達到預定目標,實現單工序1更優推理性能、訓練準確率與檢出率全新工業視覺平臺系統架構圖
52、掃碼獲取全文不同條件下的模型訓練選用方案建議1有關性能和基準測試結果的更完整信息,請訪問:https:/ 可擴展平臺集成 AI 加速,助力新方案構建為實現新方案的快速落地,寧德時代選擇與英特爾開展合作,導入其領先的軟硬件產品,特別是集成AI加速能力的至強 可擴展平臺,來構建工業視覺平臺系統,該系統正是全新AI缺陷檢測解決方案的核心系統。為實現總體管控的目標,該系統基于“云-邊-端”的架構進行搭建和部署。如圖二所示,這個架構中的“云”設立在寧德時代的總部,掌握總體管控的功能,還可根據實際生產需要,選用合適的模型進行集中訓練,再將訓練好的模型發布給“邊緣”和“端”進行就近推理,并接收其返回的推理結
53、果進行存儲;“邊緣”設立在分工廠,主要用于重級模型的推理;“端”則設立在工廠內每條生產線上,進行前端的數據采集、預處理以及簡單的推理工作,也在“云”和“邊緣”的管控下,對生產線進行實時質量管理。第二代英特爾至強可擴展處理器Corei5/i7IPC第二代英特爾至強可擴展處理器英特爾固態盤D3-S4610系列生產線圖像流預處理模型管理模型庫重級模型推理(OpenVINO、PyTorch)模型訓練模型訓練簡單模型推理(OpenVINO、PyTorch)安裝端邊緣云圖像采集裝置推理結果差錯率質量控制系統模型發布管控調整圖二 全新工業視覺平臺系統架構圖工業視覺平臺系統整個“云-邊-端”的系統架構以集群形
54、式來搭建,不僅便于統一管控,還可以通過分布式部署來減緩處理壓力,但這同時也會帶來分布式推理經常遭遇的銜接不暢問題。寧德時代選用了統一大數據分析及AI平臺來應對這一難題,其包含輕量級、分布式、實時的集群服務解決方案(ClusterServing),提供了pub/sub(發布/訂閱)API,可透明擴展至大型集群部署并能按需擴展規模,且支持TensorFlow、圖一基于傳統數字圖像處理的檢測模式部署圖示總部分工廠1分工廠N生產線1生產線2生產線N生產線1生產線2生產線N生產線1生產線2生產線N每條生產線上單獨部署OpenCV脫節脫節分工廠22案例研究|至強可擴展平臺集成AI加速助寧德時代構建“云-邊
55、-端”缺陷檢測方案內容相似度高內容相似度低數據集少凍結預訓練源模型的初始層(比如K層),然后訓練剩余的N-K層,主要對較高層進行重新訓練,得到目標模型數據集大保留預訓練源模型的結構和初始權重,重新訓練自己的目標模型根據自己的數據從頭開始訓練神經網絡,得到自己的目標模型修改預先訓練的源模型中最后幾層或者全連接層(FC層)的輸出類別,訓練自己的目標模型寧德時代選用方案表一不同條件下的模型訓練選用方案建議展望通過導入集成AI加速能力的英特爾至強可擴展平臺,并與英特爾開展緊密合作對檢測平臺進行持續優化,寧德時代的全新AI動力電池缺陷檢測方案已能達到非常出色的應用效果,并已在寧德時代落地應用。接下來,寧
56、德時代還將與英特爾進一步合作,在動力電池制造及銷售的各個環節中繼續引入更多AI技術,致力于繼續提升產能,嚴保產品質量和提升企業運行效率。案例研究|至強可擴展平臺集成AI加速助寧德時代構建“云-邊-端”缺陷檢測方案1英特爾固態盤D3-S4610系列性能數據來源:https:/ Chronos 框架打造全新的 5GC 網元資源占用率預測方案,預測準確率符合預期,為后續數據中心減排方案奠定了堅實的技術基礎。方案使用至強 可擴展處理器為 5GC 網元資源占用率預測方案提供通用算力支持;在 BigDL 超參數優化組件幫助下,開展從數據預處理、特征工程到模型訓練等全棧的自動化機器學習過程;基于 BigDL
57、 Chronos 框架豐富的組件和集成的優化策略,方案實現了更優的預測效果和更快的預測速度。5G 網絡借智能化實現動態節能,構建新型綠色基礎設施挑戰解決方案時間序列模型解決方案5GC 網元資源占用率預測1.71處理器占用率預測值與實際值對比的最終 MSE 結果僅為115%新方案預計可使單臺服務器能耗降低超過24,600萬度新方案可使整個云資源池預計每年節電3中國聯通基于 Chronos 框架的時間序列預測方案基本流程掃碼獲取全文Chronos 框架基本架構1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 網絡作為服務核心網絡,對服務質量要求極高5GC 網絡對算力資源供應能
58、力非常敏感在降低能耗的同時保證核心業務的高效持續運行3解決方案簡介|中國聯通采用 BigDL Chronos 框架實現 5GC 網絡動態節能,打造新型數字信息基礎設施為進一步確定 5GC 網元業務量與處理器占用率之間的對應關系,如圖 4 所示,聯通在 5GC 網元上對兩種數據的關系開展了分析。通過對大量數據的采集、整理與分析,獲得了以下結論并為后續方案建模的依據:5GC 網元業務量與時間(隨用戶使用量變化)相關,且存在波峰波谷特性;通信云資源池中的處理器負載和業務量負載變化規律趨于一致,因此方案的建模任務可集中在業務量與處理器占用 率上;在整個通信業務運行期間,可通過實時檢測業務負載、業務質量
59、指標的變化,來靈活調整服務器的運行狀態,實施動態節能減排;借助英特爾提供的處理器降頻(在業務量負載低谷期間實施)等功能,可以實現服務器能耗調整。5G 核心網網元業務量處理器占用率圖 4 5GC 網元業務量與處理器占用率對比 用于構建大規模時間序列分析應用程序的 Chronos 框架如前所述,無論是 5GC 網元業務量還是處理器占用率,兩者都是一系列隨時間變化的數據,即時間序列數據。時間序列數據分析可被廣泛應用于各個領域的預測性分析,如通信網絡質量分析、數據中心運營的日志分析等。與傳統統計學方法相比,基于深度學習方法開展的時間序列任務,已被證明在預測準確性與靈活性上更具優勢。因此,中國聯通新方案
60、選擇了智能化的時間序列預測性分析方法,以尋求技術突破。但傳統上,構建時間序列預測模型并形成高效可用的 AI 應用是一個費事費力,且需要較高技術儲備的過程。從數據采集和預處理、特征工程再到模型訓練,各個環節都可能影響方案推進。尤其是,以往為提升模型的準確性和性能,通常需要耗費巨大的人力和時間資源對超參數進行手動調優,且結果往往并不令人滿意。因此實現更高效的超參數優化(Hyperparameter optimization,HPO)過程,也是中國聯通在新方案構建中面臨的重要挑戰。為此,英特爾向中國聯通提供了用于構建大規模時間序列預測應用程序的 Chronos 框架。如圖 5 所示,這一框架源自英特
61、爾開源的統一大數據分析和人工智能平臺 BigDL,主要提供了三個組件,功能分別為:數據處理與特征工程(Data Processing&Feature Engi-neering)組件:內置了 70 多個數據處理和特征工程工具,通過 TSDataset API 接口來供中國聯通方便地調用,從而快捷高效地完成數據預處理和特征工程流程;內置模型(Built-in Models)組件:內置 10 余個可用于時間序列預測、檢測和模擬的獨立深度學習和機器學習模型;超參數優化(Hyperparameter optimization)組件:高度集成、可擴展和自動化的工作流(通過 AutoTSEstimator
62、等 API 實現),能幫助中國聯通開展從數據預處理、特征工程到模型訓練、模型選擇和超參調優等全棧的自動化機器學習過程。英特爾提供的多種優化方式,例如框架所集成的 ONNX runtime 以及英特爾 oneAPI AI Analytics Toolkit 等,也為推理提供良好支持。Chronos Pipeline1.Data Processing&Feature Engineering2.Built-in Models3.(Optional)HPOTSDatasetBuilt-in DatasetForecasterAutoTSEstimatorDetectorsAutoModelSimula
63、torsTSPipelineOrca.dataDistributed data-parallel processingLaptop/Single NodeK8sSpark/RayCloudOrca.learnDistributed training on Big DataOrca.automlDistributed Tunning on Big Data Cluster4解決方案簡介|中國聯通采用 BigDL Chronos 框架實現 5GC 網絡動態節能,打造新型數字信息基礎設施Chronos 框架Chronos 框架實時業務數據歷史業務數據服務器資源利用率日志數據采集數據預處理特征工程模型
64、訓練數據采集數據預處理特征工程模型推理服務器處理器占用率預測時間序列預測模型1516傳統功率預測方法存在準確率低、波動性大等弊端單一的 DL 或 ML 方法在準確率和穩定性方面有待提升基于 AI 的預測系統所涉及的一系列模型構建過程對電力企業的 IT 能力有較大挑戰金風慧能基于英特爾統一的大數據分析和 AI 平臺打造包含特征工程搭建、預測影響因子捕捉等的分布式架構,并針對預測數據的時序特性進行針對性優化。采用英特爾 至強 可擴展處理器,為智能功率預測方案提供強勁算力支撐;引入 BigDL 打造分布式架構,并針對預測數據的時序特性進行有針對性的優化;構建分布式、結合氣象預報的多模型組合功率預測系
65、統,有效提升新方案部署效率及可擴展性,降低成本并提高預測準確率和穩定性。捕捉氣象的”秘密”,借力 AI 領跑綠色能源發展之路挑戰解決方案時序數據分析案例研究智能功率預測20%新方案將預測準確率提升超過1100個新方案驗證將擴大到更多光伏場站2顯著提升在風電場中引入新方案,發電效率基于 BigDL 的分布式功率預測架構掃碼獲取全文結合氣象預報數據的多模型組合預測方案架構1.2有關性能和基準測試結果的更完整信息,請訪問:https:/ BigDL 2.0,其合并原始 BigDL 和 Analytics ZooB Bi ig gD DL L/T Te en ns so or rF Fl lo ow
66、w/K Ke er ra as s圖四 基于AnalyticsZoo的分布式功率預測架構同時,AnalyticsZoo還能卓有成效地將英特爾提供的眾多底層軟件加速庫,如英特爾數學核心函數庫(IntelMathKernelLibrary,英特爾MKL)、面向深度神經網絡的英特爾數學核心函數庫(IntelMathKernelLibraryforDeepNeuralNetwork,英特爾MKL-DNN)等,應用到上層功率預測方案的優化中去;并可將TensorFlow、Keras模型透明地擴展到大數據集群,使用戶能更方便地在訓練或推理方案中采用分布式架構,以進一步提升性能表現。在提供統一的端到端平臺架
67、構之外,AnalyticsZoo給予新方案的優勢,還在于其提供了一系列與時序數據分析相關的功能和特性。首先,AnalyticsZoo對于不同時序分析應用,如時序圖三結合氣象預報數據的多模型組合預測方案架構氣象點算法參數影響因子捕捉海量數據挖掘氣象源CMAMLConwxECMETEGFSPVSMIXAI算法SVMGBDTLSTMMLP單機相似日KNNCNNMLPAI算法模型方法2方法1-可用SVM+CMA方法2-理論SVM+CMA方法1方法3對應子模型子模型定期自我學習、更新、淘汰使用最新數據訓練的子模型3案例研究|英特爾大數據分析+AI平臺助金風慧能打造新能源智能功率預測方案進行捕捉。然后如圖
68、三所示,方案將來自不同氣象預報源,例如中國氣象局、歐洲氣象中心的氣象預報數據與不同深度學習或機器學習算法的參數相組合,形成諸如SVM+CMA的方法。同時,新方案也可根據需要,形成更多的組合方法。各種組合方法中的算法模型,也能夠不斷使用最新數據對其子模型進行訓練,從而完成子模型的定期自我學習、更新和淘汰,以不斷迭代的方式提升預測系統的準確率。Analytics Zoo 助力分布式功率預測架構搭建金風慧能新方案的主要優勢是與氣象預報數據進行了結合。眾所周知,氣象預報數據是一種典型的時序數據,其數值會隨著時間的變化而發生變化。因此,選擇更適用于時序數據處理的系統架構,無疑可進一步提升預測系統的準確性
69、和穩定性,而英特爾統一的大數據分析和AI平臺AnalyticsZoo,不僅可為方案提供統一的端到端分布式方案,幫助用戶提升系統的開發部署效率和可擴展性,同時其在時序數據分析方面的獨特功能和優勢也能為新方案提供更強助力。作為英特爾在大數據分析與AI領域的融合型創新成果,AnalyticsZoo如圖四所示,可幫助金風慧能將新方案中的Spark、TensorFlow、Keras及其它軟件和框架無縫集成到同一管道中。這一方法有助于金風慧能將數據存儲、數據處理以及訓練推理的流水線整合到統一的基礎設施上,來大幅提升新方案的部署效率、資源利用率和可擴展性,并減少用于硬件管理及系統運維的成本。S Sp pa
70、ar rk kP Pr ro os st tg gr re eS SQ QL LH HD DF FS S/H HB Ba as se eK Ka af fk ka aP Pr re es st to o數據治理B Bi ig gD DL L/T Te en ns so or rF Fl lo ow w/K Ke er ra as s圖四 基于AnalyticsZoo的分布式功率預測架構同時,AnalyticsZoo還能卓有成效地將英特爾提供的眾多底層軟件加速庫,如英特爾數學核心函數庫(IntelMathKernelLibrary,英特爾MKL)、面向深度神經網絡的英特爾數學核心函數庫(Inte
71、lMathKernelLibraryforDeepNeuralNetwork,英特爾MKL-DNN)等,應用到上層功率預測方案的優化中去;并可將TensorFlow、Keras模型透明地擴展到大數據集群,使用戶能更方便地在訓練或推理方案中采用分布式架構,以進一步提升性能表現。在提供統一的端到端平臺架構之外,AnalyticsZoo給予新方案的優勢,還在于其提供了一系列與時序數據分析相關的功能和特性。首先,AnalyticsZoo對于不同時序分析應用,如時序圖三結合氣象預報數據的多模型組合預測方案架構氣象點算法參數影響因子捕捉海量數據挖掘氣象源CMAMLConwxECMETEGFSPVSMIXA
72、I算法SVMGBDTLSTMMLP單機相似日KNNCNNMLPAI算法模型方法2方法1-可用SVM+CMA方法2-理論SVM+CMA方法1方法3對應子模型子模型定期自我學習、更新、淘汰使用最新數據訓練的子模型3案例研究|英特爾大數據分析+AI平臺助金風慧能打造新能源智能功率預測方案騰訊云基于第五代至強 可擴展處理器、英特爾 AMX 及英特爾 AVX-512,軟、硬并行,為向量數據庫提供顯著性能優化,有效提升向量數據庫檢索效率。利用第五代至強 可擴展處理器全新的架構設計、更強的單核性能等優勢獲得更強的算力基礎;基于英特爾 AMX 及英特爾 AVX-512 AI 加速引擎,進行常用計算庫的專門優化
73、,顯著提升向量檢索效率;利用英特爾 FMAL 加速庫優化暴力搜索性能,充分調配處理器資源并優化和緩存數據對齊功能,進一步提升向量數據庫性能。至強+向量數據庫,打造大模型時代數據中樞挑戰解決方案數據庫性能優化解決方案分布式向量數據庫5.8倍經英特爾 AMX 優化的英特爾 FMAL 執行暴力 搜索算法,相比 FP32,INT8 場景性能提升達1230%采用第五代至強 可擴展處理器且經英特爾 AVX-512 優化后,較第三代至強 可擴展處理器,QPS 性能提升了2高性能向量數據庫 有效降低模型訓練成本英特爾 AVX-512 優化效果與代際性能提升測試(針對 Faiss 計算庫的 IVF-PQFast
74、Scan 算法)3掃碼獲取全文英特爾 AMX 架構1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 密度的算力輸出深度優化向量檢索算法執行 效率,提升檢索性能滿足暴力搜索場景中對算力的極高需求每核可存儲更大的數據塊可在單次運算中計算更大矩陣的指令TILE2D 寄存器文件平鋪矩陣乘法(TMUL)2 9 01 3 52 4 78 1 5英特爾 AMX4每核可存儲更大的數據塊可在單次運算中計算 更大矩陣的指令TILE2D 寄存器文件平鋪矩陣乘法(TMUL)2 9 01 3 52 4 78 1 5英特爾 AMX圖四 英特爾 AMX 架構由 2D 寄存器文件(TILE)和 TMUL
75、 組成基于英特爾 AVX-512 和英特爾 AMX,騰訊云與英特爾一起,針對騰訊云向量數據庫常用的一些計算庫進行了專門的優化。包括:FAISS:方案中針對其不同的索引提出了不同的優化方案,包括面向 IVF-FLAT 算法的 ReadOnce(單次讀取)和Discretization(離散化)兩種優化思路,以及借助英特爾 AVX-512 加速 IVF-PQFastScan 算法和 IVF-SQ 索引的優化方案;HNSWlib:方案借助英特爾 AVX-512,對 HNSWlib 的向量檢索性能進行了加速。同時方案也針對增刪數據后的性能和召回率抖動的問題進行了專向優化,使 HNSWlib 的性能和召
76、回率可以保持較平穩狀態。此外,英特爾還為騰訊云向量數據庫提供了英特爾 FMAL 加速庫(Intel Feature Matching Acceleration Library,英特爾 特征匹配加速庫)。在面臨海量向量數據時,暴力搜索有著非常多的使用,但這一場景對算力需求非常高,因此性能優化極為必要。作為針對向量暴力搜索場景開發的算法庫,英特爾 FMAL 在英特爾 AVX-512 和英特爾 AMX 的加持下,能對相似度計算進行加速并提供了相似度計算和 top-K 查詢的 API 接口。值得一提的是,英特爾 FMAL 能與英特爾 AMX 結合,對 INT8 數據類型的性能實現進一步優化。同時,英特
77、爾 FMAL 還能在多線程并發下對處理器資源進行合理地調配,以便讓用戶充分挖掘最新處理器所具備的多核心優勢。除此之外,加速庫也提供了對內存的非一致內存訪問架構(Non Uniform Memory Access,NUMA)優化和緩存數據對齊功能,這些都進一步提升了騰訊云向量數據庫的性能。效果評估:經英特爾產品與技術加速的騰訊云向量數據庫獲得顯著性能提升為驗證第五代英特爾 至強 可擴展處理器、英特爾 AVX-512及英特爾 AMX 的引入,對騰訊云向量數據庫中向量檢索任務提供的助力,騰訊云與英特爾攜手開展了驗證測試,測試分為兩個場景:場景 1:英特爾 AVX-512 優化效果與代際性能提升測試3
78、 測試分為以下三個對比組:基準組:基于第三代至強 可擴展處理器的騰訊云 S6 服務器,實例規格:16 虛擬核;測試中使用 Faiss 計算庫的 IVF-PQFastScan 算法進行檢索,向量維度 768,數據集數據量10 萬,nprobe=10;測試組 1:基于第三代至強 可擴展處理器的騰訊云 S6 服務器,實例規格:16 虛擬核;使用英特爾 AVX-512 對 Faiss 計算庫的 IVF-PQFastScan 算法進行優化,向量維度 768,數據集數據量 10 萬,nprobe=10;測試組 2:基于第五代至強 可擴展處理器的服務器,實例規格:16 虛擬核;使用英特爾 AVX-512 對
79、 Faiss 計算庫的IVF-PQFastScan 算法進行優化,向量維度 768,數據集數據量 10 萬,nprobe=10。0.0基準組測試組 1測試組 20.51.01.52.02.53.03.5圖五 英特爾軟硬件產品與技術帶來的性能提升(歸一化)測試結果如圖五所示,經數據歸一化對比后,在同樣使用 騰訊云 S6 服務器(基于第三代至強 可擴展處理器)的情況下,使用英特爾 AVX-512 優化后,使用 IVF-PQFastScan 算法執行向量檢索時的 QPS 性能提升了約 100%,而將算力設備升級為 白皮書|軟硬件并行優化,第五代英特爾 至強 可擴展處理器助騰訊云向量數據庫成為大模型時
80、代數據中樞1718騰訊云將第二代英特爾 至強 可擴展處理器及 BigDL 集成到智能鈦機器學習平臺,使該平臺獲得了更強大的 AutoML 特性,讓 AI 初學者也能輕松使用。采用第二代至強 可擴展平臺及其內置的英特爾 DL Boost,提升平臺的深度學習負載性能;利用英特爾 oneDNN 的優化和加速,充分釋放至強 可擴展處理器的模型訓練和推理性能;基于 BigDL 強化平臺的 AutoML 特性,提供方便易用的接口,讓用戶能輕松進行時序數據分析及機器學習建模。打造高效易用的一站式 云上機器學習平臺挑戰解決方案AutoML解決方案時序預測更加容易BigDL AutoML 框架使訓練時序分析模型
81、的過程吻合度更高基于 BigDL AutoML 的預測值 和實際值便捷輕松用戶創建端到端 AI 應用基于傳統方法與 BigDL AutoML 的時序預測對比1掃碼獲取全文BigDL 中的 AutoML 框架1 有關性能和基準測試結果的更完整信息,請訪問:https:/ BigDL 2.0,其合并原始 BigDL 和 Analytics Zoo *英特爾 MKL-DNN 已改名為英特爾 oneDNN經典時序數據預測方法經常需要對數據的分布進行假設,并且要做時序分解 當時間序列中的周期長度不是特別規則的時候,使用傳統方法預測偏差較大AutoML 框架利用 Ray Tune 在 RayOnSpark
82、 上進行超參數搜索,已實現的超參數搜索涵蓋了特征工程和建模。在特征工程中,搜索引擎從各種特征生成工具(比如 featuretools)自動生成的特征集合中選擇最佳的子集;在建模中,搜索引擎搜索超參數,例如每層的節點數、學習率等。在本項目中,使用流行的深度學習框架,例如 TensorFlow 和 Keras,來構建和訓練模型,并使用 Apache Spark 和 Ray 來進行分布式的運行。AutoML 框架目前包括四個基本組件,即 FeatureTransformer、Model、SearchEngine 和 Pipeline。Feature Transformer 定義了特征工程流程,其通常
83、包括一系列操作,如特征生成、特征縮放和特征選擇;Model 定義了模型(如神經網絡)和使用的優化算法(如 SGD、Adam 等)。此外,Model 還可能包括模型/算法選擇;SearchEngine 負責搜索 FeatureTransformer 和 Model 的最佳超參數組合,控制實際的模型訓練過程;Pipeline 則是一個集成了 FeatureTransformer 和 Model 的端到端的數據分析流水線,Pipeline 可輕松保存到文件中,方便后續加載重新使用。利用 AutoML 框架訓練模型的一般流程包括以下步驟:首先實例化 FeatureTransformer 和 Model
84、,隨后對 Search Engine 進行實例化,并由 FeatureTransformer、Model 及一些搜索預設(指定超參數搜索空間、獎勵指標等)進行配置。SearchEngine 運行搜索程序。每次運行將生成多個試驗,并使用 Ray Tune 在集群中分布式運行這些試驗。每個試驗使用不同的超參數組合完成特征工程和模型訓練流程,并返回目標指標。在所有試驗完成后,可根據目標指標檢索出一組最佳的超參數,并得到訓練好的模型,用于創建最終的 FeatureTransformer 和 Model,以及構成 Pipeline。Pipeline 可被保存至文件中,以便通過后續加載用以推理和/或增量訓
85、練。Analytics Zoo 提供了 一個方便的接口 TimeSequencePredictor,將上述 AutoML 框架的一般步驟加以封裝,集成了大量時序相關的特征處理和模型,專門用于時序預測模型的訓練。用戶可以直接調用這個接口進行自動化的時序預測模型訓練,輸出 Pipeline和保存,方便后續進行預測、部署以及增量訓練更新。騰訊云智能鈦機器學習平臺 TI ONE 已經整合了 Analytics Zoo 組件,如圖三所示。有興趣的用戶可以使用智能鈦機器學習平臺的 Analytics Zoo 組件,進行時間序列數據的分析以及機器學習建模。5 Analytics Zoo提供了一個方便的接口T
86、imeSequencePredictor,將上述AutoML框架的一般步驟加以封裝,集成了大量時序相關的特征處理和模型,專門用于時序預測模型的訓練。用戶可以直接調用這個接口進行自動化的時序預測模型訓練,輸出 Pipeline 和保存,方便后續進行預測、部署以及增量訓練更新。騰訊云智能鈦機器學習平臺 TI ONE 已經整合了 Analytics Zoo 組件,如圖三所示。有興趣的用戶可以使用智能鈦機器學習平臺的 Analytics Zoo 組件,進行時間序列數據的分析以及機器學習建模。圖三:騰訊云智能鈦機器學習平臺 TI-ONE 整合了 Analytics Zoo 3.Analytics zoo
87、 AutoML 的優勢 基于 Analytics Zoo 的 AutoML 不僅可以實現特征生成、模型選擇和超參數調優的過程自動化,而且由其訓練生成的模型準確率通常會超越傳統方法或者手工調優措施。如下圖第一組對比,當時序數據中的周期長度不是特別規則的時候,使用傳統方法進行時間序列數據預測會產生較大偏差,而基于 Analytics Zoo AutoML 的預測值和實際值吻合度較高。如下圖第二組對比,傳統方法對時間序列數據中峰值不是特別規則的情況預測偏差較大,而 Analytics Zoo AutoML 的模型的吻合度相對較高。圖三 整合了 Analytics Zoo 的騰訊云 智能鈦機器學習平臺
88、 TI-ONEAnalytics Zoo AutoML 的優勢基于 Analytics Zoo 的 AutoML 不僅可以實現特征生成、模型選擇和超參數調優的過程自動化,而且由其訓練生成的模型準確率通常會超越傳統方法或者手工調優措施。如下圖第一組對比,當時序數據中的周期長度不是特別規則的時候,使用傳統方法進行時間序列數據預測會產生較大偏差,而基于Analytics Zoo AutoML 的預測值和實際值吻合度較高。如下圖第二組對比,傳統方法對時間序列數據中峰值不是特別規則的情況預測偏差較大,而 Analytics Zoo AutoML 的模型的吻合度相對較高。5 Analytics Zoo提供
89、了一個方便的接口TimeSequencePredictor,將上述AutoML框架的一般步驟加以封裝,集成了大量時序相關的特征處理和模型,專門用于時序預測模型的訓練。用戶可以直接調用這個接口進行自動化的時序預測模型訓練,輸出 Pipeline 和保存,方便后續進行預測、部署以及增量訓練更新。騰訊云智能鈦機器學習平臺 TI ONE 已經整合了 Analytics Zoo 組件,如圖三所示。有興趣的用戶可以使用智能鈦機器學習平臺的 Analytics Zoo 組件,進行時間序列數據的分析以及機器學習建模。圖三:騰訊云智能鈦機器學習平臺 TI-ONE 整合了 Analytics Zoo 3.Anal
90、ytics zoo AutoML 的優勢 基于 Analytics Zoo 的 AutoML 不僅可以實現特征生成、模型選擇和超參數調優的過程自動化,而且由其訓練生成的模型準確率通常會超越傳統方法或者手工調優措施。如下圖第一組對比,當時序數據中的周期長度不是特別規則的時候,使用傳統方法進行時間序列數據預測會產生較大偏差,而基于 Analytics Zoo AutoML 的預測值和實際值吻合度較高。如下圖第二組對比,傳統方法對時間序列數據中峰值不是特別規則的情況預測偏差較大,而 Analytics Zoo AutoML 的模型的吻合度相對較高。圖四 傳統方法的時間序列數據預測6 圖四:傳統方法的
91、時間序列數據預測 圖五:Analytics Zoo AutoML 的時間序列數據預測 圖六:傳統方法的時間序列數據預測 圖七:Analytics Zoo AutoML 的時間序列數據預測 4.在騰訊云智能鈦機器學習平臺上使用 AutoML 檢測數據異常 下面將通過一個案例介紹 Analytics Zoo AutoML 在騰訊云智能鈦機器學習平臺上的使用方法。:騰訊云將先進的第二代英特爾 至強可擴展處理器應用于騰訊云智能鈦機器學習平臺。第二代英特爾 至強可擴展處理器支持英特爾深度學習加速(Intel Deep Learning Boost)技術,極大提升了人工智能負載,特別是深度學習負載性能。A
92、nalytics Zoo 通過利用英特爾MKL-DNN 的優化和加速,高度釋放了英特爾至強可擴展處理器的模型訓練和推理性能。圖五 Analytics Zoo AutoML 的時間序列數據預測6 圖四:傳統方法的時間序列數據預測 圖五:Analytics Zoo AutoML 的時間序列數據預測 圖六:傳統方法的時間序列數據預測 圖七:Analytics Zoo AutoML 的時間序列數據預測 4.在騰訊云智能鈦機器學習平臺上使用 AutoML 檢測數據異常 下面將通過一個案例介紹 Analytics Zoo AutoML 在騰訊云智能鈦機器學習平臺上的使用方法。:騰訊云將先進的第二代英特爾
93、至強可擴展處理器應用于騰訊云智能鈦機器學習平臺。第二代英特爾 至強可擴展處理器支持英特爾深度學習加速(Intel Deep Learning Boost)技術,極大提升了人工智能負載,特別是深度學習負載性能。Analytics Zoo 通過利用英特爾MKL-DNN 的優化和加速,高度釋放了英特爾至強可擴展處理器的模型訓練和推理性能。圖六 傳統方法的時間序列數據預測6 圖四:傳統方法的時間序列數據預測 圖五:Analytics Zoo AutoML 的時間序列數據預測 圖六:傳統方法的時間序列數據預測 圖七:Analytics Zoo AutoML 的時間序列數據預測 4.在騰訊云智能鈦機器學習
94、平臺上使用 AutoML 檢測數據異常 下面將通過一個案例介紹 Analytics Zoo AutoML 在騰訊云智能鈦機器學習平臺上的使用方法。:騰訊云將先進的第二代英特爾 至強可擴展處理器應用于騰訊云智能鈦機器學習平臺。第二代英特爾 至強可擴展處理器支持英特爾深度學習加速(Intel Deep Learning Boost)技術,極大提升了人工智能負載,特別是深度學習負載性能。Analytics Zoo 通過利用英特爾MKL-DNN 的優化和加速,高度釋放了英特爾至強可擴展處理器的模型訓練和推理性能。圖七 Analytics Zoo AutoML 的時間序列數據預測3白皮書|騰訊-英特爾
95、Analytics Zoo AutoML 合作項目白皮書AutoML 框架利用 Ray Tune 在 RayOnSpark 上進行超參數搜索,已實現的超參數搜索涵蓋了特征工程和建模。在特征工程中,搜索引擎從各種特征生成工具(比如 featuretools)自動生成的特征集合中選擇最佳的子集;在建模中,搜索引擎搜索超參數,例如每層的節點數、學習率等。在本項目中,使用流行的深度學習框架,例如 TensorFlow 和 Keras,來構建和訓練模型,并使用 Apache Spark 和 Ray 來進行分布式的運行。AutoML 框架目前包括四個基本組件,即 FeatureTransformer、Mo
96、del、SearchEngine 和 Pipeline。Feature Transformer 定義了特征工程流程,其通常包括一系列操作,如特征生成、特征縮放和特征選擇;Model 定義了模型(如神經網絡)和使用的優化算法(如 SGD、Adam 等)。此外,Model 還可能包括模型/算法選擇;SearchEngine 負責搜索 FeatureTransformer 和 Model 的最佳超參數組合,控制實際的模型訓練過程;Pipeline 則是一個集成了 FeatureTransformer 和 Model 的端到端的數據分析流水線,Pipeline 可輕松保存到文件中,方便后續加載重新使用
97、。利用 AutoML 框架訓練模型的一般流程包括以下步驟:首先實例化 FeatureTransformer 和 Model,隨后對 Search Engine 進行實例化,并由 FeatureTransformer、Model 及一些搜索預設(指定超參數搜索空間、獎勵指標等)進行配置。SearchEngine 運行搜索程序。每次運行將生成多個試驗,并使用 Ray Tune 在集群中分布式運行這些試驗。每個試驗使用不同的超參數組合完成特征工程和模型訓練流程,并返回目標指標。在所有試驗完成后,可根據目標指標檢索出一組最佳的超參數,并得到訓練好的模型,用于創建最終的 FeatureTransform
98、er 和 Model,以及構成 Pipeline。Pipeline 可被保存至文件中,以便通過后續加載用以推理和/或增量訓練。Analytics Zoo 提供了 一個方便的接口 TimeSequencePredictor,將上述 AutoML 框架的一般步驟加以封裝,集成了大量時序相關的特征處理和模型,專門用于時序預測模型的訓練。用戶可以直接調用這個接口進行自動化的時序預測模型訓練,輸出 Pipeline和保存,方便后續進行預測、部署以及增量訓練更新。騰訊云智能鈦機器學習平臺 TI ONE 已經整合了 Analytics Zoo 組件,如圖三所示。有興趣的用戶可以使用智能鈦機器學習平臺的 An
99、alytics Zoo 組件,進行時間序列數據的分析以及機器學習建模。5 Analytics Zoo提供了一個方便的接口TimeSequencePredictor,將上述AutoML框架的一般步驟加以封裝,集成了大量時序相關的特征處理和模型,專門用于時序預測模型的訓練。用戶可以直接調用這個接口進行自動化的時序預測模型訓練,輸出 Pipeline 和保存,方便后續進行預測、部署以及增量訓練更新。騰訊云智能鈦機器學習平臺 TI ONE 已經整合了 Analytics Zoo 組件,如圖三所示。有興趣的用戶可以使用智能鈦機器學習平臺的 Analytics Zoo 組件,進行時間序列數據的分析以及機器
100、學習建模。圖三:騰訊云智能鈦機器學習平臺 TI-ONE 整合了 Analytics Zoo 3.Analytics zoo AutoML 的優勢 基于 Analytics Zoo 的 AutoML 不僅可以實現特征生成、模型選擇和超參數調優的過程自動化,而且由其訓練生成的模型準確率通常會超越傳統方法或者手工調優措施。如下圖第一組對比,當時序數據中的周期長度不是特別規則的時候,使用傳統方法進行時間序列數據預測會產生較大偏差,而基于 Analytics Zoo AutoML 的預測值和實際值吻合度較高。如下圖第二組對比,傳統方法對時間序列數據中峰值不是特別規則的情況預測偏差較大,而 Analyti
101、cs Zoo AutoML 的模型的吻合度相對較高。圖三 整合了 Analytics Zoo 的騰訊云 智能鈦機器學習平臺 TI-ONEAnalytics Zoo AutoML 的優勢基于 Analytics Zoo 的 AutoML 不僅可以實現特征生成、模型選擇和超參數調優的過程自動化,而且由其訓練生成的模型準確率通常會超越傳統方法或者手工調優措施。如下圖第一組對比,當時序數據中的周期長度不是特別規則的時候,使用傳統方法進行時間序列數據預測會產生較大偏差,而基于Analytics Zoo AutoML 的預測值和實際值吻合度較高。如下圖第二組對比,傳統方法對時間序列數據中峰值不是特別規則的
102、情況預測偏差較大,而 Analytics Zoo AutoML 的模型的吻合度相對較高。5 Analytics Zoo提供了一個方便的接口TimeSequencePredictor,將上述AutoML框架的一般步驟加以封裝,集成了大量時序相關的特征處理和模型,專門用于時序預測模型的訓練。用戶可以直接調用這個接口進行自動化的時序預測模型訓練,輸出 Pipeline 和保存,方便后續進行預測、部署以及增量訓練更新。騰訊云智能鈦機器學習平臺 TI ONE 已經整合了 Analytics Zoo 組件,如圖三所示。有興趣的用戶可以使用智能鈦機器學習平臺的 Analytics Zoo 組件,進行時間序列
103、數據的分析以及機器學習建模。圖三:騰訊云智能鈦機器學習平臺 TI-ONE 整合了 Analytics Zoo 3.Analytics zoo AutoML 的優勢 基于 Analytics Zoo 的 AutoML 不僅可以實現特征生成、模型選擇和超參數調優的過程自動化,而且由其訓練生成的模型準確率通常會超越傳統方法或者手工調優措施。如下圖第一組對比,當時序數據中的周期長度不是特別規則的時候,使用傳統方法進行時間序列數據預測會產生較大偏差,而基于 Analytics Zoo AutoML 的預測值和實際值吻合度較高。如下圖第二組對比,傳統方法對時間序列數據中峰值不是特別規則的情況預測偏差較大,
104、而 Analytics Zoo AutoML 的模型的吻合度相對較高。圖四 傳統方法的時間序列數據預測6 圖四:傳統方法的時間序列數據預測 圖五:Analytics Zoo AutoML 的時間序列數據預測 圖六:傳統方法的時間序列數據預測 圖七:Analytics Zoo AutoML 的時間序列數據預測 4.在騰訊云智能鈦機器學習平臺上使用 AutoML 檢測數據異常 下面將通過一個案例介紹 Analytics Zoo AutoML 在騰訊云智能鈦機器學習平臺上的使用方法。:騰訊云將先進的第二代英特爾 至強可擴展處理器應用于騰訊云智能鈦機器學習平臺。第二代英特爾 至強可擴展處理器支持英特爾
105、深度學習加速(Intel Deep Learning Boost)技術,極大提升了人工智能負載,特別是深度學習負載性能。Analytics Zoo 通過利用英特爾MKL-DNN 的優化和加速,高度釋放了英特爾至強可擴展處理器的模型訓練和推理性能。圖五 Analytics Zoo AutoML 的時間序列數據預測6 圖四:傳統方法的時間序列數據預測 圖五:Analytics Zoo AutoML 的時間序列數據預測 圖六:傳統方法的時間序列數據預測 圖七:Analytics Zoo AutoML 的時間序列數據預測 4.在騰訊云智能鈦機器學習平臺上使用 AutoML 檢測數據異常 下面將通過一個
106、案例介紹 Analytics Zoo AutoML 在騰訊云智能鈦機器學習平臺上的使用方法。:騰訊云將先進的第二代英特爾 至強可擴展處理器應用于騰訊云智能鈦機器學習平臺。第二代英特爾 至強可擴展處理器支持英特爾深度學習加速(Intel Deep Learning Boost)技術,極大提升了人工智能負載,特別是深度學習負載性能。Analytics Zoo 通過利用英特爾MKL-DNN 的優化和加速,高度釋放了英特爾至強可擴展處理器的模型訓練和推理性能。圖六 傳統方法的時間序列數據預測6 圖四:傳統方法的時間序列數據預測 圖五:Analytics Zoo AutoML 的時間序列數據預測 圖六:
107、傳統方法的時間序列數據預測 圖七:Analytics Zoo AutoML 的時間序列數據預測 4.在騰訊云智能鈦機器學習平臺上使用 AutoML 檢測數據異常 下面將通過一個案例介紹 Analytics Zoo AutoML 在騰訊云智能鈦機器學習平臺上的使用方法。:騰訊云將先進的第二代英特爾 至強可擴展處理器應用于騰訊云智能鈦機器學習平臺。第二代英特爾 至強可擴展處理器支持英特爾深度學習加速(Intel Deep Learning Boost)技術,極大提升了人工智能負載,特別是深度學習負載性能。Analytics Zoo 通過利用英特爾MKL-DNN 的優化和加速,高度釋放了英特爾至強可
108、擴展處理器的模型訓練和推理性能。圖七 Analytics Zoo AutoML 的時間序列數據預測3白皮書|騰訊-英特爾 Analytics Zoo AutoML 合作項目白皮書使用恰當的模型算法,以及通過超參數優化,來使得機器學習模型和算法的預測性能最大化。很顯然,這些步驟都極具挑戰性,使得一般人難以利用機器學習的技術。自動機器學習(AutoML)是一種把機器學習應用到解決真實世界問題的自動化手段,它涵蓋了從原始數據處理到可部署的機器學習模型的整個流程。由于機器學習的應用需求不斷增長,AutoML 被認為是應對這一問題的一種人工智能解決方案。高度自動化的 AutoML 使得非專業人士也可以利
109、用機器學習模型 和技術,而不必先成為這一領域的專家。通過應用端到端的自動機器學習技術,用戶能夠獲得類似人工智能的解決方案,更快地構建這些解決方案,并且這些方案大多在性能上還可超越人工調試的模型。騰訊與英特爾合作推進 AutoML 項目騰訊云智能鈦機器學習(TI Machine Learning)是基于騰訊云強大計算能力的一站式機器學習生態服務平臺。它能夠對各種數據源、組件、算法、模型和評估模塊進行組合,使得算法工程師和數據科學家能夠在其之上方便地進行模型訓練、評估和預測。騰訊云智能鈦機器學習平臺(TI ONE)支持多種計算框架,例如 PySpark、PyTorch、TensorFlow 等。英
110、特爾與騰訊的機器學習團隊通過深度技術合作,將 Analytics Zoo 集成到騰訊云智能鈦機器學習平臺,使該平臺獲得了更強大的 AutoML 特性,讓 AI 初學者也能輕松使用。使用 Analytics Zoo 的 AutoML,可以很方便地進行時間序列分析,如時序預測,異常檢測等。時間序列數據,顧名思義,是按照時間順序收集的一系列數據。時序數據預測是指用過去的時間序列數據作為輸入,來預白皮書|騰訊-英特爾 Analytics Zoo AutoML 合作項目白皮書2測未來時間的數據值。在很多真實的應用場景,例如網絡運營商的網絡質量分析、數據中心運維的日志分析、高價值設備的預防性維護等,都可以
111、利用時序數據預測的技術。時序數據預測還可以作為異常檢測的起點,使其在真實值和預測值偏差較大時觸發警報。經典的時序數據預測通常使用描述性模型或者統計方法。這些方法經常需要對數據的分布進行假設,并且要做時序分解(把時序數據分解為周期、趨勢、噪聲等成分)。相比較而言,基于機器學習的時序數據預測方法(例如基于神經網絡的模型)對數據幾乎不做假設,比經典的線性預測模型(ARIMA,ES等)對復雜模式的識別表現更好。實際上,神經網絡模型在時序預測領域已經有了不少成功的案例。為時間序列數據預測構建機器學習應用是一個需要大量專業知識的費時費力的過程,Analytics Zoo AutoML 框架實現了自動化的特
112、征生成和選擇,模型選擇,和超參調優的功能,可以使得訓練時序分析模型的過程更加容易。Analytics Zoo 中基于 AutoML 的時間序列數據預測工具構建于 Ray 和 Ray Tune 之上。Ray 是一個由加州大學伯克利分校RISE 實驗室開源的分布式計算框架,用于開發新型的人工智能應用;而 Ray Tune 則是一個在 Ray 之上運行的可擴展超參數優化庫,用戶可以在一個大規模集群上高效地進行很多實驗。Analytics Zoo 支持 RayOnSpark,允許用戶在已有的大數據集群上直接運行基于 Ray 的各種新興人工智能應用,并且可以無縫整合到大數據處理和分析流水線中。下面我們將
113、描述如何使用 Ray Tune 和 RayOnSpark,來實現 AutoML 框架和自動的時間序列數據預測。圖二所示是Analytics Zoo 中的 AutoML 框架。A Ap pp pl li ic ca at ti io on nA Au ut to oMML LF Fr ra amme ew wo or rk kB Ba ac ck ke en nd dModel EnsemblePipelineMeta-LearningTimeSequencePredictor(i.e.automatic time series prediction)Tensorflow,Keras,featu
114、retools,BayesOpt,etc.Ray&Ray TuneRayOnSparkApache SparkFeatureTransformer(feature generation,rescaling,selection,etc.)Model(single models,model selection)SearchEngine(Hyperparameter Search)提升 CPU 性能,滿足 CPU 密集 型負載需求壓縮海量數據,減少數據存儲空間,提升 I/O 性能優化數據庫性能,提升并行檢索 能力星環科技基于第五代至強 可擴展處理器深度優化分布式向量數據庫 Transwarp Hip
115、po,顯著提升數據庫整體性能,擴展大模型應用邊界。充分發揮處理器多核性能優勢,以 NUMA 友好的向量計算負載調度算法,避免 CPU 阻塞;使用英特爾 AVX-512 重寫向量距離計算函數,降低向量計算需要的 CPU 指令數量和時鐘周期;基于數據離散度的浮點數矢量化算法,充分利用英特爾 AVX-512_VNNI 指令集,進一步提升向量計算效能。拓展時間與空間邊界,讓大模型擁有“長期記憶”挑戰解決方案數據庫性能優化解決方案分布式向量數據庫2.07倍對比第三代至強 可擴展處理器,基于第五代至強 可擴展處理器的 Transwarp Hippo 性能提升達1低時延、高準確度地 支撐數據高效處理提升服務
116、器節點性能密度,降低向量數據庫 TCO基于不同代際英特爾 至強 可擴展處理器的 Transwarp Hippo 性能對比2 掃碼獲取全文星環科技分布式向量數據庫 Transwarp Hippo 產品架構1.2 有關性能和基準測試結果的更完整信息,請訪問:https:/ 至強 鉑金 8380 處理器英特爾 至強 鉑金 8592+處理器以 8380 處理器的性能為基準 性能比較(越高越好)+2.07X 展望基于第五代英特爾 至強 可擴展處理器的星環科技分布式向量數據庫 Transwarp Hippo,提供了領先的性能表現,可以有效地解決大模型在知識時效性低、輸入能力有限、準確度低等問題。通過將最新
117、資料、專業知識、個人習慣等海量信息向量化存儲在星環科技分布式向量數據庫 Transwarp Hippo 中,企業可以有效拓展大模型的應用邊界,讓大模型保持信息實時性,并能夠動態調整。除了分布式向量數據庫 Transwarp Hippo 之外,星環科技與英特爾正在面向更多的產品與場景,驗證第五代英特爾 至強 可擴展處理器的性能表現,并通過軟硬件協同調優等方式,加速處理器的性能釋放,從而在加快海量數據處理的同時,幫助用戶節省在基礎設施方面的成本,提升投資回報率。Manager SophonModelCubeAquilaInsight Vector EngineTDDMS:Transwarp Dis
118、tributed Data Management SystemEmbedding HubPython/Restful/JavaTranswarp Cloud Operating System19AI for Science科學智能20用 CPU 加速 AlphaFold2 通量提升再上一層樓挑戰解決方案高通量優化/推理優化解決方案蛋白質結構預測23.11倍基于第三代至強 可擴展處理器,每個優化步驟獲得的提升累積后,端到端通量提升可達13.02倍引入第四代至強 可擴展處理器后,AlphaFold2 通量再獲提升達2產學研深入協作,加強方案普適性基于英特爾 至強 可擴展平臺的 AlphaFold2
119、 推理優化路線圖及其實現的性能提升3掃碼了解第三代至強 可擴展處理器加速細節掃碼了解第四代至強 可擴展處理器加速細節1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ DeepMind 在 2021 年發布的 AlphaFold2,憑借自身在蛋白質結構預測上的高可信度,以及遠優于傳統實驗方法的效率和成本表現,樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學領域掀起了顛覆式的革新,也成為了 AI 在生物學、醫學和藥學等領域落地的核心發力點。隨著 AlphaFold2 項目在產、學、研各細分領域中的啟動與落地,其技術管線對于推理的高通量和高性能的需求也是
120、與日劇增。一直活躍在“AI for Science”創新前沿的英特爾結合自身優勢,以內置 AI 加速能力的產品技術,特別是第三代和目前最新的第四代至強 可擴展平臺為硬件基座,對 AlphaFold2實施了端到端的高通量優化,并在實踐中實現了比專用 AI 加速芯片更為出色的表現。其中,第三代英特爾 至強 可擴展處理器上的優化,可使通量提升至優化前的 23.11 倍1,而第四代英特爾 至強 可擴展處理器則可在此基礎上使通量再獲高達 3.02 倍的提升2。如此顯著的優化成效,基于英特爾 架構的軟硬件協作功不可沒:硬件支撐:英特爾 至強 可擴展平臺的核心產品和技術特性,包括第三代和第四代英特爾 至強
121、可擴展處理器在算力輸出上的越來越出色的表現,及其內置的 AI 加速引擎,如 英特爾 高級矢量擴展 512(英特爾 AVX-512)和英特爾 高級矩陣擴展(Intel Advanced Matrix Extensions,英特爾 AMX)等技術帶來的預處理、推理計算優化,以及高帶寬內存(High Bandwidth Memory,HBM)、全新 DDR5 內存等特性對張量吞吐、數據訪存通量的明顯提升;軟件加成:軟件是充分利用或釋放硬件加速潛能的“鑰匙”,例如在模型推理階段,序列長度為 n 的情況下,推理時間復雜度為 O(n2),此時原始 AlphaFold2 在 CPU 上的推理時長是難以接受的
122、。英特爾為此采取了一系列軟件調優舉措,包括對注意力模塊(attention unit)開展大張量切分(tensor slicing),以及使用英特爾 oneAPI 工具套件實施算子融合等優化方法,解決了 AlphaFold2 在 CPU 平臺上面臨的計算效率低和處理器利用率不足等難題,同時也緩解了調優方案執行各環節中面臨的內存瓶頸等問題。本文的核心任務,就是要介紹上述基于英特爾 架構、致力于在 CPU 平臺上加速 AI 應用的軟硬件產品技術組合在AlphaFold2 端到端優化中扮演的關鍵角色,并詳細分享對它們進行配置、調優以求持續提升 AlphaFold2 應用性能表現的核心經驗和技巧,從而
123、為所有計劃開展或正在推進類似探索、實踐的合作伙伴及最終用戶們提供一些關鍵的參考和建議,讓整個產業界能夠進一步加速相關應用的落地并盡可能提升其收益。蛋白質結構解析任務繁重,AlphaFold2 勇擔重任如生物學中心法則(Central Dogma)所揭示的,脫氧核糖核酸(DNA)、核糖核酸(RNA)和蛋白質(包括多肽4)之間“轉錄-翻譯”的關系,清晰呈現了有機體內的信息傳遞路徑,也讓人們認識到:對蛋白質三維結構開展有效解析與預測,就能對有機體的構成,及其運行和變化的規律實施更深層次的詮釋和探究,進而可為生物學、醫學、藥學乃至農業、畜牧業等行業和領域的未來研究與發展提供高質量的生物學假設。白皮書|
124、CPU 加速 AlphaFold2 更上一層樓!第四代至強 可擴展平臺帶來 3.02 倍通量提升基線-原始AlphaFold2預處理的 編譯器 優化選項深度學習模型實現遷移到 PyTorchPyTorch JIT算子融合多實例并行272.7%28.17%5.0%355.67%302%23.11x通量總體提升高達圖一 基于英特爾 至強 可擴展平臺的 AlphaFold2 推理優化路線圖及其實現的性能提升3 基于第三代英特爾 至強 可擴展處理器基于第四代英特爾 至強 可擴展處理器3.02x通量再提升高達基于英特爾 架構,以至強 可擴展平臺為硬件基座,利用平臺提供的內置 AI 加速能力及對運算和存儲
125、性能的均衡設計,軟硬協同進行 AlphaFold2 端到端優化。引入第三代和第四代至強 可擴展處理器,針對預處理和模型推理兩大層面,利用高通量優化、切分 Attention 模塊和算子融合等五大步驟進行優化;利用第四代至強 可擴展處理器對 DDR5 的支持及大容量末級緩存,顯著提升張量吞吐;以處理器內置 AI 引擎-英特爾 AMX,加速 AlphaFold2 推理過程中的大量矩陣運算,在保持較高精度的同時,提高計算速度并減少存儲空間。2122見證 CPU 加速AI for Science 普及潛能挑戰解決方案模型優化解決方案蛋白質結構預測/分子動力學高性能AI 軟硬件基礎模型定向優化與加速高質
126、、高效的AI 科學計算平臺飛槳 AI for Science 全景圖面向 HelixFold 模型推理流程的優化如欲了解更多案例詳情,請訪問:https:/ 可擴展平臺及多種配套軟硬件產品和技術,有效提升 HelixFold 和分子動力學模型工作效率,為超長序列蛋白質結構預測等需求提供有效的實現途徑。借助面向單路和雙路的第三代至強 可擴展處理器為 HelixFold 及分子動力學模型提供算力支撐;采用至強 平臺及其內置的英特爾 AVX-512 等,為 HelixFold 模型預處理、推理與預測等提供更強高性能并行計算能力和更大容量內存;利用至強 內置的英特爾 AVX-512 為分子動力學模型優
127、化提供算力加速支持,并聯動英特爾 oneAPI,實現訓練和推理全流程從“0 到 1”的突破。場景工具組件算力框架算例流場分析與預測化合物表征 GEM量子糾纏處理圓柱繞流PaddleScience超算中心智算中心高階自動微分PaddleHelix編譯器大規模分布式并行科學計算 APIPaddle Quantum硬件算子適配高階優化器 BFGS反問題求解兩相流建筑設計渦激振動藥物研發方程反演量子通信白皮書|見證 CPU 加速 AI for Science 普及潛能:基于英特爾 至強 的 AI 軟硬件組合助百度飛槳優化多項科研模型與技術圖一 飛槳 AI for Science 全景圖核心#0核心#1
128、核心#2核心#N核心#0Traditional Deep Learning傳統深度學習2324高效電子商務推薦系統 讓服務更合你的“口味”AI 模型推理加速案例研究電子商務推薦系統2.89倍基于第四代至強 可擴展處理器的代理模型,采用 BF16 混合精度,吞吐量提升達1=15毫秒基于第四代至強 可擴展處理器的代理模型 在性能提升近 3 倍的同時時延保持在2代理模型的代際性能比較(時延=15 毫秒)31.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 可擴展處理器及內置的英特爾 AMX AI 加速引擎提升電子商務推薦系統的推理效率,并保證足夠的精度,實現出色的用戶體驗。采用第
129、四代至強 可擴展處理器為電子商務推薦系統的海量處理請求帶來強勁的算力支撐;英特爾 AMX 可提供矩陣類型的運算且同時支持 INT8 和 BF16 數據類型,助力阿里巴巴電子商務推薦系統推理性能顯著提升;阿里巴巴使用英特爾 oneDNN 將 CPU 微調到峰值效率,助力推薦系統性能進一步提升。解決方案在成本、靈活性上 具備更強優勢挑戰核心推薦模型需在滿足時延的條件下處理海量請求在優化推理性能的同時確保推薦質量達到理想水平實現性能與成本的平衡第四代英特爾 至強 可擴展處理器采用第四代英特爾 至強 可擴展處理器提升推薦性能面臨爆炸式增長的用戶數據,以及不斷擴展的業務處理壓力,阿里巴巴希望能夠持續提升
130、核心推薦系統的性能,同時在基礎設施的靈活性、敏捷性、總體擁有成本(TCO)等方面實現平衡。為此,阿里巴巴選擇了第四代英特爾 至強 可擴展處理器進行性能優化。第四代英特爾 至強 可擴展處理器通過創新架構增加了每個時鐘周期的指令,每個插槽多達 56 個核心,支持 8 通道 DDR5 內存,有效提升了內存帶寬與速度,并通過每 PCIe 5.0(80 個通道)實現了更高的 PCIe 帶寬提升。第四代英特爾 至強 可擴展處理器提供了現代性能和安全性,可根據用戶的業務需求進行擴展。借助內置的加速器,用戶可以在 AI、分析、云和微服務、網絡、數據庫、存儲等類型的工作負載中獲得優化的性能。通過與強大的生態系統
131、相結合,第四代英特爾 至強 可擴展處理器能夠幫助用戶構建更加高效、安全的基礎設施。第四代英特爾 至強 可擴展處理器在 AI 性能上更進一步。該處理器內置了創新的英特爾 AMX 加速引擎。英特爾 AMX 架構和指令的功能類似于脈動陣列,提供矩陣類型的運算,可以高效處理兩個矩陣之間的乘法,同時支持 INT8 和 BF16 數據類型,能夠確保該 CPU 像高端通用圖形處理器(GPGPU)一樣處理 DNN 工作負載。顯著增加了人工智能應用程序的每時鐘指令數(IPC),可為 AI 工作負載中的訓練和推理提供強勁動力。阿里巴巴還使用英特爾 oneAPI 深度神經網絡庫(英特爾 oneDNN),將 CPU
132、微調到峰值效率。oneDNN 是英特爾 oneAPI 工具套件的一部分,并集成到 TensorFlow 和 PyTorch 框架等許多工業軟件中,它抽象出指令集和其他復雜的性能優化,提供了高度優化的深度學習構建塊實現。通過這一開源、跨平臺的庫,深度學習應用程序和框架開發人員可以在 CPU、GPU 或兩者之間使用相同的 API。阿里巴巴與英特爾合作,集成上述所有硬件和軟件特性,并將其應用于阿里巴巴核心 RM 模型的整個堆棧。優化后的軟件和硬件已經部署在阿里巴巴的真實業務環境中,它們成功通過了一系列驗證,符合阿里巴巴的生產標準,包括應對阿里巴巴雙十一購物節期間的峰值負載壓力。阿里巴巴發現,與既有
133、CPU 平臺相比,這代平臺的端到端性能提高了一個數量級。下圖列出了使用具備核心 RM 模型主要特征的代理模型時,第四代英特爾 至強 可擴展處理器和第三代英特爾 至強 可擴展處理器的代際性能對比。圖 1 顯示,在 AMX、BF16 混合精度、8 通道 DDR5、更大高速緩存、更多內核、高效的內核到內核通信和軟件優化的配合下,主流的 48 核第四代英特爾 至強 可擴展處理器可以將代理模型的吞吐量提高近 3 倍,超過主流的 32 核第三代英特爾 至強 可擴展處理器,同時將時延嚴格保持在 15 毫秒以下1。收益 阿里巴巴能夠在保證 RM 模型符合推理時延=15 毫秒的同時,將推理的吞吐量提升到 2.8
134、9 倍1。同時在將模型量化到 BF16 之后,AI 推理精度依然能夠滿足需求;升級為第四代英特爾 至強 可擴展處理器帶來的性能收益遠高于硬件成本,有助于阿里巴巴降低 TCO,獲得更高的投資收益;基于 CPU 的推理方案具備媲美高端 GPGPU 的性能表現,同時在成本、靈活性等方面具備更強的優勢。1.00 1.90 2.89 0.000.501.001.502.002.503.003.50第三代英特爾 至強可擴展處理器(FP32)第四代英特爾 至強可擴展處理器(FP32)第四代英特爾 至強可擴展處理器(BF16 混合精度)代理模型吞吐量比較(時延=15 毫秒,越高越好)圖 1.代理模型的代際性能
135、比較(時延 6倍與其他引擎相比,基于至強 可擴展平臺的 百度 CodeLab 高性能引擎性能提升高達180%自動數據清洗/擴充的 人工處理成本降低490%數據需求量降低5小時級數據采集周期從“周”級 提升到270%數據標注量降低3自動數據增強主流框架主持自動數據增強豐富的開發方式全方位的預訓練模型 預置圖像分類預訓練模型 預置目標檢測預訓練模型 預置實例分割預訓練模型 集成飛槳文心(ERNIE)NLP 開發套套件高質量 AI 模型遷移學習自動化超參數搜索隨機算法貝葉斯算法多機動卡搜索訓練容錯進化算法CodeLab預置海量開發插件高性價比云端算力支持 異構加速計算 超大數據處理 易用的 API
136、接口豐富的開發方式高質量AI模型自動數據增強遷移學習豐富的開發方式高質量AI模型自動數據增強遷移學習豐富的開發方式高質量AI模型自動數據增強遷移學習百度 BML 助力企業實現一站式、全功能 AI 開發體驗3超參搜索服務Trial 管理模塊Meta 管理Trial 1百度智能云服務集群Trial 2Trial 3Trial NExperiment控制器模型構建模型構建超參配置模型訓練超參配置模型訓練人工評估 結果自動超參搜索自動超參搜索優化方案通過創新算法進行搜索超參組合,自動獲得優秀的模型效果。百度 BML 助力企業實現一站式、全功能 AI 開發體驗43132用 AI 為監控升級“慧眼”推進園
137、區管理智能化挑戰深度學習推理案例研究圖像識別減半方案開發周期從原本預估 6 個月縮短至實際 3 個月2100%方案在主要監控應用場景中的準確率已近1云創大數據智慧園區視頻監控方案采用的端到端架構 1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 算法準確率較高,但要滿足毫秒級識別速度,還需優化推理性能掃碼獲取全文解決方案秒級百萬張圖像對比和匹配速度,及園區災情告警速度均達3傳統參數轉換方式與 OpenVINO 工具套件模型轉換方式對比 云創大數據導入英特爾 視頻分析參考設計方案及 OpenVINO 工具套件,雙管齊下,為智慧園區視頻監控方案增添端到端、高效和全流程的處理能
138、力。利用第二代英特爾 至強 可擴展處理器的充沛算力和內置的深度學習加速技術,顯著提升轉換后的 INT8 模型推理速度;導入英特爾 視頻分析參考設計方案,提供視頻編解碼加速;借助 OpenVINO 工具套件提升系統模型轉換和優化能力。2方案架構解析:從視頻處理到 AI 推理從全局角度審視云創大數據的智慧園區視頻監控方案,其架構特點就在于采用了端到端的設計理念。在前端,該方案導入了內置高清攝像頭、空氣傳感器及無線網絡設備的智慧路燈伴侶,它兼具視頻監控、聲音錄制、空氣檢測、公共 WIFI 等功能。如圖一所示,這個智慧路燈伴侶可方便地安裝在園區已有的路燈桿上,可對人行道和車道實施 360 度的全景監控
139、。圖一 創新的智慧路燈伴侶由智慧路燈伴侶采集到的高清視頻數據,可通過網絡傳輸到方案的后端,也就是云端的大數據處理平臺上。該平臺是整個方案能力的主要載體,這些能力包括視頻處理環節,如視頻編解碼、壓縮轉換等處理,以及 AI 推理環節利用 AI 技術實施圖像識別等操作,這兩個環節正是整個視頻監控方案得以輸出高效安全監控能力的關鍵所在。如圖二所示,英特爾產品技術發揮功用的主戰場,正是在該方案后端的大數據處理平臺之上,也正涉及到視頻編解碼和 AI 處理兩個關鍵環節。這里所指的視頻編解碼,是要將高清攝像頭捕捉到的海量原始視頻數據壓縮成易于后續處理的數據流,并將這些數據以 RAW 圖像的形式存儲到圖像緩存。
140、AI 處理環節則包括檢測、分類和比對三個模塊。在檢測模塊中,系統會利用既有的檢測模型,從圖像背景中分離出目標物體并得到類別標簽、位置標簽等信息,且以列表形式存放在目標分類中;分類模塊是將上述目標分類以結構化方式處理成為預設的類別目標圖;比對模塊則是將目標圖與預設庫中的數據進行余弦相似度對比,輸出 TOP 值,排在首位的 TOP 值即為識別結果。案例研究|至強集成 AI 加速 助云創大數據打造智慧園區視頻監控方案云創大數據智慧園區用視頻監控系統解決方案實現的優勢:該方案通過導入英特爾 視頻分析參考設計方案,借助至強 處理器與英特爾 Media SDK 組合帶來的軟硬協同加速效果,滿足了海量原始高
141、清視頻編解碼任務在效率上的嚴苛要求;該方案借助至強 可擴展平臺集成的 AI 加速能力,尤其是 OpenVINO 工具套件提供的從 FP32 到 INT8 的模型轉換能力,以及第二代英特爾 至強 可擴展處理器集成的、可加速 INT8 推理的英特爾 深度學習加速技術,在確保準確率不受影響的情況下,顯著提升圖像識別 AI 推理的速度;通過采用上述兩組高效且成熟的產品技術組合,云創大數據在該方案開發上的耗時也得以大大縮短,從原先預期的六個月減到實際的三個月1,更快地滿足了最終用戶在智慧園區 AI 應用方案上的落地需求。圖二 云創大數據智慧園區用視頻監控方案的端到端架構云端大數據處理平臺園區管理系統前端
142、高清攝像頭無線網絡視頻編解碼AI 處理英特爾 MediaServer Studio英特爾 深度學習加速技術操作系統:CentOS 7.xOpenVINO 工具套件推理功能匹配庫檢測分類比對RAW 圖像編解碼處理圖像緩存標簽檢測目標分類余弦相似度類別標簽位置標簽目標列表目標 結構化目標圖預設庫3用英特爾 視頻分析參考設計方案破解編解碼 挑戰在視頻監控方案的視頻編解碼環節,此前云創大數據要實現的目標是:原始視頻存儲空間大,占用帶寬高,且不同設備中需要的視頻格式各有不同,所以需要將前端采集到的原始視頻進行編解碼處理,壓縮體積并轉換格式,以便于后續分析和實施 AI推理。在本方案中,視頻采集端由 60
143、路高清攝像頭共同作業,采用 1080P 顯示格式,每路約 4Mbps 碼流,采集到的視頻數據量級非常龐大,每日約 2TB,圖片約 500 萬張。如此巨量數據的實時編解碼處理,需要強大的算力予以支撐,畢竟,視頻編解碼效率的高低、差錯率的大小以及實時性的優劣,都會直接影響方案的整體處理效能。對此,云創大數據的策略就是導入英特爾 視頻分析參考設計方案,包括采用基于英特爾 至強 可擴展平臺的編解碼服務器作為基本的算力輸出引擎,并在其上加裝可充分釋放該處理器潛能的英特爾 Media SDK 軟件工具包來進一步加速視頻編解碼性能。英特爾 Media SDK 內置豐富的函數庫,能幫助開發者自動選擇最優的軟/
144、硬件編解碼方式以及內存選用類型,以支持硬件加速;它內置的視頻拼接技術還能幫助系統實現多路視頻處理,也為云創大數據視頻監控方案未來的應用場景擴展奠定了堅實基礎。借至強 可擴展平臺 AI 加速能力提升推理效能在致力于破解視頻編解碼挑戰的同時,云創大數據也在尋求視頻監控方案的另一個關鍵環節AI 推理部分的加速方案。以 AI 推理環節的檢測模塊為例,其選用了經典的、在檢測速度與精度方面都有顯著優勢的 Yolov3 算法來實施目標檢測。Yolov3 的優勢在于加強了對細小物體的識別能力,非常適用于園區這類復雜場景下的圖像識別。它還采用了數據流圖形式的網絡結構,因此云創大數據在方案中采用了支持數據流圖的
145、TensorFlow 深度學習框架來構建該模型,通過反復迭代優化后,整個方案在視頻監控主要應用場景中的準確率已達近百分之百。準確率雖有保障,但 Yolov3 在推理速度上還有較大的提升空間,要滿足毫秒級的識別速度,云創大數據認為有必要進一步優化其推理性能。眾所周知,低精度數值可以更好地提升內存數據傳輸效率,減少帶寬瓶頸,從而更充分地利用計算和存儲資源,降低系統開銷。換言之,在同樣的資源支持下,INT8(8位整型數)相比 FP32(32 位浮點數),可為 AI 推理帶來更多的每 秒操作數(Operations Per Second,OPS)。近期也有大量 AI應用實踐表明:在圖像識別、圖像分類等
146、深度學習場景中,采用INT8 等較低精度的數值替代 FP32,可在不影響準確率的前提下顯著提升推理速度。雖然業界都認可這一解決路徑,但要使用 INT8 參數實施推理和比對,就需要解決兩個問題,一是如何更便利地將 FP32 模型中的相關參數輸出后,再轉換成 INT8 參數用于推理;另一點是如何對轉換好的模型及操作提供更進一步的性能加速支持。在英特爾的支持下,云創大數據導入了集成 AI 加速能力的至強 可擴展平臺來應對這兩個問題。具體來說,就是利用該平臺中用以加速 AI 推理及部署效率的軟件工具套件OpenVINO 工具套件來支持模型轉換,再用第二代英特爾 至強 可擴展處理器集成的英特爾 深度學習
147、加速技術來進一步提升轉換后的 INT8 模型的推理效率。OpenVINO 工具套件從2018 R4 版本就開始提供 FP32 模型到 INT8 模型的轉換功能,并從 2019 R1 版本開始,對基于第二代 英特爾 至強 可擴展處理器所集成的英特爾 深度學習加速技術提供了更優的支持。利用 OpenVINO 工具套件,云創大數據的方案就可將訓練好的模型進行轉換和優化。OpenVINO 工具套件中的轉換工具(Calibration Tool)可將 FP32 格式的文件轉換為 INT8 格式的 xml 文件和 bin 文件,在轉換的過程中需要用到一個小批量的驗證數據集,并且會將轉換量化過程中的統計數據
148、存儲下來,以確保在后續的推理過程中精度不受到影響。如圖三所示,與傳統的轉換方式相比,利用 OpenVINO 工具套件,系統只需轉換一次即可,轉換效率大為提升。FP32 數值模型FP32 數值模型INT8 數值模型推理、比對推理、比對FP32 數值參數INT8 數值參數轉換傳統參數轉換方案本方案采用的模型轉換方案輸出轉換INT8 數值參數OpenVINO工具套件圖三 傳統參數轉換方式與 OpenVINO 工具套件 模型轉換方式的對比案例研究|至強集成 AI 加速 助云創大數據打造智慧園區視頻監控方案以 CPU 化解 AI 算力瓶頸 實現性能與成本的平衡挑戰AI 模型推理加速解決方案AI+旅行1.
149、72倍優化后的基于 Transformer 的翻譯模型 在 batchsize=4 時,吞吐量是優化前的26.44 ms經過優化后,Bert-base 模型推理時間由 15.05ms 降至1攜程 AI 推理算力平臺架構 1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 模型基于 T5 平臺使用模型壓縮和高性能算子庫優化前后的對比結果3攜程構建基于至強 可擴展處理器的 AI 推理算力平臺,并通過高性能算子庫、計算圖優化、模型壓縮、模型部署優化等方式,提升 AI 推理性能。采用英特爾 至強 可擴展處理器作為 AI 創新強勁可靠的硬件平臺,在滿足 AI 模型推理加速的算力需求之
150、外,助力攜程獲得更高成本效益;英特爾 至強 可擴展處理器內置 AI 加速引擎,能夠為多樣化工作負載帶來一流的性能和內存帶寬,有效提升 AI 推理表現;高效利用現有的 CPU 服務器資源,并根據實際負載需求進行靈活調度。225.363 525.6 708.299 703.529 1029.503 2540.8 309799.565 1220.318 1105.528 1614.788 3749.476 1.371.521.721.571.57 1.47 00.20.40.60.811.21.41.61.8205001000150020002500300035004000batchsize:1ba
151、tchsize:2batchsize:4batchsize:8batchsize:16batchsize:64RatioCPS(越高越好)T5_base benchmark on ICX優化前 優化后 Boost圖 4.Transformer 模型基于 T5 平臺使用模型壓縮和高性能算子庫優化前后的對比結果2除了硬件平臺選擇之外,企業在 AI 模型推理性能優化方面也面臨著以下瓶頸:模型結構種類多,性能瓶頸差異較大,適用的優化方法各有不同,手動優化成本高、門檻高;傳統方式需要對模型進行逐個手動優化,可推廣性差,技術覆蓋面有限;AI 推理面向的硬件平臺存在廣泛差異,技術人員往往需要進行針對性調優,
152、引發較高的人力成本和部署成本;新模型的發布和迭代需要應用優化方法,涉及較高的溝通和接入成本,同時帶來了性能的不穩定性;模型壓縮技術對不同模型的優化效果有所差異,可能需要進行模型的再訓練,訓練和數據準備流程較長,效率低下。解決方案:基于英特爾 至強 可擴展處理器的攜程 AI 推理算力平臺為了降低優化、部署和迭代成本,提高工作效率,并實現穩定性能,攜程嘗試評估基于英特爾 至強 可擴展處理器的 AI 推理算力平臺,旨在為算法模型提供更全面易用、穩定性更好、使用和維護成本更低的優化解決方案。英特爾 至強 可擴展處理器內置人工智能加速功能,并已針對工作負載進行優化,能夠為各種高性能計算工作負載、AI 應
153、用以及高密度基礎設施帶來一流的性能和內存帶寬。同時,采用矢量神經網絡指令(VNNI)的英特爾 深度學習加速(英特爾 DL Boost)能夠有效提高 AI 推理的表現,這使其成為進行深度學習應用的卓越基礎設施。在基于英特爾 至強 可擴展處理器的硬件平臺層基礎上,攜程構建了 AI 推理算力平臺,該平臺還包括引擎框架層、推理優化層、算法模型、應用場景。圖 1.攜程 AI 推理算力平臺架構應用場景 計算機視覺 機器翻譯 語音處理 自然語言處理 搜索推薦 算法模型 Inception Bert Albert Yolo Wide&Deep Learning Transformer 推理優化層 高性能算子模
154、塊 模型圖優化工具 模型部署優化 模型量化模塊 模型蒸餾模塊 模型剪枝工具 引擎框架層 TensorFlow/PyTorch/ONNX/MXNet/Caffe/OpenVINO/Kaldi/TensorRT AutoML 硬件平臺層 CPU GPU ARM FPGA 3334一站打通加密流量提取、建模與推斷,挖掘網絡數據價值挑戰加密流量分析優化解決方案智能深度報文檢測TCO 有效降低96%報文整體分類準確率超過1英特爾 TADK 架構1 有關性能和基準測試結果的更完整信息,請訪問:https:/ 算法額外的特征學習等負載較大的性能開銷導致 CPU 負載顯著提升掃碼獲取全文解決方案高效挖掘流量數
155、據價值綠網固網 DPI 處理流程圖綠網采用至強 可擴展處理器和英特爾 TADK 打造網絡流量分析解決方案,保障高性能報文處理,實現高效智能識別和控制能力,為用戶提供更高效的 DPI 分析能力。利用至強 可擴展處理器及其內置的英特爾 AVX-512 等技術,兼顧并行計算和 AI 應用;離線訓練層面,英特爾 TADK 支持基于流的業務分類,對每個流打上業務標簽后,可利用其提供的離線訓練工具生成模型;在線推理階段,英特爾 TADK 的在線處理模塊與在線推理模塊會結合初始化時加載的 ML 模型,對每個流進行推斷并按流輸出推斷結果。為了優化固網 DPI 產品的 AI 性能,對加密流量進行更加高效的采集、
156、處理與分析,綠網采用了英特爾 TADK。加入 TADK 之后的固網 DPI 處理流程如圖 3 所示,TADK 部署于業務接入單元,負責加速流/報文/日志等流量信息的提取。在離線訓練層面,英特爾 TADK 支持基于流的業務分類。對目標應用離線采樣后,對每個流打上業務類型標簽,之后利用 TADK 提供的離線訓練工具生成模型。TADK 的網絡流特征提取庫(FFE-L)模塊可以針對報文提取一組豐富的特征,將該組特征和相應的標簽送入到英特爾機器學習框架 oneDAL 中,選取合適的算法進行調試,即可輸出一個業務分類模型。算法會從特征集中選取一個合適的特征子集作為最終的模型特征。訓練方法如圖 4 所示。在
157、線推斷階段,DPI 在收到用戶面報文后,首先會經過一個流過濾器。該過濾器會嘗試進行分流處理,將能通過傳統方式進行分類的流導入到 DPI 分類引擎,而將需要通過機器學習方法才能分類的流導入到英特爾 TADK 的在線處理模塊。TADK 的在線處理模塊會在系統初始化時加載離線訓練時得到的模型文件,并通過網絡流特征提取庫(FFE-L)模塊對收到的用戶面報文進行流管理,提取流特征,進而通過在線推斷模塊,結合初始化時加載的機器學習模型,對每個流進行推斷,最后按流輸出推斷結果。綠網還利用英特爾 至強 可擴展處理器的特性進行性能優化。英特爾 TADK 開發工具套件基于支持英特爾 AVX-512 指令集的英特爾
158、 至強 可擴展處理器進行實時流量特征提取。英特爾 至強 可擴展處理器不僅擁有強大的通用計算能力,還集成了增強單指令多數據流(Single Instruction Multiple Data,SIMD)的英特爾 AVX-512 指令集等創新技術,實現了對于通用計算能力和并行計算能力的兼顧。相較于前一代 AVX2 指令集擴展,英特爾 AVX-512 在數據寄存器寬度、數量以及 FMA 單元的寬度上都增加了一倍1,2,大大提升了指令的吞吐能力,能夠更好地應對 AI 應用所帶來的性能壓力。綠網采用英特爾 TADK 開發工具套件優化固網 DPI 性能圖 3.綠網固網 DPI 處理流程圖綜分(電信)綜分(
159、移動)CU(電信/移動/私有)集中監控平臺BROWSETELNETSSHRADIUSAAA_LU(主/備)MNG_LU(管理邏輯單元)(主/備)TM_LU業務接入單元TADK_MODULEBD_LU業務分析單元邏輯單元賬號注入管理配置運行監測業務配置流/報文日志業務接口第三系統大數據平臺用戶上下線話單話單/日志鏡像數據1 基準性能測試結果均在實施近期軟件補丁和固件更新(旨在解決稱為“幽靈”和“熔斷”所造成的漏洞)之前完成。實施這些更新后,這些結果可能會不適用于您的設備或系統。性能因用途、配置和其他因素而異。更多信息請訪問:https:/ 借助多達兩個 256 位融合乘加(FMA)單元,英特爾
160、AVX 2.0 在 256 位矢量內,每個時鐘周期每秒可執行 16 次雙精度和 32 次單精度浮點運算。更多信息請訪問:https:/ oneDALHyperscanCore LibrariesDPI EngineAI/ML EngineProtocol DetectionUDP/TCP/HTTP/DNS/TLS/QUICFlow Feature ExtractionFlow Classi erLexical Parser,TokenizerUser ApplicationReference SolutionSample ApplicationVPP PluginModsecPatchData
161、 Clean and Labelling HelperTraining ProcessAI+游戲,讓消消樂玩法 更多樣,體驗更順暢挑戰AI 模型推理優化案例研究游戲開發與運營開心消消樂新春掃龍字活動模型測試數據31.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 更多AI 擴展應用英特爾 AMX 架構樂元素引入基于第五代至強 可擴展處理器的新一代騰訊云實例 S8,并采用處理器內置的 AI 加速引擎,軟硬結合加速 AI 推理,提升開發效率和游戲體驗。利用基于第五代至強 可擴展處理器的騰訊云實例 S8 獲得平衡、穩定的計算、內存和網絡資源;采用處理器內置 AI 加速引擎-英特爾
162、 AMX,高效處理矩陣乘法運算,加速基于 CPU 的 AI 推理,避免使用獨立加速器帶來的成本和復雜性;借助英特爾 oneDNN 這一開源、跨平臺的庫,開發人員可對 CPU、GPU 使用相同的 API,從而抽象出指令集和其他復雜的性能優化,顯著降低編程難度。3.44倍相較于第三代至強 可擴展平臺,基于第五代至強 可擴展平臺+英特爾 AMX 將模型轉化為 BF16,推理性能提升達1 5.19倍基于第五代至強 可擴展處理器+英特爾 AMX,新春掃龍字活動模型推理性能提升達2每核可存儲更大的數據塊可在單次運算中計算更大矩陣的指令TILE2D 寄存器文件平鋪矩陣乘法(TMUL)2 9 01 3 52
163、4 78 1 5英特爾 AMX以 S6 性能結果為基準開心消消樂新春掃龍字活動模型推理吞吐性能(越高越好)S6(FP32,AVX512)6543210S8(FP32,AVX512)+1.19X+5.19XS8(BF16,AMX)3536讓視頻服務實現全流程智能化,豐富多彩且“投其所好”挑戰DL 訓練+推理案例研究智能視頻服務 6倍涉黃內容檢測的推理效率提升達2 5倍實時彈幕顯示的推理速度提升達1愛奇藝 Jarvis 深度學習云平臺架構圖解AI 應用增長需要基礎設施提供快速、便捷的部署能力多樣化 AI 模型和框架,需要基礎設施提供更優的支持有效調配計算資源,提升不同環境中 AI 應用的效率掃碼獲
164、取全文解決方案11倍文本檢測應用中的推理性能提升達3基于 OpenVINO 工具套件的 Jarvis 平臺推理優化過程愛奇藝針對英特爾 架構進行全面軟、硬件優化,大幅提升 AI 應用深度學習推理效率,降低平臺 TCO,讓 AI 在智能化視頻服務中展現出更強生產力。借助英特爾 至強 可擴展處理器獲得更強勁的算力和 AI 應用推理效率;利用 OpenVINO 工具套件為 Jarvis 平臺提升在不同計算平臺上的模型推理效率;通過引入 SIMD 指令集、OpenMP 多線程庫以及英特爾 MKL/MKL-DNN 數學庫等優化方法,充分加速整個平臺的計算能力,從而全面提升平臺的效率??梢酝ㄟ^ WEB 界
165、面、命令行或者 API 接口將數據加入任務進行訓練,而通過訓練獲取或更新的模型則會被納入 AI 模型庫;最后,使用者可以在算法商店中選擇合適的 AI 算法實施推理,并最終以HTTP 等方式反饋給上層應用或請求?;谟⑻貭?架構的軟硬件優化提升深度學習推理效率,是愛奇藝 Jarvis 深度學習云平臺增強視頻服務生產力的關鍵能力之一。在英特爾幫助下,愛奇藝基于 英特爾 架構處理器對云平臺的深度學習推理能力進行了充分的優化。20min/小時視頻500ms/張圖像200ms/行文字算法級應用級2000 條視頻/天100 張圖片/秒平均 50QPS,峰值 100QPS精確率(precision)99.3
166、%召回率(recall)97.8%正確率(accuracy)95.1%時延吞吐量準確率 超參數設置 網絡結構優化 低精度模型 多進程并發 異步流水線設計系統級 編譯器選項 英特爾 MKL-DNN OpenVINO 工具套件圖三 愛奇藝制定的推理性能優化指標和優化方案如圖三所示,愛奇藝首先確定了響應時延、吞吐量和模型準確性三個維度的性能指標,并制定出系統級、應用級和算法級三個層級的優化方案。其中,算法級優化側重于優化深度學習模型本身,使用諸如超參數設置、網絡結構剪切和量化等方法,來減小模型的大小和計算強度,進而加速推理過程。在應用級優化上,則是通過改進特定應用程序和服務的流水線和并發性來提升推理
167、效率。通常意義上的深度學習服務不僅包括推理,還包括數據預處理、后處理和網絡請求響應,良好的并發設計可有效提升這些應用在服務器上的端到端性能。在系統級優化上,通過引入 SIMD(Single Instruction Multiple Data)指令集、OpenMP 多線程庫及英特爾 MKL/MKL-DNN 數學庫等優化方法,充分加速整個平臺的計算能力,從而全面提升平臺的效率。愛奇藝在系統級優化的基礎上,還為 Jarvis 平臺引入了來自英特爾的 AI 工具套件OpenVINO。DockerJarvis深度學習應用CPU 插件模型Docker服務器調度器Mesos模型優化工具英特爾 MKL-DNN
168、GPU 插件模型Docker服務器CL-DNN深度學習推理引擎 API異構執行引擎中間代碼模型原始模型圖四 基于 OpenVINO 工具套件的 Jarvis 平臺推理優化過程如圖四所示,OpenVINO 工具套件首先會使用一個模型優化器(Model Optimizer Tool)將原生深度學習模型進行轉換和優化,并生成 IR(Intermediate Representation),IR 含有優化后的網絡拓撲結構、模型參數以及模型變量,推理引擎(Inference Engine)會讀取 IR,執行推理過程。作為計算機視覺和 AI 技術有機融合的成果,OpenVINO 工具套件可以為 Jarvi
169、s 平臺加速部署在不同計算平臺(包括英特爾 處理器、FPGA 和 VPU)之上的模型推理效率。它包括深度學習 推理加速工具包以及計算機視覺工具包,可對 TensorFlow、MXNet、Caffe 等深度學習框架提供良好支持。以視頻播放時的彈幕為例,為了讓彈幕信息不干擾正常視頻播放,Jarvis 平臺通過基于 Deeplab v3+深度學習模型的 AI 應用,讓彈幕信息隱藏到視頻中的主要對象之后。Deeplab v3+模型是基于深度卷積網絡的語義圖像分割模型,它可以通過對單個視頻幀上的圖像摳圖來實現該功能。與傳統的計算機視覺算法相比,此模型可適應各種復雜的紋理和場景,例如在前景和背景顏色相似的
170、情況下,提供更準確的結果和更便捷的部署能力。來自愛奇藝的測試數據顯示,OpenVINO 工具套件的引入,幫助 Jarvis 平臺將實時彈幕顯示的推理速度提升達 5 倍左右。愛奇藝 Jarvis 平臺上的其他深度學習模型,也驗證了 OpenVINO 工具套件帶來的加速效果。如圖五所示,涉黃內容檢測的效率提升達 6 倍左右,而在文本檢測應用中,推理性能在優化后,更是提升達 11 倍之多3。3案例研究|優化深度學習推理效率,打造更智能視頻服務CPU/GPU/FPGA公有云DockerMesos社交互助AI 框架數據平臺算法商店TensorFlow推理Keras1.2.3 有關性能和基準測試結果的更完
171、整信息,請訪問:https:/ 服務,兼顧效率與精度挑戰OCR 推理加速解決方案視覺識別服務1.65倍模型同為 FP32 時,第四代至強 可擴展處理器較第三代至強 可擴展處理器將模型 AI 推理性能提升達1 2.77倍基于第四代至強 可擴展處理器,利用英特爾 AMX 將模型量化為 BF16,模型推理性能提升達20.35%基于第四代至強 可擴展處理器的 OCR 推理性能顯著提升,且將模型轉化為 BF16 后精度損失僅為3金蝶云 蒼穹 AI 服務云視覺識別服務架構 英特爾 AMX 架構1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ GPU 的算力方案在部署和運維方面較為昂貴
172、提升性能的同時確保模型推理精度滿足應用所需掃碼獲取全文金蝶借力第四代至強 可擴展處理器及其內置英特爾 AMX AI 加速引擎,配合 OpenVINO 工具套件提升智能 OCR 推理性能,兼顧性能、精度與成本。第四代至強 可擴展處理器以出色的單核性能和代際性能提升為金蝶提供可靠的基礎算力平臺;英特爾 AMX 通過提供矩陣計算的加速能力顯著提升 AI 應用每時鐘指令數,助金蝶提升 OCR 推理性能;OpenVINO 工具套件在保證精度的前提下對模型進行精準量化,配合英特爾豐富軟硬件,助力金蝶顯著提升模型推理性能。解決方案 AI 1 AI 應用層 財務稅務 人力資源 辦公協同 供應鏈與制造 銷售及
173、CRM 平臺層 文字識別 身份證(正反)銀行卡 高校學位證 通用文字 增值稅發票五要素 離職證明 駕駛證(正頁)高校畢業證 表格識別 護照 銀行回單 自定義模板 智能文檔處理 文檔差異分析 文檔信息抽取 視覺 AI 基礎能力 目標檢測 圖像分類與分割 文字識別 圖像配準 圖像預處理 文本檢測 差異比對 版面分析 表格重建 信息抽取 調用方式 低代碼 微服務 openAPI 資源層 容器服務 數據服務 中間件 API 網關 日志服務 監控服務 公有云、私有云、混合云 API OCR CTC CNN BiLSTM OpenVINO OpenVINO FP32 INT8 IA Host Tiles
174、and Accelerator Commands Accelerator 1(TMUL)Tmm0+=tmm1*tmm2 Coherent Memory Interface TILECFG tmm0 tmm1 tmmn-1 Accelerator 2 New state to be managed by the OS Commands and status delivered synchronously via tile/accelerator instructions 3738端到端 AI 解決方案,為智能制造增添“眼”和“腦”的能力挑戰DL 訓練+推理案例研究智能制造70%人工成本減少257
175、%項目部署周期縮短美的工業視覺檢測云平臺架構示意圖生產環境復雜,傳統人眼識別方案效率低且準確率不高構建自動化機器視覺系統需要耗費大量成本和時間自動化視覺系統通用性不佳,難以在不同產線上普及使用掃碼獲取全文解決方案124毫秒推理時間從 2 秒縮短至3美的引入英特爾大數據分析和 AI 平臺-BigDL,為工業視覺檢測云平臺提供端到端的算法訓練和云計算部署能力,實現敏捷、高性能、通用化缺陷檢測能力。借助英特爾 至強 可擴展處理器支持的英特爾 AVX-512 等技術,以出色的并行能力,滿足云平臺在模型訓練和推理時對算力的嚴苛需求;利用 BigDL,以端到端的方式,助力美的工業視覺檢測云平臺快速、敏捷地
176、構建從前端數據預處理,到模型訓練、推理,再到數據預測、特征提取的深度學習全流程。*BigDL:指 BigDL 2.0,其合并原始 BigDL 和 Analytics Zoo1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 信息系統怎少得了 AI 助力挑戰AI 推理性能優化解決方案智慧醫學信息系統8.49倍在測試較大模型時,相較于第二代至強 可擴展處理器,基于第五代至強 可擴展處理器的系統 AI 推理性能提升達12.55倍在測試較小模型時,相較于第二代至強 可擴展處理器,基于第五代至強 可擴展處理器的系統 AI 推理性能提升達22.45倍基于第五代至強 可擴展處理器,4 并
177、發 8 線程時,相較于第 二代至強 可擴展處理器,系統三維重建應用運行效率提升達3BF16 精度下的異步推理性能比較4PACS/RIS 系統的三維重建應用運行效率比較5 1.2.3.4.5 有關性能和基準測試結果的更完整信息,請訪問:https:/ 推理等工作負載帶來巨大性能開銷未經優化的算力平臺在吞吐和時延等方面無法達到要求GPU 部署會帶來額外成本,不適用于成本敏感度高和 AI 推理時延敏感度低的場景掃碼獲取全文東軟基于第五代至強 可擴展處理器支持三維可視化應用,并利用其內置英特爾 AMX 及 OpenVINO 工具套件加速 AI 推理,助力醫院構建性能和擴展性更優的醫學影像系統?;诓捎?/p>
178、第五代至強 可擴展處理器的基礎設施,為東軟智慧影像信息系統提供強勁算力支持;采用英特爾 VTune Profiler 確定瓶頸函數,并對其進行優化,有效提升三維可視化應用性能;利用開源的 OpenVINO 工具套件,配合第五代至強 可擴展處理器內置的 AI 加速引擎-英特爾 AMX,加速 AI 推理,提升 AI 輔助診斷效率。解決方案東軟智慧醫學影像信息系統 PACS/RIS 的三維可視化模塊主要采用了體渲染(Volume Rendering)技術,并采用 OpenMP 與 Streaming SIMD Extensions 4(SSE4)指令集支持光線合成的實現。SSE4 指令集除擴展 In
179、tel 64 指令集架構外,還加入有關圖形、視頻編碼及處理、三維成像及游戲應用等指令,令涉及音頻、圖像和數據壓縮算法的應用程序大幅受益。在執行三維可視化任務時,東軟發現其產品在部分應用中的性能明顯不足。為了化解瓶頸,東軟基于 Intel VTune Profiler,確定了瓶頸函數 SafeGradz,該函數主要利用 SSE4 指令集進行三線性插值從而實現光線上點的梯度計算,通過對于該函數的代碼進行優化,東軟提升了三維可視化應用的性能。東軟測試了在不同英特爾 至強 可擴展處理器上,PACS/RIS 系統的三維重建應用的運行效率。測試數據如圖 2 所示,在處理器開通 4 并發 8 線程時,英特爾
180、 至強 鉑金 8592+處理器(第五代)的性能相較于英特爾 至強 金牌 6430 處理器(第四代)和英特爾 至強 銀牌 4210R 處理器(第二代)均有明顯提升,其中相比第二代的提升幅度高達 2.45 倍7。東軟智慧醫學影像信息系統 PACS/RIS 融合了廣泛的 AI 算法,以提供 AI 輔助診斷支持與合理化建議,從而輔助提升診斷效率。為了加速英特爾 至強 可擴展處理器執行 AI 推理的效率,東軟智慧醫學影像信息系統 PACS/RIS 采用了處理器內置的英特爾 AMX 加速器以及 OpenVINO 工具套件。6,7 東軟截止至 2024 年 2 月的內部測試結果。測試配置:基準配置 英特爾
181、至強 銀牌 4210R 處理器 2.40 GHz,128 GB 總內存;新配置 1 英特爾 至強 金牌 6430 處理器 2.10 GHz,512 GB 總內存;新配置 3 英特爾 至強 鉑金 8592+處理器 1.90 GHz,512 GB 總內存;4 并發 4 線程下圖像尺寸為 512*512*111,4 并發 6 線程下圖像尺寸為 512*512*936,4 并發 8 線程下圖像尺寸為 512*512*5000。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。8 東軟截止至 2024 年 2 月的內部測試結果。測試配置:基準配置 英特爾 至強 銀牌
182、4210R 處理器 2.40 GHz,128 GB 總內存;新配置 1 英特爾 至強 金牌 6430 處理器 2.10 GHz,512 GB 總內存;新配置 3 英特爾 至強 鉑金 8592+處理器 1.90 GHz,512 GB 總內存。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。三維可視化效率提升 2.45 倍6AI 推理性能提升高達 8.49 倍8圖 2.PACS/RIS 系統的三維重建應用運行效率比較1111.691.751.652.152.40 2.4500.511.522.534 并發 4 線程4 并發 6 線程4 并發 8 線程以 421
183、0R 的性能結果為基準三維重建應用在不同代處理器上的運行效率比較(越高越好)英特爾 至強 銀牌 4210R 處理器英特爾 至強 金牌 6430 處理器英特爾 至強 鉑金 8592+處理器英特爾 AMX 針對廣泛的硬件和軟件優化,它進一步增強了前代技術 矢量神經網絡指令(VNNI)和 BF16,從一維向量發展為二維矩陣,以便最大限度地利用計算資源,提高高速緩存利用率,以及避免潛在的帶寬瓶頸。OpenVINO 工具套件基于最新一代的人工神經網絡,包括卷積神經網絡(CNN)、遞歸網絡和基于注意力的網絡,可跨英特爾 硬件擴展計算機視覺和非視覺工作負載,從而大幅提高性能。收益基于英特爾 架構的東軟智慧醫
184、學影像信息系統 PACS/RIS 能夠為用戶帶來如下價值:通過融合三維可視化、AI 輔助診斷等高級能力,能夠助力醫生提高工作效率,改善患者體驗。系統提供全面的業務、質量、績效和教科研管理功能,有助于醫院切實加強影像質量安全管控,實現多維度績效考核,支撐影像教科研發展。系統采用了英特爾 至強 可擴展處理器,在滿足更高性能需求的同時,具備更高的部署與應用靈活性,可以承擔更廣泛的負載、更有效地控制系統的總體擁有成本(TCO)。展望基于英特爾 架構的東軟智慧醫學影像信息系統 PACS/RIS 具備高性能、高安全、高可靠等特征,支持高效地運行三維可視化、AI 輔助診斷等應用。英特爾、東軟將持續深化合作,
185、從新一代算力平臺構建和 AI 應用性能優化等方面進行深度合作,加速醫學影像數據的挖掘和應用,釋放醫學影像數據的巨大價值。附錄 1:硬件推薦配置(高配)處理器英特爾 至強 鉑金 8592+處理器內存512 GB硬盤4*3.84 TB NVMe GB SSD網卡雙端口 25GbE/10GbE 英特爾 以太網網絡 適配器 E810附錄 2:硬件推薦配置(中配)處理器英特爾 至強 金牌 6548Y+處理器內存512 GB硬盤4*3.84 TB NVMe GB SSD網卡雙端口 25GbE/10GbE 英特爾 以太網網絡 適配器 E810東軟在第二代/第四代/第五代英特爾 至強 可擴展處理器上測試了兩個
186、參數大小不同的模型在同步和異步下的性能表現(測試時 3 種配置 CPU 均鎖定 8 核心的內核),其中第四代和第五代處理器均啟用了英特爾 AMX。測試數據如圖 3 所示,在使用參數量為 342,978 的較小模型時,以 BF16 精度在異步模式下執行推理為例,英特爾 至強 鉑金 8592+處理器(第五代)的性能相較于英特爾 至強 銀牌 4210R 處理器(第二代),推理性能提升高達 2.55 倍;在使用參數量為 31,185,568 的較大模型時,以 BF16 精度在異步模式下執行推理為例,英特爾 至強 鉑金 8592+處理器(第五代)的性能相較于英特爾 至強 銀牌 4210R 處理器(第二代
187、),推理性能提升高達 8.49 倍。圖 3.BF16 精度下的異步推理性能比較111.756.772.558.49 0123456789較小模型較大模型以 4210R 的性能結果為基準推理性能比較(越高越好)英特爾 至強 銀牌 4210R 處理器 英特爾 至強 金牌 6430 處理器(啟用 AMX)英特爾 至強 鉑金 8592+處理器(啟用 AMX)3940用 CPU 做 AI 票據識別 也能“又快又準”挑戰OCR 模型推理加速解決方案醫保票據 OCR 識別4.66倍基于第四代至強 可擴展處理器,利用英特爾 AMX 將模型從 FP32 量化至 INT8,推理性能提升達11/3東軟醫保 OCR
188、票據識別方案可將單據識別處理時間 縮短為傳統手動流程的295%通過 Al+傳統業務結合,OCR 識別準確度可達3東軟醫保 OCR 票據識別方案應用流程第四代英特爾 至強 可擴展處理器1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ OCR 推理服務器需要具備更高的推理性能盡可能利用現有 CPU 服務器,降低基礎設施的支出提升票據識別效率的同時滿足應用精度要求掃碼獲取全文東軟采用第四代至強 可擴展處理器,搭配 OpenVINO 工具套件打造具備更高性能、更高性價比的 AI 推理服務器,有效解決智能 OCR 票據識別挑戰。第四代英特爾 至強 可擴展處理器為東軟醫保智能 OCR
189、 票據識別解決方案提供充裕算力資源;英特爾 AMX 助東軟將 OCR 模型量化至 INT8,顯著提升 AI 推理效率;OpenVINO 工具套件支持在廣泛的英特爾平臺上部署并加速神經網絡模型,助東軟在保持精度的同時進一步提升 AI 推理速度。解決方案東軟醫保 OCR 票據識別方案醫保單據識別是醫保業務中的一個重要場景。在無法聯網結算時,醫院需要將所有相關的住院、用藥、就診信息打印為紙質單據,并將紙質單據提交給醫保結算柜臺。醫保機構隨后會錄入這些紙質單據中的信息并進行處理。在傳統模式上,這一流程需要通過手動錄入,不僅耗時耗力,而且還可能因為人為疏忽導致錯錄、漏錄等問題。為了幫助醫保部門提高醫保結
190、算效率、響應服務型政府號召,使醫保經辦人員擺脫重復性、事務性工作,實現精細化管理,東軟提供了醫保 OCR 票據識別方案。該方案能夠通過紙質單據電子化、OCR 文字識別、人工輔助校改、目錄智能比對等流程,最終形成符合業務系統報銷要求的醫保電子結構化數據,降低人工成本、優化醫保經辦工作流程,保障醫?;鸢踩?。圖 1.東軟醫保 OCR 票據識別方案應用流程業 務 系 統 報銷單據智能識別系統 前臺業務人員 報銷登記 結算處理 導入結構化數據 紙質材料電子化 電子材料標記 單據掃描人員 智能識別 OCR 識別 智能目錄比對 輔助校核人員 可視化人工校核 目錄比對人員 目錄比對確認 數據審核人員 明細數
191、據審核 在智能 OCR 應用中,亞信科技通過英特爾 AMX 支持實現從 FP32 到 INT8/BF16 的量化,從而在可接受的精度損失下,增加吞吐量并加速推理。為了驗證優化后的性能提升,亞信科技對比了英特爾 至強 鉑金 8380 處理器(第三代英特爾 至強 可擴展處理器,未采用英特爾 AMX 加速)與英特爾 至強 鉑金 8480+處理器(第四代英特爾 至強 可擴展處理器,采用英特爾 AMX 將模型量化至 INT8/BF16)的性能。測試數據如圖 2 所示,第四代英特爾 至強 可擴展處理器能夠將 OCR 算法推理性能提升 3.38 倍5。第四代英特爾 至強 可擴展處理器通過創新架構增加了每個時
192、鐘周期的指令,每個插槽多達 60 個核心,支持 8 通道 DDR5 內存,實現了 50%2 的內存帶寬提升,并通過每 PCIe 5.0(80 個通道)實現了 2 倍3 的 PCIe 帶寬提升,整體可實現 60%4 的代際性能提升。第四代英特爾 至強 可擴展處理器提供了現代性能和安全性,可根據用戶的業務需求進行擴展。借助內置的加速器,用戶可以在 AI、分析、云和微服務、網絡、數據庫、存儲等類型的工作負載中獲得優化的性能。通過與強大的生態系統相結合,第四代英特爾 至強 可擴展處理器能夠幫助用戶構建更加高效、安全的基礎設施。第四代英特爾 至強 可擴展處理器在 AI 性能上更進一步。該處理器內置了創新
193、的英特爾 AMX 加速引擎。英特爾 AMX 針對廣泛的硬件和軟件優化,通過提供矩陣類型的運算,顯著增加了人工智能應用程序的每時鐘指令數(IPC),可為 AI 工作負載中的訓練和推理上提供顯著的性能提升。采用第四代英特爾 至強 可擴展處理器提升 OCR 推理性能亞信科技 AISWare AIRPA 中集成的智能 OCR 應用能夠將各類常見文檔圖片按照文檔原有的格式進行文本識別和還原,支持票據識別、卡證識別、印章識別、通用識別、手寫識別、表格識別、驗證碼識別、智能文檔處理等場景應用。為了加速智能 OCR 應用推理性能,亞信科技采用了第四代英特爾 至強 可擴展處理器。1,2,3,4 實際性能受使用情
194、況、配置和其他因素的差異影響。更多信息請見 www.I 截止 2022 年 8 月由英特爾開展的測試。測試配置 1:單節點,雙路英特爾 至強 鉑金 8380 處理器,40 核,啟用超線程,啟用睿頻加速技術,256 GB 總內存(16 插槽/32 GB/3200 MHz),SE5C620.86B.01.01.0005.2202160810,0 xd000375,Ubuntu 22.04.1 LTS,5.19.0-051900-generic,gcc 11.2,AsiaInfo OCR v1,OpenVINO 2022.2.0-custom_onednn2.6_9a3a3181e7056dcf7c
195、cd3a16e599e6882a4edc23,Yonyou OCR v1,OneDNN 2.6。測試配置 2:單節點,雙路英特爾 至強 鉑金 8480+處理器,56 核,啟用超線程,啟用睿頻加速技術,256 GB 總內存(16 插槽/32 GB/4800 MHz),EGSDCRB1.SYS.0085.D15.2207241333,0 x2b000070,Ubuntu 22.04.1 LTS,5.19.0-051900-generic,gcc 11.2,AsiaInfo OCR v1,OpenVINO 2022.2.0-custom_onednn2.6_9a3a3181e7056dcf7ccd3
196、a16e599e6882a4edc23,Yonyou OCR v1,OneDNN 2.6。實際性能受使用情況、配置和其他因素的差異影響。更多信息請見 www.I AI 加速 增強型英特爾 深度學習加速(AMX/TMUL)集成加速器 加速分析、網絡和存儲 下一代 英特爾 QuickAssist 技術 集成在 CPU 上 英特爾 Ultra Path Interconnect 2.0 新的硬件增強型安全性 全新的增強型技術 英特爾 Software Guard Extensions(SGX)(帶完整性)英特爾 Platform Firmware Resilience(PFR)提高處理器性能 PCI
197、 Express 5.0(80 通道)Compute Express Link(CXL)DDR5 內存 高帶寬內存 英特爾 傲騰 持久內存 300 系列 英特爾 存內分析加速器(英特爾 IAA)英特爾 動態負載均衡器(英特爾 DLB)英特爾 數據流加速器(英特爾 DSA)A-SOUL 團隊基于第四代至強 可擴展平臺,引入英特爾打造的 Super-fused LLM FP16/AMX BF16 推理加速方案,有效實現 PyTorch 框架在 LLM 推理上的優化。以第四代英特爾 至強 可擴展處理器作為云平臺的算力核心,實現 LLM 推理任務加速適配;借助處理器內置的英特爾 AVX-512_FP1
198、6 及英特爾 AMX BF16 加速指令,完美支持并加速 LLM;采用英特爾 Super-fused LLM FP16/AMX BF16 推理加速方案的三大優化“殺手锏”,彌補 PyTorch在第四代 至強 可擴展處理器上進行 LLM 推理時的性能不足。如何讓 AI 虛擬形象擁有“高智商”+“高情商”?挑戰解決方案LLM 推理優化案例研究AI 虛擬形象2.55倍單實例下,基于第四代至強 可擴展處理器的 客戶模型推理性能提升高達11.20倍IPEX 多實例線程管理下,基于第四代至強 可擴展處理器的客戶模型推理性能進一步提升達22倍在參數量為 7B 的模型上,加入優化方案后,FP16 精度下推理吞
199、吐性能提升達近3AI 羊駝交互式工作流程掃碼獲取全文Super-fused LLM FP16/AMX BF16 優化方案效果對比41.2.3.4 有關性能和基準測試結果的更完整信息,請訪問:https:/ 強大算力和突出的內存性能直播場景對交互實時性要求 嚴苛,需有效降低推理時延過度算力堆砌會壓低推理 成本性價比,帶來 TCO 的增長ChatAI 生成模型TTSTTA推理Prompt 4142ERNIE Tiny 用“芯”瘦身 加速 NLP 應用商業落地挑戰模型量化解決方案自然語言處理2.66倍采用第四代英特爾 至強 可擴展處理器的 ERNIE-Tiny 吞吐量提升達1減半ERNIE Tiny
200、 Medium 版與基礎版 ERNIE 3.0 相比,其網絡層數2與英特爾 AVX-512 相比,英特爾 AMX 可帶來 8 倍以上的效率提升4ERNIE-Tiny 對外能力輸出1.2.3.4 有關性能和基準測試結果的更完整信息,請訪問:https:/ AI 推理運算時間和更少的算力需求在既有 CPU 平臺上高效率完成推理任務,減少對昂貴的專用 AI 算力設備的需求,降低 TCO掃碼獲取全文百度 ERNIE-Tiny 使用內置英特爾 AMX 的第四代英特爾 至強 可擴展處理器,配合多項優化措施,充分利用處理器帶來的性能加速“紅利”,大幅提升推理效率。采用第四代英特爾 至強 可擴展處理器作為 E
201、RNIE Tiny 推理工作的算力輸出引擎,為高強度工作負載提供更可靠的全局加速;以第四代至強 可擴展處理器內置的 AI 加速技術-英特爾 AMX,大幅提升 ERNIE-Tiny 推理性能;利用英特爾 oneDNN 實現對英特爾 AMX 的調用,有效助力用戶提升 AI 應用及框架性能。解決方案2,048 次INT8 運算1,024 次BF16 運算英特爾 AMX 每個物理核在每個時鐘周期可實現35量操作時間。優化方案則是將矩陣乘法與元素的運算及激活融合在一起,即把連續的操作合并為一個大操作,可使內存的運行效率顯著提升。同時,方案中針對多線程的優化也被證明可助力 ERNIE 3.0 提升推理計算
202、性能,與上一版本相比,方案進一步優化了多線程的效率,并提升了多核的擴展性。優化方案驗證:第四代英特爾 至強 可擴展處理器可大幅提升 ERNIE-Tiny 性能表現為了驗證第四代英特爾 至強 可擴展處理器與上述多項優化方案對 ERNIE-Tiny 性能提升的實際作用,英特爾協助 百度推進了性能對比測試。測試在第四代英特爾 至強 可擴展平臺與第三代英特爾 至強 可擴展平臺之間展開。后者使用 英特爾 AVX-512_VNNI 對模型進行了 INT8 量化提速,而前者則啟用英特爾 AMX 技術進行加速。測試結果如圖四所示,ERNIE-Tiny 的性能(測試采用吞吐量(Throughput)作為測評指標
203、)獲得了顯著的提升,對比上一代 英特爾 至強 可擴展平臺,其吞吐量提升到了它的 2.66 倍9。測試配置 1測試配置 2吞吐量(越高越好)2.66X150001000050000551314675圖四 ERNIE-Tiny 在不同處理器平臺上的性能對比10 如圖五所示,目前,各個 ERNIE-Tiny 不僅已部署在零門檻 AI開發平臺 EasyDL、全功能 AI 開發平臺 BML 和 ERNIEKit (旗艦版)產品中,它們也將與平臺和產品的其它能力一起協同,在基于第四代英特爾 至強 可擴展處理器的基礎設施上,為使用者提供文本分類、關系抽取、文本生成以及問答等能力。同時,它們也將作為百度飛槳
204、PaddleNLP 自然語言處理開發庫的核心模型,搭配訓練-壓縮-推理端到端全流程應用與豐富的產業實踐范例,全力加速 NLP 技術產業落地。(如欲了解更多詳情,請訪問:https:/ 至強 可擴展處理器構建的基礎設施EasyDLBMLERNIEKitPaddleNLP圖五 ERNIE-Tiny 對外能力輸出未來展望百度與英特爾本次協作優化的成功,再一次證明各個行業用戶在通用的 CPU 平臺上也能同樣方便地部署高效能的 ERNIE-Tiny,用以應對越來越多的 NLP 應用需求。使用這一方案,用戶不必額外采購昂貴的專用 AI 算力設備,這將大幅降低企業借助 NLP 能力提升業務效率的門檻,并加速
205、更多 NLP 技術與應用的商業落地過程。面向未來,英特爾還將與百度一起在 NLP 領域開展更多也更為深入的技術合作,讓新一代至強 可擴展處理器及其內置的更強 AI 加速技術為更多 AI 應用的落地與實踐提供更多助力。白皮書|驗證至強內置全新 AI 加速技術:AMX 助百度 ERNIE-Tiny 性能提升達 2.66 倍Floating Point10246416XFaster2048IntegerOps/Cycle per core 100%utilization2568XFasterAVX-512(2xFMA)FP32AMX(TMUL)BF16AVX-512(2xFMA)INT8AMX(TM
206、UL)INT8r is BetterteHigh為深度學習產業落地 打造速度與安全新支點挑戰模型量化/多源數據聚合解決方案深度學習3.56倍飛槳搭載至強 鉑金 8358 處理器后,ResNet50 INT8 推理吞吐量是 FP32 的2PaddlePaddle 與 MesaTEE 的聯動使用 FP32 精度格式構建深度學習模型復雜度高且模型參數量大對模型進行“瘦身”,減少存儲空間的同時加快預測速度聚合更多源數據,同時以機密計算加強數據的安全性掃碼獲取全文百度飛槳采用第三代至強 可擴展處理器、英特爾 DL Boost 和英特爾 SGX 等,通過模型量化及機密計算能力幫助開發者和企業更輕松地部署深
207、度學習模型。借力至強 可擴展處理器內置 AI 加速及模型量化,顯著提升模型推理速度;采用英特爾 oneAPI 工具套件集成的多平臺下算子的 JIT 編碼庫,助開發者在不同架構上靈活調用 oneAPI 算子的即時代碼通用接口;借助英特爾 SGX 將敏感的程序代碼和數據加載到受 CPU 保護的內存“飛地”中,強化敏感數據的安全防護。解決方案更加完善借助英特爾 SGX,MesaTEE 為機密深度計算提供的保護產出量化模型并在基于英特爾 架構的平臺上部署4 倍算力提升25%內存要求降至至強 可擴展處理器的嵌入式加速器使系統1MesaTEE(BOS/S3)PaddlePaddlePaddlePaddle
208、Tensorflow/ONNXPaddlePaddleX2PaddlePaddle LitePaddle InferencePaddleSlimPaddle ServingPaddle.js1.2 有關性能和基準測試結果的更完整信息,請訪問:https:/ 可擴展處理器的新一代 e4 云服務器,利用處理器內置的多元加速器提升多場景下處理能力,助力客戶更好地應對云原生對 IT 架構帶來的挑戰。采用第四代至強 可擴展處理器提供的強勁算力,為用戶提供高性能的基礎算力支撐;利用第四代至強 可擴展處理器內置的英特爾 AMX、英特爾 QAT、英特爾 IAA 和英特爾 SGX 等 加速引擎,為 AI、數據加
209、解密、數據分析等工作負載提供加速,并兼顧數據安全;在科學計算集群中采用至強 CPU Max 系列的高帶寬內存(HBM)加速應用的內存訪問。實現云服務器性能突破,為數字化創新增添“云動力”挑戰解決方案云服務器升級解決方案企業云服務548.57%在 MongoDB 吞吐量測試中,對比 Zlib 壓縮算法,英特爾 IAA 將性能至高提升了3啟用英特爾 AMX 前后的吞吐量比較4掃碼獲取全文HBM 內存與 DDR 內存性能對比5(橫坐標為核心數,縱坐標為時間的倒數)1.2.3.4.5 有關性能和基準測試結果的更完整信息,請訪問:https:/ 帶來了多元化算力需求基礎設施規模越來越大,TCO 持續攀升
210、數據安全面臨嚴峻挑戰AI 缺陷檢測系統16.85倍e4 云主機 BF16+FP16(啟用 AMX)相較于 e4 云主機 FP32(未啟用 AMX)的推理性能提升了 113倍在虛擬機實時遷移測試中,無負載情況下,使用 英特爾 QAT 壓縮相比原壓縮方式,壓縮率增加約20123456BERT-baseBERT-largeResNet50ResNet101以啟用 AMX 前的數據為基準 吞吐量比較(越高越好)未啟用 AMX啟用 AMX圖 3.啟用英特爾 AMX 前后的吞吐量比較02468101214e4 云主機 FP32(未啟用 AMX)e4 云主機 BF16+FP16(啟用 AMX)吞吐量(tok
211、en/s,越高越好)e4 云主機 FP32(啟用 AMX)圖 4.ChatGLM-6B 啟用英特爾 AMX 前后的吞吐量比較LOOP(越高越好)0.120.10.080.060.040.0206 22 44 64DDR1/tHBM基礎設施小變化 帶來推薦系統大爆發挑戰AI 推理性能優化解決方案推薦系統3.4倍運行在至強 金牌 6330 處理器+OpenVINO 工具套件下的 ResNet50 模型帶寬提升高達250%相較至強 E5-2650v4 處理器,運行在至強 金牌 6330 處理器上的 DeepFM 模型時延降低接近1基于英特爾 DL Boost 的 INT8 卷積運算流程1.2.3 有
212、關性能和基準測試結果的更完整信息,請訪問:https:/ 金牌 6330 處理器+OpenVINO 工具套件下的 gRPC 模型性能提升高達3OpenVINO 工具套件可支持的 XPU 硬件組合搜狐采用第三代至強 可擴展處理器與 OpenVINO 工具套件進行 AI 推理性能優化,并使用英特爾 QAT 加速加解密負載,化解 Web 業務算力瓶頸。利用第三代至強 可擴展處理器出色的性能和內存容量為搜狐推薦系統提供可靠算力支持;利用至強 可擴展處理器內置的英特爾 DL Boost 技術,更充分地發揮其計算潛能,提升 INT8 模型的推理性能;跨英特爾 架構硬件擴展計算機視覺和非視覺工作負載的 Op
213、enVINO 工具套件,可進一步優化 AI 推薦系統的性能表現。INPUT INT8 INPUT INT8 vpdpbusd CONSTANT INT32 OUTPUT INT32 和上一代產品相比,第三代英特爾 至強 可擴展處理器在性能和支持的內容容量方面均有顯著提高,并且具備一系列特性以支持各種復雜的工作負載,有助于推動經濟高效、靈活且可擴展的數據中心計算架構,為 AI、數據分析等關鍵任務提供增強的每節點性能。第三代英特爾 至強 可擴展處理器內置了英特爾 深度學習加速技術,該技術在指令集中新增了英特爾 AVX-512 VNNI(矢量神經網絡指令集),后者是對標準英特爾 AVX-512 指令
214、集的擴展。英特爾 AVX-512 VNNI 將三條指令合并成一條指令執行,可更充分地發揮新一代英特爾 至強 可擴展處理器的計算潛能,提升 INT8 模型的推理性能。在工作中,未使用 VNNI 的平臺需要 vpmaddubsw、vpmaddwd 和 vpaddd 指令才能完成 INT8 卷積運算中的乘累加:圖 2-1.未使用 VNNI 的 INT8 卷積運算流程INPUT INT8 INPUT INT8 vpmaddubsw OUTPUT INT16 CONSTANT INT16 vpmaddwd OUTPUT INT32 CONSTANT INT32 vpaddd OUTPUT INT32 而
215、擁有 VNNI 的平臺只需使用一條指令 vpdpbusd 即可完成 INT8 卷積操作:為了進一步加速 AI 推薦系統的性能表現,搜狐還采用了 OpenVINO 工具套件對其進行優化。OpenVINO 工具套件是用于快速開發應用程序和解決方案,以解決各種任務(包括人類視覺模擬、自動語音識別、自然語言處理和推薦系統等)的綜合工具套件。該工具套件基于新一代的人工神經網絡,包括卷積神經網絡(CNN)、遞歸網絡和基于注意力的網絡,可跨英特爾 硬件擴展計算機視覺和非視覺工作負載,從而大幅提高性能。INPUT INT8 INPUT INT8 vpdpbusd CONSTANT INT32 OUTPUT I
216、NT32 圖 2-2.使用 VNNI 的 INT8 卷積運算流程optimized performance CPU GPU iGPU VPU 4546為 AI 應用提供高效異構加速服務挑戰異構加速解決方案AI 推理2.39倍使用英特爾 Neural Compressor 調優后,bert-base-uncased-mrpc 場景中,推理性能提升達24倍融合英特爾 DL Boost(AVX-512_VNNI)的INT8 模型處理性能,可達初始 FP32 模型的1集成英特爾 Neural Compressor 后的 TACO Kit 工作流程1.2.3 有關性能和基準測試結果的更完整信息,請訪問:
217、https:/ 部署環境正變得更為復雜且多元化在異構硬件平臺上運行全棧軟件調優過程復雜技術準入門檻提升,AI 應用的構建成本增加掃碼獲取全文解決方案55%-139%使用英特爾 Neural Compressor 調優后,保持精度水平基本不變,各 DL 模型推理性能提升了3AI 推理加速引擎 TACO Infer騰訊云利用英特爾 Neural Compressor 及英特爾 DL Boost 為 TACO Kit 中的 AI 負載提供更優推理性能加速,為用戶提供更加高效可用的異構 AI 加速能力。引入第三代至強 可擴展處理器作為方案的基礎設施核心,為深度學習推理提供強勁算力支撐;借助英特爾 DL
218、 Boost 所支持的英特爾 AVX-512_VNNI 指令集進行 INT8 量化,有效提升 AI 模型推理效率;以插件方式將英特爾 Neural Compressor 集成到 TACO Kit 中,幫助用戶降低 AI 模型的大小,提升深度學習推理速度。在英特爾和騰訊云開展的協作方案中,英特爾 Neural Com-pressor 可通過插件的方式集成到 TACO Kit 中。得益于上述 英特爾 Neural Compressor 提供的優勢特性,如圖三所示,TACO Kit 在與之實現集成后,能夠利用量化壓縮技術來為不同的深度學習框架(如TensorFlow、PyTorch、ONNXRunt
219、ime 等)提供統一的模型優化API,實現便捷的模型推理優化過程(由 FP32 數據類型量化為 INT8 數據類型)。同時,其內置的精度調優策略可根據不同的模型內部結構生成精度更佳的量化模型。該過程不僅大幅降低了用戶進行模型量化的技術壁壘,也有效提升了 AI 模型的推理效率。在云端部署時,量化后的模型可通過英特爾 至強 可擴展平臺內置的英特爾 DL Boost 技術來獲得行之有效的硬件加速。借助英特爾 DL Boost 所提供的 AVX-512_VNNI(矢量神經網絡指令)指令集,量化為 INT8 數據類型的模型能獲得更高的推理效率。以指令集中的 vpdpbusd 指令為例,以往需要 3 條指
220、令(包括 vpmaddubsw、vpmaddwd、vpaddd)完成的 64 次乘加過程,現在僅需 1 條指令(vpdpbusd)即可完成,并可以有效地消除運行過程中的處理器飽和問題。同時,乘加過程中的中間數值也可直接從內存播送。綜合以上種種性能優化措施,融合英特爾 DL Boost(AVX-512_VNNI)的INT8 模型處理性能,可達初始 FP32 模型的 4 倍1。白皮書|集成英特爾 Neural Compressor,騰訊云 TACO Kit 為 AI 應用帶來高效異構加速服務圖三 集成英特爾 Neural Compressor 后的 TACO Kit 工作流程FP32 ModelT
221、ACO英特爾 Neural Compressor英特爾 Neural Compressor 為不同的深度學習框架提供統一的 Network 壓縮技術 API,如低精度量化、稀疏、蒸餾等oneDNN 是一個開源的跨平臺性能庫,由深度學習應用的基本構件組成。該庫針對英特爾 Processor Graphics 和 Xe Architecture Graphics 進行了優化英特爾 DL Boost 為 INT8 數據類型提供原生支持,TACO 通過集成 Neural Compressor 對 FP32 模型進行量化,獲得更高的推理效率oneDNN英特爾 AVX-512_VNNIINT8 Model
222、User InputOutput英特爾 Neural Compressor Quantization Component Working FlowFP32 Framework ModelDatasetEvaluation MetricQuantized ModelTuning StrategiesCalibrateQuantizeEvaluateTune SpaceNext Quant ConfigNot Meet Accuracy GoalMeet Accuracy Goal2白皮書|集成英特爾 Neural Compressor,騰訊云 TACO Kit 為 AI 應用帶來高效異構加速服務
223、“計算加速套件 TACO Kit 能幫助不同角色的用戶在異構硬件平臺上獲得便捷、易用且經過有效優化的 AI 加速能力,從而助力 AI 應用實現全方位、全場景的降本增效。而英特爾 Neural Compressor 是 TACO Kit 中 AI 推理負載獲得充分性能加速的有效技術保證?!比~帆異構計算專家級工程師騰訊云因此,在異構硬件平臺上提供全棧式的軟硬件解決方案,顯然已成為業界面臨上述挑戰時的共識。而作為 AI 領域的領先企業之一,英特爾和騰訊云也通過深入的合作,以硬件異構、軟件同構的構建模式,如圖一所示,通過軟硬件結合的方式,攜手為用戶提供了高性能的異構加速解決方案。硬件異構CPU、GPU
224、、FPGA、NPU,異構硬件高效專用,發揮極致性能軟件同構TACO Kit:Tencent Accelerated Computing Optimizer 提供跨平臺統一軟件視角,輕松駕馭 多元算力異構計算平臺圖一 騰訊云構建異構計算平臺 騰訊云打造全新的異構計算加速套件 TACO Kit騰訊云面向不同角色用戶,包括 AI 方案設計者、AI 開發人員以及 AI 使用者推出的全新異構計算加速軟件服務,計算加速套件 TACO Kit,以一系列軟硬件協同優化組件和特有的硬件優化方案,為用戶提供支持異構硬件的跨平臺統一軟件視角,并借助多元化異構、高性能加速框架、離線的虛擬化技術以及靈活的商業模式等優勢
225、,實現了對多元算力的輕松駕馭,從而助力用戶的 AI 應用實現全方位、全場景的降本增效。而作為異構加速服務的入口,TACO Kit 內置的 AI 推理加速引擎 TACO Infer 則能針對用戶 AI 應用中不同的訓練和服務框架、不同的優化實踐和使用習慣、不同的軟件版本和硬件偏好,以計算加速、無感接入和魯棒易用的特性和優勢,幫助用戶一站式解決其 AI 模型在生產環境中部署與應用的痛點。TACO Infer計算加速無感接入魯棒易用無感集成無縫對接服務框架基于原生框架Runtime定制化聲碼器優化方案 提升實時語音合成性能挑戰文本轉語音案例研究智能語音服務1.54倍經 BF16 優化,在 MOS 為
226、 4.5 時,定制化 WaveRNN 模型實現性能增益21.89倍經 BF16 優化,在 MOS 為 4.4 時,定制化 pWaveNet 模型實現性能增益1定制化 WaveRNN 聲碼器模型架構圖1.2 有關性能和基準測試結果的更完整信息,請訪問:https:/ 模型對算力要求較高,在對實時性要求較高的智能語音交互場景中差強人意更多的工作負載需要聲碼器模型具備更高效的語音合成工作效能掃碼獲取全文騰訊云小微平臺采用第三代至強 可擴展處理器,構建定制化 pWaveNet 聲碼器以及定制化 WaveRNN 聲碼器兩套語音合成解決方案,將平臺性能推向更優。采用面向四路和八路服務器的第三代英特爾 至強
227、 可擴展處理器作為云小微平臺的核心算力引擎,以更多的內核和線程為平臺提供強大算力支撐;利用英特爾 AVX-512 及英特爾 DL Boost(BF16)減少內存訪問量,提升語音合成速度;配合英特爾 oneAPI 深度神經網絡庫,進一步釋放硬件加速能力,提升處理性能。解決方案顯著提升云小微平臺語音合成的實時率與吞吐量Parallel WaveNet 模型架構圖老師網絡學生網絡學習調整輸出語音波形高斯白噪音圖一 Parallel WaveNet 模型架構圖但是,pWaveNet 模型中的“學生”網絡依舊是以卷積神經網絡為基礎的網絡架構,雖然規模較小,但是眾所周知,卷積操作相較于普通的加減乘除運算要
228、耗費更大的計算量。為此,騰訊在 pWaveNet 模型的基礎上進行定制化開發,將網絡中一維卷積運算轉換為幾個通用矩陣相乘的操作,以簡化網絡拓撲并減少計算量,同時引入 Open-MP 并行機制,充分發揮 pWaveNet 模型中的并行計算優勢,使得該定制化模型在不影響語音質量的同時,有效提高了語音合成速度。定制化 WaveRNN 聲碼器解決方案除了對語音合成速度的不斷追求以外,云小微平臺還面對著越來越多設備的接入壓力,隨之而來的是對整體吞吐量的嚴苛要求。即在面對大量的實例運算時,單核心所服務的實例數越多越好,而提升單核吞吐量最直接的方法是進一步降低計算量。針對這一問題,騰訊選用了先進的 Wave
229、RNN 模型,在其基礎上構建高性能的 WaveRNN 語音合成方案。WaveRNN 模型的基本結構是一個具有雙 softmax 層的單循環網絡,將 16 位樣本序列分為高 8 位的粗動(coarse)部分和低 8 位的精細(fine)部分,采用 GRU 門控循環單元分別進行樣本預測。由于該結構只有單層循環,每預測一個 16 位樣本序列僅需要 5 步操作計算,遠遠小于 WaveNet 深度神經網絡結構所需的計算操作數。ct-1ctft-1RO1O2P(ct)P(ft)O4O3圖二 WaveRNN 模型架構圖除了 WaveRNN 模型本身結構方面的優勢外,騰訊還在該模型基礎上進行定制化開發,以進一
230、步降低計算量并提升合成速度。定制化 WaveRNN 模型的主體部分采樣率網絡,依舊是一個具有雙 softmax 層的單循環網絡,不同的是,方案將該網絡原始輸入中的線性部分分離出來,預先進行了 LPC 預估處理,以大幅降低網絡處理難度,并將樣本序列劃分成多個子帶,在前一個子帶生成開始不久后即啟動下一個子帶的計算,有效提高整體計算速度,同時方案還引入了稀疏化技術,減少帶寬占用,降低網絡整體計算時間,并且在多核環境中,大型稀疏模型能更好地平衡計算力,比小型密集模型性能更好。梅爾頻譜LPC 預估處理去加重合并子帶-律反量化-律量化計算預測-律量化采樣率網絡條件網絡先前信號先前信號當前樣本輸出ptgte
231、t圖三 定制化 WaveRNN 聲碼器模型架構圖3案例研究|定制化聲碼器優化方案,提升實時語音合成性能案例研究|定制化聲碼器優化方案,提升實時語音合成性能梅爾頻譜LPC 預估處理去加重合并子帶-律反量化-律量化計算預測-律量化采樣率網絡條件網絡先前信號先前信號當前樣本輸出ptgtet4748用基于“三明治結構”的 深度學習偵測模型來反欺詐挑戰機器學習訓練案例研究金融反欺詐驗證英特爾技術在金融行業的正向作用創新的反欺詐模型,樹立了行業標桿GBDT GRU RF“三明治結構”欺詐偵測模型架構有關性能和基準測試結果的更完整信息,請訪問:https:/ ML 的金融反欺詐模型面對相對復雜的序列化交易特
232、征時效果低于預期單一的深度學習方法單筆交易內特征學習能力有限掃碼獲取全文解決方案將引進更多英特爾技術和產品GBDT GRU RF“三明治結構”欺詐偵測模型評估效果電子商務與電子支付國家工程實驗室、眾安科技與英特爾一起,創新地提出 GBDT GRU RF “三明治結構”欺詐偵測模型架構,更好地應對金融風控需求。采用英特爾 至強 處理器家族作為動力源泉,以大量的硬件增強技術提升框架性能;基于 BigDL、Spark PipeLine 等技術進行流程化建模,很好地將復雜的特征學習工作流水化,并提高最終模型的效果;采用面向英特爾 架構優化的 TensorFlow、英特爾 MKL-DNN、英特爾 DAA
233、L 等進一步提升整個模型的工作效率。PrecisionRecall0.00.20.20.40.60.816091610161116120.40.40.30.2MonthF1(a)(b)GBDT-GRU-RFGBDT-GRU-RFGRU-GBDT+RFGBDT+RF-GRUGBDT+RFGBDTRFRFSVMLRGRUGRUWB Structure 1GRU TS=E1WB Structure 2GRU TS=E2WB Structure kGRU TS=EkTransformOptimized vectors for each transactionVectors for single tra
234、nsactionsnop-dimensionaln-dimensionalSelectcorrespondingmodelVsg1Vop1Vsg2Vop2VsgNVopNRandomForest利用 RPA+AI 高效生成智能洞察,從容應對數智”后浪”挑戰AI 模型優化案例研究RPA+AI236%使用 OpenVINO 進行模型量化,文本檢測模型推理性能提升了2163%PP-OCR 經過 OpenVINO 優化后,文本檢測模型推理性能提升了1壹沓科技人力智能產品架構圖AI 應用的構建、訓練和部署復雜度高,耗時耗力AI 應用軟硬件適配復雜,最終設備選型復雜多變部署硬件千差萬別使得 AI 應用的異
235、構化擴展難以實現掃碼獲取全文解決方案783%對比飛槳原始模型,新方案將模型量化為 INT8 后,文本檢測模型性能提升了3基于深度神經網絡模型在低質文本 OCR 的 CPU 加速方案壹沓科技與英特爾、百度合作,借助百度飛槳與 OpenVINO 工具套件開發和優化推理模型,加快應用上市速度,充分發揮硬件潛能,顯著降低 TCO。利用英特爾 至強 可擴展處理器獲得一流的算力支撐、性能、內存帶寬及內置 AI 加速能力;借助 OpenVINO 工具套件在精度損失很少的情況下,將模型由 FP32 轉化為 INT8,顯著提升推理性能;在掌握模型量化工具后,借助英特爾 DevCloud 容器化應用部署平臺的 P
236、OT 樣例快速進行嘗試,顯著節約時間成本。7壹沓科技基于 OpenVINO 工具套件與飛槳的智能 RPA 優化實踐圖 6.圖 5.處理器圖片輸入 OpenCV 做圖片前處理 英特爾 CPU DB文字檢測 CRNN+CTC 文字識別 識別結果輸出 文檔分類器 文檔分頁 文檔模板識別 圖片文檔 OCR 文檔智能 KV 匹配 文檔內容置信度評價 前端結果展示 用戶審核檢驗 3壹沓科技基于 OpenVINO 工具套件與飛槳的智能 RPA 優化實踐人力智能產品該產品是由先進技術集成的軟件系統,通過模擬人操作界面交互或數據接口交互,按照預先編排的流程,使操作業務系統得以串聯信息孤島,幫助人們完成各類數字化
237、工作,實現端到端業務自動化,助力企業數字化變革,提升綜合生產力及人力資源價值。按照不同的功能與應用場景,該產品可分為壹沓數字機器人平臺、壹沓數字機器人工廠、壹沓數字機器人伙伴,能夠幫助企業降本增效。圖 1.壹沓科技人力智能產品架構圖 軟硬件適配復雜:AI 應用的最終交付需要軟硬件的融合。算力、存儲容量、模型支持程度、軟硬件的優化以及價格等因素,使得最終設備的選型復雜多變。難以實現應用的異構化擴展:出于性能、經濟性、靈活性等方面的考量,客戶最終部署的硬件常常千差萬別。因此,AI 算法需要在異構化平臺上進行移植,同時保證在性能方面足以滿足要求,這常會導致企業將大量的成本與資金耗費在應用開發、性能優
238、化等工作之中。解決方案:英特爾助力壹沓科技加速智能平臺的創新為了助力客戶通過 RPA、AI 等技術構建智能業務平臺,實現知識工作自動化,壹沓科技自主研發 CubeInside 技術引擎,融合了 RPA、自然語言處理(NLP)、大數據挖掘、知識圖譜、文字識別(OCR)、業務流程管理和重構等核心技術。同時,壹沓科技以 CubeInside 技術引擎為基礎推出了 Cube 系列產品,包括如下幾個系列:CubePlatformCubeWorksCubeBotAIAPI1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ AI 模型調度的語義驅動,為企業提供更加優質的 NLP 服務挑戰
239、數據向量化處理解決方案智能中臺/NLP1.2倍相較于第四代至強 可擴展處理器,基于第五代至強 可擴展處理器的 YonMaster Dialogue Bot 工作負載吞吐性能提升達 1服務器單位性能密度有效提升,有助于降低TCO為 YonBIP 用戶硬件 選型提供有效參考用友 NLP 應用基于第五代至強 可擴展處理器的代際吞吐性能比較2第五代英特爾 至強 可擴展處理器具備更強通用計算和 AI 加速能力31.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 應用中詞嵌入等技術對向量性能的更高要求性能提升的同時需要更好地控制基礎設施 TCO掃碼獲取全文用友 iuap 智能中臺采用第
240、五代至強 可擴展處理器及英特爾 AVX-512 指令集加速 NLP 向量化處理,有效提升智友對話機器人、智能大搜的應用性能。第五代至強 可擴展處理器擁有更出色的算力和更可靠的性能,且在向量化操作、AI 加速等方面有卓越的性能優勢,可助力用友有效改善向量數據吞吐性能;基于最新的 x86 矢量指令集 英特爾 AVX-512,借助多達兩個 512 位融合乘加(FMA)單元,助力提升指令的吞吐能力,更好地應對龐大的向量數據操作量帶來的性能壓力。解決方案圖 3.第五代英特爾 至強 可擴展處理器具備強大性能圖 4.用友 NLP 應用在基于不同代英特爾 至強 可擴展處理器上的吞吐性能比較1 與第四代英特爾
241、至強 處理器相比的平均性能提升,以 SPEC CPU rate、STREAM Triad 和 LINPACK 的幾何平均值為衡量標準。請參閱 上的 G1:第五代英特爾 至強 可擴展處理器。結果可能有所差異。2 與第四代英特爾 至強 處理器相比,取得 1.19 倍到 1.42 倍的性能提升(ResNet50v1.5、BERT-Large、SSD-ResNet34、RNN-T(僅 BF16)、Resnext101 32x16d、MaskRCNN(僅 BF16)、DistilBERT)。請參閱 上的 A15-A16:第五代英特爾 至強 可擴展處理器。結果可能有所差異。3 請參閱 上的 G12:第五代
242、英特爾 至強 可擴展處理器。結果可能有所差異。4 請參閱 上的 G11:第五代英特爾 至強 可擴展處理器。結果可能有所差異。5 使用內置加速器在 AI、數據和網絡工作負載上進行測量,取得 1.46 到 10.6 倍的每瓦性能提升。請參閱 上的 A19-A25、D1、D2、D5 和 N16:第五代英特爾 至強 可擴展處理器。結果可能有所差異。6 用友截止至 2023 年 11 月的內部測試結果。測試配置:基準配置 雙路英特爾 至強 鉑金 8480+處理器 2.0 GHz,1024 GB 總內存(16x64 GB DDR5 4800 MT/s),Ubuntu 22.04.3 LTS;新配置 雙路英
243、特爾 至強 鉑金 8592+處理器 1.90 GHz,512 GB 總內存(16x32 GB DDR5 5600 MT/s),Ubuntu 22.04.3 LTS。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。為 AI 加速而生的處理器 以針對工作負載優化的性能實現業務增長和飛躍 以高效節能的計算助力降低成本與碳排放 值得信賴的優質解決方案和安全功能 21%整體性能提升42%推理性能提升2.7 倍三級緩存提升10 倍每瓦性能提升16%內存速度提升用友的測試數據如圖 4 所示,相較于第四代英特爾 至強 可擴展處理器,第五代英特爾 至強 可擴展處理器在 NL
244、P(YonMaster Dialogue Bot)工作負載中實現了 1.2 倍的代際吞吐性能提升6。00.20.40.60.811.21.4英特爾 至強 鉑金 8480+處理器英特爾 至強 鉑金 8592+處理器以 8480+處理器的性能結果為基準用友 NLP(YonMaster Dialogue Bot)工作負載性能比較(越高越好)收益 提升 NLP 應用的性能,顯著化解 NLP 中頻繁的向量化操作所帶來的吞吐性能挑戰,從而助力上層的智友對話機器人、智能大搜等應用的高效運行。提升了服務器的單位性能密度,在同等性能的水平下,降低了服務器規模的擴展需求,有助于降低 TCO。該應用實踐為用友 Yo
245、nBIP 用戶的硬件選型提供參考,用戶可以根據實際的性能需求,選擇更適用的硬件配置。為 AI 加速而生的處理器 以針對工作負載優化的性能實現業務增長和飛躍 以高效節能的計算助力降低成本與碳排放 值得信賴的優質解決方案和安全功能 21%整體性能提升42%推理性能提升2.7 倍三級緩存提升10 倍每瓦性能提升16%內存速度提升優化視覺 AI 方案,讓網格倉智能分揀更快、更準挑戰視覺 AI 推理/異構加速案例研究智能共配分揀系統98%在三段碼 OCR 測試中,相對于 95%的期望標準,測試結果準確度達2114ms在三段碼 OCR 測試中,相對于 130ms 的期望標準,測試結果平均運行時間為11.2
246、.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 數據中心 GPU Flex 系列和英特爾 分發版 OpenVINO 工具套件來優化其三段碼 OCR 檢測系統和分撥視頻分析平臺性能。引入英特爾 數據中心 GPU Flex 系列,為體量龐大的視頻流分析提供強勁的算力資源基礎;利用 OpenVINO 工具套件中的模型優化器和推理引擎兩大組件,優化模型性能,并為計算機視覺異構計算提供加速支持;優化后的視覺 AI 方案在算力時延、準確度、并發能力、穩定性和散熱等多個方面都能夠很好地滿足韻達應用需求?;谟⑻貭?數據中心 GPU Flex 系列 170 的 TSM 性能測試結果31811
247、8519152388412%30%49%12%12%0%10%20%30%40%50%60%01002003004005006007008009001000測試用例 1測試用例 2測試用例 3測試用例 4測試用例 5GPU 使用率平均運行時間(單位:ms)TSM 測試平均運行時間GPU 使用率測試用例 1:1 實例,批量大小=1測試用例 2:2 實例,批量大小=1測試用例 3:3 實例,批量大小=1測試用例 4:1 實例,批量大小=3測試用例 5:1 實例,批量大小=5圖 1.基于英特爾 數據中心 GPU Flex 170 的 TSM 測試結果7綜合測試和網點試點結果,基于英特爾 數據中心 G
248、PU Flex 系列 170 和英特爾 分發版 OpenVINO 工具套件的視覺 AI 方案,從算力、時延、準確度、并發能力、穩定性和散熱能力等多個方面都能很好地滿足韻達的需求,并為韻達帶來了以下業務優勢:提升業務效率并降低成本:智能分揀系統的部署顯著提升了分揀線效率,進而提升了派送效率和派送時效;此外,高效的智能分揀系統還幫助韻達實現了人力和成本節約。優化業務管理和決策:英特爾 數據中心 GPU Flex 系列 170 帶來的高算力讓韻達實現了更高效的分撥視頻流分析,可幫助韻達在跨年度/跨季度預測、合理定價、網點時效提升和獎懲制定等方面做出優化。為什么選擇英特爾軟硬件全面創新,滿足各類需求從
249、算力提升到框架指令的適配,英特爾著眼 AI 應用開發 與部署的各個環節,全面創新,旨在滿足用戶的不同需求。硬件層面,英特爾不僅在持續增強其 CPU 英特爾 至強 可擴展處理器的內置 AI 加速能力,還推出包括 GPU、FPGA 和 VPU 在內的各類專用加速器以滿足不同場景對算力的特定需求。軟件層面,從模型、框架到底層庫,英特爾也在不斷創新以適配各類硬件,賦能用戶更好地基于英特爾 架構實現 AI 加速。例如,在英特爾 oneAPI 和 OpenVINO 工具套件的支持下,模型可實現跨英特爾 CPU 和 GPU 的無縫切換,且幾乎不會對應用層造成任何影響。專業的技術支持,加速 AI 應用開發與部
250、署AI 應用的開發并非易事,尤其是在異構計算興起的今天,更是變得越來越復雜。英特爾擁有強大且專業的技術團隊,可在整個項目周期和項目結束后為用戶提供專業支持。因此,企業即使開發能力有限,亦可實現快速開發與部署。1 國家郵政局公布 2022 年上半年郵政行業運行情況,https:/ 網格倉:一種介于分撥中心與網點的站點。與分撥中心相比,其不具備中轉功能;與網點相比,是由網點老板和韻達總部共同投資,同時受兩者監管。3 指快遞共配,即通過把各個快遞品牌整合起來,共用場地、運力等資源,縮小快遞員的派送區域,提高派送密度,把單一品牌包裹派送轉變為為多品牌包裹配送,從而提升配送能力。4 A 股快遞公司 5
251、月成績出爐:韻達日單量超 5000 萬創記錄、行業單票價格降幅收窄,http:/ 數據由韻達提供,如欲了解詳情,請與韻達聯系。6 英特爾 數據中心 GPU Flex 系列 170 規格:https:/ 性能測試結果基于韻達于 2022 年 10 月進行的測試。配置詳情:單節點,雙路英特爾 至強 金牌 6348 處理器(28 核/路,56 線程/路),啟用超線程,啟用睿頻;GPU:英特爾 數據中心 GPU Flex 系列 170;內存總容量:256 GB(16 x 16 GB,DDR 2933);操作系統:Ubuntu 20.04;內核版本:5.10.54;工作負載:dlstreamer;編譯器
252、:gcc;庫:英特爾 oneAPI 工具套件;其他軟件:英特爾 OpenVino 工具套件 2022.2 版。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。描述的成本降低情景均旨在在特定情況和配置中舉例說明特定英特爾產品如何影響未來成本并提供成本節約。情況均不同。英特爾不保證任何成本或成本降低。英特爾技術特性和優勢取決于系統配置,并可能需要支持的硬件、軟件或服務得以激活。產品性能會基于系統配置有所變。沒有任何產品或組件是絕對安全的。更多信息請從原始設備制造商或零售商處獲得,或請見 。性能測試中使用的軟件和工作負荷可能僅在英特爾微處理器上進行了性能優化。諸
253、如 SYSmark 和 MobileMark 等測試均系基于特定計算機系統、硬件、軟件、操作系統及功能。上述任何要素的變動都有可能導致測試結果的變化。請參考其他信息及性能測試(包括結合其他產品使用時的運行性能)以對目標產品進行全面評估。更多信息,詳見 有關韻達的更多信息,請訪問:http:/ 數據中心 GPU Flex 系列的更多 信息,請訪問:https:/ 分發版 OpenVINO 工具套件的更多信息,請訪問:https:/docs.openvino.ai/cn/latest/index.html。有關英特爾 數據中心 GPU Flex 系列的其他案例研究,請訪問:https:/ 1:1
254、實例,批量大小=1測試用例 2:2 實例,批量大小=1測試用例 3:3 實例,批量大小=1測試用例 4:1 實例,批量大小=3測試用例 5:1 實例,批量大小=5圖 1.基于英特爾 數據中心 GPU Flex 170 的 TSM 測試結果7綜合測試和網點試點結果,基于英特爾 數據中心 GPU Flex 系列 170 和英特爾 分發版 OpenVINO 工具套件的視覺 AI 方案,從算力、時延、準確度、并發能力、穩定性和散熱能力等多個方面都能很好地滿足韻達的需求,并為韻達帶來了以下業務優勢:提升業務效率并降低成本:智能分揀系統的部署顯著提升了分揀線效率,進而提升了派送效率和派送時效;此外,高效的
255、智能分揀系統還幫助韻達實現了人力和成本節約。優化業務管理和決策:英特爾 數據中心 GPU Flex 系列 170 帶來的高算力讓韻達實現了更高效的分撥視頻流分析,可幫助韻達在跨年度/跨季度預測、合理定價、網點時效提升和獎懲制定等方面做出優化。為什么選擇英特爾軟硬件全面創新,滿足各類需求從算力提升到框架指令的適配,英特爾著眼 AI 應用開發 與部署的各個環節,全面創新,旨在滿足用戶的不同需求。硬件層面,英特爾不僅在持續增強其 CPU 英特爾 至強 可擴展處理器的內置 AI 加速能力,還推出包括 GPU、FPGA 和 VPU 在內的各類專用加速器以滿足不同場景對算力的特定需求。軟件層面,從模型、框
256、架到底層庫,英特爾也在不斷創新以適配各類硬件,賦能用戶更好地基于英特爾 架構實現 AI 加速。例如,在英特爾 oneAPI 和 OpenVINO 工具套件的支持下,模型可實現跨英特爾 CPU 和 GPU 的無縫切換,且幾乎不會對應用層造成任何影響。專業的技術支持,加速 AI 應用開發與部署AI 應用的開發并非易事,尤其是在異構計算興起的今天,更是變得越來越復雜。英特爾擁有強大且專業的技術團隊,可在整個項目周期和項目結束后為用戶提供專業支持。因此,企業即使開發能力有限,亦可實現快速開發與部署。1 國家郵政局公布 2022 年上半年郵政行業運行情況,https:/ 網格倉:一種介于分撥中心與網點的
257、站點。與分撥中心相比,其不具備中轉功能;與網點相比,是由網點老板和韻達總部共同投資,同時受兩者監管。3 指快遞共配,即通過把各個快遞品牌整合起來,共用場地、運力等資源,縮小快遞員的派送區域,提高派送密度,把單一品牌包裹派送轉變為為多品牌包裹配送,從而提升配送能力。4 A 股快遞公司 5 月成績出爐:韻達日單量超 5000 萬創記錄、行業單票價格降幅收窄,http:/ 數據由韻達提供,如欲了解詳情,請與韻達聯系。6 英特爾 數據中心 GPU Flex 系列 170 規格:https:/ 性能測試結果基于韻達于 2022 年 10 月進行的測試。配置詳情:單節點,雙路英特爾 至強 金牌 6348
258、處理器(28 核/路,56 線程/路),啟用超線程,啟用睿頻;GPU:英特爾 數據中心 GPU Flex 系列 170;內存總容量:256 GB(16 x 16 GB,DDR 2933);操作系統:Ubuntu 20.04;內核版本:5.10.54;工作負載:dlstreamer;編譯器:gcc;庫:英特爾 oneAPI 工具套件;其他軟件:英特爾 OpenVino 工具套件 2022.2 版。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。描述的成本降低情景均旨在在特定情況和配置中舉例說明特定英特爾產品如何影響未來成本并提供成本節約。情況均不同。英特爾不
259、保證任何成本或成本降低。英特爾技術特性和優勢取決于系統配置,并可能需要支持的硬件、軟件或服務得以激活。產品性能會基于系統配置有所變。沒有任何產品或組件是絕對安全的。更多信息請從原始設備制造商或零售商處獲得,或請見 。性能測試中使用的軟件和工作負荷可能僅在英特爾微處理器上進行了性能優化。諸如 SYSmark 和 MobileMark 等測試均系基于特定計算機系統、硬件、軟件、操作系統及功能。上述任何要素的變動都有可能導致測試結果的變化。請參考其他信息及性能測試(包括結合其他產品使用時的運行性能)以對目標產品進行全面評估。更多信息,詳見 有關韻達的更多信息,請訪問:http:/ 數據中心 GPU
260、Flex 系列的更多 信息,請訪問:https:/ 分發版 OpenVINO 工具套件的更多信息,請訪問:https:/docs.openvino.ai/cn/latest/index.html。有關英特爾 數據中心 GPU Flex 系列的其他案例研究,請訪問:https:/ 推理異構加速案例研究物流邊緣視覺 AI 應用更簡潔 更高效模型開發與維護34.8%基于英特爾 XPU 且軟硬協同的新方案可助中通節約成本約1AI 方案需積極地做出快速響應,滿足業務端的更多需求實現統一且成體系的模型開發,更加簡潔和高效降低邊緣視覺 AI 成本,在實際場景中實現更高性價比掃碼獲取全文解決方案更好滿足 場景
261、需求提升工作效率+防范違規作業中通快遞采用英特爾 XPU、英特爾 分發版 OpenVINO 工具套件和英特爾 oneAPI 工具套件等,以更高性價比擴展邊緣視覺 AI 應用。利用 XPU 加速帶來更強靈活性:至強 處理器加速輕量級 AI 場景,英特爾 數據中心 GPU Flex 系列負責實時性要求較高或多并發的場景;以 OpenVINO 工具套件中的模型優化器和 Open Model Zoo 等有效降低模型優化與開發難度,并縮短應用開發時間;加持英特爾 oneAPI 工具套件,中通可大大簡化 AI 應用開發,并實現應用跨 XPU 的無縫切換?;谟⑻貭?數據中心 GPU Flex 系列 170
262、 的 ZTO Yolo v4 性能測試結果2以英特爾 數據中心 GPU Flex 系列應對更嚴苛的需求為滿足像視頻流計算這樣對算力和實時性要求較高的應用 需求,中通按需導入了英特爾 GPU Flex 系列 170,對部分服務器進行了升級改造并針對其 ZTO Yolo v4 推理業務流進行了測試。測試結果(如圖 1 所示)顯示,這一產品性能出色,可很好地滿足中通相關應用場景的需求。284430560102030405060+AI +AI +AI +AI ZTO Yolo v4 H265 1080P圖 1.基于英特爾 數據中心 GPU Flex 系列 170 的 ZTO Yolo v4 性能測試結
263、果3為什么選擇英特爾一個模型,多設備部署:提升效率,節約成本與英特爾合作,可以充分利用其架構下的各種基礎設施,一個模型可以部署到多種設備,不僅提升了開發效率 還節約了部署成本。中通估算,本次方案可幫他們實現約 34.8%的成本節約4。完備的軟硬件產品組合為全開發鏈路護航英特爾擁有完備的軟硬件產品,可支持從模型訓練、推理到應用開發和運維的整個開發鏈路。硬件層面,除內置 AI 加速技術的 CPU(例如英特爾 至強 可擴展處理器)外,英特爾還提供數據中心 GPU 和 FPGA 等產品。中通本次使用的英特爾 數據中心 Flex 系列 170 運算速度高達每秒 150 萬億次(150 TOPS)5;并且
264、配備了英特爾首款基于硬件加速的 AV1 編碼器,能夠在不犧牲畫面質量的前提下將比特率提升 30%5,能以更低的功耗提供更出色的解碼性能6。軟件層面,英特爾提供包括英特爾 分發版 OpenVINO 工具套件和英特爾 oneAPI 工具套件等來幫助用戶簡化 AI 應用開發并實現應用跨 XPU 的無縫切換。強大的生態系統和可靠的專業支持英特爾強大的生態系統和專業的技術支持團隊可為用戶在項目前、項目中和項目后提供參考方案和專業支持,可顯著提升企業 IT 團隊解決問題和完成應用開發的效率。1 有關英特爾 Deep Learning Streamer(DL Streamer)的更多信息,請訪問 https
265、:/dlstreamer.github.io/。2 測試中的 AI 推理業務流包括 yolov4 目標檢測、追蹤和分類。3 性能測試結果基于中通快遞于 2022 年 10 月進行的測試。配置詳情:單節點,雙路英特爾 至強 金牌 6348 處理器(28 核/路,56 線程/路),啟用超線程,啟用睿頻;GPU:英特爾 數據中心 GPU Flex 系列 170;內存總容量:256 GB(16 x 16 GB,DDR 2933);操作系統:Ubuntu 20.04;內核版本:5.10.54;工作負載:dlstreamer;編譯器:gcc;庫:英特爾 oneAPI 工具套件;其他軟件:英特爾 OpenV
266、ino 工具套件 2022.2 版。4 數據援引自中通快遞內部估算結果,如需了解詳情,請與中通快遞聯系。5 英特爾公布代號 Arctic-Sound M 數據中心 GPU 的更多細節,https:/ 英特爾 數據中心 GPU Flex 系列產品簡介:https:/ 。性能測試中使用的軟件和工作負荷可能僅在英特爾微處理器上進行了性能優化。諸如 SYSmark 和 MobileMark 等測試均系基于特定計算機系統、硬件、軟件、操作系統及功能。上述任何要素的變動都有可能導致測試結果的變化。請參考其他信息及性能測試(包括結合其他產品使用時的運行性能)以對目標產品進行全面評估。更多信息,詳見 有關中通
267、快遞的更多信息,請訪問:https:/。有關英特爾 數據中心 GPU Flex 系列的更多 信息,請訪問:https:/ 分發版 OpenVINO 工具套件的 更多信息,請訪問:https:/docs.openvino.ai/cn/latest/index.html。有關英特爾 數據中心 GPU Flex 系列的其他案例研究,請訪問:https:/ 有關性能和基準測試結果的更完整信息,請訪問:https:/ Preserving Machine Learning隱私保護機器學習(PPML)5354以“可驗證”的數據保護機制,加速 AI 大模型數據價值挖掘挑戰隱私保護機器學習解決方案企業云服務1
268、.18倍在 Qwen-7B 中,基于第五代至強 可擴展處理器啟用英特爾 TDX,較第四代至強 可擴展處理器提升達23.64倍在 Qwen-7B 中,基于第五代至強 可擴展處理器啟用英特爾 TDX,較第三代至強 可擴展處理器提升達1英特爾 TDX 技術架構 1.2 有關性能和基準測試結果的更完整信息,請訪問:https:/ 端到端安全防護采用英特爾 TDX 的 BigDL-LLM 服務和調優架構 阿里云企業級實例 g8i 采用第五代至強 可擴展處理器及其提供的硬件級安全功能,在優化性能的同時有效擴展 TEE 可信邊界,助力用戶擁有更靈活、更友好的保密云計算環境。得益于第五代至強 可擴展處理器提供
269、的強勁算力支持,阿里云 g8i 整機性能顯著提升;在引入英特爾 SGX 的基礎之上,阿里云 g8i 采用處理器內置的英特爾 TDX 技術,與實例搭載的可信平臺模塊(TPM)安全芯片相配合,實現使用狀態數據的安全防護;阿里云推出采用英特爾 TDX 的 BigDL-LLM 隱私保護方案,實現對分布式節點或 AI 管道的保護。采用英特爾 TDX技術的 BigDL LLM 隱私保護方案阿里云推出了采用英特爾 TDX 技術的 BigDL LLM 隱私保護方案,可以在英特爾 TDX 技術的加持下實現對分布式節點或 AI 管道的保護,從而讓客戶在不犧牲數據隱私的前提下將更多的數據運用到 AI 應用中,有效挖
270、掘數據價值,為客戶構建更為高效的隱私保護機器學習方案,助力大模型的廣泛應用。除了安全性之外,采用第五代英特爾 至強 可擴展處理器的阿里云 ECS g8i 實例還在性能、能效等方面表現出了強大的優勢,助力加速云上的各種負載。以大模型推理為例,在通義千問大模型(Qwen-7 B)中,即使啟用英特爾 TDX,第五代英特爾 至強 可擴展處理器(TDX)的性能相較于第三代英特爾 至強 可擴展處理器,依然可實現 3.64 倍的提升,相比第四代處理器也有 1.18 倍的提升 1。End UserLLM Chat UILLM Serving FrontendLLM Inference BackendWorke
271、rWorkerTrainerTrainerLLM Inference BackendFine Tuning BackendFine Tuning BackendFine Tuning FrontendLauncher LLMLLaMA2ChatGLMProtected by TDXQwenEtc.Gradio ServerControllerRESTful API ServerAttestation ServiceLLM Model ManagementModel Vendor/v1/chat/completions/v1/completions/v1/attestServing/v1/att
272、estTuning LLM LLM LLM LLMKey Management ServiceDataModelData圖 3.采用英特爾 TDX 的 BigDL LLM 服務和調優架構信任域(TD)信任域(TD)(無修改)(無修改)(無修改)(無修改)(由 TDX )(由 TDX )TDX 使能的(SEAM)下的 TDX TDX TDX管控信任域之 TDX管控信任域 內外部交互用過”硬”安全技術打破數據孤島,助聯邦學習落地挑戰聯邦學習訓練案例研究數據信息安全更安全的建模多方數據不離開本地即可聯合建模,中間結果也得到充分保護更安全的協作提供加密方式,支持同態加密等多方安全計算機制英特爾 SGX
273、 以可信“飛地”來增強數據安全防護有關性能和基準測試結果的更完整信息,請訪問:https:/ AI 模型調優的中間過程提供更可信的安全保障有效評估各數據源對最終優化結果的貢獻度掃碼獲取全文平安科技將英特爾 SGX 技術引入其聯邦學習方案,通過處理器指令,在不同數據源中創建可信區域來用于數據訪問,探索多源數據協同實施 AI 訓練。采用英特爾 SGX 在聯邦學習的各節點中,創建更有助于加強數據安全的內存“飛地”,用于中間參數的交互和傳輸,以幫助防止內外部攻擊,為多源數據環境下的聯邦學習實踐探索提供更為可靠的安全保障;結合英特爾 SGX 的“1+N”聯邦學習解決方案,有助于助力平安科技更精確地評估各
274、節點數據對于 AI 模型訓練的貢獻度,方便用戶對方案進行調整。解決方案多框架支持支持多種深度學習框架,如 TensorFlow、Keras、PyTorch、MXNet 等使用英特爾 SGX 的聯邦學習方案新的 1+N 式解決方案架構如圖二所示,其由位于中心的聚合服務器(Aggregator)“飛地”以及部署在各處的 N 個邊緣“飛地”組成網絡,聚合服務器和各個數據源系統中的“飛地”,均是由英特爾 SGX 技術提供的處理器指令,在內存中構造出的可信區域。在 1+N 式方案中,需要在加密通道中傳輸的,是待訓練優化的 AI 模型以及相關的中間參數,而訓練數據、明文 AI 模型以及 AI 算法則被留存
275、在各個數據源所在的節點本地。在初始化過程中,“飛地”都會自己產生公私密鑰對,公鑰注冊到聚合服務器,私鑰保存在各自的“飛地”里。當訓練開始時,首先聚合服務器會和目標“飛地”建立加密連接(通過公私密鑰對的非對稱算法提供的能力來協商本次連接的對稱加密密鑰,幫助防止中間人攻擊)。連接建立后,聚合服務器首先會將待訓練的 AI 模型加密推送到各個“飛地”中,然后各個“飛地”把模型解密傳送到本地 AI 訓練環境對本地數據實施訓練。訓練結束后,本地 AI 訓練環境將訓練得到的中間參數返回至本地的“飛地”。針對業務需求,團隊對聯邦學習進行了創新:每個本地環境中的“飛地”都會是聯邦的可信代理,隨著后期算法可以直接
276、運行在“飛地”里,這個可信代理在本地環境里可以做的事情會越來越多。接下來,“飛地”會在加密連接里把中間參數加密傳回給聚合服務器“飛地”。聚合服務器“飛地”會將收到的中間參數進行快速聚合,并根據結果對 AI 模型進行優化調整,而后再進行下一輪的迭代。由于上述過程都是在“飛地”中實現,也就是說,在方案的整個循環迭代過程中,AI 模型以及中間參數,都在加密通道以及“飛地”內進行傳遞和交互,并不與外界軟硬件發生接觸,由此形成了更為安全可信的“內循環”。而英特爾 架構處理器,則為“飛地”的構建、加密通道的敷設以及中間參數的交互和聚合提供強大的算力支持。同時,針對各節點為訓練效果貢獻的評估,1+N 式方案
277、也給出了令人滿意的實踐方法。在 1+N 式方案中,當有 N 個數據源時,可以先對所有節點進行訓練,得到全量的訓練效果。而后再分別對除了待評估節點以外的 N-1 個節點進行訓練(例如評估節點#1 時,對節點#2 至#N 進行訓練),在得到不同訓練效果的模型后,系統可以計算出每個數據節點在聯邦學習中的“貢獻系數”,從而對各個數據節點在 AI 聯合訓練中的貢獻度做出更為精確的評估,并據此進行方案調整。以上算法和調度,可能會對聯邦學習的性能有所影響,是否奏效還需要用實踐來予以驗證。但如何進一步利用英特爾技術所構建的“飛地”,確實還有很大的空間等待探索和發掘。圖二 使用英特爾 SGX技術的聯邦學習方案聯
278、邦學習聚合服務器飛地更新聚合加密模型解密本地數據+明文 AI 模型+AI 算法聯邦學習飛地#1模型更新110101010101111010010101加密模型解密本地數據+明文 AI 模型+AI 算法聯邦學習飛地#N模型更新模型加密模型解密1101010101011110100101013案例研究|用過“硬”安全技術打破數據孤島 加速聯邦學習實踐聯邦學習實踐助力 AI 訓練演進算法的日趨成熟和算力的日漸豐沛,讓大規模與高質量的數據成為影響 AI 效能的重要因素。然而,在各行業 AI 應用的實際落地中,因不同企業、部門所屬數據源彼此孤立而造成的訓練數據不足,造成了 AI 模型訓練效果不佳的問題。
279、而傳統上,要利用多個數據源共同訓練模型,系統需將數據整合到一起,但這種做法無法保證數據交互的安全性,也加大了數據泄露的風險。隨著數據安全和隱私日益受到人們的關注,政府也在法律法規層面不斷加大對它們的保護力度。例如 2019 年 4 月正式發布的互聯網個人信息安全保護指南,對于個人信息的共享和轉讓行為給出了明確規定,進一步加強了個人信息安全保護措施1。而 2019 年5 月由國家互聯網信息辦公室會同相關部門研究起草的數據安全管理辦法(征求意見稿),則對數據處理使用和數據安全監督管理提出了明確的意見要求2。因此,AI 訓練需要更有安全保障的數據聚合方法來提升多源數據協同能力。憑借對 AI、大數據技
280、術發展的敏感性,聯邦學習團隊前瞻性地對日漸成熟的聯邦學習方法展開了探索。與傳統數據共享方法不同的是,聯邦學習中各節點的數據都留存在本地來參與訓練,因此各數據源都有望在有效保證數據隱私的前提下共同參與和推動 AI 模型的優化,并分享優化成果?,F在,聯邦學習團隊基于這一理念構建了全新的蜂巢聯邦學習平臺,來為用戶提供數據隱私安全保護的一站式解決方案。在該平臺的構建過程中,如何進一步增強多源數據在其本地的安全性,如何為 AI 模型調優的中間過程提供更可信的安全保障,以及如何有效地評估各數據源對于最終優化結果的貢獻度,都是新方案亟待解決的問題。為此,聯邦學習團隊與英特爾一起,通過引入英特爾 SGX 技術
281、,為以上問題提供了更優的解決方案。過“硬”技術為聯邦學習保駕護航在聯邦學習方法聚合多源數據實施 AI 模型訓練的過程中,AI 模型或過程參數需要通過網絡在各個數據節點中進行傳輸和交互。眾所周知,數據的暴露面越大,其所面臨的安全風險也越高。因此,無論是各節點中的硬件設施、操作系統等,還是路由器、網關等網絡設備,一旦受到“污染”,都有可能帶來數據泄露、篡改的安全風險。例如,黑客有可能通過在網絡轉發設備上安裝嗅探器(Sniffer)來截取數據報文,也可能利用冷啟動(Cold Boot)攻擊方式來讀取服務器重啟后的數據殘留,或者直接通過內存總線窺探、內存篡改等方法攻擊內存中的數據。形形色色的攻擊方法令
282、系統防不勝防,而要構建自下而上,涵蓋軟硬件和操作系統的安全防護機制,不僅會帶來巨大的資源消耗,抬升用戶的總擁有成本(Total Cost of Ownership,TCO),同時實際防護效果也未必盡如人意。在硬件中構建可信區域的 TEE 方案是解決上述問題的更優選擇。作為這一方案的重要技術實現,如圖一所示,英特爾 SGX 技術可通過在特定硬件(例如內存)中構造出一個可信的“飛地”(Enclave),使數據和應用程序的安全邊界僅限于“飛地”本身以及處理器,同時其運行過程也不依賴于其他軟硬件設備。這意味著數據的安全保護是獨立于軟件操作系統或硬件配置之外,即使硬件驅動程序、虛擬機乃至操作系統均受到攻
283、擊和破壞,也能更有效地防止數據泄露。加密數據傳輸、交互飛地#N飛地#3飛地#2內存內部攻擊外部攻擊飛地#1英特爾 軟件防護擴展技術數據應用模型110101010101111010010101圖一 英特爾 SGX 技術以可信“飛地”來增強數據安全防護基于英特爾 SGX 技術所具備的特性,聯邦學習團隊與英特爾一起,在其聯邦學習方案中設計了 1+N 式的多源數據 AI 模型訓練方法,使其面臨的數據安全和訓練效果評估問題均獲得了更好地解決。案例研究|用過“硬”安全技術打破數據孤島 加速聯邦學習實踐255Green Datacenter綠色數據中心56四維優化浸沒式液冷方案,推動液冷技術普惠發展挑戰解決
284、方案浸沒式液冷案例研究綠色高效數據中心1.09采用浸沒式液冷方案的數據中心 PUE 值可以達到極低的1100 千瓦采用浸沒式液冷方案,單機柜功率可達250%相比于風冷方案,浸沒式液冷方案的 資源利用率提升3部署阿里云單相浸沒式液冷方案的數據中心英特爾與阿里云在浸沒式液冷領域的合作歷程掃碼獲取全文阿里云與英特爾基于至強 可擴展平臺進行緊密技術協作,打造出領先的單相浸沒式液冷方案,并共同推動浸沒式液冷技術在數據中心的實踐與運用。材料兼容性-設計一整套測試方案和數據分析方法,并通過大量的實驗來驗證至強 可擴展處理器等硬件產品在浸沒式液冷環境下運行的可靠性;芯片電氣特性 對英特爾硬件產品在浸沒式液冷的
285、環境中重新做了分析與驗證,并改進信號連接方案,實現了與風冷相同的信號完整性與可靠性指標;服務器系統結構優化 對服務器內部的液體流場等做深入研究,開發高性能的浸沒式液冷散熱器;產業鏈拓展 積極推進液冷技術標準化,支持本土標準制定與技術白皮書推廣。對浸沒在液體中的器件開展 充分的材料兼容性分析和驗證應對電信號可能在液體環境中 出現時序錯誤等信號完整性問題優化服務器系統結構設計,提升機柜功耗密度新方案的探索、開發和落地 需要完整的產業鏈支持3案例研究|可持續 共未來-阿里云攜手英特爾構建綠色高效數據中心,推動液冷技術普惠發展方式相比,浸沒式液冷方式在換熱效果、散熱效率等方面都有著更優異的表現,已成為
286、散熱技術發展的重要趨勢。把握數據中心散熱技術趨勢,阿里云早在 2016 年就發布了其首套浸沒式液冷系統,并于第二年完成了浸沒式液冷集群的構建;在其后的 2018 年,阿里云建成首個互聯網液冷數據中心;到 2020 年,阿里云又打造了中國最大規模的單相浸沒式液冷數據中心暨全國首座 5A 級綠色液冷數據中心。同時,阿里云還與合作伙伴一起,在 2021 年發起成立了浸沒液冷智算產業發展論壇,以協同技術創新、實踐積累來驅動生態繁榮,推動整個液冷產業的發展。如圖 3 所示,部署有阿里云單相浸沒式液冷方案的數據中心,不再是傳統的服務器機柜和穿梭其間的引風、排風設備和管道,取而代之的是一個個整體排列的 TA
287、NK。所謂 TANK,就是用于安裝服務器、交換機等 IT 設備的浸沒式箱體。作為數據中心最重要的組成部分,各類服務器、交換機等設備將全部浸沒在 TANK 內的冷卻液中;而“單相模式”是指冷卻液會始終保持在液態,當設備工作時,熱量會直接傳導到冷卻液中,通過循環管線(紅熱藍冷)將熱量帶到熱交換區,并最終通過室外冷源散熱。與傳統風冷方式和冷板液冷方式相比,阿里云單相浸沒式液冷方案有著更高的散熱效率。以往風冷方式使用空氣作為冷媒,通常需借助散熱片來與空氣進行熱交換,但由于散熱片很難覆蓋全部器件,同時器件能耗大小不同,表面溫度也并不均勻,存在局部過熱的隱患。而冷板液冷方式雖然可以覆蓋高功耗的器件,但仍需
288、依靠風冷來解決冷板沒有覆蓋的部件,無法實現設備產生的熱量 100%通過液體直接捕獲(Heat Capture)。浸沒式液冷方案使用液體作為冷媒,由于液體的比熱容和密度遠高于空氣,在換熱過程中單位體積的液體可以帶走更多熱量,而且當器件全部浸沒在 TANK 內的冷卻液中時,其熱量可以很均勻地傳導到液體中,從而實現 100%的熱捕獲效果;而這也使得單機柜可以支持更高的功耗密度,可在 TANK內部署更多器件。同時,在省去各類引風、排風設備和管道后,數據中心還可釋放更多空間用于 IT 設備部署。英特爾與阿里云攜手優化浸沒式液冷方案多年來,英特爾都通過基于英特爾 至強 可擴展平臺的軟硬件產品組合為阿里云數
289、據中心提供強勁算力引擎,并面向各類云上應用共同實施優化。如大家所熟知的,傳統的服務器及其芯片等器件在過去幾十年中都是基于風冷設計,浸沒式液冷徹底改變了服務器中各種器件的工作環境和使用條件,是一個從未被探索,有大量的問題亟需研究和解決的領域,需要數據中心的各個參與方一起深度協同,來對方案進行設計、驗證和優化。圖 3 部署阿里云單相浸沒式液冷方案的數據中心熱交換器室外冷源冷卻液液冷 TANK冷卻子系統數據中心設備部署在數據中心的液冷 TANK部署在液冷 TANK 中的服務器4案例研究|可持續 共未來-阿里云攜手英特爾構建綠色高效數據中心,推動液冷技術普惠發展如圖 4 所示,從 2015 年前后起,
290、英特爾與阿里云就開始在浸沒式液冷技術領域開展廣泛合作,協同開發浸沒式液冷服務器,并在材料兼容性、芯片電氣特性、服務器系統結構設計以及產業鏈拓展等方面獲得了巨大成功。材料兼容性 浸沒式液冷中的芯片需要完全浸沒在冷卻液中工作,芯片浸泡在液體中可能會發生物理特性變化,甚至與液體發生化學反應。即便是非常緩慢的化學反應和物理特性變化都會影響芯片長期運行的可靠性,因此方案必須對浸沒在液體環境中的器件開展充分的材料兼容性分析和驗證,避免處理器等器件的材料在冷卻液中發生特性變化和性能下降。為此,英特爾針對芯片材料兼容性設計了一整套測試方案和數據分析方法,并通過大量的實驗來驗證英特爾 至強 可擴展處理器等硬件產
291、品在浸沒式液冷環境下運行的可靠性。芯片電氣特性 傳統風冷服務器中有大量電信號是以空氣為介質傳輸的,而在浸沒式液冷方案中這些信號的傳輸介質就從空氣變成了液體。由于空氣與液體的電氣特性不同,這些電信號尤其是芯片間互連的高速接口信號可能在液體環境中出現波形嚴重失真、時序錯誤等信號完整性問題。為應對這些問題,英特爾和阿里云的工程師們對英特爾 至強 可擴展處理器、英特爾 Agilex FPGA 芯片等的高速接口電路在浸沒式液冷的工作環境中重新做了信號完整性仿真分析和測試驗證,并與其它零部件和服務器整機廠商合作改進了高速信號連接方案,確保幾十乃至上百 G 赫茲、皮秒級別的高速信圖 4 英特爾與阿里云在浸沒
292、式液冷領域的合作歷程阿里云英特爾阿里云液冷 1.0 啟動概念驗證2ph英特爾 至強 處理器 沉浸式解決方案尋路 技術風險評估 處理器在單相浸沒液冷中的實驗室驗證 散熱熱仿真和驗證 信號完整性仿真和驗證 制定英特爾浸沒式液冷戰略,推動共建生態系統 與業界伙伴合作制訂沉浸式液冷規范 浸入式液冷散熱器優化 浸沒式液冷信號完整性的使能與優化 沉浸式液冷 VR/PI 優化 為液冷優化的型號小規模部署1ph第一代英特爾 至強 處理器上量階段1ph第二代英特爾 至強 可擴展處理器第三代英特爾 至強 可擴展處理器大規模部署1ph第三代英特爾 至強 可擴展處理器第四代英特爾 至強 可擴展處理器July 2015
293、阿里云液冷 2.0 啟動阿里云液冷 3.0 啟動阿里云液冷 3.5 啟動阿里云液冷 5.0 啟動April 2017July 2019January 2021January 2022如欲了解更多案例詳情,請訪問:https:/ PUE 值降低至121,750噸部署 500 個機柜,在 5 年的生命周期內,可以減少二氧化碳排放21,500萬按部署 500 個機架計算,在 5 年的生命周期內,可節省電力高達31.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 可擴展處理器提升能耗比,推出高密度算力整機柜方案,有效提升數據中心整體能效。采用第四代至強可擴展處理器為方案提供強勁算力
294、支撐,利用有效提升的內存帶寬與速度及更高的 PCIe 帶寬,進一步提高數據中心在計算、存儲、網絡層面的基礎資源供給能力;靈活應用處理器內置的英特爾 IAA、英特爾 AMX、英特爾 DSA、英特爾 QAT 等高級硬件能力,提升數據中心面向多種負載的能效。京東云綠色數據中心高密度服務器的模塊化設計第四代英特爾 至強 可擴展處理器掃碼獲取全文在智能 OCR 應用中,亞信科技通過英特爾 AMX 支持實現從 FP32 到 INT8/BF16 的量化,從而在可接受的精度損失下,增加吞吐量并加速推理。為了驗證優化后的性能提升,亞信科技對比了英特爾 至強 鉑金 8380 處理器(第三代英特爾 至強 可擴展處理
295、器,未采用英特爾 AMX 加速)與英特爾 至強 鉑金 8480+處理器(第四代英特爾 至強 可擴展處理器,采用英特爾 AMX 將模型量化至 INT8/BF16)的性能。測試數據如圖 2 所示,第四代英特爾 至強 可擴展處理器能夠將 OCR 算法推理性能提升 3.38 倍5。第四代英特爾 至強 可擴展處理器通過創新架構增加了每個時鐘周期的指令,每個插槽多達 60 個核心,支持 8 通道 DDR5 內存,實現了 50%2 的內存帶寬提升,并通過每 PCIe 5.0(80 個通道)實現了 2 倍3 的 PCIe 帶寬提升,整體可實現 60%4 的代際性能提升。第四代英特爾 至強 可擴展處理器提供了現
296、代性能和安全性,可根據用戶的業務需求進行擴展。借助內置的加速器,用戶可以在 AI、分析、云和微服務、網絡、數據庫、存儲等類型的工作負載中獲得優化的性能。通過與強大的生態系統相結合,第四代英特爾 至強 可擴展處理器能夠幫助用戶構建更加高效、安全的基礎設施。第四代英特爾 至強 可擴展處理器在 AI 性能上更進一步。該處理器內置了創新的英特爾 AMX 加速引擎。英特爾 AMX 針對廣泛的硬件和軟件優化,通過提供矩陣類型的運算,顯著增加了人工智能應用程序的每時鐘指令數(IPC),可為 AI 工作負載中的訓練和推理上提供顯著的性能提升。采用第四代英特爾 至強 可擴展處理器提升 OCR 推理性能亞信科技
297、AISWare AIRPA 中集成的智能 OCR 應用能夠將各類常見文檔圖片按照文檔原有的格式進行文本識別和還原,支持票據識別、卡證識別、印章識別、通用識別、手寫識別、表格識別、驗證碼識別、智能文檔處理等場景應用。為了加速智能 OCR 應用推理性能,亞信科技采用了第四代英特爾 至強 可擴展處理器。1,2,3,4 實際性能受使用情況、配置和其他因素的差異影響。更多信息請見 www.I 截止 2022 年 8 月由英特爾開展的測試。測試配置 1:單節點,雙路英特爾 至強 鉑金 8380 處理器,40 核,啟用超線程,啟用睿頻加速技術,256 GB 總內存(16 插槽/32 GB/3200 MHz)
298、,SE5C620.86B.01.01.0005.2202160810,0 xd000375,Ubuntu 22.04.1 LTS,5.19.0-051900-generic,gcc 11.2,AsiaInfo OCR v1,OpenVINO 2022.2.0-custom_onednn2.6_9a3a3181e7056dcf7ccd3a16e599e6882a4edc23,Yonyou OCR v1,OneDNN 2.6。測試配置 2:單節點,雙路英特爾 至強 鉑金 8480+處理器,56 核,啟用超線程,啟用睿頻加速技術,256 GB 總內存(16 插槽/32 GB/4800 MHz),EG
299、SDCRB1.SYS.0085.D15.2207241333,0 x2b000070,Ubuntu 22.04.1 LTS,5.19.0-051900-generic,gcc 11.2,AsiaInfo OCR v1,OpenVINO 2022.2.0-custom_onednn2.6_9a3a3181e7056dcf7ccd3a16e599e6882a4edc23,Yonyou OCR v1,OneDNN 2.6。實際性能受使用情況、配置和其他因素的差異影響。更多信息請見 www.I AI 加速 增強型英特爾 深度學習加速(AMX/TMUL)集成加速器 加速分析、網絡和存儲 下一代 英特爾
300、QuickAssist 技術 集成在 CPU 上 英特爾 Ultra Path Interconnect 2.0 新的硬件增強型安全性 全新的增強型技術 英特爾 Software Guard Extensions(SGX)(帶完整性)英特爾 Platform Firmware Resilience(PFR)提高處理器性能 PCI Express 5.0(80 通道)Compute Express Link(CXL)DDR5 內存 高帶寬內存 英特爾 傲騰 持久內存 300 系列 英特爾 存內分析加速器(英特爾 IAA)英特爾 動態負載均衡器(英特爾 DLB)英特爾 數據流加速器(英特爾 DSA
301、)2解決方案簡介|基于英特爾 架構的京東云綠色數據中心高密度算力方案 傳統冷卻方式的效率不足:IT 100kW 提升服務器的算力能效比:解決方案:京東云綠色數據中心高密度算力方案 1 IO PCIe IO 圖 1.硬盤 前IO模組 液冷模組 內置PCIe模組 風扇模組 電源轉 換模組 標準電源 后IO模組 12V 總線電壓設計損耗較高功率瓶頸導致機柜空間浪費傳統空氣冷卻系統效率不足提升服務器的算力能效比技術篇:英特爾 AI 產品組合開放式軟件環境深度學習加速通用加速通用計算AI 視覺推理、VDI、媒體分析并行計算、科學計算、面向科學計算的 AI、數據中心實時,中等吞吐量,低時延和稀疏推理邊緣和
302、網絡AI 推理中小型訓練和微調終端推理專用于深度學習訓練和推理加速注:面向中國市場的 Gaudi 深度學習加速器敬請期待!5960數據預處理AI 模型訓練和微調英特爾數據科學工作站機器學習訓練,間歇性深度學習訓練,遷移學習低時間敏感度訓練現有的數據預處理基礎設施大規模專項 AI 訓練或高時間敏感度訓練機器學習和高性能、高性價比的深度學習訓練通過編碼/解碼實現可視化推理集成 NPU針對大規模時延敏感型 AI 推理工作負載,如大語言模型科學計算和大中型 AI 模型訓練工作負載的混合詳見注解數據中心終端/邊緣AI 推理注:不限于以上所示典型的部署路徑,所有計算平臺均適用注:面向中國市場的 Gaudi
303、 深度學習加速器敬請期待!英特爾 XPU 平臺:滿足 AI 之旅各階段需求61滿足多樣化性能和效率要求的處理器P 核 性能核E 核 能效核兼顧密集型通用計算和 AI 加速提供出色的核心密度和每瓦性能 2024 年的英特爾 至強 處理器借助行業領先的性能核,實現 AI 加速 能力躍升以共享硬件平臺和通用軟件堆棧簡化 開發、部署和管理以全新能效核更大限度提升機架密度,強化可持續性與廣泛的硬件和軟件供應商生態系統 相匹配,滿足復雜多樣的業務需求62第五代英特爾 至強 可擴展處理器多達 64 個內核(每個處理器)英特爾 AMX更高的 AMX 頻率,全新許可水平每個內核均內置 AI 加速器集成 IP 加
304、速器英特爾 數據保護與壓縮加速技術(英特爾 QAT)英特爾 存內分析加速器(英特爾 IAA)英特爾 數據流加速器(英特爾 DSA)英特爾 動態負載均衡器(英特爾 DLB)更高的能效內置加速器提供高效計算/更高的每瓦性能經優化的電源模式 2.0/針對工作負載優化的 SKU無縫固件升級縮短停機時間更全面的機密計算產品組合英特爾 SGX英特爾 TDX英特爾 Trust Authority 更高內存帶寬:高達 5,600 MT/s 更大三級緩存(LLC):高達 3 倍1(PCIe 5)UPI 2.0 速度:高達 20 GT/sCompute Express Link(CXL)1.1*Type 3 內存
305、支持無需更改代碼即可直接兼容第四代英特爾 至強 可擴展處理器1 詳情請見以下網址的 G11: 至強 可擴展處理器)。結果可能不同。2.3 詳情請見以下網址的 G1,A16: 至強 可擴展處理器)。結果可能不同。4 基于英特爾 2023 年12 月進行的內部建模。詳情請見以下網址的A1,A2,A16: 至強 可擴展處理器)。結果可能不同。與第四代至強 相比平均性能提升221%與第四代至強 相比,AI 推理性能提升3 42%運行參數量在 200 億以下的 LLM 時,詞元處理時延低于4100ms63第四代英特爾 至強 可擴展處理器1.2 如欲了解更多詳情,請訪問:https:/ Express L
306、ink(CXL)1.1 8 通道 DDR5傳輸速率高達 4,800 MT/s(1DPC)傳輸速率高達 4,400 MT/s(2DPC)每路 16 個 DIMM全新 RAS 功能(增強型ECC、ECS)高帶寬內存(HBM)(64GB/每路)經優化的電源模式80 條 PCIe 5.0 通道支持 1 至 8 路配置英特爾 UPI 2.0(高達 16 GT/s)更高的單核性能每路多達 60 個內核英特爾 高級矩陣擴展(英特爾 AMX)英特爾 數據保護與壓縮加速技術(英特爾 QAT)創新、設計和交付均堅持工作負載優先CPU 內置多種加速器更出色的性能與能效,更好滿足客戶所需更全面的機密計算產品組合英特爾
307、 存內分析加速器(英特爾 IAA)英特爾 安全引擎英特爾 SGX英特爾 TDX英特爾 數據流加速器(英特爾 DSA)面向 vRAN 的英特爾 高級矢量擴展英特爾 動態負載均衡器(英特爾 DLB)英特爾 至強 CPU Max 系列(配備 HBM)高達1.53 倍平均性能增益1(與上一代產品比較)高達10 倍PyTorch 實時推理和訓練性能提升2啟動英特爾 AMX(BF16)時與上一代產品(FP32)的比較結果64第四代英特爾 至強 可擴展處理器內置七大加速器英特爾 動態負載均衡器(英特爾 DLB)提升與網絡處理相關的性能英特爾 至強 CPU Max 系列集成高內存帶寬,為科學計算與 AI 工作
308、負載大幅提升數據吞吐量英特爾 存內分析加速器(英特爾 IAA)優化內存占用和查詢吞吐量英特爾 高級矩陣擴展(英特爾 AMX)加速深度學習推理與訓練英特爾 數據保護與壓縮加速技術(英特爾 QAT)加速加密與壓縮操作英特爾 數據流加速器(英特爾 DSA)優化數據流的傳輸和轉換英特爾 安全技術(英特爾 Security)幫助保護數據機密性與代碼完整性65英特爾 高級矢量擴展 512(英特爾 AVX-512)英特爾 軟件防護擴展(英特爾 SGX)英特爾 深度學習加速(英特爾 DL Boost)第三代英特爾 至強 可擴展平臺10-100 x 英特爾優化使 TensorFlow 和 Scikit-Lear
309、n 性能提升達1(圖像識別)(SVC&kNN 預測)74%與上一代相比,推理性能提升了2(自然語言處理)32%英特爾 傲騰 持久內存 200 系列內存帶寬平均提升了3(相較于上一代產品)跨越廣泛的機器學習和深度學習模型1.2 如欲了解更多詳情,請訪問:https:/ 如欲了解更多詳情,請訪問:https:/ ProcessingTrain-test-splitNeural NetworksResnet50-v1.5,SSD-ResNet34,BERT largeClusteringKmeans,dbscanRegressionLinear,Logistic,Ridge,elastic-netC
310、lassificationbrute force knn,SVCGradient Boosting MachinesXGBoost66英特爾 至強 可擴展處理器內置 AI 加速能力的演進內置 AI 加速能力的數據中心級 CPU第三代至強 可擴展處理器(Ice Lake)英特爾 DL Boost(AVX-512_VNNI)和英特爾 Software Guard Extensions(英特爾 SGX),支持領先 AI 應用,如聯邦學習第四代至強 可擴展處理器(Sapphire Rapids)第五代至強 可擴展處理器(Emerald Rapids)英特爾 Advanced Matrix Extens
311、ions(AMX)進一步 擴展了至強 可擴展處理器上的內置 AI 加速功能第二代至強 可擴展處理器(Cascade Lake)英特爾 DL Boost(AVX-512_VNNI)全新內存存儲層次結構第三代至強 可擴展處理器 (Cooper Lake)英特爾 DL Boost(AVX-512_BF16)VPMADDUBSWVPMADDWDVPADDD VPDPBUSD(8-bit new instruction)英特爾 AVX-512第一代至強 可擴展處理器更高效的推理加速第二代和第三代至強 可擴展處理器將三條指令合而為一,可最大限度地 利用計算資源,提高緩存利用率 相比英特爾 AVX-512,
312、英特爾 AMX 可提供超過 8x operations/clock/core英特爾 DL Boost(VNNI)領先性能1.74x推理表現速度提升1(BERT,第三代 vs 第二代)2048IntegerHighter is BetterOps/Cycle per core 100%utilizationFloating PointAVX-512(2xFMA)FP32AMX(TMUL)BF16AVX-512(2xFMA)INT8AMX(TMUL)INT810242566416XFaster8XFasterIntel AMXStore bigger chunks of DATA in each
313、coreTiles2D Register FilesTMULTile Matrix MultiplyINSTRUCTIONS that compute larger matrices in a single operation1 如欲了解更多詳情,請訪問:https:/ 高級矩陣擴展(英特爾 AMX)每核可存儲更大的數據塊可在單次運算中計算更大矩陣的指令TILE2D 寄存器文件平鋪矩陣乘法(TMUL)2 9 01 3 52 4 78 1 5英特爾 AMX 提供廣泛的軟硬件優化,提升 AI 加速能力 同時支持 INT8 和 BF16 數據類型 圖像識別、推薦系統、機器/語言翻譯、自然語言處理(N
314、LP)、媒體處理和分發 市場上的主流框架、工具套件和庫(PyTorch、Ten-sorFlow),英特爾 oneAPI 深度神經網絡庫(英特爾 oneDNN)為 AI/深度學習推理和訓練工作負載帶來顯著性能提升 通過硬件加速使常見應用更快交付功能用例軟件支持商業價值高達 10 倍與第三代至強 可擴展處理器 相比,第五代至強 可擴展 處理器可使推理工作負載 性能提升1高達 1.23-1.35倍實時推理性能提升2高達 1.2-1.38 倍實時推理每瓦性能提升3與上一代產品相比,內置英特爾 AMX 的第五代至強 可擴展處理器 1.2.3 有關性能和基準測試結果的更完整信息,請訪問:https:/ 深
315、度學習加速英特爾 AVX-512(Instruction 1)VPMADDUBSW英特爾 AVX-512(VNNI)VPDPBUSD(8-Bit New Instruction)英特爾 AVX-512(Instruction 3)VPADDD英特爾 AVX-512(Instruction 2)VPMADDWDCycle 1Cycle 1Cycle 2Cycle 3CompleteComplete方案驗證與未來展望為驗證集成英特爾 Neural Compressor 后的 TACO Kit 在不同AI 模型推理工作負載中的性能加速情況,英特爾與騰訊云一起選取了多種被廣泛應用的自然語言處理深度學習
316、模型進行了驗證測試。測試中,各個深度學習模型在通過 TACO Kit 進行優化后,進而使用英特爾 Neural Compressor 進行了 INT8 量化以及性能調優。推理性能加速結果如圖五所示2,在保持精度水平基本不變的情況下,各個深度學習模型的推理性能均獲得了顯著的提升,提升幅度從 55%到 139%不等。在其中的 bert-base-uncased-mrpc 場景中,推理性能達到了基準值的 2.39 倍,獲得了令人滿意的成果。白皮書|集成英特爾 Neural Compressor,騰訊云 TACO Kit 為 AI 應用帶來高效異構加速服務矢量神經網絡指令(VNNI)擴展英特爾 AVX
317、-512 以加速 CPU 平臺上的 AI/深度學習推理Input8-bitInput8-bitInput8-bitInput8-bitAccumulator Output32-bitConstant16-bitOutput16-bitConstant16-bitAccumulator Output32-bitAccumulator Output32-bitAccumulator Input32-bit圖四 英特爾 DL Boost(AVX-512_VNNI)技術英特爾AVX-512英特爾VNNI1 如欲了解更多詳情,請訪問:https:/ 借助增強型英特爾 深度學習加速技術實現(基于面向單路和
318、雙路的第三代英特爾 至強 可擴展處理器,相較于上一代)69英特爾 深度學習加速依據表示數字的比特位數,FP32 可提供更高的精度bfloat16 支持基于相同指數域的相同范圍的數字,但精度略低許多 AI 功能并不需要 FP32 提供的精度水平從 FP32 轉換到 bfloat16 比轉換到 FP16 更簡單與 FP32 相比,使用 bfloat16 可實現每周期兩倍的吞吐量示例:Number:0.56580972671508789062596As FP32:0.56580972671508789062532 Bits16 BitsFP32bfloat16FP16BF16 到 FP32 的簡單轉
319、換Bfloat16 具有相同數量的指數位,因此可以表示和 FP32 一樣大的數字,但由于其用于存儲實際數字的位數較少,因此精度略低。FP16 可以提供比 bfloat16 更高的精度,但用于表示指數位的比特位較少,不能支持相同的數字范圍。符號 表示正數或負數分數/尾數 用于存儲“數字”的比特位數 指數 表示小數點在分數/尾數中的位置0000000111001001000011100010011111011100001111100001101100011100腦浮點數(bfloat16)70英特爾 Trust Domain Extensions(英特爾 TDX)VMM英特爾 至強(TDX)應用應
320、用應用客戶操作系統TD(信任域)信任域虛擬機級 TEE為傳統應用提供實現出色的安全性、合規性與控制的直接途徑建立數據主權和控制將數據和知識產權隔離在保密的虛擬機中,并將受保護數據的訪問權限限制在獲得明確許可的軟件或管理員范圍內;保護數據 和知識產權通過在 VM 內的 TEE 對機密數據進行硬件增強隔離,幫助減少攻擊面并降低外部實體破壞、篡改或竊取數據的風險;簡化監管合規英特爾 TDX、英特爾 SGX 等可以幫助受嚴格的數據隱私法規約束的組織通過加密和安全區來滿足合規標準;在可信環境中 部署 AI英特爾 TDX 憑借強大的隔離、完整性和保密功能,幫助保護應用程序、數據和 AI 模型免受未經授權的
321、訪問。簡化將現有應用程序移植和遷移到機密計算環境的過程,在大多數情況下,無需更改應用程序代碼,即可激活虛擬機內由英特爾 TDX 支持的可信域。如欲了解更多詳情,請訪問:https:/ 2s SiteParty 4s SiteParty 1s SiteParty 3s Site英特爾 Software Guard Extensions(英特爾 SGX)采用英特爾 SGX 的機密人工智能應用,保護使用中的數據和代碼隔離保護敏感數據和代碼,不受所有其他軟件、云租戶或管理員的影響,即使是惡意的訪問鑒證加密驗證 TEE 是否真實、配置正確且僅運行預期的軟件負載基于硬件的可信執行環境(Trusted Ex
322、ecution Environment)SGX123加密敏感數據加密或匿名的結果模型模型(未加密的數據處理)ModelModelModelGovernor&Master ModelModel未加密的 數據和結果已驗證的應用 或模型代碼集中式多方示例:多家醫院匯集受監管的患者數據,以進行診斷模型訓練聯邦學習示例:銀行合作進行反洗錢,但數據太大且敏感,無法移動受監管的數據示例:智慧城市攝像頭捕獲的受嚴格數據處理法規約束的個人身份信息(PII)符合規定加密的數據存儲人工智能應用場景72面向智能視覺云的 GPU 解決方案,支持基于標準的開放式軟件堆棧,針對密度和質量進行了優化,具有關鍵的服務器功能,可
323、實現高可靠性、可用性和可擴展性,有助于減少數據中心使用不同解決方案并管理異構或專有環境的需求,支持的工作負載包括:AI 視覺推理媒體處理和交付云游戲虛擬桌面基礎設施AV1 編解碼ECC內存高達256TOPS(INT8)架構基于硬件的 SR-IOV英特爾 Xe 矩陣擴展多達4 個 Xe 媒體引擎英特爾 數據中心 GPU Flex 系列如欲了解更多詳情,請訪問:https:/ PCIe16光線追蹤單元32光線追蹤單元全高 PCIe75W16 Xe內核32 Xe內核150WFlex140Flex170基于英特爾 架構的 AI 軟件工具組合工程數據優化&部署模型創建注:堆棧中每一層的組件均基于預期的
324、AI 使用模型,有針對性地對其他層的目標組件進行優化,但并非每個組件都被最右列的解決方案所使用。本列表包括面向英特爾硬件進行優化的主流開源框架。大規模數據分析機器學習&深度學習框架,優化和部署工具適用于 CPU、GPU 和其他加速器的開放式、多架構編程模型英特爾 oneAPI Deep Neural Network Library英特爾 oneAPI Math Kernel Library英特爾 oneAPI Collective Communications Library英特爾 oneAPI Data Analytics LibrarySigOptAutoMLN Ne eu ur ra a
325、ll C Co ommp pr re es ss so or rWebAssemblyWebGPUWebNNDirectML云&企業終端&工作站邊緣端到端加速數據科學和 AI 應用英特爾 Developer Cloud and 英特爾 Developer Catalog 體驗最新的英特爾工具和硬件,使用經優化的 AI 模型全棧式機器學習操作系統英特爾 Geti數據標注、模型訓練及優化的平臺英特爾的優化和微調指南,經優化的推理模型和模型服務7374英特爾 oneAPI AI Analytics 工具套件深度學習示例及端到端工作負載點擊或通過如下鏈接獲取工具包面向英特爾 架構優化的 TensorF
326、lowIntel InstallerDockerApt,YumCondaIntel DevCloud面向英特爾 架構優化的 ModinXGBoostScikit-learnDaal-4PyNumPySciPyPandasHEAVY.AI Backend(formerly OmniSci)面向英特爾 架構優化的 PyTorch英特爾 低精度優化工具(英特爾 LPOT)面向英特爾 架構優化的 Model Zoo數據分析&機器學習利用面向英特爾 架構優化的庫加速端到端人工智能和數據分析管道顯著優勢 利用面向英特爾 架構優化的深度學習框架和工具提升訓練和推理性能 使用計算密集型 Python 包為數據
327、分析和機器學習工作流提供落地加速加速數據庫 硬件支持因個別工具而異。架構支持將隨著時間的推移而擴大。CPUGPU支持的硬件架構面向英特爾 架構優化的 Python性能加速提高生產力簡化端到端 工作流程加快開發了解更多: 工具套件-由 oneAPI 提供支持高性能、深度學習推理部署簡化開發、易于使用一次編寫、隨處部署1.BUILD2.OPTIMIZE3.DEPLOYOpen Model Zoo100+open sourced and optimized pre-trained models;80+supported public modelsTrained ModelModel Optimize
328、rConverts and optimizes trained model using a supported frameworkInference EngineCommon API that abstracts low-level programming for each hardwareIntermediateRepresentation(.xml,.bin)Read,Load,InferIR DataPost-Training Optimization ToolDeep Learning StreamerCode Samples&Demos(e.g.Benchmark app,Accur
329、acy Checker,Model Downloader)OpenCVCPU PluginGPU PluginGNA PluginMyriad Plugin For intel NCS2&NCSHDDL PluginFGPA PluginOpenCLTMDeep Learning WorkbenchDeployment Manager旨在使用高性能人工智能和計算機視覺推理實現更加快速和準確的實際結果,部署在從邊緣到云的、基于英特爾 XPU 架構(CPU、GPU、FPGA、VPU)的生產環境中了解更多: 76BigDL*:統一的大數據分析和 AI 平臺計算環境模型和算法(內置模型和算法)機器學習
330、工作流(自動構建端到端管道)端到端流水線(將 AI 模型無縫擴展到分布式大數據平臺)推薦LaptopDL Frameworks(TF/PyTorch/BigDL/OpenVINOTM/)Distributed Analytics (Spark/Flink/Ray/)Python Libraries (Numpy/Pandas/sklearn/)K8s ClusterHadoop ClusterCloudAutoMLDistributed TensorFlow&PyTorch on SparkSpark Dataframes&ML Pipelines for DLRayOnSparkInfere
331、nceModelAutomatic Cluster Serving時間序列計算機視覺自然語言處理由英特爾 oneAPI 工具套件提供支持了解更多:https:/ BigDL 2.0 已包含 BigDL 和 Analytics Zoo。77xFaster Transformer(xFT)為大語言模型推理加速代碼以 Apache 許可證開源在https:/ Max其它工具EthernetxFasterTransformer用戶應用程序模型訓練模型轉換(model converter)推理引擎權重和配置 釋放至強 和至強 Max 系列處理器的 DRAM 和 HBM 帶寬潛能更高性能 支持跨 Sock
332、et、跨節點分布式推理 支持高達 70B LLM 模型(Qwen-72B)更好擴展性 內存容量需求低 通過精細的內存規劃進行優化,以支持更大模型更好 TCO 支持多種 LLM 模型,如 LlaMA 1/2,ChatGLM 1/2/3,Baichuan,OPT,Qwen 支持不同規模 LLM 模型,如6B,7B,13B,30B 等 支持 BF16、FP16、INT8、W8A8、INT4 等 兼容 Faster Transformer 模型格式 兼容 Hugging Face 與 PyTorch更強兼容性大數據分析+人工智能端到端流水線大數據流水線從筆記本電腦無縫擴展到分布式大數據平臺使用樣本數據
333、在筆記本電腦上制作原型 輕松構建將 AI 模型與大數據融合對接的端到端流水線原型 從筆記本電腦到分布式集群的“零”代碼更改 可在生產環境中的 Hadoop/K8s 集群上無縫部署 實現從機器學習到大數據應用的流程自動化在承載歷史數據的集群上進行試驗 使用分布式數據流水線進行生產部署 78英特爾 AI 實戰視頻課程 至強 AI 實戰課 CCF 聯合專場 英特爾 至強 RAS 為 AI 服務器護航 英特爾 至強 CPU 讓 AI 部署無處不在 大模型時代的云服務安全利器 從 OCR 起步推進企業 AI 應用落地掃碼觀看課程7980法律聲明英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。在特定系統的特殊測試中測試組件性能。硬件、軟件或配置的差異將影響實際性能。當您考慮采購時,請查閱其他信息來源評估性能。關于性能和基準測試程序結果的更多信息,請訪問 SSE2、