《英特爾:2024年英特爾電信運營商AI實踐手冊(58頁).pdf》由會員分享,可在線閱讀,更多相關《英特爾:2024年英特爾電信運營商AI實踐手冊(58頁).pdf(58頁珍藏版)》請在三個皮匠報告上搜索。
1、1英特爾電信運營商AI實踐手冊#云同行 AI加速23目錄CONTENTS人工智能市場支出指南部署 AI 時應考量的因素基于英特爾 架構的 AI 基石 第四代英特爾 至強 可擴展平臺 Gaudi2 在中國市場隆重推出 經英特爾優化的開源 AI 框架和工具 基于第四代英特爾 至強 可擴展處理器的 AI 調優指南 廣泛的英特爾 AI 產品組合和合作伙伴擴展 AI 產品陣容以滿足中國市場的需求051218544AI 的爆炸式增長資料來源:Moore,S.(2022),IEEE Spectrum。2012201320142015201620172018訓練算力(PFLOPs)1e+091e+071e+0
2、81e+061e+051e+041e+031e+02201920202021202245IDC 預測,2023 年全球在人工智能方面的支出將達到得益于人工智能與各種產品的融合,以人工智能為中心的系統的支出在 2026 年預計將超過中國人工智能市場支出預測,2021-202630,00025,00020,00015,00010,0005,000020212022202320242025202630.0%20.0%10.0%0.0%IDC 預計,2026 年中國 AI 市場市場規模將實現2021-2026 五年復合增長率(CAGR)將超過1,5403,000264.426.9%27.0%20%億美
3、元億美元億美元來源:IDC 中國,2023中國人工智能市場支出單位:百萬美元YoY*包括以人工智能為中心的系統的硬件、軟件及服務*包括以人工智能為中心的系統的硬件、軟件及服務*相比 2022 年增長*2022-2026 年的復合增長率(CAGR)全球中國人工智能市場支出指南如欲了解更多詳情請訪問:https:/ https:/ 3 行業 AI 應用場景Top Industry Based on 2023 Market Share(Value(Constant)47.0%46.7%7.1%9.5%10.4%12.8%13.4%7.0%7.8%8.9%29.3%來源:IDC 中國,2023Sour
4、ce:IDC Worldwide Artificial lntelligence Spending Guide-Forecast 2023|Feb(V1 2023)專業服務BankingRetailProfessional ServicesDiscrete ManufacturingProcess ManufacturingOthers地方政府銀行通訊其他增強的智能客服銷售流程推薦和增強項目顧問和推薦系統搜索推薦廣告營銷社會服務投資分析公共安全風險管理城市管理欺詐檢測人工智能主要應用行業及場景全球中國如欲了解更多詳情請訪問:https:/ https:/ 正在顛覆我們的日常生活數據加密庫存管理
5、語音助手數字助理視頻會議推薦系統降噪面部識別智能門鈴自動駕駛汽車購買建議個性化學習代碼生成基于 AI 的渲染機器人視覺78賦能重要的技術轉型個人計算云計算邊緣計算網絡工作效率信息獲取連接能力可擴展性和靈活性加快上市速度節省成本提升性能實時數據分析提高效率提升運維效率實現降耗增效89人工智能正在變革電信行業發揮資源優勢 構建智能算網 加速云網融合與算力網絡建設:簡化網絡規劃和運營,從云到邊緣加速塑造新型網絡基礎設施,滿足增長的算力需求;提升運營效益:在算力網絡運營全周期發揮關鍵作用,驅動網絡持續變革,協同新技術提升算力網絡智能化水平,全面提升安全與服務質量;推動產業數智轉型:提供 AIaaS 平
6、臺,開發行業大模型,提供智能化方案,驅動 AI 產業發展和多場景智能化;釋放綜合優勢,打造智能算力:充分發揮超大規模數據、算網資源以及大模型等核心算法優勢,加速實施云改數轉戰略,推動網絡+AI 技術融合創新,以 AI 為核心打造智能算力網絡。910電信運營商 AI 應用核心場景“加快建設信息網絡基礎設施。建設高速泛在、天地一體、云網融合、智能敏捷、綠色低碳、安全可控的智能化綜合性數字信息基礎設施”1智能運維智慧節能智慧運營 實現網絡自治,提升網絡運維效率 開發網絡降耗技術,推進自智節能 打造智慧運營大腦,提升服務水平https:/ AI (Generative AI)AI 關鍵用例生成式 AI
7、 與萬物數字化息息相關,其描述了用于創建新數據的算法,這些數據類似于人類生成的內容,包括音頻、代碼、圖像、文本、模擬和視頻。這項技術通過現有內容和數據進行訓練,為自然語言處理、計算機視覺、元數據和語音合成等應用創造了潛力。如今,ChatGPT(一種針對人類對話而優化的 GPT-3/4大型語言模型的變體)讓普通人不僅了解了生成式 AI 的強大力量,也了解了企業可以從大型語言模型(LLM)中獲得的潛在投資回報。生成式 AI 推動著前所未有的計算需求,企業現在比以往任何時候都更需要一個全面的AI戰略,該戰略必須針對性能、生產力和能效進行獨特設計,以滿足包含生成式 AI 在內的新的計算需求。英特爾獨特
8、的生成式 AI 解決方案(Democratized AI and an Open Ecosystem),可以滿足當今和未來的計算需求:英特爾致力于 AI 普適化,結合硬件方面的獨特優勢,支持開放的生態系統,面向未來進行正確的投資,以滿足全方位 AI 的計算需求,包括生成式 AI;英特爾采用開放、經濟、可擴展的方法,可將 AI 擴展到任何地方從云端到邊緣使企業能夠將數據轉化為價值;英特爾的領先產品把 AI 性能提升到新高度。通過結合至強 處理器和 Gaudi2 的互補優勢,英特爾能夠提供一系列豐富且新興的 AI 和深度學習功能,助力客戶把握 AI 帶來的新機遇,進而將生產力和效率提升至新高度;英
9、特爾致力于培育開放的生態系統,建立信任、提供選擇并確?;ゲ僮餍?,以滿足性能、生產力和能效需求;英特爾提供多樣的硬件組合,可將各種 AI 負載的推理和訓練性能提升至新的水平,以滿足對速度的需求。12部署 AI 時應考量的因素按業務需求選擇合適的 AI 方法時,應考量哪些因素?業務用例數據特點人工智能類型人工智能算法類別發現變量間的關系結構化數據,批量分析機器學習回歸預測分類型分類標簽或進行數據分類結構化數據,批量分析機器學習分類揭示變量間具有意義的關系結構化數據,批量分析機器學習聚類進行圖像分類,在圖像中找到識別對象井進行分類非結構化視覺數據(視頻、MRI 掃描片等),批量或實時分析,小型數據集
10、深度學習:圖像識別、對象檢測卷積神經網絡(CNN)從文本中提取內容和意義非結構化文本(電子郵件、Office 文檔、社交媒體帖文等),非機構化音頻/視頻內容,批量或實時分析深度學習:自然語言處理(NLP),語言翻譯,語音識別長短時記憶(LSTM),遞歸神經網絡(RNN)將文本/文字轉為語音非結構化文本,實時分析深度學習:文字轉語音生成對抗網絡(GAN)推薦廣告、搜索、應用等結構化客戶數據,非結構化文本,實時分析深度學習:推薦引擎多層感知器(MLP)生成像訓練數據的圖像非結構化圖像和視頻,實時分析深度學習:數據生成GAN 結合 CNN從對行為的反饋中學習結構化及非結構化數據,批量或實時分析深度學
11、習:強化學習CNN 或 CNN+RNN1213借助英特爾 技術提升洞察質量驅動關鍵業務產出 從云端、網絡、邊緣,到終端設備,更廣泛的應用場景意味著 AI 的部署環境正變得更為復雜且多元化;在異構平臺上運行全棧軟件,需要用戶基于不同的硬件基礎設施來設計高效穩定的開發和部署方案,且需要根據業務場景、軟件框架的不同來實施復雜的調優過程。如欲了解更多詳情請訪問:https:/ 2025 年)的數據中心AI 推理任務認為他們需要借助AI 來獲得成功的企業應用將使用嵌入式 AI在英特爾 至強可擴展處理器上運行對于力求在整個企業業務層面擴展 AI 應用的企業來說,降低復雜性是關鍵所在。1314部署 AI 需
12、要異構芯片資料來源:英特爾預測結果基于分析師數據和內部分析得出數據預處理數據管理深度學習訓練推理經典機器學習通用計算加速計算模型部署輸入數據AI 助力實現出色的業務成果15通用計算 服務于端到端 AI 管線 通用計算開放軟件環境實時,中等吞吐量,低時延和稀疏推理中小型訓練和微調邊緣側 AI 推理終端側推理16在基于 CPU 的基礎設施上運行 AI 工作負載部署 AI 時需要考量的基礎設施因素在漫長的 AI 開發流程中,對計算資源的要求各不相同基于英特爾 技術的現有基礎設施可以支持多種 AI 用例和工作負載靈活性效率可擴展性推薦引擎經典機器學習循環神經網絡使用大數據樣本的模型其他實時推理空閑時段
13、訓練用途推薦廣告、搜索、應用等從數據獲取洞察語音識別醫學影像、地震勘探、3D 環境圖像識別、語音識別、自然語言處理任何用途類別多層感知器(MLP)回歸、分類、集群等循環神經網絡(RNN)卷積神經網絡(CNN)多種類別任何類別CPU的 優勢訓練和推理。將更大的內存用于嵌入層將速度更快的內核用于大型數據集和難以并行運行的算法實時推理。將速度更快的內核用于順序、難以并行處理的數據訓練和推理。需要更大的內存將速度更快的內核用于難以井行處理的小批數據數據中心容量17人工智能(AI)、機器學習(ML)和深度學習工作負載,如圖像分類、自然語言處理(NLP)、目標檢測和視頻分析,正在推動各行各業擁有更快和更好
14、的洞察力。然而,不合格的硬件和未經優化的 AI 訓練和推理解決方案阻礙了它們的進一步發展??v觀市場上所有的 CPU,第四代英特爾 至強 可擴展處理器內置眾多加速器,可為 AI 工作負載提供性能和能效優勢,并可憑借全新的英特爾 高級矩陣擴展(英特爾 AMX)提供卓越的 AI 訓練和推理性能。英特爾數千名軟件工程師正在整個AI 生態系統中貢獻著自己的一份力量加速 AI 的發展。例如,NumPy、TensorFlow、PyTorch、Scikit-learn、XGBoost 的主流開源版本均已面向英特爾 架構進行了優化。英特爾提供了許多工具來加速 AI 發展,如用于推理模型優化的 OpenVINOT
15、M 工具套件;用于 Apache Spark 上的分布式深度學習的 BigDL;以及用于在任意基礎設施上協調機器學習管道的 cnvrg.io MLOps 平臺。第四代英特爾 至強 可擴展處理器,結合軟件優化和生態系統合作,正在幫助人工智能開發者實現其生產力目標,并從人工智能中更快地獲得商業價值。第四代英特爾 至強 可擴展處理器內置 AI 加速英特爾攜手生態系統合作伙伴,共推 AI 的繁榮演進高達 5.7 倍至 10 倍高達 3.5 倍至 10 倍PyTorch 實時推理性能提升PyTorch 訓練性能提升啟用內置英特爾 AMX(BF16)的第四代英特爾 至強 可擴展處理器 vs 上一代產品(F
16、P32)如欲了解更多詳情請訪問:https:/ 架構的 AI 基石加速 AI 落地 200+一站式 AI 方案可選助力應用快速落地加速 AI 應用構建150+容器鏡像幫助用戶快速構建端到端 AI 數據應用加速 AI 性能在 20+典型 AI 負載下提供卓越性能表現解決方案工具技術Intel Solutions MarketplaceScikit-LearnPandasNumPy/SciPyXGBoost&More多功能的人工智能基礎設施面向更廣泛工作負載AI 專用AI,科學計算,媒體與圖像邊緣深度學習推理數據中心深度學習訓練(Gaudi)CPUCPU存儲內存連接GPUGPU專用FPGAASIC
17、1819可運行各種 AI 代碼,各類工作負載面向數據中心的多樣化英特爾 AI 硬件組合經過英特爾優化的開源 AI 框架和工具廣泛的英特爾 AI 產品組合和合作伙伴強大硬件組合,全面優化 AI 工作負載,滿足多樣化算力需求加速開發者構建和部署 AI 應用的旅程通過豐富的軟硬件組合加速 AI 方案部署時間英特爾 AI 平臺1920端到端人工智能流水線的挑戰數據模型部署Data CollectionData IngestionData AnalysisData ValidationFeature CreationModel OptimizationModel SelectionModel Packa
18、gingModel TrainingEndpoint ConfigData LabellingData CleanupData PreparationModel EvaluationPerformance MonitoringModel ValidationModel ServingData Transformation53%的 AI 項目能夠從原型到生產(Gartner)2只有 1基于英特爾對截至 2021 年 12 月,運行 AI 推理工作負載的全球數據中心服務器裝機量的市場建模2 數據來源: 21Data CollectionData IngestionData AnalysisData
19、 ValidationFeature CreationModel OptimizationModel SelectionModel PackagingModel TrainingEndpoint ConfigData LabellingData CleanupData PreparationModel EvaluationPerformance MonitoringModel ValidationModel ServingData Transformation端到端人工智能流水線的挑戰數據模型部署53%的 AI 項目能夠從原型到生產(Gartner)2經典機器學習以幾十年的行業投資,基于英特爾
20、 至強 處理器優化和運行機器學習代碼深度學習內置 AI 加速器的第四代英特爾 至強 可擴展處理器運行小/中型模型和遷移學習/調優只有 1 基于英特爾對截至 2021 年 12 月,運行 AI 推理工作負載的全球數據中心服務器裝機量的市場建模2數據來源: 數據準備基于英特爾 至強 處理器的數據中心推理運行于英特爾 至強 處理器170%22AI 需要一個均衡的服務器平臺推薦系統GNNNLPt-SNEkmeansCNNSystolic FLOPsMemory CapacityMemory Bandwidthcoalesced memoryaccessesscalar memoryaccessesNe
21、twork LatencyNetwork BandwidthCompute in NetworkSystolic FLOPsMemory CapacityMemory Bandwidthcoalesced memoryaccessesscalar memory accessesNetwork LatencyNetwork BandwidthCompute in NetworkSystolic FLOPsMemory CapacityMemory Bandwidthcoalesced memoryaccessesscalar memoryaccessesSystolic FLOPsMemory
22、CapacityMemory Bandwidthcoalesced memoryaccessesscalar memoryaccessesSystolic FLOPsMemory CapacityMemoryBandwidthcoalescedmemoryaccessesscalar memoryaccessesSystolic FLOPsMemory CapacityMemory Bandwidthcoalesced memoryaccessesscalar memoryaccessesDense partSparse part深度學習和 GNN 訓練深度學習推理機器學習2223第四代英特爾
23、 至強 可擴展處理器采用內置 AI 加速器的 INT8/BF16 模型 相較于第三代英特爾 至強 可擴展處理器相較于第三代英特爾 至強 可擴展處理器300+深度學習模型50+經過優化的機器學習和圖模型Optimizations up-streamed英特爾 AI 開發者工具使用主流的 DL、ML 和數據處理庫和框架、操作系統和虛擬機管理器 由 BigDL 和 OpenVINOTM 工具套件支持的機密 AI 計算內置英特爾 AMX 的第四代英特爾 至強 可擴展處理器 vs.第三代英特爾 至強 可擴展處理器性能提升/瓦1PCI Express 5.0 DDR5 內存帶寬和容量英特爾 AI 軟件on
24、eAPI AI 生態系統最高 512 GB/路受保護的內存“飛地”-英特爾 SGX 1 詳情請見以下網址的 A16,A17,A33 at https:/ 7.7x 效率提升2x 1.5x 24第四代英特爾 至強 可擴展處理器內置七大加速器英特爾 高級矩陣擴展(英特爾 AMX)加速深度學習推理與訓練英特爾 存內分析加速器(英特爾 IAA)優化內存占用和查詢吞吐量英特爾 動態負載均衡器(英特爾 DLB)提升與網絡處理相關的性能英特爾 數據保護與壓縮加速技術(英特爾 QAT)加速加密與壓縮操作英特爾 數據流加速器(英特爾 DSA)優化數據流的傳輸和轉換英特爾 安全技術(英特爾 Security)幫助
25、保護數據機密性與代碼完整性英特爾 至強 CPU Max 系列集成高內存帶寬,為科學計算與AI工作負載大幅提升數據吞吐量25英特爾 加速引擎的優勢性能更強大的服務器架構 語音識別推理性能提升時延降幅SPDK-NVMe IOPS 提升RocksDB 性能提升內核用量減幅高達高達高達高達高達這是啟用內置 AMX(BF16)時與上一代產品(FP32)的比較結果這是在相同的吞吐量下,啟用英特爾 DLB 與使用軟件處理 Istio-Envoy 入口網關連接請求的比較結果這是啟用內置的英特爾 DSA 與使用 ISA-L 軟件的比較結果這是啟用英特爾 IAA 與使用 Ztsd 軟件的比較結果這是啟用內置的英特
26、爾 QAT 與使用開箱即用的軟件在 NGINX 上實現相同的每秒連接次數時內核用量的比較結果8.61.72.184%96%英特爾 高級矩陣擴展(英特爾 AMX)英特爾 動態負載均衡器(英特爾 DLB)英特爾 數據流加速器(英特爾 DSA)英特爾 存內分析加速器 (英特爾 IAA)英特爾 數據保護與壓縮加速技術 (英特爾 QAT)倍倍倍加速器帶來超越基礎架構的階梯式性能提升詳情請見以下網址的 A26,W6,N18,D1,N15:https:/ AVX-512時鐘周期 1vpmaddubswvpdpbusdtdpbusdvpmaddwdvpaddd時鐘周期 2時鐘周期 3英特爾 AVX-512(V
27、NNI)英特爾 AMX852562,048int8 ops/cycle/core with 2 FMA8-bitinput8-bitinput8-bitinput8-bitinput8-bitinput32-bitacc input32-bitacc input8-bitinput16-bitOutput32-bitacc output32-bitacc output32-bitacc output32-bitacc output16-bitconstant16-bitconstantint8 ops/cycle/core with 2 FMAsint8 ops/cycle/coreMulti
28、-fold MACs in one instruction8-bit new instruction8-bit new instruction2627英特爾 高級矩陣擴展(英特爾 AMX)Tiles每核可存儲更大的數據塊可在單次運算中計算更大矩陣的指令TMUL 提供廣泛的軟硬件優化,使 AI 加速能力獲得提升 圖像識別、推薦系統、機器/語言翻譯、自然語言處理(NLP)、媒體處理和分發 為 AI/深度學習推理和訓練工作負載帶來顯著性能提升 通過硬件加速使常見應用更快交付 市場上的主流框架、工具套件和庫(PyTorch、TensorFlow),英特爾 oneAPI 深度神經網絡庫(英特爾 oneD
29、NN)功能用例商業價值軟件支持平鋪矩陣乘法2D 寄存器文件語音識別推理性能提升PyTorch 實時推理與訓練性能提升高達高達這是啟用內置的英特爾 AMX(BF16)時與上一代產品(FP32)的比較結果這是啟用內置的英特爾 AMX(BF16)時與上一代產品(FP32)的比較結果8.610語音識別推理性能增益(與上一代產品相比)性能增益(與上一代產品相比)PyTorch 訓練和推理 倍倍詳情請見以下網址的 A26,A16:https:/ AVX-512英特爾 AVX-512英特爾 VNNI依據表示數字的比特位數,FP32 可提供更高的精度示例:Number:0.565809726715087890
30、62596 As FP32:0.56580972671508789062532 Bits16 BitsFP32bfloat16FP16許多 AI 功能并不需要FP32 提供的精度水平bfloat16 支持基于相同指數域的相同范圍的數字,但精度略低與 FP32 相比,使用 bfloat16 可實現每周期兩倍的吞吐量從 FP32 轉換到 bfloat16 比轉換到 FP16 更簡單BF16 到 FP32 的簡單轉換Bfloat16 具有相同數量的指數位,因此可以表示和 FP32 一樣大的數字,但由于其用于存儲實際數字的位數較少,因此精度略低。符號-表示正數或負數指數-表示小數點在 分數/尾數中的位
31、置分數/尾數-用于存儲“數字”的比特位數FP16 可以提供比 bfloat16 更高的精度,但用于表示指數位的比特位較少,不能支持相同的數字范圍。腦浮點數(bfloat16)矢量神經網絡指令(VNNI)擴展英特爾 AVX-512 以加速 CPU 平臺上的 AI/深度學習推理將三條指令合而為一,可最大限度地利用計算資源,提高緩存利用率,避免潛在的帶寬瓶頸29深度學習加速器 經濟高效地訓練生成式 AI 和大語言模型通用計算開放式軟件環境深度學習加速實時,中等吞吐量,低時延和稀疏推理中小型訓練和微調邊緣側 AI 推理專用于深度學習訓練和推理終端側推理30Gaudi2 在中國市場隆重推出7 納米專為訓
32、練大語言模型而構建 24 個48 MB96 GB 21 個制程張量處理器核心SRAMHBM2e集成以太網端口3031性能指標基于 MLPerf Training 3.0 基準測試。配置詳情請參見 MLPCommons 發布的結果。結果可能不同。在 GPT-3 訓練基準測試中實現接近線性的擴展性200加速器數量311.9 min/使用384 塊Gaudi2442.6 min/使用 256 塊Gaudi25004003005010015020025030035040045095%3132Gaudi2 深度學習軟件和生態 更快速、更輕松地開發全新模型編排開發者工具模型庫輕量級框架框架適配層客戶算子庫
33、英特爾算子庫調試和分析工具TPC 編程工具圖編譯器英特爾通信庫用戶模式驅動內核模式驅動3233在隨處構建和部署 AI 應用面向數據中心的多樣化英特爾 AI 硬件組合經過英特爾優化的開源 AI 框架和工具廣泛的英特爾 AI 產品組合和合作伙伴強大硬件組合,全面優化 AI 工作負載,滿足多樣化算力需求加速開發者構建和部署 AI 應用的旅程通過豐富的軟硬件組合加速 AI 方案部署時間英特爾 AI 平臺3334數據模型部署英特爾 AI 軟件套件端到端生產力英特爾工具和套件面向至強 進行優化的框架Intel Developer CatalogoneDALKVM 5.17WinServer22Linux
34、5.16RedHat 8.6Ubuntu 22.04SLES15 SP4Hyper-V 1H22ESXi/vSphere 8.0oneDNNoneCCLoneMKLIntel Dev.CloudEarly accessCnvrg.ioMLOPsIntel AI KitPythonBigDLSPARK英特爾 oneAPI 編程模型HypervisorsOS&Kernel 55+pre-trained models 1.5.10.17Intel Ext 3.2V2022.6v2.7V2022.72022.2v1.4.3Intel Ext v2023.0v2.11IPEX 1.14NEWMetaCl
35、oudv2022.3XGBoost Integrationv2.2v2022.3*Versions identified are minimum versions that support Intel AMX35通用 AI 平臺:更高的端到端機器學習性能基因組學研究和診斷:用 Scanpy 對 130 萬小鼠腦細胞進行單細胞 RNA-SEQ 分析單細胞 RNA-SEQ 端到端運行時間(秒)數據模型/部署GenesGene Activity MatrixCellsData Pre-processingDimensionality ReductionVisualizationClusteringF
36、ilterLinear RegressionNormalizePCAUMAPT-SNELouvainLeidenK-means第四代英特爾 至強 可擴展處理器2022279 sec19,470 sec端到端運行時間(秒)英特爾 至強 可擴展處理器 (代號 Broadwell)2016越低越好70 x speedup測試配置:1 x BDX:Test by Intel as of.GCP n1-highmem-64 instance based on Intel Xeon processor(Broadwell),1 socket,32 cores,HT On,64 vCPUs,Turbo On
37、,Total Memory 416 GB,bios:Google,ucode:0 x1,Ubuntu 22.04,5.15.0-1022-gcp1 x SPR:Test by Intel as of.1-node,1x Intel Xeon Platinum 8480+,56 cores,HT On,Turbo On,Total Memory 250 GB,0 x2b000081,Red Hat Enterprise Linux release 8.6(Ootpa),Linux 4.18.0-372.19.1.el8_6.x86_64Baseline Scanpy:version 1.8.1
38、https:/ Open Omics Scanpy-based single cell pipeline:https:/ AI 平臺:更高的端到端深度學習性能Document Level Sentiment Analysis(DLSA)文檔級別的情感分析Dataset遷移學習端到端推理管線Load datasetLoad datasetTokenization and feature extractionIntel Neural CompressorTokenization and feature extractionLoadPRETRAINEDmodelLoadFINE-TUNEDmodel
39、Deep learningFINE-TUNINGmodelDeep learningINFERENCETransformers37英特爾 至強 可擴展處理器全棧 AI 軟件支持情況類別軟件產品是否開源優化已提交給上游英特爾 擴展技術/工具英特爾 分發版英特爾 工具/套件編排Cnvrg.io否封裝的軟件工具套件AI 套件是BigDL是OpenVINOTM 工具套件是優化Neural Compressor是SigOpt否深度學習框架TensorFlow是PyTorch是ONNX是PDPD是MXNet是機器學習框架XGBoost是Scikit-learn是CatBoost是LightGBM是數據準備
40、Modin是Spark是3738英特爾 oneAPI AI Analytics 工具套件利用面向英特爾 架構優化的庫加速端到端人工智能和數據分析管道深度學習示例及端到端工作負載點擊或通過如下鏈接獲取工具包數據分析&機器學習 利用面向英特爾 架構優化的深度學習框架和工具提升訓練和推理性能 使用計算密集型 Python 包為數據分析和機器學習工作流提供落地加速硬件支持因個別工具而異。架構支持將隨著時間的推移而擴大。CPUGPU面向英特爾 架構優化的TensorFlow面向英特爾 架構優化的 ModinXGBoostNumPyIntel InstallerDockerApt,YumCondaInte
41、l DevCloudScikit-learnDaal-4PySciPyPandasHEAVY.AI Backend(formerly OmniSci)加速數據庫面向英特爾 架構優化的 Python支持的硬件架構面向英特爾 架構優化的 PyTorch英特爾 低精度優化工具(英特爾 LPOT)面向英特爾 架構優化的Model Zoo顯著優勢性能加速提高生產力簡化端到端工作流程加快開發了解更多: AI 平臺計算環境模型和算法(內置模型和算法)機器學習工作流(自動構建端到端管道)端到端流水線(將 AI 模型無縫擴展到分布式大數據平臺)推薦LaptopDL Frameworks(TF/PyTorch/B
42、igDL/OpenVINOTM/)Distributed Analytics (Spark/Flink/Ray/)Python Libraries (Numpy/Pandas/sklearn/)K8s ClusterHadoop ClusterCloudAutoMLDistributed TensorFlow&PyTorch on SparkSpark Dataframes&ML Pipelines for DLRayOnSparkInferenceModelAutomatic Cluster Serving時間序列計算機視覺自然語言處理由英特爾 oneAPI 工具套件提供支持*指 BigDL
43、 2.0 已包含 BigDL 和 Analytics Zoo。了解更多:https:/ 框架:用于構建大規模時間序列分析應用程序的BigDL組件包含三個組件:數據處理與特征工程 (Data Processing&Feature Engineering)內置模型 (Built-in Models)超參數優化(Hyperparameter Optimization)Chronos Pipeline1.Data Processing&Feature Engineering2.Built-in Models3.(Optional)HPOTSDatasetOrca.dataLaptop/Single N
44、odeK8sSpark/RayCloudOrca.learnOrca.automlForecastersAutoTSEstimatorDetectorsAutoModelSimulatorsTspipelineBuilt-in DatasetDistributed data-parallel processingDistributed training on Big DataDistributed Tunning on Big Data ClusterChronos 框架架構41OpenVINO 工具套件-由 oneAPI 提供支持旨在使用高性能人工智能和計算機視覺推理實現更加快速和準確的實際
45、結果,部署在從邊緣到云的、基于英特爾 XPU 架構(CPU、GPU、FPGA、VPU)的生產環境中高性能、深度學習推理部署簡化開發、易于使用一次編寫、隨處部署1.BUILD2.OPTIMIZE3.DEPLOYOpen Model Zoo100+open sourced and optimized pre-trained models;80+supported public modelsTrained ModelModel OptimizerConverts and optimizes trained model using a supported frameworkInference Engi
46、neCommon API that abstracts low-level programming for each hardwareIntermediateRepresentation(.xml,.bin)Read,Load,InferIR DataPost-Training Optimization ToolDeep Learning StreamerCode Samples&Demos(e.g.Benchmark app,Accuracy Checker,Model Downloader)OpenCVCPU PluginGPU PluginGNA PluginMyriad Plugin
47、For intel NCS2&NCSHDDL PluginFGPA PluginOpenCLTMDeep Learning WorkbenchDeployment Manager了解更多: 42 全新內置 AI 加速引擎-英特爾 AMX 軟硬件配置 面向 Linux 操作系統的優化 面向 AI 框架的優化 -面向英特爾 架構優化的TensorFlow -英特爾 Extension for PyTorch 面向 AI 神經網絡模型的低精度優化 AI 模型推理加速 OpenVINO工具套件 數據分析和機器學習加速掃碼獲取完整調優指南基于第四代英特爾 至強 可擴展處理器的人工智能調優指南 4243以
48、多樣化軟硬件組合加速 AI 部署面向數據中心的多樣化英特爾 AI 硬件組合經過英特爾優化的開源 AI 框架和工具廣泛的英特爾 AI 產品組合和合作伙伴強大硬件組合,全面優化 AI 工作負載,滿足多樣化算力需求加速開發者構建和部署 AI 應用的旅程通過豐富的軟硬件組合加速 AI 方案部署時間英特爾 AI 平臺4344第四代英特爾 至強 可擴展處理器相較于上一代產品的性能提升 64倍倍(與上一代產品相比)(與上一代產品相比)高達推薦系統批量推理性能提升 推薦系統訓練性能提升詳情請見以下網址的 A21:https:/ 關鍵用例時間序列預測 電信的很多業務量(如語音通話、數據傳輸等)與時間(隨用戶使用
49、量變化)相關,呈現波峰波谷特性,是典型的時間序列數據。為提升模型的準確性和性能,在過去通常需要耗費巨大的人力和時間資源,對超參數進行手動調優,但結果往往并不 令人滿意。而通過引入 AI/ML 方法來預測資源占用率,可在不影響SLA的前提下,實現按需分配、靈活調整,降低運維復雜度和成本,形成更高效、更智能的數據中心或基站等網元的能耗管理策略,進而更大范圍、更大規模地提升節能減排水平?;谟⑻貭?Chronos 框架的時間序列預測 Chronos 框架提供了十多種不同種類的 ML/DL 內置模型,為不同應用場景提供高精確度的預測。通過使用歷史業務數據(如話務量等)與服務器資源利用率日志(如處理器占
50、用率等)進行建模,由 Chronos 框架提供的 TSDataset API 接口對時間序列數據快速執行填充、縮放等操作,并開展自動特征生成;然后通過 AutoTSEstimator 等 API,實現超參數搜索,并根據預測目標檢索出最佳超參數集,優化模型和數據處理工序并形成時間序列預測模型;最終,使用這一模型對實時業務數據進行推理(或進行效果 評估和優化),獲得處理器占用率預測數據?;谟⑻貭?Chronos 框架的時間序列預測方案基本流程465G 網絡要借智能化實現動態節能中國聯通希望在其保障 5G 等各類通信業務高效發展的同時,盡可能降低能耗開銷。新方案預計可使單臺服務器能耗降低超過15%
51、;新方案預計可使整個云資源池每年節電4,600萬度。掃碼獲取全文BigDL Chronos 框架助中國聯通打造 5G 網元資源占用率預測方案 基于BigDL Chronos框架豐富的組件和集成的優化策略,方案實現了更優的預測效果和更快的預測速度。在 BigDL 超參數優化組件幫助下,開展從數據預處理、特征工程到模型訓練等全棧的自動化機器學習過程。使用至強 可擴展處理器,為 5GC 網元資源占用率預測方案提供通用算力支持。IT設備能耗占比巨大,對其實施優化,具備較大空間在滿足5GC網元核心業務SLA的情況下,降低設備能耗解決方案挑戰處理器占用率預測結果與實際值對比1.17倍僅為處理器占用率預測值
52、與實際值對比的最終 MSE 結果如欲了解更多案例詳情,請訪問:https:/ RAN 基站實現智能節能亞信科技希望幫助更多用戶通過降低 5G 網絡能耗來實施綠色網絡建設,而基站的能耗占比巨大。幫助用戶有效降低運營成本 為 5G 云化基站的節能標準制定提供有效參考掃碼獲取全文BigDL Chronos 框架助亞信科技打造 5G 基站智能節能方案 由 Chronos 框架提供的 TSDataset 接口對加載的 5G 小基站負荷數據集進行 快速的數據預處理。利用預處理的時間序列數據進行建模,并通過 Chronos 的 AutoTSEstimator 接口,實現自動化超參數搜索、特征選取、模型優化,
53、來對算法進行調優,并生成時間序列預測模型。使用這一模型對 5G 小基站負荷數據進行推理,獲得實 時 5G 小基站負荷預測數據。借助 AI/ML 模型獲得良好預測結果后,再引入英特爾 P/C-state 等技術,對 英特爾 至強 D 處理器的頻率等參數進行動態調整,從而實現基站能耗智能控制。在 5G 網絡中,基站的能耗可超過總能耗的 50%(有時甚至超過 80%)傳統基站節能方案依靠人工經驗,節能水平很難超過 5%解決方案挑戰基于節能新方案設計的處理器調整策略15%-30%用戶綜合能耗降低如欲了解更多案例詳情,請訪問:https:/ 4748AI 關鍵用例深度學習:推薦系統和自然語言處理(NLP
54、)根據實時行為信號和上下文隊列提供個性化用戶體驗,企業可以部署基于深度學習的推薦系統以及使用自然語言處理,同時平衡總體擁有成本(TCO)。推薦系統可幫助企業通過個性化推薦為每個客戶提供更好的服務,而自然語言處理則使設備能夠更好地理解文本的含義,從而讓企業能夠更好地了解并滿足客戶的需求。電信運營商可以實現自動化客服、智能化營銷等多方面應用,實現精準營銷,提升客服服務質量和營銷效率,以及客戶滿意度?;ヂ摼W企業可以更好地驅動客戶的需求并持續吸引他們的關注,從而獲得巨大的營收潛力。金融服務機構可以更好地了解客戶,從而做出更明智的投資和風險管理決策。醫療保健服務企業和機構可以通過更高效的計費和預先審批流
55、程以及更準確的術后并發癥預測,來改進患者護理并降低成本。零售企業可以利用更準確的文本識別和語義理解來更好地解讀用戶行為,從而以更具個性化的客戶體驗創造增加營收的機會。同時,情感分析還有助于零售企業收集用戶反饋,并基于此提供更好的產品推薦,從而推動未來購買模式的發展。英特爾 AMX 強化了第四代英特爾 至強 可擴展處理器的 AI 加速能力,無需額外硬件即可加速深度學習訓練和推理。該內置加速引擎可為自然語言處理、推薦系統和圖像識別等 AI 應用提供更強的支持。49個性化內容與服務推薦產業級行業大模型更加精準、個性化的互聯網服務推薦模型量化推升推理效率多范式統一預訓練框架輕量化版本 ERNIE-Ti
56、ny視覺 AI 推理加速在第四代英特爾 至強 可擴展平臺上,阿里巴巴推薦模型在符合推理時延=15毫秒的同時,吞吐量提升達在第四代英特爾 至強 可擴展平臺上,ERNIR-Tiny 吞吐量提升達在第四代英特爾 至強 可擴展平臺上,將模型轉化為 BF16 后,Swin-tiny 推理性能提升高達2.89x2.66x4.13x推薦系統知識增強視覺 AI 解決方案工作負載和配置見后頁所示。結果可能不同。4950英特爾 AMX 助力阿里巴巴推薦系統提升AI 推理性能為了應對現代化推薦系統對于 AI 算力的較高要求,實現性能與成本的平衡,阿里巴巴希望重點化解電子商務推薦系統面臨的如下挑戰:滿足 AI 推理精
57、度需求,阿里巴巴推薦模型性能大幅提升,且收益遠高于硬件成本,有助于降低 TCO;基于 CPU 的推理方案具備媲美高端 GPGPU 的性能表現,同時在成本、靈活性等方面具備更強的優勢。掃碼獲取全文采用第四代英特爾 至強 可擴展處理器優化阿里巴巴推薦模型推理性能 使用第四代英特爾 至強 可擴展處理器內置的 AI 加速引擎-英特爾 AMX,顯著提升 AI 推理性能;利用英特爾 oneDNN 將 CPU 微調到峰值效率,使得核心推薦模型推理性能獲得進一步躍升。滿足單位時間內的海量處理請求,提升吞吐量確保處理時間在嚴格的時延閾值范圍內確保 AI 推理精確性,保證推薦質量解決方案挑戰代理模型吞吐量比較(時
58、延=15 毫秒,越高越好)2.89倍提升達基于第四代至強 可擴 展 處 理 器,采 用 BF16 混合精度,阿里巴巴推薦模型吞吐量如欲了解更多案例詳情,請訪問:https:/ AMX 助力百度輕量版 ERNIE-Tiny 釋放 AI 加速潛能ERNIE 3.0 輕量版是百度面向 NLP 領域推出的重要技術方案,為應對在實際落地過程中,各行業細分領域對其提出的更多特定化需求,百度希望引入多重優化方案,助力輕量版 ERNIE-Tiny 實現以下性能:行業用戶在通用 CPU 平臺上也可方便地部署高效能的 ERNIE-Tiny,來應對越來越多的 NLP 應用需求;用戶無需額外采購昂貴的專用 AI算力設
59、備,大幅降低企業借助NLP 能力提升業務效率的門檻。掃碼獲取全文引入第四代英特爾 至強 可擴展平臺及其內置 AI 加速器優化輕量版 ERNIE-Tiny 使用第四代英特爾 至強 可擴展處理器作為 ERNIE-Tiny 推理工作的算力輸出引擎,并利用其內置的英特爾 AMX 大幅提升 AI 推理效率;利用英特爾 oneDNN 實現對英特爾 AMX 指令的調用,有效助力用戶提升AI 應用與框架在英特爾 架構平臺上的性能。更高的處理效率更便捷的部署流程,更低的部署成本更廣泛的 NLP 部署場景解決方案挑戰ERNIE-Tiny 在不同處理器平臺上的性能對比2.66倍提升達在第四代至強 可擴展平臺上,ER
60、NIE-Tiny 吞吐量 如欲了解更多案例詳情,請訪問:https:/ AMX 助力美團加速視覺 AI 推理服務,優化成本為提升視覺 AI 推理效率,給用戶帶來更加精準、個性化的互聯網服務,提升競爭優勢,美團希望重點解決視覺 AI 推理在算力和成本等層面的挑戰:美團可更加充分地釋放現有基礎設施的潛能,降低視覺 AI 服務投資規模,節省 70%的服務成本;實現資源的敏捷調度,支撐視覺AI 服務的高效創新。掃碼獲取全文利用第四代至強 可擴展平臺及其內置 AI 加速器提升主流視覺模型推理性能 采用英特爾 AMX,動態將模型數據類型從 FP32 轉換為 BF16,在可接受的精度損失下,增加吞吐量并加速
61、推理;結合 IPEX 加速 PyTorch,助力用戶在原生 PyTorch 的基礎上更有效地提升英特爾 處理器上的 DL 推理和訓練性能。在保證視覺 AI 推理精度的同時,提升吞吐率采用 CPU 進行低流量長尾模型推理服務,獲取更高的成本效益提升視覺 AI 服務敏捷性,跨架構進行資源調度解決方案挑戰FP32/BF16 模型推理性能對比4.13倍提升最高達在第四代至強 可擴展平臺上,模型推理性能可實現如欲了解更多案例詳情,請訪問:https:/ AI 應用第四代英特爾 至強 可擴展處理器可運行多種 AI 工作負載英特爾 AI 工具套件助力實現開箱即用的端到端生產力廣泛的 AI 產品組合和合作伙伴
62、 加速 AI 應用的部署進程5354擴展 AI 產品陣容以滿足中國市場的需求異構產品組合從小型 AI 部署到 LLM 訓練開放式軟件??绮煌軜嫼蛷S商的統一軟件棧用于 LLM 訓練的 Gaudi2 集群降低準入門檻數據預處理訓練/微調模型創建部署邊緣推理55為人工智能發展做好準備 英特爾數據中心與 AI 產品架構演進CPU P-CoreCPU E-CoreGPUDedicated AIFPGA4th Gen Intel Xeon Scalable processorsHabanaGaudi 215 new FPGAs on schedule to PRQ in 2023Next GenFPGA
63、sHabanaGaudi 3Intel Xeon CPU Max Series5th Gen Intel XeonIntel Data Center GPU Flex SeriesIntel Data Center GPU Flex SeriesNext-Generation Accelerator ArchitectureNext-Generation Accelerator ArchitectureIntel Data Center GPU Max SeriesIntel Xeon ProcessorsIntel Xeon ProcessorIntel Xeon Processorcode
64、named Emerald Rapids codenamed Arctic Sound-Mcodenamed Melville SoundCodename:Falcon Shorescodenamed Ponte Vecchio codenamed Granite Rapids codenamed Sierra Forest codenamed Clearwater Forest 10Roadmap:2023-20255556為人工智能發展做好準備 英特爾 至強 演進路線圖CPU P-CoreCPU E-CoreTodayQ4 202320252024(First Half)2024(clos
65、ely following Sierra Forest)5th Gen Intel Xeon codenamed Emerald Rapids4th Gen Intel Xeon Scalable processorsNext-Gen Intel Xeon codenamed Clearwater ForestNext-Gen Intel Xeon codenamed Granite RapidsNext-Gen Intel Xeon codenamed Sierra Forest5657關注英特爾數據中心微信公眾號、英特爾商用小助手,隨時了解最新活動與資訊英特爾并不控制或審計第三方數據。請您
66、審查該內容,咨詢其他來源,并確認提及數據是否準確。英特爾技術特性和優勢取決于系統配置,并可能需要支持的硬件、軟件或服務得以激活。產品性能會基于系統配置有所變化。沒有任何產品或組件是絕對安全的。更多信息請從原始設備制造商或零售商處獲得,或請見 。英特爾技術可能需要支持的硬件、軟件或服務得以激活。請從原始設備制造商或零售商處獲得更多信息。描述的成本降低情景均旨在在特定情況和配置中舉例說明特定英特爾產品如何影響未來成本并提供成本節約。情況均不同。英特爾不保證任何成本或成本降低。英特爾、英特爾標識以及其他英特爾商標是英特爾公司或其子公司在美國和/或其他國家的商標。英特爾公司版權所有掃碼查看英特爾官網,了解更多英特爾在通信行業的技術實踐58