《天數智芯:天數智芯算力中心建設解決方案(30頁).pdf》由會員分享,可在線閱讀,更多相關《天數智芯:天數智芯算力中心建設解決方案(30頁).pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、1天數智芯算力中心天數智芯算力中心建設建設解決方案解決方案2目錄目錄一、項目建設背景.3二、集群部署方案.4三、算力運營維護.6四、核心運營內容.7五、應用場景推廣.8六、市場營銷策略.19七、方案配置參考.233一、項目建設背景一、項目建設背景黨的二十大報告指出,推動戰略性新興產業融合集群發展,構建新一代信息技術、人工智能、生物技術、新能源、新材料、高端裝備、綠色環保等一批新的增長引擎,人工智能是新一輪科技革命和產業變革的重要驅動力量。在城市數字化轉型的進程中,智慧程度越高、算力越強的城市,其綜合資源更節省,城市安全更有保障,運行效率更高,企業發展更順暢,居民生活更便利。天數智芯是中國第一家
2、通用 GPU 商用芯片及超級算力系統提供商,也是國內唯一同時擁有 GPU 架構下云端訓練+推理完整解決方案的硬科技公司,目前推出的訓練芯片天垓 100 和推理芯片智鎧 100 基于自主研發的芯片架構及軟件棧,具備高算力、通用性、靈活性、自主可控等明顯優勢,真正自主可控,實現國產替代,支持和國際主流產品混合部署,無縫遷移。天數智芯集中賦能企業算力平臺及生態建設,加快核心關鍵環節補鏈強鏈,為國產人工智能算力產業貢獻中堅力量。以天數智芯的通用算力芯片為基礎,打造國產通用算力集群,同時結合算力應用孵化信息化創新項目,將全面提升城市數字化轉型能力,帶動數字政府和新型智慧城市建設更便捷、更智慧。4二、二、
3、集群部署方案集群部署方案結合應用需求,可基于國內外各主流 CPU 和天數智芯全系列通用 GPU 靈活組成集群服務器,每臺最大可支持 8 張天垓 100 加速卡,服務器間可通過以太交換機或 IB 交換機互通搭建基于超融合架構或者存算分離的底層硬件平臺,從而為上層應用提供計算和存儲服務,集群整體硬件架構圖如圖1 所示。圖 1 GPU 高可用集群硬件架構圖完整的算力中心網絡分為數據交互網絡、業務交互網絡5以及管理交互網絡,示意圖如下所示:圖 2 網絡和系統部署天數智芯算力集群管理平臺提供基于 GPU 虛擬化的存儲管理、容器管理、系統監控和授權管理等服務,此平臺具有易遷移、高可用、可伸縮等特性。集群管
4、理平臺按服務層次分為 IaaS,PaaS 和 SaaS 三層,本方案中 IaaS 層(基礎設施服務)兼容國內外主流生態,兼容主流 GPU 通用計算模型,提供支持主流 GPU 通用計算模型的等效組件、特性、API 和算法,可助力用戶便捷地實現系統或應用的無痛遷移;PaaS層(平臺即服務)提供 GPU 虛擬化、算力調度、異構納管、運維監控和存儲管理等能力;SaaS 層(軟件即服務)支持可視化訓練和開發,支持當下主流模型,有效提高 AI 訓練效率,三層整體架構如圖 3 所示。6圖 3:GPU 集群管理平臺天數在集群部署上可以提供多樣化、異構化的基礎設施架構方案,可以根據需求在服務器、操作系統、算法框
5、架等層面靈活部署。并借助交換機按需組網部署,提供各種算力服務,可以滿足各種場景下的業務需求,滿足各算力客戶的應用需求。三、三、算力運營維護算力運營維護運營公司設立專業運營團隊負責公司算力中心維護、產品項目推廣、產業生態合作等工作。團隊由本地運營人員和天數智芯外派工程師共同組成,明確職責分工,實現智算中心的市場化運營和專業化運維。主要的運營目標如下:(一)人工智能計算中心運維服務。運營公司負責人工7智能計算中心的運維服務工作,確保人工智能計算平臺穩定高效的運行。(二)人工智能計算中心運營和市場推廣。依托該平臺,面向地區提供多種類型的算力服務,服務本地人工智能企業大力發展,服務傳統產業轉型升級,服
6、務科研團隊創新創業,提升算力平臺資源利用率。此外,基于智算中心,公司可聯合本地龍頭企業、科研院校承接國家、?。ㄊ校┘壙蒲许椖?。(三)人工智能產業生態合作。公司負責配合所在地區的人工智能產業招商工作,吸引全球頂尖人工智能科研團隊、企業入駐,吸引優質的人工智能成果落地轉化,培育中小微AI 企業,舉辦大型 AI 賽事和行業峰會,依托集成的先進一體化平臺形成產業生態鏈,共同在所在地區打造全球獨具特色的 AI 生態圈。四、四、核心運營內容核心運營內容運營公司的核心運營內容如下:(一)算力服務支持算力服務支持:智算中心采用開放的基于國內外先進的通用 GPU 加速卡的異構體系架構,搭載 NVIDIA 和天數
7、智芯的通用 GPU 計算單元,可提供多種數據精度的算力服務,靈活滿足政府、企業、科研機構等各類型的訓練和推理業務需求。在前期的產業落地中,可以借鑒把已有的成熟行業應用8上線,為周邊地區企業和科研院所提供成熟的算力服務,賦能企業發展。同時為行業用戶及科研院所提供普惠算力服務,吸引人工智能企業落地。(二)技術開發支持技術開發支持:運營團隊提供應用適配、在線技術指導等服務,根據用戶的業務和項目需求,公司技術服務人員可提供新算法模型的適配與驗證、新算子的開發和適配、業務流適配等多維度、全方位的技術服務,同時監控智算中心運行和客戶算力使用情況,保證用戶高效利用好智算平臺的算力。(三)智能項目合作智能項目
8、合作:結合公司在 AI 計算領域的研發能力、產品能力和解決方案能力,與本地高校、科研院所、企業等聯合申請國家、省部級以及地方重大科研項目、場景示范項目和產業應用項目等,配合其完成項目申報、驗收等工作,在課題選擇、方案研制、立項申請、報告撰寫、成果運用等各個環節提供人工智能算力支持和專業技術指導。五、五、應用場景推廣應用場景推廣通過發展智算中心的賦能體系(引領示范和產品、方案的輸出)和繁榮的生態體系(資本、創投、技術、科研、人才、企業等),天數智芯助力提升區域算力產業的持續發展,支撐和賦能十四五數字經濟發展規劃的各類場景落地,為各行業智慧發展賦能助力。以下列舉其中十個典型的應用推廣9方向:5.1
9、5.1 智慧政務智慧政務以典型的材料預審和智能服務需求為例來提供智慧政務支持。在政務材料預審階段,通過智能語音技術,基準識別用戶真實需求,精準定位具體頁面,提供真正了解客戶需求的智能助手服務。同時,從遠程視頻預審中精準識別用戶提交的材料內容,基于智能語義分析,搭建與申請事項之間的關聯關系,更精準快速地完成材料預審工作??蛻粝嚓P場景涉及到的模型以 NLP 和 ASR 居多,主要為BERT/Conformer/OCR/transformer/cascade 等,另外還有自研的算法,且大部分代碼實現基于 CUDA 生態,算力中心都可以滿足需求。算力業務部署時可采用云邊協同的方式,算力中心負責大規模計
10、算和調度,并為邊緣端部署模型;邊緣端負責輕量級模型運行,將推理結果反饋給云端。以單任務串行為例,需要首先將語音、文本等非結構化數據做結構化處理,然后再基于不同任務的級聯模型依次處理。5.25.2 智慧交通智慧交通在智能交通場景中,需要對道路上的車輛、物體進行結構化處理與分析,智能識別車輛故障、違法停車、應急車道占用等行為。通常會面臨多路視頻接入、海量數據處理等核10心要求。同時,高速公路、城市道路、隧道、橋梁等不同細分場景的識別難點各有不同,疊加雨雪、光線、大霧等天氣因素,使得在復雜場景下的算法模型趨近多樣化。算力中心在以下典型場景助力智慧交通建設:交通事件檢測:行人上路檢測、停車、逆行、事故
11、、擁堵、拋灑物、煙火等 交通態勢感知:車流量、平均車速、排隊長度、車道空間占有率等 車輛結構化分析:車牌識別、車型識別、車身顏色識別等此外,利用交通行業海量數據,在算力中心構建云控大數據分析平臺,實現異構數據的計算、多種 AI 算法協同和分析。5.35.3 智慧金融智慧金融金融領域中,最常用到的就是票證識別業務,存在大量需要對證件、表單、票據等識別的場景,采用人工智能手段可以大幅度提高效率,降低人力成本。OCR 是最常用到的技術之一。傳統的 OCR 技術受限于手工設計特征的表達能力與處理流程的復雜性,對于較復雜的圖片情況,例如帶有大角度畸變或模糊不清的文本圖像,很難達到理想的文字識別效果。11
12、基于算力中心的算力服務,結合深度神經網絡模型,對圖像預處理、文本檢測、文本識別和后處理過程進行優化,實現多語種表單、復雜票據、小字票據等多個復雜場景中識別、性能及速度的大幅提升。5.45.4 智慧城市:三維建模和數字孿生智慧城市:三維建模和數字孿生基于 NeRF(神經輻射場)優化的全新 3D 渲染和建模技術,可用于大場景重建、360物體重建、數字人等多種應用場景。通過對大場景多視角的 2D 圖像或視頻集合進行建模,從數據采集、數據集上傳、發起訓練任務和最終 Mesh 3D模型提取,一鍵式生成建模數據,操作簡單易用。神經渲染(NeRF)憑借計算圖形管線的可微分性,利用 Rasterization
13、,Interpolation,Texture Lookup,Antialiasing 等多種接口,所生成的三維建模效果相比傳統渲染,可達到更高精度,更流暢,更逼真還原度,滿足不同場景、不同終端需求,助力數字孿生,智慧城市,數字文旅,數字人等建設。12以下是針對 360環繞視頻進行渲染后得到的直線漫游俯瞰效果展示,此效果可融入數字孿生智慧城市,數字文旅等場景中。360環繞視頻渲染后直線掠過效果略圖基于算力中心的算力服務,可基于三維建模算法有效提供區域的監測和管理,提供賦能智慧城市化的管理。5.55.5 智慧科研智慧科研當前,人工智能驅動的科學研究已成為全球人工智能新前沿,科技部也于今年會同自然科
14、學基金委啟動 Al for13Science 專項部署工作。AI for Science 需要大量數據支持,也對算力提出了更高的要求。通過算力中心可以支持院??蒲袡C構在教學和科研水平上一個新臺階,推進科學探索新成果,賦能國內高校加速研發創新。目前基于天數智芯產品的 AI for Science 科學數據中臺項目已在上海交通大學落地,支持實現模型研究、低代碼開發、科學數據解析、大模型預訓練、數字孿生等多項功能。并推出定制版 AI 應用市場版塊,其中包括 Stable Diffusion、ControlNet、OPT、數字人等多種應用,為師生教學和科研需要提供有效算力支撐。5.65.6 智慧會議智
15、慧會議在大型會議場景中,為了方便現場及在線觀眾更容易地接受信息,以及會后媒體發稿更快速的發稿,往往采用現場AI 字幕的方式進行實時輸出。同時,在一些會議上還可能涉及到多國語言的演講,需要為聽眾實時翻譯。智能會議與機器翻譯工作流程14通過 NLP 分析技術、關鍵詞檢索技術,對用戶交流內容進行快速審核,通過指定的規則對交流內容進行情感分析判斷,再分類引導處理。天數基于通用 GPU 產品,對客戶語句進行拆解,對長難句進行壓縮理解,保留關鍵詞,引入 TextCNN 等處理方法,結合上下文,自動進行糾錯與指代理解,從而進行更精準的語義理解與情感判斷。以下數字人效果展示,結合 LLM 大語言模型、AI 圖
16、像生成技術,智能聲音合成技術和音唇同步等人工智能新技術,具備高度智能性??扇谌霐底治牟?,直播,智慧商場等場景中,基于算力中心提供智能化服務。數字人展示5.75.7 智慧醫療智慧醫療醫學影像醫學影像:15算力中心可支持包括 Yolo、Resnet、U-Net 3D 在內的多種用于臨床醫學的圖像檢測與分割模型,可以基于 2D、3D圖像實現對相關病灶的自動檢出和分割,為患者臨床治療提供輔助參考?;驕y序基因測序:搭建 RNN NLP 類等 AI 深度網絡訓練平臺,構建基因檢測堿基對識別的能力,將對前端 CMOS 成像組件對堿基對的成像過程中形成的大量圖片,經過 AI 模型后處理規整后,統一送入后端基
17、因庫存儲。5.85.8 智慧制造智慧制造工業質檢主要涉及產品外觀缺陷、尺寸、平整度、校準、焊接、質量、彎曲度等檢測??蛻舻闹饕獞脠鼍盀?PCB 檢16測,缺陷情況復雜,對精確度要求有較高要求,因此模型需要時常更新,但傳統方法在模型失效后再訓練周期長,成本高。算力中心提供訓推一體化算力服務,基于通用 GPU 產品,結合機器視覺與神經網絡算法,支持端到端復雜場景的 AI質檢,實現從人工設計特征與規則到 AI 自動學習的突破,支持模型的持續訓練優化并快速上線,從而保證質檢的準確性。5.95.9 科學計算科學計算科學計算的需求也日益增多,對于算力上云的需求也成為了趨勢,可以有效利用算力來滿足更多的需
18、求。算力中心可以提供下述科學計算功能:AIAI forfor CFDCFD 流體模擬流體模擬 AI4SCI 算法研發和優化,如 PINN 等;傳統 HPC 算法的研發和優化,以及 AI+HPC 統一算法17架構的研發和優化;開發了高度集成的偏微分方程 AI 求解庫 pdelab。AIAI forfor MDMD 分子動力學分子動力學 AI4MD 的算法研發和優化,基于 Transformer,圖神經網絡,等變神經網絡等進行 MD 神經網絡應用研究,例如ET,NequIP,Equiformer 等;結合傳統異構加速計算庫與神經網絡方法,實現高效MD 的全流程,形成解決方案,賦能計算生物學,藥物設
19、計,化學材料模擬等領域的研究和應用。AIAI forfor FinanceFinance 金融金融 搭建數據庫;構建金融領域模型算法,模型包括:1)神經網絡價格預測、時間序列分析及做市商模型。2)利用強化學習構建交易系統。3)期權定價模型。4)基于圖神經網絡及 Finbert 股票的相關性分析;跟蹤金融科技領域算法模型最新進展。185.105.10 AIAI 大模型大模型近幾年,AI 大模型的發展勢頭強勁,國內外相關企業和科研機構對 AI 大模型的發展起到推波助瀾的作用,在實際應用落地過程中,因算力資源成本、訓練數據限制等原因,方案落地顯得尤為重要。天數智芯通用 GPU 產品快速完成了業內主流
20、大模型的兼容適配,從底層硬件到軟件加速庫,從通信框架到系統集群進行了全方位優化,提供了可用并易用的大模型預訓練、微調、推理完整解決方案,在政務、金融、司法、工業等方面率先落地,提高行業處理效率。天數智芯通用 GPU 支持國內外主流分布式訓練框架,例如 DeepSpeed、Megatron-DeepSpeed、Colossal-AI、BMTrain等,可支持數據并行、張量并行、流水線并行等多種并行模式的訓練策略,能夠自適應完成算力分配,提高訓練效率,降低訓練成本。目前天數智芯通用 GPU 已支持 GPT 類、LLaMa 系列、GLM系列、Cogview、悟道系列等國內外基礎大模型預訓練,以及面向
21、教育、環保、醫療、能源等垂直領域進一步微調訓練的能力。以“悟道”系列大模型為例,通過搭建 1600 張天垓 100 純國產化算力集群,從零開始完成了 650 億參數量規模代碼生成大模型的完整預訓練,模型收斂效果與 A100 集群收斂效果相當,且長時間運行穩定,滿足用戶實際生產需19求。六、市場營銷策略六、市場營銷策略(一)(一)目標市場目標市場運營公司一方面構建人工智能新型基礎設施,滿足人工智能高質量發展對算力的多樣化需求。另一方面,推動 AI大模型、智慧城市、智慧交通、智慧語音、智慧金融等人工智能應用場景落地,為所在地區數字轉型、智能升級、融合創新提供基礎動能?;诠镜亩ㄎ?,公司目標市場如
22、下:按應用場景細分,公司重點面向 AI 典型應用場景,如圖像識別、自然語言處理、智能制造、自動駕駛、智慧城市20等。按地理細分,公司重點投入豫北地區,積極開拓華中地區,打造區域內標志性人工智能基礎設施。(二)(二)營銷政策營銷政策1 1、前期優惠政策、前期優惠政策為推廣國產云端算力服務,降低客戶遷移算力平臺帶來的額外成本,算力運營公司在對標當前主流算力卡同等性價比的基礎上,提供一定的價格優惠及相應的適配調優服務,并優先給予當地重點產業及科研教育用戶算力券補貼等政策,以推動建設示范項目。在信息化集成業務方面,平臺將根據客戶的行業特點、業務成熟度,并給予不同的資源分配。在平臺推廣初期,天數智芯團隊
23、將外派客戶支持工程師提供免費調試服務。待垂直行業代表性客戶順利完成適配遷移后,算力平臺再對新增商業定制化適配需求采取收費政策。2 2、差異化定價策略、差異化定價策略使用使用周期周期:算力平臺服務將按照客戶使用周期進行定價,例如按小時、按月或按年計費。使用周期長或預付月費、年費的客戶將會享受到更優惠的價格。租賃方式租賃方式:算力平臺可以提供不同的租賃方式選擇,包括整租服務器、租賃單卡算力、租賃池化算力資源等不同規模和性能的組合,客戶可根據自身實際需求和預算選擇合適21的租賃方式。定制化需求定制化需求:針對特定行業客戶或特殊商業需求,算力平臺可以根據客戶提供定制化的服務方案,在評估人力和軟硬件投入
24、后,對客戶進行一對一磋商報價,并安排專職運營人員跟進客戶需求。3 3、提供多層次服務、提供多層次服務隨著云計算市場的競爭加劇,單一的算力服務難以滿足客戶,需要提供多層次服務以增加用戶粘性。公司可以根據客戶價值的多層次來設計和提供服務。第一層次是核心價值,智算中心的核心價值是提供高效通用的計算設施以滿足用戶的計算需求。第二層次是基礎價值,智算中心服務的基礎價值是提供可供多節點并行的計算設施以滿足用戶并行計算需求。第三層次是期望價值,智算中心服務的期望價值是除了提供基本的硬件,還提供應用適配和應用軟件以滿足不同領域應用需求的。應用適配包括模型適配、調優等技術支持;應用軟件包括免費開源軟件和收費商業
25、軟件。第四層次是附加價值,智算中心服務的潛在價值是科研機構用戶通過與中心合作,基于某課題開展共同研究,促進用戶更快產出科研成果,在國內或者國際有影響力的期刊發表論文。企業通過與中心合作,促進企業用戶研發部門優化算法模型,或根據企業自身特性開發新算法。224 4、宣傳渠道多元化、宣傳渠道多元化智算中心在運營初期,需要建立快捷、有效官網網站作為客戶首選的網絡渠道。官網可為用戶提供一站式服務,集公司宣傳、用戶注冊、計算資源申請、資源利用查詢等多功能于一體。此外,可借助微信平臺搭建官方公眾號,作為對外展示的重要窗口;建設官方 APP 客戶端,把計算服務、資源使用查詢、作業監控等功能整合到 APP 中,
26、滿足客戶的及時性需求;積極參與線下宣傳,例如舉辦中心發布會、參與展會、科普參觀等。5 5、優化促銷策略、優化促銷策略公司可通過廣告投放、公共宣傳、人員推銷等方式開展促銷活動。在公共宣傳方面,公司可積極參與公共服務活動,例如輿情監測、政務系統合作等,樹立典型案例,形成口碑效益。在人員推廣方面,公司可積極拜訪本地龍頭企業,了解客戶需求,提供精準的解決方案;積極參加行業展會、產業對接會等,開拓新用戶。(三)(三)定價模式定價模式公司承諾將基礎設施數據用戶等資源以雙方協商的方式帶入計算平臺中,并按照預計的方式開展算力出租、服務支持、定制服務和產業應用服務。23七、方案配置參考七、方案配置參考根據第一期
27、 200 機柜國產算力部署計劃,建議使用 720臺集群 GPU 服務器,其中每臺服務器配置 8 張天垓 100 通用GPU 卡;服務器之間通過交換機進行互聯通訊;同時建議使用標準服務器提供云平臺管理服務,提供應用服務及設備管理等接口給訪問者,并賦予不同權限。24天數智芯國產天數智芯國產 720P720P 估算清單估算清單智算中心-200 機柜(10KW)(720P)序號成本類型設備類型設備設備組件配置要求數量單位單價(萬元)總價(萬元)備注1機房設備機柜機柜電源10KW200套24002IT 設備計算節點GPU 計算節點服務器機頭服務器4U 機架式服務器:Intel Xeon Gold 633
28、0*232G*16系統盤:2*480G SSD M.2數據盤:1*4TNVME SSD8個雙寬PCIE4.0 x16插槽網絡:720臺107200浪潮華三超微251*10G 雙口1*1G 網口1*單口 200G IB 網卡;GPU 拓撲要求 pcieswitch 級聯直通模式3GPU 卡天垓 BI V10032GB HBM32TFP32;128TFP16;256TINT8250W5,760張5288004管理節點管理節點服務器CPU 服務器CPU:2*6330 28C2.0內存:256GB存儲 480GBSSD20臺510026網絡 10/25G電源*2:1+1 冗余電源800W5網絡帶外管理
29、帶外接入交換機48 口千兆 4 口 10G 交換機20臺0.8166帶外匯聚交換機48 口 10G 6 口 40G 交換機4臺2.5107計算網絡IB 交換機IB HDR 40 口交換機60臺181080leaf40 臺,spine 20臺8存儲網絡IB 交換機IB HDR 40 口交換機1臺18189業務管理網接入交換機48 口萬兆,6 口 40G 網絡20臺2.55027絡交換機10匯聚交換機128 口 40/100G 交換機2臺2550堆疊11網絡線纜IB AOC 線纜HDR QSFP58 AOC 線纜30M(預估)國產1,600條0.696012以太 AOC 線纜 40G40G QSF
30、P+AOC 線纜30M(預估)160條0.1117.613以太 AOC 線纜10G SFP+AOC 線纜30M(預估)850條0.03529.7514網絡安全安全防火墻安全防火墻吞吐量:40G,2臺204015外網連接路由器路由器具備 100G/40G 外網接口0臺0路由功能集成到防火墻2816存儲分布式存儲分布式存儲節點全閃,300T NVME 存儲容量。2*控制單元集成商用并行文件系統;每臺配置 2*單口 200G IB網卡;16臺3556017集群管理軟件方案云管平臺集群資源管理運維管理K8 集群狀態監控,關鍵指標告警1套180018AI 人工智能平臺鏡像管理提供操作系統和算法框架維度的
31、基礎鏡像,支持用戶私有鏡像保存,轉共享等管理能力1套19開發環境提供在線JupyterLab開發1套29環境,包含當前開發環境資源監控20算力市場提供可在運營管理配置的算力資源類型、鏡像資源的通道1套21網盤管理個人數據網盤,提供數據云端管理能力1套22系統管理平臺用戶權限定義和設置,按角色定義權限1套23應用市場包括:AI 繪畫,ChatBot,建模差異對比、OCR 文本識別、缺陷檢測、文本轉語音等1套3024虛擬數字人虛擬數字人完整方案,實現與數字人互動1套253D 即時建模針對一個三維物體進行建模,生成通用模型文件,立等可取1套26計費運營算力運營、計費、賬單、發票、卡卷、賬單、充值、會員管理1套27消息中心平臺重要消息上報模塊1套總計:39731.35