《華為:2024年AIReady的數據基礎設施參考架構白皮書(28頁).pdf》由會員分享,可在線閱讀,更多相關《華為:2024年AIReady的數據基礎設施參考架構白皮書(28頁).pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、華為技術有限公司深圳龍崗區坂田華為基地HUAWEI電話:+8675528780808郵編:Al-Ready的數據基礎設施參考架構白皮書存以智用,加速數據覺醒OnlyforprelOnlyfor preview商標聲明WEI,是華為技術有限公司商標或者注冊商標,在本手冊中以及本手冊描述nlyforpreviev免責聲明本文檔可能含有預測信息,包括但不限于有關未來的財務、運營、產品系列、新技術等信息。素,可能導致實際結果與預測信息有很大的差別。因此,本文檔信息僅供參考,不構成任何要約或承諾,華為不對您在本文板權所有華為技術有限公司2024。保留一切權利。非經華為技術有限公司書面同意,任何單位和個人
2、不得擅自摘抄、復制本手冊內容的部分或全部,并不得以任何形式傳播。編寫委員會目錄顧問陳國良、周躍峰指導委員會龐鑫、常、勝、楊柏梁、樊杰01序言一03A/-Ready的數據基礎設施的特征與參考架構張祎嚴浩03序言二25AI-Ready的數據基礎設施定義與特征主編28A/-Ready的數據基礎設施三大應用場景及參考架構龔濤韓茂、孫睿AI大模型加速行業智能化28智算中心場景01編委轉型33云和互聯網場景36邊緣訓推場景07AI大模型最新發展概況夏慶文、王振、周毅、劉乙成08AI大模型應用在行業逐步普及梁佳妮、樂遙、孫遜、秦烜、11Al大模型需要A/-Ready的基礎設施forpreviey04Al-R
3、eady的數據基礎設施實踐案例索海東、段芳成、曹長斌、陳曉麗梁瑩、張、勇、夏志輝、王耀輝、41科大訊飛x華為OceanStor存儲,加速A/全流程業務李澤宇、曾帆、任祥貴、徐晶、42D銀行x華為OceanStor存儲,用AI賦能智慧金融業務李國杰、溫立、張震02AI大模型數據基礎設施實踐中的挑戰與建議T云x華為OceanDisk存儲,構筑領先智算中心云底座(以上排名不分先后)45紫東太初x華為FusionCube訓推一體機,加速智能客服場景創新與實踐主編單位15數據資產管理挑戰華為技術有限公司16集群可用度挑戰18數據一致性挑戰05給CIO的行動建議20數據安全挑戰52參考文獻Only for
4、previeA/-Ready的數據基礎設施參考架構白皮書02打造“Al-Ready”的數據基礎設施,既是推四、可持續與綠色。隨著數據量的爆發式增長,數據基礎設施的能源消耗與環境影響不體創新能力、實現數字化轉型的戰略選擇。容忽視。我們應倡導并踐行綠色數據中心建設,通過技術創新與管理優化,提高能源使用Al-Ready的數據基礎設施應具備以下特效率,減少碳排放,實現數據基礎設施的可持征:續發展。一、開放與互聯。在數據資源日益豐富多CA/-Ready的數據基礎設施是產業界研究元的今天,數據基礎設施需打破信息孤島,實的熱點,也是各國投入的重點方向,這本白皮現跨部門、跨領域、跨地域的數據互聯互通,書是一次
5、非常有意義的探索,對于相關決策部形成開放共享的數據生態。這需要我們構建高G門、企業界、學術界具有很好的啟示和參考意效的數據交換平臺,制定統一的數據標準與接義,在新的趨勢和發展機遇下,期待產業各方CHAIN口規范,推動數據資源的有序流動與價值共深化合作和持續創新,推動數據基礎設施快速創。pre發展,在促進數字經濟發展上發揮更大的作用,揚帆遠航!二、智能與敏捷。AI時代的數據基礎設施應具備智能化處理能力,通過自動化工具和算法模型對海量數據進行高效清洗、整合、挖Only掘,為AI應用提供精準、實時的數據支持。陳國良同時,基礎設施應具有高度的靈活性與可擴展中國科學院院士序言一性,能夠快速響應業務需求變
6、化,實現數據服務的按需供給與動態調整。大模型賦予數據以新的生命力,AI時代存力,運力共同支撐高質量的數據挖掘和存儲三、安全與合規。在保障數據價值釋放的大數據蘊含的價值將進一步涌現。數據因AI能力。數據基礎設施正在成為大模型發展的基同時,必須高度重視數據安全與隱私保護。數而變得越來越重要,數據要素是新型生產力的石,首先,數據基礎設施是大模型的“糧倉”,forprev據基礎設施應內置嚴格的數據訪問控制機制,代表,數據基礎設施的能力成為AI時代的國為大模型提供數據養料,沒有充足、優質的數采用先進的加密、脫敏等技術手段,防止數據家重要競爭力。據,大模型的學習能力將大打折扣;其次,數泄露、篡改或濫用。此
7、外,應遵循國內外相關據基礎設施的完善程度直接影響大模型的訓練法律法規,建立健全數據生命周期管理機制,AI的發展與數據基礎設施密不可分,AI大速度和可用度,進而影響大模型在各個領域的確保數據處理活動合法合規。模型基礎設施的競爭正在進入新的階段,從單發展速度;最后,數據基礎設施是抵御數據風一的比拼算力,到比拼算存運的協同,由算力,險的最重要防線,是數據要素的保險庫。因此,I序言二今天,人工智能(AI)發展如火如茶。隨數據的載體,如果無法提供高性能、強一致、orpreviev數據中心、多分支的數據高效歸集到AI智算華為公司在數據基礎設施產業深耕超過二著基于Transformer的深度學習算法日趨完安
8、全可靠的數據訪問服務,那再高質量的數據中心;再結合算存網協同配合,讓歸集后的數十年,深刻理解數據是行業發展的基石。通過善并逐漸收斂,業界普遍通過堆疊算力以獲得也無法有效服務于AI計算。借用一句名言“茶據可以被高效訪問和處理,讓數據做到真正可與業界專家、客戶和伙伴進行深入溝通和相互更好的大模型訓練結果。與此同時,人們日益壺里煮餃子,倒不出來就不算餃子”。所以,用。其次,它應該是針對AI場景具有高性能學習,我們編寫了本白皮書,旨在為AI大模關注到數據基礎設施作為承載數據的平臺,對面向AI構建具有先進存力的數據基礎設施,和強一致的,以在數據加載階段提供海量小文型時代提供AI-Ready的數據基礎設施
9、提供訓練效率與結果的影響亦不容小靚。甚至可以已經成為AI大模型時代的關鍵。件的超高性能隨機訪問,以及訓練過程中提供一些參考意見,希望可以對在建或規劃中智算說,其在某種程度上對訓練結果的影響已超越對Checkpoint的超大帶寬和強一致訪問,減中心先進存力的設計與建設有所神益。在認識到數據和數據基礎設施對于AI的算法與算力本身,成為影響AI發展的重要因重要性的同時,我們還需要回答一個問題:究群可用度。再次,數據基礎設施應該具備較高工欲善其事,必先利其器。華為愿與產業素之一竟什么樣的數據基礎設施才是AI大模型計算各方協作,攜手共同努力完善A/-Ready數的性能密度和充分的線性橫向擴展能力,以應盡
10、管業內對于人工智能領域的諸多問題仍的最佳數據基礎設施?我想應該至少滿足以下orpr據基礎設施的定義和參考架構,共創AI新時對訓練數據量的激增以及數據類型的多樣化,在探索之中,但行業對大模型發展方向正在逐四個條件。首先,數據作為企業的核心資產,代。做到可隨時按需匹配算力集群擴展。最后,數漸清晰,其中一點就是數據量及其質量將在人已經成為最重要的生產要素之一,需要做到可據作為企業的核心資產,需要被充分保護,防工智能發展的新階段深度影響智能的涌現。在視可管可用,即數據在平時就被妥善保存并通止自然災害或者人因導致的數據丟失、泄露世界人工智能大會(WAIC)上,有分析報告過一張數據資產地圖進行可視化管理;
11、并在大等。我們將滿足上述基本要求的基礎設施稱為周躍峰博士指出“未來一個模型的好壞,20%由算法決模型訓練數據歸集階段,可以通過基于策略的Al-Ready的數據基礎設施。華為公司副總裁定,80%由數據質量決定”。數據基礎設施是方式來管理關鍵數據的流動,支持將散布在多數據存儲產品線總裁01AI大模型加速行業智能化轉型OnlAI大模型最新發展概況OnlAI大模型應用在行業逐步普及Al大模型需要A/-Ready的基礎設施Al-Ready的數據基礎設施參考架構白皮書082024年2月16日,OpenAl再度引領圖靈獎得主YannLeCun提出的“世界風潮,發布了首款文生視頻大模型Sora,其模型”概念,
12、如今正通過諸如Sora這樣的實踐得以逐步實現。相較于傳統的NLP語言大頻,具有多角度視頻一致性及視覺風格、對物模型,視頻大模型呈現出兩大顯著特點。首先,理世界理解等特性。根據OpenAl官網披露視頻大模型所需的訓練數據量極為龐大,原始的信息,Sora不僅能夠準確解讀用戶數據體量相較于NLP達到幾百甚至上干PBPrompt的需求,更會嘗試理解Prompt中事級以上,這對數據基礎設施的存儲和處理能力物在物理世界中的存在方式和運行規律,使得提出了極高的挑戰。其次,視頻大模型采用基生成的視頻逼真度非常高。隨著人工智能在理于模型的再標注(re-captioning)技術來訓解物理世界規律方面的顯著進步,
13、AI大模型練標注模型,這一技術使得計算量呈指數級增正由單模態的NLP領域向文生視頻等多模態長。據估算,生成一個僅60頓的視頻(約AI大模型加速行業智能化轉型方向迅速演進,也標志著AI技術正邁向一個6-8秒)所需的計算量相當于生成120萬個Tokens,這要求Al基礎設施具備強大且穩定的算力資源。自人工智能科學誕生至今60多年的發展歷史過程中,人工智能經歷了三次發展高潮,分別是1956到1970年代,1980到1990年代和2000年代至今。1959年ArthurSamuel提出了機器學習,推動人工智能進入第一個發展高潮期。此后70年代未期出現了專家系統,標志著人工智IIAI大模型應用在行業逐步
14、普及能從理論研究走向實際應用。80年代到90年代隨著美國和日本立項支持人工智能研究,人工智能進入第二個發展高潮期,一個里程碑事件是IBM深藍在1997年戰勝了國際象棋世界冠軍AI大模型的應用場景日漸豐富,正在加速的開發方式,客戶無需針對單個場景再開發單GarryKasparoV。當前人工智能處于第三個發展階段,2006年加拿大Hinton教授提出了深度向各個行業滲透。一方面,大模型實現了多場獨的AI模型,而是由AI大模型廠商開發基礎學習的概念,近年來Transformer大模型的問世推動深度學習模型參數量從幾萬躍升至數干億甚景覆蓋、精度限制突破、泛化能力增強和研發的LO層模型,由行業IT供應商
15、開發L1層的能力自動化,成為了AI走向產業化應用的重至更大,模型層數從開始的個位數逐步發展到成百上干。大模型實現了更好的泛化能力和更高的行業模型,應用場景IT供應商提供L2層的細分場景模型,如圖1-1所示。性能,正在成為AI發展的新范式?;A模型LO行業模型L1細分場景模型L2AI大模型最新發展概況科研機構科研機構+行業伙伴科研機構+行業場景化專家靈活適配違約風險3C質檢流行元素隨著NLP、GPT、強化學習等AI關鍵技不僅將深刻影響互聯網、工業制造、政企、媒+行業知識細分場景屏能動機汽車超造輔助設計術的重大突破,一場全新的AI大模型科技革資等諸多領域,更是將AI從原先局限于“感經驗反饋經驗結構
16、財務異常紡織質檢半足制命已經拉開序幕。2022年11月30日,知世界、理解世界”的專用領域應用,推向了智慧醫療自動駕駛金融風控表示沉淀反饋沉淀行業Know-howOpenAl推出了革命性的ChatGPT,其在對更為廣闊的通用領域,開啟了以“生成創造世圖1-1數據-模型-選代全生命周期話流暢度、知識反饋精準度等方面均展現出了界”為核心的AGI時代。超越普通人類的卓越性能。ChatGPT的出現1009A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書隨著大模型技術的不斷發展,各個行業都正在積極探索其具體的應用場景,如圖1-2所示。在使能新業態方面,AI結合lo
17、T、區塊鏈基于客觀數據信用體系的風險管理模式。從而等新技術,將直接服務對象由“人”延伸到“智使得基于動產可信的質押模式成為銀行的新業金融智能客服投資顧問個性化推薦風險評估編程助手合規管理態。銀行大模型應用場景,如圖1-3所示。醫療自助問診電子病歷藥效評估醫療助手基因測序疫情預警政府與公共服務業務前端業務中端業務后端李生城市重大事件預警智能報告生成智能會議助手政務辦事助手政務智能熱線應用類型客戶服務投顧核保理賠 營銷風控數據分析研發內控合規互聯網創意協作個性化推薦在線翻譯營銷文案教育培訓編程助手百大數據對投從依賴人工基于數據自應用敏捷開發供應鏈管理普遍運用制造工業質檢生產資源規劃工業機器人預測性
18、維護知識圖譜產以及非結力營銷程建構化數據洞見賦能,并但滿足研發敏和產品研發,信息的抽取電力故障診斷線路巡檢配網運行優化調度演算用電預測統計報表動推薦投資利用知識圖規則引擎別、貸前輔可視化、拖與分類歸產品與組合譜等技術,助審核等,拉搏的方式檔,但與文油氣斷層識別儲層預測油藏甜點搜尋智慧工地化工煉化智能審核全流程智能進行數據分性化需求的探件理解相關規則索仍處于初期 的任務需尋教育智能客服電信反詐費用稽查網規網優數字人秘書XR通話結合多輪對基于財富管通過海董投提升信息抽營銷物料快生成奧博報大模型將業大模型協助制 大模型形成交通交通規劃事故預防擁堵治理貨運監管樞紐管理違停處理話與KYC探理專業知識資標
19、的信息取、聚類與速生成,支告供風控人務問題轉化 定符合行業標 對文件的整能力,有進行預訓練員參考為數據分析準的軟件研發體認知與理運營商電信反詐效提升用戶智能客服費用稽查網規網優數字人秘書XR通話活體驗:測試等年對人早倫理、各規但需完備的析以及時間低人力投入性:自動生成圖1-2大模型在各領域的業務場景示意AI助理分析多樣化產品定 險警示以及策略用數價與組合策略解決方案forpre智慧金融PB級非結構化數據將被激活AI在銀行業的應用場景非常廣泛,在提面向中小微實體經濟的資金要素供給,逐步成升金融產品營銷能力、提升風險處置能力、提為區域經濟發展的新動力,切實提高金融服務圖1-3銀行大模型應用場景升運
20、營與開發效率、使能新業態四個方面已經實體經濟效率和支持經濟轉型發展的能力。顯現出不同的價值。智慧醫療在提升運營與開發效率方面,通過人機交在提升金融產品營銷能力方面,AI技術互打通智能客服,智能網點等服務界面的業務醫療行業是提高人民健康水平、保障和改檢測等醫療健康管理環節,也可以應用于醫療可以幫助銀行實現客戶畫像的精準構建和個性阻隔與流程斷點,實現“端到端”業務流程觸善民生的戰略性行業,行業長期存在醫療專家環境監測、患者預約就診、智能分診等場景改化推薦和定制化服務?;趯蛻舢嬒竦纳钊氚l、路徑選擇、任務派發與質量監測,提高業orprel資源稀缺與醫療診斷能力不足的公眾醫療問善患者院前就醫體驗。診
21、中,AI可以實現影理解,AI系統可以自動推薦符合客戶需求的務處理標準化、智能化水平,大幅提升銀行客題。伴隨人工智能技術的快速發展,A/+醫療像輔助診療、輔助病理診斷、精準醫療等,減金融產品和服務,營銷時客戶圈選就能夠更加戶體驗。如中國工商銀行在中國有四萬多個網場景應用可以有效緩解上述問題,并推動醫療少醫生工作量,提升診斷效率和診斷質量。診有針對性,提高營銷精確性。點,20萬多個網點員工,通過與華為盤古大行業從最初的電子化、單系統應用,逐步向數后,AI通過健康管理、知識問答等功能,協模型合作,讓每個銀行柜員擁有自己的智慧助字化、智能化不斷演進。助患者進行健康管理,從被動治療轉向主動預在提升風險處
22、置能力方面,通過“信用評手。根據客戶問題生成操作指引,將以前5次防。大模型支撐的醫療業務場景,如圖1-4估”、“欺詐檢測”等風控領域AI應用可以提操作縮短為1次,單次辦結時間縮短5分鐘。AI大模型可賦能院內外醫療各個環節。診所示。升銀行的風險防范與處置能力,使其能夠加大前,人工智能技術可以應用于藥物研發、基因1211A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書感知設備,實現萬物智聯;通過模型開放,匹可信:在系統安全性、韌性、隱私性、人自助問診病歷生成隨訪管理配干行萬業的應用場景,實現行業智能。身和環境安全性、可靠性、可用性等方面全面精準預約輔助診斷健
23、康宣教構筑可信賴的能力,并從文化、流程、技術三智能分診病歷質控復診敏捷:企業在智能化的過程中,可按照業個層面確保在各場景中落地;企業智能化應用診前診中診后務需要靈活匹配合適的ICT資源,并通過豐的運行過程必須是可信的,可追溯、防篡改、患者掛號/分診 診患者主訴接受檢查隨訪反饋富、成熟的開發工具和框架構筑智能化業務,防勒索,避免受到外部的惡意破壞。forprev自助間診超音識則自動生成病歷切哦讓業務人員直接參與智能化業務的開發,快速上線智慧應用。問診AP閥用病歷生成用問診導診的API知識庫、API千行萬業施訪管理科研類金融電力公共事業政務制造交通ISP醫生語音識別模型AI大模型醫療大模型基于文獻
24、問答和檢索,用于醫學科研的醫療大模型智能平臺軟件開發模型開發數據治理數字內容開發圖1-4大模型支撐的醫療業務場景Al-Ready的基礎設施規模計算|高效存儲|無損網絡Al大模型需要AI-Ready的基礎設施協同開放敏捷:可信OpenEulerDBMSData storageAlframework通用計算Al計算當前AI大模型在行業的發展面臨著一些的基礎設施、智能平臺、A/大模型、千行萬lOT智能聯接ADNNLM挑戰。首先,企業自身數據集的類型、規模和業等六層。這六層之間相互協,能感知、會思F5G Advanced Wi-Fi7 HCE IPv6+智能感知質量起到了至關重要的作用,企業還未形成統
25、考、可進化、有溫度,共同服務于干行萬業的籌管理其數據資產的能力;其次,各行業對智能化發展。它有四個特點協同、開放、敏捷、鴻蒙感知|雷達|機器視覺|傳感器計量表|無人機|機器人|協作終端丨AI 技能的掌握程度參差不齊,對AI 解決方案可信。圖1-5行業智能化參考架構的要求不一樣;再次是計算資源的限制,訓練協同:企業在智能化過程中通過云、管、在行業智能化參考架構中,Al-Ready的因此,企業需要構建一套高效的大規模的模型需要消耗巨大的計算能力和存儲邊、端的協同,業務信息實時同步,提升業務基礎設施作為核心支撐,涵蓋規模計算、高效Al-Ready數據基礎設施,從數據的角度對Al空間;最后是模型的可解
26、釋性問題,隨著模型的處理效率;并通過應用、數據、AI的協同,存儲、無損網絡。然而,在大模型訓練過程中,全流程進行優化。例如,通過多協議互通,避規模的增大,其內部的工作機制變得越來越復forpreview打通組織鴻溝,使能業務場景全面智能化。數據在計算、存儲、網絡頻繁移動,增加了系免不同系統間來回拷貝數據,實現一套存儲滿雜,難以理解和解釋,甚至出現模型幻覺。統開銷,降低了AI集群系統的整體效率。比如足不同應用程序的高效訪問;通過數控分離架開放:行業智能化發展是一個龐大的工基于在城市、金融、交通、制造等20多一個訓練批次前后的數據加載和Checkpoint構、高性能文件系統的存儲,實現存儲節點干程
27、,需要眾多的企業共同參與,以開放的架構個行業智能化實踐過程中的總結,華為提出具保存階段,如果存儲的讀寫性能不足,會導致萬級每秒讀寫次數(IOPS,Input/OutputPer助力行業智能化發展:通過算力開放,以豐富備分層開放、體系協同、敏捷高效、安全可信昂貴的計算資源處于等待狀態而閑置。大模型Second)和數百GB/s帶寬,提升訓練效率;的框架能力支持各類大模型的開發,形成百模等特征的行業智能化參考架構,如圖1-5所的參數和數據規模都呈指數級增長,對存儲的通過容災、備份、防勒索等數據保護能力,為千態;通過感知開放,接入并打通品類豐富的示。它包含智能感知、智能聯接、Al-Ready擴展性、穩
28、定性、性能、時延等都提出更高要求。安全可靠的大模型服務保駕護航。02AI大模型數據基礎設施實踐中的挑戰與建議Only數據資產管理挑戰集群可用度挑戰Only數據一致性挑戰數據安全挑戰A/-Ready的數據基礎設施參考架構白皮書16物理位置,使得大模型訓練不再受到單體智算建議1:構建地域無關、多協議互通、按NLP中心存儲容量的限制,從而實現與AI應用、需訪問、統一數據視圖與調度的“AI數據湖數據引力結合的“數隨算動”能力。解決方案”,實現高質量數據全域共享ore數據治理缺失,數據標準缺乏根據調研,用于AI訓練的數據包括數據使用者等不同的角度,用數據目錄的方式AI大模型數據基礎設施實踐中庫等結構化數
29、據(占比35%),而以流式實共享數據資產,用戶可以快速、精確地查時數據、日志文件和電子郵件為主的半結構化找到自己關心的數據資產。的挑戰與建議數據類型和非結構化數據(65%)正在迅速成為生成式AI應用的主流數據源。如此眾多??晒埽簩祿凑掌髽I的業務視角進行標的數據類型,數據標準化是一個非常大挑戰。簽化,便于用戶從業務視角管理數據資數據資產管理挑戰優化數據資產管理需要強大的技術支撐,包括產。數據處理、存儲、分析等方面的技術。然而,“無數據不AI”已經成為業界共識,數據有序有效管理超越數據安全與計算性能,成為可用:通過預處理工具提升數據語料質許多企業的技術能力有限,難以滿足數據資產的質量決定了AI
30、的高度。根據2023TOP1的挑戰。企業需要采取一系列措施來更forpre量,提升數據訪問效率,同時保障數據合管理的需求。GlobalTrends inAlReport調研統計,構好地管理數據資產,以應對如下的挑戰:規可信,降低因為數據不可用而導致的溝建AI基礎設施的TOP3挑戰中,數據資產的通成本和管理成本。那么,AI時代的數據管理平臺需要具備哪些關鍵能力呢?主要包含以下三點:建議2:建立統一的數據管理平臺,實現數據質量不高、數據孤島嚴重數據的全局可視可管可用,將多域的數據合規可視:通過對數據資產的全面盤點,形成數據資產地圖。從數據生產者、管理者、地進行整合和共享。數據質量是數據資產管理的核
31、心問題之據孤島,導致已有的優質數據難以共享和整一,在整個AI的作業流程中,準備好高質量合。的數據所耗費的時間占比整個AI作業的集群可用度挑戰80%。多數企業面臨數據來源眾多,數據質所以,如何盤活數據資產?建議構建跨地域多數據中心之間的全局“AI數據湖”,實現Torprev量參差不齊,導致很難快速準備好訓練AI模隨著AI大模型技術的發展,大模型的參故障對集群可用度的影響”等影響算力中心建全局資源抽象,形成邏輯上統一的命名空間,型所需的大量數據。首先是理不清數據,數據數量日益增長,AI集群的規模及算力也在設規劃的因素,而是包含了計算芯片的算子效一方面使得數據在不同數據中心之間的復制和資源分布在多個
32、業務系統,數據的管理人員和Scaling Law作用下也隨之激增。但與此對應率等非算力中心建設規劃需要考慮的因素,所同步更加透明。另一方面,可以通過負載均衡使用人員無法準確快速地找到自己需要的數的是,算力規模的增長并未帶來AI集群效率以我們提出“AI集群可用度”指標,是指集策略,使得應用程序就近訪問,降低訪問延遲。據,更無法從宏觀層面掌握自己擁有多少數據的提升,業界習慣使用ModelFLOPs群在一定時間內能夠提供正常服務的時間占總如此,上層智算應用可以在不同數據中心之間資產,分布在哪里,是否發生了變化,等等。Utilization(MFU)來評估Al集群的算力利用時間的比例,而在A/場景下特
33、指A/基礎設施無縫地訪問和操作數據,無需在意數據存放的其次是不同部門之間的數據相互割裂,形成數率,但該指標并未包含“無效算力”和“設備能夠正常提供AI算力服務的時間占比,主要17AI-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書18包含CheckpointlO時間、故障及恢復時間、數據集加載時間等因素,具體可用公式表示為:作為當前A/大模型主要變現途徑的情況下,建議4:AI集群是成本和能耗的吞金獸,平均無戰障時高MTTE)CKPT保存時間-(CKPT間照+C+CKPT孩復時間+Python環境加載)商業化對集群性價比的要求更加苛刻。而過低高性能的專業存儲可
34、化繁為簡,降低集群復雜AI集群可用度=(1-平均無故障時間(MTBF)的集群可用度也直接導致AI推理成本高居不性,優化商業閉環。每Batch數據集計算時間、)(1-C2),C1為運行恢復時間,Cz為參數面損失比例。下,進而阻礙整個行業的商業化進程。如何提升AI集群可用度呢?主要需解決三大問題:算力浪費嚴重、建設和能耗成本高。數據一致性挑戰yforpre算力浪費嚴重,集群可用度普遍不足50%數據強一致性在A/-Ready的數據基礎可訪問。而“任意時間能訪問最近更新的數據”設施選型中卻是最關鍵的因素之一,要求任何代表著時間上的一致性要求,即數據從任意位當前大規模訓練集群的算力可用度普遍不在訓練任務
35、中,算力等待時間是導致AI用戶在任何節點、任意時間都能訪問到最近更置寫入后要立即可見,不能有數據更新的遲滯足50%。例如,Meta50000+卡訓練任務、集群可用度降低的主要原因,例如,PB級訓新的數據副本。其中,“任何節點可訪問”代性。OpenAIGPT-425000卡訓練任務的算力可練數據集的加載時間通常在小時級,表著空間上的一致性要求,不管從哪個接入節用度在30%-40%之間,英偉達Megatron-LMCheckpoint寫入時間在半小時級,而無效訓點寫入,寫入后立即對所有節點所有用戶可見數據強一致的挑戰體現在AI訓練流程的和微軟MT-NLG10000+卡訓練任務的算力練的浪費時間可達
36、2小時。另一方面,斷點各個環節,有如下三類典型場景??捎枚仍?0%-50%之間,即使是當前最新故障恢復所需的時間也會顯著影響可用度,特的字節萬卡集群MegaScale也僅達到55.2%。別是對于一些對 IO性能要求較高的場景,集Megatron-LM還顯示在算力規模增加的同數據一致性影響Checkpoint保存與恢復效率群的可用度會迅速降低。時,集群可用度下降明顯,算力可用度提升困隨著大模型從千億NLP往萬億多模態演也必須同時讀取成功,一個分片讀取緩慢,會建議3:走出盲目堆砌GPU算力的誤難導致可利用算力難以隨著集群部署規模線性進,集群規模的急劇擴大導致失效率顯著上拖慢整個集群。如果數據系統不
37、按照強一致性區,提升CKPT效率,優化集群可用度,扼增長,造成了算力資源的巨大浪費。AI訓練升,如何確保超萬卡集群的穩定運行成為大模進行設計,例如只在每個訓練節點本地保存數制算力浪費。集群的可用算力無法線性增長成為最大挑戰。型訓練的首要挑戰。在大集群規模下,各類故據,再異步寫到容量層的方式,都會帶來時間障幾乎每小時都在發生,故障的恢復依賴上的不一致。當發生節點級故障或緩存層故障Checkpoint文件的快速持久化和加載。且由時,受影響的節點由于本地存儲無法訪問(節建設和能耗成本巨大,阻礙商業化進程于大模型訓練過程中采取了數據并行、張量并點被整體隔離或本地存儲自身故障),只能降行、流水線并行等多
38、種并行策略,Checkpoint級到性能較慢的容量型存儲讀取某個文件分算力的提升通常伴隨著成本的增加和能源GPT3的1000倍。正如馬斯克所言,“今天文件被拆分成N個分片,并在N個GPU或片,此時,本地存儲無法提供同步的、一致的消耗的上升,這給AI的可持續發展帶來了巨缺硅,明天缺電”將逐步成為現實。NPU上進行并行持久化和加載,因此產生了全量分片文件并行訪問,只能由容量層存儲配大壓力。AI集群可用度低造成了算力建設成另一方面,隨著大規模系統復雜度的上Checkpoint文件的一致性要求。N個合提供時間滯后的文件訪問能力。一個文件分本高,電力空耗等問題,推高了建設和運營成Checkpoint文件
39、分片作為一個整體,在并行片的訪問受阻導致整個集群延遲等待,顯著增升、設備故障的隨機性增大、AI基礎設施運本。如GPT3單次訓練的電力消耗相當于持久化時必須同時成功,一個分片寫入受阻會維難、以及多種因素共同作用之下,集群可用加了故障恢復的時長(MTTR),嚴重影響了500噸CO2排放當量,相當于300個家庭導致整個集群等待。在并行加載時,N個分片度的問題定位和調優提升也越發困難。在推理大規模集群的高可用長穩運行。一年的用電量。而Sora的單次訓練消耗是19A/-Ready的數據基礎設施參考架構白皮書A/-Ready的數據基礎設施參考架構白皮書20節點隔離故障這些數據由時間戳和具體監測信息組成。通
40、地保存數據,則難以滿足上述實時運維分析和節點節點節點#0節點#1#2#N常,負責實時運維分析的應用會統一部署在一集群健康度預測的場景需求,會嚴重制約AI并行保存并行讀取集群的規模擴大和持續運營能力。時間點對齊的方式實時拉取整個集群的性能監建議7:基于強一致高性能的集群文件存控數據,要求每個節點寫入的運維數據和其他CKPT并行處理一致性:同時讀寫成功,或集體失敗退回狀態數據能夠立即全局可見。如果存儲系統不儲,構建運維數據面的實時共享數據平臺,提按照強一致性進行設計,只在每個訓練節點本升AI大規模集群的運維管理效率。存儲系統數據安全挑戰建議5:面向大規模訓練集群,構建強一致高性能的集群存儲系統,提
41、供萬卡Checkpoint同步保存與快速加載能力,提升故障處理與數據恢復效率。勒索軟件依賴AI進化,加速勒素變種的選代2023勒索攻擊者加強了AI功能的應用,年每天會新生超過1000個勒索軟件變種,同數據一致性制約開發測試、調度優化等AI全流程效率例如通過人工智能開發的惡意軟件代碼、機器比增長73%。這些新型勒索軟體,能在不到在AI訓練的日常作業中,常常會遇到集節點節點節點學習算法、自動化流程,提升了新型惡意軟件24小時內再次變種,讓傳統的方法變得更難#0#1#N群擴縮容、算法優化等情況,這時候會人工發forpre和勒索工具的開發效率,催生了更多的勒索變檢測和防范。起訓練任務的重調度。如下圖所
42、示,節點#1種。以全球部署最多的勒索變體LockBit聯盟建議8:“AI武裝化”已成為數據安全攻的任務隨機調度至節點#N,并同步加載原有為例,其推出了Raas(Ransomware as a本地盤防戰的勝負手,AI加持下的勒索利刃已來襲,節點#1的訓練數據和CKPT數據,此時就需Service)勒索即服務的平臺,供勒索黑客培要寫入的數據要能被其他任意節點立即訪問,育亞出售新的勒索軟件變種,將勒索行為產業用AI技術鑄造企業數據基礎設施新護盾已經OBS容量存儲迫在眉睫。即為強一致性。如果采用節點本地存儲的方化,降低了生產勒索軟件的門檻。預計2024Debug日志,性能統計,式,發生任務重調度時,節
43、點#N無法訪問節CKPT文件等信息點#1剛持久化的數據,只能從遠端的容量存實時運維分析預測和優化(通用計算集群)AI應用衍生了新的安全漏洞,大模型被攻擊后損失將達上干萬美金儲中加載,數據訪問必然遲滯,任務重調度的建議6:基于統一命名空間的集群文件存時間會因此拉長數倍,拖慢了集群開發測試和生成式AI已經集成到各行各業的多種應Al模型,如ChatGPT和Gemini的安全措調度優化的速度。儲,提供“寫入即全局可見”的全共享能力,forprev用之中,但由于AI系統安全機制還未成熟,施。加速開發測試和運營管理等AI全流程效率。我們在享受著生成式AI帶來的便利的同時,據智能時間2030分析,智算中心是
44、也在承擔隨之而來的AI系統漏洞的增多。例數據中心的進化方向,2025年可達7000億如,2024年3月首個生成式AI蠕蟲誕生,數據一致性是實時運維分析與智能預測的關鍵基礎美金規模,AI基礎設施將成為未來數據中心名為“MorrisII”,它能夠自動在Al系統之間最大開銷。以大模型訓練為例,大型數據中心運維日志、性能統計、集群狀態等信息的訓練集群健康運營的關鍵手段。集群中每一個傳播。該蠕蟲的能力可滲透生成式AI 郵件助AI訓練成本超20萬美金/天,針對AI應用實時監控和亞健康分析預測是保障大規模AI節點都在不斷產生性能監控數據和運維數據,手、提取數據和分垃圾郵件,從而攻陷著名的21A/-Ready
45、的數據基礎設施參考架構白皮書的攻擊會造成模型訓練中斷、訓練失敗、訓練建議9:應對AI發展的成長期,加強AI結果丟失等重大影響,預計未來全球數據中心系統韌性,提升CKPT恢復效率,保障業務AI訓練相關損失可達上干萬美金/天。高可用。preview數據資產化引發勒索手法更多樣化,從勒素加密走向數據竊取for數據已成為企業核心資產,部分高價值數出信息,推測構造出與目標模型等效的替代模據甚至可以直接交易。這促使勒索形式從單一型,甚至直接盜取AI模型成果。對受害者而加密勒索,轉向多重勒索獲利。2023年多數言,數據泄露也許比數據被加密帶來的損失更勒索機構采用了“雙重勒索”,首先加密受害大。例如,2023
46、年3月,Meta語言大模型者數據,索要巨額贖金,然后竊取這些數據,遭泄露,隨后被迫宣布開源。將被盜數據放到暗網售賣,再次獲利。建議10:守護高價值數據資產,數據“快在針對AI高價值數據的攻擊中,攻擊者速恢復+防竊取”是企業必不可少的雙保險會錨定AI模型數據,通過查詢、分析輸入輸preview數據投毒隱蔽性強,小毒性即可造成大災難Ilyfor高質量的數據語料是AI的食糧,但頻發疾病診斷錯誤,嚴重危及患者性命。的數據投毒正在摧毀AI模型:攻擊者將中毒樣本添加到模型的訓練數據集中,擾亂數據分那么,數據投毒成功需要多大的投入呢?析模型正常運行,從而破壞模型的可用性。通墨爾本大學和臉書AI實驗室發表的一
47、篇論文中提到:只需要占比0.006%的惡意樣本,常AI訓練中毒效發作慢,中毒后的企業往往就可以有50%的概率完成數據投毒攻擊。后知后覺,帶來巨大的經濟損失和社會影響。例如,在自動駕駛領域,可能導致車輛產生錯建議11:數據投毒代價小卻影響大,嚴誤的安全駕駛決策,如無法識別障礙物或紅綠格做好數據語料的“消毒”,護航健康完整的fO燈,從而釀成嚴重的交通事故;在智慧醫療診AI系統。斷領域,可能會造成醫療圖像分析失誤,或者Only03Al-Ready的數據基礎設施的特征與參考架構OnlyreviewOnl10Al-Ready的數據基礎設施定義與特征Al-Ready的數據基礎設施三大應用場U景及參考架構智
48、算中心場景Only云和互聯網場景邊緣訓推場景26Al-Ready的數據基礎設施參考架構白皮書Al-Ready數據基礎設施,需要構建數據擁有同位置的數據進行歸集,實現數據可視可者對大規模數據進行歸集和預處理的能力:管可用,讓AI算力高效訪問數據。多源分散數據匯集:基于統一命名空間數據預處理:提供一個數據預處理框架,orev對數據資產進行可視化管理,并能夠采用簡化用戶對數據進行清洗、轉換和標準化基于策略的方式對不同來源或者分散在不的過程,為訓練提供高質量數據集。高性能和強一致在大模型訓練階段,有兩個過程與數據基遭遇各種故障后,需要讀取最近的礎設施緊密關聯:訓練數據集加載和CheckpointN以恢
49、復訓練,但部分方案(如Checkpoint 讀寫。這兩個過程已經成為影響分布式緩存)無法做到Checkpoint數據的強算力可用度的關鍵。今天,萬卡集群正在向十一致,導致算力集群不得不往前回溯至最新完萬卡集群推進,針對上述兩個過程,性能需求整可用的CheckpointN-x以恢復訓練(xA-Ready的數據基礎設施的特征持續增加:大于等于 1)。這直接導致 CheckpointN-x與參考架構之后的訓練全部作廢,造成巨大浪費。訓練數據集加載過程,以海量小文件訪問為主,性能密度需要達到百萬級OPS/讓算力等待數據的加載或者恢復,降低了PB存儲容量,以最小化加載時長。AI集群可用度,這是對資源的極
50、大浪費。有IAl-Ready的數據基礎設施定義與特征研究分析表明,合理提升存儲性能(而不僅僅。Checkpoint讀寫過程,是帶寬型場景,在大模型時代,算力通過堆疊的方式快速對容量進行匹配),可大幅縮減訓練數據集加Al-Ready的數據基礎設施是指專為人工性能密度需要達到TB級帶寬/PB存儲載過程和Checkpoint讀寫導致的算力等待智能應用和服務設計的數據存儲軟件和硬件系擴展,計算的規模并發度持續增長,這進一步容量,將算力集群故障恢復耗時縮至最統,它能夠支持大規模數據歸集和預處理、高讓集群可用度增加約10個百分點,提升幅度要求越來越多的數據需要被及時輸入算力集短近20%。性能和強一致性、超
51、強韌性、內生數據安全等群,以加速深度學習過程、提升大模型能力。特征,從而可以有效支撐AI算力集群對數據總體而言,數據基礎設施要做到Al-Ready,性能密度不能僅僅在小容量場景下達成,采用合理配置的高性能和強一致數據基礎進行分析和學習。需要在如下多個維度做好準備。也應該在容量較大時達成(例如數十甚至上百設施,實際可用算力的FLOPS絕對值得以提forprevPB),以匹配越來越大的算力集群的性能需升。為了獲得相同的實際可用算力FLOPS絕大規模數據歸集和預處理求。這要求數據基礎設施具備較強的橫向擴展對值提升,也可以采用繼續堆疊算力的方式來能力,一方面做到在線不中斷業務擴展,另一獲得。對比這兩種
52、方式,前者的投資不到后者較多企業的數據分散在多個不同的數據中少數據,但一般不關心是什么數據。于是企業方面做到性能與容量近似于線性增長。的1/2,更加經濟高效綠色。心,或者同一個數據中心的不同存儲上。業務通常缺少統一視圖對分散的數據進行管理,更除性能外,算力集群寫入存儲的運維人員知道自己有什么數據,但并不關心數不用提高效地將這些數據歸集起來、并進行有Checkpoint強一致同樣十分關鍵。算力集群據在哪里;IT運維人員知道什么地方保存了多效預處理,以供AI算力訓練使用。2827A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書超強韌性IAl-Ready的數據
53、基礎設施三大應用場景及參考架構數據基礎設施承載了智算中心最重要的訓是經過數月訓練所得,如果出現丟失或者損中心AI集群規模已邁入萬卡、十萬卡時A/-Ready的數據基礎設施參考架構以及解決練數據,且算力集群每隔一段時間寫入一次壞,其損失不言而喻。代,同時邊緣AI大模型也加速向行業滲透,方案,幫助企業客戶構建安全、可靠、開放的Checkpoint數據。兩次相鄰Checkpoint之為使能行業智能化升級與創新,華為提出AI數據基礎設施。高成本的訓練數據、歷史訓練的間的間隔正在逐漸縮短,正由小時級向分鐘級Checkpoint、高價值的Al大模型結果,均是演進。數據基礎設施的穩定可靠,直接決定了forp
54、re中心訓練場景邊緣訓推場景智算用戶關鍵且寶貴的數據資產,必須被有效智算中心的高可用。國內某智算中心做過計保護。因此,智算中心數據基礎設施至少應該算,如果業務停工一天,直接損失接近200A數據湖解決方案高性能開放式存儲硬件底座邊緣訓推一體化解決方案提供不低于6個9的高可用性,確保算力集萬元。AI開發平臺AI開發平臺AI開發、大模型群服務持續在線。另外,數據基礎設施也需要算力、網絡等設施算力、網絡等設施除原始訓練數據和訓練過程中產生的提供多種跨數據中心的高可用方案,進一步提算力自研/開源并行文件系統管理Checkpoint數據外,算力集群輸出的訓練模升高可用性至7個9甚至更高,供有需要的AI數據
55、湖網絡用戶進行選擇。高性能開放式存儲硬件底座型被保存到位于數據基礎設施上的模型倉庫中存儲用于模型微調。最終得到的AI大模型結果,EB級按需擴展,加速AI全流程無縫對接文件系統,TCO省30%一站式交付,開箱即用內生數據安全forprey圖3-1AI-Ready的數據基礎設施三大應用場景及參考架構數據基礎設施的超強韌性,保障數據持續本只讀留存。一旦發現當前數據存在邏輯在線可用,且不因物理故障導致丟失或者損錯誤,可立即恢復到最近的可用副本,確智算中心場景壞。除了設備層級的韌性,內生數據安全對于保業務連續。數據基礎設施同樣重要,從邏輯安全的角度對AI的發展推動了數據覺醒,越來越多的IOPS。數據進行
56、保護,應對“身體健康、精神紊亂”數據備份,確保數據具有可供恢復的獨立企業正在利用AI技術挖掘海量數據的價值。物理副本,同樣在時間維度保存多份。的異常場景:面向中心訓練的智算中心場景,該場景多是由挑戰2:不同業務系統“煙式”建設形政府、運營商、大企業等建設的采用干卡萬成一個個數據孤島,AI調度平臺復雜度呈指勒索檢測,對數據異常進行實時檢測,確存儲軟件安全,遵從相關法規條例要求保異常發生后第一時間可以觸發應對措卡的大規模AI算力基礎設施,多用于基礎和數增長,萬卡集群同步一致訪問和AI訓練開構建安全研發能力,不依賴于開源軟件構forpre發并發調試困難。此時就需要統一命名空間、施,避免損失或者將損失
57、最小化。行業大模型訓推。智算中心不光算力集群規模筑存儲基礎能力和關鍵能力;對全量軟件為萬卡集群數據強一致同步訪問。較大,對存儲基礎設施的容量和性能要求也更進行可信的生命周期維護,確保數據基礎加密儲存和安全銷毀,最小化關鍵敏感苛刻:設施供應商對每一行代碼負責。挑戰3:Sora出現,標志著Al大模型從數據泄露帶來的不可估量的損失。NLP走向多模態,數據快速膨脹,面向多模挑戰1:為應對AI訓練集群從萬卡到十萬持續數據保護,借助I/O級日志或者高密態,萬億參數大模型,AI存儲的數據量從PB卡,可用算力無法線性增長的挑戰,智算中心快照的形式,對數據在時間維度進行多副級到EB級,實現1000倍增長。大規模
58、算力集群需要10TB級聚合帶寬,億級29A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書30成統一命名空間,實現近乎無限的擴展與智能的本質是從海量數據中提煉智慧。因此,文件、對象等多種協議。通過對不同價值數據AI數據湖解決方案海量的數據規模管理,這些集群可以都在AI數據湖的存儲底座需要具備從PB級到EB的自動搬遷,將冷熱數據存放到合適的存儲空萬卡GPU/NPU大集群本地,或分布在不同地域的數據中心。級的擴展能力,并提供更經濟的數據分級存儲間中,很好的解決了上述問題。因此,熱溫冷方案,包括性能層和容量層。數據智能分級是AI數據湖存儲必備的能力。多協議融合互
59、通:支持NFS,SMB,S3和HDFS多協議互通訪問數據,在底層EB級彈性橫向擴展能力:AI數據湖存儲(3)關鍵特征3:數控分離架構全局統一命名空間將元數據和數據實體抽象為元素,根據用forpre底座采用全對稱分布式架構,支持通過橫向擴展硬件節點來線性增加整系統容量與性能,無研究表明,GPU/NPU計算之前的數據戶發起的協議要求,將數據元素組合起來性能層性能屋智能分級提供服務,通過統一的存儲架構,使文件、需進行復雜的資源需求規劃;系統可輕松擴展處理階段消耗了70%的大模型訓推時間。因三此,為了充分利用集群算力,需要更加強大的EB級容量擴展對象等多種協議存儲可以更加緊密地協同至數干節點及EB級容
60、量,滿足多模態大模型工作,實現數據的共享和傳輸。隨著智算網絡和存儲系統。存儲集群性能是提升集群可訓推業務規模增長需求。存儲系統內置自動負中心、超算中心等場景對于存儲的容量高用度的關鍵。圖3-2A/智算中心參考架構載均衡策略,數據與元數據均勻分布于各節效率利用和訪問靈活性的需求,協議融合為了進一步提升存儲性能,從數控融合架因此,我們建議采用統一的AI數據湖解存儲已成為發展趨勢。場景下的系統性能,滿足大模型PB到EB級構轉向數控分離架構,可以顯著降低數據訪問決方案,為智算中心提供EB級數據高效管理容量擴展。時延。傳統的數控融合架構依賴高性能能力。該方案基于統一命名空間、智能分級、跨域數據共享與流動
61、:跨地域多數據中心orpreCPU,數據流和控制流嚴重耦合,數據的讀數控分離和內生安全等關鍵技術,提供強一致之間的全局統一存儲,可以實現全局存儲智能分級:對于復雜的大模型業務來說,取和寫入都需要經過CPU,使CPU成為系性訪問,大幅提升AI集群可用度,加速AI全資源抽象,形成數據統一視圖,一方面使海量的業務訓推數據并不都具備相同的使用價統性能的關鍵瓶,難以滿足大規模AI集群的流程。該方案應該具備如下特征:數據在不同數據中心之間的流動和同步更值,隨著時間的推移,熱數據被頻繁訪問,而性能需求。同時算力和特性擴展不夠靈活。而加透明,確保了數據的一致性和高可用溫冷數據如早期保存的Checkpoint和
62、歷史模(1)關鍵特征1:統一命名空間性。另一方面,可以通過負載均衡策略,型參數則很少被訪問。經過科學的統計和分創新的數控分離架構使CPU僅需處理控制使得應用程序可以就近訪問數據中心,降析,發現數據信息的使用價值是有其生命周期流,避免成為關鍵瓶頸,并能借助DPU實現統一命名空間是指一個可大規模共享訪規律可循的。新生成的信息通常會經常被訪專用的數據處理流程,相比傳統的數控融合架低訪問延遲。上層智算應用可以在不同數問,彈性擴展的高性能文件系統可以為用戶提據中心之間無縫地訪問和操作數據,而無問,使用價值高。但隨著時間的推移,這些新構,數據流能夠ByPass掉CPU和內存,構供統一的元數據管理,可以實現
63、全局存儲資源生信息的使用頻率不斷下降,直到多年不被訪建極簡的快速數據訪問路徑,實現元數據和數需擔心數據存放的物理位置,為實現跨域抽象,多個應用或用戶共享和訪問同一份數據的分布式并行訓練奠定數據基礎,也使得據直通,數據讀寫直通到盤。數據訪問時延從問。其使用價值也將逐年較低。大量低使用價的能力。統一命名空間有以下技術特征:forpre100微秒縮短到10微秒,系統性能提高了10大模型訓練不再受到單個智算中心存儲容值數據既占用了高性能、高可靠的寶貴系統資倍。此外,還支持算力的Scale-up彈性擴展量和算力的限制,實現跨地域多中心并行統一元數據管理:數據規模從PB級到源、嚴重影響性能,同時也占用了大
64、量存儲空能力,實現了加卡即加算力和加功能。EB級,海量數據的管理是高性能存儲的訓練。間。難題,對象、文件等非結構化數據存儲要(4)關鍵特征4:一站式知識生成(2)關鍵特征2:EB級擴展以及智能分級數據自動分級存儲技術具備這些技術特素采用統一元數據管理,對外則提供標準征:允許在一個存儲池內使用不同類型的存儲的訪問接口實現非結構化數據的訪問。在大模型訓練依賴于海量的高質量數據,通從sunoai、Sora等爆炸式發展的多模態介質劃分不同的硬盤池,可以靈活的兼容塊、單一集群或多個集群的統一元數據管理組常來自CommonCrawl數據集、WebText2應用來看,大模型依賴的數據量越來越多,其31Al-
65、Ready的數據基礎設施參考架構白皮書A/-Ready的數據基礎設施參考架構白皮書32Books1、Books2以及英文版Wikipedia等。高質量的問答對對于提升模型效果至關重要。礎設施的納管、部署、配置、監控、預測、優AI服務運營管理:智算中心一般基于多租這些數據主要包括網頁、書籍、對話文本等類然而,人工生成問答對的效率很低,而基于大化能力。戶模式構建,應提供統一認證、組織和用戶管型,但是數據中存在大量虛假,暴力以及機器型模型的自動生成問答對語料存在輸出質量不理、資源和網絡隔離、配額控制、租戶自服務、生成的垃圾數據。這就要求在做大模型訓練前穩定的問題。為了解決這些挑戰,我們需要考AI數據
66、管理:數據準備是AI模型訓練中計量計費、運營報表等能力。最為繁瑣的步驟,AI管理運維平臺應具備數據整理成高質量的數據,這常常需要花費幾個月慮采用類似 Self-QA和Self-Instruct的技歸集、元數據增強、敏感數據識別、快速檢索(6)關鍵特征6:存儲內生安全的時間,費時費力。典型的數據處理過程包含術方案進行強化。Self-QA的關鍵在于設計forprev合適的提示(prompts),引導模型提出問題和統計、數據流轉、和數據安全保護能力。各種格式數據加載,數據清洗,數據合規處理,數據存儲以數據為中心,從數據內生安全知識生成等步驟。這些處理步驟必不可少,我并給出答案。Self-Instru
67、ct 技術方案的核心AI訓練作業管理:在AI模型訓練過程出發,構筑數據全生命周期的安全能力。整個們推薦使用一站式數據處理工具來完成,該工在于利用預訓練語言模型的自舉能力,通過迭中,平臺應具備作業調度、作業監控、故障定存儲系統的安全分為存儲系統安全、數據安全具需要具備以下關鍵能力和技術:代過程,從一個小型的人工編寫的種子指令集界、故障恢復能力。和安全管理三個部分。其中尤其需要企業關注開始,引導模型生成新的指令和相應的輸入輸并加強建設的是數據安全中的防勒索設計,數據加載:原始數據以txt,pdf,Word,出樣本。通過這兩種技術方法,可以在保持生AI推理應用管理:完成AI模型訓練后,WARC/WE
68、T等格式存放,數據處理工具需般需要通過四層防護體系構建數據安全最后一成效率的同時,進一步提升問答對的質量,為道防線。要支持從不同格式文件中加載文件,并且準確模型精調提供高質量的數據支持。應提供模型管理、應用市場、應用部署、推理有效的讀取文檔中的數據,包括PDF文件中調度能力。的掃描件。知識生成:在RAG應用的落地中,知識庫作為關鍵一個關鍵的數據基礎非常重要,知數據清洗:對數據進行重新審查和校驗的識生成方面有數據切片、知識向量化、表格支生產區隔離區過程,通過異常清洗、文本過濾、文本去重等持等多種需求,在技術上也需要文本檢測、表數據管理引擎動作,大幅提升數據質量。常見的數據清洗動格識別等技術。通過
69、這些技術,可以將非結作如下:移除不可見字符、規范化空格、去除異常事件上報響應策略下達構化的數據轉換為結構化的格式,進而進行知三數據安全一體機亂碼、繁體轉簡體、去除網頁標識符、去除表識向量化,將文本數據表示為數值向量,以便情符、檢查文檔的詞重復率等于在RAG系統中進行高效的信息檢索和生Storage resourcesX成。檢測&分析|防算改|加密|.生產存儲數據合規處理:面向大模型的爆發,各國0234紛紛推出法規規范大模型行為,如歐盟推出全(5)關鍵特征5:AI全棧管理X球首部全面監管AI歐盟版人工智能法案forprey生產存儲生產存儲備份存儲備份存儲中國信安標委發布生成式人工智能服務管理智算
70、中心的管理運維平臺,應圍繞AI工存儲安全防護暫行辦法,明確提出大模型訓練的數據在隱作流的整個生命周期,構建從環境建設和運存儲檢測安全快照備份保護隔離區保護私,安全,可追溯性等維度的要求。為了滿足維、數據準備、模型訓練、應用部署的全流程法規要求,需要剔除不滿足的數據,在技術上管理能力,主要包含如下幾方面:圖3-3存儲4層防勒索架構設計一般需要數據分類、數據過濾等技術。AI基礎設施管理:對于智算中心的環境建高質量語料生成:在模型精調的過程中,設和運維,AI管理運維平臺應具備AI全?;?3Al-Ready的數據基礎設施參考架構白皮書A/-Ready的數據基礎設施參考架構白皮書34第一層,通過基于1/
71、O行為異常分析、文據改不掉。第三層,本地備份提供“干凈”有構的云存儲單節點僅能提供2GBpS到從小規模起步到超大規模實施的完整能力。件值變化趨勢等多種偵測分析技術全生命周效的副本用于快速恢復,守護數據不丟失。第10GBps 的讀寫性能,為了達成萬卡集群的性期檢測并且攔截勒索病毒,讓病毒進不來。第四層,AirGap隔離區數據離線保護,使病毒綜上,作為面向云與互聯網行業的二層,生產存儲通過安全快照秒級恢復保護數多達128機柜設備。龐大的建設規模帶來采A/-Ready的數據基礎設施,基于開源并行文看不見,攻擊不到。件系統的高性能存儲底座解決方案能夠很好的購成本、空間、耗電等的巨大壓力。面向云與互聯網
72、行業的Al-Ready的數據基礎設施,解決上述挑戰,已經成為業界常用的實施方云和互聯網場景應當在有限的空間內提供超高的單節點帶寬,案,將幫助整個系統達到更高的可用度指標、提供更快的TTM與更優的TCO。云與互聯網公司是當今世界AI前沿探索的增幅高速增長。支持集群以BuildingBlock方式擴展以獲得的主導力量,自研/開源并行文件系統+高性這個復雜系統中的任意部件失效,不僅會能存儲硬件底座是其主要架構,也是AI基礎影響自己的工作,還會拖慢數萬個GPU的整PyTorchTensorFlowNVIDIAMindSpore架構的主要投資方與建設者。利用數萬個GPU構建大型人工智能集群以訓練LLM已
73、體作業效率,影響算法收斂速度,進而影響產AI訓練集群經成為行業入門標準。但當GPU集群達到萬品的上市時間。因此,當前業界研究的一個熱卡規模,將給數據基礎設施帶來前所未有的挑點方向就是解決模型的識別與延遲問題,其中如何避免部件失效,縮短故障恢復時間顯得至參數面網絡存儲面網絡戰。關重要。業界實踐表明,在大模型訓練中,最挑戰1:如何支撐AI集群提升大規模至容易損壞的部件包括內存、網絡端口和硬盤。超大規模下的訓練效率。一個適合于云與互聯網企業的Al-Ready的數據基礎設施,需要提供海量硬盤的狀態檢大語言模型訓練需要將模型數據集盡量均測、支持多盤同時損壞的高度幾余保護、硬盤自研/開源并行文件系統Lus
74、tre GPFSYRCloudFile JuiceFS分在多個GPU上,在訓練過程中,GPU之失效預警與數據預拷貝,提升數據的可用性從 間通過超大帶寬通信推動進展。如下圖所示:而幫助集群實現穩定訓練。Al-Ready的數據基礎設施應具備全局負挑戰3:以相對低成本實現業務的快速擴載均衡、端到端NVMe連接、動態數據自適展。Al-ready存儲集群應布局等關鍵技術能力以實現超高吞吐量,幫助客戶快速進行加載/檢查點等數據操作。云與互聯網企業的解決方案不僅需要以低圖3-4云和互聯網場景A/集群參考架構forprey成本、高擴展性實現方案的快速復制,并且普挑戰2:如何在超大規模上實現訓練的高遍希望復用現
75、有的架構與人員。因此,需要關鍵特征一:高帶寬性能,單設備可提供數十存儲系統應保障每個主機讀寫請求均衡的穩定性。到百GB讀寫帶寬,提升510%集群可用在各個控制器間被分散處理,并均勻的落在系Al-Ready的數據基礎設施能夠支持開源生度。統內的硬盤單元上。通過主機多路徑軟件與控態。云與互聯網企業的AI集群動擁有數以制器配合,協商相同的HASH計算方法和參干計的AI服務器,數以萬計的GPU卡、內關鍵技術1:全局負載均衡。一個萬卡集群的聚合讀吞吐量達到數,可實現讀寫請求的均衡分發,充分發揮多存條、網卡、網絡端口和硬盤,并以每年數倍1.4TBps,寫吞吐量達到1TBps,而傳統架控制器系統算力。363
76、5A/-Ready的數據基礎設施參考架構白皮書A/-Ready的數據基礎設施參考架構白皮書關鍵技術2:端到端NVMe連接及時上報健康狀態,并進行對應的處理。量硬盤,更薄的厚度,使得有限空間內可以容納下更多盤位。單U容量可達到500T以上,可在有限的空間內提供超大容量。AI的網速是所有局域網中最高的,當前已關鍵技術4:高度穴余保護經達到200G/400G單端口能力,業界領先廠在主機訪問陣列的整個路徑,存儲系統可邊緣訓推場景商正在向800G/1.6T邁進。從主機到存儲協議層采用NVMe直通,可以充分發揮網絡帶提供多重幾余保護能力。即在控制板、存儲介企業應用AI改造概述關知識,生成有參考信息的回答,
77、從而提高推質、I/O經過的接口模塊或鏈路出現單點故障,forprev寬,縮短時延。理結果的可信度。都能通過幾余部件和和容錯措施保證業務不中大模型從圖片生成、視頻生成、短文創作NVMe協議相比SCSI協議可以減少斷,主要的余保護包含接口模塊鏈路幾余等消費社交領域發育成熟,同時大模型在理解O檢素增強生成(RAG,Retrieval-Augmented Generation)40%的主機網絡協議棧開銷,節約主機CPU保護、控制器幾余保護、存儲介質穴余保護。和生成語言方面表現出驚人的能力,比如大型文檔消耗,同等性能情況下支持更多的主機應用。語言模型(LLMs)打破了人類與機器的交互關鍵技術5:硬盤預失
78、效通過NVMe協議,CPU和SSD盤可直接通瓶頸。以銀行、制造、醫療等為代表的行業企生成知識庫信,縮短傳輸路徑,協議的并發數提升到業,擁有海量高價值數據資源和豐富的應用場通過采集硬盤的Smart信息、硬盤的/O64K;協議交互次數從4次減少為2次,讀寫景,具備大模型深度技術應用的條件;企業期鏈路信息、硬盤可靠性指標,輸入到數百個硬翰入向量檢素請求處理效率提升1倍以上。望能夠將現有生產系統、營銷系統、研發系統盤失效預測模型里進行預測,當系統檢測到硬LLM盤即將失效時,自動執行告警,通知客戶更換及財經系統等企業應用進行AI改造,帶來革微調數據集關鍵特征二:提供99.99%的單機可靠性、forpre
79、硬盤,并將即將失效的硬盤中的數據拷貝到其命性的效率和創新能力的提升。以銀行為例,輸入99.999%的集群可靠性,消除硬盤帶來的訓知識管理、智能營銷、應用開發等應用AI改大模型微調(Fine-Tuning)生成他健康的硬盤中,避免硬盤失效造成數據不可練中斷/暫停風險。造已經進入試點階段;同時,由于模型的輸出用。圖3-5檢索增強生成RAG技術架構結果仍然存在不穩定性,投研分析、策略制定、關鍵技術3:海量硬盤狀態檢測關鍵特征三:生態友好,極低TCO,風險防控等關鍵業務領域,仍然需要人工參與場景關鍵需求亞健康,也稱FailsloW,是指對應硬內容審核。關鍵技術6:開放架構件可以正常運行但性能低于預期的
80、一種狀態。企業應用AI改造過程包括開發環境準企業應用AI改造存在多種方案,一般導致亞健康的原因非常多,包含但不限于備、模型部署、數據開發、模型微調、A應可無縫對接CUDA、MindSpore等多種FirmwareBug、硬件自身設計缺陷、溫度、包括上下文優化、增強型檢索(RAG用開發、應用部署等流程,涉及到IT運維人員、主流Al運算平臺,同時可支持Lustre、Retrieval-AugmentedGeneration)模型環境(如震動)、配置錯誤等。一旦某硬件進環境準備人員、數據工程師、算法科學家、應GPFS、BeeGFS等并行文件系統。forprev微調、模型增量預訓練、模型重訓練等幾種方
81、入到亞健康狀態,如果存儲系統未采取有效監用開發工程師等角色。當前各關鍵角色需求包式。從建設成本和應用效果考慮,企業應用控和容錯,則極有可能會導致存儲系統響應主關鍵技術7:高密設計括:AI改造方案逐漸收斂到RAG,結合部分場景機的時延增大、IOPSIBPS降低,甚至導致通過領先的整機散熱能力,支撐空間密度模型微調,解決結果時效性低、推理精度不可。IT運維人員:為數據處理、微調、應用開無法響應主機,進而導致主機業務中斷。最高的設計,通過創新的水平背板正交連接結控、交互模式單一等局限性。增強型檢索發等多個過程提供計算和存儲資源,運維海量硬盤狀態檢測可持續對整個環境中存構,硬盤連接器和控制器連接器正交
82、連接,無(RAG)是一種用來降低大模型幻覺的技術,管理簡單易用。儲設備上的多達數十萬片硬盤進行狀態監控干涉,提升硬盤連接器密度,再配合高密大容通過大模型在生成結果時從數據庫中檢索出相數據工程師:可編排的數據處理工具鏈,3837A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書使用數據歸集、清洗、增強、知識生成等參考和關鍵特征關鍵技術替換,從框架防止架構腐化,便于擴展算子高效的數據處理面向企業應用AI改造的邊緣訓推場景方多語言實現:跨語言跨端服務化標準,同。應用開發工程師:靈活、易用的應用開發案,應提供包含安裝部署、數據處理、模型微一種服務多種語言實現,多端
83、部署,協同邊緣訓推場景涉及到多種數據處理、模型平臺,快速開發和調試高準確度的RAG調、AI應用開發和運維優化能力,掃清大模共同提供服務型在企業落地最后一公里障礙。微調、應用開發和應用部署負載,由于任務存應用在GPU/NPU獨占算力釋放不及時、算力資流性編排:以可視化的方式編排調度服源無法細粒度隔離算力浪費、缺少搶占機制推務,自動生成業務流,利于公共組件服安裝部署數據處理模型微調AI應用開發運維優化理算力不夠用等問題。通過算力池化,實現務共享和重用GPU/NPU資源的分時復用和優先級搶占等,組合式全棧模型推理為主-一體化全棧結合知識庫,RAG消除幻覺3.高精度模塊化RAG提升算力利用率。算力高效
84、池化相關的關鍵技大模型開源軟件商用大模型開源大模型術為:多種工具,分散管理一RAG通過知識增強大模型生成提升推理一站式開發框架,靈活使用開放算子2AI開發平臺(資源控制顆粒度:按照1%算力和1MB結果精度,在實際應用過程發現,RAG應用多管理平臺計算算力固定分配,數據本地存儲-編排過程體軟件架構高度耦合、編排過程復調度的細粒度對GPU資源進行切分。算力和存儲共享,高效復用任務調度資源管理雜,難以靈活應對業務場景的自定義優化需網絡資源池多管理運維平臺-:遠程訪問GPU:通過gRPC、bRPC等求,同時推理結果精度受限于知識檢索進度、容器虛機XPU資源池forprey容器存儲遠程訪問方式,實現跨節
85、點算力訪問。優化難度大。通過模塊化RAG,可以通過調多產品組合,上線后調優-用功能模塊、應用算子方式開發RAG應用,開箱即用,存算網協同優化計算網絡存儲機柜/UPS/電源本地訪問GPU:基于共享內存機制,避免機柜/UPS/電源提供更多多樣性和靈活性,并可通過上下文替數據在CPU和GPU之間的傳輸開銷。換和模塊重組等方式優化推理精度。模塊化RAG關鍵技術包括:圖3-6邊緣訓推場景AI方案參考架構2.開放式編排框架請求優化:請求重寫擴充、關鍵詞提取在數據處理、應用開發過程中,涉及到海邊緣訓推方案架構包含如下特征:化、共享存儲等方式進行共享,為各類負量數據處理算子和應用算子,由于開發語言多等方式實現
86、查詢請求與知識庫語義的對齊載提供統一的資源池,提升利用率和可靠。模型融合:改變以模型推理為主的方式,樣、算子處理能力不同、接口方式不同導致開性檢索精度優化:通過混合搜索、遞歸式搜使用RAG方式,結合知識庫增強模型結發過程復雜。通過開放式編排框架,能夠通過forprey索、LLM增強的表征與排序技術,提升果準確性、消除幻覺管理融合:軟硬件統一管理、統一運維,聲明式和編排式構建、靈活的服務調度編排,檢索精度;支持全棧優化幫助用戶打造業務邏輯可編排、實現可動態替開發融合:使用一站式開發框架,結合開換的樂高式演進系統。開放式編排框架具備以檢索后優化:通過檢索結果重排序、上下放算子進行數據處理、應用開發
87、,避免多。存算網協同:支持開箱即用能力,存算網下關鍵能力:文壓縮等方式,突出關鍵語義,減少上下種工具、分散管理的開發模式針對訓推進行協同預優化,軟硬件預安裝文長度,提高RAG性能插件式開發能力:以插件作為最小原子單資源融合:算力、存儲通過調度、算力池元,功能解耦,獨立開發、發布、多態可04MOIAOAl-Ready的數據基礎設施實踐案例2210.95960Only149.1623.26科大訊飛x華為OceanStor存儲,加preview18.921.41%速A/全流程業務D銀行x華為OceanStor存儲,用Al賦能智慧金融業務T云x華為OceanDisk存儲,構筑領先智算中心云底座Only
88、紫東太初x華為FusionCube訓推一體機,加速智能客服場景創新與實踐42Al-Ready的數據基礎設施參考架構白皮書為1億千億,科大訊飛開始使用外置存儲。斷點續訓恢復速度提升15倍:集群提供現網外置存儲可靠性不足、故障域小,故障影TB級大帶寬,縮短Checkpoint讀寫耗響損失160萬元/天,客戶只能將50PB存儲時,斷點續訓恢復時長從15min縮短到切分為20多個2PB集群,形成數據煙窗。1min,速度提升15倍,集群可用度提升AI訓練過程中需要從多個存儲集群拷貝數據,20%。Al-Ready的數據基礎設施實踐案例數據效率低。同時多個集群并未提供更優的聚orpre:存儲集群安全可靠:華
89、為OceanStorAl合性能,導致模型加載和斷點續訓存儲單集群管理面合一,數據面分離,通Checkpoint讀寫耗時久,千卡以上集群平均I科大訊飛x華為OceanStor存儲,加速Al全流程業務過數據面隔離避免AI集群故障擴散;同每天故障1次,斷點恢復時間高達15分鐘時通過亞健康管理、大比例EC等進一步+,每次損失幾十萬,集群可用度不足50%??拼笥嶏w是一家專注于智能語音、計算機提升存儲可靠性,單集群可靠性達同的AI大模型解決方案,共同建設國內首個第三階段:科大訊飛最終選擇了華為AI視覺、自然語言處理、認知智能等領域的AI99.999%。支持萬億參數大模型訓練的算力平臺“飛星一數據湖底座作為
90、最優選擇,針對通用AI大模企業,擁有語音及語言國家工程實驗室和認知號”。數據治理成本低,全生命周期管理TCO,型訓練,科大訊飛采用算、存分離架構,計算智能全國重點實驗室。面對業界百模大戰,誰科大訊飛AI訓練推理平臺經過多輪技術降低30%:GFS全局文件系統支持統一側追求更加極致的算力釋放,存儲側部署多套可以快速部署高性能大模型訓練平臺,快速訓選代演進,外置AI數據湖存儲底座為其最優數據湖管理,數據全局可視、可管,高效練上線,誰就能先一步搶占市場有利位置。為華為OceanStorAl存儲,提供可靠高效的幾選擇流動,跨域調度效率提升3倍。無損多協此科大訊飛與華為聯合打造存、算、網全棧協forpre
91、十PB可得容量,最終實現如下效果:議互通免除數據孤島,數據零拷貝,端到端加速AI模型開發。階段一:服務器本地盤+開源分布階段二:外置存儲階段三:AI數據湖式存儲軟件+對象存儲)(2018-2019)(2019-2022)(2023-)IID銀行華為OceanStor存儲,用Al賦能智慧金融業務預處理服務器訓練服務器推理服務部預處理服務器推理服務器預處理服務器推理服務器都不再能滿足大數據分析和AI模型的運行要高性能層存儲容量型存儲(對象存儲)求,以下問題驅需解決:原始數據目D銀行是亞洲領先的銀行之一,專注于利圖片見頻(拷貝八拷貝八拷貝)(原對數氧屋存微據)用數字技術重塑銀行業,為客戶提供全面的個
92、:性能瓶頸:高IOPS峰值時段多次觸發存語音/OCR等中小模型,型,參數量:幾千單模態大模型,參數量:1億-千億人銀行、財富管理及機構銀行服務。儲故障,嚴重影響了業務的正常運行。圖4-1科大訊飛A/基礎設施演進過程挑戰可靠性低:原有存儲系統基于開源開發,單站點故障,業務中斷,且不具備多站點第一階段:數據規模較小,主要涉及語音的困擾。同時,RAID機制支持盤級幾余,但D銀行提出用Al-Powered 的戰略方針,多活的能力。IOCR等中小模型,參數量為幾干1億。每不能跨節點余,存儲可靠性面臨嚴重挑戰。旨在基于現有大數據平臺的基礎上,增加AI次訓練先把數據從對象存儲拉到本地盤,TB模型部署,隨著數
93、據量和AI場景化模型的激方案:高性能、高可靠的專業存儲,構建第二階段:發展到單模態大模型,參數量級數據準備需要小時級,面臨數據準備時間長增,原有的對象存儲底座無論可靠性還是性能D銀行的AI應用基石43Al-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書44AI驅動的實時數字欺詐預防,10毫秒內即可標記潛在的欺詐性交易。,貸款流程大幅縮短,已實現到一分鐘申請,一秒鐘批準客戶體驗智能客服反洗錢風險管理智慧理財大數據計算集群AI集群IT云x華為OceanDisk存儲,構筑領先智算中心云底座數據獲取數據訪問數據發現數據分析模型開發模型部署forprevi計算實例大數
94、據容器計算實例深度學習Spark?NVIDIAGPU+IB訓練TensorFlow客戶介紹分鐘,GPU等待導致算力利用率低,函需提Xc實例chopeunHEHSEINTELCPU+IB訓練CUDA升存儲帶寬能力。T是中國領先的運營商云,聚焦大模型訓非結構化訓推數據練場景打造智算平臺,為ChatGPT類大模型2.盤故障導致業務不穩定(T1)Data Cleaning訓練提供高性能計算、存儲、網絡等云服務。(T2)DataModels(T3)DataMarts(T4)AIData lake本地盤故障無法預測:開源文件系統盤管AI存儲File|S3|HDFS挑戰理能力弱,頻繁的突發盤故障導致上層業務
95、經常中斷??蛻艋陂_源Lustre自研并行文件系統,華為高性能分布式存儲OceanStorPacific可以量體裁衣地匹配自身需求,但也對性能與故障后數據重構時間長:本地盤故障后,圖4-2基于華為OceanStor存儲的A/系統架構運維提出了新的挑戰:數據重構時間長達數小時,消耗CPU資源,導致上層業務性能不穩定。1.存儲帶寬不足導致訓練效率低D銀行的AI集群基于Nvidia GPU技術99.9999%高可靠性;方案:華為OceanDisk智能盤框協同棧,軟件棧為CUDA芯片,結合TensorFlow現有存儲帶寬僅10GB/S,導致大模型訓:多協議(NAS/S3/HDFS)All-in-One
96、,自研文件系統,打造可靠、高效的大模型訓練學習框架,支持模型的訓練和部署??蛻暨x擇練過程中,單次Checkpoint讀取時間需10大數據處理和AI訓推各個階段之間無需架構華為分布式存儲OceanPacific系列來替換數據拷貝。原有對象存儲系統,提高性能和可用性。A/智算中心網絡運營創新業務客戶價值話務機器人 費用稽查網絡優化元宇宙 數字人 AI訓練 智慧語音 影視潼染OceanFS提供混合IO的高OPS和高帶寬能力,千億對象的檢索時延從之前的數據模型模型部數據華為高性能、高可靠存儲助力D銀行通預處理訓練署推理歸檔十多秒級別降低至50毫秒級;過800個Al模型賦能350個案例,包括客戶forp
97、rey計算平臺AscendNVIDIA體驗、智能客服、反洗錢、風險管理、智慧理集群內高性能節點和高密大容量節點之間RoCE/IB財等多方面業務模塊。例如,HPFS文件系統通過自動分級策略優化投資,整體TCO索引服務器數據服務器數據服務器降低20%;,呼叫中心使用GenAl進行呼叫轉錄、摘Scale-out支持最大12站點部署容忍兩個站點故要、服務、請求生成和知識庫查找,使平均呼叫處理時間減少20%。障,為大數據和AI平臺提供了OceanDisk1500/1600OceanDisk1500/1600OceanDisk1500/1600圖4-3客戶自研文件系統+華為OceanDisk智能盤框方案4
98、645A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書高性能:全閃存智能盤框,2U空間提供價值高達60GB/s的超高帶寬,領先業界。存儲帶寬性能翻6倍,GPU訓練效率提FusionCube Chatbot高可靠:硬件A-A架構,全面硬盤亞健升10%存儲智能小??倒芾?,全局數據重構,實現專業級存儲FusionCubeA3000文件存儲性能從50OMBps/TiB提升到訓/推超融合一體機99.999%高可靠,保障業務永在線。300MBps/TiB,單次Checkpoint時長forpreyew產線預裝現場部署快速定制高效訓練安全訓推全棧運維生態兼容:Ocea
99、nDisk替代現網服務器從分鐘級縮短到秒級,提升集群可用度紫東工具鏈內置大模型一鍵式微調多機多卡軟件加解密任務級監控集群,無縫對接自研的并行文件系統,可太初軟件預裝低參數調優分布式訓練系統級監控訓練穩定性提升10倍:同時支持NVIDIA和異騰兩大主流計算平工工鍵初始化180萬高臺。企業專屬IOPS:華容硬件輔助硬件級監控通過硬盤亞健康管理,硬盤故障提前14預調測知識庫工具化加解密資源池監控高帶寬天預測;通過全局數據重構技術,1TB數據重構時長由小時級縮短到分鐘級圖4-4基于華為FusionCubeA3000的一站式A/解決方案紫東太初x華為FusionCube訓推一體機,加速智能客服場景華為數
100、據存儲攜手紫東太初大模型,通過價值創新與實踐forprevieFusionCubeA3000訓/推超融合一體機將行答復效率干倍提升:以“智能”取代“人業專有知識庫與大模型能力充分融合,通過產工”,“0”學習成本,具有智能問答、向量客戶介紹。咨詢數量增長快:從存儲知識到配置建議線預裝、現場部署、快速定制、高效訓練、安檢索、智能識圖等功能,實現7x24小時方案定制,包含3大類20小類問題,“存全訓推、全棧運維。推出具備“智能客服”能華為OceanStor存儲在全球擁有12個值班秒級答復,用戶滿意度提升95%。儲小?!眻F隊年處理問題數4萬+,團隊力的數字員工“存儲智能小?!?。研發中心、8000+研發
101、人員,為更好地支持年處理問題數上升超25%答復準確度更高:通過知識庫存儲,實現用戶及時掌握最新華為存儲產品資訊,華為在知識庫實時更新,數據入庫即可查詢,推早期推出了“數據存儲小?!边@一數字化平臺,。問題答復慢,用戶體驗差:一般問題答復理更準確。并配置超百人的團隊在線答疑。時間15分鐘內,復雜問題答復時間2小時內挑戰華為存儲產品及解決方案種類多、包含18大類產品與解決方案,580+子產品特性,技術更選日新月異。隨著用戶的增多,對“存儲小?!钡臉I務咨詢的壓力也與日俱增:05給CIO的行動建議OnlyfororeviewOnlyOnlA/-Ready的數據基礎設施參考架構白皮書50智能化,滿足數據自
102、動標簽、聚合、檢索、呈現,做到真正可用。只有解決跨組織、跨地域、跨推進數據按內容、合規、熱度等維度的全自動應用的數據統一調度問題,為大模型注入源源化分類分級;最后再結合算存網協同配合,讓不斷的數據“燃料”,才能讓企業的大模型更歸集后的數據可以被高效訪問和處理,讓數據好地服務自身業務。建議2:大模型日新月異的發展對算力需求永無止境,企業應該參考業界最佳實踐,從“堆大模型的ScalingLaw法則持續有效,時對性能、可靠性的要求。面向云/互聯網場其技術復雜度正變得越來越高,模型參數量從景,NVIDIA與開源或企業自研的并行文件系千億級到萬億級,集群規模從千卡級到萬卡統共同推進Diskless架構,
103、提供可靠存儲底級,訓練數據集從TB級到EB級。這意味著座,優化工作負載,提升30%+訓練速度。更多的數據要處理、更大參數的大模型、更頻Meta公司的AI萬卡集群存儲方案也選擇自給CIO的行動建議繁的再訓練和調優。不符合要求的 AI 基礎設研分布式文件系統Tectonic+自研外置高性施將會無形中為企業的智能化升級之路帶來額能文件存儲構建高性能數據基礎設施底座。面forpre外成本。向企業訓推場景,NVIDIA聯合伙伴推出生成式AI作為人工智能領域的重大突破,為金融、政府、運營商、教育、醫療等諸多行業帶ProjectHelix超融合架構,為企業提供全棧來前所未有的創新契機。面對這一技術變革,企業
104、都應迅速采取行動,以充分把握生成式AI所帶企業應該參考業界最佳實踐,基于自身業方案,簡化AI應用部署。來的發展機遇,從而在激烈的市場競爭中脫穎而出:務訴求,統籌考慮選擇最優數據基礎設施方案。面向超智算中心場景,NVIDIA與專業存華為提出Al-Ready的數據基礎設施參建議1:數據決定AI智能的高度,企業應該建立統一的數據湖,實現數據資產可視、可管、儲廠商合作,基于標準文件系統+Share考架構,覆蓋企業大模型三種典型的應用場可用,使能數據真正成為生產要素,加速大模型服務落地。Everything存儲架構,共同打造高性能Al訓景,助力企業科學規劃智算底座,從“堆算力”到“挖潛力”,合理配置存儲
105、集群性能,選擇AI大模型以超出人們想象的速度加速帶企業有大量的數據分散在分支機構、生產中心技術建議書中提出,只有Al-Optimized高性能、高可靠的外置存儲,可提升集群可用領我們邁向智能世界,算力、算法、數據構成現場,這些數據種類繁多且可能來自不同地域Storage才能滿足大模型在處理EB級數據量度10%以上。了A/的三要素。算力、算法是AI大模型時代的業務系統、不同合作單位或生態伙伴、甚至的工具,數據的規模和質量才真正決定了AI是不同廠商的公有云或私有云,這就需要構建支持全局文件系統GFS的數據湖底座,實現建議3:大模型時代數據資產更為關鍵,模型文件、訓練數據等核心數據被篡改、竊取、勒索
106、智能的高度。更多的訓練數據是AI模型選代會造成巨大的資源浪費和經濟損失,企業構建全方位的數據保護能力刻不容緩。升級的前提,更好的數據質量也決定著大模型數據資產的可視、可管、可用。具體而言,訓練的效果。因此,企業需要思考怎樣才能用GFS需要實現如下三個能力:首先是數據資大模型誕生于海量數據,這些數據囊括用據安全風險也開始浮現。樣本數據投毒攻擊可好數據,尤其是用好企業專屬的私域高價值數產一張圖,實現跨域、跨站點、跨廠家等復雜戶的個人信息、企業的私域生產數據等敏感信能使得模型產生誤導性結果,嚴重影響決策的據。數據的全局可視、實時更新;其次是數據目錄息。伴隨著大模型技術的迅猛發展,一系列數準確性。模型
107、文件被竊取將導致數億元投資的51A/-Ready的數據基礎設施參考架構白皮書Al-Ready的數據基礎設施參考架構白皮書52成果化為泡影。訓練數據被勒索病毒加密則可解決方案。其中,作為數據的最終載體,存儲文獻能導致大模型被迫中斷訓練,影響企業生產安可提供包括存儲軟硬件系統安全、數據容災與全。備份、防勒索保護以及安全管理在內的一整套內生安全解決方案,為數據構筑最后一道安全1.Bishop,C.M.(2006).模式識別與機器學習,Springer.ISBN企業需要重視大模型的數據資產安全,從防線。978-0-387-31073-2.管理、應用、網絡到存儲,構建全方位的安全forprev2.邁向智
108、能世界產業自皮書2023https:/ Arora:How are Artificial intelligence and Big Data connected?企業需要考慮采用一站式的訓/推超融合一體機快速推出產品,實現大模型的商業兌現。https:/ Drives,Worldwide,2021-2027,2Q23Update業乃至家庭等邊緣場景的應用至關重要,這些的廣泛應用與發展。https:/ consumption and emission mitigation prediction based on生成式AI實現商業正循環的必由之路。一體data center traffic and
109、 PUE for global data centers理運維軟件高度集成并一站式交付,免去大量forpre化方案不僅能夠充分利用私域數據進行高效訓https:/ of data/information created,captured,copied,and consumedworldwidefrom2010to2025https:/ IdentifyAnd Break Down Tech Silos In IThttps:/ Metas GenAl Infrastructure團隊建設等,全面評估生成式AI應用的能力AI大模型的人才培養體系。ai-infrastructurel預備水平。例如,在頂層設計上,企業是否建orprey立了評估和跟蹤開源A/大模型、數據和培訓10.加速行業智能化白皮書模型使用的指導方法,是否研究了業界AI基礎設施最佳實踐案例。在組織架構上,是否設transformation立了相關的數據安全、隱私及倫理的專屬團隊11.人工智能十大發展趨勢等。在人才和團隊建設上,企業應該培養更多http:/