《騰訊云:騰訊云TI平臺的大模型精調解決方案(23頁).pdf》由會員分享,可在線閱讀,更多相關《騰訊云:騰訊云TI平臺的大模型精調解決方案(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊云 TI 平臺的大模型精調解決方案胡哲優圖實驗室高級AI技術專家行業知識、模型訓練穩定性、資源利用率、國產化適配大模型精調全生命周期的方法論與全流程陪跑自研大模型、大規模預訓練、自研加速、國產化適配大模型摘要;大模型問答大模型落地痛點TI 大模型精調解決方案TI精調的核心優勢案例分享大模型在業務場景落地的痛點大規模訓練不穩定大模型訓練需耗費大量GPU 資源且訓練周期長,對訓練平臺的穩定性、故障隔離性、自動容錯性等底座能力,以及斷點續訓能力考驗極大模型欠缺行業知識通用領域大模型百花齊放,但都不具備特定行業的獨有知識,欠缺行業屬性導致無法落地實際業務需國產化適配響應國家政策,擺脫國外資源限制,
2、需要從硬件服務器芯片、操作系統、模型等多個層面完成國產化適配大模型落地業務場景的痛點需提高資源利用率分布式訓練需要高效的資源調度管理系統,減少節點資源碎片提高調度成功率;支持虛擬 GPU 調度提高容器資源利用率TI 的大模型精調解決方案MaaS客戶專屬客戶專屬大模型大模型傳媒行業大模型精調解決方案TI平臺平臺技術底座技術底座平臺平臺&工具工具TI-DataTruth數據標注平臺TI-ONE 訓練平臺TI-Matrix應用平臺太極Angel 加速組件基礎設施基礎設施高性能計算集群HCC高性能網絡:自研星脈計算網絡架構向量數據庫行業大模型行業大模型傳媒大模型政務大模型文旅大模型金融大模型教育大模型
3、TI 的一站式大模型精調解決方案模型選型訓練共建部署應用應用場景應用場景資源采購資源采購業務形態業務形態數據評估資源評估環境搭建服務開通交付方案項目排期訓練數據準備訓練數據準備模型訓練模型訓練知識挖掘+增強數據清洗+切塊向量庫建設+維護訓練平臺搭建無監督訓練有監督訓練人工反饋強化學習訓練框架加速脫敏合規模型評測模型評測模型管理模型管理服務發布服務發布性能評測效果評測模型注冊模型發布推理框架加速推理服務部署內容安全內容安全應用聯調應用聯調需要客戶深度參與需要客戶深度參與TI 對大模型開發全生命周期的一體化方法論TI精調的核心優勢核心優勢1 自研模型:混元大模型超千億參數規模(蒸餾出百億級模型),
4、全鏈路自主研發,從零訓練自主創新超千億參數規模(蒸餾出百億級模型),全鏈路自主研發,從零訓練自主創新AngelHCF 推理框推理框架架推理速度相比業界主推理速度相比業界主流框架提升流框架提升 1.3 倍倍AngelPTM 訓練框訓練框架架相比業界主流框架提升相比業界主流框架提升 1 倍訓練速度倍訓練速度預訓練預訓練超超 2 萬億萬億token語料優化語料優化預訓練算法及策略預訓練算法及策略精調及強化學習精調及強化學習改進注意力機制開發思維鏈改進注意力機制開發思維鏈新算法新算法知識增強知識增強邏輯推理邏輯推理內容創作內容創作自研機器學習框架創新大模型訓練四大核心能力多輪對話多輪對話共測試29個能
5、力項綜合評級 級當前最高分共測試37個能力項綜合評級 級當前最高分模型開發信通院測評模型能力C-EvalMMLUAGlEval總集AGlEval中文AGlEval英文混元GPT-3.5GPT-4VSVS騰訊混元大模型 主流大模型010203040506070GPT-4GPT-4GPT-3.5GPT-3.5混元混元代碼子項代碼子項01020304050607080GPT-4GPT-3.5混元混元STEMSTEM子項子項HumanEval分數Ceval-STEMAGlEval-高考0102030405060GPT-4GPT-4GPT-3.5GPT-3.5混元混元高考題子項高考題子項05101520
6、2530354045GPT-4GPT-4GPT-3.5GPT-3.5混元混元數學子項數學子項AGlEval-數學核心優勢1 自研模型:混元大模型核心優勢1 自研模型:行業大模型降低不同行業數據彼此干擾降低不同行業數據彼此干擾提升垂類任務性能提升垂類任務性能應用層輿情助手 寫作助手 營銷助手 訪談助手 客服助手 .大模型層平臺層自研行業大模型訓練支撐:TI-ONE 訓練平臺行業閱讀理解行業數值計算行業知識問答行業文案生成行業信息抽取行業情感分析行業術語增強行業合規安全基礎大模型基礎大模型金融行業大模型 醫療行業大模型 文旅行業大模型.通用大模型PT&SFT行業大模型傳媒文旅金融醫療大規模通用數據
7、大規模通用數據無監督:數T文本有監督:數億條數據大規模行業數據大規模行業數據無監督:百G文本有監督:數百萬條數據核心優勢1 自研模型:行業大模型在有行業數據精調的情況下:在有行業數據精調的情況下:行業大模型(行業大模型(1010億參數)可以比通用大模型(千億參數)用小得多的訓練資源,訓練后得到差不多性能的應用億參數)可以比通用大模型(千億參數)用小得多的訓練資源,訓練后得到差不多性能的應用閱讀理解閱讀理解API調用調用問答對生成問答對生成新聞摘要新聞摘要核心優勢2 大規模訓練:簡單最快僅需最快僅需 5 5 步即可完成步即可完成大模型精調落地大模型精調落地1.一鍵啟動一鍵啟動平臺內置精調物料 快
8、速啟動精調任務2.訓練監控訓練監控實時監測資源利用率、訓練指標3.任務管理任務管理 模型評估模型評估管理任務版本 記錄超參、指標快照 4.模型發布模型發布平臺內置推理加速鏡像 快速部署服務5.服務調用服務調用可視化網頁、API接口調用模型服務核心優勢2 大規模訓練:穩定NodeNodeNodeNodeTrainOperator1.機器故障遷移機器故障遷移云原生監控2.異常異常POD驅逐重新調度驅逐重新調度3.斷點續訓斷點續訓NodeNodeTaskManger節點發生故障時節點發生故障時:主動發現主動發現 屏蔽節點屏蔽節點 自動擴容自動擴容 故障遷移故障遷移網絡網絡/系統等異常時系統等異常時:
9、任務管理自動重啟訓練任務任務管理自動重啟訓練任務 恢復歷史恢復歷史checkpoint繼續訓練繼續訓練自底向上自底向上 3 3 層機制保障大模型穩定訓練層機制保障大模型穩定訓練節點節點/磁盤等突發故障時磁盤等突發故障時:訓練訓練operator感知感知pod運行狀運行狀態態 將異常將異常pod重新調度到其他節點重新調度到其他節點 恢復訓練任務恢復訓練任務核心優勢2 大規模訓練:高效開發開發效率效率用戶僅需聚焦訓練任務本身,TI 平臺自動注入分布式訓練網絡通信配置分布式訓練網絡通信配置、RDMA、網絡拓撲網絡拓撲、訓練節點訓練節點相關參數資源利資源利用率用率問題問題排查排查效率效率支持一鍵登陸訓
10、練容器登陸訓練容器便捷查看日志、事件、監控管理任務隊列,支持高優任務搶占低優任務高優任務搶占低優任務AI 批量任務使用 gang 調度策略調度策略(要么都成功,要么都失?。〨PU任務使用 binpack 調度策略調度策略(優先填滿一個節點,避免多卡任務啟動失?。〨PU 任務使用拓撲感知調度拓撲感知調度,提升通信效率支持虛擬虛擬 GPU 調度調度(0.1-1.0卡)1.提高容器對資源的利用率2.減少資源碎片,提高調度成功率3.支持任務排隊,合理分配調度資源1.異步調度優化異步調度優化CPU&GPU異步調用提高吞吐2.顯存優化顯存優化緩存定長+池化,提升參數支持規模3.計算優化計算優化Attent
11、ion及MLP Block塊算子融合優化AddLayernormTensorQ GemmK GemmV GemmFusedAddNormFusedBatchGemm核心優勢3 自研加速:Angel 三重優化Bloom 7B行業方案太極Angel8.9 example/s19.1 example/s加速比2.14ChatGLM行業方案太極Angel19.8 example/s33.3 example/s加速比1.7Llama 2行業方案太極Angel48.6 example/s66.8 example/s加速比1.4訓練加速效果對比(系統吞吐,越大越好)Bloom 7B行業方案太極Angel17
12、.7 ms/token12.9 ms/token加速比1.37ChatGLM行業方案太極Angel加速比2.4Llama 2行業方案太極Angel加速比1.4推理加速效果對比(輸出token速度,越小越好)30 ms/token12.5 ms/token46 ms/token26ms/token核心優勢4 國產化適配:全生命周期騰訊云騰訊云TITI平臺平臺信創芯片算力可分配信創芯片算力可分配底層軟件底層軟件信創信創CPUCPU芯片芯片信創信創AIAI加速卡加速卡(NPU(NPU芯片)芯片)信創容器平臺信創容器平臺信創數據庫信創數據庫信創操作系統信創操作系統硬件服務器硬件服務器訓練任務可運行訓練
13、任務可運行模型服務可部署模型服務可部署信創芯片算力可調度信創芯片算力可調度預置大模型物料可運行預置大模型物料可運行提供大模型開發全生命周期信創支持提供大模型開發全生命周期信創支持核心優勢4 國產化適配:產品支持情況騰訊云騰訊云TITI平臺平臺已支持對以下信創芯片算力進行分配和調度底層軟件底層軟件已支持基于以下信創容器平臺部署TI平臺已支持基于以下信創數據庫部署TI平臺已支持基于以下信創操作系統部署TI平臺支持以下模型在信創芯片算力上進行訓練支持以下模型在信創芯片算力上進行服務部署騰訊騰訊TCSTCS,靈雀云,靈雀云TKETKE,青云容器平臺,青云容器平臺騰訊騰訊TDSQLTDSQL騰訊騰訊Te
14、ncentOSTencentOS,銀河麒麟,銀河麒麟鯤鵬系鯤鵬系CPU+CPU+昇昇騰系騰系NPUNPU,鯤鵬系,鯤鵬系CPUCPU,飛騰系,飛騰系CPUCPU,海光系,海光系CPUCPU開源大模型、自研行業大模型開源大模型、自研行業大模型開源大模型、自研行業大模型開源大模型、自研行業大模型支持在信創支持在信創CPUCPU芯片算力上使用芯片算力上使用LLMLLM訓練框架訓練框架支持在信創支持在信創CPUCPU芯片算力上使用芯片算力上使用LLMLLM推理框架推理框架核心優勢4 國產化適配:獲得多項信創認證案例分享輸入完整的長篇新聞文稿內容,基于大模型對原文的理解,重新組織用詞造句,生成對主題內容
15、的概括性描述。支持輸出智能標題或智能摘要不同粒度的摘要結果。通過自然語言處理方式,按照新聞語言風格,智能化地概括文本內容,可以用于智能標題的擬定。智能標題智能標題:仁懷:堅守生態底線提升民生福祉漸漸次(可生成多個標題)關鍵詞關鍵詞:生態、保護、發展(可指定3-5個關鍵詞)好水、好土產好糧。為了保護好赤水河的生態,仁懷近年來下大力氣實現了工業核心區廢水收集處理全覆蓋,城鎮生活污水處理率達95%,赤水和水質如今常年穩定在地表二類以上。守牢生態底線,在高質量發展中保障和發展民生。黨的18大以來,在石漠化嚴重的山區,仁懷持續加大基礎設施建設投入和退耕還林力度,幫助當地群眾打造農旅一體的生態觀光業,以創
16、建省級生態鄉鎮13個,市級生態村寨127個。仁懷還下決心對城區最大的垃圾填埋場進行徹底改造和生態修復,為群眾打造出一個鳥語花香的生態公園。近五年,仁懷綠化造林30余萬畝,森林覆蓋率達56.35%,城鎮新增就業36524人,鄉村兩級醫療衛生機構規范化建設全覆蓋,公通車總里程達3961公里智能提取文章主題信息,生成指定字數的摘要內容??梢杂糜趯дZ、簡訊的輸出。示例示例1 1:軍事新聞:軍事新聞俄羅斯國防部10號稱,俄軍打擊了頓涅茨克地區、哈爾科夫地區的烏軍指揮所以及存有美國提供的大量彈藥的倉庫等軍事目標。示例示例2 2:民生新聞:民生新聞剛剛過去的國慶假期,各地豐富消費場景,擴大市場供給,持續升級
17、的假日消費彰顯中國市場巨大潛力的同時,也讓百姓的生活品質不斷提升。新聞智能標題與關鍵字新聞智能標題與關鍵字新聞智能摘要新聞智能摘要落地案例:某傳媒客戶客戶訴求方案價值產品示例1.接口信息配置酒店的查詢,預訂,修改和取消2.輸出樣式配置圖文模版、氣泡列表3.對話體驗無需配置對話流程,大模型端到端解決業務問題任務完成率提升任務完成率提升對話構建成本降低對話構建成本降低在無多輪畫布增加的前提下,突破效果天花板聚焦場景是酒店業務,包括酒店的查詢,預訂、修改、查詢,后期逐步覆蓋機票、旅游等全棧場景。自動判斷意圖和識別槽位,生成相應的API并自動調用,基于API的返回,自動生成擬人化的回復話術。運營人力有限運營人力有限,人工配置成本高人工配置成本高人工有限,期望知識庫運營上手簡單,低成本投入涉及訂單等接口場景涉及訂單等接口場景,對機器人任務要求高對機器人任務要求高復雜業務場景,無配置情況下無法通過機器人閉環解決問題極低配置極低配置精準解答精準解答落地案例:某文旅客戶THANKS!感謝聆聽