《CFF:大規模強化學習技術原理與大模型技術發展研判(10頁).pdf》由會員分享,可在線閱讀,更多相關《CFF:大規模強化學習技術原理與大模型技術發展研判(10頁).pdf(10頁珍藏版)》請在三個皮匠報告上搜索。
1、大規模強化學習技術原理與大模型技術發展研判劉知遠CCF 2025DeepSeek-R1 訓練流程DeepSeek-V3基座模型DeepSeek-R1-Zero強推理模型DeepSeek-V3基座模型階段一:增強推理過程可讀性階段二:增強面向通用指令的推理能力規則驅動的大規模強化學習格式獎勵準確率獎勵冷啟動SFT自動/人工改寫R1-Zero生成面向推理的強化學習可讀性獎勵準確率獎勵全場景強化學習獎勵模型驅動的獎勵規則驅動的獎勵DeepSeek-R1強推理模型全場景CoT增強SFT通用SFT數據階段一模型生成推理SFT數據強化泛化DeepSeek-R1 重要意義強推理模型讓大模型領域再次迎來“Ch
2、atGPT時刻”ChatGPTo1/o3LlamaDeepSeek-R1首次提出開源復現“有限算力+算法創新”發展模式是突破算力卡脖子限制的關鍵 未來應聚焦“高效”圍繞高效模型架構、高效強化學習、高效算力利用開展研究高效模型架構高效強化學習高效算力利用稀疏模型架構長序列理解與生成高效訓練 提升數據利用效率高效思考 提升思考信息密度低位寬高效并行框架訓推一體的強化學習框架啟示:芯片行業的摩爾定律3.4 kg226 g4.1 kg13.6 kg5.2 kg1945首臺通用電子計算機 ENIAC19541959個人臺式機IBM PCIBM 650PDP-11981198527 t2.8 t730 k
3、g智能手機華為Pura 70 Ultra2024筆記本電腦東芝 T110020201977APPLE II輕薄筆記本電腦Apple MacBook Air M11992IBM ThinkPad 7001.29 kg3半導體行業在摩爾定律指引下,持續改進制造工藝,提升芯片制程,核心是提升芯片電路密度而非芯片尺寸,實現計算設備小型化普惠化大模型密度定律:模型能力密度隨時間呈指數級增強4Densing Law of LLMs.https:/arxiv.org/pdf/2412.04315根據統計2023年以來大模型能力密度平均每3.3個月(約100天)翻一倍推論:實現相同能力的模型參數每3.3月下降
4、一半 隨著數據-算力-算法的協同發展,實現用更少參數實現相同智能水平:在相同能力前提下,模型參數量每3.3個月下降一半 相對能力密度 目標模型參數量=5同能力的基準模型參數量目標模型參數量=同能力的基準模型參數量密度每3.3個月翻一番不變MiniCPM-1-2.4BAvg Score:37.67 2024-02-01Mistral-7BAvg Score:36.272023-09-27時隔4個月,用35%的參數,實現相當的能力1943年信息革命對智能革命的啟示670 億 部手機22024年全球預計接近13 億 個人計算機(PC)1數據來源:1 https:/ https:/ https:/io
5、t- https:/ J.Watson)180 億 接入互聯網的IoT設備3全球數據的分布式特性決定將產生無數大模型,以實現AI的無處不在2000 億 正在運行的CPU 4AI時代的核心引擎-電力 算力 智力Power(電力)電池能量密度倍增周期10年Compute(算力)芯片電路密度倍增周期18月AI(智力)模型能力密度倍增周期100天密度定律普遍存在,將是實現人工智能高質量、可持續發展的關鍵人工智能未來三大主戰場:將通用進行到底8人工智能科學化技術方案通用為能力涌現等關鍵機制建立科學理論,科學解釋人工智能形成的原理大模型與與底層芯片、操作系統、數據管理、編程開發、網絡通信深度融合將大模型應
6、用于高精尖制造、科學發現等高度專業化場景中計算系統智能化應用方案通用領域應用廣譜化能力方案通用1903年第一架飛機試飛成功1929年馬赫單位在空氣動力學中被提出2022年ChatGPT誕生后引起廣泛關注科學解釋智能形成的理論網絡通信編程開發操作系統底層芯片科學發現高精尖制造數據管理馬克思主義者不是算命先生,未來的發展和變化,只應該也只能說出個大的方向,不應該也不可能機械地規定時日。但我所說的中國革命高潮快要到來,決不是如有些人所謂“有到來之可能”那樣完全沒有行動意義的、可望而不可即的一種空的東西。它是站在海它是站在海岸遙望海中已經看得見桅桿尖頭了的一只航船岸遙望海中已經看得見桅桿尖頭了的一只航船,它是它是立于高山之巔遠看東方已見光芒四射噴薄欲出的一輪立于高山之巔遠看東方已見光芒四射噴薄欲出的一輪朝日朝日,它是躁動于母腹中的快要成熟了的一個嬰兒它是躁動于母腹中的快要成熟了的一個嬰兒。毛澤東:星星之火,可以燎原,1930