《AIIA:2024科研智能(AI4R&ampD)-人工智能驅動的研發新范式報告(29頁).pdf》由會員分享,可在線閱讀,更多相關《AIIA:2024科研智能(AI4R&ampD)-人工智能驅動的研發新范式報告(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、 科研智能(科研智能(AI4R&D)人工智能驅動的研發新范式人工智能驅動的研發新范式 中國人工智能產業發展聯盟(中國人工智能產業發展聯盟(AIIA)科學智能(科學智能(AI4S)工作組)工作組 20242024 年年 7 7 月月 版權聲明版權聲明 本報告版權屬于中國人工智能產業發展聯盟,并受法律本報告版權屬于中國人工智能產業發展聯盟,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:中國人工智能產業發展聯盟”。違反上的,應注明“來源:中國人工智能產業發展聯盟”。違反上述聲明者,本院將追究其相關法律責任。述聲明者,
2、本院將追究其相關法律責任。中國人工智能產業發展聯盟(中國人工智能產業發展聯盟(AIIA)20242024 年年 7 7 月月 編制說明編制說明 本報告主要是在中國人工智能產業發展聯盟指導和組織下起草編寫,主要參編單位包括中國信息通信研究院、華為技術有限公司、北京百度網訊科技有限公司、北京深勢科技有限公司、之江實驗室、阿里云計算有限公司、北京航空航天大學、國網智能電網研究院有限公司、中冶京誠數字科技(北京)有限公司、中國科學院沈陽自動化研究所、中國華能集團清潔能源技術研究院有限公司、深圳華大生命科學研究院、同方知網數字出版技術股份有限公司、上海和今信息科技有限公司、北京科技大學、北京市商湯科技開
3、發有限公司、東方財富信息股份有限公司、北京新數科技有限公司。核心編制人員為張瑋婷、董昊、丁欣卉、曹峰、周景才、王紫東、胡曉光、孫佩源、劉會師、劉大鵬、貢金鵬、李振廷、王忠新、蒙貴云、張艷博、周原野、楊康、王錦海。目目 錄錄 一、科研智能發展態勢.1 二、科研智能產業發展情況.2(一)科研算力賦能科研智能高效運行.2(二)科研數據驅動科研智能創新發現.4(三)開發工具鏈全鏈路打造科研智能開發工具.7 三、科研智能應用發展情況.15(一)基礎科學研究開展前沿探索,推動科學邊界拓展.16(二)產業研發創新構建核心驅動力,加速產業升級變革.18 四、科研智能生態建設情況.19(一)產業組織.19(二)
4、社區建設.19(三)科研賽事.20(四)會議交流.21(五)教學培訓.21(六)標準布局.21 五、總結與展望.22 附錄一.23 表表 目目 錄錄 表 1 國外科研領域主要公開數據集.5 表 2 國內外典型科研智能算法庫.10 表 3 我國代表性科學套件.12 表 4 2019 年至 2023 年 Science 雜志評選的十大科學突破.17 表 5 科研智能典型領域模型.23 科研智能(AI4R&D)人工智能驅動的研發新范式 1 一、科研智能發展態勢 科研智能(AI for Research and Development,以下簡稱 AI4R&D,人工智能賦能科學研究及產業研發)是科學智能
5、(AI for Science,AI4S)概念的延伸和擴展,主要包括兩方面內涵,一是聚焦人工智能加速基礎科學研究,拓展研究思路,加速研究進程;二是強調人工智能在應用研究和產業研發中的重要作用,全面提升工程技術創新的效率??蒲兄悄艽砹丝萍紕撔碌男路妒胶托聞幽?,有望全面加速基礎研究和產業研發的進程,并縮短兩者之間的轉化周期,推動科技成果在工業界的產業化和規模應用??蒲兄悄苷谌蚍秶鷥燃铀侔l展。,各國相繼發布政策構筑科研智能發展環境。2023 年 12 月,歐盟委員會發布政策簡報人工智能在科學中的應用,倡導為歐洲量身制定一項政策,促進人工智能在科學領域的應用。2023 年 5 月,美國新建 7
6、家國家人工智能研究所,推動人工智能在氣候、腦科學、社會決策、教育等領域的應用研究。2022年 8 月,我國發布關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見,支持探索人工智能技術用于重大科學研究和技術開發的應用場景。AI 持續拓展科學領域問題解決的能力,圍繞生命科學、物理等領域,形成了如Alphafold3 等代表性成果。另一方面 AI 不斷加速產業研發進程,在材料研發、氣象預測、工業設計等領域相繼取得技術突破??蒲兄悄茏鳛橐粋€新興的交叉領域,目前尚處于發展的早期階段,但已經展現出巨大的發展潛力和廣闊的應用場景,中國信息通科研智能(AI4R&D)人工智能驅動的研發新范式 2
7、信研究院(以下簡稱“中國信通院”)持續跟蹤科研智能技術和產業動態,于 2024 年發布報告科研智能(AI4R&D)人工智能驅動的研發新范式,旨在描繪科研智能領域的生態全景,為政府部門制定產業政策、指導項目布局提供參考,為研究機構、科技企業把握技術方向、開拓應用場景提供借鑒,加速該領域的技術創新和應用實踐,為我國在該領域搶占發展先機提供助力。未來,中國信通院將關注全球科研智能發展動向,深化對關鍵技術和產業趨勢的研判,加強與科研機構、高校、企業等產學研各界的交流合作,共同推進科研智能生態體系建設,為科技強國和創新型國家建設提供有力支撐。二、科研智能產業發展情況 科研算力與科研數據的深度融合為 AI
8、4R&D 奠定了堅實基礎。由 AI 框架、算法庫、開發套件及領域模型組成的開發工具鏈極大提升了科研效率,促進了跨學科、跨領域的協同創新與融合,深刻改變了科學研究范式。(一)科研(一)科研算力算力賦能賦能科科研研智能智能高效運行高效運行 科研算力是指結合智能算力與超算算力的計算能力,通過異構計算架構滿足高精度計算和 AI 模型訓練推理需求。智能算力基于GPU(圖形處理器)、TPU(張量處理單元)、NPU(神經網絡處理單元)等 AI 芯片,提供高度并行計算能力,適用于人工智能的訓練和推理計算。超算算力依托超級計算機集群,實現大規??茖W計算和模擬,能夠處理復雜的科學計算問題,廣泛應用于如行星模擬、科
9、研智能(AI4R&D)人工智能驅動的研發新范式 3 藥物分子設計、基因分析等場景。而科研智能算力整合了 AI 計算和科學計算兩種方式,采用異構計算架構,結合多種計算單元,以滿足高精度科學計算和人工智能模型訓練、推理的雙重需求??蒲兄悄艿难芯可婕按罅繌碗s的計算任務,包括大規模數據處理、深度學習模型訓練和高精度科學模擬等,這些任務均需要充足的算力支撐。在多數場景下,為滿足科學研究和工程應用的需求,如蛋白質結構預測模型 AlphaFold 2 取得了突破性進展,能夠以原子級精度預測蛋白質的三維結構,其預測效果可以與實驗結果媲美,解決了生物學界長達 50 年的重大挑戰,該成就被 Science 雜志評
10、為2021 年度十大科學突破成果的第一位。這一進展也在很大程度上依賴于大規模的計算資源支持,在 AlphaFold 2 的研發過程中,DeepMind 團隊投入了大量的算力資源,訓練階段使用了約 128 個TPU v3,歷時 11 天才能完成1。以公有云模式提供智能算力服務。云服務企業以智能算力平臺的形式提供計算資源,如阿里云靈駿智算平臺、百度智能云 AI Studio、華為昇騰云等,面向基礎科研、新藥研發、工程仿真等場景提供一站式算力服務。政府、企業建設并對外提供服務的人工智能算力中心。西安的未來人工智能計算中心已成功孵化出多個智能科研領域的大模型,如全球首個面向雷達遙感場景的“秦嶺西電遙感
11、腦大模型”,以及全球首個面向計算流體力學場景的“秦嶺翱 1 數據來源:Highly accurate protein structure prediction with AlphaFold 科研智能(AI4R&D)人工智能驅動的研發新范式 4 翔大模型”。三是以一體機形式交付的科研智能算力。一體機通過將專用硬件、軟件和服務集成在一個系統中,打造便捷、高性能的科研智能系統。如深勢盒子是面向分子動力學模擬設計場景推出一體機,硬件層面以定制加速卡與 CPU 結合的方式提供計算能力,軟件層面預裝分子動力學專業模擬軟件。一是高端 AI 芯片的生產和購買受限,影響算力供給。二是國內智能算力的技術產業生態較
12、弱,應用門檻高。三是智能算力資源主要集中于頭部科技類企業,高校、科研機構和大量行業企業算力儲備相對有限。建議層面,一是建立針對高校、科研機構和行業企業的算力資源保障機制,實現算力資源的合理供給、動態分配與高效利用,保障科研智能領域計算需求。二是構建跨地區、跨機構的科研算力資源共享平臺,促進科研機構與產業界的協同創新。三是實施科研算力成本效益評估,優化資源投入與產出,加速科技成果的產業轉化。(二)(二)科研數據科研數據驅動驅動科科研研智能智能創新發現創新發現 科研數據是指科學研究和產業研發活動產生的原始數據、中間數據、結果數據和分析數據等,主要包括觀測數據、實驗數據、記錄數據、調查數據、模擬數據
13、及科研文獻等內容。高質量的科研數據是科研智能的基礎,規范的科研數據管理是科研智能開展的前提??蒲兄悄軘祿噍^于傳統的行業數據,有如下特點。一是數據來源和類型更加多樣。數據來自儀器設備、傳感器、仿真模擬、文獻等,科研智能(AI4R&D)人工智能驅動的研發新范式 5 數據格式和語義差別較大。二是數據質量要求高。數據的客觀性、準確性、完備性、分辨率等質量要求很高,這會直接影響到計算結果的可信度。三是數據量更大。實驗觀測數據、仿真模擬數據等不僅規模巨大且增長快速,遠超普通商業化數據。四是維度更高。例如氣象、地理、生物數據涉及時間、空間、物種等多個維度,結構更加復雜。在科研數據領域,公開數據集對于推動科
14、研創新具有重要意義。國外方面,公開數據集資源豐富、體系成熟,已成為全球科研工作者開展研究的重要基礎設施。美國通過一系列項目推動科研領域公共數據集的建設、共享及應用,如美國國家生物信息中心(NCBI)成為全球醫療 AI 研究人員的首選數據源,其數據可在亞馬遜云平臺和谷歌云平臺上便捷訪問。在氣象領域,美國國家海洋和大氣管理局(NOAA)的數據是氣象大模型研發的重要支撐。材料科學方面,“材料項目”(The Materials Project)經過三十年發展,已成為該領域的標桿性數據庫。數據資源的長期積累為科技突破奠定了重要基礎,如 AlphaFold2 在蛋白質結構預測領域的成功很大程度上得益于蛋白
15、質數據庫(PDB)的長期數據積累。我國方面,近年來在科研數據建設及共享方面也取得了顯著進展。全國已建成 50 多個國家級行業科技數據中心和 200 多個地方科技數據中心,形成覆蓋多領域的科學數據中心體系。在材料、天文、電磁、流體、氣象、生命科學等領域已具備一定規模的公開數據集。表 1 國外科研領域主要公開數據集(中國信通院根據公開資料收集整理)科研智能(AI4R&D)人工智能驅動的研發新范式 6 領域領域 數據數據 持有單位持有單位 生命科學 全球蛋白質結構庫(PDB)Worldwide Protein Data Bank(wwPDB)人類基因庫(EMBL)歐洲分子生物學實驗室(EMBL)蛋白
16、質數據庫(UniProt)歐洲生物信息研究所(EBI)、瑞士生物信息研究所(SIB)及 美國國家生物醫學研究基金會(NBRF)成立的蛋白質信息資源(PIR)DNA 序列數據庫(Genbank)美國國家醫學圖書館生物信息技術信息中心(NCBI)DNA 數據庫(DDBJ)日本國立遺傳學研究所 生物醫學文獻書目數據庫(PubMed)美國國家醫學圖書館生物信息技術信息中心(NCBI)材料科學 高通量材料計算數據庫(AFLOW)美國杜克大學 劍橋結構數據庫(CSD)英國劍橋晶體數據中(CCDC)開放量子材料數據庫(OQMD)美國西北大學 無極晶體結構數據庫(ICSD)德國波恩大學 材料計算數據庫(Mat
17、erials Project)美國加州伯克利大學 金屬和合金晶體數據庫(CRYSTMET)加拿大渥太華大學 國際衍射數據中心的粉晶數據庫(JCPDS)國際衍射數據中心 開放晶體結構數據庫(COD)英國劍橋大學 密度泛函理論的材料數據集(JARVIS-DFT)美國國家標準與技術研究院(NIST)地球科學 ERA5 大氣再分析數據集 歐洲中期天氣預報中心(ECMWF)海洋再分析數據集(HYCOM)美國海軍研究實驗室(NRL)海洋生物化學數據集 美國航天局 GLORYS12 再分析數據 法國麥卡托 SST 衛星觀測數據 英國氣象局 歷史氣候觀測和模擬(ICAR-ENSO)氣候與應用前沿研究院 ICA
18、R 地球表面氣候預測數據(EarthNet)/汽車 SAE 國際自動機工程師學會 ShapeNet 斯坦福大學 Ahmed Body Aerodynamics 英偉達 流體 周期山(PH-RANS、ERCOFTAC)慕尼黑工業大學 圓柱繞流數據集(Cylinder in Crossflow)/科研智能(AI4R&D)人工智能驅動的研發新范式 7 頂蓋驅動方腔流動(CFDBench)/我國公開數據集建設不足,優質領域數據未能得到有效利用。一方面領域覆蓋度有限,數據集建設不完善且質量有待提升。例如,盤古、風烏、伏羲等國內氣象大模型的研發均依賴國外公開數據集,而非國內數據集。另一方面在科研機構與行業
19、企業中已積累的大量領域數據公開意愿不高,導致大量的優質數據資源處于“靜默”狀態。我國需加強數據集建設與共享,推動科研智能產業高效發展。我國需建立自己的科研數據戰略,系統規劃科研領域數據建設計劃,推動以國家重點實驗室、重點行業企業為代表的機構,積極開放共享數據。一是圍繞公開數據集建設進行戰略布局。建立健全科研領域公開數據集體系,在時空、區域氣象等新興和特色領域進行系統布局。二是建立科研數據共享激勵機制,讓數據貢獻成為研究貢獻的一部分。通過合理的措施,鼓勵機構以及個人將共享數據,持續豐富公開數據集的資源。同時加強對數據的安全保護,避免濫用。三是構建統一的科研數據空間,匯聚數據促進數據共享。促進跨機
20、構、跨領域的數據整合與優化,為科研工作者和技術開發者提供更加便捷、高效的數據服務。(三)開發工具鏈(三)開發工具鏈全鏈路打造全鏈路打造科研智能開發工具科研智能開發工具 從人工智能框架的構建到算法的集成,再到開發套件與領域模型的推出,科研智能開發工具鏈的逐步完善,為科研人員提供了全流程支持。這些工具不僅降低科研門檻,提高研發效率,還加速科研成果的轉化與應用。通過持續優化與創新,科研智能開發工具鏈科研智能(AI4R&D)人工智能驅動的研發新范式 8 正逐步成為推動該領域發展的核心引擎。1.AI 框架構建核心架構,支撐高效算法實現 AI 框架是一組用于開發、訓練和部署人工智能模型的工具、庫和接口,它
21、提供了一個結構化的環境,使開發者能夠更加高效地構建、測試和優化 AI 算法和應用,當前主流的 AI 框架主要有TensorFlow、PyTorch、PaddlePaddle 和 MindSpore。為更有效地支持科研智能(AI4R&D),傳統 AI 框架需要具備高效求解科學計算任務的基礎能力。一是支持科研智能算子庫,通過提供標準化接口和高度優化共性數學運算單元,如高階微分、傅里葉變換、分數階微分、積分、線性代數、復數運算等科研智能專用算子,降低科研計算程序的復雜度。二是提供科研智能計算庫,通過實現跨領域共性基礎計算庫,如微分方程求解計算庫、幾何形狀定義計算庫、方程符號化定義計算庫、物理信息神經
22、網絡 PINN 求解方法計算庫等,提升跨學科多領域典型數理方程求解效率。三是面向科研智能的作業調度優化,通過高階自動微分變換和編譯優化技術,實現異構混合架構靈活高效計算,整體提升科研計算任務計算速度。當前PyTorch和TensorFlow已經成為全球范圍最主流的AI框架。PyTorch 基于動態計算圖且接口簡潔易用,適合科研探索的快速原型開發及頻繁迭代,在學術界廣受歡迎。TensorFlow 具備強大的分布式計算能力和完善的工具生態系統,當前在工業界廣泛應用,支持成熟的部署解決方案。兩者均提供科研智能算子庫、科研智能計算庫和科研智能計算加速等相關能力。此外,谷歌推出的 JAX 框架具科研智能
23、(AI4R&D)人工智能驅動的研發新范式 9 備自動矢量化和即時編譯等先進特性,計算性能出色,適用于科學計算和機器學習任務,且支持高階自動微分,有利于科研智能領域的模型開發。國內 PaddlePaddle 和 MindSpore 作為領先的人工智能框架,均將科研智能作為重點方向進行了適配和優化,目前已具備豐富的算子庫和高階自動微分等能力?,F有 AI 框架未能完全適配科研智能需求。PyTorch 在大規模部署時運行效率相對較低,工業級部署支持相對較弱。TensorFlow 缺少基礎算子體系,科學計算所需的高階自動微分功能可擴展性不足。JAX 處于發展初期,尚未形成成熟生態。國內框架對算子支持不完
24、全,尚無法滿足科研智能發展的需求。為推動科研智能的深入發展,我國需構建更高效、統一的科研智能 AI 框架。一是高性能計算優化??蚣苄枰嫒莶煌愋偷膰a化硬件資源,如 GPU、NPU 等不同類型的 AI 芯片,提供高效計算解決方案。同時,提升分布式計算能力以支持大規模計算任務。二是支持跨領域算法和應用??蚣軕С痔囟I域(如地球科學、材料科學等)的算法庫和開發工具,為各領域科研人員提供通用的開發和應用環境,提供靈活的接口和擴展能力,支持跨學科的協同研究及應用。三是豐富生態系統建設。擴展生態系統,提供第三方庫和工具,以及融合已有科學計算領域的算法庫和工具,滿足更廣泛的科研需求。建設活躍的社區,促
25、進科研工作者交流分享,推動技術創新和進步??蒲兄悄埽ˋI4R&D)人工智能驅動的研發新范式 10 2.算法庫匯聚智慧結晶,賦能科研創新突破 科研智能算法庫是指面向特定領域科學計算問題,基于 AI 框架算子能力開發的一系列高效、穩定的算法集合。算法庫注重易用性、性能及可拓展性,其核心價值主要體現在以下兩方面:一是聚焦對領域單點問題的改進和固化。使用算法庫中經過優化的算法,科研人員能夠更加高效地解決復雜科學計算問題,推動科研成果的產出。二是強調提供最優算法選擇。通過收錄該領域最頂尖的算法,強調提供最優的算法選擇,為科研人員提供便捷、高效的工具,助力科研工作的深入開展。高校、科研院所及企業紛紛推出面
26、向多個各領域的科研智能算法庫。國外方面,布朗大學、麻省理工學院紛紛推出算法庫支持科研智能底層算法的實現。如 DeepXDE 充分利用數據和物理知識雙驅動,解決傳統方法難以求解的復雜問題,支持物理信息神經網絡(PINN)和深度算子網絡(DeepONet)等方法。國內方面,深勢科技、之江實驗室等研究機構專注于算法庫的研發,聚焦分子動力學、量子力學、空氣動力學等特定領域的研究,解決該領域計算求解問題。如 DeePMD 基于神經網絡擬合第一原理數據的多體勢能表示和分子動力學深度學習,支持 Deep Potential(DP)系列模型,可用于多體勢能表示和分子動力學模擬。表 2 國內外典型科研智能算法庫
27、(中國信通院根據公開資料收集整理)算法庫算法庫 介紹介紹 開發者開發者 DeePMD-kit 基于深度學習的原子尺度模擬算法庫。適深勢科技 科研智能(AI4R&D)人工智能驅動的研發新范式 11 用于大規模原子及分子動力學模擬。DeePKS-kit 基于機器學習對于低精度的 DFT 泛函進行優化。支持 DeePHF、DeePKS 方法。北京科學智能研究院 NeuralUQ 神經微分方程和運算符不確定性量化的算法庫。支持算法不確定性 PINN(如貝葉斯 PINN 等),不確定性 DeepONet 等 布朗大學、華中科技大學 DeepXDE 用于求解微分方程的深度學習算法庫。支持多種數據驅動和物理
28、信息融合的算法,包括 PINN、DeepONet 和 PI-DeepONet等。布朗大學 NeuralPDE 基于物理信息神經網絡(PINNs)的偏微分方程求解的算法庫。麻省理工學院、都靈大學、渥太華大學、卡耐基梅隆大學等 SCiANN 使用人工神經網絡進行科學計算和物理信息約束的算法庫。支持 PINN 算法進行科學計算以及偏微分方程(PDE)的求解和發現。麻省理工學院 我國在科研智能算法庫領域也面臨著原創不足等挑戰。我國在基礎理論創新方面存在不足,物理信息神經網絡(PINN)、傅里葉神經算子(FNO)和深度算子網絡(DeepONet)等經典的底層算法多由國外研究機構提出。我國算法庫的數量較少
29、且影響力不足,國內深勢科技、之江實驗室等機構在特定領域(如分子動力學、量子力學、空氣動力學等)積極開展研究,并開發出 DeePMD、NeuralUQ等算法庫,但與國際先進水平相比仍有明顯差距。因此,我國仍需進一步鼓勵算法原始創新,提升我國科研智能算法庫的自主性和核心競爭力。3.開發套件簡化科研流程,推動智能化進程 科研智能開發套件是指針對特定科研領域,基于 AI 框架開發的端到端工具集。開發套件提供標準化接口和用戶界面,覆蓋模型開科研智能(AI4R&D)人工智能驅動的研發新范式 12 發全流程,能夠快速用于解決科研問題。相較于科研智能算法庫,開發套件的產品化程度更高。一方面,開發套件通過全流程
30、整合有效提升了科研效率??蒲腥藛T無需在多個工具間切換,使用開發套件可一站式完成數據處理、模型開發、評估及部署等工作,縮短研發周期,加速成果產出。另一方面,開發套件降低了科研人員對計算機專業知識的依賴。開發套件提供操作界面及案例資源,降低了非計算機背景科研人員的使用門檻??蒲腥藛T可以更加聚焦科研問題本身,無需花費大量時間精力在人工智能模型調參等技術環節。國內外已形成一系列成熟的科研開發套件。國外方面,形成了相對活躍的開源社區生態。高校、研究機構及企業以 PyTorch 為基礎,貢獻了針對特定科學領域的開源套件,如英偉達推出用于流體仿真的 Modulus 和用于氣象預測 Earth2Studio,
31、上述工具成熟度較高且已被廣泛應用。國內方面,形成了相對自給自足的生態系統。國內開發套件通常由 AI 框架企業提供,如百度和華為基于自身 AI 框架能力,向各領域延伸形成工具套件,已覆蓋生物計算、量子計算、流體仿真、地球科學、電磁仿真、化學仿真等領域。表 3 我國代表性科學套件(中國信通院根據公開資料收集整理)領域領域 套件名稱套件名稱 公司公司 功能描述功能描述 地球科學、材料科學、流體仿真 PaddleScience 百度 基于飛槳深度學習框架的科學計算工具庫,提供了豐富的物理模型和 AI 方法,支持流體力學、電磁學等領域的仿真與優化。地球科學 MindEarth 華為 支持短臨、中期、長期
32、天氣以及??蒲兄悄埽ˋI4R&D)人工智能驅動的研發新范式 13 洋領域的各類預報。流體仿真 MindFlow 華為 支持航空航天、船舶制造以及能源電力等行業領域的 AI 流場模擬。電磁仿真 MindElec 華為 支持數據建構及轉換、仿真計算、結果可視化以及端到端的 AI 電磁仿真。量子計算 PaddleQuantum 百度 提供量子線路設計、量子算法實現和量子經典混合優化等功能,支持多種量子模擬器后端,助力量子計算研究與應用開發。MindQuantum 華為 生物計算 MindSPONGE 華為 面向生物計算,支持蛋白質結構預測和分子動力學模擬,為藥物研發提供高效工具,加速新藥篩選和設計過
33、程。PaddleHelix 百度 化學 MindChemistry 華為 支持多體系(有機/無機/復合材料化學)、多尺度任務(微觀分子生成/預測、宏觀反應優化)的化學仿真。開發套件存在易用性低、功能覆蓋不全等問題。一是使用門檻仍舊較高,用戶需要具備較強的領域知識和編程能力,進而限制了套件的廣泛使用。二是功能覆蓋不全面。一方面覆蓋場景有限,開發套件處于發展初期,往往針對具體科學問題設計,支持的場景較為有限。另一方面覆蓋環節不足,存在功能欠缺。如針對高溫合金材料研發的套件,僅提供合金成分設計與性能預測環節,缺少特定工藝條件下的合金行為模擬、疲勞壽命預測等能力,這會限制套件在實際工程項目的使用。三是
34、標準化程度低,開發套件之間缺乏統科研智能(AI4R&D)人工智能驅動的研發新范式 14 一的接口和數據格式標準,增加了用戶遷移和比較的成本,不利于科研工作的連續性和數據共享。4.領域模型AI 融合知識,加速應用實踐落地 領域的模型主要分為兩大類,一類是領域專用模型,針對特定科學問題設計和優化;另一類是基于大語言模型(LLM)的科研模型,利用自然語言處理能力輔助科研工作、完善自動化流程。產學界已經研發出面向多個領域解決特定問題的專用模型。材料科學領域,AI 技術結合高通量計算,打破尺度和計算模擬限制,加速材料篩選,促進靶向設計新材料,完成材料和器件的全鏈條優化,為新能源、環境保護、信息技術等產業
35、提供了強大的材料基礎。氣象領域,通過 AI 技術對大量氣象觀測和模擬數據進行分析,識別復雜大氣模式,提升天氣預報精度與效率,加強對臺風、暴雨等極端天氣事件的預測能力,輔助氣候變化研究。流體仿真領域,AI 提升了復雜流體動力學問題的模擬和求解效率,對湍流、液體混合等復雜流體進行流動模擬優化、實時仿真,廣泛應用于航空航天、汽車制造等領域。電磁仿真領域,AI 模型能夠快速模擬和優化復雜電磁場分布,提升仿真和設計效率。以電磁兼容性分析為例,AI 能夠預測和識別潛在干擾問題,優化電路設計,確保電磁設備的性能和可靠性。生命科學領域,AI 模型能夠分析復雜的生物數據,如蛋白質結構預測、基因組分析等,加速新藥
36、發現和個性化醫療方案的制定,解決傳統方法耗時長、成本高的問題。業內典型領域專業模型詳見附錄一??蒲兄悄埽ˋI4R&D)人工智能驅動的研發新范式 15 大語言模型為科研領域帶來新的輔助手段。大語言模型與科研相融合正在成為新方向,目前大語言模型主要應用于科研助手和流程自動化??蒲兄址矫?,大語言模型結合領域知識,不僅可以提供研究假設、科研方向供科研人員參考,還可以作為科研知識助手,為科研人員提供即時的信息查詢和解答。流程自動化方面,大語言模型可以幫助提高實驗效率、減少人為誤差,實現更精準、可重復的實驗管理。典型場景包括輔助決策和實驗設計、任務調度智能加速和實驗室管理等。大語言模型與領域專業模型的深
37、度融合正推動科研領域實現重大突破。大型語言模型擅長發現并整理科學領域的難點問題,領域專業模型則負責完成復雜的計算任務,兩者結合可有效提升人機交互能力,加速科學研究的進程,有望在特定領域取得突破性進展。例如,卡耐基梅隆大學研發的 AI 系統 Coscientist 能夠自主完成從信息檢索到實驗執行和數據分析的整個流程,該系統成功設計并合成了阿司匹林、對乙酰氨基酚和布洛芬等常見藥物分子。同時,Coscientist 在不到四分鐘內成功設計鈀催化交叉偶聯反應的實驗方案,并成功復現了這一重要的復雜化學反應,該研究曾獲諾貝爾化學獎。三、科研智能應用發展情況 基礎科學研究領域,AI 技術的應用促進了新理論
38、、新算法的發現與驗證,逐步拓展科學研究的邊界。產業研發創新領域,AI 技術通過加速新藥研發、優化材料篩選、提升工業設計效率等方式,提科研智能(AI4R&D)人工智能驅動的研發新范式 16 升產品研發效率為產業升級與變革提供強有力的技術支撐。(一)(一)基礎科學研究基礎科學研究開展開展前沿探索,推動科學邊界前沿探索,推動科學邊界拓展拓展 科研智能在基礎科學領域展現出廣闊的應用前景。目前,國內外高校和科研機構都在積極探索 AI 與科學研究的深度融合,在過去5 年,AI+科學研究的相關成果連續入選Science雜志評選的十大突破。AI 賦能科學研究主要體現在以下四個方面:一是 AI 輔助科學文獻研究
39、??蒲腥藛T借助 AI 能夠高效地分析和挖掘海量的科學文獻,提取關鍵信息,識別研究趨勢。例如,北京國際科技創新中心使用知網華知大模型打造了開放科學平臺,集成了知網智研助手、學術問答、智能寫作三大 AI 工具,為學術和技術創新人員提供了全方位的知識服務。二是 AI 指導和加速科學實驗。通過數據分析和機器學習,AI 能夠優化實驗設計,減少不必要的實驗次數,顯著提高實驗效率。如 DeepMind 通過深度強化學習技術對托卡馬克等離子體進行精準磁控,將等離子體控制精度提升至 65%,為核聚變研究帶來了重要突破。三是 AI 啟發新理論和算法發現。AI 的模式識別和預測能力有助于科研人員發現新的科學規律,提
40、出創新性的理論。如物理學家利用神經網絡發現了質子中隱性內含粲夸克的存在證據,這一發現可能會引發量子色動力學理論的重大更新。四是 AI 優化和加速科學計算。傳統數據處理海量數據時會遭遇“維度災難”問題,AI 技術可以提高復雜科學計算的效率,解決傳統方法難以處理的問題。如 DeepMind 發布的 AlphaFold 3 可預測地球所有生物分子結構,科研智能(AI4R&D)人工智能驅動的研發新范式 17 準確率比現有方法高 50%,成為首個在生物分子結構預測方面超越基于物理工具方法的 AI 系統。表 4 2019 年至 2023 年 Science 雜志評選的十大科學突破 2023 2022 20
41、21 2020 2019 減肥藥 GLP-1有望戰勝肥胖 詹姆斯韋伯太空望遠鏡 人工智能預測蛋白質結構 新冠疫苗點亮希望之光 人類歷史上首張黑洞照片問世 抗體療法在減緩阿爾茨海默病方面取得進展 發現可能導致多發性硬化的病毒 抗新冠強效藥出現 CRISPR 首次成功治愈兩種遺傳性血液病 與丹尼索瓦人“面對面”尋找天然氫源的熱潮 黑死病如何改變歐洲人基因的新見解 迷幻藥物可治療創傷后應激障礙“精英控制員”控制艾滋病病毒 谷歌宣布實現“量子霸權”在全球機構中系統性改變職業早期科學家的待遇 驚人的巨型細菌 單克隆抗體治療傳染性疾病 AI首次精準預測蛋白質三維結構 腸道微生物對抗營養不良 接近美洲遠古人
42、類定居的歷史真相 200萬年前環境DNA 重現古老生態系統 基因編輯工具 CRISPR首次獲得臨床勝利 科學家反對種族歧視,支持多樣性 小行星撞擊地球及其帶來的影響 地球的碳泵正在減速運行 更易于耕種的多年生稻 體外胚胎培養為早期發育研究打開新窗戶 全球變暖趨勢加劇 最遙遠天體的特寫 巨型黑洞合并產生的星際信號在無聲轟鳴 人類首次行星防御實驗成功 首次在土壤中提取到古人類 DNA 發現快速射電暴來源“缺失環節”的微生物?AI輔助天氣預報的發展 RSV 疫苗取得突破進展“洞察”號首次揭示火星內部結構 世界最古老狩獵場景面世 第一次,有藥物可以治療大多數囊性纖維化病例 抗擊瘧疾的新希望 創造性人工
43、智能的快速發展 粒子物理學的標準模型出現了“裂縫”首個室溫超導體面世 埃博拉患者終于有了希望 百億億次超級計算時代的來美國通過具有里程碑意義的核聚變實現歷史性突破 鳥類具有驚人的智力 AI戰勝多人撲克 科研智能(AI4R&D)人工智能驅動的研發新范式 18 臨 氣候法(二)(二)產業研發創新產業研發創新構建核心構建核心驅動力,加速產業升驅動力,加速產業升級變革級變革 科研智能在多個產業領域中取得了顯著成效。新藥研發領域,AI 可加速藥物發現和研發過程。如西安交通大學第一附屬醫院基于盤古藥物分子大模型,研發出超級抗菌藥肉桂酰菌素。AI 減少了人工對小分子化合物的篩選計算量,加快了藥物分子的篩選過
44、程,突破了醫藥研發“雙十定律”的瓶頸,使先導藥的研發周期從數年縮短至數月,研發成本降低約 70%。電池材料研發領域,AI 可輔助篩選和預測高性能材料。通過多尺度模擬預測材料性能,優化實驗設計,提升實驗效率。如深勢科技在電解液材料研發領域,通過正向設計與篩選優化的方法,有效提升金羽新能開發高能量密度電池電解液的效率,研發周期由原來的 14 個月縮短至 6 個月。航空航天仿真測試領域,AI 助力評估航空器設計方案的可行性和性能。如中國商飛上海飛機設計研究院基于昇騰 AI 開發了業界首個三維超臨界機翼流體仿真大模型“東方 翼風”,能高精度模擬大飛機全場景飛行狀況,用時僅為原來的千分之一。電磁仿真領域
45、,AI 可實現高效手機電磁仿真。如華為聯合東南大學打造了金陵 電磁腦基礎模型,基于AI 方法進行大規模陣列天線電磁仿真,將仿真效率平均提升 10 倍以上。工業設計領域,AI 可提升設計效率并降低成本。中國科學院沈陽自動化研究所與上汽大眾合作開發了“基于 AI 和知識圖譜的焊科研智能(AI4R&D)人工智能驅動的研發新范式 19 裝夾具智能設計軟件”,通過知識圖譜和生成式AI提升設計效率80%以上,設計成本降低至原來的一半,實現需求到制造的一站式交付服務。工業制造領域,AI 可提升生產效率與產品質量。如中冶京誠推出“鋼智通”專家系統通過大語言模型提煉智能決策進行生產流程優化,能耗降低 1%,廢品
46、率降低 0.1%,整體管控效率提升 10%。四、科研智能生態建設情況 隨著人工智能與科學研究、產業研發的深度融合,產業界與學術界也逐漸形成日益緊密的合作,逐步構建起多元化產業生態體系,為科研智能的健康發展提供了有力支撐。(一)(一)產業組織產業組織 中國人工智能產業發展聯盟(AIIA)發起成立“科學智能(AI4S)工作組”,為產學研用各界搭建開放的交流合作平臺,前期已組織案例征集、供需對接、報告編制等工作,后續會重點圍繞新材料、地球科學等重點領域開展工作。(二)(二)社區建設社區建設 華為在科研智能領域積極構建了一系列專業且富有活力的社區,旨在推動 AI 技術的廣泛應用與深入發展。MindFl
47、ow SIG 社區專注于昇思 MindFlow 為科研人員、教師及學生提供了高效易用的 AI 計算流體仿真套件。MindEarth SIG 社區聚焦于昇思 MindEarth,為廣大用戶帶來高效便捷的 AI 地球科學套件。MindElec SIG 社區緊密圍繞實際生產中的各類電磁應用場景,在昇思 MindSpore 框架下積極科研智能(AI4R&D)人工智能驅動的研發新范式 20 探索和研究基于 AI 的電磁正問題及反問題,致力于開發高效精準的AI 電磁模型。MindSPONGE SIG 充分利用昇思 MindSpore 的優勢。聚焦 AI 計算生物領域,在為科研人員、教師及學生提供高效易用的
48、AI 計算生物軟件。深勢科技的 DeepModeling 開源社區提供開源的科學智能廣場(AIS-Square)共創平臺,支持科學計算、數據、軟件模型和工作流的開發。百度飛槳星河社區匯集豐富的 AI 原生應用,提供零門檻的開發工具,促進全球科研人員的合作。中山大學牽頭,北京航空航天大學、華為、百度等單位配合,共同建設 AI 科學智算群智協作社區,整合多方資源,建數據庫與課程,促開放協作,為科學智算發展助力。(三)(三)科研科研賽事賽事 百度持續推出飛槳黑客松、AI4S 共創計劃、大灣區杯百度賽道等科學智能賽事,聚焦 AI4S 前沿模型復現,貢獻 AI4S 模型或案例 50 余個。深勢科技提供真
49、實的科學場景和數據舉辦 AI4S Cup 系列比賽。華為舉辦“開源之夏”賽事聚焦科研智能,推出基于圖像深度學習的無線電信號識別項目,旨在推動 AI 與無線電技術融合,培育科研智能創新人才。中山大學牽頭舉辦了首屆“大灣區杯”粵港澳AI4S 科技競賽,北京航空航天大學、浙江大學、百度、華為等單位整體協同,針對人工智能科學計算問題設置 3 個賽道與 24 個賽題,賽題涉及 AI4S 的通用范式和模型,包括科學計算、流體、生物醫藥、分子、金融、社會學、電磁、化學、交通等多個領域的典型應用。和鯨科技舉辦數字醫療算法應用創新大賽等 500 余場專業數據科學科研智能(AI4R&D)人工智能驅動的研發新范式
50、21 競賽,覆蓋氣象、醫療等 20 余類行業。(四)(四)會議交流會議交流 北京科學智能研究院舉辦科學智能峰會,圍繞 AI4S 基礎設施共建、典型應用領域等話題進行深入探討。百度聯合高校舉辦全國智能流體力學研討會等會議,與高校師生共同探索 AI4S 的未來。以“科學智算(AI4S):交叉與賦能”為主題的 CCF 秀湖會議在蘇州舉辦,北京航空航天大學專家就多智能體科學智算模式進行學術報告,介紹了群體智能研究近期研究成果。首屆“人工智能科學計算學術研討會”上產學研各界對于人工智能推動科學計算劇變式創新的高度關注,通過匯聚全球人工智能科學計算領域的專家和先行者,打造科學智算支撐基礎科學探索和交叉前沿
51、發現的新興社區生態。中國計算機大會CNCC 2023舉辦的科學智算平臺技術前沿探討論壇會上北京航空航天大學、華為和百度等專家學者共同探討科學智算的最新研究方向及產業動向。(五)(五)教學培訓教學培訓 深勢科技支持舉辦 AI4S 系列主題的哥倫布訓練營活動,提供20 余門課程資源、2000 余篇實訓案例等國內外優質的 AI4S 教學資源。百度飛槳星河社區集成豐富的 AI 課程、深度學習樣例項目,為學習者提供高質量的學習資源。(六)(六)標準布局標準布局 中國信通院聯合之江實驗室等多家企事業單位,依托全國智能科研智能(AI4R&D)人工智能驅動的研發新范式 22 計算標準化工作組(SWG32)和中
52、國通信標準化協會(CCSA),正在研制體系化的科研智能標準。五、總結與展望 人工智能正在深刻影響和重塑科學研究和產業研發的范式,并經歷著快速而深刻的變革。高校、科研機構以及企業在跨學科研究和合作方面不斷探索,推動了人工智能與科學研究的深度融合,逐步形成了涵蓋多學科、多領域、多應用場景的多元化產業生態體系。展望未來,科研智能的發展將持續受到以下幾個方面的驅動。一是技術創新與突破。隨著人工智能算法、算力和數據的發展,有望進一步提升科研人員解決復雜科研問題的能力,激發更多技術創新和突破。二是跨學科融合。隨著科研智能應用的拓展,不同學科、不同行業領域之間的融合,也將推動新理論、新方法、新技術和新應用的
53、誕生。三是產業化應用。隨著科研智能在材料設計、氣象預測、工業仿真、新藥研發等領域的產業化應用,將為社會和經濟發展帶來深遠影響。四是政策保障。有為政府和有效市場的結合,將是科研智能發展的重要保障,為其長遠發展提供堅實基礎??傊?,科研智能正展現出強大的發展潛力,相信隨著各方力量的共同努力,科研智能將在解決重大科學問題和技術挑戰中發揮越來越重要的作用,為社會進步和人類福祉作出更大貢獻??蒲兄悄埽ˋI4R&D)人工智能驅動的研發新范式 23 附錄一 表 5 科研智能典型領域模型 領域領域 模型名稱模型名稱 功能功能 提出單位提出單位 地球科學 GraphCast 人工智能中期天氣預測模型,60 秒預測
54、未來 10 天,90%預測內容超過人類現有天氣預報。谷歌 FourCastNet 首個精度接近 IFS(歐洲中期天氣預報中心的綜合預報系統)的高分辨率(0.25)智能天氣預報模式。英偉達 Aurora 首個大規模氣象基礎模型,被用于預測和減輕極端天氣影響。微軟研究院 藥物研發 AlphaFold1、AlphaFold2、AlphaFold3 均是蛋白質結構預測模型,最新推出的 AlphaFold 3,可以前所未有的精度預測所有生命分子的結構和相互作用。谷歌 RoseTTAFold 基于深度學習的蛋白質結構預測模型,能夠處理蛋白質序列和結構信息,并生成高精度的蛋白質三維結構預測。華盛頓大學 Bi
55、oGPT 基于 GPT 的生成模型,專門用于生物醫學文本生成和理解。它在大規模的生物醫學文獻上進行了預訓練,能夠生成高質量的生物醫學文本。微軟研究院 醫療健康 Med-PaLM2 醫療大模型。知識檢索、臨床決策支持、患者分診。谷歌 Tx-LLM 通用醫療大模型,這是一種通用大型語言模型(LLM),由 PaLM-2 微調而成,可編碼有關各種治療方式的知識。谷歌 ChemCrow 化學任務設計的大語言模型(LLM)在完成有機合成、藥物發現和材料設計等各種任務。洛桑聯邦理工學院、羅切斯特大學 scGPT 專為單細胞轉錄組學、染色質可及性和蛋白質豐度而設計的基礎模型。多倫多大學 HyenaDNA 原始
56、 DNA 序列的基礎模型。斯坦福大學 MolReGPT 利用大型語言模型探索分子發現,使用提示來指導 LLM 在分子和分子文本描述之間進行翻譯。香港理工大學、密西根州立大學 材料科學 GNoME 材料探索圖形網絡 GNoME,發現了多達 220 萬種理論上穩定,但絕大部谷歌 科研智能(AI4R&D)人工智能驅動的研發新范式 24 分在實驗上尚未實現的晶體結構。MatterGen 無機材料設計的生成式大模型。MatterGen 是擴散模型的一種,專門設計用于生成新穎、穩定的材料。微軟研究院 MatterSim 能夠在廣泛的元素、溫度和壓力范圍內,準確高效地模擬材料和預測性能,預測材料在原子層面的能量、力和應力,且能夠降低 90%-97%的數據需求。微軟研究院 DARWIN 為物理、化學和材料科學應用的專業化大語言模型(LLM),利用開源科學 FAIR 數據集和科學文獻數據集。通過學習大量分子數據庫結構,提供可行的化合物和其性質,加速新材料的發現和開發。悉尼威爾士大學、澳大利亞超算中心