《中國科學院:中國開放數據白皮書2024(38頁).pdf》由會員分享,可在線閱讀,更多相關《中國科學院:中國開放數據白皮書2024(38頁).pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、中國開放數據白皮書2024The State of Open Data in China 2024長期關注中國學者的開放數據態度、共享實踐與政策環境A long-term focus on Chinese scholars attitudes towards open data,their sharing practices,and the policy environment2024年12月2科學數據的開放共享是科技創新的源泉,是科技事業發展的必然產物和共性規律。于貴瑞中國科學院院士中國科學院地理科學與資源研究所研究員 開放數據共享對于加快科學發現具有巨大潛力,也是施普林格 自然進一步開放科
2、學的承諾和努力的一部分。我十分高興看到開放數據共享在全球,尤其是在中國的增長,其中中國科研人員對這一開放科研的實踐展現了極大熱情。隨著政府機構、科研資助機構、學術機構和出版機構的開放數據政策,正結合起來產生重要的影響力,施普林格 自然將繼續通過擴大我們的數據政策、與各界建立更緊密的伙伴關系,以及應用人工智能等新技術,助力形成一種開放的科研文化。STEVEN INCHCOOMBE(史蒂文 印馳庫姆)施普林格 自然科研總裁DOI:https:/doi.org/10.6084/m9.figshare.28044521中國開放數據白皮書2024目 錄 前 言 42024年中國開放數據情況分析報告 6中
3、國材料腐蝕科學數據分析利用技術的研究現狀和展望 14中國生態系統野外臺站長期觀測數據開放共享的實踐與思考 16我國人類遺傳資源數據管理與開放共享的現狀及思考 20數據驅動的多學科交叉研究探索 22國家青藏高原科學數據中心:引領地學數據開放共享 24數據與智能聯合驅動的生命科學研究新范式實踐與進展 26中國數據論文現狀分析 28中國科技資源標識應用實踐和探索 30讓開放變簡單:AI 可以推進開放科學嗎?32作者簡介 34中國開放數據白皮書20244科學數據是科技創新的核心資源??茖W數據的主要來源一般包括大科學裝置、實驗試驗與計算、野外臺站觀測網絡、科學考察、科技項目匯交、國際合作計劃和交互、科研
4、論文產生的關聯數據。2023年12月31日,國家數據局會同多部門聯合印發 “數據要素”三年行動計劃(20242026年),提出“充分發揮數據要素乘數效應,賦能經濟社會發展”的目標。在此背景下,2024年中國開放數據報告 應運而生,通過對調研問卷的深入分析,全面梳理了中國開放數據的現狀、問題和發展趨勢。同時,還匯集了多個國家科學數據中心在各學科領域科學數據開放共享和應用發展方面的報告,以及中國單細胞轉錄組數據開放共享實踐進展、中國數據論文的發展現狀等報告,為讀者呈現了一幅豐富多彩的數據開放共享畫卷。2024年,中國學者對開放數據的支持度保持在高位并呈現逐年增長態勢,期刊和出版商的數據政策對中國學
5、者數據共享行為的影響力在增強。同時,關于開放數據,我們還面臨著諸多挑戰,比如受訪者擔心自己的成果不能夠被正確使用、希望自己獲得更為充分的數據共享貢獻認可,科研機構、資金資助方等對科研人員共享數據的引導作用還不夠。但我國開放數據的工作進展不斷向好。國家數據政策的不斷出臺、開放數據存儲庫的建設推廣、學者們對開放數據的認可度不斷提升,以及人工智能技術對開放數據的輔助支持,都是我國開放數據事業發展的強勁動力。國家材料腐蝕與防護科學數據中心馬菱薇等介紹了國內材料腐蝕科學數據的發展情況,從數據的特點、數據資源采集及分析挖掘技術、材料耐蝕性能與壽命預測等方面進行了具體闡述。目前,國家材料腐蝕與防護科學數據中
6、心已經開展150余個不同氣候環境和重大工程腐蝕大數據聯網觀測,相關數據分析方法和模型,解決了腐蝕產物累積效應下腐蝕非線性動力學過程無法準確建模仿真的難題。文章最后,提出了通過“數據-知識”智能融合驅動、跨模態知識圖譜、腐蝕領域大語言模型等新型科研范式持續推進材料腐蝕科學數據共享應用的未來展望。國家生態科學數據中心何洪林等介紹了國內外生態系統野外臺站(網絡)長期觀測數據開放共享發展情況。國家生態科學數據中心在推動中國生態系統野外臺站長期觀測數據開放共享過程中開展了諸多實踐,包括編制出版生態系統和生物多樣性領域野外站觀測技術規范、生態系統野外臺站長期觀測數據產品的團體標準;開發和出版數據專著、圖集
7、、數據論文等野外站數據產品;研發多個數據應用分析挖掘工具;建立新一代生態網絡云平臺等。并針對新科研范式對野外臺站長期觀測數據的開放共享提出的挑戰和需求,提出了未來持續推進數據開放共享的主要著力點。國家基因組科學數據中心張思思等聚焦于人類遺傳資源的數據管理與共享,系統梳理了國際人類遺傳資源管理制度與框架的特點,分析其對資源管理與共享利用的啟示;同時,深入探討了我國人類遺傳資源管理制度,總結了國家生物信息中心在我國人類遺傳資源數據管理中取得的成效與積極作用。最后,探討了人類遺傳資源數據共享問題,并展望了深化人遺平臺建設的方向,包括引入新型數據管理機制,推廣數據共享模式,推動高質量數據生成,賦能生命
8、科學創新發展。國家基礎學科公共科學數據中心胡良霖等介紹了中心數據資源體系建設情況,精心梳理了戰略性新興產業等對應的科技項目匯交專項數據,并依據國家“數據要素”三年行動計劃中明確的12個行業和領域梳理了相關場景所需的數據資源。中心開展了多學科交叉實踐探索,如研究多學科跨領域數據融合服務網絡關鍵技術與基礎框架,開展基礎領域多學科交叉融合應用研究。最后,針對當前面臨的挑戰,提出了科學數據供給、科學數據治理理論和方法、科研基礎設施、科學數據要素化路徑等應對和發展建議。國家青藏高原科學數據中心潘小多等分享了中心在引領地學數據開放共享方面的實踐。中心在數據共享、質量控制、數據評審等方面取得顯著成效,支持了
9、青藏科考等一系列國家重大項目,促進了青藏高原地球系統科學創新。未來,中心還將從數據圖書館階段全面轉型到數據實驗室階段,充分發揮數據對未來地學科技創新的支持能力,推動數字孿生地球發展,更好地服務社會需求和國家戰略。中國科學院動物研究所李鑫等以生命科學領域單細胞組學數據為切入點,介紹了國內外生命科學領域數據開放發展態勢。國際上合作開展的人類細胞圖譜數據庫為探索和理解人體細胞的多樣性和復雜性,促進單細胞生物學和醫學研究的發展,以及實現利用人工智能解析基因功能與復雜生物過程,提供了寶貴的資源。我國單細胞組學數據開放與利用也取得了顯著進展,包括生命領域科學數據的標準化收集與整合、高質量開放共享體系構建與
10、高水平數據賦能生命科學研究等方面的實踐探索。未來,我國將構建更高質量的生命科學數據開放體系,迎來數據、智能聯合驅動的生命科學研究新范式與高質量數據開放共享協同發展。前 言于貴瑞 中國科學院院士、中國科學院地理科學與資源研究所研究員周園春 中國科學院計算機網絡信息中心副主任、研究員中國科學院文獻情報中心劉筱敏對中國數據論文現狀進行分析。梳理了我國數據期刊的創辦、相關政策及數據論文標準規范的制定情況,認為這些積極的政策條件,引導了我國數據論文出版的新發展。以Web of Science為數據源,觀察和分析了中國學者和機構發表數據論文的貢獻。從數據論文發表國別來看,中國發表2092篇論文,位列全球第
11、二;從全球數據論文發表機構來看,中國科學院位列全球第二。我國的國際合作論文較多,占論文總數45.1%,覆蓋了135個國家/地區,其中中美合作發表的論文占全部國際合作論文的49.1%。中國發表的數據論文引用頻次較高,篇均被引21次,但主要引用來自中國學者,影響力的廣泛性有待進一步提升??傮w來看,全球數據論文發展仍在起步階段,發文數量少且國家分布不均勻。但數據論文因其嚴格的同行評議、靈活的開放獲取、詳盡的數據描述等機制優勢,勢必將對科研和社會發揮重要作用。中國科學院計算機網絡信息中心王姝等介紹了我國科技資源標識服務平臺建設,重點分析科技資源標識在不同領域的應用探索情況,如大科學裝置領域的數據溯源與
12、可追溯性、科研資源共享與整合、科研趨勢分析與預測,生物多樣性領域的數據標準化與規范化、數據共享與整合、科普教育與公眾參與。預測未來的科技資源標識會更加智能化、數字化和標準化:通過科技資源標識與人工智能深度融合,標識系統將更加智能化,應用于自動標注、智能檢索和個性化推薦;通過標識標準和規范建設,提高系統間的互操作性,提升資源使用效率和準確性。施普林格 自然Niki Scaplehorn探討了人工智能在促進開放科學方面的作用。生成式人工智能的快速發展,可以幫助作者更便捷地生成高質量、結構化的元數據。另外,生成式人工智能與其他技術相結合,可以用來準確識別論文稿件中的數據類型,區分新生成的或重復使用的
13、數據,檢查是否符合數據政策,并輔助作者編寫全面的數據可用性聲明。此外,施普林格自然正在探索人工智能的更大潛力,使作者更容易發表數據論文,并提高其的可見度。雖然技術本身并不能解決開放科學的難題,但是人工智能技術可以幫助作者更好地遵守期刊數據共享政策,減輕編輯和作者的工作負擔,提高論文質量,并最終推進科學發現?;赝^去一年,中國開放數據事業在多方共同努力下取得了顯著進展,展現出了蓬勃的生命力和廣闊的發展前景。中國學者對開放數據的支持熱情持續高漲,期刊和出版商的數據政策在推動數據共享方面發揮了越來越重要的作用。多家國家科學數據中心等機構在各自領域的數據開放共享方面開展了大量實踐探索,取得了顯著成效。
14、這些機構不僅推動了數據的標準化、規范化和高質量開放共享,還通過研發數據分析工具、建立云平臺等方式,為科研人員提供了便捷的數據獲取和利用途徑。此外,中國數據論文的發展也呈現出良好的態勢,為全球數據論文的發展貢獻了中國智慧和力量。我們相信,隨著數據政策的不斷完善、開放數據存儲庫的建設推廣、學者們對開放數據的認可度不斷加強以及人工智能技術的不斷發展,我國開放數據事業將迎來更加廣闊的發展前景。我們將繼續秉持開放、共享、合作的理念,推動數據資源的充分利用和價值最大化,為科技創新和社會發展注入新的動力和活力。62024年是figshare與Springer Nature攜手面向全球科研人員發放 開放數據狀
15、況調查問卷 的第9年。本報告主要針對2024年中國受訪學者在開放數據領域的調研成果,回顧2016年至今的調研數據,闡述本次調研的基本信息、主要發現以及相關對策建議。本次調研共收到來自中國學者的有效問卷414份,中國受訪者占全球參與總人數的9%,位列全球第三。近三年中國參與人數整體比例較高,維持在10%左右(圖1)。參與本次調查的中國受訪者中,七成來自高校,其次是科研機構(13%)和醫學院(8%),分列第二位和第三位(圖2)。學科分布上,排名前三位的分別是醫學(21%)、生物學(19%)和工程科學(13%),今年來自社會科學領域的受訪者明顯增加,排名第四位(工程科學54份,社會科學52份)(圖3
16、)。受訪者職業分布上,博士或碩士研究生約占47%,占比最高,副教授(13%)、博士后(11%)分列第二位和第三位。姜璐璐 張澤鈺 李宗聞 李成贊 周園春中國科學院計算機網絡信息中心圖2 中國受訪者所屬機構類型前五(2024)圖1 全球問卷中的中國受訪者占比(2016-2024)圖3 中國受訪者所從事學科領域前十(2024)2024年中國開放數據情況分析報告一、問卷調查基本信息基于2024年調查收到的中國學者問卷,結合2016年以來的中國受訪者問卷,圍繞中國科研群體在開放數據領域的態度、動因、阻礙、實踐等進行統計分析,主要發現包括:1.中國學者對開放數據的支持度保持在高位并呈現逐年增長態勢近年來
17、,隨著開放科學和開放數據理念的進一步普及,越來越多的中國學者開始了解并接觸到相關內容與實踐。20222024年的統計數據顯示,支持“讓研究論文開放獲取成為學術慣例”的中國受訪者近三年呈逐年上升趨勢,其中,2023年(83%)和2024年(85%)支持率已超八成。與此同時,不同意率常年低于5%(圖4)。對于“讓研究數據開放獲取成為學術慣例”的態度,近三年來,持同意態度的受訪者穩定在六至七成,不同意者近三年均低于10%(圖5)??梢钥吹?,一方面,中國科研人員對于論文開放獲取、數據開放共享,整體持更為積極的態度;另一方面,中國學者對于數據開放共享的認可度普遍低于對論文開放獲取的認可度,開放數據理念有
18、待進一步推廣和普及。關于“您對國家強制要求公開研究數據的支持程度如何”,近三年來,中國學者中的支持人數遠高于反對或中立的人數,反對人數常年低于10%(2024年為6%,圖6)??梢钥闯?,中國學者對國家強制要求公開研究數據整體呈積極態度。中國學者對于開放數據相關概念的了解程度也在逐步提高。統計數據表明,20182024年,熟悉或聽說過FAIR原則的中國學者呈上升趨勢,從未聽說過此原則的學者呈下降趨勢;2020年起,熟悉或聽說過FAIR原則的中國學者占比超過從未聽說過此原則的人數(圖7)。2018年,國務院辦公廳發布 科學數據管理辦法,首次從國家層面對我國科學數據管理做出政策指引。隨后幾年,國內陸
19、續出臺相關政策法規積極推動科學數據規范化使用和管理,為我國科學數據管理營造了更加完善的制度環境。圖5 中國受訪者對研究數據開放獲取的態度圖6 2024年中國受訪者對國家強制要求公開研究數據的支持程度圖7 中國受訪者對FAIR原則的了解程度圖4 中國受訪者對研究論文開放獲取的態度二、調研主要發現82.期刊和出版商的數據政策對中國學者數據共享行為的影響力在增強在數據共享的驅動因素上,“期刊/出版商要求”對中國學者的影響力明顯增強,到2024年已達69%的受訪者將其列為驅動因素(圖8)。這種影響力的增強,主要源于要求或鼓勵數據共享的國內外期刊范圍逐年擴大,推動了更多的中國學者在論文發表過程中參與數據
20、共享實踐。2023年以來,Springer Nature等出版商更新了期刊數據政策,旨在號召更多的科研工作者參與開放數據。近年來,中國的期刊主管部門不斷引導和推動中國期刊參與開放數據工作,如中國科學院、中國科學技術協會等先后發布政策文件,鼓勵和要求期刊制定數據政策,開展論文關聯數據的管理與共享工作。這些政策的出臺讓開放數據走入更多期刊的視野,越來越多的中國主辦期刊建立起了期刊數據政策。在數據共享方式上,2024年的調查結果顯示,有51%的中國受訪者選擇“論文補充材料(Supplementary information attached to a research data)”的形式共享數據,且
21、選擇這一方式的受訪者比例自2022年至今有明顯提升(從2022年的36%提升到2024年的51%,圖14)。盡管“論文補充材料”并非數據共享的最佳實踐方式,但反映出中國學者數據共享實踐的覆蓋度在提升。將數據隨論文一同發表是其中一條便捷且普遍的途徑。同時,“資金資助方要求”(59%)“單位/機構要求”(50%)的影響占比較之前也有明顯提升。從趨勢上來看,政策制定方對中國學者數據共享行為的影響總體在增強。3.成果被“搶發”、數據濫用以及涉敏感信息問題成為數據共享時的主要擔憂關于中國學者在數據共享時的主要擔憂,2024年的統計結果顯示,“成果被 搶發”(42%)、“數據濫用”(39%)以及“包含敏感
22、信息或數據共享前須獲研究對象允許”(36%)是占比最高的幾項顧慮。與2023年的統計結果相比,“包含敏感信息或數據共享前須獲研究對象允許”(57%)的擔憂似乎得以疏解(圖9)。不同學科背景的中國學者,擔憂因素的占比呈現一定的差異性。以下就近三年來參與度最高的5個學科領域的中國學者問卷進行了分析。醫學領域,搶發、涉敏和數據濫用依次最受關注,其中,搶發、涉敏、“其他實驗室可能對我的數據有不同解讀”(29%),在所有領域里占比最高。生物學領域,除了前述提到的3項擔憂,“分享數據的成本”(33%)、“數據太大,無法共享”(29%)的擔憂比重較高,這與領域數據特征有著緊密關系。地球與環境科學領域,學者們
23、最為顧慮的依次為搶發、濫用、“我不確定我有資助者或機構的許可來分享數據”(33%)和涉敏,其中,有13%的領域學者認為“我沒有分享數據方面的問題/擔憂”,這一比例明顯高于其他學科。工程學領域的統計情況與總體結論較為一致。社會科學領域,最受關注的依次為搶發、數據濫用和涉敏,數據濫用(44%)和“我不確定我已經獲得了所有潛在的研究結果”(31%)的擔憂明顯高于其他領域(圖10)。圖8 中國受訪者數據共享的驅動因素(20222024)4.中國學者在數據共享上的貢獻認可度仍待加強在中國受訪者的數據共享動因分析中,“數據引用”在20222024年都是第一動力,且均超60%。數據引用與科研人員在數據共享方
24、面的認可度關系密切。完整的數據引用既是對科研人員數據類研究成果的尊重和認可,又是對科研人員學術聲譽的重要累積。同時,2024年的調查表明,關注自己的學術評價(“數據引用”74%,“論文引用”66%)和影響力(“提升我的研究影響力和可見度”68%),仍是中國學者共享科研數據的最主要動因,這與全球學者的數據共享動因一致。但現實情況是,中國受訪者認為自己在數據共享方面的貢獻并未獲得足夠認可。20192024年的統計結果顯示,更多數的中國受訪者認為研究人員在共享數據上的貢獻并未得到足夠認可(包括太多或太少),人數比例常年穩定在約50%60%之間;與此同時,認為研究人員在數據共享上獲得足夠認可的人數大致
25、維持在15%25%之間,遠低于前者(圖11)。在“共享數據方面獲得過什么認可”方面,20222024年的統計顯示,認為自己“從未在共享數據方面獲得認可”的人數比例逐年增加,到2024年已達到31%,近三成以上的中國學者認為自己從未在共享數據方面獲得認可(圖12)。圖9 中國受訪者在數據共享時的擔憂(20222024)圖10 不同領域的中國受訪者在數據共享時的擔憂(20222024)105.科研機構、基金資助方等權威部門需要進一步引導科研人員共享數據2024年,關于“您在公開研究數據方面需要哪些領域的幫助”,認為需要“數據版權或許可協議”的受訪者最多,占比為55%;其他選項分別為“尋找合適的數據
26、存儲庫”(48%)、“尋找合適的基金來長期保存數據”(42%)和“數據管理政策”(37%)(圖13)。關于這一問題,報告結合問題“您會如何與公共觀眾分享您的研究數據”的選擇情況進行了相關性分析。選擇需要“數據版權或許可協議”幫助的受訪者中,61%選擇了使用機構存儲庫進行數據共享,55%通過研究論文附加信息共享數據。選擇需要“尋找合適的數據存儲庫”幫助的受訪者中,66%選擇了使用機構存儲庫進行數據共享,57%通過研究論文附加信息共享數據。選擇需要“找到適合的基金支持”幫助的受訪者中,63%選擇了使用機構存儲庫進行數據共享,55%通過研究論文附加信息共享數據??梢园l現,大部分受訪者不論需要怎樣的幫
27、助共享數據,都會傾向選擇數據存儲庫作為數據共享的最佳實踐。2024年,關于科研人員分享數據的方式,最多的選擇是機構存儲庫(60%),其次是論文附加信息(51%)、資金資助方存儲庫(32%)和外部存儲庫(27%)(圖14)。同時,科研人員對于數據共享所需要的幫助,更多寄希望于數據存儲庫(75%),這與科研人員選擇的數據共享方式也有一部分吻合,可見中國學者越來越多地認同和選擇了數據存儲庫。其他選擇分別為同事或導師(46%)、圖書館(40%)、網絡搜索(38%)和出版商(36%)(圖15)??梢园l現,仍有不少人習慣性地依賴同事的建議或網絡搜索等非正式途徑尋求幫助,而對機構科研管理部門、基金資助方、專
28、業第三方服務商等的期望不高。側面表明,科研人員所在機構、基金資助方等部門發揮的作用不夠明顯。圖13 中國受訪者共享數據所需要的幫助(20222024)圖14 中國受訪者的共享數據方式(20222024)圖12 中國受訪者因共享數據得到過的認可(20222024)圖11 中國受訪者對數據共享貢獻認可度的態度6.AI工具正在被更多地用于輔助數據管理2024年,科研人員使用ChatGPT等AI工具進行數據收集、數據處理和元數據創建的態度更加積極,已經和經常使用(共24%)、計劃使用(36%)AI工具的人數相較去年有一定上升,不考慮使用的人數則明顯下降。其中,在數據處理階段使用(經常使用、已開始使用)
29、AI工具的受訪者占比最高(圖 16)??梢?,AI工具正在輔助更多的科研人員開展數據管理和共享工作。圖15 中國受訪者在獲取數據管理或開放幫助時所依賴的資源(20222024)圖16 中國受訪者使用ChatGPT等AI工具管理數據情況(a-用于數據收集,b-用于數據處理,c-用于元數據創建和格式整理)121.政策制定方仍需繼續加強引導2024年的問卷統計顯示,期刊/出版商、機構及資金資助方的政策要求對中國學者開放數據共享行為的影響力有明顯提升。其中,期刊/出版商的數據政策要求成為最重要的共享數據驅動因素之一。同時,在開放數據的態度上,有60%的中國受訪者支持將數據共享作為國家層面的強制要求,78
30、%受訪者支持開放數據成為學術慣例。這與中國政府長期以來的開放數據政策,尤其是2018年科學數據管理辦法 頒布以來制定的相關法規和引導措施密不可分。但在實踐過程中,仍存在很多政策不明晰和未健全之處。如“關于不同領域學者在開放數據時的擔憂”分析中,“我不確定我有資助者或機構的許可分享數據”成為包括地球與環境科學、生物科學領域較為擔憂的因素;在開放數據需要的幫助上,55%的中國受訪者提出需要版權或許可協議的幫助,54%提出需要額外投入時間來管理數據,37%提出在數據管理政策上需要幫助等。中國在數據共享領域的頂層政策框架日臻完善,但對于開放數據中的權屬、安全、共享路徑等關鍵問題,仍亟需具體的實施指南、
31、標準規范等確保落實。一方面,數據共享工作的頂層設計仍需健全,同時,建議資金資助方、機構進一步發揮引導作用,承擔起連接頂層設計與底層實施間的重要紐帶作用;另一方面,各領域數據共享訴求存在差異,精細化需求須被關注和滿足。此外,期刊/出版商作為推動開放數據的重要力量,仍需繼續拓展實踐范圍和發揮引導作用,助力科研人員深入參與開放數據。2.建立科學數據共享激勵機制體系歷年數據的變化趨勢表明,中國學者整體對開放數據的態度較為正面,熟悉度逐年提升。然而,仍有超半數受訪者認為研究人員在共享數據上的貢獻并未得到足夠認可。2024年,31%的受訪者表示自己“從未在共享數據方面獲得認可”。在這樣的情勢下,給予科學數
32、據貢獻者足夠認可,建立數據共享激勵機制體系顯得尤為迫切。數據共享激勵機制體系的建立需要多措并舉,共同推進,主要提出以下三點建議:(1)科學數據的標準規范化引用。數據引用是對他人數據成果的尊重和認可。歷年統計結果也顯示,“數據引用”最能促使中國科研人員共享數據。因此,為了促進科學數據開放共享,更好地培育開放數據理念和氛圍,應當推行科學數據的標準規范化引用。在完整引用的基礎上,對引用情況開展進一步統計分析,及時向數據貢獻者反饋,進一步激勵科研人員開展數據研究,活躍數據共享氛圍。(2)科學數據成果納入科研評價體系。將科學數據成果納入科研評價體系,有助于激勵科研人員產出高質量科學數據,開展數據共享相關
33、工作,提升科研人員獲得感及數據成果認可度。目前,已有科研機構鼓勵科學數據成果納入考核評價體系。例如,2019年中國科學院發布的 中國科學院科學數據管理與開放共享辦法(試行)中,第二十五條明確指出“院屬法人單位應將數據論文納入成果統計和晉升考核”,同時,鼓勵創辦數據論文期刊。(3)對科學數據開放共享給予相應資金資助。2024年的統計結果顯示,在談到“您在公開研究數據方面需要哪些領域的幫助”時,超過40%的中國受訪者選擇了“找到適合的基金支持”??茖W數據的產生、加工、分析、存儲等各環節均需花費必要的經濟成本,只有給予科研人員和團體相應的資金支持,才能讓科研工作者有條件長期從事科學數據研究及開放共享
34、工作。三、對策與建議 3.采用數據存儲庫是數據共享的最佳實踐方式報告通過對科研人員共享數據所需幫助、共享數據方式這兩個問題的相關性研究,發現數據存儲庫成為科研人員的共同選擇,這也與倡導的數據共享最佳實踐相契合。同時,報告還注意到,很多受訪者表示需要基金來維持長期數據共享。因此,公共、可信、公益的數據存儲庫的建設和穩定運行需求就顯得尤為迫切。公共的、可信的數據存儲庫是數據共享的有效基礎設施。這不僅滿足了科研人員對免費、長期、安全穩定的共享數據的需求,還避免了機構重復建設數據存儲庫耗費資金、人力等成本。國際上對于數據存儲庫的建設,具有相關標準和慣例,如TRUST原則、FAIR原則等;此外,期刊出版
35、商、學術索引平臺,也對數據存儲庫的國際化、標準化有較高要求,并提供了認定的推薦名單。例如,由我國自主研發運維的科學數據銀行(Science Data Bank,ScienceDB)就是我國首個且唯一獲得Springer Nature推薦的通用型數據存儲庫,已經為全球15000多個期刊/機構提供論文管理數據出版服務,并通過云服務模式,實現了與國家科學數據中心、出版社等數據社區共建合作,在空間科學、農業農村、生態等重點領域形成了良好的數據共享社區示范。因此,報告建議科研機構、基金資助方等,可以通過與數據存儲庫合作共建的方式,滿足科研人員數據共享需求。此外,還應建立推薦的數據存儲庫名單,以此激勵和指
36、導科研人員的共享數據行為。4.科研機構和資金資助方應為科研人員提供專業數據管理指導近年來,我國在數據管理領域相繼出臺了 科學數據管理辦法中華人民共和國數據安全法中華人民共和國個人信息保護法 等法律法規。另外,國際組織、出版商等對于開放科學、開放數據等的最新倡導和政策也在持續更新和發展。這些均與科研人員的數據管理和共享工作息息相關,數據共享相關知識已經成為科研人員的必修課。2024年的調查顯示,科研人員對于數據管理和共享的培訓需求表現得尤為明確??蒲腥藛T需要專業的數據版權和許可協議、數據管理政策等知識,來指導他們的數據共享實踐。而這些資源有賴于他們所在的科研機構、高校等主體提供,并肩負起培訓指導
37、責任。報告建議高校將數據檢索、管理、共享等知識納入相關公共課程,從科研人員的學生階段就播下“開放數據”的種子;科研機構則可以定期組織國內外數據法規政策、數據存儲庫使用的普及培訓,鼓勵科研人員在科學研究過程中盡早將數據作為重要的學術資源進行管理和共享,助力科研創新和合作。14本文追蹤國內材料腐蝕科學數據的發展軌跡,深入剖析數據的特點、數據資源采集及分析挖掘技術、材料耐蝕性能與壽命預測等關鍵議題。展望未來,提出通過“數據-知識”智能融合驅動、跨模態知識圖譜、腐蝕領域大語言模型等新型科研范式,持續推進材料腐蝕科學數據的共享應用。一、材料腐蝕科學數據的特點材料腐蝕普遍存在基礎設施、交通運輸、能源化工、
38、電子通信等眾多領域,每年造成全球經濟損失超過數萬億美元,并且帶來環境污染、災難性事故和人員傷亡1。在工程裝備真實服役條件下,材料耐腐蝕性能影響因素眾多,失效過程復雜。腐蝕數據中蘊含了大量未知過程信息,廣泛而連續地積累這些腐蝕數據并利用其進行腐蝕建模仿真,對深入解析腐蝕機理、預測腐蝕規律具有重要意義。材料腐蝕過程受材料成分、制備工藝與服役環境等諸多因素的復雜耦合作用影響,且隨時間呈現高度非線性變化。因此,由表征腐蝕程度和腐蝕影響參量構成的材料腐蝕數據呈現明顯的高維特征,且高維屬性相互關聯,往往難以通過傳統多參量物理模型對其內稟關系進行描述。針對這一問題,早期以美國、歐洲、澳大利亞為主的國外研究團
39、隊利用人工神經網絡、支持向量機、隨機森林及其改進優化算法,重點開展了對各類材料在實驗室測試條件下腐蝕數據的分析挖掘工作,從而建立了材料成分、實驗條件與腐蝕失效程度之間的預測模型,并初步實現了對材料成分設計的快速篩選尋優。二、國內腐蝕科學數據分析利用技術的研究現狀我國高度重視材料腐蝕科學數據的積累與應用,長期投入并建成了國家級材料腐蝕野外觀測試驗站網和國家材料腐蝕與防護科學數據中心,以保障材料腐蝕科學數據的開放共享與高效利用。利用廣泛開展自然環境腐蝕野外試驗所積累的豐富數據資源,我國學者主要開展了針對大氣、土壤、海水環境參數與腐蝕速率等數據的挖掘建模研究。針對這類數據小樣本、高維度、離散性大、采
40、集頻率不一等特點以及存在數據缺失、概念漂移等問題,國內研究團隊重點關注了環境影響參量高效篩選降維與腐蝕性能預測數據相關機器學習優化算法的研究。例如,針對碳鋼、耐蝕鋼、銅及銅合金、鋁及鋁合金以及高分子樹脂材料在我國典型大氣環境下的長周期掛片腐蝕數據集,運用神經網絡、小腦模型、決策樹模型、支持向量回歸、灰色預測、證據理論、遺傳算法、隨機森林等數據挖掘方法進行優化與集成,建立了材料成分-環境參數-耐蝕性能之間的機器學習模型,開展了面向多樣性氣候環境材料耐蝕性能與壽命的預測研究。相關研究已在能源電力、海洋工程、交通運輸等重點領域得到初步應用,實現了在復雜自然環境下的快速選材與腐蝕壽命評估2-3。經過近
41、二十年的不斷發展,國內外材料腐蝕與防護數據分析挖掘技術研究已經初具規模。2015年,筆者團隊在 Nature 發表評述文章,提出了材料腐蝕大數據的原創學術觀點,為破解材料在復雜動態真實環境的腐蝕預測這一腐蝕學科百年難題提供了全新研究思路4。在國內外眾多學者團隊共同研究與合作下,材料腐蝕大數據領域已逐步構建了涵蓋多源異構腐蝕數據的高通量采集、腐蝕大數據分析建模、腐蝕大數據共享應用等關鍵環節的完善研究體系,為這一技術領域的未來發展指明了方向。隨著腐蝕傳感器的創新與聯網觀測技術的突破,對各類材料、裝備腐蝕動態過程及其所在環境變化的監測數據,將逐步取代傳統的基于腐蝕掛片試驗所得到的小樣本數據。發展適用
42、于聯網觀測“大數據”的分析挖掘方法,有望更精細地描述材料與其所在腐蝕環境的復雜作用機制,從而更準確地預測材料腐蝕萌生發展動力學演化規律5。目前,國家材料腐蝕與防護科學數據中心已經開展了覆蓋國內外150余個不同氣候環境和跨海大橋、清潔能源、川藏鐵路等重大工程的腐蝕大數據聯網觀測,初步探索了適用于多通道腐蝕-環境數據流的數據分析方法,提出了適用于動態腐蝕表面的隨機森林自適應迭代模型,成功解決了腐蝕產物累積效應下腐蝕非線性動力學過程無法準確建模仿真的難題2,并在此基礎上基于遷移學習、生成模型等方法開展了戶外數據缺失條件下的腐蝕預測研究6。馬菱薇 張達威 程學群 李曉剛北京科技大學新材料技術研究院中國
43、材料腐蝕科學數據分析利用技術的研究現狀和展望三、腐蝕科學數據分析利用技術的未來發展知識圖譜、自然語言處理等人工智能技術的最新進展,使材料腐蝕數據技術有望突破數據挖掘“黑箱”模型的局限,實現“數據-知識”共同驅動下的復雜腐蝕行為機理研究。利用大規模數據資源和知識體系的有機集成,將助力完成耐蝕材料設計、防腐方案推薦等個性化任務。例如,國家材料腐蝕與防護科學數據中心建立了整合材料成分、結構數值數據和加工工藝語義信息的跨模態知識圖譜,通過數據-知識間復雜關系的構造增加特征空間的信息密度,提升小樣本腐蝕數據模型的預測水平。近年來,大語言模型也在材料推理預測方面展現出巨大潛力。這些模型憑借龐大網絡規模和深
44、度學習能力,在多源異構數據整合、復雜模型特征提取、腐蝕分析決策等方面具有顯著優勢。面對重大裝備多元化應用場景的需求,結合材料腐蝕數據分析挖掘技術與腐蝕聯網觀測技術,構建材料腐蝕數字孿生模型,支撐多源異構腐蝕數據的智能管理融合以及高效處理與利用,將實現材料腐蝕狀態與環境狀態時空分布的建模仿真和推演預測。材料腐蝕數字孿生系統的建立,將有助于發現腐蝕程度、環境氣候、工業生產之間更深層次的新規律,為設施裝備耐蝕材料選材設計和服役壽命預測提供更為系統化、可視化的指導依據。參考文獻1 HOU B R,LI X G,MA X M,et al.The cost of corrosion in ChinaJ.N
45、PJ Materials Degradation,2017,1:4.DOI:10.1038/s41529-017-0005-2.2 PEI Z B,ZHANG D W,ZHI Y J,et al.Towards understanding and prediction of atmospheric corrosion of an Fe/Cu corrosion sensor via machine learningJ.Corrosion Science,2020,170:108697.DOI:10.1016/j.corsci.2020.108697.3 YANG X J,YANG Y,SUN
46、M H,et al.A new understanding of the effect of Cr on the corrosion resistance evolution of weathering steel based on big data technologyJ.Journal of Materials Science&Technology,2022,104:6780.DOI:10.1016/j.jmst.2021.05.086.4 LI X G,ZHANG D W,LIU Z Y,et al.Materials science:Share corrosion dataJ.Natu
47、re,2015,527(7579):441442.DOI:10.1038/527441a.5 LI Q,XIA X J,PEI Z B,et al.Long-term corrosion monitoring of carbon steels and environmental correlation analysis via the random forest methodJ.NPJ Materials Degradation,2022,6:1.DOI:10.1038/s41529-021-00211-3.6 WANG B Q,MU Y Q,SHEN F M,et al.Identifica
48、tion of corrosion factors in blast furnace gas pipe network with corrosion big data online monitoring technologyJ.Corrosion Science,2024,230:111906.DOI:10.1016/j.corsci.2024.111906.16隨著生態學觀測技術的發展和全球生態環境問題的凸顯,生態學步入“大數據”“大科學”時代1。生態系統野外觀測研究站(以下簡稱“野外臺站”)作為獲取第一手科學數據的核心平臺,是國家科技創新體系的重要組成部分2。中國較早開始了生態系統觀測研究
49、網絡的建設。中國生態系統研究網絡(CERN)由中國科學院于1988年組建,目前包括44個野外臺站、5個學科分中心、1個綜合研究中心和1個數據中心,已發展成了與美國長期生態研究網絡(LTER)、英國環境變化監測網絡(ECN)齊名的生態觀測研究網絡。2005年,科技部聯合多部門構建了國家生態系統觀測研究網絡(CNERN),至今已建成97個國家生態系統野外科學觀測研究站。2019年,國家生態科學數據中心(以下簡稱“數據中心”)正式成立,其前身為CERN綜合中心數據部和CNERN綜合中心。當前,數據中心以CERN和CNERN 國家站為基礎、生態系統觀測研究數據為核心,拓展國內外其他野外臺站和專項觀測網
50、絡,整合臺站-區域-全國生態系統觀測研究數據,力爭發展成為具有國內外先進水平的國家級科學數據中心,支撐國家生態文明建設和生態系統學科發展。數據中心圍繞野外臺站長期觀測數據的全生命周期,著力開展了標準規范體系建設、數據產品生產與出版、數據挖掘應用、數據管理與服務系統研發與推廣等方面的工作,推進野外臺站長期觀測數據在數據中心的匯聚,形成體系化數據資源為用戶提供共享服務,顯著推動了中國生態系統野外臺站長期觀測數據開放共享,極大發揮了野外臺站數據價值。以下將就中國生態系統野外臺站長期觀測數據開放共享的實踐與進展展開闡述,并提出未來持續推進數據開放共享的主要著力點。一、觀測技術與數據管理標準規范體系構建
51、高水平的數據治理和開放共享離不開標準規范的支持。面對國家野外臺站規范化聯網觀測和數據管理的迫切需要,數據中心組織編制了生態系統和生物多樣性領域野外臺站觀測技術規范。全套規范共計13冊,針對各種類型野外臺站,從長期觀測和專項觀測的內容、指標體系、場地要求、技術方法等對觀測數據的質量控制和加工處理、本地管理、匯交、發布及共享服務等方面進行了規定。同時,牽頭編制了 生態系統長期觀測數據產品分類分級 和生態系統長期觀測數據產品規范 團體標準,并啟動了對國家標準 生態科學數據元數據 的修訂(圖1)?;谶@些標準規范,構建形成了“觀測指標-數據采集-數據管理-質量控制-數據產品-元數據”標準化方法體系,以
52、確保野外臺站長期觀測數據的規范性、連續性和可比性,推動數據治理從源頭開始貫穿到數據生產、管理和共享服務的全過程,保障高質量長期觀測數據的開放共享。何洪林 侯艷飛中國科學院地理科學與資源研究所國家生態科學數據中心中國生態系統野外臺站長期觀測數據開放共享的實踐與思考圖1 相關標準規范二、野外臺站數據產品體系開發和數據出版為有效促進野外臺站長期觀測數據的整理、挖掘和共享,數據中心提出了“生態系統要素-過程-功能”的數據產品體系3,并制定了生態系統長期觀測數據產品相關標準4,指導并組織野外臺站開展數據整編和產品生產(圖2)。同時,推動數據專著、圖集、數據論文等多種方式的數據出版,在充分保障數據生產者知
53、識產權的前提下共享數據,促進數據共享從傳統數據庫服務向數據產品出版模式轉變,提升野外臺站觀測數據的影響力。數據出版成果包括:組織野外臺站開展長期聯網觀測與臺站特色研究歷史數據的整理,出版 中國生態系統定位觀測與研究數據集 叢書;指導野外臺站以數據論文方式發表數據產品,已與 中國科學數據 合作推出了CERN專題、生態系統國家野外站歷史數據整編專題、中國通量觀測研究網絡(ChinaFLUX)專題等多個數據專題;并通過示范引導野外臺站在ESSD、Scientific Data等國際主流數據期刊發表了多篇數據論文(圖3)。圖2 生態系統長期觀測數據產品體系圖3 野外臺站數據專著和 中國科學數據 野外臺
54、站數據論文專題18三、數據分析挖掘和野外臺站聯網研究應用驅動數據的開放共享。數據挖掘幫助研究人員深入分析生態系統長期觀測數據所蘊含的信息,為深化對生態系統的認知提供了新機遇。為此,數據中心面向生態系統變化特征與機制的跨站點聯網研究、多尺度陸地碳循環及其對氣候變化的響應、中國生態系統服務功能與質量評估等主題,結合深度學習方法、生態系統模型和數據同化技術,研發了基于過程的生態系統服務模型CEVSA-ES5、“參照系-現狀-變化量”的生態系統評估系統6、生態系統碳循環實時同化預測工具、多尺度生態系統質量評估與預測系統等在內的多個數據分析挖掘工具,支持科研人員對野外臺站長期觀測數據的分析挖掘,推進模型
55、-數據融合的跨站點聯網研究,支撐高質量科研論文的發表。同時,示范并鼓勵基于長期觀測數據分析挖掘產生的新數據出版和共享,推動形成“長期觀測與數據積累規范化長期觀測數據產品數據挖掘分析應用科研論文發表和更高層級數據產品出版更廣泛應用”的數據開發應用共享新模式,實現科學數據和科技創新相互促進的良性循環。數據中心還與科學數據銀行開展合作,建立了生態科學數據存儲庫ScienceDB EcoDB,提供生態學領域論文關聯數據的提交、保存、審核、出版和共享服務,促進論文關聯數據的可發現、可訪問、可互操作和可重用(FAIR),提升研究成果的價值和影響力。四、新一代生態網絡云平臺研發數據管理與服務信息系統的能力,
56、是影響數據開放共享的重要因素。數據中心以“開放匯聚、協同管理、智慧服務”為理念,建立包含野外臺站和數據中心二級系統的新一代生態網絡云平臺7(圖4),提升野外臺站長期觀測數據的管理與共享服務水平。針對野外臺站的數據管理與服務需求,數據中心組織研發了一套覆蓋野外臺站數據采集傳輸-存儲管理-質量控制-產品開發-共享服務-分析應用全流程的信息系統,實現野外臺站數據相關工作的一體化。這套系統包括:支持野外臺站觀測數據實時采集傳輸、統一管理及監測業務可視化的臺站綜合管理信息系統8;支持野外臺站長期觀測數據快速質控與產品生產的數據質控與產品生產系統;支持數據產品管理與共享服務的新版臺站服務門戶系統;以及支持
57、野外臺站碳庫和碳通量實時短期預測的臺站碳循環實時同化預測系統。隨著這些系統全面投入使用,我國野外臺站的信息化水平將顯著提升。此外,數據中心建立了包括數據匯聚管理系統、數據處理與產品生產系統、資源服務門戶系統、分析預測系統、可視化展示系統等在內的多個中心端信息系統,支持數據中心對野外臺站觀測數據的匯聚、管理、質控、加工、共享、分析及展示等。野外臺站端信息系統與中心端相關信息系統互聯互通,協同合作。其中,基于臺站綜合管理信息系統與生數據中心端數據匯聚管理系統的互通,打造的“全國野外臺站一張屏”全國野外站監測數字大屏展示系統,生動展示全國野外臺站監測業務活動和數據采集傳輸實況。在數據中心資源服務門戶
58、上發布共享的數據產品配備DOI和CSTR資源標識以及規范的數據引用格式,有助于知識產權保護和數據服務成效追蹤。圖4 新一代生態網絡云平臺系統組成五、未來發展的思考中國生態系統野外臺站長期觀測數據的開放共享雖取得了長足的進展,但仍存在很大的提升空間。數據中心將持續推進標準規范的宣貫、數據產品生產和出版的常態化、野外臺站相關信息系統的部署應用等,同時多維度拓展野外臺站長期觀測數據共享范圍。包括:在空間覆蓋上,以國家站為核心,擴展到更多的部門站、院級站、校/所級站;在數據內容上,以水土氣生等基礎要素為起點,拓展到更多生態要素。大數據和人工智能技術的發展為生態學進入大尺度、定量化、可預測的新時代提供了
59、重要的研究手段,并推動生態學研究向數據與人工智能融合驅動的科研范式轉變。新科研范式對野外臺站長期觀測數據的開放共享提出了新的挑戰和需求。例如,如何進一步提高數據質量控制和產品生產的效率、如何提升數據的人工智能可用性等。數據中心將積極利用大數據、人工智能相關技術,研發更加自動高效的數據質量控制和產品生產工具,以滿足科研應用對高質量數據的高時效供給服務的需求;聚焦重大科學問題,積極發展AI-ready的生態系統長期觀測數據產品,以支持AI賦能生態科學研究。參考文獻1 牛書麗,王松,汪金松,等.大數據時代的整合生態學研究從觀測到預測J.中國科學:地球科學,2020,50(10):13231338.D
60、OI:10.1360/SSTe-2020-0022.2 廖小罕,封志明,高星,等.野外科學觀測研究臺站(網絡)和科學數據中心建設發展J.地理學報,2020,75(12):2669-2683.DOI:10.11821/dlxb202012009.3 蘇文,張黎,郭學兵,等.生態系統長期觀測數據產品體系J.大數據,2022,8(01):84-97.DOI:10.11959/j.issn.2096-0271.2022008.4 郭學兵,蘇文,唐新齋,等.生態系統長期觀測數據產品化及標準規范建設J.中國科技資源導刊,2021,53(5):47-54.DOI:10.3772/j.issn.1674-15
61、44.2021.05.007.5 NIU Z,HE H,PENG S,et al.A process-basedmodel integrating remote sensing datafor evaluating ecosystem servicesJ.Journal of Advances in Modeling EarthSystems,2021,13,e2020MS002451.DOI:10.1029/2020MS002451.6 何洪林,任小麗,張黎,等.基于“參照系-現狀-變化量”的生態系統評估方法J.生態學報,2023,43(5):2049-2060.DOI:10.5846/st
62、xb2021110122868.7 唐新齋,陳昕,何洪林,等.新一代“生態網絡云”大數據平臺的設計與實現J.數據與計算發展前沿,2022,4(01):53-68.DOI:10.11871/jfdc.issn.2096-742X.2022.01.005.8 周玉科.生態觀測臺站綜合管理信息系統研發J.測繪與空間地理信息.2019,42(08):11-14.20本文聚焦人類遺傳資源,首先追蹤了歐美國家的相關政策與法規,梳理了我國的管理制度,總結了國家生物信息中心在我國人類遺傳資源數據管理與開放共享中取得的成效與積極作用。隨后,探討了人類遺傳資源數據共享與利用的問題,并展望了深化人類遺傳資源數據管理
63、平臺建設的方向,包括引入新型數據管理機制,推廣數據共享模式,推動高質量數據生成,賦能生命科學創新發展。一、人類遺傳資源的重要性人類遺傳資源作為揭示生命奧秘的核心資源,被稱為人類的“生命說明書”。對人類遺傳資源的深度解析,有助于理解復雜疾病的遺傳基礎,識別關鍵基因及其作用,從而為疾病診斷、治療和精準醫療發展提供有效支持1。根據 中華人民共和國人類遺傳資源管理條例2,人類遺傳資源包括人類遺傳資源材料和人類遺傳資源信息。其中,人類遺傳資源信息,通常也稱為人類遺傳資源數據,包括基因、基因組、轉錄組、表觀組及核酸類生物標志物等數據及其關聯信息3。鑒于人類遺傳資源的特殊戰略價值,主要發達國家通過規范人類遺
64、傳資源的采集、收集及信息利用,不斷強化對人類遺傳資源的保護與監管。如美國先后頒布 美國公共衛生法(Public Health Service Act)4、聯邦人類受試者保護政策5、健康保險可攜性和責任法案(Health Insurance Portability and Accountability Act,簡稱“HIPAA”)6 等,規范了人類研究的倫理和法律原則,強調知情同意、隱私保護、保密性及風險收益評估的重要性,為維護研究倫理和保護參與者權益提供保障,同時為全球遺傳資源管理政策提供了參考。歐盟于2018年實施 通用數據保護條例(GDPR)7,規定遺傳資源及相關傳統知識的訪問需獲原產國(
65、地區)許可,并在利用與惠益共享中保障其權益。同時,條例強調個人數據保護,要求研究者收集和處理數據時須獲得明確同意并提供清晰的隱私政策。由此可見,歐盟的人類遺傳資源管理政策強調尊重各成員國的文化、宗教和社會價值觀,注重人權保護。同時,政策還倡導國際合作與共享,推動人類遺傳資源的合理利用,以促進歐盟生物醫學研究和創新發展。二、我國人類遺傳資源管理制度為了有效保護和合理利用人類遺傳資源,我國逐步建立了“法律-法規-指南”的綜合性管理制度,以規范國家人類遺傳資源的開發與利用。其中,涉及人類遺傳資源內容的法律主要為2020年頒布的 中華人民共和國生物安全法8,其明確提出我國人類遺傳資源信息提供或開放給境
66、外組織、個人及其設立或控制的機構時,需向國務院主管部門事先報告并提交信息備份(第六章 第五十七條)。人類遺傳資源利用的法規主要有2019年實施的 中華人民共和國人類遺傳資源管理條例(簡稱 條例)2(國務院令第717號),該條例涵蓋了人類遺傳資源的收集、保存、利用及向公眾提供的全過程,明確了監管機構的職權和職責,并細化了對違反規定處理人類遺傳資源的法律責任。為深入落實 條例,2023年5月發布了 人類遺傳資源管理條例實施細則(簡稱 實施細則)(科學技術部令第21號)9,進一步調整和細化了人類遺傳資源的管理范疇。指南作為具體操作的指引,提供了詳細的操作規范和實踐標準。2023年7月,科學技術部發布
67、了 關于更新人類遺傳資源行政許可事項服務指南、備案以及事先報告范圍和程序的通知3,公布了包括中國人類遺傳資源采集、保藏、材料出境和國際科學研究合作的行政許可事項服務指南,以及中國人類遺傳資源國際合作臨床試驗備案和信息對外提供或開放使用事先報告的范圍及程序等6份文件(合稱“新版行政指南”),進一步提高人類遺傳資源行政審批的效率,同時為我國人類遺傳資源數據管理提供了明確的路徑和策略。這些管理制度在保障了我國人類遺傳資源安全的同時,也促進了人類遺傳資源的合理開發和利用。張思思 趙文明國家生物信息中心中國科學院北京基因組研究所我國人類遺傳資源數據管理與開放共享的現狀及思考三、人類遺傳資源數據的管理現狀
68、“法律-法規-指南”的綜合管理制度要在數據流通過程中發揮實際作用,離不開數據平臺的有力支撐和保障。為此,國家生物信息中心在遵循這些法規、指南標準,建立了集數據備份、管理、發布、共享為一體的人類遺傳資源數據管理平臺(以下簡稱“人遺平臺”),實現人類遺傳資源數據的分類分級管理,安全儲存備份,并結合數據保護和控制技術,實現數據在可控范圍內的開放共享。人遺平臺由人類遺傳資源組學原始數據歸檔庫(GSA-Human)10、基因組數據庫(GWH)11、基因組變異數據庫(GVM)12、多元數據歸檔庫(OMIX)10和基因序列庫(GenBase)13組成。各系統雖獨立運行,但緊密協作,共同構建了完整的人類遺傳資
69、源數據管理一體化平臺,以滿足不同類型人類遺傳資源數據匯交、管理、發布、共享和應用的需求。其中,GSA-Human專注于管理人源的組學原始測序數據;GWH和GenBase分別承擔全基因組與核酸序列組裝的管理;GVM主要負責全基因組范圍的單核苷酸多態性位點及小型插入與缺失變異信息的管理;OMIX作為通用型存儲庫,是整體體系的重要補充,負責功能基因組、蛋白質、代謝物以及相關臨床數據的管理。在人類遺傳資源數據共享方面,人遺平臺采取開放共享(Open-Access)和受控共享(Controlled-Access)兩種模式推動數據共享,并引入數據管理委員會(Data Access Committee,簡稱
70、“DAC”)機制來監管受控共享的數據集。人遺平臺采用數據集級別的DAC機制,確保數據遞交者的權益,即在創建每個數據集時,需建立獨立的數據集DAC,承擔數據審核的職責。因此,人遺平臺的使用者需先提交針對某一個數據的使用申請,并經相應的DAC授權批準后,方可查看該數據集的完整信息并獲取數據下載權限。這種共享方式也就是常說的“申請-審核”模式。此類機制,在一定程度上防止了人類遺傳資源數據的不共享或無限制、無監督共享,對數據的共享起到積極的促進作用。目前,人遺平臺已獲得國際期刊的廣泛認可,尤其是GSA-Human系統,被Springer Nature和Elsevier等國際出版商收錄為指定基因數據歸檔
71、庫,極大提升了國內外影響力。截至2024年11月初,人遺平臺累計收錄人類遺傳資源數據集18,222個,包括涵蓋基因組、轉錄組、表觀組、蛋白組和代謝組數據,總數據量達38.95PB,支持發布學術論文超過1000篇。受控發布數據集累計收到使用申請8517個,數據下載總量累計7.90 PB。四、總結與展望數據共享在科學研究中具有重要意義,不僅加速科研進展、避免重復研究、節約資源,還能通過跨學科整合推動創新,充分釋放數據的價值。人遺平臺在促進國內人類遺傳資源數據匯聚和共享方面起到了積極的作用,一是將國內分散的人類遺傳資源數據進行集中存儲和管理,實現數據的可被發現;二是數據庫系統獲得國際期刊的認可,實現
72、人類遺傳資源數據的自主管理與共享;三是打通了數據管理系統與中國政府行政審核系統的橋梁,簡化了人類遺傳資源數據行政審批(事先報告)的程序,提高了數據發布與共享的效率。然而,我國在人類遺傳資源數據共享應用方面還存在諸多問題。首先是數據共享的意識不強、動力不足,即數據私有化思想整體比較明顯,這導致大部分數據雖然按照規范實現了集中管理,但整體共享度不高;其次是缺乏高質量數據集,雖然我們的數據總量不少,但可共享利用的高質量數據集較少,使得國內大部分研究人員仍然依賴國際數據,也導致對國人的基因資源挖掘和利用不足;最后是數據管理與共享的政策和機制需要進一步優化,要統籌發展與安全的問題,促進人類遺傳資源數據的
73、合規管理、高效共享與合法利用。下一步,我們將在國家法律法規框架下,持續推動人遺平臺的建設,主要措施包括:其一,引入國家級或平臺級數據管理委員會機制,執行數據審核工作,提升數據審核效率與共享度。其二,推動相關部委或機構進行頂層設計,制定數據驅動的大科學研究計劃,促進高質量數據集的產生及共享利用。同時,利用人工智能技術,生成高質量AI-ready數據集。其三,提升數據管理平臺的數據管理和處理能力,即通過隱私云計算模式,推動數據“數據不動,算法動”的共享和應用新范式,使數據既能被安全使用又不可直接獲取,有效避免了隱私泄露的風險,提高數據共享效率及安全保障能力。參考文獻1 TIMPSON N J,GR
74、EENWOOD C M T,SORANZO N,et al.Genetic architecture:the shape of the genetic contribution to human traits and diseaseJ.Nature Reviews Genetics,2018,19(2):110124.DOI:10.1038/nrg.2017.101.2 國務院.中華人民共和國人類遺傳資源管理條例EB/OL.(2019-06-10)2024-11-20.https:/ 科技部.關于更新人類遺傳資源行政許可事項服務指南、備案以及事先報告范圍和程序的通知EB/OL.(2023-07
75、-14)2024-11-20.https:/ LII.Public Health Service ActEB/OL.2024-11-20.https:/www.law.cornell.edu/uscode/text/42/chapter-6A.5 NATIONAL ARCHIVES.Code of Federal RegulationsEB/OL.2024-11-20.https:/www.ecfr.gov/current/title-45/subtitle-A/subchapter-A/part-46?toc=1.6 U.S.Department of Health and Human Se
76、rvices.Health Insurance Portability and Accountability ActEB/OL.2024-11-20.https:/www.hhs.gov/hipaa/index.html.7 General Data Protection RegulationEB/OL.2024-11-20.https:/gdpr-info.eu/.8 中華人民共和國生物安全法EB/OL.(2020-10-17)2024-11-20.http:/ 科技部.人類遺傳資源管理條例實施細則EB/OL.(2023-05-26)2024-11-20.https:/ CHEN T T,C
77、HEN X,ZHANG S S,et al.The genome sequence archive family:toward explosive data growth and diverse data typesJ.Genomics,Proteomics&Bioinformatics,2021,19(4):578583.DOI:10.1016/j.gpb.2021.08.001.11 CHEN M L,MA Y K,WU S,et al.Genome warehouse:a public repository housing genome-scale dataJ.Genomics,Prot
78、eomics&Bioinformatics,2021,19(4):584589.DOI:10.1016/j.gpb.2021.04.001.12 LI C P,TIAN D M,TANG B X,et al.Genome Variation Map:a worldwide collection of genome variations across multiple speciesJ.Nucleic Acids Research,2021,49(D1).DOI:10.1093/nar/gkaa1005.13 BU C F,ZHENG X C,ZHAO X T,et al.GenBase:a n
79、ucleotide sequence databaseJ.Genomics,Proteomics&Bioinformatics,2024,22(3):qzae047.DOI:10.1093/gpbjnl/qzae047.22多學科交叉融合已成為當代科學研究的顯著特點,使得科研人員能夠從多元視角剖析問題,從而獲得更為全面和深刻的理解和洞見,且對于解決復雜的社會、經濟和環境問題,以及推動科學技術的跨越式發展,具有不可估量的潛在價值。多學科交叉研究在數據驅動下,深化研究范式的創新,基于多學科海量科學數據及其關系,揭示不同學科領域之間的內在聯系與底層規律,從而創造新的見解。近年來,我國高度重視數據驅動
80、的多學科交叉研究?!皵祿亍比晷袆佑媱潱?0242026年)明確提出“推動科學數據有序開放共享”“推進跨學科、跨領域協同創新”。國家基礎學科公共科學數據中心(以下簡稱“國家基礎數據中心”)作為國家科技創新基地,長期積累和管理我國基礎學科領域及政府預算資金支持項目產生的基礎學科科學數據,持有數據總量達3.14PB,涵蓋44個一級學科,超過200個二級學科。其中自建數據庫數據量1.37PB,科技項目數據匯交資源1.77PB。相關數據資源本身具有多學科豐富性,為數據驅動的多學科交叉研究奠定了堅實基礎。一、基礎學科數據資源體系建設1.參建單位共建數據資源概況國家基礎數據中心系統整合了物理、化學、材
81、料、動物、植物、交通和信息等學科領域的科學數據,并聯合42個參建單位共建領域科學數據庫,包括21個自建數據庫。國家基礎數據中心積極深化自建數據庫的專業、多元服務,推動了葡萄病害、動物聲紋等數據成果的商業化探索,與生境(北京)科技有限責任公司等機構開展了商業合作。持續提供全方位的專業數據支持,在促進科研創新、推動多學科交叉融合、服務國家戰略、助力產業經濟發展以及提升全民健康水平等方面發揮了積極作用。2.科技項目數據匯交資源科學數據是國家科技創新和經濟社會發展的重要基礎性戰略資源。加強科學數據匯交是大數據時代做好科學研究與創新的重要抓手,是保障國家科學數據安全的重要內容,是加強和完善科技計劃項目管
82、理的重要組成部分。自2020年我國啟動科技項目數據匯交工作以來,國家基礎數據中心已累計服務80多個專項、2800多個國家重點研發計劃項目的數據匯交工作。匯交數據經過嚴格的同行專家評議后,通過國家基礎中心門戶()在線發布,確保高質量、高價值的科學數據及時開放共享,為跨學科研究提供數據支撐和再利用全鏈條服務,充分釋放數據價值。數據作為新的生產要素,具有巨大的價值潛力。為更好激活數據要素的潛能,國家基礎數據中心參照 國務院關于加快培育和發展戰略性新興產業的決定、新質生產力及未來產業所關聯的數據應用場景,精心梳理了新能源、新材料、信息技術、人工智能、高端裝備制造、節能環保等多學科交叉關鍵領域數據資源(
83、詳見表1),并依據國家“數據要素”三年行動計劃中明確的12個行業和領域梳理了相關場景所需的數據資源(詳見表2)。通過梳理關鍵領域的數據資源,可以更有效地挖掘和利用數據的價值,促進不同學科之間的交叉融合,推動產業升級和經濟發展。二、數據驅動的多學科交叉研究與實踐國家基礎數據中心基于海量多學科數據資源,結合多學科交叉“融合科學”范式的發展需求,開展了數據驅動的多學科交叉實踐探索。一是研究多學科跨領域數據融合服務網絡關鍵技術與基礎框架。國家基礎數據中心研發的基礎科學數據在線分析挖掘云服務為領域提供可定制的科學數據軟件分析框架,集成通用的科學數據處理組件,實現存算環境的一體化管理與調度,支持跨領域科學
84、數據關聯發布與語義融合,助力不同領域科學數據的協同分析。已經基于框架開展了化學、植物、健康數據等融合驅動的新藥研發項目。二是開展基礎領域多學科交叉融合應用研究。2024年5月,國家基礎數據中心面向全社會公開遴選出5個多學科數據交叉應用課題,推動數據驅動的多學科交叉應用探索。其中,“多學科數據交叉評估城市環境微生物健康風險”課題將集成城市環境與人群健康數據,開展城市環境與人群健康數據驅動的交叉融合研究;“基于AI的動物與植物多樣性數據交叉應用”課題擬整合中國生物物種名錄、動/植物主題數據庫中反映鳥類、植物、昆蟲等相關關系的文本、圖像數據,支撐動物棲息地修復、動植物知識圖譜在農林領域的交叉應用;“
85、基于活體人口影像數據庫的交叉應用”課題擬整合全球腦數據資源、地理空間、環境污染等特色數據,推動腦科學在教育科普、職業地域及醫療康養等方面的具體轉化應用;“陸海胡良霖 高瑜蔚 朱艷華 趙歡 馬曉萌中國科學院計算機網絡信息中心國家基礎學科公共科學數據中心數據驅動的多學科交叉研究探索統籌、水土一體的多學科交叉數據服務與應用”課題擬集成藥學、農學/植物學、動物學等領域數據,研究數據驅動的生物育種和藥物研發;“天然產物與藥物創制交叉學科數據應用”課題擬整合高質量天然產物和植物學關聯數據,研究從植物到藥物的創新鏈。三、基礎學科數據驅動的多學科交叉研究建議基礎學科的科學數據驅動多學科交叉研究不僅跨越了物理、
86、化學、生物學、數學等傳統基礎學科,還擴展到計算機科學、信息工程、環境科學、社會科學等多個領域,為解決復雜問題提供了新的視角和手段。實踐表明,多學科數據融合發展仍面臨著高質量數據供給不足、跨域數據治理方法研究滯后、專用基礎設施亟待建設、科學數據要素化路徑不明確等問題。為了應對挑戰,提出以下發展建議。(1)加強基礎領域高質量科學數據供給。建立數據激勵機制,鼓勵科研機構、高校和企業等共享發布高質量數據資源。同時,制定科學數據質量控制標準和數據格式標準,確保數據的準確性、完整性和可互操作性。探索開放科學背景下的科學數據管理和共享路徑,開展數據論文預印本等新興共享模式實踐,整合數據引用、數據評價等機制,
87、打造高質量科學數據供應的閉環樣板。(2)完善跨域科學數據治理理論和方法,發展自主軟件工具。研究跨域科學數據的治理理論和方法,構建跨域科學數據治理的框架體系,制定數據分類分級管理和服務策略,推進基礎科學數據安全管理和可控開放,大力推動數據治理及應用軟件的自主研發與創新。(3)建設支撐多學科交叉研究的專用科研基礎設施。政府和社會資本應加大對專用科研基礎設施的投資力度,提升科研設施的水平和能力。加強計算資源的共享和優化利用,提高科研設施的使用效率。深化與國際先進科研機構的合作與交流,共享高水平的科研基礎設施,共同推動多學科交叉研究的發展。(4)明確科學數據要素化路徑。鑒于科學數據開放共享的本質屬性,
88、需要圍繞數據資源化、數據資產化、數據資本化以及數據應用與服務等階段發展路徑進行逐步推進。通過加強數據采集與整合、數據標準化與規范化、數據確權與溯源、數據價值評估、數據資產管理與運營、數據融資與投資、數據交易與流通以及數據驅動的創新和數據賦能產業升級等措施,鼓勵企業、高校和科研機構等利用科學數據進行融合創新,加速科學數據要素化的進程,為數字經濟的高質量發展提供有力支撐。綜上所述,通過加強高質量科學數據供給、完善跨域科學數據治理理論和方法、建設支撐多學科交叉研究的專用科研基礎設施、明確科學數據要素化路徑,可以推動我國基礎學科科學數據驅動多學科交叉研究實踐的快速發展,為科技創新和社會發展注入新的活力
89、和動能。表 1 戰略性新興產業等對應的科技項目專項匯交數據表 2“數據要素”12個行業和領域對應的科技項目專項匯交數據序號戰略性新興產業及未來產業科技項目專項1新一代信息技術物聯網與智慧城市關鍵技術及示范、云計算和大數據、區塊鏈、科技創新2030-“新一代人工智能”重大項目、智能機器人2生物技術綠色生物制造、生物安全關鍵技術研究、生物與信息融合(BT與IT融合)3新能源新能源汽車4新材料納米科技、戰略性先進電子材料、重點基礎材料技術提升與產業化、高端功能與智能材料、先進結構與復合材料、稀土新材料、新型顯示與戰略性電子材料5高端裝備制造生物醫用材料研發與組織器官修復替代、診療裝備與生物醫用材料、
90、高性能制造技術與重大裝備、基礎科研條件與重大科學儀器設備研發、增材制造與激光制造6綠色環保技術可再生能源與氫能技術、固廢資源化、典型脆弱生態修復與保護研究、水資源高效開發利用、場地土壤污染成因與治理技術、綠色建筑及建筑工業化7未來產業科技創新2030-“腦科學與類腦研究”重大項目、量子調控與量子信息、前沿生物技術、氫能技術、智能電網技術與裝備8傳統產業轉型升級綜合交通與智能交通、煤炭清潔高效利用技術、煤炭清潔高效利用和新型節能技術序號“數據要素”12個行業和領域科技項目專項1工業制造綠色建筑及建筑工業化、智能機器人、網絡協同制造和智能工廠2現代農業前沿生物技術3商貿流通現代服務業共性關鍵技術研
91、發及應用示范4交通運輸先進軌道交通、綜合交通運輸與智能交通、交通基礎設施、交通載運裝備與智能交通技術5文化旅游現代服務業共性關鍵技術研發及應用示范6醫療健康生物醫用材料研發與組織器官修復替代、數字診療裝備研發7應急管理重大自然災害防控與公共安全8城市治理物聯網與智慧城市關鍵技術及示范、重大自然災害防控與公共安全9綠色低碳氫能技術、煤炭清潔高效利用技術10科技創新戰略性國際科技創新合作、政府間國際科技創新合作、智能制造與機器人、新一代信息技術、生物安全關鍵技術研究、新材料24青藏高原作為世界上最高的高原,是地球上板塊碰撞最為強烈持久且正在發生的地區,其巖石圈、大氣圈、水圈、冰凍圈、生物圈和人類圈
92、六大圈層相互作用強烈,是研究地球系統科學多圈層相互作用的“天然實驗室”,最有可能成為地球科學新階段的地球系統科學重大原始創新理論新突破的策源地1。然而,由于其極端環境,數據分布稀疏,導致孤立數據島的出現2-3。因此,跨圈層、跨學科的青藏高原數據共享和集成具有重要的科學和社會意義??茖W數據的開放共享和自由流通的重要性越來越受到重視,Nature 和 Science 期刊都曾組織??瘉硖接戇@一主題。Nature ??瘡娬{,沒有良好的數據保存和共享,科學研究就難以繁榮發展4。Science ??仓赋?,科學是由數據驅動的,科學就是數據,數據就是科學5。我國也高度重視科學數據共享的作用,于2023年發
93、布 中國開放數據白皮書,強調科學數據開放、共享和應用的重要性,并指出,開放數據有利于促進科學數據與人工智能的融合,從而能夠更有效地激活科研創造力和生命力,解決更多的科學難題??砂l現(Findable)、可訪問(Accessible)、可互操作(Interoperable)、可重用(Reusable)”的FAIR原則在促進科學數據開放共享方面獲得廣泛認可。然而,仍然存在如共享意愿不強、產權保障不清、獲取渠道不暢等挑戰,這些挑戰嚴重阻礙了科技創新的步伐。作為我國唯一一個專注于青藏高原及其周邊區域的國家科學數據中心,國家青藏高原科學數據中心致力于地球科學領域的數據開放共享與廣泛集成。自成立以來,始終
94、貫穿開放共享理念,并采取切實有效的措施來確保對數據貢獻者的認可和對知識產權的尊重。通過建立健全激勵機制,旨在推動我國地學數據更為廣泛的共享6-7。一、開放數據舉措目前,國家青藏高原科學數據中心發布的所有數據集中,有62%以上采取了免登錄直接下載方式共享,在營造更加開放的數據共享生態環境方面先行一步。同時,于2020年成為Springer Nature認證的亞洲地區首個地球科學與環境領域科學數據中心,同年也成為國際上著名的地學數據期刊Earth System Science Data(ESSD)以及全球最大地學組織美國地球物理聯合會(AGU)等期刊和組織認證的科學數據倉儲中心,還成為Enabli
95、ng FAIR Data首個中國成員,并加入DataCite。建設的論文關聯數據和數據倉儲平臺,能夠提供完全符合國際學術期刊投稿要求的數據服務,已經累計為300余篇論文提供科學數據倉儲服務。在數據產品建設方面,圍繞青藏高原數據跨學科特點,重點聚焦多源數據資源的開放集成和供應能力,通過整合第二次青藏科考等項目數據、臺站和遙感等觀測數據、論文關聯數據倉儲和論文關聯數據,形成了青藏高原地球系統科學研究的信息樞紐。青藏高原高寒環境的野外臺站觀測數據非常寶貴,通過建成高海拔地區野外臺站觀測-數據一體化平臺,實現對青藏高原觀測站以及第二次科考等項目建設的野外監測平臺的物聯,接收數據超過20億條。截至202
96、4年10月,累計為133個青藏高原相關的科技項目提供規范的數據匯交、質量控制、數據評審和發布流程,為第二次青藏科考國家專項等提供年度數據匯交、數據集成和共享服務,促進國家重大項目成果的開放共享和應用。圍繞青藏高原獨特的環境數據需求,利用人工智能新方法,研發了系列高質量長序列特色數據產品,形成自主科學數據品牌。其中,構建的過去千年北極重建數據產品,發表在 Nature Communications 上8;研發的青藏高原湖泊產品,發表在 Nature Geoscience 上9。這些數據產品被廣泛瀏覽、下載和應用,多篇文章成為ESI高被引論文或熱點論文。為提高服務區域發展的能力,青藏高原國家科學數
97、據中心先后組建了青海、西藏、成都分中心,為區域綠色發展、產業孵化和國家重大工程等提供直接的數據服務。其中,西藏分中心成立于2021年,旨在服務青藏高原科學研究和西藏經濟社會高質量發展,由中國科學院青藏高原研究所、西藏自治區科學技術廳和西藏寧算科技集團有限公司三方聯合共建;青海分中心也于2021年成立,致力于服務青藏高原科學研究和青海經濟社會高質量發展,由中國科學院青藏高原研究所、青海省科學技術廳和青海師范大學三方共同建立;成都數據知識融合分中心于2024年9月成立,依托中國科學院青藏高原研究所國家青藏高原科學數據中心,結合中國科學院成都文獻情報中心豐富的科技文獻資源和先進的信息基礎設施,共同開
98、展數據知識融合方面的合作,攜手打造青藏高原研究的知識倉儲庫。國家青藏高原科學數據中心在 Nature GeoscienceNature Reviews Earth&Environment 和 Science Bulletin 等期刊上發表了多篇論文,深入探討了地學數據共享和治理,分析了大數據在地球系統科學中的角色,并展望了從數據密集型科學到機器人科學潘小多 李新 馮敏 聶曉偉中國科學院青藏高原研究所 國家青藏高原科學數據中心國家青藏高原科學數據中心:引領地學數據開放共享 家范式的轉變,為數字孿生地球的發展提供了理論支撐和實踐指 z導。其中,與多個地學數據中心合作,在 Nature Geosci
99、ence 上發表的 Boosting Geoscience Data Sharing in China4是我國地學數據共享的一篇代表性論文。文章指出,數據中心是開放數據系統中連接決策者、數據貢獻者、數據和數據用戶的中介機構,可從政策、管理、技術和國際化等方面加強開放數據措施,并讓數據貢獻者和數據用戶受益,形成科學和社會收益的強化反饋。發表在 Nature Reviews Earth&Environment 上的文章 Big Data in Earth system science and progress towards a digital twin10,系統總結了大數據在地球系統科學領域的進
100、展和挑戰,探討了地球大數據對地球科學新范式,并指出科學、開放、共享的大數據科學環境和基礎設施建設是數字孿生地球的關鍵保障。出版后被 半月談 長篇報道為 為地球打造一個孿生體?雖遠必達!,探討了地球大數據對地球科學新范式,特別是發展數字孿生地球的支持。發表在 Science Bulletin 上的文章 Paradigm shifts from data-intensive science to robot scientists11,系統回顧了這十多年來有關大數據和AI范式的爭論,批判了“相關性取代因果關系”范式,檢視了“數據密集型科學發現”范式,并深入分析了新興的“機器人科學家”范式。二、開放數
101、據成效由科技資源標識(Science and Technology Resource Identification,CSTR)服務平臺()提供的資源總量、解析量、查詢量等多維度統計分析報告顯示,在過去數年,國家青藏高原科學數據中心的CSTR解析量在中國科學院70多個涵蓋各學科領域的數據中心中排名為第二位。此外,在第三方針對FAIR原則的評估中12,國家青藏高原科學數據中心在眾多國際地學數據平臺中排名第三,獲得了42分的高分(滿分50分),僅次于美國國家航空航天局的地球觀測系統分布式信息系統(Earth Observing System Data and Information System,E
102、OSDIS)和英國國家地球科學數據中心(National Geoscience Data Center,NGDC)。這些都表明國家青藏高原科學數據中心在地學數據開放共享方面得到了國內外的高度認可。國家青藏高原科學數據中心為國內外地學科研成果的發表提供了全方位的數據服務。截至目前,累計支持了5000余篇SCI論文,這些論文發表在 NatureScience 及其子刊以及其他高影響期刊上。美國國家氣象學會會刊 Bulletin of the American Meteorological Society(BAMS)在封面上以“高原數據”和“世界第三極的大數據新模式”為核心議題對國家青藏高原科學數據
103、中心的工作進行了報道。許多數據關聯論文都成為高引論文,例如中國區域地面氣象要素驅動關鍵數據集13,其關聯論文被大量引用14,成為ESI高被引熱點論文。國家青藏高原科學數據中心全面保障第二次青藏高原綜合科學考察研究國家專項、第三極環境(TPE)國際計劃等重大科學工程。在支撐二次科考方面,國家青藏高原科學數據中心實行年度匯交機制,100%的十大科考任務數據實現年度共享,共享數據已被2800多篇文章引用;在服務區域發展方面,尤其是針對西藏的“穩定、發展、生態、強邊”四大任務,為川藏鐵路建設、冰湖潰決應對等事件提供重要數據支撐服務,多次得到國家領導和省部級領導人的批示。國家青藏高原科學數據中心的數據資
104、源也向企業開放共享,助力企業在業務領域實現突破、加速科技創新,特別是在青藏高原上的水電工程、清潔能源等建設方面,都起到了實質性的數據支撐作用。三、未來發展思考面向未來,國家青藏高原科學數據中心將進一步支持地球系統科學新范式,由數據圖書館階段全面轉型到數據實驗室階段,支持地球系統開放科研新范式,進一步推動向數字孿生地球的發展,充分發揮數據對未來地學科技創新的支持能力(圖1)。在服務國家戰略方面,將開展專題數據服務,滿足國家重大工程數據需求;對于特殊數據需求,將聯系研究人員,提供專享定制數據服務。在服務地方發展方面,將通過構建天-地-空一體化監測系統、以數據驅動青藏高原地球系統模型開發和青藏高原生
105、態環境評估,服務青藏高原地區可持續發展,發揮數據中心的社會效益。四、結語科學數據中心應該引領科學數據共享,成為大數據革命創新者。國家青藏高原科學數據中心將持續以青藏高原研究為突破口,全面踐行FAIR原則,探索科學數據與人工智能的深度結合,為人工智能新地學提供動力,更好發揮國家科學數據中心的作用,全方位服務青藏高原國家戰略和社會發展。參考文獻1 CHEN F H,DING L,PIAO S L,et al.The Tibetan Plateau as the engine for Asian environmental change:the Tibetan Plateau earth syste
106、m research into a new eraJ.Science Bulletin,2021,66(13):12631266.DOI:10.1016/j.scib.2021.04.017.2 LI X,CHE T,LI X W,et al.CASEarth poles:big data for the three polesJ.Bulletin of the American Meteorological Society,2020,101(9):E1475E1491.DOI:10.1175/bams-d-19-0280.1.3 PAN X D,GUO X J,LI X,et al.Nati
107、onal Tibetan Plateau data center:promoting earth system science on the third poleJ.Bulletin of the American Meteorological Society,2021,102(11):E2062E2078.DOI:10.1175/bams-d-21-0004.1.4Data s shameful neglectJ.Nature,2009,461(7261):145.DOI:10.1038/461145a.5 HANSON B,SUGDEN A,ALBERTS B.Making data ma
108、ximally availableJ.Science,2011,331(6018):649.DOI:10.1126/science.1203354.6 LI X,CHENG G D,WANG L X,et al.Boosting geoscience data sharing in ChinaJ.Nature Geoscience,2021,14:541542.DOI:10.1038/s41561-021-00808-y.7 潘小多,李新,冉有華,等.開放科學背景下的科學數據開放共享:國家青藏高原科學數據中心的實踐J.大數據,2022,8(1):113120.DOI:10.11959/j.is
109、sn.2096-0271.2022010.8 FANG M,LI X,CHEN H W,et al.Arctic amplification modulated by Atlantic Multidecadal Oscillation and greenhouse forcing on multidecadal to century scalesJ.Nature Communications,2022,13(1):1865.DOI:10.1038/s41467-022-29523-x.9 XU F L,ZHANG G Q,WOOLWAY R I,et al.Widespread societa
110、l and ecological impacts from projected Tibetan Plateau lake expansionJ.Nature Geoscience,2024,17(6):516523.DOI:10.1038/s41561-024-01446-w.10 LI X,FENG M,RAN Y H,et al.Big Data in Earth system science and progress towards a digital twinJ.Nature Reviews Earth&Environment,2023,4:319332.DOI:10.1038/s43
111、017-023-00409-w.11 LI X,GUO Y L.Paradigm shifts from data-intensive science to robot scientistsJ.Science Bulletin,2024 DOI:10.1016/j.scib.2024.09.029.12 姜恩波,潘婷,張蒂.基于FAIR原則的地球科學數據中心調研與評估分析J.圖書館學研究,2023(4):5270.DOI:10.15941/ki.issn1001-0424.2023.04.010.13 陽坤,何杰,唐文君,等.中國區域地面氣象要素驅動數據集(1979-2018).國家青藏高原數
112、據中心,2019.https:/doi.org/10.11888/AtmosphericPhysics.tpe.249369.file.https:/ HE J,YANG K,TANG W J,et al.The first high-resolution meteorological forcing dataset for land process studies over ChinaJ.Scientific Data,2020,7(1):25.DOI:10.1038/s41597-020-0369-y.圖1 支持地球系統科學新范式未來藍圖26本文以生命科學領域單細胞組學數據為切入點,概述了
113、國內外生命科學數據開放發展態勢,從數據標準化收集與整合、高質量開放共享體系構建與高水平數據賦能生命科學研究等方面具體闡述了中國在推動數據與智能聯合驅動的生命科學研究新范式的實踐與進展。一、生命科學進入大數據與人工智能時代人類對生命奧秘的探索是一個永恒的話題,從古代哲學家對人體結構和功能的初步猜想,到現代生物科學的飛速發展,人類一直渴望揭示生命的復雜性和探索生命的未知領域。在漫長的生命科學探索過程中,源源不斷產生的單細胞轉錄組數據成為全人類共有的寶貴財富。這些數據不僅記錄了細胞內部基因表達的精細圖譜,也為理解個體發育、疾病機制、細胞異質性等提供了前所未有的視角。為推動生物醫學研究的進步,加深對健
114、康和疾病的認識,以及助力精準醫療和疾病治療,世界各國正在攜手合作,開展人類細胞圖譜數據庫的構建工作。其中,最具代表性的是由英國惠康基金會于2012年啟動的人類細胞圖譜(Human Cell Atlas,簡稱HCA)和美國國立衛生研究院資助的人類生物分子圖譜計劃(Human BioMolecular Atlas Program,簡稱HuBMAP)。HCA已吸引超過50個國家的140個研究機構的參與,致力于創建一個全面、多樣化且高分辨率的人體分子圖譜,全面解碼人體所有細胞的類型、數目、位置、相互關聯與分子組成等,跨越從發育、成年直至老年的全過程。目前,已收錄來自33個組織、289位供體的450萬個
115、單細胞的測序數據。HuBMAP則旨在開發一種開放的框架和技術,在細胞分辨率水平繪制人體圖譜,從不同年齡的人類組織中繪制基礎圖譜。這些數據庫為研究人員探索和理解人體細胞的多樣性和復雜性,促進單細胞生物學和醫學研究的發展,以及實現利用人工智能解析基因功能與復雜生物過程,提供了寶貴的資源。二、中國單細胞組學數據開放實踐經過幾十年的發展,中國在單細胞組學數據開放與利用方面取得了顯著進展,其核心實踐措施包括標準化收集與整合、構建高質量開放共享體系以及利用高水平數據賦能生命科學研究。這些舉措極大地發揮了單細胞轉錄組學數據價值,為生命科學領域的突破性發現提供了有力支撐。1.標準化收集與整合實現高質量的數據開
116、放,首要任務是推進科學數據的有效匯聚。這涵蓋了數據的標準化收集與整合過程。國家生物信息中心先后推動發布了“科技計劃形成的科學數據匯交-通用代碼集、通用數據元、技術與管理規范”3項國家標準與“組學樣本處理與數據分析標準”一系列5項團體標準。這些標準規定了單細胞組學數據的范圍、數據文件要求、數據元目錄和數據歸檔目錄,有效促進了單細胞組學數據的標準化和整合,為單細胞領域標準化分析流程的建立提供了實踐基礎。2.高質量開放共享體系構建實現高質量的數據開放,還需要建立有效的開放共享體系。近年來,單細胞組學數據快速積累,但數據分散在各個研究機構,影響了數據的訪問和利用。為利用單細胞多模態組學的開源共享數據,
117、亟需發展統一處理和整合的單細胞組學數據庫。為實現單細胞數據的高效利用,中國科學院上海營養與健康研究所構建了首個單細胞多模態數據庫scMMO-atlas,包括800余個樣本的300多萬個細胞的單細胞多模態組學數據;中國科學院動物研究所發布的目前在建的最大規模多物種單細胞數據庫scCompass,整合了NCBI、CellXGene、CNCB、EBI和DDBJ數據庫中公開可用的數據集,涵蓋了超過1億個來自13個不同物種的單細胞信息,為人工智能研究提供AI-ready的生物大數據支撐。此外,面向源源不斷產生的私域數據,需要發展“原始數據不出域、數據可用不可見”的新型計算模式,以充分發揮高質量數據的要素
118、價值。中國科學院計算技術研究所基于聯邦學習構建了多中心聯邦協同計算平臺,為數據擁有方提供“模型即服務”的安全共享方式。李鑫 中國科學院動物研究所楊曉東 中國科學院計算技術研究所陳述白 中國科學院計算技術研究所數據與智能聯合驅動的生命科學研究新范式實踐與進展3.高水平數據賦能生命科學研究生命是一個多層次、多尺度、動態互聯、相互影響的復雜系統。在面對生命現象的極端復雜性、多尺度跨越和時空動態變化時,傳統的生命科學研究范式往往無法捕捉生命數據中蘊含的復雜關聯關系。近年來迅速發展的預訓練大模型技術在計算機視覺、自然語言處理等通用領域中取得了顯著突破,通過大量未標注數據的自監督預訓練獲得基礎理解能力,進
119、而綜合大模型和下游數據共同解決具體的任務。這種新型計算方法催生了數據與智能聯合驅動的生命科學研究新范式,中國科學院動物研究所xCompass團隊基于scCompass數據庫,構建了世界首個跨物種知識增強的單細胞預訓練模型GeneCompass,使用超過1.2億個人類和小鼠單細胞轉錄組進行預訓練,通過將啟動子序列、基因家族、基因調控網絡(GRN)、共表達關系等4種先驗知識編碼輸入到GeneCompass中,實現了對基因表達調控規律的全景式學習理解,在跨物種細胞類型注釋、GRN預測、藥物劑量反應預測和基因擾動預測等下游任務中達到國際領先水平。這既說明了高質量數據以及高水平的數據標準化與整合方法是預
120、訓練模型性能的關鍵因素,又展現了人工智能驅動生命科學研究的巨大潛力。三、數據與智能聯合驅動的生命科學研究新范式與高質量數據開放共享協同發展隨著人工智能技術的發展,數據與智能聯合驅動的生命科學范式有望改變傳統生命科學研究方法,突破傳統方法通過實驗驗證有限的生物測序與表型關聯所導致與真實生命活動存在顯著差異的局限性。對此,構建更高質量的生命科學數據開放共享體系,對于數據驅動的人工智能發展具有重要意義。未來,我國將更有效地統籌資源、優化整合,打造面向人工智能的高質量生物數據平臺,實現生命科學數據資源的高效匯聚和系統化升級。與此同時,由于生命科學數據固有的海量、稀疏與高維等特點,我國將加速研發更契合生
121、命科學需求的新型硬件、軟件和計算介質,以構筑支撐新研究范式的體系化數據服務能力。28科學研究范式的轉型,凸顯了科學數據的重要性。在傳統學術論文中,科學數據僅作為研究內容的佐證,而沒有將數據內容全部釋放出來,供研究者全面了解或者使用,因此耗時耗力產生的科學數據的價值沒有被充分地發揮作用。從開放科學、科學研究范式、可信性研究等科學研究環境多重變化的角度,數據論文成為科學數據公開共享的重要表現形式。數據論文通過嚴格的同行評審、靈活的開放獲取、詳盡的數據描述等機制,提高了科學共同體對科學數據的認可程度、推進了數據的廣泛應用、研究結論的可驗證性,縮短了研究周期。期刊是數據論文的載體,專業數據期刊的出版在
122、支持科學研究活動方面發揮了重要作用。中國不僅在數據論文期刊的出版方面有新的發展,發表的數據論文數量也在不斷增加,進一步提高了科學數據的利用機會。一、政策引導數據論文發表中國數據論文期刊的創辦是數據論文出版的標志性事件。2015年 中國科學數據 創刊,至今已經發表686篇論文,覆蓋天文學、大氣科學、生態環境、生物科學等各領域,成為數據論文期刊發展歷程中的旗艦期刊。全球變化數據學報農業大數據學報Big Earth Data 等期刊也是中國重要的數據期刊,在科學數據論文出版方面發揮了示范作用。2022年11月,中國科協、中國科學院辦公廳“關于組織開展期刊論文關聯數據匯交工作的通知”,強調了期刊作者投
123、稿國內科技期刊時,須將與學術論文相關的非敏感、非涉密原始數據及其衍生數據匯交到科學數據銀行(ScienceDB)平臺上,促進科學數據更好地發揮作為國家科技創新和經濟社會發展重要基礎性戰略資源的支撐服務作用。2024年,中國科學院鼓勵期刊設置數據論文欄目,進一步發揮期刊在科學數據出版中的導向性。目前ScienceDB平臺上已有Nuclear Science and TechniquesChinese Physics B力學學報 等55種期刊發表數據論文,在各學科領域開展數據論文出版實踐。在推動數據論文出版的過程中,標準規范是數據論文發展的基石。中國科學院計算機網絡信息中心ScienceDB團隊廣
124、泛調研國內外數據論文構成要素,總結分析各學科領域數據的特征,綜合傳統論文、數據論文的必備元素,提出了數據出版流程、數據出版模板,在數據論文撰寫、數據審核流程、數據存儲平臺、數據版權建議等方面給出了標準、規范和建議,為數據論文的高質量出版提供了遵循的基礎。二、中國在全球數據論文發表中的表現中國數據論文在國內期刊上有較好的發展態勢,中國學者在國外數據期刊上也積極貢獻了研究成果。以Web of Science(WOS)為數據源,中國學者發表的數據論文數量已經位列全球第二。以WOS中的文獻類型標注為“Data paper”的論文為統計對象,截至2024年10月,全球發表數據論文1.687萬篇,最早一篇
125、數據論文發表于2006年。近20年來,數據論文以緩慢的速度發展,但明顯可以看出,2016年開始數據論文數量呈現快速增長的趨勢(圖1)。2016年快速增長的原因在于數據論文期刊的創辦,專業性期刊的出版標志著一種新型出版模式的興起,推動了學術界對數據論文的認知,提高了學者發表論文的積極性。中國數據論文(以全部作者統計,下同)自2014年開始逐年上升,2023年達到423篇。全球1.687萬篇論文發表在267種期刊上發表,高度集中于Data in BriefScientific Data 兩本專業數據期刊上。中國數據論文在這兩種期刊上發表了1327篇論文,占我國發表總數的64%,其余36%的論文發表
126、于90種期刊??茖W數據的存儲和利用倡導開放共享,數據論文幾乎無一例外地響應開放科學的號召,1.662萬篇論文為開放獲取論文,占總論文量的98.5%。中國有95.9%的論文采用開放獲取模式出版。以數據論文全部作者統計,有183個國家參與數據論文發表。表1顯示了數據論文Top 10國別分布,其中美國以3848篇論文位列第一,中國發表2092篇論文名列第二。全球1.5萬個機構發表數據論文,法國科研中心以發表618篇論文位列全球第一,中國科學院以514篇論文位列第二。劉筱敏 中國科學院文獻情報中心中國數據論文現狀分析三、中國數據論文發表分析中國發表的2092篇數據論文作者來自4420個國內外高等院校、
127、科研機構等機構。表2為中國Top 5發表數據論文機構。其中,中國科學院發表了514篇,近總量的1/4,其次是清華大學發表了118篇,兩個機構是發表數據論文的主力。2092篇數據論文中國際合作論文943篇,占總數的45.1%。合作國家/地區有135個,說明中國學者與國際各國在數據工作方面有較為廣泛的合作。2019年國際合作論文突破100篇,并穩定增長,2023年為171篇。圖2為國際合作Top 10國家及論文數量分布,主要合作國家包括美國、英國、澳大利亞等,其中中美合作發表的論文占全部國際合作論文的49.1%。在數據論文的影響力方面,中國發表的2092篇數據論文被39,696篇論文引用了44,5
128、79次,篇均被引21次,94.8%的施引文獻類型為研究性論文和綜述論文。美國發表數據論文3848篇,被82,179篇論文引用了92,541次,篇均被引24次。中國和美國發表的數據論文均在國際科研工作中發揮了作用。中國數據論文被引頻次較高,施引論文來自192個國家/地區,但主要的引用來自中國學者,其引用次數占總被引頻次的51%(圖3)。論文影響力的廣泛性還有待進一步提升。在全球范圍內,數據論文的發展還處于起步期,論文量很少,發表的論文高度集中在少數國家。但隨著開放科學的推進,學術共同體對開放數據的需求日益增長。同時,充分發揮數據的價值,充分證明數據工作的價值,是學術共同體的愿望,特別是在以詳實的
129、數據證明研究的可信性的背景下,數據論文必然會有較大的發展。加之國家政策的引導,中國學者積極參與國際學術的交流,數據論文在推動科研工作進步和促進社會發展方面將發揮重要的作用。圖 1 數據論文出版量年度分布圖 2 國際合作Top 10國家及論文數量分布圖 3 中國數據論文Top 10施引國家分布表 1 數據論文Top 10國別分布(以全部作者統計)表 2 中國Top 5發表數據論文機構國別/地區數據論文數量(篇)美國3848中國2092德國1638英格蘭1340意大利1194法國1183日本899西班牙885印度851加拿大845發文機構數據論文數量(篇)中國科學院514清華大學118浙江大學84
130、北京師范大學80中山大學7030聯合國教科文組織(UNESCO)在2021年審議通過 開放科學建議書,標志著開放科學邁入全球共識的新階段,同時將永久標識符作為開放科學重要基礎設施之一,強調要持續穩定運行永久標識符系統。CSTR(Common Science and Technology Resource Identification)作為全球通用科技資源標識符,是全球科技資源唯一永久標識的貢獻者與全球開放科學的實踐者。一、科技資源標識服務平臺初建規??萍假Y源標識服務平臺(圖1)作為我國開放科學的重要基礎設施,為學術論文、學位論文、科學數據、預印本等11類科技資源提供唯一標識服務,推動構建跨學科
131、、跨地域、跨平臺的全球科技資源互聯互通體系,追蹤科技資源全球影響,實現科技資源全球范圍內快速定位與獲取??萍假Y源標識服務平臺的建設成效顯著,不僅促進了科技資源的整合與共享、提升了創新能力,還創新了服務模式、產生了顯著的社會效益。未來,隨著技術的不斷進步和應用場景的不斷拓展,平臺將在更多領域發揮重要作用,推動數字化轉型和智能化發展。二、科技資源標識探索不同領域應用1.科技資源標識在大科學裝置領域的應用探索 大科學裝置是指大型科研設施或平臺,如粒子加速器、同步輻射光源等。它們在科學研究和技術創新中發揮著重要作用。大科學裝置產生的數據、成果等資源也是科技資源的重要組成部分??萍假Y源標識為科技資源提供
132、了唯一且標準化的識別方式,將有助于實現科技資源的統一管理和高效利用。大科學裝置及其產生的科學數據、科技文獻三者共同使用科技資源標識,三者之間建立關聯關系,將會催生一系列重要的應用。(1)數據溯源與可追溯性。通過科技資源標識,大科學裝置產生的數據、科技文獻等資源都被賦予了唯一的身份標識。這種標識不僅促進了數據的存儲和管理,更重要的是實現了數據的溯源和提升了數據的可追溯性。研究人員可以清晰地了解數據的來源、產生過程、使用歷史等信息,從而確保數據的準確性和可靠性。在科研項目中,研究人員可以通過科技資源標識快速定位某一實驗數據集的詳細信息,包括實驗條件、實驗過程、數據分析方法等,這對于驗證實驗結果、復
133、現實驗過程具有重要意義。王姝 劉佳 王麗娟 夏曉蕾 呂雪峰 周園春 中國科學院計算機網絡信息中心中國科技資源標識應用實踐和探索圖1 科技資源標識服務平臺(2)科研資源共享與整合??萍假Y源標識將促進科研資源的共享與整合。不同科研機構、研究人員之間可以通過標識快速找到所需的科研資源,避免了資源的重復建設和浪費。同時可以實現對資源的統一管理和調度,提高資源的利用效率。國家科學數據中心等注冊機構可以將各自的數據集、科技文獻等資源通過科技資源標識進行注冊和發布,研究人員可以通過標識定位到所需資源,并進行下載、引用等操作。(3)科研趨勢分析與預測?;诳萍假Y源標識的關聯關系,可以對大科學裝置產生的數據、科
134、技文獻等資源進行深入分析,發現科研領域的發展趨勢和熱點問題。這種分析不僅有助于科研人員把握科研方向,還可以為科研決策提供支持。通過對大科學裝置產生的實驗數據進行挖掘和分析,結合相關的科技文獻資源,可以發現某一科研領域的最新進展、研究成果和存在的問題。這些信息可以幫助科研人員調整研究方向、優化實驗設計,提高科研效率和成果質量。2.科技資源標識在生物多樣性領域的應用探索生物多樣性是人類生存和社會發展的基礎,是生態文明建設和民族永續發展的保障。然而,隨著氣候變化和人類活動的加劇,生物多樣性正面臨前所未有的威脅。因此,加強生物多樣性保護與研究工作顯得尤為重要。開展科技資源標識在生物多樣性領域的應用探索
135、,可以充分利用科技資源標識的獨特優勢,實現生物多樣性數據的標準化、規范化和共享化,為生物多樣性保護與研究提供有力支持。(1)數據標準化與規范化??萍假Y源標識通過為生物多樣性數據賦予唯一的身份標識,將實現數據的標準化與規范化。這有助于解決生物多樣性數據在采集、存儲、處理、分析和共享過程中存在的格式不統一、標準不一致等問題,提高數據的可比性和可重用性。華南植物園通過科技資源標識的應用,可以實現對植物物種、植物標本等科技資源的定位和獲取,同時確保資源數據的準確性和可靠性。(2)數據共享與整合?;诳萍假Y源標識的生物多樣性數據共享平臺,可以實現不同機構、不同領域之間的數據共享與整合。這種共享機制將打破
136、信息孤島,促進數據資源的優化配置和高效利用??蒲腥藛T可以通過平臺快速獲取所需的生物多樣性數據資源,進行跨學科、跨領域的合作研究。(3)科普教育與公眾參與??萍假Y源標識還可以應用于生物多樣性科普教育和公眾參與中。通過為生物多樣性資源賦予易于理解和記憶的標識碼,可以方便公眾了解和學習生物多樣性知識。同時,基于科技資源標識的科普教育平臺可以提供豐富的生物多樣性教育資源,包括圖片、視頻、動畫等多種形式的內容,提高公眾對生物多樣性保護的認識和參與度。三、未來展望科技資源標識在越來越多領域的應用,將促進技術融合與智能化發展,通過與人工智能(AI)的深度融合,標識系統將更加智能化,能夠自動識別、分類和管理科
137、技資源。通過利用AI技術,科技資源標識將廣泛應用于自動標注、智能檢索和個性化推薦等方面,提升科技資源的使用效率和用戶體驗。通過制定統一的標識標準和規范,可以確保不同系統之間的互操作性,提高資源的使用效率和準確性??萍假Y源標識將更加智能化、數字化、標準化,為用戶提供更加便捷、高效的科技資源標識服務。32在施普林格 自然,我們致力于推動開放科學,這一宗旨的依據簡單而不可動搖公開共享所有研究成果是推進科學發現的關鍵。為了實現這一目標,我們與科學界密切合作,制定并實施相關政策和服務,促進在出版時共享數據、代碼、實驗方案、預印本和同行評議報告。根據去年的“中國開放數據白皮書(China State of
138、 Open Data)”調研,中國研究人員普遍支持數據共享原則。高質量數據存儲庫的可用性不斷提高,為研究人員提供了存儲和共享數據的平臺。不過,中國科研界重點突出了一點,即在消除數據共享的障礙方面進展不大,包括數據共享缺少學術認可、數據濫用令人擔憂。在全球范圍內,數據共享的要求正變得越來越普遍。盡管存儲庫廣泛可用,但研究人員通常缺乏必要的培訓和資源來根據“FAIR”原則共享數據即通過提供高質量的元數據,使數據可查找、可訪問、可互操作和可復用。另外,目前作者們必須要面對的是一個日益復雜的網絡,其中資助者、機構和期刊共享政策錯綜相連,導致他們很難知道應該采用什么方式在什么位置共享什么數據。這些政策仍
139、然存在嚴峻的執行問題,部分原因是我們依然缺乏可以準確量化共享的系統性舉措。由此導致的結果是,全球范圍內的變革步伐仍然非常緩慢。我們認為生成式AI的快速發展有可能改善這一局面,因為它能夠使生成高質量的結構化元數據變得更簡單。數據可用性聲明便是彰顯生成式 AI 的積極影響的一個典型例子。發揮數據可用性聲明的潛能2023 年,我們推出了一項通用數據政策,要求我們的所有期刊采用數據可用性聲明,以使我們發表的研究更加透明、可再現和可復用。然而,現在不充分或不準確的聲明是質量控制檢查期間提出修訂要求的一大常見原因。此外,許多作者仍然只是簡單地表示他們的數據可應要求提供,可惜事實往往并非如此。在 自然 系列
140、期刊,強大的編輯領導力產生了重大影響。在對一組期刊開展的試點研究中,編輯們只是讓作者解釋為什么沒有在論文接收之前將未共享的數據提交至存儲庫。這種直截了當的干預促使 87%的作者共享了自己的數據,而其他 自然 系列期刊的作者只有 51%這樣做。這表明主動溝通可以大幅提高數據共享合規性。然而,挑戰在于如何將這樣的成功經驗復制到我們所有的期刊。早在 2017 年,我們就推出了一項研究數據支持服務,為作者提供有關數據共享、元數據創建、數據存儲及數據可用性報告的個性化建議。雖然這項服務提供了VIP級別的支持,但它并沒有吸引到充足的用戶來維持運轉。這次經歷讓我們深刻地意識到,需要開發更具可擴展性的解決方案
141、提供類似級別的指導,但采用更便捷、更具成本效益的形式。對于施普林格 自然的內容創新團隊而言,我們的目標是使作者、審稿人和編輯能夠更便捷、更高效地創建、評估和傳播科研內容。我們不僅關注新技術的潛力,也關注這些技術如何與人類專長產生交互,而開放科學正是我們關注的核心挑戰之一。我們現在面臨的問題是,生成式 AI 能否為我們提供一種解決方案,滿足我們對于更具可擴展性的科研數據支持的需求?我們的工作仍處于實驗階段,但是不難看出,生成式AI與其他技術相結合,可用于準確識別稿件中的數據類型,區分新生成或復用的數據,檢查是否遵守了特定政策,并幫助作者撰寫全面的數據可用性聲明。我們希望通過為作者提供 AI 支持
142、,減輕作者和編輯的負擔,使其更容易遵守數據共享政策,并提高數據報告的整體質量。以我們所服務的科研界為指導開展工作,對于我們具有重要意義。我們期待通過與中國科學院建立的伙伴關系,在 2025 年與中國研究人員進行富有成效的合作。我們的目標是通過與研究人員、資助者和研究機構直接接觸,確保我們開發的工具能夠滿足他們的需求并無縫融入其工作流程。Niki Scaplehorn施普林格 自然讓開放變簡單:AI 可以推進開放科學嗎?揭秘數據論文我們也在探索應用AI來助力作者發表數據論文(data article)并提高這種論文形式知名度的潛力。2024年,中國研究人員在索引期刊上發表的數據論文數量應將首次超
143、過美國作者,國家自然科學基金委員會(NSFC)則成為全球領先的數據論文資助者。有鑒于這樣的顯著增長,我們正在測試使用生成式AI來掃描已發表的論文,從中提取具有價值、可復用的數據集,再以數據論文形式發表,這樣應會產生積極影響。確定數據集后,我們可以基于原始論文中的信息,運用生成式 AI創建個性化的論文模板,幫助作者快速輕松地發表數據論文。這些模板包含AI生成的摘要和研究目標等章節的草稿。作者在發表前需要對這些草稿進行檢查和編輯,以確保最終內容準確反映了自己的研究成果。這種方法可以減少作者所需付出的時間和精力,有助于促進高質量的數據集共享。作為一群科學家,我們仍在努力探索如何負責任地應用AI來撰寫
144、科研論文。我們看到了生成式AI讓發表研究變得更加容易和公平的的巨大潛力。顯然,研究人員有可能濫用AI,生成虛假研究,但這并不意味著所有生成式AI的應用都是有問題的。當生成式AI成為由人類科學主導的交互式過程的一部分時,我們相信它可以發揮重要的積極作用。開放數據只是故事的一角:如果研究數據與生成該數據所遵循的實驗方案、用于分析數據的代碼一起共享,那么數據的價值會進一步提高。雖然我們目前的重點是應用AI工具來促進數據共享,但它們同樣可以幫助我們推動代碼和實驗方案的共享。我們可以通過調整AI工具,識別有可能以代碼或實驗方案論文形式發表的新代碼和新方法,從而進一步提高研究的可重復性和透明度。結論顯然,
145、僅靠技術并不能解決開放科學難題,也不應認為技術可以取代穩健的政策制定或強大的編輯領導力。盡管如此,如果有序部署,技術不僅可以推動這些領域的進步,甚至可能催生一種更細致、更有針對性的政策方法,讓數據共享盡顯所能,急人所急。AI可以降低合規成本并使流程變得更加用戶友好,幫助克服開放科學實踐普及開來的一些阻力。將生成式AI融入研究及發表流程,為推進開放科學開辟了一條富有前景的道路。通過運用AI為作者提供高效、可擴展的支持,我們可以幫助作者更好地遵守數據共享政策,提高報告質量,最終促進科學發現。與研究人員合作,不斷改進這些AI工具,對于充分發揮其潛力至關重要。我們致力于與科學界合作,讓開放變得更加簡單
146、,運用技術來支持而非取代研究及發表流程中關鍵的人類要素。34于貴瑞,中國科學院院士,發展中國家科學院院士,中國科學院地理科學與資源研究所研究員。獲國家“杰出青年基金”和“引進海外杰出人才計劃”資助。中國科學院特聘研究員,中國科學院大學崗位教授、生態系統生態學教研室主任,中國陸地生態系統通量觀測研究聯盟(ChinaFLUX)理事長。兼任中國生態學學會理事長,中關村國基條件科技資源共享服務創新聯盟理事長,中國科學院生態系統研究網絡(CERN)科學委員會副主任,應用生態學報 主編、中國科學數據 副主編等職務。出版專著21部,授權專利7項,發表論文700余篇,論著累計被引4.2萬余次。近十年8篇論文入
147、選ESI高被引論文,連續多年獲愛思唯爾和科睿唯安認定的高被引科學家。獲國家科技進步一等獎1項,二等獎2項,省部級一等獎3項,中國科學院杰出科技成就獎1項。獲國務院政府特殊津貼、全國創新爭先獎、全國優秀科技工作者、科學中國人年度人物等多項榮譽獎。周園春,博士,研究員,博士生導師,現任中國科學院計算機網絡信息中心副主任、學術委員會主任,中國科學院科學數據總中心主任,大數據分析系統國家工程研究中心副主任,中 國信息協會科學數據專業委員會主任,中國檔案學會科技檔案與科學數據管理學術委員會副主任。研究領域為科學數據與數據智能等,在IJCAI、AAAI、IEEE TKDE、ACM TKDD、Nucleic
148、 Acids Research等國際著名期刊和會議,發布國家標準5項,出版專著3本,授權專利40多項。姜璐璐,工程師,中國科學院計算機網絡信息中心數據出版實驗室副主任,長期從事科學數據管理與科學數據出版工作,現工作于中國科學數據銀行(Science Data Bank,簡稱ScienceDB),負責ScienceDB產品運營與合作。在科學數據管理、共享與出版實踐上具有長期實踐經驗。張澤鈺,工程師,現就職于中國科學院計算機網絡信息中心大數據部,本碩攻讀法學專業,碩士研究方向為知識產權法,持有國家法律職業資格證書、工商管理方向經濟師證書。長期從事知識產權法、網絡法領域的研究工作,目前主要研究方向為
149、科研數據權益管理和數據合規。李宗聞,中國科學院計算機網絡信息中心工程師。多年來從事科學數據出版的研究工作,包括科學數據倉儲平臺建設、學術期刊論文關聯數據匯交共享機制等;負責科學數據銀行(ScienceDB)的宣傳推廣。參與了中國科協“科技論文關聯數據倉儲及應用服務平臺”、“期刊論文關聯數據匯交工作支撐服務”等課題研究。李成贊,博士,中國科學院計算機網絡信息中心數據出版實驗室主任,從事科學數據管理、出版與服務工作十余年,長期開展科學數據出版模式、機制、關鍵技術等的研究、探索與實踐,負責科學數據銀行ScienceDB平臺建設與運行,積極開展國際合作,提升數據成果價值,服務一流期刊建設,助力科研誠信
150、,積極推動我國數據共享生態建設與良性發展。馬菱薇,北京科技大學新材料技術研究院教授,國家材料腐蝕與防護科學數據中心國際合作部副部長、教育部“一帶一路”東南亞環境材料腐蝕與防護野外站副主任,Corrosion Science編輯。主要從事智能防腐涂層及表面防護技術研究,發表SCI論文130余篇,授權國家發明專利16項。入選第六屆中國科協“青年托舉人才工程”,獲得中國腐蝕與防護學會自然科學一等獎。張達威,北京科技大學新材料技術研究院教授,國際合作與交流處處長,國家材料腐蝕與防護科學數據中心常務副主任,美國材料性能與保護協會會士、國際顧問委員會主席,Corrosion Science副主編。主要從事
151、材料腐蝕智能科學與技術方面的研究工作,發表SCI論文200余篇,引用15000余次;入選國家級高層次人才計劃,獲得中國腐蝕與防護學會自然科學一等獎和冶金科學與技術二等獎。作者簡介(按文章順序排序)程學群,北京科技大學新材料技術研究院教授,國家材料腐蝕與防護科學數據中心副主任、中國腐蝕與防護學會秘書長。主要從事鋼鐵耐蝕機理及新型耐蝕鋼研發、腐蝕監測技術及腐蝕大數據等相關研究,發表SCI論文70余篇,出版著作3部,獲得國家授權發明專利18項,以及4項美國授權發明專利。獲得國家科學技術進步獎二等獎1項,省部級科技進步一等獎5項,二等獎3項。李曉剛,北京科技大學新材料技術研究院教授,國家材料腐蝕與防護
152、科學數據中心主任;中國腐蝕與防護學會理事長、會士;教育部材料腐蝕與防護重點實驗室主任;國際腐蝕理事會理事;美國國際防腐蝕工程師協會會士,歐洲腐蝕聯合會會士。長期從事材料腐蝕理論研究與耐蝕新鋼種開發工作,發表包括Nature 在內SCI論文800篇,出版專著24部,獲授權發明專利90余件;獲國家科技進步二等獎2項、省部級科技進步一等獎6項、行業科技一等獎5項;獲NACE國際杰出工程貢獻獎和最高研究獎;獲第五屆全國杰出工程師獎。何洪林,中國科學院地理科學與資源研究所研究員、博士生導師,國家生態科學數據中心主任,中國科學院生態系統網絡觀測與模擬實驗室副主任。長期以來從事生態信息學研究,在生態系統模型
153、數據同化、長期生態觀測數據挖掘、野外臺站科研信息化、生態系統服務功能與質量評估等工作中取得了一定的成績。曾獲國家科技進步二等獎2項、環保部科技進步一等獎1項、中國科學院杰出科技成就獎1項。侯艷飛,高級工程師,現就職于國家生態科學數據中心。長期從事科學數據管理與共享服務研究與實踐工作,參與中國科學院信息化專項、國家重點研發計劃項目等多個項目,在標準制定、系統需求分析和設計等方面具有豐富經驗。趙文明,正高級工程師,博士研究生導師。國家生物信息中心副主任、中國科學院北京基因組研究所副所長。主要研究方向為生物信息大數據整合挖掘、生物信息工具與平臺研發。主持研發原始組學數據歸檔系統(Genome Seq
154、uence Archive),獲得國際認可并入選全球核心生物數據資源,彌補國內空白。主持研發我國首個人類遺傳資源數據管理系統(GSA-Human),承擔人類遺傳資源信息備份、管理與共享任務,服務國家需求,保障人類遺傳資源數據安全。累計發表SCI論文60余篇,獲得計算機軟件著作權27項,專利1項。張思思,博士,中國科學院北京基因組研究所(國家生物信息中心)工程師。主要從事組學大數據智能化管理與系統研發。作為核心成員之一主力參與組學原始數據歸檔庫家族(GSA Family)建設;主導建設科學項目數據匯交系統與人類遺傳資源備份平臺,有力支撐我國科學數據和人類遺傳資源管理的重大需求。累計發表SCI論文
155、16篇,獲得計算機軟件著作權11項。胡良霖,中國科學院計算機網絡信息中心大數據部副主任、教授級高工,國家基礎學科公共科學數據中心主任,CODATA中委會秘書長,CODATA數據倫理工作組發起人兼共同主席,ISO/TC184/SC4/WG13工業數據質量工作組中國專家,全國科技平臺標準化技術委員會(TC486)委員,長期從事科學大數據治理、數據質量、數據安全與倫理、數據要素化演進等研究與實踐。高瑜蔚,中國科學院計算機網絡信息中心基礎科學數據服務實驗室主任,全國專業標準化技術委員會委員,主要從事科學大數據管理與技術應用研究工作。建設運行國家基礎學科公共科學數據中心,牽頭“面向數據要素的高質量數據通
156、用標準研究”等研究任務,先后參與國家重點研發計劃、國家社科基金重大項目、中國科學院信息化專項和科技部等多個項目。36朱艷華,中國科學院計算機網絡信息中心高級工程師,任全國信息分類與編碼標準化技術委員會(TC353)和全國中文新聞信息標準化技術委員會(TC352)的委員。長期從事科學數據標準規范,數據應用服務等研究十余年,參與多項重大科學數據相關課題的研究工作,牽頭和參與科學數據相關的國家標準3項,團體標準5項,發表論文20余篇。趙歡,中國科學院計算機網絡信息中心工程師,主要從事科學數據平臺的設計與系統建設,以及科技項目數據匯交工作。負責國家基礎學科公共科學數據中心科技項目數據匯交服務平臺等業務
157、系統的落地實施,承擔國家基礎學科公共科學數據中心課題“基礎學科數據資源平臺建設”等課題研究。馬曉萌,中國科學院計算機網絡信息中心助理工程師,研究方向為數據應用服務研究。主要參與國家基礎學科公共科學數據中心科學數據平臺的設計與系統建設、科學數據多學科數據交叉服務平臺設計、團體標準制修訂等工作。潘小多,中國科學院青藏高原研究所特聘骨干研究員,博士生導師。主要從事區域氣候變化,數據同化,數據集成和大數據分析等研究。集成青藏高原乃至中國陸域地球表層科學方面的遙感、冰凍圈、水文、生態、沙漠、古環境等資源、環境和人文等特色數據集,為青藏高原地球系統科學和區域可持續發展提供數據服務。研究成果主要發表在BAM
158、S、JGR等國際刊物,已發表130多篇。李新,中國科學院青藏高原研究所研究員、副所長,博士生導師。國家青藏高原科學數據中心主任,國家杰出青年科學基金獲得者,中國地理學會會士。主要從事陸面數據同化、遙感和GIS在水文水資源研究與冰凍圈研究中的應用、流域集成研究。歷時20年,建立了多個地學數據平臺,推動地學數據共享和集成。歷任WCRP/GEWEX委員,現任中國地理學會信息地理專業委員會主任,發表學術論文500余篇,h-index 83,是多個領域的高被引學者。馮敏,中國科學院青藏高原研究所研究員,博士生導師,三極觀測與大數據中心主任,青藏高原地球系統與資源環境重點實驗室副主任。曾入選國家級青年人才
159、項目和中科院人才計劃項目,主持自然科學基金和美國科學基金會多項科研項目,主要從事遙感大數據研究,發表了多套全球地表要素高分辨率數據集,首次估算了全球森林、水體的分布和變化,發表論文100篇以上。聶曉偉,中國科學院青藏高原研究所研究員,西藏大學教授、博士生導師。國家青藏高原科學數據中心西藏分中心主任。主要從事數據驅動下的生態系統服務實現、生態監測技術、大數據等研究。承擔國家和省部級各類項目10余項,近五年出版專著3部、發表SCI論文20余篇,圍繞“一帶一路”科技合作、青藏高原生態保護、疫情預測、冰凍圈生態保護等方面,作為主筆撰寫政策研究報告20余篇,近10次獲得領導批示。李鑫,研究員,中國科學院
160、動物研究所干細胞與生殖生物學國家重點實驗室研究組組長。從事研究主要在人工智能生物學,干細胞與發育、衰老以及癌癥轉移等領域。2022年入選國家海外優秀青年人才項目,組建并帶領中國科學院IT&BT交叉團隊“指南針聯盟”完成了世界首個最大參數量、最大訓練樣本、知識融入的跨物種細胞基礎大模型。以第一或通訊(含共同)作者發表包括Science,Cell,Nature Cell Biology,Cell Stem Cell等頂級期刊多篇。相關成果入選2016年“中國科學十大進展”。楊曉東,博士,中國科學院計算技術研究所副研究員、碩士生導師,主要從事醫學人工智能領域研究,先后承擔了國家重點研發計劃、國家自然
161、科學基金、中國科學院先導專項、北京市科技重大專項、北京市自然科學基金、北京市腦科學與腦認知計劃等項目,榮獲2023年度吳文俊人工智能科學技術獎技術發明獎二等獎、CHCI最佳論文提名獎等。陳述白,中國科學院計算技術研究所在讀博士研究生,研究方向為AI4Science與聯邦學習。主要從事面向科學數據的大模型構建及面向用戶隱私數據的個性化微調相關研究工作,作為骨干成員參與國家重點研發計劃、中國科學院戰略先導專項、國家自然科學基金等項目,核心參與研發了首個跨物種預訓練單細胞基礎大模型GeneCompass。劉筱敏,中國科學院文獻情報中心研究館員。中國科學院自然科學期刊研究會秘書長,中國科學技術期刊編輯
162、學會常務理事,中國科學基金編輯學報中國科技期刊研究 編委,長期從事中國科學引文數據庫(CSCD)、科研誠信監測、期刊出版等相關研究工作。王姝,女,博士,高級工程師,中國科學院計算機網絡信息中心標識技術與應用服務實驗室,長期從事標識技術研究和標準化工作,參與重點研發計劃項目、2019工業互聯網創新發展工程、科學大數據工程、中國科學院科普與期刊出版項目等。出版專著 物聯網標識關鍵技術和應用,參與已發布國家標準9項,國際提案2項,發表論文10余篇,授權專利3項。劉佳,女,碩士,高級工程師,中國科學院青促會會員,中國科學院計算機網絡信息中心標識技術與應用服務實驗室主任,任國務院食品安全專委會委員、國際
163、標準化組織標識與描述分技術委員會專家,歐洲永久標識聯盟(ePIC)管理委員會委員。作為負責人承擔20多項科研課題。研制標準17項(含國家標準7項),授權專利3項。夏曉蕾,女,碩士,工程師,中國科學院計算機網絡信息中心標識技術與應用服務實驗室,主要從事國際標準進展研究工作。參與國家重點研發計劃“典型科技資源標識可信服務關鍵技術研究與應用”,“基于區塊鏈技術的智慧生態畜牧業大數據平臺”等項目。參與已發布國家標準2項,發表論文3篇,授權專利1項。王麗娟,女,碩士,工程師,中國科學院計算機網絡信息中心大數據技術與應用發展部標識技術與應用實驗室。參與國家重點研發計劃“典型科技資源標識可信服務關鍵技術研究
164、與應用”項目、“2019工業互聯網創新發展工程-工業互聯網標識解析公共服務支撐平臺”項目、“國家進口冷鏈食品追溯管理平臺”項目。呂雪峰,男,工程師,中國科學院計算機網絡信息中心標識技術與應用服務實驗室,主要研究方向科學數據標識技術與應用,作為負責人承擔國家重點研發子課題“涉瀕危動物犯罪物證檢驗與溯源關鍵技術研究”、參與“國家工業互聯網大數據中心建設項目”、“進口冷鏈食品追溯管理平臺”等多項科研課題。Niki Scaplehorn,施普林格 自然內容創新總監,他是一名受過專業訓練的細胞生物學家和神經科學家,在Cell開始了他的編輯生涯,之后于 2012 年加入Nature Communications,并于2015年成為生命科學首席編輯。2019年,開始負責生命科學領域的Nature系列研究期刊。2023年,加入施普林格 自然新成立的內容創新團隊,運用其編輯經驗開發新工具,使科學研究的交流和共享變得更快、更輕松。中國開放數據白皮書2024The State of Open Data in China 2024報告聯合發布方Jointly released by