《中國人工智能學會:2024中國人工智能系列白皮書-人工智能驅動的生命科學(177頁).pdf》由會員分享,可在線閱讀,更多相關《中國人工智能學會:2024中國人工智能系列白皮書-人工智能驅動的生命科學(177頁).pdf(177頁珍藏版)》請在三個皮匠報告上搜索。
1、 中國人工智能系列白皮書中國人工智能系列白皮書 人工智能驅動的生命科學人工智能驅動的生命科學 中國人工智能學會中國人工智能學會 二二二四年七月二四年七月 中國人工智能系列白皮書 中國人工智能系列白皮書編委會中國人工智能系列白皮書編委會 主 任:戴瓊海 執行主任:王國胤 副 主 任:陳 杰 何 友 劉成林 劉 宏 孫富春 王恩東 王文博 趙春江 周志華 鄭慶華 委 員:班曉娟 曹 鵬 陳 純 陳松燦 鄧偉文 董振江 杜軍平 付宜利 古天龍 桂衛華 何 清 胡國平 黃河燕 季向陽 賈英民 焦李成 李 斌 劉 民 劉慶峰 劉增良 魯華祥 馬華東 苗奪謙 潘 綱 樸松昊 錢 鋒 喬俊飛 孫長銀 孫茂松
2、 陶建華 王衛寧 王熙照 王 軒 王蘊紅 吾守爾斯拉木 吳曉蓓 楊放春 于 劍 岳 東 張小川 張學工 張 毅 章 毅 周國棟 周鴻祎 周建設 周 杰 祝烈煌 莊越挺 中國人工智能系列白皮書中國人工智能系列白皮書-人工智能驅動的生命科學人工智能驅動的生命科學編寫組編寫組 張世華 張學工 陳盛泉 李婷婷 劉紅蕾 劉振棟 劉治平 王太峰 張 岳 鄭旭彬 中國人工智能系列白皮書 1 目 錄 第 1 章 單細胞轉錄組預訓練基礎模型.1 1.1 單細胞基礎模型概述.1 1.2 單細胞基礎模型構建.2 1.2.1 大規模單細胞數據集.2 1.2.2 單細胞數據編碼嵌入表示.3 1.2.3 預訓練任務建模.
3、5 1.3 單細胞基礎模型應用.8 1.3.1 基因嵌入表示和細胞嵌入表示.8 1.3.2 單細胞類型注釋.10 1.3.3 單細胞數據生成.10 1.3.4 推斷調控網絡.11 1.3.5 空間組學應用.11 1.3.6 其他任務.11 1.4 展望.12 參考文獻.13 第 2 章 人工智能賦能細胞異質性刻畫.17 2.1 概述.17 2.2 基于無監督學習的細胞異質性刻畫.18 2.2.1 基于無監督機器學習的細胞異質性刻畫方法.18 2.2.2 基于無監督深度學習的細胞異質性刻畫方法.20 2.3 基于弱監督學習的細胞異質性刻畫.22 2.3.1 刻畫轉錄組數據細胞異質性的弱監督學習方
4、法.24 2.3.2 刻畫表觀組數據細胞異質性的弱監督學習方法.24 2.3.3 刻畫空間轉錄組細胞異質性的弱監督學習方法.25 2.4 基于有監督學習的細胞異質性刻畫.25 中國人工智能系列白皮書 2 2.4.1 基于細胞間相似度的有監督學習方法.26 2.4.2 基于機器學習的有監督學習方法.27 2.4.3 基于深度學習的有監督學習方法.28 參考文獻.31 第 3 章 人工智能賦能疾病診療.39 3.1 引言.39 3.2 關鍵技術和應用.40 3.2.1 機器學習與深度學習.40 3.2.2 自然語言處理技術.41 3.2.3 醫療圖像分析技術.42 3.2.4 知識圖譜與數據整合技
5、術.43 3.2.5 生命科學領域的基礎模型.44 3.3 展望.47 參考文獻.49 第 4 章 人工智能助力醫療文本處理.54 4.1 醫療大數據簡介及分類.54 4.2 醫療文本自然語言處理.55 4.3 文本表示學習.56 4.4 知識圖譜.58 4.5 大語言模型在醫療文本中的應用.60 參考文獻.62 第 5 章 人工智能助力 RNA 結構預測.67 5.1 背景.67 5.2 研究現狀.77 5.3 機器學習與深度學習.83 5.3.1 卷積神經網絡.83 5.3.2 三維卷積神經網絡.87 中國人工智能系列白皮書 3 5.3.3 基于 ResNet 的三維卷積神經網絡.88 參
6、考文獻.91 第 6 章 人工智能識別組學生物標志物.101 6.1 背景.101 6.2 常見的單組學方法.101 6.2.1 過濾式.102 6.2.2 包裹式.102 6.2.3 嵌入式.103 6.3 從網絡中發展生物標志物.103 6.4 單組學研究的局限性.105 6.5 多組學的研究的優勢.105 6.6 多組學數據的整合策略.106 6.6.1 前融合.107 6.6.2 中融合.109 6.6.3 后融合.110 6.7 臨床中的應用.112 6.8 總結.113 參考文獻.114 第 7 章 蛋白質語言大模型的前沿探索和展望.118 7.1 從通用語言大模型到蛋白質語言大模
7、型.118 7.2 蛋白質語言大模型的前沿探索與嘗試.119 7.2.1 數據的來源和整理.119 7.2.2 訓練范式.120 7.2.3 蛋白質語言模型的 Scaling Law.122 7.2.4 語言模型應用落地.124 7.3 對于蛋白質語言模型以及 AI 進行蛋白質設計的展望.125 7.3.1 多模態融合的蛋白質預訓練.125 中國人工智能系列白皮書 4 7.3.2 對數據的期待.127 7.3.3 語言模型與 AI 蛋白質設計的思路.127 參考文獻.129 第 8 章 人工智能基因調控.132 8.1 基因調控概述.132 8.2 基序檢測的人工智能算法.133 8.3 基因
8、調控網絡構建的人工智能算法.135 參考文獻.140 第 9 章 人工智能賦能多組學融合.148 9.1 人工智能與多組學融合概述.148 9.2 多組學測序技術.151 9.2.1 單細胞基因組學.152 9.2.2 單細胞轉錄組學.152 9.2.3 單細胞表觀遺傳學.153 9.2.4 單細胞蛋白質組學.153 9.2.5 單細胞多組學.154 9.3 轉錄組學與表觀遺傳學數據融合.154 9.3.1 基于深度神經網絡方法.154 9.3.2 基于矩陣分解方法.157 9.3.3 基于圖/網絡方法.158 9.4 轉錄組學與蛋白質組學數據融合.160 9.4.1 基于神經網絡方法.160
9、 9.4.2 基于矩陣分解方法.161 9.4.3 基于貝葉斯統計學方法.162 9.4.4 基于圖/網絡方法.162 9.5 轉錄組學、蛋白組學與表觀遺傳學數據融合.163 9.5.1 基于神經網絡方法.163 中國人工智能系列白皮書 5 9.5.2 基于矩陣分解方法.164 9.5.3 基于圖/網絡方法.164 參考文獻.166 中國人工智能系列白皮書 1 第 1 章 單細胞轉錄組預訓練基礎模型 1.1 單細胞基礎模型概述 近年來,隨著高通量單細胞測序技術的發展和普及,生物信息學領域內產生了以單細胞轉錄組為代表的數以億計的單細胞數據,涵蓋了上千種細胞類型、覆蓋了不同的發育過程和細胞狀態。國
10、際上興起的細胞圖譜計劃對這些海量單細胞數據進行了收集和組裝,形成了HCA1、hECA2、CZ-cellxgene3等千萬級別的大規模細胞圖譜,擴展了單細胞組學數據的體量和多樣性,為研究單細胞特性提供了寶貴的資源。而隨著數據量的快速增長和數據異質性的提高,人們愈發意識到傳統的單細胞算法難以有效捕捉大規模單細胞數據集中的生物規律和信息,這促使研究人員開始開發基于預訓練人工智能的計算方法,通過構建單細胞轉錄組的基礎模型學習大規模數據中蘊含的規律?;A模型是一種在廣泛數據上訓練的機器學習模型,旨在通過大規模自監督學習進行訓練,賦予其有效地適應廣泛下游任務的能力。單細胞轉錄組數據中蘊含著豐富的生物學信息
11、,構建單細胞轉錄組的基礎模型能夠學習基因表達中的調控規律,并將其與細胞類型識別、藥物響應預測等多種下游任務建立關聯,具有廣闊的應用前景和價值。在自然語言、計算機視覺和語音處理等領域的基礎模型構建中,Transformer 模型4已然成為了各種基礎模型的骨干網絡架構。Transformer 模型具有超群的長序列處理能力和擴展性,能夠充分利用大規模數據并捕捉其中的數據特征,這使得 Transformer 模型在構建單細胞組學基礎模型的過程中可以發揮關鍵作用。目前,通過 Transformer 模型構建單細胞基礎模型這一研究方向正處于早期探索階段512,已有的預訓練模型包括:scBERT、Genef
12、ormer、scGPT、scFoundation、tGPT、GeneCompass 和 scMulan等。本章對已有的單細胞基礎模型方法進行總結和歸納,分別對單細胞基礎模型建模中的數據集、細胞表征、預訓練任務建模、細胞和基中國人工智能系列白皮書 2 因嵌入、下游任務等內容進行概述,并對未來研究方向進行展望。1.2 單細胞基礎模型構建 通過 Transformer 模型構建單細胞基礎模型的過程主要涉及數據預處理、數據編碼和預訓練任務構造三個步驟。單細胞基礎模型的訓練使用大規模單細胞數據集,并對數據特征維度等信息進行統一處理。數據編碼過程主要包括對單細胞轉錄組數據的基因及其表達量進行編碼;預訓練過
13、程則涉及預訓練任務的構建和 Transformer 架構選擇。經過編碼的基因和表達量被輸入 Transformer 中,經過自注意力機制進行長序列運算提取互作信息,并生成基因表征,進一步通過預訓練任務的預測頭進行自監督訓練。1.2.1 大規模單細胞數據集大規模單細胞數據集 目前的單細胞基礎模型以基因為基本標識,以一個細胞為一個對象,在預訓練階段需要龐大的細胞數量以提供豐富的細胞多樣性。高通量測序技術的飛速發展帶來了大量的單細胞數據,hECA2、CZ-cellxgene3和 DISCO13等細胞圖譜收集了千萬級別的單細胞數據,涵蓋了幾百個數據集、百余種細胞類型、各年齡段的捐獻者。這些細胞圖譜不僅
14、僅收集了數據集,還進行了一定的跨數據集統一處理。這樣的數據規模和多樣性,能夠支持模型捕捉數據中的基因關系和分布特征。除了單細胞數據的收集之外,上述數據集還提供了豐富的元信息,包括細胞類型、所屬器官、捐獻者信息等。其中,hECA 對不同來源數據集中的元信息進行了系統的整理,使元信息字段在不同數據集中保持一致,例如,保證不同器官中相同細胞類型的細胞名稱一致。這使得這些內容能夠在基因表達之外,給模型提供更為宏觀的信息;同時,這也需要模型進行專門設計進行兼容。上述單細胞圖譜都對不同來源的數據的基因列表進行了統一,使得圖譜中所有細胞共享相同的基因列表。根據不同模型的設計,會通中國人工智能系列白皮書 3
15、過算法選取高變基因或使用完整基因。對基因表達矩陣的處理包括標準化和對數變換等步驟,旨在降低表達量中極端數據的影響,并使得特征范圍可比。1.2.2 單細胞數據編碼嵌入表示單細胞數據編碼嵌入表示 由于 Transformer 主要用于處理序列化的數據,而單細胞數據是表格類型的數據,因此需要將數據進行轉化,從而能夠支持Transformer 模型進行處理。單細胞轉錄組基礎模型通常將基因視為單詞,細胞中的所有基因表達視為一個句子。由于每個基因天然是獨立的單位,所以無需像自然語言處理那樣對句子進行分詞操作。而又由于與自然語言的詞匯不同,在每一個單細胞的句子里,每個基因不僅由一個詞匯(gene symbo
16、l)來表示,它還有對應的表達值。因此,需要對輸入的基因名稱和表達值分別進行編碼,轉為 Transformer 能夠接收的格式??梢詫⒒蚝捅磉_值分別使用不同的編碼方式到相同維度的嵌入空間,然后通過相同位置編碼逐元素求和得到最終輸入Transformer 模型的嵌入。目前對基因名稱和對應的表達值存在不同的利用和編碼方式。1.2.2.1 基因名稱的編碼嵌入表示 為了讓 Transformer 能夠區分每一個輸入的基因,需要對不同基因賦予不同的編碼嵌入。大多數單細胞基礎模型采用了自然語言處理中對 token 的編碼方式,即通過 one-hot 編碼和投影神經網絡將詞匯表中的每一個基因投影到一個高維嵌
17、入空間。這使得每一個基因都通過編碼成為相同維度的嵌入向量。這個投影過程具有可學習的參數,會隨著 Transformer 的訓練而進行更新,從而一定程度上能夠捕捉基因之間的關系。除了從數據中直接學習投影嵌入表示,GeneCompass11還通過引入外部知識,對基因賦予了其他的編碼嵌入,包括啟動子嵌入、共表達嵌入、基因族嵌入和基因調控網絡嵌入。其中,啟動子嵌入是使用中國人工智能系列白皮書 4 基因轉錄起始位點附近的堿基序列微調 DNABERT 模型14,并獲取其對應的隱層表示來獲得的。共表達嵌入、基因族嵌入和基因調控網絡嵌入是通過 gene2vec 方法15獲取的嵌入表示,即先將具有相似屬性的基因
18、構建基因對,再訓練 gene2vec 模型使得相似基因可以獲得相近的嵌入表示。這些編碼具有相同的嵌入維度,從而經過聚合之后輸入到 Transformer 模型之中。1.2.2.2 基因表達值編碼嵌入表示 基因表達值一方面可以用于給基因排序,通過位置編碼的形式間接地提供表達水平的信息,另一方面也可以直接進行編碼作為輸入。本節介紹三種主要的表達值編碼方式,可以將基因表達值的信息通過編碼,疊加到基因編碼上,作為 Transformer 的輸入,包括排序編碼、連續值投影編碼和離散類別編碼。排序編碼:根據基因表達量的高低可以對細胞中表達的基因由高到低排序,從而形成一個基因序列。由于 Transforme
19、r 對位置不敏感,可以通過跟自然語言中類似的位置編碼對基因序列的位置進行編號,形成包含了表達量高低信息的位置編碼。目前的 Geneformer 模型8采用了這種排序編碼的方式。它的好處在于抹去了原始表達信息,從而更好地適應原始的 Transformer 架構,但隨之而來的缺點是無法從排序后的序列中恢復原始表達。連續值投影編碼:經過標準化和對數變換等處理流程之后得到的基因表達量通常是一個連續的數值,為了將其映射到與基因編碼相同的編碼空間,需要對表達值進行投影。這個過程采用神經網絡來完成,得到與基因編碼相同維度的嵌入。這種編碼形式理論上可以不經損失地使用原始的連續表達值,但是由于原空間維度過高,可
20、能影響模型對有效信息的捕捉能力。scFoundation6 和 GeneCompass 模型中使用了連續值投影的編碼。離散類別編碼:將編碼空間離散化有助于模型的學習更為穩定,中國人工智能系列白皮書 5 也與基因編碼的方式保持一致。因此,可以先將連續值進行離散化,得到諸多表達量區間,然后將表達量區間通過與基因編碼相似的離散投影網絡,將表達量投影到高維嵌入空間。離散類別編碼也有多種實現方式,如 scMulan5通過動態分桶法,以每個細胞中表達值最高的基因為基準,劃分多個區間;scGPT 7通過分位數的方式來劃分區間;BioFormers9提出可以通過非線性地對高表達、超高表達、低表達的基因采用不同
21、的區間劃分。1.2.2.3 其他元素的編碼 除了基因和表達值,其他元信息和特殊字符也可以被編碼到Transformer 之中。例如,scMulan 將以文本形式存在的細胞元信息以獨立字符的方式進行編碼,使得模型可以捕捉基因表達與元信息之間的關系,并且通過將不同的下游任務進行編碼,使得模型能夠通過接收不同的任務提示詞來執行不同的功能。此外,包括批次信號、CLS、擾動信息等元素,也被應用于模型編碼之中。這些特殊字符的編碼可以給模型賦予額外的信息。1.2.3 預訓練任務建模預訓練任務建模 通過構建自監督學習任務的方式訓練 Transformer 模型可以充分利用龐大的單細胞數據,從中學習調控規律和生
22、物信息并應用于豐富的下游任務,從而在沒有特定任務注釋的情況下提高模型的泛化能力。這一自監督學習的范式已經在自然語言、計算機視覺等領域的基礎模型構建過程中得到了廣泛的印證。在單細胞基礎模型中,采用的預訓練任務主要分為類似于 BERT模型16使用的掩碼預測(MLM)任務和類似于 GPT 模型17使用的因果逐個生成(CLM)任務。1.2.3.1 基于 MLM 的預訓練 MLM 是一種常見的自監督預訓練方法,在自然語言處理中應用的典型代表為 BERT 及其變體16,1820,目前的單細胞基礎模型中國人工智能系列白皮書 6 scBERT12、Geneformer、scGPT 和 scFoundation
23、 等,采取的是這種預訓練任務。具體而言,在單細胞的 MLM 任務中,某些基因表達量的值會被隨機屏蔽(施加 Mask),然后模型通過自監督訓練來預測這些被屏蔽的基因的基因表達水平。scFoundation 在這一基礎上,還引入了恢復測序深度這一任務,進一步學習基因表達水平的信息。MLM 任務可以讓模型學習到基因表達數據的分布和結構,同時還能捕捉到基因之間的潛在關系。圖圖 1-1 scFoundation 的建模方式的建模方式 MLM 的預訓練任務會選擇使用 Transformer 的 Encoder 架構,它允許輸入的所有元素通過雙向的 Attention 機制獲取全局信息,并得到每一個元素的高
24、維嵌入表示。在預訓練階段,被屏蔽位置的元素的高維嵌入會被用于預測表達量,計算均方誤差等損失,進行反向傳播和梯度下降進行 Transformer 的參數更新。通過MLM預訓練后的基礎模型捕捉到輸入數據中的復雜結構和依賴關系,這對于理解單細胞組學數據中的基因表達模式和細胞狀態具有重要作用。不過這一任務對屏蔽方式較為敏感,如何選擇最佳的屏蔽策略,如屏蔽比例、屏蔽內容等,需要進行專門的測試和設計,不同的策略可能會對模型的訓練產生顯著影響。中國人工智能系列白皮書 7 1.2.3.2 基于 CLM 的預訓練 目前,在自然語言處理領域最先進的大語言模型如 GPT 系列、Llama 系列17,2123等均采用
25、 CLM 方式構建生成式預訓練任務。CLM的任務是給定輸入序列,預測下一個元素,在推理過程中可以通過生成完成任務。由于單細胞基因表達并沒有天然的順序,不同基礎模型給出了各自的預訓練任務構建方式。tGPT10通過基因表達量的高低構造了基因的順序,將預訓練任務定義為給定某個位置之前的基因排序,預測下一個位置的基因,期望通過高表達基因逐漸預測所有低表達的基因。scMulan 利用了注意力機制對位置不敏感的特點,沒有對基因排序,而是通過隨機打亂細胞中的基因順序消除基因的排序,然后將預訓練任務定義為給定某個位置之前的基因,預測細胞里其余基因和表達值,期望通過一部分基因預測其他基因。此外,scMulan
26、還加入了諸多元信息,如細胞類型、器官名、捐獻者年齡、性別等。這些元信息可以作為輸入序列的一部分,也可以作為預測對象。這使得在模型在預訓練過程中構建了微觀基因表達與宏觀元信息之間的聯系。通過設置諸多任務提示詞,scMulan 可以在不同的下游任務中生成與之對應的內容,從而使用相同的預訓練范式,能夠同時進行多任務的預訓練。圖圖 1-2 scMulan 對基因表達和元信息的使用范式對基因表達和元信息的使用范式 中國人工智能系列白皮書 8 CLM 的預訓練任務使用 Transformer 的解碼器來進行訓練。解碼器通過特殊的因果注意力機制,使得每一個輸入元素只能與它本身和它之前的元素產生注意力。在模型
27、訓練過程中,模型的一次前向和反向計算將會同時對所有輸入元素進行訓練,在單細胞轉錄組上的訓練效率更高。需要注意的是,CLM 方法得到的模型作為生成式模型,并不能顯式地獲取每一個輸入基因經過 Transformer 之后的表征,其獲取細胞表征的方式也有待進一步研究。1.3 單細胞基礎模型應用 在自監督預訓練完成后,單細胞基礎模型可被應用于多種下游任務,這充分展現了單細胞基礎模型的可擴展性和通用性。目前的單細胞基礎模型大多數通過在不同任務上進行微調執行對應任務,scMulan5由于在預訓練階段使用了部分元信息,可以在相關任務上無需微調執行多種下游任務。單細胞基礎模型的應用主要包括:細胞嵌入表示、細胞
28、類型注釋、單細胞數據生成、推斷調控網絡和空間組學應用等。1.3.1 基因嵌入表示和細胞嵌入表示基因嵌入表示和細胞嵌入表示 目前的單細胞基礎模型,在經過預訓練后都可以輸出具有生物學含義的細胞嵌入表示。不同于輸入 Transformer 之前對基因的嵌入表示,此處的嵌入表示是數據經過訓練好的 Transformer 得到的。由于單細胞基礎模型面對測試數據集具有良好的泛化能力,從而對新數據的細胞嵌入也可以保留基因之間和細胞之間的關系,具有較好的魯棒性。細胞嵌入表示可以通過對所有基因嵌入平均的方式得到。1.3.1.1 基因嵌入表示 基因的嵌入表示可以分為數據無關的嵌入和數據相關的嵌入表示。中國人工智能
29、系列白皮書 9 應用于單細胞數據的 Transformer 在輸入基因數據時,首先會生成某種維度的基因編碼,如 1.2.2 節所述。這種基因編碼通常在預訓練過程中作為模型參數的一部分而進行更新。這類基因編碼是模型參數的一部分,可以看做是與數據無關的基因嵌入。數據相關的基因嵌入表示是將數據輸入模型,然后從模型輸出得到。一般而言這樣的表示是從 Transformer 的最后一層輸出層獲取的,而在 Geneformer 模型中,使用的是 Transformer 輸出的倒數第二層表示8。通過比較這些嵌入表示在不同細胞間的相似性得分,例如余弦相似性,可以為基因之間的共表達等關系提供新的見解。1.3.1.
30、2 細胞嵌入表示 低維空間中單個細胞的高質量表示是單細胞各種下游分析的關鍵組成部分。其中至關重要的是保存生物差異,如細胞類型和細胞狀態,同時最大限度地減少技術混淆,如數據集之間的批次效應。在整合來自多個研究、組織甚至生物體的數據時,去除批次效應和相關協變量是極具挑戰性的。Transformer 通過預訓練任務在未知批次的情況下為細胞提供了一個有效嵌入表示,并且可以證明該表示對某些批處理效果穩健?;?Transformer 的細胞嵌入表示在許多方面與其他技術有所不同?;谧兎肿跃幋a器的流行模型,如 scVI24和 scArches25,或最近提出的 SCimilarity11等模型明確地學習低
31、維嵌入。Transformer 僅通過常用的自監督預訓練任務并不顯示產生低維的細胞嵌入,而是通過匯集單個細胞的 Transformer 輸出的基因嵌入來實現細胞嵌入。例如將 Transformer 的每一個基因嵌入表示求均值得到細胞的嵌入表示,或者通過在輸入中引入特殊的細胞標記,如 CLS,該標記的嵌入表示可以代表細胞的嵌入表示。此外,Transformer 輸入標記的靈活性便于使用多模態特征進行細胞表示,例如 scGPT7可以將跨組學數據進行匹配和馬賽克整合。中國人工智能系列白皮書 10 單細胞基礎模型提取的細胞嵌入表示在多種下游任務表現更優異,被證實良好地去除批次效應的同時保留了生物差異。
32、1.3.2 單細胞類型注釋單細胞類型注釋 許多單細胞基礎模型被設計用于單細胞類型注釋這一下游任務,這也是評估單細胞基礎模型的一個通用任務。單細胞基礎模型已經顯示出通過自監督預訓練可以提高它們的細胞注釋能力。具體而言,在單細胞類型注釋任務中,使用者可以將預訓練得到的單細胞嵌入表示進行微調,從而實現對細胞類型注釋。例如Geneformer8、scFoundation26等大多數模型都是通過微調實現細胞類型注釋。而 scMulan5可以不經過微調實現細胞類型注釋。由于細胞類型也是元信息的一部分,scMulan 得益于將細胞的元信息作為自回歸學習的一部分這種特殊設計,可以無需微調直接進行細胞類型注釋。
33、Transformer 在泛化到未見數據集方面表現出了巨大的潛力,這對利用具有統一注釋的參考單細胞數據圖譜來注釋新數據集至關重要。1.3.3 單細胞數據生成單細胞數據生成 單細胞數據生成包括基因擾動數據生成、跨模態數據預測和基于元信息條件生成等。經過自監督預訓練的單細胞基礎模型可以通過模擬單個輸入基因的擾動,在擾動條件下的預測其他的基因表達。例如,基因敲除或降低表達,或在細胞暴露于小分子等擾動條件下實現單細胞數據生成,這有利于進行虛擬藥物試驗從而實現藥物的快速篩選等??缒B預測是使用已知的模態來預測缺失的模態,例如 scMoFormer 27和 scTranslator28利用基因組學數據預測
34、蛋白組學數據。此外,生成性 Transformer 有可能直接模擬數據。例如,scMulan 使用指定的元信息條件作為輸入,不需要任何組學特征即可生成單細胞數據,該模型可以用于在獲取匹配對照組織具有挑戰性的情況下進行對照組數據集的生成,并在一定程度上可以通過輸入基因擾動在零樣本條件下生成擾動后的細胞,進行虛擬擾動實驗。中國人工智能系列白皮書 11 1.3.4 推斷調控網絡推斷調控網絡 單細胞預訓練基礎模型可以用于推斷基因之間的相互作用和調控網絡。細胞和基因組學特征標記之間的注意力分數可以用來識別細胞類型標記基因、與特定細胞表型相關的基因,以及與生物過程相關的基因,如發育調節因子,以及與特定細胞
35、表型相關的基因。例如,Geneformer8和 GeneCompass11等模型通過分析基因嵌入之間的注意力分數來推斷基因調控網絡。在傳統方法中,識別與特定條件相關的組學特征,或者這些特征之間的相互作用,通常是通過特征與條件之間的相關性或通過分析特征嵌入的相似性來得出的。Transformer 引入了一種新穎的方法,即通過不同組學標記之間的注意力機制來學習多模態相互作用,生成可學習的特征關系。例如,結合 ATAC 和 RNA 數據可能揭示基于共結合轉錄因子的表達和染色質可及性的上下文特定的轉錄因子調控。1.3.5 空間組學應用空間組學應用 單細胞基礎模型在空間組學應用中也顯示出了潛力。scGP
36、T 7、SpaFormer29和 CellPLM30直接應用于空間組學數據,在空間轉錄組基因表達插補任務上展示了有效結果。目前 SpaFormer 和 CellPLM 進行了空間信息的設計,將其整合到模型輸入中,使用位置編碼來編碼細胞的空間坐標??臻g轉錄組學的迅速發展以及 Transformer 在其他領域解析空間坐標的能力使得這些技術的整合成為一個有前景的新領域。1.3.6 其他任務其他任務 單細胞基礎模型由于各自的模型細節和側重不同,設計了很多具有特色的下游任務,如單細胞藥物響應預測、基因劑量敏感性預測實驗等。例如,scFoundation 和 GeneCompass 可以結合 GEARs
37、 等基因擾 動 預 測 模 型,用 于 預 測 基 因 擾 動 的 影 響,Geneformer 和GeneCompass 可以執行基因劑量敏感性預測任務,scFoundation 可以中國人工智能系列白皮書 12 增強輸入數據的測序深度、并可在 bulk 數據上應用。1.4 展望 目前在單細胞轉錄組數據上預訓練得到的基礎模型在零樣本和微調場景下產生了優異的表現。如何結合單細胞多模態數據,如空間轉錄組、染色質開放性等信息構建基礎模型,將是未來研究的一個重要方向。此外,對于單細胞基礎模型中的涌現現象有待進一步探索。在應用方面,未來需要探索如何通過單細胞基礎模型,實現疾病靶點發現和快速藥物篩選,從
38、而幫助更好解決更多的生命健康難題。中國人工智能系列白皮書 13 參考文獻 1 Science Forum:The Human Cell Atlas|eLife n.d.https:/elifesciences.org/articles/27041(accessed April 18,2024).2 Chen S,Luo Y,Gao H,Li F,Chen Y,Li J,et al.hECA:The cell-centric assembly of a cell atlas.iScience 2022;25:104318.https:/doi.org/10.1016/j.isci.2022.10
39、4318.3 Program CS-CB,Abdulla S,Aevermann B,Assis P,Badajoz S,Bell SM,et al.CZ CELL GENE Discover:A single-cell data platform for scalable exploration,analysis and modeling of aggregated data 2023:2023.10.30.563174.https:/doi.org/10.1101/2023.10.30.563174.4 Vaswani A,Shazeer N,Parmar N,Uszkoreit J,Jo
40、nes L,Gomez AN,et al.Attention Is All You Need.Advances in Neural Information Processing Systems 2017;30.5 Bian H,Chen Y,Dong X,Li C,Hao M,Chen S,et al.scMulan:a multitask generative pre-trained language model for single-cell analysis 2024:2024.01.25.577152.https:/doi.org/10.1101/2024.01.25.577152.6
41、 Hao M,Gong J,Zeng X,Liu C,Guo Y,Cheng X,et al.Large Scale Foundation Model on Single-cell Transcriptomics 2023:2023.05.29.542705.https:/doi.org/10.1101/2023.05.29.542705.7 Cui H,Wang C,Maan H,Pang K,Luo F,Wang B.scGPT:Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative
42、AI 2023:2023.04.30.538439.https:/doi.org/10.1101/2023.04.30.538439.8 Theodoris CV,Xiao L,Chopra A,Chaffin MD,Al Sayed ZR,Hill MC,et al.Transfer learning enables predictions in network biology.Nature 2023:19.https:/doi.org/10.1038/s41586-023-06139-9.9 Amara-Belgadi S,Li O,Zhang DY,Gopinath A.Bioforme
43、rs:A 中國人工智能系列白皮書 14 Scalable Framework for Exploring Biostates Using Transformers 2023:2023.11.29.569320.https:/doi.org/10.1101/2023.11.29.569320.10 Shen H,Liu J,Hu J,Shen X,Zhang C,Wu D,et al.Generative pretraining from large-scale transcriptomes for single-cell deciphering.iScience 2023;26.https:/
44、doi.org/10.1016/j.isci.2023.106536.11 Yang X,Liu G,Feng G,Bu D,Wang P,Jiang J,et al.GeneCompass:Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model.Bioinformatics;2023.https:/doi.org/10.1101/2023.09.26.559542.12 Yang F,Wang W,Wang F,Fang Y,Tang D,H
45、uang J,et al.scBERT as a Large-Scale Pretrained Deep Language Model for Cell Type Annotation of Single-Cell RNA-seq Data.Nature Machine Intelligence 2022;4:85266.13 Li M,Zhang X,Ang KS,Ling J,Sethi R,Lee NYS,et al.DISCO:a database of Deeply Integrated human Single-Cell Omics data.Nucleic Acids Resea
46、rch 2021:gkab1020.https:/doi.org/10.1093/nar/gkab1020.14 Ji Y,Zhou Z,Liu H,Davuluri RV.DNABERT:pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome.Bioinformatics 2021;37:211220.https:/doi.org/10.1093/bioinformatics/btab083.15 Du J,Jia P,Dai Y,Tao C,Zh
47、ao Z,Zhi D.Gene2vec:distributed representation of genes based on co-expression.BMC Genomics 2019;20:82.https:/doi.org/10.1186/s12864-018-5370-x.16 Devlin J,Chang M-W,Lee K,Toutanova K.Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv Preprint arXiv:181004805 2018.
48、17 Radford A,Wu J,Child R,Luan D,Amodei D,Sutskever I.中國人工智能系列白皮書 15 Language Models are Unsupervised Multitask Learners n.d.18 Liu Y,Ott M,Goyal N,Du J,Joshi M,Chen D,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach 2019.https:/doi.org/10.48550/arXiv.1907.11692.19 Lan Z,Chen M,Goodman S
49、,Gimpel K,Sharma P,Soricut R.ALBERT:A Lite BERT for Self-supervised Learning of Language Representations 2020.20 Joshi M,Chen D,Liu Y,Weld DS,Zettlemoyer L,Levy O.SpanBERT:Improving Pre-training by Representing and Predicting Spans.Transactions of the Association for Computational Linguistics 2020;8
50、:6477.https:/doi.org/10.1162/tacl_a_00300.21 Brown T,Mann B,Ryder N,Subbiah M,Kaplan JD,Dhariwal P,et al.Language Models are Few-Shot Learners.Advances in Neural Information Processing Systems,vol.33,Curran Associates,Inc.;2020,p.1877901.22 Touvron H,Lavril T,Izacard G,Martinet X,Lachaux M-A,Lacroix
51、 T,et al.Llama:Open and Efficient Foundation Language Models.arXiv Preprint arXiv:230213971 2023.23 Touvron H,Martin L,Stone K,Albert P,Almahairi A,Babaei Y,et al.Llama 2:Open Foundation and Fine-Tuned Chat Models.arXiv Preprint arXiv:230709288 2023.24 Lopez R,Regier J,Cole MB,Jordan MI,Yosef N.Deep
52、 generative modeling for single-cell transcriptomics.Nature Methods 2018;15:10538.https:/doi.org/10.1038/s41592-018-0229-2.25 Lotfollahi M,Naghipourfar M,Luecken MD,Khajavi M,B ttner M,Wagenstetter M,et al.Mapping single-cell data to reference atlases by transfer learning.Nat Biotechnol 2022;40:1213
53、0.中國人工智能系列白皮書 16 https:/doi.org/10.1038/s41587-021-01001-7.26 Hao M,Gong J,Zeng X,Liu C,Guo Y,Cheng X,et al.Large Scale Foundation Model on Single-cell Transcriptomics 2023:2023.05.29.542705.https:/doi.org/10.1101/2023.05.29.542705.27 Heimberg G,Kuo T,DePianto D,Heigl T,Diamant N,Salem O,et al.Scala
54、ble querying of human cell atlases via a foundational model reveals commonalities across fibrosis-associated macrophages 2023:2023.07.18.549537.https:/doi.org/10.1101/2023.07.18.549537.28 Liu L,Li W,Wong K-C,Yang F,Yao J.A pre-trained large generative model for translating single-cell transcriptome
55、to proteome 2023:2023.07.04.547619.https:/doi.org/10.1101/2023.07.04.547619.29 Wen H,Tang W,Jin W,Ding J,Liu R,Dai X,et al.Single Cells Are Spatial Tokens:Transformers for Spatial Transcriptomic Data Imputation 2024.https:/doi.org/10.48550/arXiv.2302.03038.30 Wen H,Tang W,Dai X,Ding J,Jin W,Xie Y,et
56、 al.CellPLM:Pre-training of Cell Language Model Beyond Single Cells 2023:2023.10.03.560734.https:/doi.org/10.1101/2023.10.03.560734.中國人工智能系列白皮書 17 第 2 章 人工智能賦能細胞異質性刻畫 2.1 概述 傳統的基因組學研究通常只能提供細胞群體的信息,而單細胞測序技術的出現使得研究人員可以更加深入地了解細胞群體內部的細胞異質性,揭示不同細胞之間的轉錄表達模式、表型特征以及功能狀態的差異,從而理解細胞群體中不同亞型的分布、相互作用以及在生理和病理過程中的作
57、用。同時,隨著測序技術的不斷發展,包括單細胞轉錄組測序、單細胞表觀組測序、單細胞蛋白質組測序等在內的不同組學單細胞測序技術的應用,也使得我們可以同時獲得細胞多層次、多維度的數據,進一步豐富了對細胞異質性的理解。盡管各類單細胞測序技術的發展為細胞異質性的刻畫提供了強有力的工具,推動了細胞生物學領域的發展和深入研究,但單細胞測序數據的分析仍面臨特征維度高、數據噪聲大、稀疏程度高、批次效應強和技術差異大等多種挑戰,如何有效地整合多源單細胞數據,準確地刻畫細胞異質性,從而精準地辨識細胞類型并解析其基因調控規律,是亟待解決的關鍵科學問題。隨著人工智能技術的迅速發展,如何結合計算機算法與測序技術,更好地挖
58、掘細胞異質性信息,是當今的重要研究熱點之一。人工智能技術可以有效地應用于大規模生命組學數據的處理和分析,目前,針對細胞異質性刻畫問題,研究人員提出了多個人工智能算法,這些方法涉及數據處理與分析的多個階段:降噪和數據清洗:人工智能方法可以應用在數據預處理環節,對數據進行降噪、校正和清洗,提高數據的質量和可靠性;特征提取和降維:人工智能方法可以對數據進行特征提取和降維,挖掘數據中重要的模式和結構,減少高維度數據帶來的問題;聚類和分類:人工智能方法可以應用在細胞類型的識別和分類中,中國人工智能系列白皮書 18 幫助發現并定義不同的細胞類型,揭示細胞類型的特異性模式和機制;數據整合和跨樣本分析:人工智
59、能方法可以整合不同來源的數據,消除批次效應和技術差異,實現跨樣本的一致性分析和結果解釋;多組學聯合析:人工智能方法可以將基因組學、轉錄組學、表觀基因組學、蛋白質組學等多種不同組學的數據整合到一個框架中,提供更加全面且多維度的細胞信息。以上人工智能方法按照對數據的需求程度,可以分為無監督學習、弱監督學習和有監督學習這三種主要類型,我們將依次介紹這三類方法的任務特點、數據需求、設計思路和代表性工作。2.2 基于無監督學習的細胞異質性刻畫 在許多實際應用中,獲取帶標注的數據通常代價高昂或不可行。無監督學習是一種不依賴標注數據,直接利用無標注的數據進行學習的人工智能方法,在沒有數據標簽的情況下分析和識
60、別數據中的模式。無監督學習的目標通常是識別數據中的結構、關系或者數據的內在分布特性。在對單細胞各類組學數據進行下游分析之前,研究人員常常使用無監督學習方法進行數據預處理,比如特征提取和降維,以得到能夠良好地表征細胞異質性的低維嵌入表示,從而用于進行后續各種下游分析。本節我們將探討基于無監督學習的細胞異質性刻畫方法(圖 2-1),概述具有代表性的模型原理及此類方法中的代表性工作。2.2.1 基于無監督機器學習的細胞異質性刻畫方法基于無監督機器學習的細胞異質性刻畫方法 常用于細胞異質性刻畫的傳統機器學習方法包括主成分分析(Principal Component Analysis,PCA)、奇異值分
61、解(Singular Value Decomposition,SVD)、非 負 矩 陣 分 解(Non-negative Matrix Factorization,NMF)等降維方法,K-均值聚類(K-means Clustering)、K-中心點聚類(K-medoids clustering)、層次聚類(Hierarchical 中國人工智能系列白皮書 19 Clustering)等聚類方法,以及基于貝葉斯框架的統計方法等。本節我們將重點關注上述人工智能方法在刻畫細胞異質性方面的應用。圖圖 2-1 基于無監督學習的細胞異質性刻畫方法基于無監督學習的細胞異質性刻畫方法 PCA 是最為廣泛使用的
62、降維方法之一1?;?PCA 刻畫細胞異質性的代表方法有 SC3,它首先對單細胞轉錄組數據的表達矩陣過濾基因和標準化,然后用歐幾里得距離、皮爾遜系數和斯皮爾曼系數來分別度量細胞間的距離或相似性,再使用 PCA 或通過計算相關圖拉普拉斯的特征向量來轉換所有三種距離矩陣,得到轉換過的 6 種距離矩陣,然后分別選取特征值最高的前個特征向量得到6 組低維表示,用于細胞聚類2?;?PCA 得到單細胞數據低維表示的方法還有用于整合單細胞多組學數據的計算方法 Seurat v53,適用于單細胞轉錄組數據的聚類方法 pcaReduce4,擬時序分析方法 TSCAN5、Monocle36,以及適用于單細胞染色
63、質開放性數據(Single-cell chromatin accessibility sequencing,scCAS)的計算方法 STREAM7、ChromSCape8和 EpiScanpy9等方法。SVD 是一種廣泛使用的基于矩陣分解的方法,同樣可以用于對單細胞數據進行降維。代表性方法包括用于填補單細胞轉錄組數據的中國人工智能系列白皮書 20 ALRA10,用于分析 scCAS 數據的 ArchR11和 Signac12,以及用于整合單細胞多組學數據的 MultiMAP13等方法。此外,基于矩陣分解的機器學習方法還包括非負矩陣分解。在PCA 和 SVD 中,原始的矩陣被近似分解為低秩的 ,
64、分解出的兩個因子矩陣和中往往含有負值元素。盡管從計算的角度來看,分解矩陣中的負值是允許的,但負值元素通常缺乏實際意義,難以進行模型解釋。NMF約束了原始矩陣和分解矩陣和的非負性,其分解出的因子矩陣易于與細胞的類型及其表達模式對應起來?;诜秦摼仃嚪纸獾拇硇约毎愘|性刻畫方法包括用于單細胞多組學聯合分析的 LIGER14、MOFA15和 MOFA+16,用于對單細胞轉錄組數據細胞類型識別的NMFLRR17,用于填補scCAS數據的scOpen18,以及用于增強 scCAS 數據的 scCASE19等方法。而傳統無監督機器學習中的聚類方法,如 K-means、K-medoids和層次聚類,是用于
65、識別細胞類型和狀態,從而深入描述細胞間異質性的常用方法。例如,SC3 對上述6 組低維表示分別進行 K-means聚類,得到6 組聚類結果,再對每組聚類結果計算相似性矩陣,對所有的相似性矩陣取均值得到一致性矩陣,再對其使用層次聚類以得到最終的聚類結果2。使用無監督聚類方法來刻畫細胞間異質性從而辨識細胞類型的代表方法還有適用于單細胞轉錄組數據的 SIMLR20、SAME-clustering21,對 scCAS 數據進行聚類的 scABC22。傳統的無監督學習方法還可以通過整合貝葉斯框架,提高模型對數據潛在結構的推斷能力,此類代表性方法有 cisTopic23和 Melissa24。cisTop
66、ic 基于貝葉斯框架學習 scCAS 數據的低維嵌入,而 Melissa 則是通過概率圖模型對單細胞 DNA 甲基化數據進行聚類和填補。2.2.2 基于無監督深度學習的細胞異質性刻畫方法基于無監督深度學習的細胞異質性刻畫方法 深度學習方法相較于傳統機器學習方法的優勢在于其能夠通過多層次的非線性變換自動學習數據的復雜表示,這使得深度學習在處中國人工智能系列白皮書 21 理高維數據、圖像識別、語音識別和自然語言處理等領域表現出色。深度學習能夠自動提取和學習有用的特征,無需人工設計或選擇特征,減少了對專業知識的依賴。本節我們將探討基于無監督深度學習的細胞異質性刻畫方法,重點關注基于神經網絡(Neur
67、al Network,NN)、自編碼器(Autoencoder,AE)及變分自編碼器(Variational Autoencoder,VAE)、生成對抗網絡(Generative Adversarial Network,GAN)、圖神經網絡(Graph Neural Network,GNN),以及深度聚類(Deep Clustering,DC)的方法?;诔S玫纳疃壬窠浘W絡 NN,scVI 聚合單細胞轉錄組數據中相似細胞和基因的信息,并近似觀察到基因表達值的分布25。而scBasset則基于卷積神經網絡對 scCAS 數據的染色質開放峰區域對應的 DNA序列進行建模,得到了高質量的 scCAS
68、 數據低維嵌入表示,刻畫細胞表觀異質性26。自編碼器 AE 是一種通過神經網絡進行數據編碼和解碼的模型,目的是學習數據的隱空間表示。變分自編碼器 VAE 是自編碼器的一種變體,對數據的隱空間分布進行約束,結合概率生成模型來模擬數據的生成,其中編碼器學習數據分布的參數,解碼器從這些分布中抽樣生成數據。例如,scDHA 利用非負內核自動編碼器和堆疊貝葉斯自動編碼器實現單細胞轉錄組數據降維27;scVAE 基于 VAE 估計單細胞轉錄組數據預期基因表達水平和每個細胞的嵌入表示28;而基于VAE 的方法也被廣泛用于學習 scCAS 數據低維嵌入表示,包括BAVARIA29、SCALE30、SCALEX
69、31、uniPort32和 PeakVI33等。生成對抗網絡 GAN 通常由兩個神經網絡共同組成,一個是生成器(Generator),另一個是判別器(Discriminator)。生成器的目標是生成類似于真實數據的內容,而判別器的目標是判斷給定的內容是否來自真實數據。這兩個網絡在互相競爭的過程中逐漸提高了生成器的生成能力,使得生成的內容更接近真實數據,而判別器則不斷提高識中國人工智能系列白皮書 22 別真偽的能力。例如,DR-A 基于對抗變分自編碼器的框架(生成對抗網絡的一種變體),對單細胞轉錄組數據進行降維以刻畫細胞異質性34;AGImpute 構建自編碼器與生成對抗網絡相結合的混合深度學習
70、模型來估算已識別的丟失事件,以填補基因表達矩陣35;scDEC針對 scCAS 數據構建耦合生成對抗網絡,學習細胞嵌入表示的同時辨識細胞類型29。相較于傳統神經網絡,圖神經網絡 GNN 能有效處理圖結構數據,通過節點與其鄰居之間的信息傳遞捕獲圖的拓撲關系,這使得 GNN在節點分類、圖分類和鏈接預測等任務中表現出色。例如,scGGAN通過圖卷積網絡學習基因與基因的關系,并通過生成對抗網絡學習全局單細胞轉錄組數據分布以對其進行填補,從而更好地刻畫細胞異質性36;scGNN37和 scGNN 2.038分別基于圖自編碼器和圖注意力自編碼器對單細胞轉錄組的基因表達矩陣進行填補;DeepTFni 則針對
71、scCAS 數據基于變分圖自編碼器來推斷轉錄因子調控網絡39。進一步地,深度聚類 DC 方法通過結合深度學習和聚類算法,采用端到端的訓練過程來優化細胞的嵌入表示和聚類質量,其基本思路是使用深度神經網絡來提取和學習數據的特征,并結合常用的聚類技術進行聚類。深度聚類能夠提升傳統聚類方法在復雜數據集上的表現,已被成功用于單細胞組學數據的細胞異質性刻畫和細胞類型辨識,例如 scDeepCluster40、DESC41和 scDAC42等。2.3 基于弱監督學習的細胞異質性刻畫 盡管無監督學習方法在細胞異質性刻畫任務上表現出了良好的效果,但由于傳統的無監督學習方法受限于所研究的目標數據本身,仍缺乏足夠的
72、精度。為此,許多現有的方法在刻畫細胞異質性的過程中引入了弱監督學習策略,充分利用外部參考數據進行模型訓練,以更多的有價值信息作為模型的參考,從而達到更準確的細胞異質性刻中國人工智能系列白皮書 23 畫結果?,F有的弱監督細胞異質性刻畫方法能夠有效利用多種不同類型的數據作為參考(圖 2-2)。首先,最常見的是利用 Bulk(細胞群)測序數據作為參考,與單細胞測序技術相比,Bulk 數據可能會丟失個體細胞的異質性信息,因為它提供的是細胞群體的整體平均信號。盡管如此,Bulk 數據仍能提供主要細胞類型的異質性信息以指導模型進行細胞異質性刻畫。例如,Buenrostro 等人利用 Bulk 轉錄組數據和
73、Bulk 染色質開放性數據來驗證單細胞測序結果可靠性,挖掘細胞整體基因表達變化并實現了細胞群體生物學過程分析43。通過將 Bulk數據與單細胞數據相結合,能夠提供更全面、多尺度的細胞分析視角,為深入理解細胞發育和功能提供更多線索和支持。其次,隨著測序技術的發展和公共數據庫的積累,公開數據庫中已有海量單細胞數據。盡管不同實驗條件下得到的不同數據集可能存在系統性差異,但是相同類型的細胞中仍存在一定的相似性。許多現有的方法能夠結合其他單細胞數據集作為參考,以實現聯合弱監督分析。最后,除測序數據外,多種已知的細胞類型特異性先驗知識(如 Marker 基因信息)也可用于弱監督學習。圖圖 2-2 基于弱監
74、督學習的細胞異質性刻畫方法基于弱監督學習的細胞異質性刻畫方法 中國人工智能系列白皮書 24 2.3.1 刻畫轉錄組數據細胞異質性的弱監督學習方法刻畫轉錄組數據細胞異質性的弱監督學習方法 在轉錄組方面,Li 等人開發了參考成分分析(RCA)方法,并刻畫了人類結直腸腫瘤的細胞異質性44。RCA 從 BioGPS45下載了來自 Human U133A/GNF1H 基因圖譜和原代細胞圖譜的原始 Bulk 轉錄組數據作為參考數據,將單細胞轉錄組數據投影到由現有 Bulk 數據創建的全局參考面板上,并獲取投影空間中的歸一化坐標。結果表明,參考數據引導的聚類有較高的精度,能夠有效降低數據中的技術差異和批次效
75、應對下游分析的影響,而隨著可用參考數據集的規模和多樣性的擴大,參考數據引導的 RCA 的分辨率也將不斷提高。CellAssign是一種統計框架,可將單細胞轉錄組數據中的細胞分配給已知細胞類型46。CellAssign 通過計算每個細胞到細胞類型(由一組標記基因定義)或“新類”的概率來自動執行注釋過程。這種唯一識別細胞類型的標記基因組合可以利用文獻和數據庫的專業知識建立,也可以直接從PanglaoDB47等資源中獲取。scINRB 則是在數據填補過程中引入了Bulk RNA-seq 數據作為參考,即使在高缺失率和高維度的情況下,scINRB 也能準確填補缺失的基因表達值,改善細胞可視化、聚類和軌
76、跡推斷等下游分析效果48。2.3.2 刻畫表觀組數據細胞異質性的弱監督學習方法刻畫表觀組數據細胞異質性的弱監督學習方法 在表觀組方面,Ji 等人開發了基于 scCAS 數據的順式調節元件活性預測模型 SCATE49。SCATE 基于人和小鼠兩個物種構建了參考Bulk DNase-seq 數據庫,該數據庫由來自 ENCODE50項目生成的不同細胞類型的歸一化 DNase-seq 樣本組成。通過使用公開可用的Bulk 數據,模型可以從中捕獲稀疏的單細胞數據所無法捕獲的寶貴信息。對于不同參考數據的需求,作者提供了接口,使得用戶可以靈活地將自己的 Bulk 或偽 Bulk 數據擴充到已有的數據庫中,以
77、獲取更精確的參考數據。Chen 等人開發的 RA3 是一種基于概率生成模型的scCAS 數據分析方法51。RA3 可以使用 Bulk ATAC-seq 數據、Bulk 中國人工智能系列白皮書 25 DNase-seq 數據和偽 Bulk 數據作為參考,實現對目標數據的整合分析。對于某些細胞群,特別是對于冷凍或固定組織中的細胞,可能很難獲得 Bulk 測序樣本,為此,RA3 提供了多種策略用于整合相同類型/聚類簇的單細胞數據來構建偽 Bulk 參考數據,這意味著其他單細胞數據集也可以有效地用于弱監督學習任務。2.3.3 刻畫空間轉錄組細胞異質性的弱監督學習方法刻畫空間轉錄組細胞異質性的弱監督學習
78、方法 在空間轉錄組方面,同樣發展了多種弱監督學習方法以刻畫細胞的空間域異質性。例如,stPlus 是一種基于參考數據的方法,它利用單細胞轉錄組數據中的信息來增強空間轉錄組學52。stPlus 的輸入是目標空間轉錄組數據和參考單細胞轉錄組數據,這些參考數據往往與空間數據相匹配或來自相似的組織。stPlus 可以充分利用參考數據中所有基因的整體信息,而不只局限于與空間轉錄組數據共享的基因。而 Li 等人開發的 PAST 方法是一種基于變分圖卷積自編碼器的空間轉錄組數據處理框架53。模型允許使用者從與目標空間轉錄組數據來自同一組織的外部空間轉錄組數據、相似組織的外部空間轉錄組數據、相似組織的外部單細
79、胞轉錄組數據,或目標空間轉錄組數據本身作為自先驗,四個方面來構建參考數據。結合參考數據,PAST 能夠準確地刻畫細胞的空間域異質性,有效促進空間模式域識別、空間軌跡推斷等下游分析。2.4 基于有監督學習的細胞異質性刻畫 有監督的細胞異質性刻畫是一種利用已知細胞標注信息指導模型識別和區分細胞類型或狀態的方法。在此過程中,模型通過從帶有細胞類型注釋的數據集中學習特征,建立區分各種細胞類型的決策規則。相比于無監督和弱監督學習,有監督學習在刻畫細胞異質性上展現出獨特優勢。首先,有監督學習利用細胞標注信息學習細胞類型的特異性模式,提供更為準確的細胞分類。其次,有監督學習在面對大中國人工智能系列白皮書 2
80、6 量高維數據時,往往能夠找到更加魯棒的特征表示。目前,基于有監督學習的細胞異質性刻畫方法主要分為三大類:基于細胞間相似度的細胞異質性刻畫、基于機器學習的細胞異質性刻畫以及基于深度學習的細胞異質性刻畫(圖 2-3)。圖圖 2-3 基于有監督學習的細胞異質性刻畫方法基于有監督學習的細胞異質性刻畫方法 2.4.1 基于細胞間相似度的有監督學習方法基于細胞間相似度的有監督學習方法 基于細胞間相似度的細胞異質性刻畫本質上依賴于一個核心原則:屬于相同類型的不同細胞在基因表達或表觀修飾模式等方面具有顯著的相似性。為了實現此類方法,首先需要有一個帶細胞類型標注信息的數據集作為參考集。針對待標注數據集中的每一
81、個細胞,通過皮爾遜相關系數、斯皮爾曼秩相關系數及余弦相似度等常用度量計算該細胞與參考數據集內各細胞之間的相似度。最終,每一細胞將被注釋為參考集中與其最為相似的細胞所屬的細胞類型。目前,已有多種基于細胞間相似度的單細胞轉錄組數據注釋方法。SingleR 通過選擇高變基因,并計算待預測細胞與參考集中各個細胞類型的斯皮爾曼相關系數來實現對未知類型的細胞的標注54。CHETAH 算法則通過對參考集構建一個層次化分類樹,實現對未標中國人工智能系列白皮書 27 注細胞的精確分類55。該過程首先基于參考單細胞轉錄組數據建立分類樹,明確不同細胞類型之間的層次關系。隨后,算法逐一處理輸入細胞,通過遍歷分類樹,根
82、據細胞的高變基因表達譜與參考集各個細胞類型的高變基因表達譜的相似度進行分類。如果一個細胞在分類過程中的任何階段未能通過設定的閾值,其分類過程將終止,該細胞將被標記為未分配(位于樹頂部)或中間狀態(發生在分類樹的內部)。通過這一方法,CHETAH 能夠在維持高精確度的同時,有效避免對未知或未在參考數據中出現的細胞類型進行錯誤分類。不同于其他方法基于某個細胞和參考細胞表達譜的相似性這一原理,Cell-ID 使用的是另外一種思路:將某個細胞的特征基因集與表征細胞類型的參考基因集做富集分析,當在某個細胞類型的標記基因集上顯著富集時,就將此細胞定義為該細胞類型56。然而,對于單細胞表觀組數據而言,其維度
83、更高、稀疏度更大,直接基于細胞間相似度進行細胞異質性刻畫和細胞類型注釋變得更加困難。因此,研究人員提出了 AtacAnnoR,旨在通過綜合利用 scCAS 數據和單細胞轉錄組數據,精準地為待標注細胞分配細胞類型標簽57。在第一輪注釋中,AtacAnnoR 首先識別出細胞類型特異性的全局和鄰近標記基因,通過計算待標注細胞與各參考細胞類型的基因表達之間的 Kendalls tau 系數,識別出每個待標注細胞的候選細胞類型標簽。第二輪注釋中,通過清理和重新分配候選種子細胞的標簽,使用加權 k-最近鄰(WKNN)算法進一步精確注釋細胞類型。2.4.2 基于機器學習的有監督學習方法基于機器學習的有監督學
84、習方法 然而,基于細胞間相似度的細胞異質性分析方法在處理高維數據時面臨挑戰,它們往往無法充分考慮變量間的非線性關系,也不具備自動提取復雜特征的能力。相對而言,基于機器學習的方法能夠有效處理更為復雜的數據結構,不局限于線性關系,能夠識別和學習到細胞異質性的深層次模式,從而構建出更加精準的細胞分類模型。中國人工智能系列白皮書 28 目前,已有多種基于機器學習的單細胞轉錄組數據細胞類型注釋方法。例如,scmap 將待標注數據映射到參考數據集所在隱空間上,并利用 K 近鄰算法實現細胞類型的注釋58。scPred 則采用奇異值分解來識別具有高預測能力的基因,并使用這些基因訓練支持向量機以分類細胞59。G
85、arnett 利用單細胞轉錄組數據和預定義的細胞類型特異性標記基因來訓練基于廣義線性模型的分類器,從而注釋細胞類型60。SciBet 通過 E-test 選取對分類重要的基因,并基于這些基因的平均表達值建立每個細胞類型的多項式模型61。在細胞類型分配過程中,SciBet 比較待標注細胞的基因表達譜和不同細胞類型模型的似然函數,以確定最匹配的細胞類型。devCellPy 則引入了 LayerObject 類來組織數據結構,使算法能學習數據集的注釋層次,并在該層次結構中為每層訓練一個 XGBoost 預測模型,這樣可以自動地在正確的層次分支上對細胞亞型進行分類,從而精準地注釋細胞類型62。2.4.
86、3 基于深度學習的有監督學習方法基于深度學習的有監督學習方法 盡管傳統機器學習方法在單細胞數據的異質性刻畫中取得了一定的成效,但這些機器學習模型通常需要手動選擇特征,并且往往對高維數據和噪聲敏感。相較于傳統機器學習方法,基于深度學習的方法在表征細胞異質性時存在明顯優勢。深度學習方法通過自動特征學習減少了對先驗知識的依賴,并且能從原始數據中直接提取復雜和非線性的特征,因此更適合處理高維與復雜的單細胞數據。近年來,多個基于深度學習的單細胞轉錄組數據細胞異質性刻畫方法相繼發表。SuperCT 是第一個不依賴無監督聚類的單細胞轉錄組數據的深度學習細胞類型辨識方法,它基于全連接神經網絡構建模型,并使用二
87、進制信號表示基因表達水平來進行模型訓練63。相較于SuperCT 完全依賴于神經網絡,Cell BLAST 額外引入了參考數據,通過采用一個基于神經網絡的生成模型,實現了一種高度先進的單細胞轉錄組數據細胞異質性刻畫方法64。該方法利用參考單細胞轉錄組中國人工智能系列白皮書 29 數據,自適應地學習從高維轉錄組空間到低維細胞嵌入空間的非線性映射,將待標注細胞映射到與參考細胞相同的低維空間中。接著,Cell BLAST 依賴于低維空間內的后驗分布來精確地注釋細胞類型。scDeepSort 則是一個基于加權圖神經網絡框架的預訓練細胞類型注釋方法65,模型由三個部分組成:用于存儲圖節點的嵌入層、學習圖
88、結構信息的加權圖聚合層和最終輸出細胞類型預測結果的線性分類層。通過在多個單細胞轉錄組數據中進行預訓練,scDeepSort 能夠實現穩健的細胞類型預測。scBERT 同樣是一個預訓練模型,受自然語言處理領域的 BERT(Bidirectional Encoder Representation from Transformers)模型的啟發,scBERT 將這一基于 Transformer 的雙向編碼器表示模型應用于單細胞轉錄組數據66。通過在大量未標記的單細胞轉錄組數據上進行預訓練,scBERT 獲得了基因間交互作用的理解,然后將其轉移到未訓練和用戶特定的單細胞轉錄組數據的細胞類型注釋任務上進
89、行監督微調,實現了穩健且準確的細胞類型注釋。TOSICA 是一個基于 Transformer 的多頭自注意力深度學習模型,能夠使用生物學上的可解釋對象(如通路或調控網絡)進行可解釋的細胞異質性刻畫和細胞類型注釋67。在單細胞表觀遺傳組學方面,也有許多基于深度學習刻畫細胞異質性的有監督方法。其中,EpiAnno 是針對 scCAS 數據提出的第一個細胞類型自動注釋方法,是一個基于貝葉斯神經網絡的概率生成模型,在 scCAS 數據的注釋上有卓越性能68。RAINBOW 基于對比學習框架構建模型并融入參考數據,可以有效刻畫細胞異質性并準確識別數據集中的新細胞類型69。CASCADE 則在全連接神經網
90、絡的基礎上引入了仿真策略和基于 Masked Autoencoder 的去噪策略,在連續和不平衡的 scCAS 數據上的注釋性能顯著優于已有方法70。不同于上述方法,Cellcano 是一個兩輪的有監督學習算法,它首先在參考數據集上訓練多層感知機,并預測目標數據中的細胞類型,然后從預測結果中中國人工智能系列白皮書 30 選擇一些被認為預測良好的目標細胞(稱為錨點)組成新的訓練集,使用這一帶有偽標簽的新訓練集對知識蒸餾模型進行訓練,以對剩余非錨點細胞進行注釋,從而緩解了訓練數據和目標數據之間的分布偏移問題71。中國人工智能系列白皮書 31 參考文獻 1 Wold,S.,Esbensen,K.&G
91、eladi,P.Principal component analysis.Chemometrics and Intelligent Laboratory Systems,1987,2(1-3):37-52.2 Kiselev,V.Y.,Kirschner,K.,Schaub,M.T.et al.SC3:Consensus clustering of single-cell RNA-seq data.Nature Methods,2017,14(5):483-486.3 Hao,Y.,Stuart,T.,Kowalski,M.H.et al.Dictionary learning for int
92、egrative,multimodal and scalable single-cell analysis.Nature Biotechnology,2024,42(2):293-304.4 urauskiene,J.&Yau,C.pcaReduce:Hierarchical clustering of single cell transcriptional profiles.BMC Bioinformatics,2016,17(1):1-11.5 Ji,Z.&Ji,H.TSCAN:Pseudo-time reconstruction and evaluation in single-cell
93、 RNA-seq analysis.Nucleic Acids Research,2016,44(13):e117.6 Cao,J.,Spielmann,M.,Qiu,X.et al.The single-cell transcriptional landscape of mammalian organogenesis.Nature,2019,566(7745):496-502.7 Chen,H.,Albergante,L.,Hsu,J.Y.et al.Single-cell trajectories reconstruction,exploration and mapping of omic
94、s data with STREAM.Nature Communications,2019,10(1):1-14.8 Prompsy,P.,Kirchmeier,P.,Marsolier,J.et al.Interactive analysis of single-cell epigenomic landscapes with ChromSCape.Nature Communications,2020,11(1):5702.9 Danese,A.,Richter,M.L.,Chaichoompu,K.et al.EpiScanpy:integrated single-cell epigenom
95、ic analysis.Nature Communications,2021,12(1):5228.10 Linderman,G.C.,Zhao,J.,Roulis,M.et al.Zero-preserving 中國人工智能系列白皮書 32 imputation of single-cell RNA-seq data.Nature Communications,2022,13(1):192.11 Granja,J.M.,Corces,M.R.,Pierce,S.E.et al.ArchR is a scalable software package for integrative singl
96、e-cell chromatin accessibility analysis.Nature Genetics,2021,53(3):403-411.12 Stuart,T.,Srivastava,A.,Madad,S.et al.Single-cell chromatin state analysis with Signac.Nature Methods,2021,18(11):1333-1341.13 Jain,M.S.,Polanski,K.,Conde,C.D.et al.MultiMAP:dimensionality reduction and integration of mult
97、imodal data.Genome Biology,2021,22(1):1-26.14 Welch,J.D.,Kozareva,V.,Ferreira,A.et al.Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity.Cell,2019,177(7):1873-1887.e1817.15 Argelaguet,R.,Velten,B.,Arnol,D.et al.Multi-Omics Factor Analysisa framework for unsuper
98、vised integration of multi-omics data sets.Molecular Systems Biology,2018,14(6):e8124.16 Argelaguet,R.,Arnol,D.,Bredikhin,D.et al.MOFA+:A statistical framework for comprehensive integration of multi-modal single-cell data.Genome Biology,2020,21(1):1-17.17 Zhang,W.,Xue,X.,Zheng,X.et al.NMFLRR:Cluster
99、ing scRNA-Seq Data by Integrating Nonnegative Matrix Factorization with Low Rank Representation.IEEE Journal of Biomedical and Health Informatics,2022,26(3):1394-1405.18 Li,Z.,Kuppe,C.,Ziegler,S.et al.Chromatin-accessibility estimation from single-cell ATAC-seq data with scOpen.Nature Communications
100、,2021,12(1):6386.19 Tang,S.,Cui,X.,Wang,R.et al.scCASE:accurate and 中國人工智能系列白皮書 33 interpretable enhancement for single-cell chromatin accessibility sequencing data.Nature Communications,2024,15(1):1629.20 Wang,B.,Zhu,J.,Pierson,E.et al.Visualization and analysis of single-cell rna-seq data by kerne
101、l-based similarity learning.Nature Methods,2017,14(4):414-416.21 Huh,R.,Yang,Y.,Jiang,Y.et al.SAME-clustering:Single-cell Aggregated Clustering via Mixture Model Ensemble.Nucleic Acids Research,2020,48(1):86-95.22 Zamanighomi,M.,Lin,Z.,Daley,T.et al.Unsupervised clustering and epigenetic classificat
102、ion of single cells.Nature Communications,2018,9(1):2410.23 Bravo Gonzlez-Blas,C.,Minnoye,L.,Papasokrati,D.et al.cisTopic:cis-regulatory topic modeling on single-cell ATAC-seq data.Nature Methods,2019,16(5):397-400.24 Kapourani,C.A.&Sanguinetti,G.Melissa:Bayesian clustering and imputation of single-
103、cell methylomes.Genome Biology,2019,20(1):61.25 Lopez,R.,Regier,J.,Cole,M.B.et al.Deep generative modeling for single-cell transcriptomics.Nature Methods,2018,15(12):1053-1058.26 Yuan,H.&Kelley,D.R.scBasset:sequence-based modeling of single-cell ATAC-seq using convolutional neural networks.Nature Me
104、thods,2022,19(9):1088-1096.27 Tran,D.,Nguyen,H.,Tran,B.et al.Fast and precise single-cell data analysis using a hierarchical autoencoder.Nature Communications,2021,12(1):1029.28 Grnbech,C.H.,Vording,M.F.,Timshel,P.N.et al.ScVAE:中國人工智能系列白皮書 34 Variational auto-encoders for single-cell gene expression
105、 data.Bioinformatics,2020,36(16):4415-4422.29 Liu,Q.,Chen,S.,Jiang,R.et al.Simultaneous deep generative modelling and clustering of single-cell genomic data.Nature Machine Intelligence,2021,3(6):536-544.30 Xiong,L.,Xu,K.,Tian,K.et al.SCALE method for single-cell ATAC-seq analysis via latent feature
106、extraction.Nature Communications,2019,10(1):2410.31 Xiong,L.,Tian,K.,Li,Y.et al.Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space.Nature Communications,2022,13(1):6118.32 Cao,K.,Gong,Q.,Hong,Y.et al.A unified computational framework for
107、single-cell data integration with optimal transport.Nature Communications,2022,13(1):7419.33 Ashuach,T.,Reidenbach,D.A.,Gayoso,A.et al.PeakVI:A deep generative model for single-cell chromatin accessibility analysis.Cell Reports Methods,2022,2(3):34 Lin,E.,Mukherjee,S.&Kannan,S.A deep adversarial var
108、iational autoencoder model for dimensionality reduction in single-cell RNA sequencing analysis.BMC Bioinformatics,2020,21(1):1-11.35 Zhu,X.,Meng,S.,Li,G.et al.AGImpute:imputation of scRNA-seq data based on a hybrid GAN with dropouts identification.Bioinformatics,2024,40(2):btae068.36 Huang,Z.,Wang,J
109、.,Lu,X.et al.scGGAN:single-cell RNA-seq imputation by graph-based generative adversarial network.Briefings in Bioinformatics,2023,24(2):bbad040.37 Wang,J.,Ma,A.,Chang,Y.et al.scGNN is a novel graph neural 中國人工智能系列白皮書 35 network framework for single-cell RNA-Seq analyses.Nature Communications,2021,12
110、(1):1882.38 Gu,H.,Cheng,H.,Ma,A.et al.scGNN 2.0:a graph neural network tool for imputation and clustering of single-cell RNA-Seq data.Bioinformatics(Oxford,England),2022,38(23):5322-5325.39 Li,H.,Sun,Y.,Hong,H.et al.Inferring transcription factor regulatory networks from single-cell ATAC-seq data ba
111、sed on graph neural networks.Nature Machine Intelligence,2022,4(4):389-400.40 Tian,T.,Wan,J.,Song,Q.et al.Clustering single-cell RNA-seq data with a model-based deep learning approach.Nature Machine Intelligence,2019,1(4):191-198.41 Li,X.,Wang,K.,Lyu,Y.et al.Deep learning enables accurate clustering
112、 with batch effect removal in single-cell RNA-seq analysis.Nature Communications,2020,11(1):2338.42 An,S.,Shi,J.,Liu,R.et al.scDAC:deep adaptive clustering of single-cell transcriptomic data with coupled autoencoder and dirichlet process mixture model.Bioinformatics,2024,btae198.43 Buenrostro,J.D.,C
113、orces,M.R.,Lareau,C.A.et al.Integrated Single-Cell Analysis Maps the Continuous Regulatory Landscape of Human Hematopoietic Differentiation.Cell,2018,173(6):1535-1548.e1516.44 Li,H.,Courtois,E.T.,Sengupta,D.et al.Reference component analysis of single-cell transcriptomes elucidates cellular heteroge
114、neity in human colorectal tumors.Nature Genetics,2017,49(5):708-718.45 Wu,C.,Orozco,C.,Boyer,J.et al.BioGPS:An extensible and customizable portal for querying and organizing gene annotation resources.Genome Biology,2009,10(11):1-8.中國人工智能系列白皮書 36 46 Zhang,A.W.,OFlanagan,C.,Chavez,E.A.et al.Probabilis
115、tic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling.Nature Methods,2019,16(10):1007-1015.47 Franzn,O.,Gan,L.M.&Bjrkegren,J.L.M.PanglaoDB:A web server for exploration of mouse and human single-cell RNA sequencing data.Database,2019,2019(1):baz046.48 Kang,Y.,Zhang,H.&G
116、uan,J.scINRB:single-cell gene expression imputation with network regularization and bulk RNA-seq data.Briefings in Bioinformatics,2024,25(3):bbae148.49 Ji,Z.,Zhou,W.,Hou,W.et al.Single-cell ATAC-seq signal extraction and enhancement with SCATE.Genome Biology,2020,21(1):1-36.50 Luo,Y.,Hitz,B.C.,Gabda
117、nk,I.et al.New developments on the Encyclopedia of DNA Elements(ENCODE)data portal.Nucleic Acids Research,2020,48(D1):D882-D889.51 Chen,S.,Yan,G.,Zhang,W.et al.RA3 is a reference-guided approach for epigenetic characterization of single cells.Nature Communications,2021,12(1):2177.52 Shengquan,C.,Boh
118、eng,Z.,Xiaoyang,C.et al.StPlus:A reference-based method for the accurate enhancement of spatial transcriptomics.Bioinformatics,2021,37(Supplement_1):I299-I307.53 Li,Z.,Chen,X.,Zhang,X.et al.Latent feature extraction with a prior-based self-attention framework for spatial transcriptomics.Genome Resea
119、rch,2023,33(10):1757-1773.54 Aran,D.,Looney,A.P.,Liu,L.et al.Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage.Nature Immunology,2019,20(2):163-172.中國人工智能系列白皮書 37 55 de Kanter,J.K.,Lijnzaad,P.,Candelli,T.et al.CHETAH:a selective,hierarchical cell t
120、ype identification method for single-cell RNA sequencing.Nucleic Acids Research,2019,47(16):E95.56 Cortal,A.,Martignetti,L.,Six,E.et al.Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID.Nature Biotechnology,2021,39(9):1095-1102.57 Tian,L.,Xie,Y.,Xie,Z.et a
121、l.AtacAnnoR:a reference-based annotation tool for single cell ATAC-seq data.Briefings in Bioinformatics,2023,24(5):bbad268.58 Kiselev,V.Y.,Yiu,A.&Hemberg,M.Scmap:Projection of single-cell RNA-seq data across data sets.Nature Methods,2018,15(5):359-362.59 Alquicira-Hernandez,J.,Sathe,A.,Ji,H.P.et al.
122、ScPred:Accurate supervised method for cell-type classification from single-cell RNA-seq data.Genome Biology,2019,20(1):1-17.60 Pliner,H.A.,Shendure,J.&Trapnell,C.Supervised classification enables rapid annotation of cell atlases.Nature Methods,2019,16(10):983-986.61 Li,C.,Liu,B.,Kang,B.et al.SciBet
123、as a portable and fast single cell type identifier.Nature Communications,2020,11(1):1818.62 Galdos,F.X.,Xu,S.,Goodyer,W.R.et al.devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data.Nature Communications,2022,13(1):5271.63 X
124、ie,P.,Gao,M.,Wang,C.et al.SuperCT:A supervised-learning framework for enhanced characterization of single-cell transcriptomic profiles.Nucleic Acids Research,2019,47(8):e48-e48.中國人工智能系列白皮書 38 64 Cao,Z.J.,Wei,L.,Lu,S.et al.Searching large-scale scRNA-seq databases via unbiased cell embedding with Cel
125、l BLAST.Nature Communications,2020,11(1):3458.65 Shao,X.,Yang,H.,Zhuang,X.et al.ScDeepSort:A pre-trained cell-type annotation method for single-cell transcriptomics using deep learning with a weighted graph neural network.Nucleic Acids Research,2021,49(21):E122.66 Yang,F.,Wang,W.,Wang,F.et al.scBERT
126、 as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data.Nature Machine Intelligence,2022,4(10):852-866.67 Chen,J.,Xu,H.,Tao,W.et al.Transformer for one stop interpretable cell type annotation.Nature Communications,2023,14(1):223.68 Chen,X.,Chen,S.,Song,S
127、.et al.Cell type annotation of single-cell chromatin accessibility data via supervised Bayesian embedding.Nature Machine Intelligence,2022,4(2):116-126.69 Li,S.,Tang,S.,Wang,Y.et al.Accurate cell type annotation for single-cell chromatin accessibility data via contrastive learning and reference guid
128、ance.Quantitative Biology,2024,12(1):85-99.70 Jia,Y.,Li,S.,Jiang,R.et al.Accurate Annotation for Differentiating and Imbalanced Cell Types in Single-cell Chromatin Accessibility Data.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2024,1-11.71 Ma,W.,Lu,J.&Wu,H.Cellcano:supervised c
129、ell type identification for single cell ATAC-seq data.Nature Communications,2023,14(1):1864.中國人工智能系列白皮書 39 第 3 章 人工智能賦能疾病診療 3.1 引言 隨著全球人口的增長和老齡化趨勢的加劇,醫療資源的短缺和醫療成本的上升成為各國面臨的重大挑戰。根據世界衛生組織(World Health Organization,WHO)的數據,預計到 2030 年,全球將有六分之一的人口超過 60 歲,這將對醫療系統的可持續性和效率帶來巨大壓力1。與此同時,復雜疾病如癌癥、心血管疾病等的發病率不斷上升
130、,迫切要求醫療服務向更加精準和個性化的方向發展。如圖 3-1 所示,傳統的醫療模式已經難以滿足日益增長的健康需求,特別是在大數據時代,傳統的手工處理和分析方法已經無法有效處理海量的醫療數據。因此,醫療行業迫切需要新的技術和方法來提升診療效率和效果,同時降低成本,更好地滿足人們對健康管理的需求。人工智能(Artificial Intelligence,AI)憑借其強大的數據處理和分析能力,在醫療領域展現出巨大的潛力。AI 技術能夠從多種數據源中提取、分析和利用信息,為醫生和醫療機構提供決策支持和個性化治療方案。研究表明,AI 在癌癥早期診斷、藥物研發、病理圖像分析等領域取得了顯著進展,為醫療行業
131、帶來新的希望和機遇2。圖圖 3-1 傳統醫療模式與人工智能賦能醫療模式的比較傳統醫療模式與人工智能賦能醫療模式的比較(圖片(圖片引引自自 )中國人工智能系列白皮書 40 3.2 關鍵技術和應用 3.2.1 機器學習與深度學習機器學習與深度學習 機器學習(Machine Learning,ML)是人工智能的核心技術之一,通過算法和模型從數據中學習規律和模式,從而進行預測和決策。傳統機器學習算法有許多形式,大多數被設計用于處理表格數據,其中每個數據點都有一組明確的特征(例如,病人的年齡或基因突變狀態),用于預測標簽3。如圖 3-2 所示,其中一種常見的算法稱為隨機森林(Random Forest,
132、RF),它由一組決策樹組成,每棵樹基于訓練數據構建,對輸入特征進行一系列二進制決策,最終預測數據點的標簽。另一個算法是支持向量機(Support Vector Machines,SVM),它在由輸入特征定義的坐標系中學習一條直線(或多維空間中的超平面),將數據點分成兩類?;貧w模型則通過學習輸入特征的線性組合來預測連續標簽(例如,線性回歸(Linear Regression)或二元標簽(例如,邏輯回歸(Logistic Regression)。在醫療領域,機器學習可以應用于疾病預測、患者風險評估和個性化治療方案的制定4。例如,一些基于機器學習的模型可以分析海量的臨床數據和生物標志物,輔助醫生精確
133、預測患者患病風險,從而促進早期干預5-7。圖圖 2 常見的機器學習模型(改編自常見的機器學習模型(改編自8)中國人工智能系列白皮書 41 隨著圖形處理單元(Graphics Processing Unit,GPU)的廣泛應用和性能提升,深度學習(Deep Learning,DL)作為機器學習的一個重要分支,已經在許多預測任務中逐步取代傳統機器學習方法。DL 模型的核心組件是神經網絡,它由一個或多個層次的單元組成,這些單元稱為神經元,它們計算輸入的加權和,然后應用非線性函數,生成一種稱為嵌入(Embedding)的輸入表示,最終用于預測輸出。與傳統機器學習模型相比,DL 模型具有更強的靈活性,并
134、減少了對特征工程的依賴,因此它們擅長處理復雜的大數據和更廣泛的非結構化數據類型,包括圖像、文本和語音等8。然而,DL 模型通常需要更多的訓練數據,這使得傳統的機器學習模型在數據資源受限或處理表格數據的任務中仍然發揮著不可或缺的作用。為了處理非表格數據,神經網絡的架構(例如,神經元或層次或神經元之間的連接數)被修改以適應所需的數據類型。如圖 3-2 所示,卷積神經網絡(Convolutional Neural Networks,CNN)主要用于提取圖像特征。圖神經網絡(Graph Neural Networks,GNN)處理圖數據,例如細胞-細胞相互作用圖9或者藥物分子結構10。遞歸神經網絡(R
135、ecurrent Neural Networks,RNN)和 Transformer 網絡則分析順序數據,例如遺傳序列或圖像序列。這些模型類別中的每個都有許多特定的模型架構,例如基于 CNN 的ResNet11或 U-Net12以及基于 RNN 的 LSTM13或 GRU14。綜上所述,深度學習技術的快速發展和應用,正在為人工智能賦能疾病診療領域帶來前所未有的機遇和挑戰。3.2.2 自然語言處理技術自然語言處理技術 自然語言處理(Natural Language Processing,NLP)技術使計算機能夠理解、處理和生成自然語言文本。在生物醫學領域,NLP 的應用尤為廣泛,特別是在處理電子
136、健康記錄(Electronic Health Record,EHR)、醫學文獻和生物醫學文本數據的分析中。例如,BioBERT15和 BlueBERT16模型都是基于 BERT17架構,專門為大規模生物醫學中國人工智能系列白皮書 42 數據的預訓練而設計。BioBERT 在命名實體識別(Named Entity Recognition,NER)、關系提取和問答系統等多種生物醫學 NLP 任務中展現了顯著的性能提升。BlueBERT 則通過在生物醫學文獻和臨床記錄的混合數據上進行訓練,進一步強化了其處理臨床和生物醫學文本任務中的能力。此外,基于 GPT19架構的 BioGPT18專注于生物醫學文
137、本生成和理解。通過在廣泛的生物醫學語料庫上的預訓練,BioGPT 在生成相關領域文本和解答生物醫學問題上表現出色。NLP技術的應用使得醫療機構能夠高效地從龐大復雜的醫療文本中自動提取關鍵信息,為臨床決策和個性化治療方案的制定提供重要支持20。3.2.3 醫療圖像分析技術醫療圖像分析技術 醫療圖像分析技術借助深度學習算法實現了對醫學影像的自動化分析和解讀。在基于圖像的癌癥預測任務中,典型的機器學習工作流程如圖 3-3 所示。這些算法能夠精準識別各類醫學影像(如 X 線攝影(X-ray)、超聲影像(Ultrasound)、計算機斷層成像(Computed Tomography,CT)、磁共振成像(
138、Magnetic resonance imaging,MRI)以及正電子發射計算機斷層顯像(Positron Emission Tomography,PET)等)中的病變特征和異常,輔助醫生進行更精確的診斷和治療規劃21。圖圖 3-3 基于圖像的癌癥預測任務的通用機器學習模型工作流程(改編自基于圖像的癌癥預測任務的通用機器學習模型工作流程(改編自8)在這些技術中,深度學習模型的設計對醫療圖像分割任務尤為重要。以U-Net為代表經典的CNN模型專為生物醫學圖像分割而設計,展現了極高的適用性和準確性。U-Net 以獨特的 U 形結構而著稱,該結構利用下采樣路徑捕捉圖像的全局上下文信息,并通過上采樣
139、路徑中國人工智能系列白皮書 43 實現細節的精細分割。U-Net 通過跳躍連接技術,將下采樣路徑中的特征圖與上采樣路徑中的特征圖融合,以保留高分辨率的特征信息12。例如,在肺部 CT 掃描中,U-Net 可以有效識別和分割出肺結節,為早期肺癌診斷提供支持22。與 U-Net 類似,V-Net 采用對稱的編碼器-解碼器結構,其中編碼器通過卷積和下采樣提取圖像特征,而解碼器則通過反卷積和上采樣生成分割結果。V-Net 特別使用 Dice 損失函數進行優化,使其在處理不平衡數據集時具有獨特優勢23。例如,在前列腺 MRI 圖像中,V-Net 能夠精確分割前列腺邊界和內部結構24。此外,nnU-Net
140、25和 Attention U-Net26在 U-Net 基礎上分別引入了自適應模塊和注意力機制。nnU-Net 通過自動化配置簡化了參數調整過程,在多種任務中均展現出優秀的分割性能。在 BraTS2021 挑戰中,nnU-Net 以卓越的腦腫瘤分割性能脫穎而出27。而 Attention U-Net 能夠動態調整特征圖的權重,專注于關鍵圖像區域,進一步提高了分割的精度度??傮w而言,基于深度學習的醫療圖像分析系統在乳腺癌28-29、肺癌30-31等眾多疾病的早期篩查中已經取得了顯著進展,為疾病的精準診斷和治療開辟了新路徑。3.2.4 知識圖譜與數據整合技術知識圖譜與數據整合技術 知識圖譜是一種
141、高效的結構化知識表示方法,能夠精確捕捉并整合廣泛的醫學知識,從而幫助醫生更好地理解疾病的復雜性和治療選項。這種技術通過整合多源數據,包括基因組學數據、臨床記錄數據、病理報告數據等,將這些信息關聯起來形成全面的疾病模型。例如,知識圖譜可以將患者的遺傳信息和臨床癥狀相結合,揭示特定基因變異與疾病之間的關聯,為個性化醫療提供科學依據,并指導制定針對性的治療方案。此外,知識圖譜在智能化醫療決策中扮演著關鍵角色。它利用自動化推理和先進的推薦系統,根據最新的醫學研究和臨床實踐指南,為醫生提供及時的、基于證據的診療建議。這種智能化支持不僅優化了治療流程,還顯著提升了醫療服務的整體質量32-33。除此中國人工
142、智能系列白皮書 44 之外,如圖 3-4 所示,知識圖譜在醫學研究和藥物開發領域同樣發揮著不可或缺的作用。通過對海量文獻和臨床試驗數據的深入分析,知識圖譜有助于識別新的疾病相關性、潛在的藥物靶點以及創新的治療策略。這種分析能力極大地加速了新藥研發的進程,為醫學界帶來了前所未有的研究動力和創新潛力34。圖圖 3-4 基于知識圖譜的藥物發現預測流程(改編自基于知識圖譜的藥物發現預測流程(改編自35)3.2.5 生命科學領域的基礎模型生命科學領域的基礎模型 生命科學領域大模型通常結合了多種生物醫學數據(如基因組學、轉錄組學、蛋白質組學等),利用機器學習和深度學習技術進行綜合分析。然而,與圖像和文本數
143、據相比,解碼生命“語言”是一項更為復雜的任務,這一過程需要依賴大量生物學數據來建立數據間的聯系。特別是在研究罕見疾病或在難以直接獲取組織樣本的情況下,這一任務的復雜性進一步增加。中國人工智能系列白皮書 45 遷移學習(Transfer Learning)為這一挑戰提供了解決路徑。通過在大規模通用數據集上預訓練深度學習模型,并將其針對特定任務的有限數據進行微調,遷移學習策略使模型能夠快速適應新的任務并支持多樣化的下游應用。此外,基礎模型(Foundation Models)已經在自然語言處理領域和計算機視覺領域取得了重大進展,并證明了其跨領域的適用性。如圖 3-5 和圖 3-6 所示,這些模型在
144、蛋白質設計領域和單細胞轉錄組學領域顯示出巨大發展潛力,為我們深入理解生命復雜性提供了全新視角和強有力的工具。圖圖 3-5 蛋白質蛋白質設計領域相關設計領域相關模型的發展歷程模型的發展歷程 圖圖 3-6 單細胞單細胞轉錄組學領域相關轉錄組學領域相關模型的發展歷程模型的發展歷程 在蛋白質結構預測領域,DeepMind 開發的 AlphaFold 模型36通中國人工智能系列白皮書 46 過在大量已知蛋白質結構數據上的訓練,利用深度學習技術顯著提升了蛋白質三維結構預測的準確性。這一突破為理解蛋白質功能、藥物設計和疾病機制提供了重要的工具。此外,AlphaFold37在罕見疾病研究中也展現了卓越的能力,
145、通過預測與疾病相關的蛋白質結構,揭示了潛在的治療靶點。例如,在遺傳性疾病如囊性纖維化和亨廷頓舞蹈癥的研究中,AlphaFold 的應用為揭示疾病的分子機制和尋找有效的藥物候選分子提供了全新的視角。這種技術的進步不僅大幅提高了研究效率,還顯著減少了傳統實驗方法的高昂成本,為全球生物醫學研究帶來了深遠的影響。在單細胞轉錄組學領域,一系列單細胞轉錄組大模型如Geneformer38、scGPT39、scFoundation40、GeneCompass41等相繼出現,預示著人工智能在生物醫學領域的廣泛應用和深遠影響。這些模型通過在大規模的細胞轉錄組學數據上的預訓練,具備強大的數據理解和處理能力,并在多
146、種生物醫學任務中實現出色的性能。例如,Geneformer 在有限患者數據的疾病建模中,成功識別出了心肌病的候選治療靶點,加速研究人員發現關鍵網絡調控因子和潛在治療靶點。這一發現對于心臟病患者的精準診斷和個性化治療至關重要,標志著AI 技術在疾病預防和治療中的潛力。scFoundation 結合了 xTrimoGene架構和測序深度感知任務(Read-depth-aware,RDA),為細胞擾動響應預測、藥物靶點發現等領域帶來了創新的工具和方法,探索并推動了單細胞領域基礎模型的邊界(圖 3-7)。這些模型的出現和應用標志著人工智能技術在生物醫學研究中的日益成熟,為未來的科學探索和臨床實踐開辟了
147、新的可能性。中國人工智能系列白皮書 47 圖圖 3-7 scFoundation 模型的部分下游應用(摘自模型的部分下游應用(摘自40)3.3 展望 盡管人工智能在醫療領域展現出巨大的潛力,但仍面臨諸多挑戰。首先,生物醫學數據質量和隱私保護是亟需解決的核心問題。醫療數據涉及患者的敏感信息,任何數據泄露都可能導致嚴重的后果。因此,醫療機構在數據收集、存儲和處理過程中必須嚴格遵守相關法律法規,如 GDPR(通用數據保護條例)和 HIPAA(健康保險攜帶與責任法案),并加強數據安全措施,確?;颊唠[私得到保護。其次,人工智能模型的可解釋性和在不同環境下的適應能力也限制了其在臨床實踐中的廣泛應用。盡管
148、AI 在數據分析和預測方面展現了卓越的性能,但其“黑箱”特性使得醫生和患者難以理解其決策過程。醫生和患者需要對 AI 模型的診斷結果和治療建議有充分的信任,而這種信任的建立依賴于對 AI 決策依據的透明化和可解釋性。因此,提高 AI 模型的可解釋性,采用如 LIME(局部可解釋模型)和 SHAP(Shapley 值)等技術,提高模型的透明度,是當前研究的一個重要方向。此外,AI 模型的適應能力也是一個關鍵問題,醫療環境的多樣性和患者個體差異要求 AI 系統能夠靈活適應不同的臨床情境,這對AI 模型的普適性和可靠性提出了更高的要求。盡管如此,這些挑戰背后也潛藏著巨大的機遇。人工智能可以通中國人工
149、智能系列白皮書 48 過個性化治療和預測,結合個體的基因組數據、生活方式特征和疾病歷史,為每位患者量身定制最有效的治療方案。這種精準醫療不僅可以提高治療效果,還能減少不必要的治療,降低醫療成本,同時幫助患者獲得更好的治療體驗。同時,結合圖像識別和自然語言處理技術,人工智能能夠幫助醫生在疾病的早期階段進行迅速而準確的診斷。例如,通過智能影像分析,AI 可以幫助檢測乳腺癌、肺癌等疾病的早期癥狀,提高早期篩查的效率和準確性,從而顯著改善治療效果和患者生存率。此外,通過遠程醫療服務和智能化的健康管理系統,人工智能還能極大地擴展醫療服務的覆蓋范圍,從而打破時間和地域的限制,為偏遠地區的患者提供高質量的醫
150、療服務。這一技術不僅能夠改善基層醫療服務的質量,還能夠通過數據的集成和智能化管理,提高全球醫療資源的利用效率。通過這些努力,我們有望在未來完成跨學科的合作和技術整合,促進生物醫學數據的整合和共享,推動新技術的創新和應用實現更加智能化和個性化的醫療健康服務,為全球范圍內的患者帶來更好的健康成果和生活質量。中國人工智能系列白皮書 49 參考文獻 1 Wilmoth J R,Bas D,Mukherjee S,et al.World social report 2023:Leaving no one behind in an ageing worldM.UN,2023.2 Murali N,Siva
151、kumaran N.Artificial intelligence in healthcarea reviewJ.2018.3 Boehm K M,Khosravi P,Vanguri R,et al.Harnessing multimodal data integration to advance precision oncologyJ.Nature Reviews Cancer,2022,22(2):114-126.4 Hosny A,Parmar C,Quackenbush J,et al.Artificial intelligence in radiologyJ.Nature Revi
152、ews Cancer,2018,18(8):500-510.5 Janssen B V,Verhoef S,Wesdorp N J,et al.Imaging-based machine-learning models to predict clinical outcomes and identify biomarkers in pancreatic cancer:a scoping reviewJ.Annals of surgery,2022,275(3):560-567.6 Jin T,Nguyen N D,Talos F,et al.ECMarker:interpretable mach
153、ine learning model identifies gene expression biomarkers predicting clinical outcomes and reveals molecular mechanisms of human disease in early stagesJ.Bioinformatics,2021,37(8):1115-1124.7 Jiang Y Z,Ma D,Jin X,et al.Integrated multiomic profiling of breast cancer in the Chinese population reveals
154、patient stratification and therapeutic vulnerabilitiesJ.Nature Cancer,2024,5(4):673-690.8 Swanson K,Wu E,Zhang A,et al.From patterns to patients:Advances in clinical machine learning for cancer diagnosis,prognosis,and treatmentJ.Cell,2023,186(8):1772-1791.9 Armingol E,Baghdassarian H M,Lewis N E.The
155、 diversification of methods for studying cellcell interactions and communicationJ.Nature Reviews Genetics,2024,25(6):381-400.中國人工智能系列白皮書 50 10 Xiong J,Xiong Z,Chen K,et al.Graph neural networks for automated de novo drug designJ.Drug discovery today,2021,26(6):1382-1393.11 He K,Zhang X,Ren S,et al.D
156、eep residual learning for image recognitionC/Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.12 Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks for biomedical image segmentationC/Medical image computing and computer-assisted interventionMICCAI 2
157、015:18th international conference,Munich,Germany,October 5-9,2015,proceedings,part III 18.Springer International Publishing,2015:234-241.13 Hochreiter S,Schmidhuber J.Long short-term memoryJ.Neural computation,1997,9(8):1735-1780.14 Cho K,Van Merrinboer B,Gulcehre C,et al.Learning phrase representat
158、ions using RNN encoder-decoder for statistical machine translationJ.arXiv preprint arXiv:1406.1078,2014.15 Lee J,Yoon W,Kim S,et al.BioBERT:a pre-trained biomedical language representation model for biomedical text miningJ.Bioinformatics,2020,36(4):1234-1240.16 Peng Y,Yan S,Lu Z.Transfer learning in
159、 biomedical natural language processing:an evaluation of BERT and ELMo on ten benchmarking datasetsJ.arXiv preprint arXiv:1906.05474,2019.17 Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understandingJ.arXiv preprint arXiv:1810.04805,2018.18 Luo R,S
160、un L,Xia Y,et al.BioGPT:generative pre-trained transformer for biomedical text generation and miningJ.Briefings in 中國人工智能系列白皮書 51 bioinformatics,2022,23(6):bbac409.19 Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-trainingJ.2018.20 Hossain E,Rana R,Higgins
161、 N,et al.Natural language processing in electronic health records in relation to healthcare decision-making:a systematic reviewJ.Computers in biology and medicine,2023,155:106649.21 Zhou T,Dong Y,Huo B,et al.U-Net and its applications in medical image segmentation:a reviewJ.Journal of Image and Grap
162、hics,2021,26(9):2058-2077.22 鐘思華,郭興明,鄭伊能.改進 U-Net 網絡的肺結節分割方法J.Journal of Computer Engineering&Applications,2020,56(17).23 Milletari F,Navab N,Ahmadi S A.V-net:Fully convolutional neural networks for volumetric medical image segmentationC/2016 fourth international conference on 3D vision(3DV).Ieee,20
163、16:565-571.24 Aldoj N,Biavati F,Michallek F,et al.Automatic prostate and prostate zones segmentation of magnetic resonance images using DenseNet-like U-netJ.Scientific reports,2020,10(1):14315.25 Isensee F,Jaeger P F,Kohl S A A,et al.nnU-Net:a self-configuring method for deep learning-based biomedic
164、al image segmentationJ.Nature methods,2021,18(2):203-211.26 Oktay O,Schlemper J,Folgoc L L,et al.Attention u-net:Learning where to look for the pancreasJ.arXiv preprint arXiv:1804.03999,2018.27 Luu H M,Park S H.Extending nn-UNet for brain tumor 中國人工智能系列白皮書 52 segmentationC/International MICCAI brain
165、lesion workshop.Cham:Springer International Publishing,2021:173-186.28 王一凡,劉靜,馬金剛,等.深度學習在乳腺癌影像學檢查中的應用進展J.Journal of Frontiers of Computer Science&Technology,2024,18(2).29 王彤,何萍,蘇暢,等.計算機輔助多模態融合超聲診斷乳腺良惡性腫瘤J.中國醫學影像技術,2021,37(8):1210-3.30 Alshmrani G M M,Ni Q,Jiang R,et al.A deep learning architecture f
166、or multi-class lung diseases classification using chest X-ray(CXR)imagesJ.Alexandria Engineering Journal,2023,64:923-935.31 Hroub N A,Alsannaa A N,Alowaifeer M,et al.Explainable deep learning diagnostic system for prediction of lung disease from medical imagesJ.Computers in Biology and Medicine,2024
167、,170:108012.32 Chandak P,Huang K,Zitnik M.Building a knowledge graph to enable precision medicineJ.Scientific Data,2023,10(1):67.33 Peng C,Xia F,Naseriparsa M,et al.Knowledge graphs:Opportunities and challengesJ.Artificial Intelligence Review,2023,56(11):13071-13102.34 Bonner S,Barrett I P,Ye C,et a
168、l.A review of biomedical datasets relating to drug discovery:a knowledge graph perspectiveJ.Briefings in Bioinformatics,2022,23(6):bbac404.35 Zeng X,Tu X,Liu Y,et al.Toward better drug discovery with knowledge graphJ.Current opinion in structural biology,2022,72:114-126.36 Jumper J,Evans R,Pritzel A
169、,et al.Highly accurate protein 中國人工智能系列白皮書 53 structure prediction with AlphaFoldJ.nature,2021,596(7873):583-589.37 Huang B,Kong L,Wang C,et al.Protein structure prediction:challenges,advances,and the shift of research paradigmsJ.Genomics,Proteomics&Bioinformatics,2023,21(5):913-925.38 Theodoris C V
170、,Xiao L,Chopra A,et al.Transfer learning enables predictions in network biologyJ.Nature,2023,618(7965):616-624.39 Cui H,Wang C,Maan H,et al.scGPT:toward building a foundation model for single-cell multi-omics using generative AIJ.Nature Methods,2024:1-11.40 Hao M,Gong J,Zeng X,et al.Large-scale foun
171、dation model on single-cell transcriptomicsJ.Nature Methods,2024:1-11.41 Yang X,Liu G,Feng G,et al.Genecompass:Deciphering universal gene regulatory mechanisms with knowledge-informed cross-species foundation modelJ.bioRxiv,2023:2023.09.26.559542中國人工智能系列白皮書 54 第 4 章 人工智能助力醫療文本處理 4.1 醫療大數據簡介及分類 醫療大數據
172、是指在與人類健康相關的活動中產生的與生命健康和醫療相關的數據。隨著醫療信息技術的快速發展,醫療數據的生成速度和數量呈指數級增長。從數據的來源來說,可以分為臨床大數據、健康大數據、生物大數據、運營大數據等。醫療大數據的形式常見的有 3 種:分類數據、序列數據、連續數據。分類數據比如病人的性別,是否使用某種治療等,這類數據沒有內在排序。序列數據是有明確排序的數據,比如血壓值、血糖值等,除了排序性,這些數據之間可能還有距離,例如一個人過去 3 天的血壓值,每一天就是等距。連續數據不僅是有序的,數據的自變量也是連續的,比如年齡、血壓、體重等。從數據格式上,醫療數據通??梢苑譃榻Y構化數據和非結構化數據兩
173、類,它們在醫療信息管理中都扮演著重要角色。結構化數據是指可以直接存儲和處理的數據,通常以表格或數據庫的形式存在,具有明確定義的字段和格式,例如,患者基本信息、實驗室檢查數據等。非結構化數據則是指沒有固定格式或字段,難以通過傳統的數據庫或表格進行處理和分析的數據類型。例如,電子病歷、影像數據等。這些非結構化數據包含了豐富的臨床信息,但要想進行系統化的分析和利用,需要借助自然語言處理(NLP)、圖像分析等技術來提取和理解其中的內容。醫療大數據不僅為醫療決策和研究提供了寶貴資源,同時也帶來了數據處理和分析上的挑戰。近年來,移動互聯網、大數據、云計算等多項技術與各類醫療領域大數據不斷跨界融合,相關的新
174、技術應用于醫療行業的各個環節中,并且國家也出臺了多項扶持政策。人工智能(AI)作為一種強大的技術工具,正在改變醫療大數據處理的方式中國人工智能系列白皮書 55 和效率。4.2 醫療文本自然語言處理 影像學報告、電子病歷、出院小結等都為重要的醫療健康大數據資源,不僅是醫療實踐中的核心文檔,也是連接醫療保健各個方面的橋梁。在國家推行使用電子病歷和電子影像學報告的背景下,這些醫療文本中豐富的信息資源可以服務于臨床實踐、臨床研究等1,2。但是目前大部分醫療文本為非結構化數據,給臨床研究帶來了困難。隨著電子醫療文本的普及和醫療大數據時代的到來,將人工智能方法應用于非結構化醫療文本的自然語言處理問題,已成
175、為當前的研究熱點。自然語言處理是從醫療文本中提取有用信息的關鍵技術?;谧匀徽Z言處理的醫療文本處理流程主要有句子邊界識別、分詞、共指消解、詞性標記、句法分析、實體識別等。由于臨床信息的復雜性和靈活性,影像學報告、電子病歷、出院小結等醫療文本以自由文本(Free Text)的方式來記錄,多為非結構化。通過自然語言處理,這些非結構化的醫療文本被轉化為包含重要醫學信息的結構化數據,后續可進行的病人聚類、臨床輔助診療等研究分析3,4。在美國,臨床醫學領域的自然語言處理研究可追溯到 20 世紀 60年代,早期研究在有限的電子醫療文本中驗證了可行性。自 20 世紀80 年代以來,大量醫學領域的知識庫逐漸建
176、立起來。例如 SNOMED CT 是被廣泛應用的臨床醫學術語知識庫之一5,UMLS(The Unified Medical Language System)是一體化的醫學信息系統,它通過建立超級詞表來統一醫學術語概念,集成了 150 多種常用醫學術語知識庫6。隨后,又出現了大量的臨床醫學自然語言系統,代表性的有 MedLEE、MetaMap、cTAKES、MedEx、KnowledgeMap 等。這些醫學自然語言系統覆蓋了醫學信息抽取、醫療文本分類、醫療決策支持、信息管理、醫療信息問答、知識挖掘等諸多應用領域。與之相比,國內相關的醫中國人工智能系列白皮書 56 學自然語言系統和知識庫較為缺乏,
177、限制了中文醫療文本自然語言處理研究的發展。近年來,專業領域中文自然語言處理需求越來越大,而中文醫學專業領域的語料資源較少。不同于以字母為基礎的語言,中文是以字符為基礎,學習算法目前也更受限制,中文知識庫也較為受限。近年來,逐步出現針對于中文醫療文本的自然語言處理方法。4.3 文本表示學習 文本表示學習是指將實際的文本內容轉變成更易于計算機識別的信息,即對文本進行形式化處理,它依靠著高維空間向低維空間的轉換,以將詞來表示成一個低維的稠密實值向量7,進而表達文本詞語的語義。常用方法有布爾模型、向量空間模型、概率模型等。這些向量隨后可用于構建矩陣、拓撲結構或圖數據,從而探索醫療實體和臨床事件之間的復
178、雜關系。使用向量空間模型方法需要對文本先進行分詞,此時文本可看作一系列詞的組合,之后對每個詞加一個對應的權值,最初權值表示為 0 或 1,即當文本中出現該詞,則值為 1,否則為 0,這種方法后續逐漸被更精確的詞頻代替。常用文本向量化方法有 BOW(詞庫、Bag of Words)模型、Mikolov 等人設計的 Word2Vec模型8、以及 Quoc Le 等人提出的段落向量(Paragraph vector)法等9。BOW 方法中的 TF-IDF 向量表示法得到了廣泛應用。TF-IDF 方法評估一個字詞對于文件集或語料庫中其中一個文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加
179、,但同時會隨著它在語料庫中出現的頻率成反比下降。將文本表示為 TF-IDF 向量后,向量間的cos角就可以用來測量文本間的相似度。針對TF-IDF方法,還有基于文本頻率、信息增益、互信息、卡方檢驗的降維方法。然而,這類 BOW 方法存在一些不足:忽略了詞的順序以及詞之間的語義聯系,導致不同文本有可能會有同樣的向量表示;實際問題中會計算出中國人工智能系列白皮書 57 較高的向量維數,給后續機器學習中帶來維數災難。自 Word2Vec 到 Glove 再到 ELMO,詞分布嵌入類模型由于其出色的詞表示能力,可以在低維空間中高效的計算詞的語義信息和詞之間的語義聯系,被廣泛應用于醫學文本的處理之中。根
180、據模型的技術和應用場景,詞分布嵌入類模型可以分為以下幾類。各類方法的簡介和舉例如下:1.基于統計和分布假設的方法 通過統計分析詞在文本中的共現關系來生成嵌入,常見方法為LSA(Latent Semantic Analysis),LDA(Latent Dirichlet Allocation),PMI(Pointwise Mutual Information)。2.基于上下文窗口的詞嵌入模型 通過訓練一個淺層神經網絡來生成固定維度的詞向量,常見方法為 Word2Vec,GloVe(Global Vectors for Word Representation),FastText 等。3.基于上下文
181、動態生成的詞嵌入模型 例 如:ELMo(Embeddings from Language Models),CoVe(Contextualized Word Vectors)4.基于 Transformer 的預訓練語言模型 這類模型是上下文嵌入的高級演化,通過大規模預訓練得到更強的 語 義 表 達 能 力,例 如BERT(Bidirectional Encoder Representations from Transformers),GPT(Generative Pre-trained Transformer),T5(Text-to-Text Transfer Transformer)等。5.
182、專為多模態或知識注入設計的詞嵌入模型 例如,融入知識圖譜信息的 ERNIE(Enhanced Representation through kNowledge Integration),用于多模態任務,結合文本和圖像對比學習的 CLIP(Contrastive LanguageImage Pretraining)。在醫學文本的表示學習領域,Transformer10架構有效地解決了在中國人工智能系列白皮書 58 句子中捕獲長距離依賴性的挑戰,增強了模型理解上下文之間關系的能力。通過多頭注意力機制學習到的上下文化詞表示,以及在大規模語料庫上的無監督預訓練?;?Transformer,如 BER
183、T11,在文本表示學習任務中表現出了非常有前景的性能。然而,開放的醫療問題仍然具有挑戰性,因為這些方法缺乏領域醫療知識來提升語義理解能力12。為了解決這個問題,一些工作13-15嘗試將內部知識或外部知識整合到類似 BERT 的模型中。內部醫療知識主要包括語法知識、句法結構知識和語義知識等12。弱監督方法可以整合內部知識,然后設計基于知識的任務來學習文本中的醫療知識。例如,ERNIE16通過注釋和掩碼預訓練數據中的短語和實體,融入了隱式的內部句法和語義知識。ERNIE-Health17使用醫療實體掩碼算法來學習術語和其他醫療實體知識。CorefBERT18使用問答匹配任務來學習疾病描述與醫生專業
184、治療之間的對應關系,從而獲得了醫療實體知識之間的內在聯系。與內部知識相比,外部醫療知識包含了醫療知識圖譜、醫療領域特定數據和預訓練數據的額外注釋。根據格式的不同,它也可以分為結構化知識和非結構化知識。例如,BERT-MK19將醫療知識圖譜中的子圖視為一個整體,并對齊醫療文本以保留更多的結構信息。與結構化知識相比,非結構化知識(如醫療領域的數據)更加完整,但噪聲也更多。K-ADAPTER20通過不同的適配器融入了醫療非結構化知識來學習詞匯知識和語言知識。在生物醫學文本訓練的模型 BioBERT 基礎上,UMLSBERT21利用 UMLS 去增強臨床領域的知識表示,結果表明模型能更好的理解和表示醫
185、學文本中的語義信息。對于上述所有工作,知識都隱式地存儲在其模型參數中。從知識增強方法中學習到的文本表示已經展示了其表達能力,并對下游任務的性能提升做出了貢獻。4.4 知識圖譜 知識圖譜是在自然語言處理的基礎上發展而來,這個概念是谷歌中國人工智能系列白皮書 59 在 2012 年提出的,當時主要是為了將傳統的基于關鍵字搜索的模型向基于語義的搜索升級。知識圖譜本質上是一種揭示實體之間關系的語義網絡,其節點代表實體(entity)或者概念(concept),邊代表實體/概念之間的語義關系。相比于傳統的機器學習算法,知識圖譜能夠從語義層面以結構化的形式表示知識,通過知識表示和推理,給人工智能系統提供可
186、處理的先驗知識,讓其具有解決復雜任務的能力。隨著智能信息處理技術,尤其是深度學習技術不斷發展,知識圖譜已廣泛應用于智能搜索、智能問答、個性化推薦等領域。中文文本的知識圖譜工作近年來在公開評測、領域擴展及上述的跨語料遷移方面也都取得了一些進展。目前知識圖譜也已經廣泛應用于醫療領域22,23。醫學知識圖譜是在人工構建的專業知識庫基礎上,通過算法以及人工審核的方式不斷擴充實體及關系來構建的,包括疾病、癥狀、藥品、手術、非手術治療等醫學概念與多種醫學關系。醫學知識圖譜的構建主要包括知識抽取、知識融合、知識應用等。醫學知識圖譜是疾病智能輔助決策工具的基石,使得計算機理解并做出智能的決策24,25。醫學知
187、識圖譜在多項醫學決策支持上都取得了成功的應用,例如預測藥物點相互作用26、罕見病知識圖譜輔助診斷模型27,28等。中文醫療知識圖譜領域近年來得到了業界廣泛關注,目前在工業界主要有百度-靈醫智惠、中國平安-平安好醫生、阿里健康-醫知鹿、騰訊-覓影等醫學知識圖譜,在學術界主要有CMeKG(Chinese Medical Knowledge Graph,http:/ 等。CMeKG 是基于大規模醫學文本數據,利用文本挖掘技術研發的中文醫學知識圖譜。CMeKG 的構建參考了 MeSH、ICD、SNOMED 等權威的國際醫學標準以及大規模多源異構的臨床指南、診療規范等文本信息。CMeKG涵蓋疾病的臨床癥
188、狀、發病部位、藥物治療等 30 余種常見實體類型,100 余萬概念關系及屬性三元組?!吧镝t學信息學本體系統”BIOS中國人工智能系列白皮書 60 目前為全球最大開放生物醫學知識圖譜,BIOS 是首個完全由機器學習算法生成的大型開放生物醫學知識圖譜,其術語發現、語義分析、概念生成、關系發現、跨語言對齊完全由模型自動實現。對比美國開發幾十年的“一體化醫學語言系統”UMLS,BIOS 在短短幾年的時間里,體量達到了 UMLS 的數倍,不僅扭轉了中文領域缺乏大型開放生物醫學知識圖譜的困難局面,更充分證明了人工智能的巨大潛力。近年來,深度學習技術,尤其是圖神經網絡的發展,極大地推動了時序知識圖譜的研究
189、。常用的研究思路有以下兩種:將動態圖按照時間劃分為每個時刻的圖,然后進行處理,隨著時間發展,每個時刻圖中的邊和節點可以變化;把時間 T 之前的所有邊構造成一個圖。常用算法中,DySAT 使用自注意力機制學習不同時刻的動態圖表示29;EvolveGCN 思路便是對每個時刻 T 的圖譜用 GCN 進行建模學習,用RNN 去演化每個時刻 GCN 模型的參數30;TGAT 模型在處理時序知識圖譜時,期望學習到鄰域的時間拓撲信息,學習節點特征和時間之間的相互作用,將節點的嵌入表示看作為時間的函數31。dyngraph2vec 使用全連接層和遞歸層學習動態圖嵌入的方法,并構建了動態模型庫32。當前,已經有
190、一些研究針對臨床病歷數據的時序知識圖譜展開,Shang 等人33以患者疾病和藥物為節點,考慮患者就診期間的時序性,構建了一個患者的時序圖模型,并在患者藥物推薦上取得了良好的結果。4.5 大語言模型在醫療文本中的應用 近年來,大語言模型在文本理解與生成方面展現出了卓越的能力,為文本分類、信息抽取等任務提供了新的解決方案。在醫學領域,結合大數據技術和大語言模型的應用具有巨大的潛力和價值34。大語言模型通常采用 Transformer 架構,通過對大規模語料庫進行自監督的預訓練,學習文本的語法、語義和邏輯等特征,從而捕捉文本間復雜中國人工智能系列白皮書 61 的關系。通過對特定任務數據進行微調,適應
191、不同的下游應用。GPT-4、PalM35和 LLaMA 等國際上的模型,以及國內的 ChatGLM、文心一言、通義千問、訊飛星火等,顯示了大型語言模型在解決通用語言問題(如文本分類、問答、文檔總結和文本生成等)方面的成功應用。此外,谷歌醫療團隊最近發表了最新版本的醫療大模型 Med-PalM36,專注于醫療文本理解和信息抽取。BiomedGPT37是一個專為生物醫學領域涉及的多模態通用基礎模型,通過預訓練和微調多種生物醫學數據庫,能夠處理多樣化的生物醫學任務。相對于傳統的自然語言處理方法,大語言模型在電子病歷信息抽取和結構化方面有著顯著優勢。電子病歷通常包含大量的上下文信息、診斷過程和治療方案
192、等,傳統方法常常難以充分考慮這些信息,而大語言模型能夠更好地理解文本的語境和上下文信息,更準確地結構化這些復雜的信息。此外,大語言模型具備強大的泛化能力。能夠處理各種類型和風格的醫學文本,無需事先定義復雜的規則或特征工程。這種靈活性使得模型能夠適應不同醫療實踐中的各種數據格式和語言風格。目前,大語言模型在電子病歷信息抽取領域,尤其是中文電子病歷方面的研究還在發展中,在支持臨床決策和國際醫療數據標準化等應用中展示出巨大的潛力38-40。目前已有一些成功的應用,例如,山山海醫療大模型可應用于門診病歷報告生成、手術記錄撰寫、商保管理;支付寶醫療大模型可應用于醫療問答、病歷結構化和檢索等。未來,它將為
193、醫療信息管理和個性化醫療提供更為先進和有效的解決方案。中國人工智能系列白皮書 62 參考文獻 1 Giddings R,Joseph A,Callender T,et al.Factors influencing clinician and patient interaction with machine learning-based risk prediction models:a systematic review.Lancet Digit Health.2024;6(2):e131-e144.2 Montgomery-Csoban T,Kavanagh K,Murray P,et al.
194、Machine learning-enabled maternal risk assessment for women with pre-eclampsia(the PIERS-ML model):a modelling study.Lancet Digit Health.2024;6(4):e238-e250.3 Wang J,Zheng N,Wan H,et al.Deep learning models for thyroid nodules diagnosis of fine-needle aspiration biopsy:a retrospective,prospective,mu
195、lticentre study in China.Lancet Digit Health.2024;6(7):e458-e469.4 Daniel R,Jones H,Gregory JW.Predicting type 1 diabetes in children using electronic health records in primary care in the UK_ development and validation of a machine-learning algorithm.Lancet Digit Health.2024;6:e386-95 5 Lee D,de Ke
196、izer N,Lau F,Cornet R.Literature review of SNOMED CT use.Journal of the American Medical Informatics Association:JAMIA.2014;21(e1):e11-19.6 Bodenreider O.The Unified Medical Language System(UMLS):integrating biomedical terminology.Nucleic acids research.2004;32(Database issue):D267-270 7 LOCKE S,BAS
197、HALL A,AL-ADELY S,et al.Natural language processing in medicine:A reviewJ.Trends in Anaesthesia and Critical Care,2021.https:/doi.org/10.1016/j.tacc.2021.100233 8 Mikolov T,Chen K,Corrado G,Dean J.Efficient estimation of word 中國人工智能系列白皮書 63 representations in vector space.2013 arXiv preprint arXiv:1
198、3013781.9 Le QV,Mikolov T.Distributed Representations of Sentences and Documents;2014.pp.1188-1196.10 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is All you Need.Neural Information Processing Systems,2017.https:/doi.org/10.5555/3295222.3295349 11 DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of
199、Deep Bidirectional Transformers for Language Understanding.Proceedings of the 2019 Conference of the North,2019.https:/doi.org/10.18653/v1/N19-1423 12 Biawas Som S.Role of chat gpt in public health.Annals of biomedical engineering 51.5(2023):868-869.13 Lewis,Mike,et al.Bart:Denoising sequence-to-seq
200、uence pre-training for natural language generation,translation,and comprehension.2019 arXiv preprint arXiv:1910.13461.14 Touvron,Hugo,et al.Llama 2:Open foundation and fine-tuned chat models.2023 arXiv preprint arXiv:2307.09288.15 HAN X,ZHANG Z,DING N,et al.Pre-Trained Models:Past,Present and Future
201、.AI Open,2021.https:/doi.org/10.1016/j.aiopen.2021.100080 16 McIntosh,Timothy R.,et al.A culturally senstive test to evaluate nuanced gpt hallucination,IEEE Transactions on Artificial Intelligence(2023)17 CHEN Q,ZHU X,LING Z H,et al.Neural Natural Language Inference Models Enhanced with External Kno
202、wledge.Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2018.https:/doi.org/中國人工智能系列白皮書 64 10.18653/v1/P18-1041 18 MICHALOPOULOS G,WANG Y,KAKA H,et al.UmlsBERT:Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unifi
203、ed Medical Language System MetathesaurusC/OL.Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Online.2021.19 SHARMA S,SANTRA B,JANA A,et al.Incorporating Domain Knowledge into Medical NLI using Knowledge Gra
204、phs.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),2019.https:/doi.org/10.18653/v1/D19-1540 20 LI Y,WEI B,LIU Y,et al.Incorporating knowledge into neural network for text r
205、epresentation.Expert Systems with Applications,2018.https:/doi.org/10.1016/j.eswa.2018.06.029 21 SUN Y,SHUOHUAN W,YUKUN L,et al.ERNIE:Enhanced Representation through Knowledge IntegrationJ.Cornell University-arXiv,2019.https:/doi.org/10.18653/v1/D19-1003 22 Murali L,Gopakumar G,Viswanathan DM,Nedung
206、adi P.Towards electronic health record-based medical knowledge graph construction,completion,and applications:A literature study.J Biomed Inform.2023;143:104403.23 Karthik Soman,Charlotte A.Nelson,Gabriel Cerono,Sergio E.Baranzini.Time-aware Embeddings of Clinical Data using a Knowledge Graph.Pac Sy
207、mp Biocomput.2023(28):97-108.24 Li T,Xiong Y,Wang X,Chen Q,Tang B.Document-level medical 中國人工智能系列白皮書 65 relation extraction via edge-oriented graph neural network based on document structure and external knowledge.BMC Medical Informatics and Decision Making.2021,21(Suppl 7):368.25 Zhu Y,Che C,Jin B,
208、Zhang N,Su C,Wang F.Knowledge-driven drug repurposing using a comprehensive drug knowledge graph.Health Informatics Journal.2020,26(4):2737-2750.26 Zhao D,Wang J,Sang S,Lin H,Wen J,Yang C.Relation path feature embedding based convolutional neural network method for drug discovery.BMC Medical Informa
209、tics and Decision Making.2019,19(Suppl 2):59.27 Latorre-Pellicer A,Ascaso A,Trujillano L,Gil-Salvador M,Arnedo M,Lucia-Campos C,et al.Evaluating Face2Gene as a Tool to Identify Cornelia de Lange Syndrome by Facial Phenotypes.Int J Mol Sci.2020,21(3):1042.28 Kohler S,Carmody L,Vasilevsky N,Jacobsen J
210、OB,Danis D,Gourdine JP,et al.Expansion of the Human Phenotype Ontology(HPO)knowledge base and resources.Nucleic Acids Res.2019,47(D1):D1018-D1027.29 Sankar,A.,Wu,Y.,Gou,L.,Zhang,W.,Yang,H.DySAT:Deep Neural Representation Learning on Dynamic Graphs via Self-Attention Networks.WSDM 20:The Thirteenth A
211、CM International Conference on Web Search and Data Mining.ACM 2020.30 SHANG C,TANG Y,HUANG J,et al.End-to-End Structure-Aware Convolutional Networks for Knowledge Base CompletionJ/OL.Proceedings of the AAAI Conference on Artificial Intelligence,2019:3060-3067.31 Pareja,A.,Domeniconi,G.,Chen,J.,Ma,T.
212、,Leiserson,C.中國人工智能系列白皮書 66 Evolvegcn:evolving graph convolutional networks for dynamic graphs.Proceedings of the AAAI Conference on Artificial Intelligence,2020.32 Xu,D.,Ruan,C.,Korpeoglu,E.,Kumar,S.,Achan,K.Inductive representation learning on temporal graphs.ICLR,2020.33 Goyal P,Ch Hetri S R,Cane
213、do A.dyngraph2vec:Capturing network dynamics using dynamic graph representation learning.Knowledge-Based Systems,2019,187.34 Murali L,Gopakumar G,Viswanathan DM,Nedungadi P.Towards electronic health record-based medical knowledge graph construction,completion,and applications:A literature study.J Bi
214、omed Inform.2023.143:104403.35 Zhang,K.,Zhou,R.,Adhikarla,E.et al.A generalist visionlanguage foundation model for diverse biomedical tasks.Nat Med.2024.30,31293141 36 PALM:Chowdhery,A.et al.PaLM:scaling language modeling with pathways.2022 Preprint at 10.48550/arXiv.2204.02311.37 Singhal K,Azizi S,
215、Tu T,et al.Large language models encode clinical knowledge.Nature.2023.620(7972):172-180.38 de Hond A,Leeuwenberg T,Bartels R,et al.From text to treatment:the crucial role of validation for generative large language models in health care.Lancet Digit Health.2024.6(7):e441-e443.中國人工智能系列白皮書 67 第 5 章 人
216、工智能助力 RNA 結構預測 5.1 背景 RNA 的研究被科學家稱為永無止境的前沿。生命在于各種蛋白質,沒有 RNA 就沒有蛋白質。RNA 結構預測是相比于蛋白質結構預測來說是件更加困難的事情,RNA 的研究永無止境。RNA 種類繁多、功能多樣、不穩定,結構決定功能。許多烈性病毒就是 RNA 病毒,如肆虐全球的新冠病毒,就是 RNA 病毒。RNA 的結構預測公認比蛋白質結構預測更加困難。主要表現在以下幾個方面:其一,RNA 可能隨環境不同而存在多個穩定的不同結構態,其二,共進化信息有效提升了蛋白質結構預測精度,但對 RNA 結構預測幫助很小。其三,實驗公布的 RNA 結構數量遠小于蛋白質結構
217、數量。盡管經過幾十年的艱苦努力,相比預測蛋白質的三維結構,預測 RNA 三維結構仍然是一個非常巨大的挑戰。截至 2023 年 12 月,PDB 數據庫中擁有超過 189000 個生物大分子結構可用,含有 RNA 的結構僅占總結構數的 0.86%,其中,包括與其他分子復合的 RNA 結構。PDB 每年新發布的 RNA 結構數量(深色)及數據庫中累計的 RNA 結構數量,RNA 結構數量增長緩慢。這表明 RNA 三級結構測定的效率極其低下,RNA 結構數量還遠不能滿足研究人員對結構和功能探索的需求。Science 封面:新型封面:新型 AI 技術有望破解技術有望破解 RNA 結構預測難題。結構預測
218、難題。RNA 三級結構預測的主要困難在于其構象采樣和打分函數的構建。對于構象采樣的問題,Rosetta 框架的出現為 RNA 構象采樣提供了新的思路,在 Rosetta 框架下基于枚舉采樣和隨機抽樣方案的 RNA三級結構預測算法有效地提高了構象采樣能力。而對于打分函數而言,機器學習相關方法克服了傳統打分函數打分不準確的弊端,基于三維卷積神經網絡的 RNA 結構打分函數不僅提高了結構打分的質量,還在一定程度上提高了 RNA 三級結構預測的精度。中國人工智能系列白皮書 68 人類基因組計劃的實施使得大量生物分子序列、結構及功能的相關數據呈幾何倍數增長的趨勢出現。生物信息學是一個跨多學科的研究領域,
219、該領域主要基于生物計算方法來對大量的生物大分子數據進行分析,旨在發現其中隱藏的生物模式及相關信息,此外,通過對相關信息的進一步分析可以促進對生物運行機制的研究。生物信息學和高通量測序技術的快速發展顯著地提高了我們探索人類微生物組的能力,并為各種疾病的研究提供了理論基礎和解決方案。在近期的研究報告中,專家和學者利用生物信息學方法研究了腫瘤突變、乳腺癌、宮頸癌、鼻咽癌、Ig A 腎病等疾病,并從基因水平對這些疾病進行了更深入的研究。生物信息學的本質就是處理大量的生物數據,并從中獲得想要的信息。蛋白質、多糖及核糖是生命系統中必不可少的生物大分子,生物大分子的結構預測仍然是生物信息學領域的一項重大挑戰
220、,特別是RNA 三級結構的預測。RNA 是一種由核糖核苷酸組成的多功能生物大分子。RNA 在疾病分析領域發揮著重要作用,如研究口腔鱗狀細胞癌需要了解 microRNAs,而研究食管癌需要先研究 lncRNAs,這表明對 RNA 的研究將為疾病研究提供堅實的理論基礎。此外,對 RNA結構的探索是研究活細胞中低豐度 pre-mRNA 與 RNA-蛋白質相互作用的基礎,此項研究能夠幫助研究人員進一步理解細胞生命活動中RNA 的功能,這使得 RNA 的相關研究成為一大熱點。RNA 在生物體內有多種功能,其主要功能是將存儲在 DNA 里面的遺傳信息轉化為蛋白質,并引導蛋白質分子的合成。RNA 的功能逐漸
221、受到關注,在最近的研究中,研究人員發現了 RNA 的一些新功能,有些部分 DNA 分子片段轉錄成 mRNA,進一步翻譯成蛋白質,而另一部分 DNA 分子片段只轉錄成 RNA,不能進一步翻譯,無法翻譯成蛋白質大分子的 RNA 是非編碼 RNA(non-coding RNA)。非編碼RNA 能夠控制蛋白質合成、調節轉錄過程并進行翻譯,除此之外非中國人工智能系列白皮書 69 編碼 RNA 還具有一些更加復雜的生物學功能,如劑量補償、染色質調控、基因組印記、核組織及基于代謝物濃度變化來進行基因表達調控等??偛课挥诿绹R薩諸塞州劍橋市的克雷數學研究所(Clay Mathematics Institute
222、,CMI),在 2000 年提出了世界 7 大數學難題,而 NP 完全問題1(non-deterministic polynomial complete problem)是世界 7 大數學難題之一,近似算法是處理 NP 完全問題(NP 難問題)的一種本質方法。新型冠狀病毒是 RNA 病毒,冠狀病毒(coronavirus,CoV)的 RNA 結構通常包含 H 型假結(pseudoknot),包含假結的 RNA 結構預測問題是 NP 完全問題1。有關 RNA 的研究已經多年被 Science 列入世界主要科技進展,1986 年,Science 上刊發了諾貝爾獎獲得者Dulbecco2關于人類基因
223、組測序的有關論文,相關論文的發表極大地推動了20世紀人類基因組計劃(Human Genome Project,HGP)的實施,也催生了生物信息學/計算生物學學科的發展。從 2019 年底開始在全球肆虐的新型冠狀病毒(COVID-19)給人類帶來了巨大災難,新型冠狀病毒屬于RNA病毒,RNA多為單鏈結構,該結構不穩定、易變異,這為疫苗的研制增加了難度。冠狀病毒是有包膜的正股單鏈 RNA 病毒,直徑為 80120nm,約由 3 萬個堿基組成,其遺傳物質是已知 RNA 病毒中最大的。目前已經發現至少 7 種致病性冠狀病毒,其中,嚴重急性呼吸綜合征冠狀病毒(severe acute respirato
224、ry syndrome coronavirus,SARS-CoV)、中東呼吸綜合征冠狀病毒(Middle East respiratory syndrome coronavirus,MERS-CoV)曾在人群中大范圍傳播流行,證明了冠狀病毒在動物間、人與人之間傳播的可能性。研究表明,蝙蝠身上能攜帶超過 100 多種病毒,是許多高致病性病毒的天然宿主,對人類社會造成巨大威脅的 SARS-CoV 正是來自中華菊頭蝠。2019 年發現的 SARS-CoV-2 就屬于蝙蝠 SARS 中國人工智能系列白皮書 70 冠狀病毒和中東呼吸綜合征冠狀病毒的病毒群。遺傳物質決定生命體的性狀,結構決定功能,冠狀病毒
225、擁有目前幾乎已知所有 RNA 病毒中最長的 RNA 堿基序列,RNA 結構預測問題來源于 RNA 編碼的秘密,也來源于病毒疫苗藥物研制的困難性。用實驗來測定指數級的數量龐大的 RNA 結構代價太大,不現實也不可能。除 RNA 的一級結構能用實驗的方法來測定測序外,RNA 二級結構、三級結構甚至四級結構,用實驗的方法測定十分困難,因而用計算方法與復雜性理論來分析預測 RNA 結構成為不可缺少的選擇。結構決定功能,想要探究 RNA 的功能,特別是 RNA 有些復雜的生物學功能,就必須要先了解 RNA 的結構。目前國內外的 RNA三級結構測定方法主要有兩種。第一種方法是利用 X 射線、核磁共振及冷凍
226、電鏡等實驗測定方法,采用實驗的方法測得的結果比較精確且可靠,但是構象數量隨著 RNA 長度的增加呈指數增長,導致成本太高,也不可能窮舉。第二種算法是基于生物計算的結構預測方法,當前的 RNA 三級結構預測算法主要有基于知識挖掘的預測方法和基于物理的預測方法?;谥R挖掘的三級結構預測方法依賴已知的RNA 模板數據庫,基于物理的預測方法減少了對數據庫的依賴,但是仍存在結構建模精度不夠高的問題,無法滿足當前的結構預測需要。因此針對這個現狀,需要對現有方法進行改進創新。由于 RNA 分子和蛋白質具有不同的折疊方式,所以將蛋白質的研究方法應用到 RNA 的研究中得到的結果不佳。在蛋白質領域,存在一個假
227、設,假設大分子的原生構象具有最低自由能,并且自由能函數近似為氫鍵、范德瓦耳斯力、靜電力和溶劑化項之和。本書針對現有技術的缺陷,假設大分子原生構象具有最低自由能,但不同的 RNA分子的三級結構中,根據堿基相互作用的不同類型,分配不同的權值,通過線性加和后得到相應自由能。此外,針對單線程構象能力受限制問題,可以采用并行機制,同時對建模結果進行了多重判斷,得到一中國人工智能系列白皮書 71 個專門用于 RNA 三級結構預測的算法逐步蒙特卡羅(Monte Carlo,MC)并行化算法3。21 世紀初,隨著由中國和美國、英國、法國、德國、日本科學家共同參與的人類基因組計劃的全部完成,人類進入后基因時代人
228、類細胞圖譜計劃時代。根據基因表達的分子信息,對所有人類細胞種類進行定義,而 RNA 在細胞中的轉錄和表達起著非常重要的作用。近年來,全球有關 RNA 的研究,特別是冠狀病毒 RNA 的研究,引起了全球眾多學者的極大關注。RNA 是單鏈折疊結構,RNA 在遺傳信息從 DNA 表達為蛋白質的過程中起轉錄作用。RNA 結構預測,特別是 RNA 三級結構預測甚至四級結構預測是當今學術界研究的熱點,但普遍存在預測準確度不高、特異性和敏感性不理想、預測算法時空復雜度高等問題。冠狀病毒的 RNA 結構往往包含 H 型假結,包含假結的 RNA 結構預測問題被證明是 NP 完全問題,而作為世界 7 大數學難題之
229、一的 NP 完全問題的研究給我們帶來了極大的困難。為了獲取RNA結構功能信息,獲知生物分子的生物學功能,尋找非編碼RNA基因,利用機器學習、深度學習、層次聚類、蒙特卡羅方法等人工智能的典型技術,結合 RNA 病毒結構特性,特別是現在全球大流行的新型冠狀病毒結構,結合最大 k-補割、稠密 k-子圖問題等典型的 NP難的問題,以及困難性未知的最小結構熵問題,有望解決 RNA 結構預測算法與復雜性中存在的世界前沿問題,探索生命起源和進化,揭開 RNA 編碼秘密,為研究冠狀 RNA 病毒機理和靶向核酸藥物研制提供理論和技術指導。不同于 DNA 的雙螺旋結構,RNA 是單鏈結構,RNA 堿基序列中包含
230、A、C、G、U 四種堿基。由于堿基是平面結構,其邊緣的氫原子供/受體可近似地劃分為三個配對邊:Watson-Crick(W)邊,Hoogsteen(H)邊,以及 Sugar(S)邊。配對邊影響 RNA 折疊結構的穩定性,穩定性也可以用堿基配對所需要的自由能量來衡量,并且自由能中國人工智能系列白皮書 72 量越小,RNA 結構越穩定。RNA 能量模型包括結構單元間的近鄰相互作用模型、獨立結構單元模型等。最鄰近鄰居模型可以看作一種獨立結構單元模型的特殊情況,其結構單元中堆疊結構與環結構是由最鄰近堿基對決定的,RNA 分子的自由能量主要是堆疊結構和環結構的貢獻。環結構對RNA 折疊結構的穩定性有非常
231、重要的作用,但對環結構的熱動力學研究相對較少,其結構的穩定性可以由自由能量參數來衡量4。AU、CG 基對是 RNA 堿基序列中常見的莖環結構,RNA 莖環結構的鄰位基對可能有十余種的組合數,預測 RNA 結構的本質是找出 RNA 堿基序列的各位點之間的配對關系。然而 GU 錯配現象在 RNA 堿基序列中也經常發現,包含 GU 錯配的情況大約有十幾種鄰位關系的組合。利用寡核苷酸合成技術,我們可以合成大量用于實驗的寡核苷酸鏈,進一步提高了自由能量參數的正確率,Mathews 和 Turner5改進的自由能量參數成為目前普遍采用的參數。許多 RNA 病毒中含有假結結構,如冠狀病毒中通常含有 H 型假
232、結。假結是 RNA 分子中最廣泛的三級結構單元,假結的存在使 RNA結構更加復雜化,假結在不同的 RNA 分子中有催化、調節、構造等非常重要的功能,在探索生命科學的現象、規律中具有十分重要的意義6,7。假結是非常復雜和穩定的 RNA 結構,包含假結的 RNA 結構預測是目前 RNA 結構預測研究的難點和關鍵點。1985 年,Pleij 等成功地預測了幾種毒菌 RNA 的假結結構6,Kolk 等在 1998 年予以證實了假結結構的存在性7。有關含假結的 RNA 結構預測算法近似理論與技術的研究是近似算法領域研究中的熱點之一。在多項式時間可解的問題得到研究之后,包含假結 RNA 折疊結構預測的 N
233、P 難問題的近似算法研究成為算法理論設計與分析經典領域中的活躍分支。通過 RNA 結構分析,本書抽象設計出有效的精確確定性算法來預測三級結構甚至四級結構,利用近似算法來求解包含假結的 RNA中國人工智能系列白皮書 73 結構預測這一理論上是被證明的 NP 完全問題,利用近似算法分析設計中提出的新思想、新觀點來預測 RNA 結構,提高預測的精度、特異性、敏感性。本書的研究有助于 RNA 結構預測近似算法與復雜性,以及算法不可近似性的發展;也有助于 RNA 結構預測理論在生物醫藥產業實踐中的指導,特別是在加快生物制藥、冠狀病毒藥物研制和疫苗研制進度角度,具有極其重要的意義。生物信息學/計算生物學從
234、 20 世紀 80 年代開始逐漸形成一門學科,南加利福尼亞大學 Waterman 開創了生物信息學和計算生物學的先河,1981 年,Smith 與 Waterman 提出了著名的序列比對的Smith-Waterman 算法,該算法改進了 Needleman-Wunsch 算法的不足。美國的 Pipas 和McMahon 最先提出如何運用計算機技術預測 RNA 二級結構。1994 年,Walter 和 Turner 對同軸堆疊在 RNA 折疊中的作用進行了研究,研究主要包括嵌套結構,但許多 RNA 結構中還包含非嵌套結構假結,假結破壞了動態規劃算法依賴的 RNA 折疊結構的嵌套子結構的性質,假結
235、還使 RNA 結構預測問題變為 NP 難問題,增加了問題的困難性 8,9。Zuker 等10提出了 Mfold 算法,將動態規劃算法引入最鄰近鄰居熱力學模型。Rivas 和 Eddy11提出了關于 RNA二級結構預測的 Pknots 算法,可以預測任意的平面假結和部分非平面假結,但其時間復雜度為 O(n6),空間復雜度為 O(n4),時空復雜度太高,該算法通過限制假結的類型來預測含假結的 RNA 的二級結構,太高的時間復雜度和空間復雜度嚴重制約了該算法所能計算的問題規模,使帶假結的 RNA 結構預測變得異常困難。含假結的 RNA結構預測在國際上受到高度重視,是 RNA 結構預測領域中的典型問題
236、和熱點。關于假結參數可以用非假結參數乘以系數 g(0.83)作為補償12,這些參數值一部分為理論估計值,另外一部分參數由實驗結果計算得到。Nixon 等13對 mRNA 假結結構加以研究,提出移碼突變的 mRNA 解決方案。Ieong 等14于 2003 年提出了最大堆疊基對數問中國人工智能系列白皮書 74 題,并成功地設計了該類問題近似性能比為 3 的近似算法。Lyngs15設計了時間復雜度高達 O(n81)的最大堆疊基對數問題的精確算法,該算法難以理解更不實用,同時,Lyngs 提出了最大堆疊數問題,證明該最大堆疊數問題屬于NP難問題,并設計了多項式時間近似方案。Ruan 等16和 Ren
237、 等17也對 RNA 假結進行了研究,分別提出了包含假結的啟發式算法和環匹配算法,Huang 和 Ali18對 RNA 假結結構的預測敏感性進行了研究,Han 等19提出了包含假結的 RNA 結構比對算法。20 世紀末,清華大學自動化系李衍達院士和張學工教授在國內率先致力于生物信息學/計算生物學的研究,清華大學自動化系汪小我、李梢也在基因調控分析與建模、復雜疾病計算分析等方面取得了若干研究成果。吉林大學徐鷹長期致力于癌癥生物信息學、微生物信息學和結構生物信息學等相關領域的研究,在生物通路與網絡的計算方法和模型研究、比較基因組分析、蛋白質結構預測與建模等方面做出了重要的和公認的貢獻。中南大學王建
238、新、李敏利用參數化算法等理論與技術在生物信息計算領域進行了深入系統的研究,在長非編碼疾病關聯競爭性內源預測等方面取得了具有領先水平的一批理論成果。近年來,國內許多學者開展了 RNA 結構預測的研究,特別是 RNA二級結構預測。中國科學院計算技術研究所徐琳等20提出一種對動態規劃矩陣采用分塊技術的細粒度并行算法,對面向現場可編程門陣列(field programmable gate array,FPGA)的 RNA 二級結構進行預測,提高了算法效率。陳翔等21根據 RNA 折疊的特點,提出了一種啟發式搜索算法來預測帶假結的 RNA 二級結構,該算法以 RNA 的莖區為基本單元,采用啟發式搜索策略
239、在莖區的組合空間中搜索自由能最小并且出現頻率最高的 RNA 二級結構,該算法能降低搜索 RNA 二級結構的時間復雜度。吉林大學劉元寧等22提出 14 種類型的 RNA 假結結構,并使用一種改進的 RNA 平面結構表示法弧圖,利用相容中國人工智能系列白皮書 75 矩陣與迭代矩陣來求出具有全局最大最優能的 RNA 莖區組合。近年來在癌癥基因驅動檢測、識別 RNA 內源性模塊等方面,西安電子科技大學 Li 等23和 Wen 等24取得了豐碩的成果。Yue 等25利用貝葉斯網絡結合不同算法來預測小 RNA,提高了預測的敏感性和特異性。2011 年美國羅切斯特大學的 Ellaousov 提出了包含假結的
240、 RNA 二級結構快速預測算法,該算法的時間復雜度為 O(n2),預測準確度為69.3%,但長度超過 700 的核苷酸的預測精度不理想。2015 年,山東大學李國君聯合吉林大學、美國阿肯色州立大學、佐治亞大學等的研究人員共同提出了一種新的 RNA 轉錄組組裝工具 Bridger,其研究成果發表在國際著名學術雜志 Genome Biology 上。Gupta 等26,27在求解Rent-or-Buy 問題時,把博弈論的費用分攤方法應用到近似算法的設計與分析中,成果分別發表在理論計算機科學國際頂會(IEEE Annual Symposium on Foundations of Computer S
241、cience)和國際著名期刊Journal of the ACM27上。近似算法的不可近似性成為近年來近似算法領域中的一個新的熱點28,近似算法及隨機算法的去隨機化技術為包含假結和冠狀病毒的 RNA 結構預測提供了新思路、新方法29,30。若把 RNA 序列堿基(核苷酸)看作圖的頂點,兩堿基(核苷酸)若配對,則在它們之間畫一條線段,若途中線段之間存在交叉,則說明 RNA 結構中存在假結,可以把 RNA 結構優化問題轉化為圖問題,利用深度學習、近似算法和隨機算法理論與技術,設計 NP 難包含假結的 RNA結構預測近似算法,證明問題的可近似性或近似難度。如果一個莖區的形成能使 RNA 結構更穩定,
242、那么表明該結構更有可能先形成,用自由能來衡量 RNA 結構的穩定性,因而本書提出的預測算法可以采用自由能作為評估和衡量候選莖區的標準,設計相關 RNA 假結結構預測近似算法,相關研究論文可以參考文獻31和32。香港大學的Wong等33,34對含復雜假結的 RNA 折疊結構加以研究,設計了效果不錯的RNA 結構比對方法,主要來判斷 ncRNAs(non-coding RNAs),并且中國人工智能系列白皮書 76 在超過 350 個 ncRNA 家族中進行了實驗。2012 年,Wong 等35設計了包含簡單假結的 RNA 結構比對算法,其時間復雜度為 O(mn3),并設計了RNA結構比對算法,該算
243、法能處理假結,時間復雜度為O(mn4)。劉振棟等 36,37提出了含假結的 RNA 結構近似算法及啟發式算法。2013 年,麥吉爾大學的 Reinharz 等38利用加權樣本和抽樣方法設計了加權樣本算法,對 RNA 二級結構加以預測,取得了良好的效果。劉振棟等39深入分析了含假結的 RNA 折疊結構內部特性,基于堆疊數最大化和能量最小化原理,提出了含假結的 RNA 結構預測算法。華盛頓大學的 Andronescu 等40,41對具有最鄰近鄰居的參數的 RNA 折疊結構進行研究,提出了利用 RNA 序列數據庫來確定參數值的方法。芝加哥大學的 Babai42針對圖同構問題找到了一個擬多項式時間的算
244、法,該算法可以同時對兩個網絡系統計算加以優化,使生物計算網絡更加簡單。2015 年,Keane 等43研究了含包裝信號的 HIV2-1 的 RNA折疊結構,對 HIV-1 的研究有獨到的見解。2016 年 Kuchark 等44詳細闡述了假結在 RNA 折疊結構中的特性,對假結的理解更為深刻。近年來對單細胞的研究如火如荼,2017 年,Gomez-Schiavon 等45對單細胞 RNA 分子中的 BayFish 機理進行詳細研究,加深了對單細胞的理解。在對各類疾病進行分析時,與 RNA 的關聯性研究必不可少,如研 究 乳 腺 癌 需 要 了 解 microRNAs 的 結 構 與 功 能46
245、,研 究Autophagy-related lncRNAs 的結構與功能對研究食管癌至關重要 47,這表明對 RNA 的研究可以為疾病研究提供堅實的理論基礎。RNA 通常會形成復雜的空間結構,其線性核苷酸序列經過堿基配對組成二級結構,二級結構通過折疊決定其三維空間中的結構48。RNA 的功能取決于其三級結構及與其他分子在細胞中的相互作用,RNA 二級結構已經提供了 RNA 分子的堿基序列藍圖,我們仍然需要進一步探索 中國人工智能系列白皮書 77 RNA 的三級結構49。目前用于 RNA 三級結構采集的生物學實驗方法有冷凍電鏡法50、核磁共振法51等,但是由于 RNA 三級結構極不穩定,容易受到
246、環境的影響而發生突變,同時由于基因的進化,很難獲取 RNA 的第三級接觸信息,所以獲取一段連續的、完整的 RNA 片段是非常困難的。因此,需要利用生物信息學的方法和技術,結合已知的生物分子結構及其功能特點,利用計算機技術來預測 RNA 的三級結構52。目前在生物大分子的三級結構預測領域,蛋白質的結構預測方法已經取得顯著進展,但是該方法卻難以用于預測 RNA 的三級結構,其原因是目前預測蛋白質結構的方法主要利用了相關已知蛋白質的結構,通過機器學習的手段進行訓練,提取相關蛋白質的特征,建立數學模型53。但是通過實驗測得的 RNA 結構數目遠遠少于蛋白質,不足以提供大量有效的訓練集數據,因此預測蛋白
247、質結構的方法并不適用于 RNA,需要發展更有效的生物計算方法來進行 RNA 三級結構的預測。5.2 研究現狀 近年來,研究人員發現 RNA 具有劑量補償等復雜的生物學功能,RNA 結構研究引起了廣泛重視。然而,RNA 三級結構預測相關研究仍處在起步階段,與蛋白質結構預測相關研究成效相差甚遠。RNA三級結構預測相關研究一直落后于蛋白質結構預測的相關研究,主要有三個原因。第一,與蛋白質結構相比,RNA 分子結構上有更多的自由度,因此 RNA 結構數量更多,結構預測計算量大。第二,非沃森-克里克堿基對是 RNA 分子折疊結構的核心,雖然其數量有限但是卻難以識別,這為 RNA 的三級結構預測增加了難度
248、。第三,RNA 構象空間比蛋白質構象空間要大得多。綜合 RNA 與蛋白質的自由度和分子量分析,100nt(核苷酸,nucleotide)的 RNA 三級結構預測與 200中國人工智能系列白皮書 78 300aa(amino acids,氨基酸)蛋白質結構預測的建模難度相當19,20,這足以證明 RNA 三級結構預測的困難性。正是由于 RNA 三級結構預測比蛋白質結構預測更困難,所以 RNA 三級結構預測的相關研究發展緩慢。RNA 分子一般是線狀單鏈結構,然而 RNA 分子的某些區域可自身回折,進行堿基互補配對并形成局部雙螺旋結構。RNA 雙螺旋中,一般是 A 與 U 配對、G 與 C 配對,但
249、存在非標準配對,如 G 與 U 錯配對。RNA 分子中的雙螺旋與 A 型 DNA 雙螺旋相似,而非互補區則膨脹形成前面介紹的凸出(bulge)或者環(loop),短的雙螺旋區域和環可以形成發夾結構,發夾結構是 RNA 中最普通的二級結構形式,二級結構進一步折疊形成三級結構,RNA 分子只有在具有三級結構時才有活性。RNA 能與蛋白質形成核蛋白復合物,RNA 的四級結構是 RNA 與蛋白質的相互作用形成的,RNA 結構預測是計算生物學與生物信息學的典型問題。致力于發展一種新的 RNA 三級結構預測工具來預測出更多的RNA 三級結構。生物計算領域出現了很多 RNA 三級結構預測算法,典型的 RNA
250、 三級結構預測算法主要包括兩類:一類是基于知識的RNA 三級結構預測算法,另一類是基于物理的 RNA 三級結構預測算法?;谥R的 RNA 三級結構預測算法主要包括 MANIP 算法、ModeRNA 算法、RNABuilder 算法、3dRNA 算法等。ModeRNA 算法和 RNABuilder 算法是基于同源建模的 RNA 三級結構預測算法,通過基于片段的插入方法對沒有模板的區域進行建模,并利用力場進行集合優化,獲得物理上合理的構象?;谖锢淼?RNA 三級結構預測算法是根據生物物理的原則,通過搜索 RNA 三級結構的構象空間,尋找自由能最低的構象,采樣方法都是動態的,且基于蒙特卡羅算法或
251、者分子動力學方法進行構象空間搜索采樣,典型算法有 FARNA 算法、FARFAR 算法、SWA 算法、中國人工智能系列白皮書 79 SWM 算法等。截至 2023 年 12 月,PDB 數據庫中擁有超過 189000 個生物大分子結構可用,含有 RNA 的結構僅占總結構數的 0.86%,其中,包括與其他分子復合的 RNA 結構。PDB 每年新發布的 RNA 結構數量(深色)及數據庫中累計的 RNA 結構數量,RNA 結構數量增長緩慢。這表明 RNA 三級結構測定的效率極其低下,RNA 結構數量還遠不能滿足研究人員對結構和功能探索的需求。圖 5-1 為 DNA、RNA 與蛋白質關系的中心法則。圖
252、圖 5-1 DNA、RNA 與蛋白質關系的中心法則與蛋白質關系的中心法則 A-U 堿基的 W/W 順式配對,G-C 堿基的 W/W 順式配對,以及G-U堿基的W/W順式配對是RNA標準堿基配對(canonical base pairs)。然而研究發現,目前觀察到的 RNA 分子中,標準堿基配對占據了約80%。雖然非標準堿基配對(noncanonical base pairs)僅占 20%,但是對于提高 RNA 三級結構預測精度至關重要,非標準堿基配對的精準預測是 RNA 三級結構預測的重點和難點。RNA 三級結構預測關鍵有兩個方面:一方面,利用構象采樣方法生成候選結構;另一方面,利用合適的打分
253、函數來評估生成的這些候選結構。通常 RNA 三級結構預測算法中采用的評估標準是基于具有最低能量的結構最穩定、最接近原生構象的原理;打分函數的優劣很大程度上會影響 RNA 結構預測結果的好壞,當前已經開發出了一些比較好的打分函數,如 RASP、RNAKB potentia、3dRNAscore 和Rosetta 等打分函數。對于 RNA 結構預測的進一步研究需要從這兩個方面進行。此外,RNA 三級結構預測的關鍵組成還包括分子表示方中國人工智能系列白皮書 80 式和自由度。近年來,研究人員基于生物計算提出了一系列 RNA 三級結構預測算法,包括 ModeRNA54、3dRNA55、FARFAR56
254、、MANIP57等,這些算法主要基于 RNA 的堿基序列及其二級結構,已在 RNA 的三級結構預測領域取得了一定的進展。此外,Rosetta 的出現也為進一步實現 RNA 三級結構的精確預測創造了可能。Rosetta58是一項用于模擬生物大分子結構的綜合性框架模型,作為一套用途廣泛、靈活性強的框架,它涵蓋了大量有關 RNA 及蛋白質三級結構預測的設計、組裝工具與算法,通過對 Rosetta 套件中性能的不斷改進,其結構預測效果得到進一步提高,如抗體和抗原建模的對接與設計59,研究人員利用 Rosetta 套件可以有效地預測 RNA 三級結構。RNA 三級結構預測的主要影響因素有自由度、采樣方法
255、、能量函數、分子表示方式。在 Rosetta 框架中,生物計算方法通常受兩方面影響。一方面,通過各種抽樣方法生成大量候選結構。另一方面,使用一個評估這些候選結構的鑒別器。對于 RNA 或者蛋白質結構預測而言,鑒別器通常是指能量函數60,例如,最近更新的 Rosetta 能量函數61。而低效的采樣方法一直是 RNA 高分辨率建模的瓶頸。如果不對構象空間進行有效采樣,那么就不可能實現精確的建模和嚴格的高分辨率能量函數測試。為了提高構象采樣能力,Sripakdeevong 等62提出了一種假設,通過每次添加一個殘基遞歸地構建模型,枚舉出單個 RNA 數百萬種構象,并覆蓋所有構建路徑。Watkins
256、等63進一步指出,用隨機抽樣代替確定性枚舉抽樣將降低計算成本,提高建模精度。為了進一步降低計算成本,提高建模精度和建模完整度,在采樣時采用并行機制,并對建模結果進行進一步判斷和處理。2018 年,Liu 等64對包含假結的 RNA 折疊結構加以研究,降低了時間復雜度,改進了預測精度、特異性和敏感性。2019 年,Meng中國人工智能系列白皮書 81 等65針對 RNA 結構預測設計了 RAG-Web 方法,對 RNA 結構有了更深的認識。2020 年,Rivas 等66在研究 RNA 結構時計算了 RNA 堿基序列的變化,闡述了堿基序列的配對規律。2020 年,Menden 等67利用深度學習
257、技術對 RNA 結構相關的組織表達加以深入分析,其成果發表在 Science 上。2020 年,Liu 等68對 RNA 折疊結構的盆跳圖(basin hopping graph,BHG)與障礙樹進行深入解析,提出了基于擴展結構的 RNA 預測算法。Guo 等69采用降維技術來研究蛋白質與蛋白質之間,以及 RNA 與蛋白質的關系。2020 年,山東大學 Zheng 和Liu70進行了最大 k-補割問題和稠密 k-子圖問題的研究。2021 年,斯坦福大學的 Townshend 等71采用 18 個已知的 RNA 結構設計了一個幾何深度學習方法來預測 RNA 結構精確模型,在 blind RNA
258、預測方面取得了非常好的效果。2021 年,Park 等72對 RNA 介導的 DNA 轉座系統和靶向選擇的基礎結構加以研究,加深了對 RNA 介導功能的理解。2021 年,Niu 等73用深度學習和降維技術來研究 RNA 與蛋白質之間的相互關系。2022 年,Rasmussen 等74在 Nature 上發表了用RNA 結構揭示疾病和健康關系的論文。2021 年 11 月 9 日在南非首次檢測到奧密克戎(英文名:Omicron,編號:B.1.1.529)新型冠狀病毒變種,對冠狀病毒的 RNA 結構研究迫在眉睫。2022 年,Garcia-Beltran等75在 Cell 上提出了基于 mRNA
259、 COVID-19 的疫苗增強劑對SARS-CoV-2 奧密克戎變種的中和免疫方法,給奧密克戎變種的防治提供了有效途徑。2022 年,Liu 等76提出了基于蒙特卡羅策略和原子精度的 RNA 三級結構的預測算法,從原子精度對 RNA 的三級結構進行深入研究。至今為止,RNA 結構中特別是 RNA 冠狀病毒的 RNA結構分析預測還存在許多需要研究的問題,期待我們來探索其中的秘密。Liu 等分別在 2018 年、2020 年對 RNA 折疊結構的 BHG 與障礙樹進行深入解析,提出了基于擴展結構的 RNA 預測算法。2020 年、中國人工智能系列白皮書 82 2021 年 Liu 等用深度學習和降
260、維技術來研究蛋白質之間、蛋白質和RNA 之間的相互關系,從而進一步加深了對 RNA 結構的理解,2022年 19 月,Liu 等76-78發表了有關基于蒙特卡羅策略和原子精度的RNA 三級結構的預測算法、細胞組織單細胞 RNA 預測算法、基于組合優化策略的 attC 結合位點預測算法。冠狀病毒的 RNA 結構預測NP 完全問題近似算法、近似難度的分析證明等工作具有挑戰性,這些挑戰性的工作會激發我們極大的研究熱情。RNA 結構中特別是 RNA 冠狀病毒的 RNA 結構分析預測還存在眾多需要研究解決的問題,其中,有些多項式確定性精確算法、綁定蛋白質問題、NP 完全問題近似算法仍有改進的余地79-8
261、2,如求解含任意假結最大結構數問題是否是 NP 難的,是否存在該問題的最大 k-補割問題近似算法?病毒 RNA 最大莖區問題如何轉換為最小結構熵問題?如何提高RNA結構預測近似算法中預測特異性和敏感性?NP難問題的不可近似性的證明也極具挑戰性。Artem Nemudryi 等人將 CRISPR 核糖核酸酶的序列特異性 RNA切割與可編程的 RNA 修復相結合,在 RNA 中進行精確的刪除和插入,建立了一種重組 RNA 技術直接應用于 RNA 病毒的簡易工程83。McCauley 等人發現自然修飾有利于 RNA 的天然折疊,表明共價 RNA修飾可能在生命起源的過程中代謝發揮了關鍵作用84。202
262、4年2 月,在科學出版社出版的學術專著中,利用深度學習技術對帶權多粒度掃描策略的轉錄因子結合位點,RNA 結構預測及其復雜性領域加以詳細說明85。許多生物分子凝聚體依賴于 RNA 和 RNA 結合蛋白,2024年 3 月的Science Advances發表的論文中,Tebbe 等人提供了一種獲取 RNA-蛋白質結構信息的方法,生物分子凝聚物中的配合物可能對生物的整體結構建模至關重要86。2024 年 3 月,Elizabeth Pennis等人在Science發表的論文中利用 RNA 結構特性,可以在動物身上繪制彩色圖案,也為探索 RNA 結構機理提出了有趣科學問題87。中國人工智能系列白皮
263、書 83 RNA 結構決定 RNA 功能、RNA 結構預測算法和人工智能技術的改進,為尋找非編碼 RNA 基因,以及為 RNA 病毒和靶向核糖體藥物研制提供了新思路、新方法。5.3 機器學習與深度學習 機器學習的核心是設計和分析一些算法,這些算法旨在讓機器自動學習數據信息。經典的機器學習方法已經在多個領域取得了巨大的成功,然而語音等數據具有多維度特點,傳統的機器學習方法難以對如此高維度的數據進行處理。深度學習(deep learning,DL)的出現為該問題的解決提供了可能。深度神經網絡可被視為由多個隱含層組成的神經網絡結構模型,屬于機器學習的一個分支。調整神經元的連接方式、改變激活函數、增加
264、網絡模型深度等方式可以有效地優化深層神經網絡。5.3.1 卷積神經網絡卷積神經網絡 卷積神經網絡(convolutional neural network,CNN)是一種基于視覺感受野機制的具有卷積結構的前饋神經網絡,神經元感受野是指視覺神經系統中的視網膜上的一塊區域,僅刺激這塊區域時才可以激活該神經元,很多感受野交錯重疊在一起,最終覆蓋整個視線域。卷積神經網絡的基本結構單元主要有池化層、卷積層及全連接層,且卷積神經網絡具有池化、共享權值及局部感受野等結構特性。與全連接網絡相比,卷積神經網絡能夠進行空間平移、旋轉等操作,這樣既能保留其數據內部的關聯性,還能夠有效地減少網絡模型中的相關參數,卷積
265、結構可以有效地降低模型出現過擬合現象的概率。5.3.1.1 最新進展最新進展 近年來,研究人員基于機器學習和深度學習提出了一系列卷積神經網絡(CNN)改進算法,算法主要基于 CNN 的基礎結構及其特性,已在視覺任務領域取得了一定的進展。此外,FlashInternImage 和 ViT中國人工智能系列白皮書 84 等架構的出現也為進一步實現 CNN 性能提升創造了可能。CNN 性能提升的主要影響因素有網絡結構、優化方法、損失函數、模型表示方式。在 FlashInternImage 和 ViT 框架中,深度學習方法通常受兩方面影響。一方面,通過各種優化方法改進模型性能。另一方面,使用一個評估這些
266、模型性能的指標。對于 CNN 或者其他深度學習模型而言,指標通常是指損失函數,例如,最常用的交叉熵損失函數。而低效的優化方法一直是 CNN 性能提升的瓶頸。如果不對模型進行有效優化,那么就不可能實現精確的預測和嚴格的性能提升。2024 年初提出的一種高效的變形卷積網絡 DCNv4,重新思考了動態和稀疏操作在視覺應用中的使用。枚舉出單個 CNN 數百萬種可能的操作,并覆蓋所有構建路徑。DCNv4 是一種高效的動態和稀疏操作符,它重新思考了可變形卷積的動態特性,并簡化了內存訪問,運行速度和性能都有顯著提升。相較于前一版本 DCNv3,DCNv4 使用一個線程處理同一組中的多個通道,這些通道共享采樣
267、偏移和聚合權重。這樣可以減少內存讀取和雙線性插值系數計算等工作負載,并且可以合并多個內存訪問指令,具體如圖 5-2 所示。圖圖 5-2 DCNv4 相對于相對于 DCNv3 的線程改進的線程改進 配備 FlashInternImage 骨干網絡的 DCNv4 不僅提高了運行速度,還改善了各種視覺任務的性能。值得注意的是,DCNv4 還展示了其中國人工智能系列白皮書 85 作為通用操作符的多功能性和有效性。通過將其集成到 ConvNeXt 和ViT 等先進的架構中,DCNv4 進一步提高了吞吐量和準確性。此外,DCNv4 在潛在擴散模型中也有出色的表現,展示了其在增強生成模型方面的潛力??梢杂每?/p>
268、間位置選擇性地放大或衰減濾波器將降低計算成本以提高模型精度。為了進一步降低計算成本,提高模型精度和完整度,在訓練時采用并行機制,并對模型結果進行進一步判斷和處理。在卷積之后,通過一個編碼器網絡將坐標傳遞,并通過乘法門應用于卷積后的數據,實現了根據空間位置選擇性地放大或衰減濾波器的功能,具體流程如圖 5-3 所示。圖圖 5-3 卷積卷積 CoordGate 模塊模塊 在卷積 CoordGate 模塊中,數據 X 和坐標 C 分別通過卷積神經網絡(CNN)和多層感知機(MLP)進行處理,然后對得到的張量進行哈達瑪乘積(Hadamard product)。這種技術為 CNN 提供了一種新的、高效的計
269、算空間變化卷積的方法。實驗證明,CoordGate 在U-Net中的應用能夠在圖像去模糊等任務中取得比傳統方法更好的效中國人工智能系列白皮書 86 果,為計算機視覺應用提供了更強大和空間感知的解決方案。通過引入了大卷積核可產生三個效果:擴大感受野,增加空間模式的抽象層次,通過增加深度改進模型的一般表示能力。UniRepLKNet 則是一種通用大卷積核 ConvNet 架構。它將 33 卷積添加到小卷積核 ConvNet 中,期望通過擴大感受野、增加空間模式的抽象層次和通過增加深度改進模型的一般表示能力,來提升 CNN 的性能。提出了一種稀疏重參數塊(Dilated Reparam Block)
270、,該塊使用非稀疏的小卷積核和多個稀疏的小卷積核層來增強非稀疏的大卷積核層,它的超參數包括大卷積核的大小 K、并行卷積層的大小 k 和膨脹率 r,具體流程如圖 5-4 所示。圖圖 5-4 稀疏重參數塊稀疏重參數塊 圖中包含四個并行層,UniRepLKNet 還引入了一種基于塊設計的架構指導原則,既能進行通道間通信又能進行空間聚合的高效結構來增加深度。實驗結果顯示,經過 ImageNet-22K 預訓練后的UniRepLKNet-S 具有很高的準確性,并且運行速度比 RepLKNet-31L快 3 倍。CNN 在基因組學中的應用也日益增多。研究人員利用 CNN 分析基因組序列,識別與特定疾病相關的
271、突變和調控元件,幫助理解復雜的遺傳機制。此外,CNN 還被用于單細胞 RNA 測序數據的分析,幫助識別細胞類型和狀態,揭示細胞異質性。在2024 年7 月的 Scientific Reports 發表的研究中,通過整合單細胞 RNA 測序和卷積神經網絡,中國人工智能系列白皮書 87 揭示了阿爾茨海默病中小膠質細胞的異質性及其復雜的細胞間相互作用,展示了深度學習在基因組研究中的應用前景88。隨著技術的不斷進步,卷積神經網絡的應用范圍將進一步擴大,可能在更多領域帶來突破性的成果,尤其是在生物信息學的深層次研究中。5.3.2 三維卷積神經網絡三維卷積神經網絡 三維卷積神經網絡是由二維神經網絡改進而來
272、的。由于二維卷積神經網絡不能很好地捕獲視頻資源中的時空信息,因此產生了三維卷積神經網絡。二維卷積的輸出為二維特征圖,多用于單通道,而在多通道時圖像的多通道信息都被壓縮了。三維卷積神經網絡可以很好地解決該問題,因為其輸出仍是三維特征圖,能夠捕獲視頻中的空間和時間特征信息。隨著機器學習和深度學習方法的發展,卷積神經網絡方法開始被廣泛地應用。一維卷積神經網絡(1D CNN)一般用來學習和處理一維的序列類數據;二維卷積神經網絡(2D CNN)通常用于目標監測、自然語言處理及圖像處理等領域,典型的 2D CNN 算法有 AlexNet、VGG-Net、GoogLeNet、LeNet-5 等;而三維卷積神
273、經網絡(3D CNN)則廣泛應用于醫學領域及視頻處理領域。近年來,三維卷積神經網絡逐漸被應用到了生物大分子結構預測領域。例如,在蛋白質結構預測領域,一種端到端優化的可微模型通過優化全局的幾何結構并且不違反局部共價化學的幾何三元來耦合局部與全局的蛋白質結構,該模型能夠在沒有預先獲取共同進化數據的條件下預測出新的蛋白質折疊結構?;谏窠浘W絡來預測堿基對之間距離的 AlphaFold 算法,通過簡單的梯度下降算法實現了無須復雜的采樣程序即可生成蛋白質結構。AlphaFold2 仍然是一種基于三維卷積神經網絡的蛋白質建模方法,該算法利用多序列比對手段,將有關蛋白質結構的物理和生物學知識整合到深度學習算
274、法的設計與實現中。三維卷積神經網絡在蛋白質結構預測領域的應用提高了蛋白質的中國人工智能系列白皮書 88 結構預測準確度,并且能夠在無法明確同源蛋白質結構的條件下進一步研究蛋白質的功能。2024 年 5 月 8 日,Google DeepMind 發布了新一代 AlphaFold3,用于預測蛋白質、DNA、RNA、小分子等的幾乎所有生物分子結構和相互作用,AlphaFold3 相較于前版本,能夠在與其他分子共同作用時建模蛋白質。在 RNA 結構預測領域,三維卷積神經網絡也得到了應用,基于三維卷積神經網絡對 RNA 三級結構預測進行評估,即 RNA 3D CNN,該算法使用結構的三維網格表示作為輸
275、入,無須人工提取特征,而是在隱藏層內部直接進行特征處理。3D CNN 的主要優勢在于其能夠處理三維特征圖,直接提取空間和時間信息。這種能力使得它在視頻處理、醫學影像以及生物信息學等領域表現突出。在視頻處理方面,3D CNN 能夠同時分析幀之間的變化以及每一幀的細節,增強了運動分析的效果。在蛋白質結構預測領域,3D CNN 的應用也取得了革命性的進展。一種端到端優化的可微模型通過全局幾何結構的優化與局部共價化學幾何的耦合,能夠有效整合局部與全局的蛋白質結構信息。這種方法在沒有共同進化數據的情況下,實現了對新蛋白質折疊的預測。Townshend和Eismann提出了一個基于三維卷積神經網絡的結構模
276、型 ARES,該模型不需要任何有關結構模型的相關概念及與評估其準確性相關的假設,具有較強的靈活性。此外,ARES 模型不僅可以針對 RNA 結構預測,還可以應用到其他類型分子系統的結構預測。ARES 模型是一種基于 3D CNN 的結構預測模型,展示了 3D CNN 在生物分子研究中的廣泛應用潛力。隨著深度學習技術的不斷進步,3D CNN 在生物信息學領域的應用將繼續擴展,未來的研究可能集中在模型集成、數據增強、多模態學習以及增強模型的可解釋性等方向。5.3.3 基于基于 ResNet 的三維卷積神經網絡的三維卷積神經網絡 殘差網絡(ResNet)也是卷積神經網絡,在保持卷積核大小不變的中國人
277、工智能系列白皮書 89 情況下,增加網絡的寬度及深度能有效地提升網絡模型的性能,然而當網絡深度過深時,將會出現梯度爆炸或梯度彌散問題,該問題可以通過正則化初始化來解決。然而,退化問題無法通過上述方法解決,仍然會出現隨著網絡深度增加,模型訓練效果可能接近飽和甚至下降的現象。因此,神經網絡不能夠簡單地通過增加深度來進行優化,ResNet 的出現是為了解決網絡深度增加帶來的網絡退化和梯度彌散問題。ResNet 內有多個殘差學習單元,ResNet 殘差單元可以表示為 (),(llllyh xF x W=+(5.1)1()llxf y+=(5.2)()llh xx=(5.3)式中,l 表示第 l 個殘差
278、單元;xl與 xl+1分別表示其輸入和輸出;F()表示殘差函數;f()表示 ReLU 型激活函數。ReLU 函數有很多種,具體如圖 5-5 所示。圖圖 5-5 ReLU 型激活函數型激活函數 ResNet 從其淺層 l 到深層 L 的學習特征為 1(,)LLliii lxxF x W=+(5.4)ResNet 目前廣泛地應用于醫學圖像分類、超分辨率、重建、合中國人工智能系列白皮書 90 成、疾病檢測等醫學圖像分析領域,并取得了很大進展,因此,本書期望用 ResNet 來對 RNA 三級結構打分函數進行改進和優化。機器學習、深度學習與算法及計算復雜性理論助力 RNA 結構方面的研究。假設 RNA
279、 片段由 15 個堿基(核苷酸)組成,理論上其結構數為 13 萬億個,這是一個天文數字。冠狀病毒約由 3 萬個堿基組成,其遺傳物質是已知 RNA 病毒中最長的,理論上其結構數更是天文數字,并且病毒在不停地變種,可能的 RNA 三級結構數更是天文數字,不可能逐一用實驗來測定,只能用計算的方法,特別是通過設計人工智能近似算法來計算其可能的結構,會得到意想不到的結果。中國人工智能系列白皮書 91 參考文獻 1 Lyngs R B,Christian N S.Pseudoknots in RNA pseudoknotted structureC.Proceedings of Recomb,Tokyo,
280、2000.2 Dulbecco R.A turning point in cancer research:Sequencing the human genomeJ.Science,1986,231:1055-1056.3 Yang Y R,Liu Z D.A comprehensive review of predicting method of RNA tertiary structureJ.Computational Biology and Bioinformatics,2021,9(1):15-20.4 Turner D H,Sugimoto N,Freier S M.Improved
281、parameters for prediction of RNA structureJ.Biophysics Chemistry,1988,17(2):167-192.5 Mathews D H,Turner D H.Prediction of RNA secondary structure by free energy minimizationJ.Current Opinion in Structural Biology,2006,16(5):270-278.6 Walter A E,Turner D H,Kim J,et al.Coaxial stacking of helixes enh
282、ances binding of oligo onucleotides and improves predictions of RNA foldingJ.Proceedings of the National Academy of Sciences,1994,91(2):9218-9222.7 Knudsen B,Hein J.RNA secondary structure prediction using stochastic context-free grammars and evolutionary historyJ.Bioinformatics,1999,15(6):446-454.8
283、 Hochbaum D S.Approximation algorithms for NP-hard problemsJ.ACM SIGACT News,1997,28(2):40-52.9 Vazirani V.Approximation Algorithms.Berlin:Springer,2001.10 Zuker M,Mathews D H,Turner D HAlgorithms and Thermodynamics for RNA Secondary Structure Prediction:A Practical Guide in RNA Biochemistry and Bio
284、technology.Den Haag City:Kluwer 中國人工智能系列白皮書 92 Academic Publishers,1999:11-43.11 Rivas E,Eddy S R.A dynamic programming algorithm for RNA structure prediction including pseudoknots.Journal of Molecular Biology,1999,285(5):2053-2068.12 van Batenburg F H,Gultyaev A P,Pleij C W,et al.PseudoBase:A datab
285、ase mRNA pseudoknotsJ.Nucleic Acids Research,2000,28(1):201-204.13 Nixon P L,Rangan A,Kim Y G,et al.Solution structure of a luteoviral P1-P2 frameshifting mRNA pseudoknotJ.Journal of Molecular Biology,2002,322(3):621-633.14 Ieong S,Kao M Y,Lam T W,et al.Predicting RNA secondary structures with arbit
286、rary pseudoknots by maximizing the number of stacking pairsJ.Journal of Computational Biology,2003,10(6):981-995.15 Lyngs R B.Complexity of Pseudoknot Prediction in Simple ModelsM.Berlin:Springer,2004:919-931.16 Ruan J,Stormo G D,Zhang W.An iterated loop matching approach to the prediction of RNA se
287、condary structures with pseudoknotsJ.Bioinformatics,2004,20(1):58-66.17 Ren J,Rastegari B,Condon A,et al.HotKnots:Heuristic prediction of RNA secondary structures including pseudoknotsJ.RNA,2005,11(10):1494-1504.18 Huang X,Ali H.High sensitivity RNA pseudoknot predictionJ.Nucleic Acids Research,2007
288、,35(2):656-663.19 Han B,Dost B,Bafna V.Structural alignment of pseudoknotted RNAJ.Journal of Computational Biology,2008,15(7):489-504.20 徐琳,李曉民,譚光明,等.面向FPGA的RNA二級結構預測并中國人工智能系列白皮書 93 行算法研究J.計算機學報,2006,2(29):233-238.21 陳翔,卜東波,張法,等.基于局部莖搜索的RNA二級結構預測算法J.生物化學與生物物理學進展,2009,36(1):115-121.22 劉元寧,張浩,李誌,等.RNA
289、假結結構分析J.吉林大學學報(工學版),2009,(S1I):265-269.23 Li F,Gao L,Wang B B.Detection of driver modules with rarely mutated genes in cancersJ.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2020,17(2):390-401.24 Wen X,Gao L,Hu Y X.LAceModule:Identification of competing endogenous RNA modules by
290、integrating dynamic correlationJ.Frontiers in Genetics,2020,11(3):235-241.25 Yue D,Guo M Z,Chen Y D,et al.A Bayesian decision fusion approach for microRNA target predictionJ.BMC Genomics,2012,13(S8):S13.26 Gupta A,Kumar A,Pl M,et al.Approximation via cost-sharing:A simple approximation algorithm for
291、 the multicommodity rent-or-buy problemC.Proceedings of the 44th IEEE Annual Symposium on Foundations of Computer Science,Washington,2003:606-615.27 Gupta A,Kumar A,Pl M,et al.Approximation via cost sharing:Simpler and better approximation algorithms for network designJ.Journal of the ACM,2007,54(3)
292、:1-38.28 Hassin R,Monnot J,Segev D.Approximation algorithms and hardness results for labeled connectivity problemsJ.Journal of Combinatorial Optimization,2007,14(4):437-453.29 Williamson D,van Zuylen A.A simpler and better derandomization for an approximation algorithm for single-source rent-or-buyJ
293、.Operations Research Letters,2007,35(6):707-712.中國人工智能系列白皮書 94 30 Lau L C M.Singh:Additive approximation for bounded degree survivable network designC.Proceedings of the 40th ACM Symposium on Theory of Computing,New York,2008:759-768.31 Liu Z D,Li H W,Zhu D M.A predicting algorithm of RNA secondary
294、structure based on stemsJ.Kybernetes,2010,39(6):1050-1057.32 Liu Z D,Xia C L,Zhu D M.Improved algorithm for RNA secondary structure prediction including pseudoknotsJ.Advances in Systems Science and Applications,2010,10(4):710-716.33 Wong T K F,Lam T W,Sung W K,et al.Structural alignment of RNA with
295、complex pseudoknot structureJ.Lecture Notes in Computer Science,2009,5724(6):403-414.34 Wong T K F,Wan K L,Hsu B Y,et al.RNASAlign:RNA structural alignment systemJ.BMC Bioinformatics,2011,27(15):2151-2152.35 Wong T K F,Chiu Y S,Lam T W,et al.Memory efficient algorithms for structural alignment of RN
296、As with pseudoknotsJ.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2012,9(1):161-168.36 Liu Z D.Approximation algorithm of RNA folding including pseudoknotsJ.International Review on Computers and Software,2012,7(6):2942-2946.37 Liu Z D,Zhu D M.New heuristic algorithm of RNA struc
297、ture prediction including pseudoknotsJ.Journal of Computers,2013,8(2):279-283.38 Reinharz V,Ponty Y,Waldisphl J.A weighted sampling algorithm for the design of RNA sequences with targeted secondary structure and nucleotide distributionJ.Bioinformatics,2013,29(13):308-315.中國人工智能系列白皮書 95 39 Liu Z D,Zh
298、u D M,Ma H W.Predicting scheme of RNA folding structure including pseudoknotsJ.International Journal of Sensor Networks,2014,16(4):229-235.40 Andronescu M,Condon A,Hoos H H,et al.Computational approaches for RNA energy parameter estimationJ.RNA,2010,16(12):2304-2318.41 Andronescu M,Condon A,Turner D
299、 H,et al.Determination of RNA folding nearest neighbor parametersJ.Methods Molecular Biology,2014,1097:45-70.42 Babai L.Graph isomorphism in quasipolynomial timeJ.Combinatorics and Theoretical Computer Science Seminar,2015,13(2):18-26.43 Keane S C,Heng X,Lu K,et al.Structure of the HIV-1 RNA packagi
300、ng signalJ.Science,2015,348(6237):917-921.44 Kuchark M,Hofacker I L,Stadler P F,et al.Pseudoknots in RNA folding landscapesJ.Bioinformatics,2016,32(2):187-194.45 Gomez-Schiavon M,Chen L F,West A E,et al.BayFish:Bayesian inference of transcription dynamics from population snapshots of single-molecule
301、 RNA FISH in single cellsJ.Genome Biology,2017,18(2):164.46 Nuoroozi G,Mirmotalebisohi S A,Sameni M,et al.Deregulation of microRNAs in oral squamous cell carcinoma,a bioinformatics analysisJ.Gene Reports,2021,11(3):101241.47 Wu D,Ding Y,Fan J B.Bioinformatics analysis of autophagy-related lncRNAs in
302、 esophageal carcinomaJ.Combinatorial Chemistry and High Throughput Screening,2021,24(4):101241.48 Tang L.A path to predict RNA tertiary structuresJ.Nature Methods,中國人工智能系列白皮書 96 2018,15(7):650.49 Weeks K M.Piercing the fog of the RNA structure-omeJ.Science,2021,373(6558):964-965.50 Kappel K,Zhang K,
303、Su Z,et al.Accelerated cryo-EM-guided determination of three-dimensional RNA-only structuresJ.Nature Methods,2020,17(10):699-707.51 Fan X,Wang J,Zhang X,et al.Single particle cryo-EM reconstruction of 52 kDa streptavidin at 3.2 Angstrom resolutionJ.Nature Communications,2019,10(4):2386.52 Yang Y,Liu
304、 Z.A comprehensive review of predicting method of RNA tertiary structureJ.Computational Biology and Bioinformatics,2021,9(3):9-15.53 Perez A,Morrone J A,Brini E,et al.Blind protein structure prediction using accelerated free-energy simulationsJ.Science Advances,2016,2(11):e1601274.54 Magdalena R,Kri
305、stian R,Tomasz P,et al.ModeRNA:A tool for comparative modeling of RNA 3D structureJ.Nucleic Acids Research,2011,39(2):13-22.55 Zhao Y,Huang Y,Gong Z,et al.Automated and fast building of three-dimensional RNA structuresJ.Scientific Reports,2012,2(5):727-734.56 Das R,Karanicolas J,Baker D.Atomic accur
306、acy in predicting and designing noncanonical RNA structureJ.Nature Methods,2010,7(6):291-294.57 Massire C,Westhof E.MANIP:An interactive tool for modelling RNAJ.Journal of Molecular Graphics and Modelling,1998,16(2):197-205.中國人工智能系列白皮書 97 58 Das R,Baker D.Macromolecular modeling with rosettaJ.Annual
307、 Review of Biochemistry,2008,77(8):363-382.59 Schoeder C T,Schmitz S,Adolf-Bryfogle J,et al.Modeling immunity with rosetta:Methods for antibody and antigen designJ.Biochemistry,2021,60(6):825-846.60 Li J,Zhu W,Wang J,et al.RNA3DCNN:Local and global quality assessments of RNA 3D structures using 3D d
308、eep convolutional neural networksJ.PLoS Computational Biology,2018,14(2):1-18.61 Bradley P,Misura K,Baker D.Toward high-resolution de novo structure prediction for small proteinsJ.Science,2010,309(11):1868-1871.62 Sripakdeevong P,Kladwang W,Das R.An enumerative stepwise ansatz enables atomic-accurac
309、y RNA loop modelingC.Proceedings of the National Academy of Sciences of the United States of America,2011,10(9):20573-20578.63 Watkins A M,Geniesse C,Kladwang W,et al.Blind prediction of noncanonical RNA structure at atomic accuracyC.Science Advances,2018,4(5):eaar5316.64 Liu Z D,Zhu D M,Dai Q H.Pre
310、dicting model and algorithm in RNA folding structure including pseudoknotsJ.International Journal of Pattern Recognition and Artificial Intelligence,2018,32(10):1-17.65 Meng G,Tariq M,Jain S.RAG-Web:RNA structure prediction/design using RNA-As-GraphsJ.Bioinformatics,2019,13(5):647-648.66 Rivas E,Cle
311、ments J,Eddy R S.Estimating the power of sequence covariation for detecting conserved RNA structureJ.Bioinformatics,2020,11(9):3072-3076.中國人工智能系列白皮書 98 67 Menden K,Marouf M,Oller S.Deep learning-based cell composition analysis from tissue expression profilesJ.Science,2020,6(28):51-59.68 Liu Z D,Li G
312、,Liu J S.New algorithms in RNA structure prediction based on BHGJ.International Journal of Pattern Recognition and Artificial Intelligence,2020,34(13):1-14.69 Guo Z F,Wang P P,Liu Z D,et al.Discrimination of thermophilic proteins and non-thermophilic proteins using feature dimension reductionJ.Front
313、iers in Bioengineering and Biotechnology,2020,8:1-10.70 Zhang P,Liu Z D.Approximating max k-uncut via LP-rounding plus greed,with applications to densest k-subgraphJ.Theoretical Computer Science,2020,849(14):173-183.71 Townshend R,Eismann S,Watkins A M,et al.Geometric deep learning of RNA structureJ
314、.Science,2021,373(6531):1047-1051.72 Park J U,Tsai A W L,Mehrotra1 E,et al.Structural basis for target site selection in RNA-guided DNA transposition systemsJ.Science,2021,373(2):768-774.73 Niu M T,Wu J,Zou Q,et al.Predicting RNA-binding proteins using deep learningJ.IEEE Journal of Biomedical and H
315、ealth Informatics,2021,25(9):3668-3676.74 Rasmussen M,Reddy M,Nolan R,et al.RNA profiles reveal signatures of future health and disease in pregnancyJ.Nature,2022,601(15):422-427.75 Garcia-Beltran W F,Denis K J S,Hoelzemer A,et al.mRNA-based COVID-19 vaccine boosters induce neutralizing immunity agai
316、nst SARS-CoV-2 Omicron variantJ.Cell,2022,185:457-466.中國人工智能系列白皮書 99 76 Liu Z D,Yang Y R,Li D Y,et al.Prediction of RNA tertiary structure based on random sampling strategy and parallel mechanismJ.Frontiers in Genetics,Section Computational Genomics,2022,12(8):1-10.77 Liu Z D,Lv X R,Chen X,et al.Pre
317、dicting algorithm of tissue cell ratio based on deep learning using single-cell RNA sequencingJ.Applied Sciences,2022,12(5790):1-14.78 Liu Z D,Chen X,Li D Y,et al.Predicting algorithm of attC site based on combination optimization strategyJ.Connection Science,2022,34(1):1895-1912.79 Ito T M,Ogawa S,
318、Ashida K,et al.Accurate magnetic field imaging using nanodiamond quantum sensors enhanced by machine learningJ.Scientific Reports,2022,12:13942.80 Nguyen L,van Hoeck A,Cuppen E.Machine learning-based tissue of origin classification for cancer of unknown primary diagnostics using genome-wide mutation
319、 featuresJ.Nature Communications,2022,13:4013.81 Kong J H,Ha D,Lee J,et al.Network-based machine learning approach to predict immunotherapy response in cancer patientsJ.Nature Communications,2022,13:3703.82 Szczerba M,Johnson B,Acciai F,et al.Canonical cellular stress granules are required for arsen
320、ite-induced necroptosis mediated by Z-DNA-binding proteinJ.Science,2023,16(12):776.83 Artem Nemudryi,Anna Nemudraia,Joseph E.Nichols,et al,CRISPR-based engineering of RNA viruses,Science Advances,2023,eadj8277(2023):1-9.84 McCauley O.Meyer,Ryota Yamagami,Saehyun Choi,Christine D.中國人工智能系列白皮書 100 Keat
321、ing,Philip C.Bevilacqua,RNA folding studies inside peptide-rich droplets reveal roles of modified nucleosides at the origin of life,Science Advances,2023,eadh5152(2023):1-15.85 劉振棟、肖傳樂、鄒權、張博峰.生物信息學中RNA結構預測算法與復雜性,北京:科學出版社,2024年2月.86 Tebbe de Vries,Mihajlo Novakovic,Yinan Ni,Izabela Smok,Specific prot
322、ein-RNA interactions are mostly preserved in biomolecular condensates,Science Advances,2024,eadm7435(2024):1-12.87 Elizabeth Pennisi,Surprise RNA paints colorful patterns on butterfly wings,Science,2024,383(6687):1039-1040.88 Wu,X.,Liu,M.,Zhang,X.et al.Elucidating Microglial Heterogeneity and Functi
323、ons in Alzheimers Disease Using Single-cell Analysis and Convolutional Neural Network Disease Model Construction.Scientific Reports 14,17271(2024).中國人工智能系列白皮書 101 第 6 章 人工智能識別組學生物標志物 6.1 背景 生物標志物在醫學和生物學領域具有重要作用,它們是客觀測量和評估的生物特征,能夠指示生理或病理過程以及藥物對體內生物過程的反應。生物標志物在疾病的早期診斷、預測和預防、個性化治療、臨床試驗以及疾病進展和預后評估中發揮著關鍵
324、作用,已經成為現代生物學和醫學中不可或缺的一部分。例如,癌癥中的腫瘤標志物(如PSA 用于前列腺癌,CA-125 用于卵巢癌)有助于早期發現和監測;心血管疾病中的心肌損傷標志物(如肌鈣蛋白)用于診斷心肌梗死;糖尿病患者的 HbA1c 水平用于長期血糖控制評估。通過檢測這些生物標志物,可以制定個性化治療方案,提高療效,減少副作用,同時在新藥開發過程中,生物標志物用于評估藥物的療效和安全性。未來,隨著技術進步和對生物系統理解的深入,生物標志物的應用將更加廣泛和精準,尤其是多重標志物組合、液體活檢以及人工智能和大數據分析的結合,將顯著提升醫學診斷和治療的效果。人工智能在識別生物標志物的應用日益增多,
325、尤其在處理和分析高通量組學數據時表現出極大的潛力。組學數據(包括轉錄組、蛋白質組等)通常包含數千到數萬個變量,其中只有少數特征與生理或病理狀態密切相關,因此識別生物標志物的過程旨在從高維的組學數據中提取出具有較強預測能力的標志物,其本質為機器學習中的特征選擇問題。早期選擇生物標志物的方法僅依靠單一組學并結合一些先驗信息,如基因之間的調控關系。而隨著測序技術的日益成熟,結合多種不同組學選擇生物標志物的方法應運而生。6.2 常見的單組學方法 高通量組學數據描述了生物體內各個分子層面上的信息,反應了中國人工智能系列白皮書 102 生物體在正?;蚣膊顟B下的復雜生物學過程。而高通量組學數據中通常僅有少
326、數特征與特定的生理或病理狀態密切相關。特征選擇的目的就在于從這些高維數據中篩選出盡可能少的特征,同時盡可能提高模型性能。通常,特征選擇方法主要可分為過濾式、嵌入式和包裹式三種類型。6.2.1 過濾式過濾式 過濾式方法通常被用作特征選擇過程中的數據預處理步驟,以減少數據集中的特征數量。雖然過濾式方法可以單獨用于特征選擇,但它們不足以完全捕捉特征與目標之間的復雜關系,特別是在涉及非線性復雜模式或交互作用的任務中。工具包 Caret(Classification And REgression Training)1提供了一個全面的機器學習框架,支持多種模型的訓練、參數調優和特征選擇。Boruta2是一
327、個基于隨機森林的特征選擇方法,通過創建“陰影特征”(即隨機打亂的真實特征)來測試每個特征與響應變量之間的相關性是否顯著高于隨機噪聲。由于這種特征選擇方式沒有與分類器結合,所以選擇出的特征通常不能達到最優的分類性能。6.2.2 包裹式包裹式 包裹式特征選擇方法是對不同的特征子集進行評估以獲得最優集合。這種選擇方式將分類器的性能作為最終的評價標準,其目的就是為給定的分類器“量身定做”特征子集。最常見的包裹式方法包括遞歸特征消除(Recursive Feature Elimination,RFE)等。例如,Guyon等人3提出了一種支持向量機遞歸特征消除(SVM-RFE)方法,該方法使用 SVM 分
328、類器來評估特征的重要性,并通過遞歸的方式逐步刪除重要性最低的特征。Li 和 Liu4已通過該方法從自發性早產基因表達數據有效識別出 54 個生物標志物。Kursa 等人5提出了基于隨機森林的遞歸特征消除方法(RF-RFE),該方法利用 RF 分類器度量變量的重要性來進行特征選擇。Fortino 等人6提出的一種新型的多島自適中國人工智能系列白皮書 103 應遺傳算法 GARBO。它通過調整遺傳操作符的概率和特征的初始排名,有效地優化了特征選擇過程。6.2.3 嵌入式嵌入式 嵌入式特征選擇是將特征選擇和分類器的訓練過程融為一體,即在訓練分類器的同時自動地選擇特征子集,這與過濾式和包裹式的特征選擇
329、方法有明顯區別。例如,Feng 等人7采用最小絕對收縮和選擇算子(LASSO)回歸分析方法,篩選出 14 個差異表達免疫相關基因用于晚期冠狀動脈疾?。–AD)的診斷,進而構建了一個基于這些生物標志物的晚期 CAD 的診斷模型。Huang 等人8通過整合1/2L正則化的稀疏性和2L正則化的群組效應,提出了一種混合1/2 2L+正則化(Hybrid 1/2 2L+Regularization,HLR)方法,并采用坐標下降算法優化帶有 HLR 懲罰的邏輯回歸模型。這一方法有效應對了基因數量遠超樣本量的挑戰,并克服了傳統邏輯回歸在高維小樣本數據分析中的過擬合問題,并能夠自主選擇有利特征。Daz-Uri
330、arte 等人9采用隨機森林算法進行基因選擇和分類,并開發了 R 包 varSelRF,該方法旨在從微陣列數據中提取最盡可能小的基因子集,以實現對樣本的精確分類預測。6.3 從網絡中發展生物標志物 雖然這些特征選擇方法在特定環境下能夠找到部分生物標志物,然而它們并沒有考慮到生物系統的復雜性以及基因之間的關聯性,這導致了所有的基因都是以孤立節點存在于子集中,忽略了基因間的相互作用和協同效應。實際上,復雜疾病往往不僅由單個分子的異常引起,而是在多個信號通路和分子網絡的交互作用共同影響下的結果。為了深入探索疾病的分子機制并提升診斷準確率,研究者們開始探求考慮分子間相互作用的方法,即通過分析分子組或更
331、大的分子集合的相互作用,揭示復雜的分子相互作用和信號傳導路徑,從而識別出能中國人工智能系列白皮書 104 夠反映分子間相互作用的模塊生物標志物或網絡生物標志物。目前已有一些基于網絡的特征選擇方法。例如 Horvath 等人10提出了加權基因共表達網絡分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,通過分析基因表達模式的相似性來識別共表達的基因模塊,并將這些模塊與外部表型關聯,從而識別與疾病密切相關的基因集。然而,該方法并未考慮針對特定研究問題的先驗特征,且其構建的網絡主要是基于數據驅動,側重于揭示基因之間的共表達關系,而不涉及基
332、因間的因果關系或調控機制。另一方面,基因調控網絡(Gene Regulatory Network,GRN)可以很好地緩解這一問題。GRN 將基因、轉錄因子等生物分子作為節點,通過分子間的調控關系作為連接節點的邊,以網絡圖的形式直觀地反應生物分子間相互作用關系。在 GRN 中,每個節點都充當信息處理的單元,接受來自其他基因的信號調控,并據此調整其自身的表達水平。連線則代表互動的性質與強度,既可以是正向的促進作用,也可以是負向的抑制作用?;诟咄繙y序技術收集的大量生物數據,結合已知GRN 與特征選擇方法,能夠顯著提升預測模型的準確性及生物標志物的可解釋性。為此,Li 等人11將基因網絡的連接結構
333、作為約束條件納入支持向量機模型中,提出了嵌入式連通網絡約束支持向量機方法(CNet-SVM),用于在保持基因間固有圖形結構的同時,從高通量組學數據中識別和分類癌癥生物標志物。Zhang 等人12提出一種可解釋基于網絡的博弈論方法,將基因到模型選擇的過程視為一個合作博弈,每個特征的組合貢獻通過合作博弈理論度量,即 Shapley 值來評估,并通過赤池信息準則(AIC)在模型選擇中進行了統計驗證,有效區分了肝細胞癌和健康樣本。Wang 等人13提出了一種基于不同狀態下重構基因調控網絡識別生物標志物的生物信息學新方法。Shang等人14采用由特定網絡中的表型狀態指導的迭代監督模塊檢測方法,并通過網絡拓撲中心性在局部和全局進行基于塊的模塊排名,以檢測中國人工智能系列白皮書 105 可靠的生物標志物模塊。6.4 單組學研究的局限性 盡管單組學研究在其特定領域內提供了寶貴的見解,但它們各自都存在局限性