《阿里云:2022阿里云生命科學與智能計算峰會演講合集(68頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:2022阿里云生命科學與智能計算峰會演講合集(68頁).pdf(68頁珍藏版)》請在三個皮匠報告上搜索。
1、封面頁(待分享)卷首語 近年來,隨著云計算技術的普及與深度應用,生命科學行業在基因科技、AI 輔助藥物研發等方向取得了新的突破。特別是高性能計算(High Performance Computing)在輔助藥物設計、研發、基因測序、產前篩查等具有明顯的高數據量、大計算量的場景應用中扮演了十分重要的角色。2022 阿里云生命科學與智能計算峰會邀請了多位來自學術界、產業界的專家學者、創新企業高管等發表主題演講、開展圓桌討論,旨在探討生命科學領域高性能計算技術的應用場景與發展方向,促進生命科學與云計算技術的深度融合與創新。此外,此次峰會還發布了天池大賽全球冷凍電鏡蛋白質結構建模大賽的決賽結果。大賽由
2、阿里云與國家蛋白質科學中心(上海)在 2021 年共同發起,探索基于冷凍電鏡在 AI 技術加持下獲取蛋白質結構模型的潛力,吸引了全球近 2000 支隊伍參賽,得到了廣泛的關注。目錄 阿里云大計算加速 HPC 與 AI 融合.5 多元科學計算系統在藥物研發管線中的搭建與實踐.20 AI+分子模擬,賦能藥物發現新源頭.34 AI 制藥工業落地的痛點與前進方向.39 高通量基因測序在藥物研發和靶向治療中的應用.56 阿里云大計算加速 HPC 與 AI 融合 5 阿里云大計算加速 HPC 與 AI 融合 作者:何萬青,阿里云高性能計算負責人 摘要:2022 年 8 月 5 日,2022 阿里云生命科學
3、與智能計算峰會在北京望京昆泰酒店舉行,阿里云高性能計算負責人何萬青博士,帶來了題為阿里云大計算加速HPC 與 AI 融合的分享,以下是他的演講內容整理,供閱覽。阿里云高性能計算負責人何萬青 人類歷史上各種廣譜藥的發現,是一個漫長且靠運氣的過程。新藥的發現和制造往往需要十多年的時間,每年 FDA 能夠批準上市的新藥少之又少。阿里云大計算加速 HPC 與 AI 融合 6 而新冠的爆發帶來了一個重要契機,我們通過整合云上計算資源,第一時間幫到科研機構開展新冠研究,從而發現了云計算具備的獨特優勢。據報道,世界上前 20 大藥廠 70%的算力和研發都在往云上遷移。在新冠疫情爆發初期,阿里云第一時間免費開
4、放 AI 算力支持抗疫研發,支持科研人員圍繞新冠病毒進行藥物研究;其次,通過大數據進行公共醫療政策的研究,助力大數據系統、追蹤系統以及決策系統;另外,向全世界開放阿里的科研抗疫平臺,對接了來自 50 個國家&地的 33 個需求。阿里云大計算加速 HPC 與 AI 融合 7 而這個契機也讓我們意識到,AI 是一種即將爆發的新的 IT 技術、新的計算平臺。過去,高性能計算支持生命科學的發展,主要著力于科研和科研團隊的培養,但并不明確會導向何種藥物、何種結果。而現如今,此類需求非常明顯,我們面對大量的數據庫和化合物,需要對疾病和樣本做分析、基因測序。過去的應用分為兩大類:第一類是基于第一性原理的分子
5、動力學、量子色動力學等,比如分析細胞組成的分子之間的作用力、化合物之間的作用;第二類是面向精準治療時的基因測序,同樣需要非常大的算力,科學家需要解決的是機理和算法問題,但大規模的實現需要工程人員來解決,比如高通量測序。最近幾年發展最快的是 AI 算法,通過 AI 對大量數據進行篩查。而此過程需要解決的問題有:如何將 AI 算法和技術放在云超算平臺上?大量的數據如何在云上進行傳輸?總結來說,高性能計算在云上進行服務,需要解決以下線下超算的痛點:阿里云大計算加速 HPC 與 AI 融合 8 彈性擴展難:實際業務中,往往難以預測突發情況的需求,因此,彈性伸縮十分必要;可靠性不高:計算中心或物理集群規
6、模擴大之后,無法保證百分百的穩定性,因此必然會出現重新計算的需求,針對此需求,云計算穩定的 SLA 之外,還實現了斷點續算技術;性能瓶頸:云上計算突破了海量數據進行機器學習或篩查的 GPU 瓶頸,過去花費數周數月才能夠完成的計算,如今可縮短為幾天;成本挑戰:過去,成本和算力難以兼得,自建超算中心往往 CAPEX 不低,且后續運維成本 OPEX 更大,難以實現。阿里云大計算加速 HPC 與 AI 融合 9 借助云平臺,科學家和科研人員能夠專心于自己專業內的工作,聚焦于應用。而應用這一層,科研人員將它作為軟件放至云上,讓更多的科研人員實現科研合作和服務共享。阿里云最基本的能力是提供彈性的伸縮算力,
7、在此之上,高性能計算最核心的部分是與伸縮算力耦合的并行作業調度,還需要支持 AI Framework。用戶如果有自己的計算資源,可以通過混合調度在云上利用原有的計算資源。大部分科研人員對本地環境最熟悉,需要將它們的能力遷移至云上。此外,生命科學領域非常依賴于全世界的 NH 數據庫,且需要高速互聯,也可以通過阿里云的高速來實現。HPC 應用是 Data go to compute,但 AI 是分布式、數量極大的 compute go to data計算模式,有自己的生態,如何對兩者進行結合?中國的軟件公司依然不夠發達,新產品、新發現難以在短時間內為人所知,受限于盜版問題和推廣問題。但在云上可以實
8、現 SaaS 化,通過 OpenAPI 將產品變為云上的服務。高性能計算里有兩個很大的領域需要無限的算力,分別是地球物理氣象和生命科學。這就需要基于神龍的彈性裸金屬超級計算集群 SCC 來提供了低延遲網絡和并行文件系統的高性能集群。阿里云大計算加速 HPC 與 AI 融合 10 通過高性能計算推動實現了阿里云 CPFS 并行文件系統,提供了云上大數據類型的HDFS 分布式存儲,能夠實現了大批量并行吞吐的需求。通過阿里提供的“無影”,可以訪問任何端和云上的計算資源,包括但不限于 PC、手機、屏幕等,可以將公共云的操作、應用入口以及背后的集群資源管理整合在一處。一方面可以作為虛擬的桌面,另一方面也
9、可以作為應用入口。阿里云大計算加速 HPC 與 AI 融合 11 我們打通了云上云下,云下可以通過專線連至云上,頭節點在線下,然后在云上安裝 E-HPC agent 即可通過 job scheduler 調度資源。大部分情況下,任務數據需要進行兩邊的傳輸,因此可以充分利用線上線下的高峰低谷。此外,NAS 異步存儲的數據可以在作業執行時從線下拉取,這在高通量計算場景下非常必要。另外,也可以將計算的管理埋在頭節點,即使用 E-HPC 作為管控,自己的管控通過在云下接收 agent 進行計算來實現。阿里云大計算加速 HPC 與 AI 融合 12 E-HPC+AI 是當前的熱門趨勢。各種 AI fra
10、mework 最初的目的不是為了解決科學機理性的問題,而是為了解決搜索、推廣、廣告等與群體思維有關但缺乏機理模型的問題。而如今,我們將高性能計算容器做成鏡像,在部署和計算過程中快速展開,使其也能用于科學研究,比如在擁有大量數據的情況下,將人的經驗作為模型注入AI,然后通過機器將問題空間降低。此外,為了方便科研人員的使用,我們增加了 E-HPC 用戶入口,整個開發和業務流程都可以從用戶視角進行查看。阿里云大計算加速 HPC 與 AI 融合 13 平臺集成了眾多可視化軟件,科研人員可以通過客戶端(無影+Win&Mac)直接進入,底層提供了所有服務。無影是軟件定義的云原生電腦,相當于一個入口,它可以
11、是任何設備或屏幕。云上數據中心的規模遠小于端的規模,而端側受限于 CPU 的能力往往無法實現太多能力。但是如果通過 VID 或自己的協議,能夠將云上的可視化部分利用起來,則可以實現非常多的訪問。阿里云大計算加速 HPC 與 AI 融合 14 過去傳統的計算結構的交互為顯示器、鍵盤鼠標、打印機等與一臺計算存儲網絡。而未來,只需要通過無影,它可能是一個盒子,可能是一個電腦上的應用入口,即可訪問所有云上的可視化軟件以及計算資源。無影很可能成為將來元宇宙的入口,因為所有 GPU、DPU、XPU 將來都是通過服務的模式進入數字世界。此外,用戶完全可以控制信息不被泄露。過去,我們通過一臺全功能的機器上網,
12、病毒可以通過機器入侵電腦。而無影可以配置為是單向的,避免了病毒入侵。阿里云大計算加速 HPC 與 AI 融合 15 無影可以作為云產品放在任何機器上,比如過時的手機,隨時隨地用云電腦辦公。如今很多科研產品是軟件,需要更多地服務廣大科研工作者。而在自己的機器安裝和使用,運維和 OPEX 都非常高,也難以調用更多資源。因此,我們推出了計算巢,可以通過它快速將云計算本身的運維、資源調度、資源計費等所有資源管理透明地開放給用戶,用戶只需考慮安裝類工作,剩下的都可以交由計算巢來完成。阿里云大計算加速 HPC 與 AI 融合 16 阿里云今天發布生命科學行業云上解決方案與最佳實踐白皮書,主要包含三部分:云
13、能解決生命科學領域的哪些問題、五大解決方案以及三大最佳實踐。高性能計算本質上希望能夠幫助科研人員將精力集中于專業領域,而無需耗費精力在處理器結構等非專業領域的問題上。E-HPC 與 MemVerge 的集成解決方案主要助力于 HPC 基因測序及芯片設計大內存算例的性能優化,可以將常規內存與持久性內存全部虛擬化成一個大池,根據具體需求進行伸縮。阿里云大計算加速 HPC 與 AI 融合 17 GHDDI 在新冠期間研發作業量大增,面臨資源緊急需求,需要快速啟用一批計算資源支撐新冠病毒分析、病理分析等業務,同時 GHDDI 是一家全球化的研究機構,需要打通國內海外數據,完成全球合作研究。比如會有 w
14、eb service,需要通過 OSS將數據拉上來,另外需要能夠實現異步的數據拉取以及異步緩存。我們為其提供的解決方案如下:利用 AutoDock Vina/NAMD/AI 技術通過 docking 和分子動力學模擬進行藥物篩選,并將計算成果直接通過阿里云對外公布和共享;E-HPC:創建 HPC 應用運行環境;NAS:提供數據存儲;ECS/EGS:提供計算能力&wiki 服務;8 臺 8 卡 A100 算力支撐;OSS+EIP:計算成果存儲和對外共享。藥物研究企業的需求往往是低成本、彈性伸縮,能夠很清楚地跟蹤每一個 workload。我們針對某藥企的需求,開發了搶占式實例,搶占到實例后存在限定
15、的時間,超時后不做任何清理則對資源進行釋放,極大降低了成本。阿里云大計算加速 HPC 與 AI 融合 18 逆轉錄的研究需要將數據庫與海外的數據庫通過阿里的高速網絡打通,實現異步復制和高通量的計算。通過多 CPU 并行利用 AlphaFold2 可以預測單鏈結構模板。我們希望能夠在云上開放 AlphaFold2 服務,為院校的日常課程、培訓提供更大的支持。阿里云大計算加速 HPC 與 AI 融合 19 科研類單位、制藥企業的業務存在極大的隨機性,因此對于資源的利用率需要更精細化的管理。阿里云高性能計算的目標是為科研行業提供更高的算力和更高的資源利用率,服務更多科研人員,讓科學家們將更多的精力投
16、入于專業領域當中,為科研行業助力!多元科學計算系統在藥物研發管線中的搭建與實踐 20 多元科學計算系統在藥物研發管線中的搭建與實踐 作者:郭晉疆,全球健康藥物研發中心數據科學部負責人 摘要:2022 年 8 月 5 日,2022 阿里云生命科學與智能計算峰會在北京望京昆泰酒店舉行,全球健康藥物研發中心數據科學部負責人郭晉疆博士,帶來了題為多元科學計算系統在藥物研發管線中的搭建與實踐的分享,以下是他的演講內容整理,供閱覽。全球健康藥物研發中心數據科學部負責人郭晉疆 一、科學計算驅動藥物研發的趨勢 下圖摘自 2022 年初的 Nature Reviews,可以看到以科學計算或人工智能驅動的藥物研發
17、項目由 2010 年的 6 個增至 2021 年的 158 個,11 年增長超 28 倍。而傳統藥物研發項目從 705 個降至 333 個,雖然它依然是主要的藥物研發模式,但已呈現下降趨勢。多元科學計算系統在藥物研發管線中的搭建與實踐 21 傳統藥物研發管線需要涉及大量濕實驗環節,且多數基于科學家的個人經驗和實驗結果來進行優化,優化路徑長,研發成本高昂,周期也長。與之形成對比的是以計算驅動的藥物研發管線,它是一種干濕結合的形式,減少了濕實驗環節。并且很多數據驅動的方法學習了歷史或全球范圍內的實驗數據,在優化化合物時更傾向于全局的優化,優化過程更快,成本更低,迭代速度也更快。多元科學計算系統在藥
18、物研發管線中的搭建與實踐 22 上圖為全球 24 家以科學計算/AI 驅動的生物制藥公司在研藥物情況,其中有 15 款計算驅動的藥物已經進入臨床實驗階段。相信在不久的將來,會有更多計算驅動的藥物成功上市,惠及更多病患。二、藥物研發管線不同階段的特質與問題 全球健康藥物研發中心作為創新型的小分子藥物研發機構,也在使用多種計算方法解決藥物研發早期階段不同的問題。藥物研發早期階段的一般流程如下:Stage1:疾病生物學,即疾病的確立;疾病可以粗略地分為外源性疾病和內源性疾病,其中外源性疾病指外來生物體或非生物體侵入人體造成的一些組織性病變,比如有害微生物、病菌、病毒、瘧原蟲或粉塵等非生物體;內源性疾
19、病指人體基因變異或機能失調造成的組織性病變,比如各類腫瘤、心腦血管疾病、慢性病和罕見病。多元科學計算系統在藥物研發管線中的搭建與實踐 23 全球健康藥物研發中心聚焦于全球健康的公共領域,我們不僅關注外源性的傳染性疾病比如結核病、冠狀病毒、瘧疾和寄生蟲感染,也關注內源性疾病,比如一些腸道類疾病 EED 等。Stage2:靶標確立與驗證,即與疾病強相關的蛋白或生物標記物;此階段會面臨紛繁多樣的異質化數據,研究人員需要分析疾病機制、疾病在生物網絡通路中的表現,也會包含一些基因變異以及表達等多組學信息。Stage3:苗頭化合物確立,篩選或設計能夠與蛋白產生相互作用的分子,即苗頭化合物;目標是一方面在分
20、子化合庫中篩選可能產生活性的小分子,另一方面也需要設計創新型的活性分子。該階段存在并可以獲得大量實體或虛擬的化合物庫數據,數量可達億級,例如 Chemdiv,Zinc 等。但是針對靶標蛋白的活性化合物分子比較稀少,尤其是一些罕見性疾病或人類不是特別關注的疾病。Stage4:苗頭先導化合物優化;Stage5:臨床前候選藥物。多元科學計算系統在藥物研發管線中的搭建與實踐 24 此兩階段需要考量的不僅僅是化合物與靶標蛋白的相互作用,也要綜合藥代動力學、合成工藝、可成藥性,如分布代謝、毒理等,在平衡各項性質之后,優化設計出一種真正有效且安全的藥物。這是一個綜合優化的過程,涉及到大量 ADMET 數據的
21、收集以及訓練建模。與此同時,也會有少量研發管線項目的實驗數據。三、多元科學計算系統的構建 疾病的選擇到靶標確立階段,數據紛繁多樣且異質化。針對內源性疾病,通常會進行多組學的分析。通過分析正常人和病患的代謝組學、基因組學或蛋白組學等多組學信息,找到與疾病強相關的 Hub 基因/蛋白或關鍵基因/蛋白,作為靶標的候選。得到蛋白序列之后,使用結構預測模型預測其 3D 結構。結構預測模型中,Alphafold 是近年的創新型深度學習方法,還有此前的傳統機器學習、物理建模等方法也可以得到候選靶標結構。針對外源性疾?。嚎梢酝ㄟ^分析人體免疫機制,比如融合機制來研究人體的多組學信息,找到人的關鍵性靶標;也可以直
22、接分析菌落的多組學情況,確定關鍵通路中的蛋白作為靶標的候選;多元科學計算系統在藥物研發管線中的搭建與實踐 25 對于一些相對比較簡單的病原體,例如病毒,可以直接獲取它在侵入人體融合或轉錄過程中的蛋白序列,進行所有相關蛋白結構預測并提供給生物學家或化學家分析,用于確定靶標。結構生物學將需要確定的蛋白的真實結構進行解析、并對預測的 3D 結構驗證與校準,以便后續階段的分析與預測。確定靶點蛋白后,接下來需要在靶點上找到可能的與分子結合的口袋,結合口袋指分子化合物可以與之產生相互作用的結合位點。通過計算來判斷化合物能否與靶標產生相互作用,即是否有潛在活性,主要有兩大類計算方法:使用分子力學或量子力學等
23、物理學模擬的方法;使用機器學習或深度學習的方法。利用這兩類方法在已知/虛擬生成化合物庫中虛擬篩選出與靶標相互作用可能性較高的化合物,作為候選苗頭化合物。多元科學計算系統在藥物研發管線中的搭建與實踐 26 除了使用虛擬篩選化合物庫的方式,越來越多的研究人員試圖采用端到端的方式從口袋理化性質直接設計苗頭化合物,這樣可以跳過物理模擬或機器學習虛擬篩選化合物庫的部分,用 AI 直接生成有潛在活性的苗頭化合物,相信這也會成為未來的重點研究方向之一。獲取到候選苗頭化合物之后,將由生物、化學方面的專家進行濕實驗驗證或者結構生物學進行化合物靶點共晶結構的解析驗證,確認其是否符合預測的結果,并用于下階段的化合物
24、優化。對物理模擬與機器學習方法進行比較,物理模擬是目前很多藥企較常使用的一類方方法,其優勢在于 MD 對接姿態估計較為精確,FEP+親和力預測較準確。且采用 3D建模,可以直觀地看到小分子和口袋的結合情況,可解釋性也較強;而劣勢在于需要的算力非常高,有彈性超算的需求。此外,它基于物理假設,能夠適用的范圍較窄,無法應對一些復雜的機制,比如多靶點或蛋白變構現象的預測,或更高層級的比如化合物在細胞、類器官或人體組織層級的性質預測等。機器學習方法主要通過已知數據訓練優化給定數學模型的參數,因而經過數據訓練產生的模型大小是固定的,可用模型快速篩選超大型的化合物庫。其次,它基于經 多元科學計算系統在藥物研
25、發管線中的搭建與實踐 27 驗數據或實驗數據,不依賴于物理假設,能夠應對復雜機制或更高層級的性質進行數學建模和預測;其劣勢在于它很大程度上依賴于數據的質量以及數據空間的分布情況。數據儲量大質量高,則機器學習或深度學習的表現好,反之則可能表現較差。此外,其泛化能力也非常受限于它能夠看到的數據空間,而且機器學習是一種黑箱方法,科學家很難明確其判斷依據。以虛擬篩選 100 萬個小分子化合物為例,使用物理模擬方法 docking 大概需要148,600 秒,而在 v100 的 GPU 上使用深度學習方法只需 107 秒,速度相差 1000多倍。另外,通過精度更高的分子動力學方法在機器上模擬一個化合物與
26、靶標蛋白位點的結合,在 6 萬-9 萬原子體系中模擬 200 納秒時長,在 v100 的 GPU 上大概需要86,400 秒,由此可見基于物理模擬的方法要求很高的算力。在早期苗頭化合物的發現和確立過程中,研究人員通常能夠獲得針對靶點的實驗數據非常少。如果直接用這些數據來做深度學習算法的建模,機器只能看到非常有限的化學空間,訓練出的模型的泛化能力與預測魯棒性較差,因此我們采用了主動學習的方式,使用專家經驗或一些物理函數校準 AI 模型,不停地增廣訓練集,迭代幾輪之后模型即可投入使用。多元科學計算系統在藥物研發管線中的搭建與實踐 28 此外,由于很多 AI 模型本身是黑箱模型,生物學家或化學家可能
27、無法完全信任它給出的結果。為此我們自研了基于 self-attention 機制的深度學習算法 Ligandformer,模型能夠在給出化合物的性質或活性預測分值的同時,也會給出分子片段對活性/性質的貢獻解釋,供科研人員參考和借鑒。從苗頭化合物到先導化合物,再到臨床前的候選藥物過程中,需要將苗頭化合物進行一系列優化改造。優化過程中,計算層面一般流程是采用大數據對不同性質的模型進行預訓練,得到 pretrained model,并通過實際研發管線中的實驗數據對pretrained model 進行微調,然后用微調后的模型大批量篩選各種改造的先導化合物結構。最終在平衡多種性質之后,得到候選藥物列表
28、,提供給生物學家或化學家參考選擇并進行下一步的濕實驗驗證。多元科學計算系統在藥物研發管線中的搭建與實踐 29 上圖可見,計算過程貫穿整個藥物研發的早期階段。四、多元科學計算系統 E-HPC 平臺實踐 2020 年新冠肺炎爆發初期,阿里云團隊與我們合作搭建了抗擊新冠肺炎的公共信息平臺,搜羅來自全球信息源的關于病毒研究。與此同時,我們也搭建了預測性的服務平臺,這是在超算平臺上搭建的對外服務,免費開放給科學家們使用。目前已對服務進行升級和優化,在 20 余個內外部合作項目中廣泛使用。多元科學計算系統在藥物研發管線中的搭建與實踐 30 此外,我們收集整理了大量來自全世界商業和非商業數據庫的數據,建立了
29、可視化結構性質數據分析工具,幫助科學家更好地進行研究。在此前的一次苗頭化合物發現的項目中,當時我們需要將 PubChem40 萬化合物庫的化學空間較好地進行表征與篩選。我們使用主動學習策略訓練深度學習模型并篩選化合物庫,在主動學習進行 5 輪迭代后,錯誤率由最初的 7.98%下降到了不足萬分之一。與此同時,依靠專家經驗不停地增廣訓練數據樣本,訓練數據樣本僅增加了 1500 余個??偣?2800 多個的訓練數據量并不是很大,但它使得機器學習模型表現出比較強的辨別能力,可以辨別 40 萬化合物庫中化學空間的情況。同時,我們對項目中 37 個實驗數據進行回溯性驗證。從最初的模型到第五個模型,準確率由
30、 75%提升至 86%。多元科學計算系統在藥物研發管線中的搭建與實踐 31 我們與北京協和醫院進行了罕見病相關研究工作,使用了內部自研的生物信息網絡相互作用關系算法來重新校準蛋白蛋白相互作用網絡。通過校準后的網絡再綜合生物信息統計學方法找到了 ATTR 罕見病的新藥物,與此同時也重新定位到了一款淋巴性白血病的藥物。這項工作已被某醫學期刊收錄??偟膩碚f,基于分子力學的方法主要應用于已知靶點或需要確定靶點的任務上,比如早期的靶點確立、苗頭化合物確立與苗頭先導化合物優化階段;基于機器學習/深度學習的方法可以應用于苗頭化合物確立、苗頭先導化合物優化階段以及臨床前候選藥物優化階段,除此之外還可應用于未知
31、靶點的場景,比如只有一些表型數 多元科學計算系統在藥物研發管線中的搭建與實踐 32 據需要通過數據驅動建模,比如藥物研發后期對細胞、組織類器官或人體層級性質的預測、可成藥性分析等。五、挑戰與機遇 未來,我們將在以下幾個方面進行深入研究:第一,復雜治病機制和靶點研究 比如細菌的耐藥性研究、蛋白變構現象的預測等;第二,靶點活性位點的突變預測 比如冠狀病毒會持續變異,藥物在變異的位點的有效性,可以通過計算分析判斷;第三,創新藥物的分子設計 越來越多的研究人員聚焦在基于蛋白靶點口袋的活性分子進行生成和設計,同樣也可以基于表型數據端到端地生成和設計分子化合物。多元科學計算系統在藥物研發管線中的搭建與實踐
32、 33 那么,如何解決或突破問題?首先,數據必不可少。除了分子化合物的理化性質的數據以外,可以將更多的橫向數據比如生物信息網絡或通路中的網絡信息數據融合進來,也可以將更低層級的數據比如電子云密度數據融合進來。而龐雜、多元化、異質化的數據需要強有力的算法能夠融合不同層級、不同尺度的數據,并且能夠在數據上提取出模式特征做最終任務的預測。而這一切必然離不開超算平臺,因此我們對于超算平臺的需求也逐漸增大,我們需要有更大規模的數據承載以及處理能力,需要有更快的速度與進度。相信結合數據、算法和超算平臺的通力合作,再加上跨專業、跨行業領域人才的共同努力下,藥物研究行業即將取得更大的突破。AI+分子模擬,賦能
33、藥物發現新源頭 34 AI+分子模擬,賦能藥物發現新源頭 作者:張林峰,深勢科技創始人&首席科學家、北京科學智能研究院研究員 摘要:2022 年 8 月 5 日,2022 阿里云生命科學與智能計算峰會在北京望京昆泰酒店舉行,深勢科技創始人&首席科學家、北京科學智能研究院研究員張林峰,帶來了題為AI+分子模擬,賦能藥物發現新源頭的分享,以下是他的演講內容整理,供閱覽。深勢科技創始人&首席科學家、北京科學智能研究院研究員張林峰 一、當 AI 能力深入流向千行百業 AI 帶給我們的能力,不只是處理大規模的生活數據,也包括科學數據,其本質是表達高維復雜的函數,能夠讓我們更好地利用科學規律,利用量子力學
34、方程、分子力學方程,能夠更高效、更準確地求解物理方程做模擬。比如在藥物或材料的設計過程中,在制造飛機、大壩、橋梁等大型工程的過程中,可以先進行計算模擬,在計算機仿真過程中確保沒問題再真正進行實驗和實體的設計。AI+分子模擬,賦能藥物發現新源頭 35 而這一系列新技術的突破,將為微觀世界工業化的設計和生產帶來新的突破。這樣一個底層范式驅動的一系列微觀世界計算與設計新工具,將為藥物研發、材料研發以及很多行業的方方面面帶來更多不同。當今計算生物或藥物設計、材料設計、化工設計等場景中,往往期望用計算模擬解決一些問題,但是實現起來非常困難。原因在于解決這些問題的本質,需要有效地描述微觀粒子之間的復雜多體
35、作用,最終對應的是求解一些高維復雜的微分方程。而這些方程可能在 100 多年前就已經存在,但一直以來都缺乏有效的計算工具和算法工具來克服維數災難。維數災難指求解已經熟知的方程所需要的計算復雜度指數依賴于輸入的個數。比如蛋白質體系的輸入為幾十萬起步,而計算的算力需求指數依賴于輸入,這也意味著完全不可解。因此我們真正利用計算仿真做進一步計算的時候,需要引入大量的人為近似和人為建模。建模過程使得仿真的精度難以達到現實的需求,這是長期以來我們面臨的最大難題。而 AI 的作用是有效地表示電子、分子、原子的相互作用,從而能夠克服維數災難,更高效、更準確地進行模擬,使模擬的準確性能夠符合現實要求,能夠真正指
36、導實驗。AI for Industry 是將行業發展積累下來的海量數據進行直接的模型訓練,并期待它能夠解決實際問題。但此處存在數據稀缺的問題,很多行業的數據往往具有一些不利于 AI 使用的特點,比如數據樣本量非常少,比如數據 label 非常雜,比如數據里的信息與目標之間的依賴關系非常復雜。而 AI for Science 帶來的機會遠不只是對科學數據的直接擬合??茖W行業的發展是將科學原理表述為熟知的一系列物理定律和科學方程,AI 能夠帶來的可能性是學習一些科學原理或物理模型,從而有效地求解物理方程,進一步可用于解決實際問題,能夠克服很多數據稀缺導致的問題。在生物醫藥行業,往往越有價值的靶點、
37、體系,其數據的稀缺程度越高。因此,計算模擬能夠帶來很多新的可能性,而 AI 則能夠讓計算模擬變得更快、更準。AI+分子模擬,賦能藥物發現新源頭 36 二、生物醫藥擁抱 AI,為領域創造更多可能 基于 AI 為科學應用尤其藥物設計領域帶來的能力,也逐步發展出了一系列新工具。藥物研發需要的并不是一兩個核心的計算工具或一兩個重磅功能,而是一個解決方案體系。同時通過不斷地迭代,才能真正形成面向行業的可落地解決方案。蛋白結構預測是藥物研究領域的常見場景。目前在藥物設計領域,一些較為少見的比如 RNA 相關的藥物研發等數據豐富程度不高,因而模型效果不夠好。一方面,我們需要持續地改進模型,另一方面也需要一些
38、解決方案能夠更好地將實際的模擬以及實驗相結合。Uni-Fold 重現了整個蛋白結構預測從 training 到 prediction 到產品化的過程,并在某些 metric 之下取得了更好的成果。此外,我們已經將聚合物、很多復雜情況下所需要的訓練代碼以及需要的數據和相應的模型都已釋放到開源社區,期望進一步地推動藥物研究領域的發展。此外,位點也是藥物設計比較關心的維度。盡管整體從 AI 模型預測得到的結果已經非常不錯,但是一些局部依然存在一些不足。因此需要結合模擬的手段來進一步refine,而模擬最常面臨的問題是時間尺度。蛋白的大的構象變化往往需要很長的模擬時間,因此我們通過 RiD 方法,用神
39、經網絡表示高維的集合變量所對應的自由能,然后用自由能來加速模擬,再結合 AI 的預測,可以進一步對蛋白的構象進行 refine 并得到更好的結構。藥物設計很多情況下需要考慮別構,AI 的模型預測能夠為我們提供正構的構象,而我們還需要增強的采樣來幫助發現別構的位點。比如在某個案例中,別構的位點位于左下角。而傳統的模擬手段由于 barrier 非常高,因此在比如 50 個納秒的模擬時間里,大多時候體系的 confirmation 卡在正構的位點下。但是結合 AI 的增強采樣,能夠很快大范圍采集到體系的別構位點。在藥物研發的案例中,我們發現體系正構位點下有共價結合的藥物,但共價藥物往往選擇性比較差,
40、因為它比較活潑,經常容易位移到不同類型的其他不相關位點上。AI+分子模擬,賦能藥物發現新源頭 37 針對該問題,我們找到了比較合適的別構位點,并且針對別構位點進行非共價的藥物設計,活性更強。以上實現同樣需要有效地結合 AI 的結構預測以及進一步增強采樣的模擬。冷凍電鏡結構的解析除了 AI 的模型結合之外,與模擬手段相結合也非常關鍵。比如給定電鏡密度圖,它對于最后確定蛋白體系的結構而言,就是一個電子的 constrain。再結合模擬達到的效果,該體系即可很好地貼合到密度圖的 constrain。直接的 Uni-Fold 結構預測是結構確定的 initial condition,再結合實驗數據,最
41、終得到的constrain 下的 MD 能夠帶給我們最理想的結構。確定結構和靶點之后,需要大規模的虛擬篩選。Docking 方案在過去的十幾年前被眾多領域頻繁使用。但在如今在高性能的計算背景之下,需要對它進行極致的優化將所有部分都搬到 GPU 上。利用 GPU 的特點對 docking 構象進行 global 搜索,加上局域的優化,可以進行進一步調整,比如 global 的探索參數可以更大,局域的優化可以更并行。經過一系列針對 GPU 特點的優化,同樣精度下的性能得到了巨大提升。并行調度100 卡 NVDIA V100 GPU 情況下,完成 38million 分子數據庫的多級分子對接僅需11
42、.3 小時。血腦屏障等類型的疾病需要的分子比較小。而對于一些特定的疾病類型,分子的可能性已經無需嘗試,基本可以枚舉地做篩選,這也是極致算力和相應算法的結合帶來的新的可能。完成大規模的篩選以及活性的確認后,需要對藥物進行進一步改造,以使其符合ADME/T 等方面的優化需求,同時需要保持其活性。Uni-FEP 的解決方案能夠為藥物變化前后結合自由能的改變做定量計算。該計算能力目前已經能夠達到化學精度以內的標準,因此大幅節約了合成分子所需的實驗成本和時間成本。三、AI+算力場景需求疊加,上云是大勢所趨 AI+分子模擬,賦能藥物發現新源頭 38 藥物研發的各個環節已經形成了一整套的計算解決方案。計算的
43、解決方案隨著應用場景的深入,會出現很多復雜場景,而場景的復雜度使得解決方案最后的工業化程度上有了新要求。與此同時,算力的基礎設施在快速變化,底層的性能特點、是否選擇性能優化、是否選擇遷移等,在大規模需求之下也會是成本上非常重要的考慮?;谝恍┙鉀Q方案,藥物研發領域形成了 pipeline,它是從結構到動力學、藥物的發現、高效關系的建立等一系列環節上形成的計算解決方案。其邏輯也非常簡單,主要分為 data driven 和 simulation driven。一系列解決方案都有高彈性的需求。在高彈性的基礎之上,不同的方案對于數據的使用需求非常不一樣。比如大部分時候模擬需要的是高算力,而冷凍電鏡的
44、數據非常大,這樣的靈活性和彈性是過去的計算解決方案難以實現的。因此,上云是大勢所趨。隨著深度的業務發展,比如客戶使用深勢科技的藥物研發平臺時,私有化的需求非常典型且極具規模。而結合計算巢的方案,使得用戶能夠更加聚焦于業務需要的軟件解決方案,而將私有化部署等交給云來實現。算力和數據算法的發展催生了 AI,而伴隨著 AI 的逐步發展,它需要能夠真正有效地利用物理規律帶來更多來自底層的可能性。以上就是我今天的分享,謝謝大家。AI 制藥工業落地的痛點與前進方向 39 AI 制藥工業落地的痛點與前進方向 作者:Dr.Lurong Pan 潘麓蓉,Ainnocence 圓壹智慧 Founder&CEO 摘
45、要:2022 年 8 月 5 日,2022 阿里云生命科學與智能計算峰會在北京望京昆泰酒店舉行,圓壹智慧創始人兼首席執行官潘麓蓉博士,帶來了題為 The Challenges and Future Directions of AI in pharmaceutical industry的分享,以下是她的演講內容整理,供閱覽。圓壹智慧創始人兼 CEO 潘麓蓉 美國 NIH 的 4D map 是全球制藥行業的行業金標準。以小分子為例,從靶點的識別到先導化合物的發現、優化,從 early discovery 到 development 再到最終的 clinical trial,中間的每一步都已經有非常
46、成熟的方法論、實驗平臺、理論指導以及監管標準。AI 制藥工業落地的痛點與前進方向 40 然而,該系統的數字化程度非常低,制藥行業也是所有行業中數字化程度相對較低的行業。轉化醫學、生物標志化合物相關的數據、臨床數據、監管數據、醫保數據以及臨床采樣和體外采樣的信號數據,都需要有不同的機構和科研人員負責?;诖?,制藥工業想要在系統上提效,只有兩個方法:第一,將整個系統進行重新定義;第二,從過去的歷史數據中去掉雜音、找到信號,并用最先進的方法論取代過時的方法論。AI 制藥工業落地的痛點與前進方向 41 上圖為藥篩流程。從第一步到最后一步需要進行的實驗數量決定了最終的系統效率。傳統流程基本需要從 2 萬
47、個分子篩至一個分子,盲篩則基本需要 200 萬個分子作為起點。而如果能實現以 100 個分子作為起點,則整個行業的投入和耗時將得到 80%以上的節省。以上篩選流程已經沿用多年,但過去 10 年的投入產出比在逐年下降。因此我們需要考慮:如何突破現有的篩選流程?能否通過 AI 幫助提升效率?嚴格意義上來說,AI 并不是一種工具,因為工具需要人來使用,而 AI 可以進行自優化,不需要人類幫助也能實現目的。在 AI 的學科定義里,它需要具備像人一樣的思考和行為能力,最后還需經過圖靈測試等方式的確認。但將 AI 應用于制藥行業,最大的難點在于如何為 AI 定義目標。比如制藥問題上,目標可以是優化選擇性,
48、也可以是優化整體的體內藥效,還可以是優化最終的適用病人群體。如果給予 AI 足夠的數據,實際上它可以通過自己的辦法實現目標。因此,人需要做兩件事:首先,明確目標;其次,明確需要喂給 AI 什么樣的數據和規則。最終由 AI 負責實現目標。AI 制藥工業落地的痛點與前進方向 42 人工智能本身是一個交叉學科,而制藥也是涉及到生物化學、細胞生物學、生理學等多維度信息的學科。如何將眾多龐大的學科體系進行高效地融合,是我們面臨的最大挑戰。上圖涵蓋的數據基本涵蓋了制藥行業所有計算的輸入。QM(量子力學)DFT(Density Functional Theory,密度泛函理論)、Molecular Mech
49、anics(分子力學)和 Molecular dynamics(分子動力學)是純物理的方法,DFT 和 Molecular Mechanics 里也存在一些實驗參數用于進行校準,而 QM 完全只取決于輸入的分子的原子組成。他們在不同的精度進行計算,但精度和準度是完全兩個不同的統計學參數,我們不一定需要最高的精度,但是需要最高的準確度,這樣對于下一步的判斷才能更完整。而此前的方法論或多或少存在局限。比如 QM 計算的是電子精度,只能在材料和一些小型溶液化學體系里進行計算。想要擴到生物體,則需要做更多的近似和犧牲一定的精度,因此有了 DFT 方法。分子動力學方法相當于借用一些經典力學和經驗參數,模
50、擬量子力學的輸出,可以將計算尺度拉到單蛋白的程度,精度從電子省略到了原子。AI 制藥工業落地的痛點與前進方向 43 但是,后續需要對蛋白之間的相互作用進行計算,以及更高的體系比如細胞里有4200 萬個蛋白,如果使用 MD 進行計算,則全世界的計算機加起來都無法實現。人體需要計算生理學的結果,如果從原子開始,需要進行 4200 萬*30 萬億的計算才能真正從分子層面映射到人體。受限于計算能力,從分子動力學之后,基于原子為單位對生物學的模擬隨即陷入困境,且不論基于原子為基礎的 3D 結構本身解析的精準程度。而隨著信息學的介入,我們又看到了希望的曙光。信息學是基于信號的讀取,信號可以分為兩層:一層是
51、分子本質的信號,比如蛋白質、DNA、小分子等都是序列,序列是確定的、沒有任何噪音的;另一層是宏觀層面,將分子放到體系里,可以觀測到電信號、熒光信號得到各種對生物事件間接的理解。得益于信息學的手段,過去 40 年前,化學信息學和生物信息學得到了長足發展。在此之前,我們只能用一些簡單的統計學方法來實現從微觀到宏觀的映射。而此后的多組學能夠將所有物種的 DNA 進行解析,得到多層面的數據。QM 的計算復雜度大約為 O(N)4-O(N)7,N 為電子最大的體系約幾百個原子;Molecular Mechanics 的計算復雜度降至 23,最大的體系約 100 萬個原子,即接近一個單病毒。但是計算復雜度再
52、統計學或機器學習的預測場景下接近于線性,因此相當于又將計算效率節省了 106-107 倍。當前深度學習大行其道,根本原因是我們無法通過物理學模型計算更大的生物體系,需要通過歷史數據的學習來換取產生這一部分數據層投入的算力和實驗資源。DNA 是靜態的,因為 DNA 的序列一般不會有太多變化。而生物是動態的,RNA、蛋白質和代謝的測量會伴隨人的年紀、飲食、身體狀況而動態變化。此外,當前對生命的過程模擬,從單原子角度而言大概只能達到微秒級,酶反應也大約為微秒到毫秒級,因此無法實現真正的過程模擬。而借助信息學,我們可以實現端到端的黑盒子模擬,即端到端模擬。AI 制藥工業落地的痛點與前進方向 44 物理
53、學家不斷地簡化物理公式和計算復雜度,使得最小的藥物分子到體系觀、不同的理論基礎都可以從物理層面進行模擬。但這也意味著需要重新計算實驗條件,重新發展單獨的工具和物理范式,而這是一種比較笨拙的方法。我們期望能夠找到精度可調、通用的模型,可以用同一個模型來解決所有問題。深度學習就是我們的第一次嘗試。只需要每個維度的數據足夠多,即可用黑盒子來預測每個維度的問題,不需要考慮底層的物理原理。深度學習也在過去的實踐中被證明非常有效,但它依然不是最完美的,因為它對數據過于依賴。我們更期望的完美方式是找到一個通用型的、動態的、跨多尺度的數學公式,能夠從根本上觀察生物學,并且不依賴任何數據。AI 制藥工業落地的痛
54、點與前進方向 45 上圖為具體的數據公式。傳統的一個小分子在 QM 計算一個 GPU 大概花費幾個小時至幾天(取決于具體任務),FEP 大概為一天,Docking 為幾分鐘。而機器學習場景下,在一個 CPU 上計算幾千到幾百萬分子只需一分鐘。上圖為阿里云上測試的若干算力。AI 制藥工業落地的痛點與前進方向 46 QM 計算幾個氨基酸的互相作用,一個 CPU 大概需花費半小時。MD 預測大型的膜蛋白每納秒的行為需幾個小時,而微秒或毫秒級所需時間則需乘以 103 或 106。深度學習模型經過訓練,預測所需時間更短,一個小時即可實現百萬級的篩選。機器學習已經廣泛應用于制藥領域,比如蛋白質的結構預測、
55、功能預測、基因編輯、系統生物學以及更大生理性多組學等。而最終的瓶頸在于對生物大數據的理解和清洗。AI 制藥工業落地的痛點與前進方向 47 藥物領域的 AI 發展主要分為上圖四個階段,到目前已經擁有完善的數據驅動方法。一直以來,我們都希望能夠將整個流程里的所有數據全部打通,得到最高效的方法。那么,從學科層面還值得繼續突破的方面有哪些?我們利用 AI,并不是只希望它做得更快,而是希望它做得更好,能實現一些人類無法突破的挑戰。AI 能超越人的兩個方面在于:AI 制藥工業落地的痛點與前進方向 48 第一,它不需要休息,而且可以有幾千個 AI agent 同時做一項工作,這是能力上的突破;第二,AI 對
56、于世界的認知是多維的,人只能從 3D 維度以及時間維度來認知世界,而 AI 可以在幾千個維度或一維、零維這樣人類無法認知的維度下認識世界,然后獲得更好的答案。制藥領域存在一個很有意思的現象:二維的認知與一維的認知完全相反。如上圖,PK 是影響生理指標的重要因素,不同情況下它會存在巨大反差,從人的角度看它們可能非常相似,但 AI 可以從二維以外的一些維度識別到更大的區別。此外,專家進行優化,往往一次只能在一個維度上優化一個問題,因此一個項目會產生無限多的迭代。而如果采取人工智能最典型的 Multi-objective optimization 多目標優化方式,可以一次從多個維度實現多種優化。在過
57、去的實踐中我們已經驗證,使用 AI 比如在 30 個維度里同時打分再做實驗相較于人工思考再做實驗的命中率要高很多。因此我們也堅信,在此領域,AI 能夠比專家做得更好。AI 制藥工業落地的痛點與前進方向 49 新項目一般從表型篩選開始,從表型直接預測潛在的假設,將涉及到黑盒子問題,而這正是 AI 擅長之處。過去大部分原創新藥都屬于 Phenotypic Screening,而大部分 Follower drug 屬于 Target-based Screening。AI Phenotype Screening 已經進行非常多嘗試,比如我們過去在 GHDDI 曾對 3000個 cell based a
58、ssay 逐一進行了 AI 模型的建立,然后進行 retrospective 和prospective 兩種大規模驗證,最終發現過去 30 年的數據里,只有 5%的數據能夠基本接近真實的 cell-based 結果。但這已經是一個不錯的結果,至少證明了該數字保持著增長的趨勢。AI 制藥工業落地的痛點與前進方向 50 合成問題一直是小分子藥物的瓶頸。而 Science 雜志的相關文章表明:AI passed the Turing test,意味著天然產物的全合成路徑都已可預測。只是合成問題的瓶頸并不在于路線預測,而在于反應條件預測。AlphaFold 飽受關注,它被認為是劃時代的壯舉。但我們需要
59、先確認三個問題:第一,制藥領域是否需要知道結構?正常的 Biology discovery 可以直接在細胞上篩選或直接純化蛋白篩。已知的只是序列和 binding affinity,不需要過程模擬,但過程模擬的好處在于可以對一些關鍵位點進行改造;第二,AlphaFold 預測的結果和傳統的同源建模相比,傳統的同源建模在有已知模板的情況下表現更好。其中涉及 AlphaFold 里深層次算法的 flow 使用了Multisequence alignment,是借用其他所有物種的所有蛋白質 family 的信息去預測高等生物的信息,而這在很多核心區域會出現問題。如果是傳統的同源建模一般是更接近的物種
60、或者同一物種的同一個蛋白組族,在已知的模型上即可直接預測,因此在真實的制藥過程中,傳統的同源建模置信度更高。而針對沒有模板的蛋白,則需要采取其他辦法;AI 制藥工業落地的痛點與前進方向 51 第三,我們采取的辦法是直接從一級結構去預測生物活性,完全跳過了 structure biology 的過程,也就避免了這一過程中的誤差。2013 年,我曾花費兩個月調用了 1024 個 CPU,得到約一微秒的膜蛋白、磷脂蛋白、小分子三元體的 simulation,當時已經是全球最大的可計算膜蛋白體系,涉及上百萬原子。而在當今的超級計算機同等硬件配置下,以上時間花費可減少至 2-3 天,但這也僅僅是 30
61、倍的增長,意味著真正系統性地計算動態過程依然非常困難。因此,我們必須全方位利用 Data Driven AI 模型。點擊 http:/greenelab.github.io/deep-review/,可查看這一篇滾動更新的 review相關內容,里面提供了解決 data limitation 問題以及如何建模等方案。AI 制藥工業落地的痛點與前進方向 52 生物大數據里的噪音非常多,如何從噪音里提取信號、集成干凈的數據集也尤為重要。業內提供了非常多方法論層面、工程層面以及算法層面的解決方案,比如Multimodal 方法,如果一個尺度上的數據量很少,則可以從其他尺度上遷移,比如multi-ta
62、sk 方法,如果一個靶點的數據很少,則將其 family 或相似的所有 pocket 數據都找出來用于做遷移學習,以彌補其數據的限制。最有用的 AI 模型一定是泛化能力很強的模型,一定能夠從已知的事物預測未知的事物,這才是最有意義的 AI。因此,從根本上來說,遷移學習(transfer learning)的方法最為有效。如果要做 target specific 預測,專家只需反饋少量結果或幾個到幾十個數據,即可進行 fine-tuning,而后一般只需進行五輪以內的主動學習即可達到想要的結果,效率遠遠優于此前的盲篩。另外,生成數據一般有三種方法:第一,從現有數據里挖掘,我們曾經匯總了全球所有的
63、商業數據庫以及 100+開源數據庫,最后淘汰掉了 95%的數據,這也屬于對歷史的重新審視;AI 制藥工業落地的痛點與前進方向 53 第二,自己做實驗,有針對性地補足一些數據,需要明確數據的化學、生物空間分布,以最少的數據點推動最優的模型表現;第三,模擬數據,比如 QM 的計算最準,則先用物理的底層采樣,最后用這些數據去換已經耗費的算力,無需再重新進行計算。當前我們圓壹智慧的一體化解決方案如圖有一個抽象的展示,具體內容參見官網,從 target 序列開始,在幾個小時內通過幾十個 AI 模型同時打分,可以 propose 10-20 個新分子,基本只需 2-3 輪、在 100 個分子以內即可得到目
64、標化合物。AI 制藥工業落地的痛點與前進方向 54 另外,在算力方面,我們從 training、調用、GPU 和 CPU 的分配等方面都做了非常靈活的方案,已經是一個成熟的自動化平臺。今年 6 月,圓壹智慧在生物國際大會(Bio International)上首次發布了多目標 AI模型,對于生物藥、化學藥以及核酸藥都提供了自動化設計的能力,并且與全世界的多家 CRO、CDMO、藥企都有緊密合作,公司成立一年至今已獲得 300 萬美金訂單。AI 制藥工業落地的痛點與前進方向 55 在未來,我們也希望化學藥、生物藥(核酸藥,蛋白藥,細胞治療)等以及各醫療產業鏈能夠在多目標 AI 模型的加持下,更加
65、高效地解決臨床的問題。我的分享就到這里,謝謝大家。高通量基因測序在藥物研發和靶向治療中的應用 56 高通量基因測序在藥物研發和靶向治療中的應用 作者:谷紅倉,杭州圣庭醫療聯合創始人&首席科學家 摘要:2022 年 8 月 5 日,2022 阿里云生命科學與智能計算峰會在北京望京昆泰酒店舉行,圣庭醫療聯合創始人&首席科學家谷紅倉博士,帶來了題為 高通量基因測序在藥物研發和靶向治療中的應用,以下是他的演講內容整理,供閱覽。杭州圣庭醫療聯合創始人&首席科學家谷紅倉博士 一、高通量測序技術(NGS)背景介紹 高通量基因測序在藥物研發和靶向治療中的應用 57 人們對基因作為遺傳物質的研究歷史可以追溯到上
66、個世紀中葉:1944 年,Avery 博士等年首次證實 DNA 是遺傳物質;1953 年,James Watson 和 Francis Cricket 發現了 DNA 雙螺旋結構,因此兩位科學家也常常被稱為分子生物學之父;1977 年,Allan Maxam 和 Walter Gilbert 發現了化學降解測序方法,由于化學降解測序操作流程復雜和使用大量的放射性物質,很快被棄用。同期,Fredirich Sanger 報道了雙脫氧鏈終止法測序法又稱 Sanger(桑格)測序法。與化學測序法相比,桑格測序簡單快捷和準確性高,應用越來越廣泛。兩種測序法共同被稱為一代測序;1990 年,美國的科學家
67、們提出人類基因組計劃。當時尚處于一代測序技術剛剛興起,一次測序的長度很短,一般只有 500BP;2003 年,人類基因組計劃歷時十多年完全采用桑格測序儀完成,總計耗費 30+億美金。中國于 1999 年加入人類基因組計劃,貢獻 HPG-1%,這對于當時改革開放初期的中國已是非常了不起的貢獻。我國許多著名的科學家包括楊煥明院士和陳潤生院士都參與了該計劃。高通量基因測序在藥物研發和靶向治療中的應用 58 人類基因組計劃催生了高通量測序的發展。業內人士看到了測序的巨大商業價值,許多生產測序儀的公司應運而生,從 2005 到現在不到 20 年的時間,大約出現了十幾家測序儀公司,它們中的大部分在成立后的
68、十年之內破產,目前 lllumina 占據最大市場份額。華大在收購美國 Complete Genomics 公司之后,對其技術進行改造,測序結果越來越好,目前市場份額越來越大。2001 年至 2021 年,基因測序費用迅速降低,每百萬堿基對測序費用由 2001 年的一萬美元降低到 2021 年的一美分,每個人的基因組測序費用由 2001 年的一億美元降低到 2021 年的 1000 美元,二十年降低了 100 萬倍。高通量基因測序在藥物研發和靶向治療中的應用 59 測序技術是 21 世紀對生命科學領域影響最大和發展最快的技術。生命科學的最重要的理論是中心法則,中心法則的核心內容是 DNA 可以
69、通過復制的方式傳遞信息到 DNA,DNA 通過轉錄的形式把遺傳信息傳遞給 RNA,RNA 經過翻譯將遺傳信息傳遞到蛋白質。這個鏈條上的 DNA 和 RNA 均可進行測序發現其攜帶的信息。此外,可以通過Ribosome profiling 和表觀遺傳推測蛋白相關信息,這也意味著 DNA 測序技術幾乎涵蓋了生命科學的各個層面。高通量基因測序在藥物研發和靶向治療中的應用 60 一代測序采用逐段測序的方式,二代測序又稱散彈槍測序。就是通過超聲或者是酶切的方式將基因組打成很小的片段。然后將小片段 DNA 的兩端各加上一段叫接頭的序列,這樣可以一次性可對成千上萬個 DNA 小片段進行測序,這也是二代測序費
70、用降低、測序速度加快的重要原因。但因為二代測序較一次性測序數據量太大,傳統的一代測序軟件無法分析二代測序結果。對比一代測序,二代測序結果分析流程比較復雜,最初測序的結果是影像文件,影像文件非常大,首先需要轉還成包括核苷酸序列和質控信息的 FASTQ 文件,然后 FASTQ 文件再轉成 BAM file 等,經過一系列轉換才能進行最終測序結果的分析。如右上圖所示,全基因測序會首先產生 250Gb(1Gb=千兆字節)FASTQ 數據,再加上后續每一步產生的數據轉換都會產生海量次級數據,自建服務器必須不停的更新和擴容,否則難以滿足計算和數據存儲的需求。此外,生物信息分析中還需面臨以下關鍵挑戰:如何高
71、效傳輸基因測序數據?如何高安全、低成本地存儲?高通量基因測序在藥物研發和靶向治療中的應用 61 如何應對海量數據的分析需求以及突發的分析任務,自建服務器算力不夠強大,導致進程緩慢?如何構建高效、敏捷、彈性的基因分析平臺?隨著樣本數量增多,外加國家相關法規規定必須對病人的數據存儲若干年限,這意味著服務器不能出現任何問題,而地震、火災等意外對服務器的打擊是致命的。因此,我們期望借助阿里云的強大能力,幫助解決生物信息分析中面臨的諸多痛點。云計算強大的算力能夠大幅提高計算速度,云上提供了超大安全存儲容量,滿足了爆發式增長數據動態擴容的需求,且將數據存儲于云上能夠保障數據安全。此外,它提供了彈性公網 I
72、P,即開即用,無須復雜配置,遇突發流量可實現秒級擴縮容。作為臨床基因測序行業負責任的公司,圣庭醫療這兩年通過和阿里云合作,解決了我們依靠自建服務器不能解決的許多棘手問題。二、高通量測序技術(NGS)在靶向治療上的應用 高通量基因測序在藥物研發和靶向治療中的應用 62 基因檢測目前主要應用于以下四個方面:腫瘤易感、早篩與用藥檢測;慢性病遺傳病基因檢測;產前產后檢測與母嬰診斷;健康管理基因檢測。其中腫瘤易感基因檢測,早期篩查和伴隨診斷占據 NGS 檢測的大部分業務。高通量基因測序在藥物研發和靶向治療中的應用 63 當前,腫瘤研究領域投入力量極大,研究相對比較透徹。對來自 66 種癌癥的約 2800
73、0個腫瘤的基因組進行分析后鑒定出 568 個癌癥驅動基因。大多數驅動基因具有高度的癌種特異性,不同癌種之間驅動基因圖譜差異巨大。不到 2%(10 個)驅動的基因作用廣泛,可以導致 20 種以上不同類型的癌癥。當然,并不是所有靶點基因都可以做藥。近 5 年,腫瘤靶向治療已經發展得非常成熟??茖W家通過對各個不同基因的基因突變和基因重排研究出了各種藥物,且明確了藥物的作用機理。在醫院,腫瘤科醫生會根據病人的基因檢測結果來給予對應的藥物治療。療效相對于傳統的化療藥物,效果非常明顯。高通量基因測序在藥物研發和靶向治療中的應用 64 上圖為 2018 年美國國立健康研究院(NIH)的統計數據,數據顯示在美
74、國有 75.6%的腫瘤醫生在治療病人過程中使用了基因檢測來指導用藥,而目前我們國內大型三甲醫院的醫生使用基因檢測結果來決定病人用藥的數據應該不落后該百分比。無論是歐盟、美國還是中國,都使用高通量測序進行基因檢測,而且這些國家包括中國都出臺了相應的臨床指南。指南對如何進行基因測序、如何對測序結果進行分析、如何保存數據和如何解讀測序結果等進行了詳細的描述。NGS 的指導的腫瘤精準用藥主要體現在三個層面:高通量基因測序在藥物研發和靶向治療中的應用 65 靶向治療的精準選擇:目前已有多種已被 FDA/NMPA 批準上市的抗腫瘤靶向藥物,另外還有許多在研的抗腫瘤的靶向藥物。NGS 可以對靶向突變基因信號
75、通路進行精準的解析,還可以發現為什么有些病人對靶向藥敏感而另外一些人呈現耐藥;免疫治療綜合指導:通過腫瘤免疫負荷(TMB)、微衛星不穩定(MSI)、人類白細胞抗原(HLA)檢測結果等區分哪些病人適合免疫治療,哪些病人不適合免疫治療,實現對病人的精準用藥;分子分型與預后分析:結合基因組突變特征,多因素提示腫瘤分子分析分型,幫助醫生確定治療方案以及進行預后評估。目前,業內針對對非小細胞肺癌的信號通路、常見突變等研究已經較為透徹,已上市了眾多對應靶上藥物。高通量基因測序在藥物研發和靶向治療中的應用 66 另外,腫瘤治療前后,腫瘤的基因組并不是一成不變的??赡苡盟幰欢螘r間以后腫瘤細胞中的突變類型和突變
76、頻率都會發生改變,因此需要通過對腫瘤病人治療一段時間后進行基因測序,重新分析腫瘤細胞的突變類型,并制定新的治療方案。免疫治療也是目前比較流行的治療方式,該方式能夠通過激發病人自身的免疫力消滅腫瘤。多項獨立的臨床研究表明不同類型的癌癥免疫治療中,患者的 OS(生存期)和 PFS(無惡化生存期)均有顯著的提高。通過對腫瘤標識物,如腫瘤突變負荷(TMB)進行 NGS 檢測可以有效的發現那些病人可以采用免疫治療。對適于免疫治療的病人,其效果可能遠優于傳統的化療、靶向治療。高通量基因測序在藥物研發和靶向治療中的應用 67 另外,可以通過基因高通量測序的方式對疾病進行分型。比如對結直腸癌可以通過基因檢測,
77、可分為高突變、非高突變,之后還可進行各類型的細分,以進行精準治療。循環腫瘤 DNA(ctDNA)基因檢測是一種新興的監測腫瘤治療效果的方式。其原理是腫瘤細胞在生長過程中會凋亡或壞死,這些死亡的的腫瘤細胞 DNA 會進入血液循環系統中。高通量基因測序在藥物研發和靶向治療中的應用 68 因此可以通過檢測病人的外周血的 ctDNA 有無,在外周血中的含量及 ctDNA 突變類型,從而對治療效果進行監測和指導用藥。右圖展示的是肺癌、結直腸癌、乳腺癌等疾病,通過 ct-DNA 的監測并采用適合的治療方案,能夠顯著延長病人的生存期。三、高通量測序技術(NGS)在藥物研發上的應用 藥物研發流程如上圖左側所示
78、,高通量測序技術既可以應用于前期的靶點發現、也常用于臨床一期、二期、三期治療效果觀察或對藥物作用的分子的機理進行探索。高通量基因測序在藥物研發和靶向治療中的應用 69 該圖展示 NGS 如何幫助發現新的藥物靶點。在靶點發現上,通??梢酝ㄟ^對大量正常人和病人的基因進行測序、對比,然后對結果進行分析,發現僅在病人中共同存在的基因突變,這些突變是藥物作用的潛在靶點。利用計算機和人工智能等手段對靶點進行系統評估,接下來通過一系列體外、體內實驗對藥物潛在靶點進行驗證,最終確立藥物靶點,這就是基因測序在藥物靶點選擇中的應用場景。上圖為 2016-2021 年期間新藥設計靶點的 TOP30。高通量測序投入實際應用的四五年間已經發現很多靶點,我們也可以樂觀地預期,將來會有更多靶向藥,新藥的研發也一定更快速,更高效!