《樣本受限條件下的小分子性質優化方法.pdf》由會員分享,可在線閱讀,更多相關《樣本受限條件下的小分子性質優化方法.pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、小分子性質優化方法匯報人:四川大學 劉祥根樣本受限條件下的中國中文信息學會YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024分子性質優化背景01.分子性質優化是從分子、原子、電子水平上利用數據庫等大量實驗數據,通過計算機技術設計出性質更好的分子。領域材料科學生物醫藥應用生物材料小分子藥物抗體藥物化學纖維YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSS
2、NLP2024分子性質優化背景:案例01.活性代謝產物1960年上市2020年上市YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024小分子性質優化技術背景01.分子結構三維結構一維結構?功能/性質與靶點親和性(2-4小時)與DNA作用強度(3-6小時)對血壓影響(3天)穩定性(2-24小時)挑戰一:分子的性質的測定時間長、成本高。動物實驗數據也收到倫理等因素限制無法大規模獲得。YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNL
3、P2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024小分子性質優化技術背景01.大分子長度N挑戰二:候選分子數量巨大,搜索困難。小分子類藥分子1060候選分子=20NYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024小分子性質優化技術背景01.挑戰三:分子成藥性質多樣,約束復雜有效分子空間(符合化學共價鍵規則)滿足約束分子空間:=0分子空間分子性質升高起始搜索位置搜索算法 麻醉藥開發的臨床需求YSSNLP2024YSSNLP20
4、24YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024目錄CONTENTS蛋白質3D結構的表征學習及優化基于深度模擬退火分子編輯DrugLLM:藥物分子大模型 未來展望YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.蛋白質-蛋白質相互作用細胞新陳代謝病毒入侵免疫反應神經遞質釋放Liu X,Luo Y,Li P,et al.PLoS comp
5、utational biology,17(8):e1009284.YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.預測模型大分子復合物突變體預測氨基酸突變對PPI親和性的影響=,YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.無監督蛋白質幾何結構表征學習基于提取的
6、表征進行突變影響評估計算機視覺自監督訓練GeoPPI10來源:RCSB Protein Data Bank.PPI數據集PPI數據集復合物種類突變數據量S64524645S1101321101S1131451131S41691204169VS.YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.11擾動過程重建過程學習到的有意義的表示18744個不同復合物結構每個結構擾動1000次一共18744000個訓練樣本自監督表征學習過程:圖
7、神經網絡YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.PPI親和性預測過程圖神經網絡YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.Amino acid space without learningLearned amino acid space首次提出自監督學
8、習策略來表征蛋白質的幾何拓撲結構YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.交叉驗證實驗(隨機劃分訓練/測試數據集)PPI數據集PPI數據集復合物種類突變數據量S64524645S1101321101S1131451131S41691204169預測性能(Pearson相關性)GufosowaYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2
9、024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.蛋白質之間相似度PPI數據集大小PPI數據集復合物種類突變數據量S64524645S1101321101S1131451131S41691204169交叉驗證實驗(按結構劃分訓練/測試數據集)首次采用更加嚴格的測試方法,發現了現有模型預測性能虛高的問題YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.準確衡量新冠病毒抗體之間的親和性差異利用同源建模方
10、法估計抗體的三維結構YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024蛋白質3D結構的表征學習及優化02.對C110抗體接觸面的所有氨基酸突變進行搜索A107周圍的原子相互作用力突變A107W周圍的原子相互作用力(由FoldX估計)GeoPPI提出的優化建議具有一定合理性利用GeoPPI優化新冠病毒抗體結合親和性Liu X,Luo Y,Li P,et al.PLoS computational biology,17(8):e1009284.YSSNLP2024YSS
11、NLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Cyclization基于深度模擬退火分子編輯03.完備的編輯操作ACL 2021,APSB 2024,InsertionDeletionReplacementYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Cyclization基于深度模擬退火分子編輯03.完備的編輯操作ACL 2021,APSB 2024,I
12、nsertionDeletionReplacementYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024基于深度模擬退火分子編輯03.編輯哪個原子上一個時刻的分子下一個時刻的編輯位置分布標簽:歷史成功案例圖神經網絡YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024基于深度模擬退火分子編輯03.改成什么原子?生成模型賦能的編輯操作YSSNL
13、P2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024基于深度模擬退火分子編輯03.LogP性質優化ADSAYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024基于深度模擬退火分子編輯03.搜索目標:分子對接分數蛋白質親和性優化YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSN
14、LP2024YSSNLP2024YSSNLP2024基于深度模擬退火分子編輯03.蛋白質親和性優化ACL 2021,APSB 2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.Liu X,Guo Y,Li H,et al.DrugLLM.arXiv:2405.06690,2024.YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20
15、24YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.GMR表示:YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.預訓練數據集YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.二維分布一維分布YSSNLP2024YS
16、SNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.生成與指定靶點活性更高的分子(成功率)靶點歷史數據神經網絡預測器YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP
17、2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM:藥物分子性質優化大模型04.測試時間:2023年12月復雜性質同時優化(成功率)已投稿 Science Advance論文網址:https:/arxiv.org/abs/2405.06690YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024DrugLLM未來展望05.加入自然語言信息:分子性質描述模糊,需要自然語言01增大數據量和參數量:目前80億參數,序列長度51202加入蛋白質結構信息:與真實藥物研發SBDD場景結合03探索更有效的訓練方法:提高效率和增強優化能力04YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024感謝大家的觀看匯報人:劉祥根THANKSYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024