《先進計算產業發展聯盟:2023生命科學算力解決方案白皮書(43頁).pdf》由會員分享,可在線閱讀,更多相關《先進計算產業發展聯盟:2023生命科學算力解決方案白皮書(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、生命科學算力解決方案白皮書生命科學算力解決方案白皮書先進計算產業發展聯盟先進計算產業發展聯盟20232023 年年 1212 月月I版權聲明版權聲明本白皮書版權屬于先進計算產業發展聯盟,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明“來源:先進計算產業發展聯盟”。違反上述聲明者,將追究其相關法律責任。本白皮書版權屬于先進計算產業發展聯盟,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明“來源:先進計算產業發展聯盟”。違反上述聲明者,將追究其相關法律責任。II編制單位:先進計算產業發展聯盟參編單位:聯想(北京)信息技術有限公司參編人員:郝常杰、崔
2、吉順、陳齊旺、田亞宇III前言前言生命科學作為 21 世紀最重要的科學分支之一,高性能計算在生命科學的研究和發展中起著非常重要的作用。從蛋白質結構中的應用輔助藥物設計、疫苗研發,到生物信息學中的應用輔助基因數據處理與分析,再到提供精準醫療服務于腫瘤治療、產前篩查和肺病篩查等醫療技術,高性能計算在生命科學研究中扮演著十分重要的角色。同時,由于基因測序技術的飛速發展,人類發現的基因序列的數目按照指數級的增長,對于如此數量龐大的基因進行同源性搜尋,比對,分析,遺傳發育分析等,也一定伴隨著巨大的數據處理量和并行計算量。同時,由于生命科學的研究對象往往是蛋白質和 DNA 的大分子,對這些分子的三維結構的
3、預測,動力學特性、熱力學特性、在生命過程中如何發生作用,這些科學問題也要借助于高性能計算機。所以高性能計算機在生命科學研究中,應用非常廣泛,扮演著越來越重要的角色。隨著這幾年人工智能(AI)技術的興起,高性能計算中逐漸出現了 AI for Science,科學智能極大地提升了生命科學領域的計算效率,尤其在算法軟件于模型、新范式下的實驗表征系統(材料)、AI4S數據庫與知識庫、新范式下的計算成像系統(生物醫學)等方向,大大加速了這些方向的研究和推進。隨著生命科學行業的研究問題越來越復雜,加上 AI 的不斷投入,構建科學智能平臺成為滿足生命科學行業日益暴漲的算力需求的基本基礎架構。本白皮書概述了生
4、命科學的研究領域,包括基因組學、生物信息IV學、蛋白質結構研究、分子動力學、計算機輔助藥物設計等研究領域。進一步從人工智能加速生命科學的研究方面,闡述了人工智能技術在基因數據分析和醫療識別中的應用。以聯想在生命科學高性能計算解決方案和人工智能解決方案為例,介紹了平臺的組成框架。并介紹了生命科學的主要軟件和機器應用特點。最后列舉了聯想高性能計算在醫院組學和深度影像學習平臺的案例。V目錄目錄一、生命科學研究領域.1(一)基因組學.2(二)生物信息學.2(三)蛋白質結構研究.4(四)分子動力學模擬方法.8(五)計算機輔助藥物設計.9二、生命科學算力解決方案.12(一)高性能計算生命科學解決方案.12
5、1、生命科學的主要軟件和特點.122、生命科學高性能計算參考架構.14(二)人工智能加速生命科學解決方案.191、AI 發展加速生命科學的應用.192、聯想人工智能解決方案框架.21(三)生命科學算力平臺解決方案.21三、生命科學參考客戶案例.24(一)某醫院組學和深度影像學習平臺.241、學科平臺需要支撐運行的軟件.25VI2、算力平臺建設要求和主要特點.26(二)北京大學算力平臺“未名生科一號”.28VII圖 目 錄圖 目 錄圖 1 生命科學高性能計算架構.14圖 2 AI 應用加速行業轉型.19圖 3 AI 加速生命科學領域應用.20圖 4 聯想人工智能算力框架.21圖 5 聯想生命科學
6、算力平臺.22圖 6 組學分析系統架構.28圖 7“未名生科一號”.29圖 8 水合離子的微觀結構和幻數效應.31圖 9 DNA 復制起點識別復合物 3-分辨率結構.31圖 10“未名生科一號”節點使用率和用戶作業數.32圖 11“未名一號”節點使用率和用戶作業數.32圖 12 兄弟院校前來參觀交流.33VIII表目錄表目錄表 1 主要生命科學學科的工作負載.13表 2 學科平臺需要支撐運行的軟件.251一、生命科學研究領域一、生命科學研究領域生命科學領域是對微生物、動物和植物等所有生物進行研究的科學領域,同時也包括生物倫理學等相關領域。生命科學的研究是為了提高人類的生活品質。目前生命科學已經
7、在醫療、農業、保健、食品工業和制藥等行業得到廣泛應用。生命科學的研究不斷造福人類。雖然當前生物學仍然是生命科學的中心,但隨著分子生物學和生物技術的發展,生命科學已經成為一個專精化、多學科交叉并且已經進入快速發展的領域。全球范圍內來看,從 21 世紀開始,全球生命科學領域的發展進入快車道,尤其是人類基因組計劃的實施、干細胞研究的不斷深入、克隆技術的不斷發展等因素都將生命科學領域的發展推向了新的高度,與之相對應領域的研發投入也在不斷增加。作為對科技信息技術有強依賴的典型代表,生命科學行業的藥物研發和基因測序分析領域面臨著計算資源緊缺、研發周期長等問題。為了解決這些問題,相關企業一方面自建高性能計算
8、平臺,另外一方面也開始從傳統 IT 轉向上云,希望借助云計算平臺的資源來從事和加速藥物研發速度、提升測序數據分析效率,加快業務創新步伐,為用戶創造更大價值。新藥的誕生通常需要經歷藥物發現、臨床前研究、臨床試驗和審批等階段后,最終才可以獲批上市。在靶點發現、化合物合成等藥物發現階段以及化合物篩選等臨床前研究階段,往往需要借助高性能計算強大的計算能力才能加速研發過程輔助藥物設計。2(一)基因組學(一)基因組學基因組學是指對生物體所有基因進行基因組作圖、核苷酸序列比對分析、基因定位及基因功能分析的一門學科,而基因測序則是針對基因組學研究的檢測分析技術?;蚪M學所對應的研究主要包括結構基因組學和功能基
9、因組學兩個方面。結構基因組學代表基因組分析的早期階段,一般以基因組測序為目的,得出生物樣本的靜態堿基序列,并構建生物體的基因圖譜,一般基于高通量測序技術生成生物的堿基序列。功能基因組學也稱作后基因組學,基于結構基因組所提供的數據及信息,結合計算機科學,同時對多個基因片段進行系統性的分析研究,主要研究內容包括:基因突變檢測(SNP,InDel)、基因表達分析及基因功能發現等?;驕y序的業務流程主要包括樣本上機(測序儀)、測序文件生成、基因序列比對及結果分析(計算機),并將結果數據及報告交付至各科研醫療機構。其中,基因序列比對及分析環節極為耗時,涉及大量的生信領域專業軟件,計算資源的算力性能及方案
10、優化對生信研發效率起著至關重要的作用。(二)生物信息學(二)生物信息學進入 21 世紀以來,隨著人類基因組計劃的相繼完成和各種模式生物的基因組計劃的順利實施,以及基因測序技術的不斷進步,生命3科學研究得到了巨大的發展。同時,海量的有關生物序列的數據量不斷增加。這些數據具有豐富的內涵,其中蘊含著大量的人類尚且不知道的生物學奧秘。生物信息學是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的一門學科,與以觀察和實驗為主的傳統生物學研究不同,它通過綜合利用生物學、計算機科學和信息技術而揭示大量而復雜的生物數據所蘊含的生物學奧秘。生物信息學把 DNA 序列、蛋白質序列以及其它相關生物數據作為分
11、析對象,力求揭示 DNA 編碼區、蛋白質、RNA 基因以及其基因組中非編碼序列的信息實質。DNA 測序技術是現代分子生物學研究中最常用的技術。自 1977年第一代測序技術問世以來,經過三十多年的發展,DNA 測序技術取得重大進展,以高通量為特點的第二代測序技術逐漸走向市場,以單分子測序為特點的第三代測序技術也已經出現,其分別在測序特點上占有不同的優勢。測序技術的快速發展,使小型化/臺式高通量測序儀成為現實,這意味著大規?;蚪M測序將不再是大型實驗室或科研中心的專利,中小型實驗室、公司、臨床檢驗中心都將能夠利用高通量測序技術快速高效的獲取大量信息,進行科研或開發應用。DNA 測序包括全基因測序和
12、基因組重測序。新一代高通量測序技術的發展,使得物種全基因組測序變得速度快、效率和準確率更高,越來越多的物種基因組信息相繼公布。全基因組測序主要應用與基因組序列未知的物種,DNA 片段測序后,用生物信息學軟件對序列進行4拼接、組裝,從而獲得該物種的基因組序列圖譜?;蚪M重測序是指該物種基因基因組序列已被測序,有參考基因組序列的測序工作。第2代高通量測序技術目前應用最為廣泛的領域就是對已知基因組物種進行重新測序,基因組結構變異、單核苷酸多態性、群體多態性、突變熱點等重要信息都是通過重測序研究發現的。目前已知的序列比對方法很多,依據不同的劃分方式有不同的分類。根據同時進行比對序列的數目分為兩兩比對和
13、多序列比對,從比對范圍考慮分為全局比對和局部比對。多序列比對算法的基礎是動態規劃比對算法,但隨著比對序列數目及長度的增加,問題的解空間也急劇增大。多序列比對的常用算法有漸進算法、隱馬爾科夫模型、迭代比對法等。累進方法是最常用的啟發式多序列比對算法。(三)蛋白質結構研究(三)蛋白質結構研究結構生物學是通過研究生物大分子的結構與運動來闡明生命現象的科學。藥物設計、疫苗開發和蛋白質分子性能改造等應用領域都以結構生物學的研究成果為基礎。X 射線晶體學、核磁共振波譜學、電子顯微三維重構(亦稱電鏡三維重構)是結構生物學的三大研究手段,具有不同的優勢。核磁共振波譜學可以獲得蛋白質在溶液中的三維結構,能夠分析
14、蛋白質的動態變化,但是研究對象的分子量通常難以超過 20 kD。X 射線晶體學通??梢垣@得生物大分子原子分辨率的三維結構,但對于分子量較大、較復雜的生物復合分子體系,其晶體5難以獲得,結構解析難度也較大。當研究對象的尺度越來越大的時候,電子顯微三維重構技術,特別是低溫電子顯微三維重構技術,就顯示出其重要的作用,利用該技術我們可以獲得分子量巨大(200kD 以上)的超分子復合體系的納米分辨率三維結構,彌補晶體學和核磁共振分析技術的不足,架起從蛋白質、蛋白質復合體、超分子復合體系到亞細胞系統的三維結構研究的橋梁。電子顯微三維重構技術的基本原理基于中央截面定理:三維物體沿電子束方向投影的傅立葉變換,
15、是該物體所對應的傅立葉空間中通過中心且垂直于投影方向的一個截面。那么一個物體的完備投影的二維傅立葉變換一定能夠完全填充該物體的三維傅立葉空間,因此物體的完備投影與物體的三維結構是等價的。實驗中,我們收集到大量全同顆粒在不同方向的投影(單顆粒),或同一樣品在不同角度的投影(斷層成像),首先通過等價線(common line)、投影匹配等方法確定每張投影圖像的取向和中心(斷層數據角度已知,只需精修即可),然后對每張投影圖進行傅立葉變換,按照投影方向填充到三維傅里葉空間對應的切面,并進行差值計算得到倒空間的網格點數值,最后再進行反傅立葉變換,就可得到實空間的三維結構。三維重構理論的建立使得利用電子顯
16、微鏡來解析蛋白質等生物大分子的三維結構成為可能,但是需要解決的問題是電子束打到生物樣品上時會帶來比較嚴重的輻射損傷,從而丟失了許多結構信息,在低溫電鏡(低溫電鏡的目的是提高生物樣品對電子輻射的耐受力,同6時減少圖像熱噪聲)和低劑量輻照成像技術出現以前,人們只能采用重金屬負染的方法來獲得生物大分子的嵌影結構(不是真正的分子結構)。到了 80 年代,快速冷凍含水生物樣品的制備技術和低溫電子顯微鏡技術的快速發展并實用化,為利用電子顯微技術研究蛋白質三維結構奠定了基礎。特別是 1984 年,Dubochet 等發表了第一張病毒的低溫電子顯微鏡照片,開創了低溫電鏡的研究時代。自此,在低溫電子顯微術、低劑
17、量輻照成像術和電子顯微三維重構理論的基礎上,一門新的學科領域形成了,即低溫電鏡結構生物學,這一領域無論是在方法學上還是在蛋白質結構研究上,在近二十多年間都獲得了快速發展,取得許多重要成果。利用低溫電子顯微術和三維重構技術解析蛋白質超分子復合物的結構迄今已分化發展為三種具有不同特點和適用范圍的方法:電子晶體學(Electron Crystallography),主要處理二維晶體樣品;單顆粒三維重構技術(Single ParticleAnalysis),主要解析具有全同性的蛋白質分子的三維結構;電子斷層三維重構技術(Electron Tomography),主要針對不具有全同性的超分子體系和亞細胞
18、體系。第一種:電子晶體學象并結合電鏡的成像數據,我們就可以解析出這些大分子的三維結構;第二種:單顆粒三維重構等;第三種:電子斷層三維重構。質譜方法(Mass Spectroscope,MS)是通過正確測定蛋白質分子的質量而進行蛋白質分子鑒定、蛋白質分子的修飾和蛋白質分子相互作用的研究,基本原理是帶電粒子在磁場或電場中運動的軌跡和速7度依粒子的質量與攜帶電荷比(質荷比,M/Z)的不同而變換,從而可以據此判斷粒子的質量及特性。但長期以來,質譜方法僅限于小分子和中等分子的研究,因為要將質譜應用于生物大分子需要將之制備成氣相帶電分子,然后在真空中物理分解成離子。但如何使蛋白分子經受住離子化過程轉成氣相
19、帶電的離子而又不喪失其結構形狀是個難題。20 世紀 70 年代,解吸技術的出現成功地將蛋白分子轉化成氣相離子。爾后快原子轟擊與其緊密相關的溶液基質二次離子質譜法使得具有極性的、熱不穩定的蛋白分子可經受住電離過程。但這些方法僅限于 10kD 以下蛋白分子的研究。80 年代電噴霧電離(ESI)和軟激光解吸(SLD)電離技術的發展則使得質譜方法應用于高分子量蛋白分子的研究。在用于蛋白質分析的質譜技術中,蛋白質樣品首先被選定的蛋白酶水解,形成多肽。不同質量電荷比的多肽離子被質譜儀分離、檢測出來,得到一級質譜。這些肽離子可以進一步被打碎,形成碎片離子。碎片離子被分離和檢測便得到串聯質譜。用質譜鑒定蛋白質
20、的方法因此分為兩大類:第一類是基于一級質譜的,稱作肽質量指紋作圖。這類方法搜索已知蛋白質數據庫,用指定的酶對蛋白質進行模擬水解,得到理論一級質譜。理論一級質譜與實驗一級質譜進行比較,結果按照匹配的程度排序。這樣的系統有 MOWSE,Mascot,ProFound,PeptIdent,MS-Fit等等。肽質量指紋作圖適用于蛋白質樣品包含一種蛋白質或簡單的混8合物的情況。其缺點是由于蛋白質混合物和污染物、部分酶解、殘基修飾(所謂氨基酸殘基是指去掉一個水分子的氨基酸)、質量精度等因素的影響,往往誤差較大,導致搜索結果錯誤。第二類是基于串聯質譜的。這類方法首先利用串聯質譜技術(Tandem Mass
21、Spectrometry,MS/MS)準確測定肽的氨基酸序列,再通過肽序列鑒定蛋白質的序列。所以,這種方法可以用于鑒定復雜的蛋白質混合物或者驗證肽質量指紋搜索的結果,是目前最常用最有效的主流方法。為了鑒定蛋白質,從串聯質譜鑒定肽的氨基酸序列是中心問題。從串聯質譜鑒定肽序列的計算方法有三種:數據庫搜索方法、從頭測序方法、序列標簽查詢方法。其中最常用的是數據庫搜索方法,在這種方法中,數據庫中的蛋白質序列被理論水解和碎裂,生成理論串聯質譜。把理論質譜與實驗質譜相比較,從而找到生成實驗質譜的肽序列。(四)分子動力學模擬方法(四)分子動力學模擬方法分子動力學模擬方法是在原子水平上利用經典牛頓力學方程研究
22、分子狀態的計算機模擬方法。隨著計算機計算能力的提高,分子動力學模擬已經成為生物大分子理論研究的一種有力工具,和實驗手段相比,除了其經濟的優點外,基于全原子模型的動力學模擬可以在原子結構層次揭示生物事件隨時間的發展過程,這些信息不僅幫助我們9認識生命現象,而且也具有實用價值,比如蛋白質穩定性研究、蛋白質折疊、構象轉換、分子識別、離子傳輸、輔助研究關于藥物設計以及驗證 X 射線晶體衍射方法和核磁共振方法得到的分子體系的實驗結構。自 1977 年基于一個簡單的力場對牛胰島素抑制劑(BPTI)在真空中短時間分子動力學的模擬被報道以后,分子動力學模擬方法無論是在采樣效率還是在勢能函數準確性上都取得了巨大
23、的進步。進行分子動力學模擬的基本過程如下:首先給出生物體系里每個原子的初始位置以及初始速度,選擇使用何種溶劑模型處理溶劑效應以及何種分子力場計算分子之間相互作用能;對初始結構進行簡單能量優化、結構平衡,防止初始結構中原子之間位置沖突;開始分子動力學模擬,根據所選用的經驗勢可以得到每個原子上的作用力以及原子運動的加速度,原則上可以求得任意時刻任何原子的位置和速度,但是實際模擬時必須選擇合適的時間步長,模擬中步長必須足夠小,一是保證能夠正確的計算體系中最快的運動,比如共價鍵的振動,二是防止原子位置沖突,但是步長又不能太小,否則需要很長的模擬時間才能獲得足夠多的采樣;最后對模擬結果進行分析處理。分子
24、動力學模擬結果的可靠性和準確性主要依賴于模擬中所選用的勢能函數,包含分子力場以及溶劑化模型。(五)計算機輔助藥物設計(五)計算機輔助藥物設計計算機輔助藥物設計根據受體的結構是否已知,分為直接藥物設10計和間接藥物設計。計算機輔助藥物設計的方法始于八十年代早期。當今,隨著人類基因組計劃的完成、蛋白組學的迅猛發展,以及大量與人類疾病相關基因的發現,藥物作用的靶標分子急劇增加;同時,在計算機技術推動下,計算機藥物輔助設計在近幾年取得了巨大的進展。計算機輔助藥物設計的一般原理是,首先通過 X單晶衍射技等技術獲得受體大分子結合部位的結構,并且采用分子模擬軟件分析結合部位的結構性質,如靜電場、疏水場、氫鍵
25、作用位點分布等信息。然后再運用數據庫搜尋或者全新藥物分子設計技術,識別得到分子形狀和理化性質與受體作用位點相匹配的分子,合成并測試這些分子的生物活性,經過幾輪循環,即可以發現新的先導化合物。因此,計算機輔助藥物設計大致包括活性位點分析法、數據庫搜尋、全新藥物設計。數據庫搜尋技術在藥物設計中廣為應用,該方法發現的化合物大多可以直接購買得到,即使部分化合物不能直接購買得到,其合成路線也較為成熟,可以從專利或文獻中查得,這都大大加快了先導化合物的發現速度。但是,數據庫搜尋得到的化合物通常都是已知化合物,而非新穎結構。近年來,全新藥物設計越來越受到人們的重視,它根據受體活性部位的形狀和性質要求,讓計算
26、機自動構建出形狀、性質互補的新分子,該新分子能與受體活性部位很好地契合,從而有望成為新的先導化合物;它通常能提出一些新的思想和結構類型,但對所11設計的化合物需要進行合成,有時甚至是全合成。全新藥物設計方法出現的時間雖然不長,但發展極為迅速,現已開發出一批實用性較強的軟件,其主要軟件有 LUDI、Leapfrog、GROW、SPROU 等,其中 LUDI最為常用。12二、生命科學算力解決方案二、生命科學算力解決方案生命科學算力解決方案包含傳統的高性能計算解決方案和人工智能加速解決方案。(一)高性能計算生命科學解決方案(一)高性能計算生命科學解決方案在生命科學計算領域,高性能計算的軟件種類非常多
27、,可以根據計算的類型選擇使用。以下介紹生命科學主要軟件的特點和高性能生命科學解決方案架構。1、生命科學的主要軟件和特點生物領域中的高性能計算最大的特點是種類多,從研究領域區分可以分成如下大類:(1)生物分子的結構測定:Illumina 公司的 bcl2fastq,GenomeAnalys,HiSeq 2000,GAPipeline 等;ABI 公司的 Solid3,Solid4,Bioscope。電鏡 EMAN,SPIDER;利用 Xray 方法測量用軟件 CCP4、ARP/wARP,CNS 進行解析等;質譜儀 Tandom 等。(2)生物信息學類計算:最常用的有 BLAST,FASTA,HM
28、MER,ClustalW,DNASTAR,PHYLIP,PAML,PAUP,T-Coffee,EMBOSS 等。(3)分子動力學類計算:主要軟件有 AMBER,Charmm,NAMD,Gromacs 等,這類應用非常適合大規模并行。(4)計算機輔助藥物設計類計算:應用軟件有 DOCK,AutoDock,13FlexX,Discovery Studio,ZDOCK,RDOCK,MORDOR 等。生命科學的主要軟件應用特點,與生命科學學科的計算工作負載有關。表 1 主要生命科學學科的工作負載學科學科解決方案解決方案數據/應用程序特點數據/應用程序特點主要應用程序主要應用程序生物信息學-序列分析生物
29、信息學-序列分析搜索、對齊生物序列(DNA 和蛋白質)并對其進行模式匹配結構化數據整數占主導,頻率依賴性,大量緩存和內存 BW 并非關鍵,一些算法適合進行 SIMD 加速NCBI BLAST、wuBLAST、ClustalW、HMMER、FASTA,Smith-Waterman生物信息學-NGS生物信息學-NGS對齊并合并 DNA 短片段,以重建原始序列一些需要大量內存許多為 IO 密集型任務字符串分析和匹配算法Phrap/phred、CAP3/PCAP、Velvet、ABySS、SOAPdenovo、Newbler、MAQ BOWTIE、BFAST、SOAP、BioScope、SAM 工具、
30、GATK,Bowtie、Bwa 等二代測序的比對工具,Fastqc 等數據預處理工具生物化學-藥物研發生物化學-藥物研發篩選大型數據庫,查找具有所需生物活性的潛在藥物大多為浮點數據計算密集型極高高度并行任務Dock、Autodock、GLIDE、FTDock、Ligandfit、Flexx計算化學-分子模擬和量子力量計算化學-分子模擬和量子力量使用分子動力學和量子力學技術對生物分子進行建模需要處理大量浮點數據延遲至關重要頻率依賴性可縮短到 100 秒以下CHARMM/CHAR、GROMACS、Desmond、AMBER、NAMD、Gaussian、GAMESS、Jaguar、NWCHEM蛋白質
31、組學蛋白質組學解讀質譜分析數據,將頻譜與蛋白質數據庫進行匹配整數比較FFT 頻譜分析具有浮點數據對通信要求不高Mascot、Sequest、ProteinProspector、X!Tandem、OMSSA結構生物學結構生物學用物理學方法,配合生物化學和分子生物學方法研究生物大分子結構與功能的新學科數據量大計算密集型Relio 為典型代表(GPU優化)142、生命科學高性能計算參考架構圖 1 生命科學高性能計算架構通過生命科學研究領域的應用軟件的分析,生命科學需要大量的科學計算。對計算服務器的要求,不但要有高密度的計算服務器,也需要有大內存的胖節點服務器完成不同類型的計算。在整個的計算的過程中,
32、因為生命科學有大量的數據需要處理,在架構內還要配置高性能的并行存儲系統,以及高速互聯網絡,將計算服務器、存儲等設備有效的連接起來,實現高效率的計算和存儲訪問??偟膩碇v,生命科學高性能計算參考架構,主要包括計算系統、存儲系統、網絡系統。(1)計算系統計算系統需求上要求計算性能高,內存大,功耗低,密度大等要求和特點。計算性能高:高性能計算應用最為核心的需求仍然是計算能力,高性能計算機峰值計算能力代表著高性能計算機的整體處理能力,而對于大部分的高性能計算應用,對計算資源的海量需求仍然是最為迫15切和直接的需求。內存需求高:在高性能計算過程中,會進行大量的內存訪問,對內存的容量和訪問速度都有很高的需求
33、。尤其隨著 CPU 多核化的快速發展,對內存的訪問能力提出了新的需求,CPU 的直連架構、內存控制器高度集成,避免多個 CPU 訪問時的內存爭搶。同時,隨著 CPU的不斷升級,內存通道的數量及內存的頻率也在不斷升級。對于用戶計算配置兼容的性能最高的內存規格,且要求內存條的數量與 CPU 的內存通道數量匹配。適合高性能計算應用:用戶應用需求是高性能計算機發展的驅動力。高性能計算機的部件及架構要適合具體的高性能計算應用。例如,如果應用軟件需要大內存、共享存儲擴展等需求,則系統需要配置大內存及多路胖節點;如果應用軟件的擴展性不好,則盡量考慮高主頻、核心較少的計算方案;如果系統擴展性很好,則盡量考慮總
34、體計算峰值最高的方案。每瓦性能高:高效能代表著高性能計算的每瓦性能較高,這是評價高性能計算機架構是否科學、配置是否合理的重要指標。能源的利用率對于降低總體擁有成本、節能減排有重要意義??傮w功耗低:高性能計算機是能耗大,在低碳低能耗要求下,降低高性能計算機功耗,建立綠色數據中心非常有意義。降低功耗一般可以通過選購效率較高的 IT 設備、提高制冷及空氣調節效率、使用功耗控制軟件等幾個方面實施。聯想的溫水水冷技術提供了優化的綠16色的解決方案。聯想直接水冷刀片系統是業界最新的高密度計算解決方案。以其靈活、開發和簡化數據中心的特點為高性能計算、網格計算、仿真和分析以及大規模高性能計算和人工智能等應用提
35、供了優秀的基礎架構。高密度:較高密度能滿足用戶機房空間有限的需求,同時,較高的密度能夠有效節約空間,降低運維成本,降低管理難度。高可靠性要求:高性能計算機主要架構為集群架構,一般工作方式為若干臺 x86 服務器通過標準網絡連接,通過作業調度軟件將計算任務分發到不同計算節點上。在一套高性能計算機系統中,網絡系統、存儲系統、管理登陸服務節點等都屬于系統級組件,單一組件的不可用會導致整個系統的不可用,對可靠性要求非常高;而集群計算節點由于作業調度可自動將不同作業分發到不同的節點上,即使少量節點的故障也會導致整作業結果不能及時產生,需要重新提交作業,這樣會造成計算資源的極大浪費。提高計算節點高可用性至
36、關重要。(2)存儲系統高性能計算集群在多個節點進行大規模并行計算的同時,需要進行大量文件及數據訪問,對于系統的存儲性能也提出非常高的要求,系統對存儲要求主要歸結為以下幾點:全局文件的統一映像:高性能集群為保證參與計算的所有節點具有統一的文件印象,在任何一個節點、對某一個文件的讀寫、修改都17會在其它節點生效,實現這一個功能,往往需要通過網絡文件系統來實現。由于集群規模的增大和訪問性能的要求逐漸提高,并行文件系統在中大規模的高性能集群中使用越來越廣泛。全局文件的高速訪問:對于某些規模較大集群,或者某些高 IO應用集群,由于對存儲的訪問量很大,對共享存儲的訪問性能也提出了較高要求。需要通過提高磁盤
37、陣列的性能、存儲介質的性能、磁盤陣列訪問接口的性能和 IO 節點的網絡性能來提高存儲的訪問性能。對于更高 IO 需求的系統,可以通過并行存儲系統來實現海量文件的并發讀寫。存儲系統的大容量:由于高性能集群的規模巨大、數據處理能力驚人,高性能集群集中存儲的容量也非常驚人,達到數十 TB,在某些對海量存儲需求的系統中,存儲往往達到上百 TB,甚至 PB 量級。存儲系統的高可靠性:高性能集群承擔著重要的科研任務,用戶的數據具有極高的價值,同時,存儲為全局系統,一旦出現故障,將導致整個系統不可用。所以在存儲系統中,無論 IO 節點、存儲交換機、還是存儲磁盤陣列,存儲介質,每個環節都要盡可能的保證高可靠性
38、和高可用性??梢酝ㄟ^冗余電源、高級別 RAID、雙機熱備、數據備份等各種手段保證存儲系統的高可靠性。(3)網絡系統以 MPI 為代表的并行高性能計算程序,在多節點并行運行時有頻繁大量的網絡數據通信,計算網絡的性能對并行程序的計算性能、并18行加速比以及可擴展性有決定性的影響。這主要反映在兩方面。如果并行計算程序的數據通信以小數據包為主,且數據交換非常頻繁,這一類并行程序對計算網絡的延遲性能非常敏感,計算網絡的延遲越低,程序的并行性能越好;如果并行計算程序數據通信大數據包較多,則對計算網絡的帶寬性能敏感,計算網絡的帶寬越高,程序的并行性能越好。實際情況中,大部分并行應用程序對計算網絡的帶寬和延遲
39、性能都非常依賴,低延遲、高帶寬的計算網絡是大規模并行計算必不可少的要素。另一方面,目前大規模高性能計算集群均采用并行存儲架構,集群的規模越大,或者應用程序對存儲 I/O 性能要求越高,則對并行存儲系統的存儲網絡性能要求越高,要求存儲網絡具有低延遲、高帶寬的特性。19(二)人工智能加速生命科學解決方案(二)人工智能加速生命科學解決方案隨著 AI 應用多樣化且越來越成熟,AI 應用不斷落地加速社會生產力的提升。人工智能在生命科學領域的應用,也加速行業轉型。1、AI 發展加速生命科學的應用在智慧科研方面:通過人工智能的應用,使 AlphaFold 2 計算精準預測蛋白質結構;用 FourCastNe
40、t 將天氣預報提速 45000 倍;DeePMD-kit 提升分子動力學極限至 10 億原子規模并保持高精度;用流體、結構 PDE 方程 AI 求解。圖 2 AI 應用加速行業轉型AI 技術在基因數據分析和醫療影像識別中的應用,面向臨床方面,應用于醫療影像識別、基因突變和疾病診斷、基因表達分析;面向科研,應用關于鑒別基因中的組分、蛋白同源性分析和結構預測。20圖 3 AI 加速生命科學領域應用人工智能在生命科學的應用方法,首先有算法和框架,應用產生數據,通過人工智能的計算能力提高,進一步加速應用。算法和框架:在應用中,合理的算法和模型設計十分關鍵;可以把算法設計/優化問題轉化為深度學習模型設計
41、/優化問題,從而借鑒深度學習其它領域的成果;利用 TensorFlow、Caffe 等框架來簡化模型/算法開發時間。數據:DNA 測序價格的持續走低提供了海量的數據,傳統的統計分析方法跟不上數據爆炸式增長的節奏;AI 為我們提供了挖掘數據價值的更佳方式。計算能力:GPU 加速芯片可以為模型訓練提供強力支撐,GPU 加速芯片和設備可以在推理時加速數據處理,應對海量數據挑戰。212、聯想人工智能解決方案框架聯想的人工智能算力框架可以應用于生命科學的應用。AI 基礎設施提供硬件層次的基礎架構,如訓練服務器、邊緣服務器、高速網絡和存儲,以及硬件虛擬化、操作系統和計算中間件。中間層是對算力的調度,算力平
42、臺的使用管理、算力行業使能和工具使用;最上層是行業的應用。智能醫療行業生命科學是人工智能的重要領域。圖 4 聯想人工智能算力框架(三)生命科學算力平臺解決方案(三)生命科學算力平臺解決方案生命科學算力平臺解決方案是結合了高性能計算平臺和人工智能計算平臺,根據生命科學領域的應用特點形成了一個科學計算平臺,應用于該領域。22圖 5 聯想生命科學算力平臺平臺架構上包含硬件底層的硬件環境、中間的平臺環境,和算力平臺的管理系統和編譯環境,并應用于生命科學領域。底層硬件環境包括節點系統、網絡系統和存儲系統。節點系統由計算節點組成,帶有 GPU 處理器的聯想服務器,包括聯想高密度刀片服務器和胖節點服務器,提
43、供強大的計算能力,以完成海量生命科學數據的計算和 AI 訓練任務。網絡系統包括管理網、監控網和計算網。管理網用于 AI 集群系統的管理和監控;監控網用于各節點和設備硬件管理和監控;計算網絡為萬兆(RoCE)以太網或 InfiniBand 網絡,承擔并行計算時的數據通訊。存儲系統采用聯想 DSS 并行存儲系統。平臺環境實現作業調度功能、集群的管理、并行文件系統;編譯環境實現各種庫的調用。聯想研發了 LiCO 7.0 人工智能平臺,實現算力平臺的統一管理。LiCO 7.0 是聯想自主研發的高性能計算和人工智能系統平臺軟件,不但具有豐富的集群管理功能,如集群管理和監控、集群資源管理和作業調度、用戶和
44、賬戶管理、集群系統監控功23能,而且具有包含了目前應用最多的多種深度學習框架,如 Caffe、Tensorflow、MXNet,用戶可以基于 LiCO7.0 平臺,直接編寫自己的算法,調用 LiCO7.0 平臺中的函數庫和軟件包,進行訓練學習,省去多種深度學習框架的安裝和部署等容易帶來異常的繁瑣步驟。LiCO7.0 平臺為人工智能用戶使用 AI 算法帶來非常大的便捷。24三、生命科學參考客戶案例三、生命科學參考客戶案例聯想的生命科學算力解決方案已經服務于多個和生命科學相關的領域與行業,聯想在這方面積累了豐富的經驗。典型的有高校的生命科學研究平臺,和服務于國內主流的三甲醫院的研究和臨床平臺。(一
45、)某醫院組學和深度影像學習平臺(一)某醫院組學和深度影像學習平臺某總醫院是集醫療、保健、教學、科研于一體的大型現代化綜合性醫院。醫院的信息化建設一直走在全國前列,取得了對行業發展有重要影響的系列成果,擁有一支素質高、能力強的技術人才隊伍,積累了豐富的數據資源。為了充分挖掘醫院的數據資源潛力,支撐醫學科技創新發展,醫院在行業中率先成立了醫療大數據中心,系統化開展數據資源開發利用工作。近年,醫院更獲批為國家“醫療大數據國家實驗室”建設單位,面向醫療行業開展大數據應用創新。醫療大數據中心的主要發展方向是,圍繞醫療大數據整合、數據處理與分析、智能化輔助診療、醫院管理決策、安全隱私保護等開展技術創新、標
46、準創新、產品創新和應用創新。為醫療大數據技術的研發應用提供一流的支撐保障。大數據中心已經擁有大量的組學、蛋白組、影像等醫學數據,客觀上存在深入研究的數據基礎,但是在實際研究中發現基因組學研究需要大量的計算能力、存儲能力,醫療影像分析需要支撐機器學習的25計算能力、圖形處理能力以及相應的算法基礎平臺。這些需求促使我中心進行高性能集群建設。1、學科平臺需要支撐運行的軟件表 2 學科平臺需要支撐運行的軟件學科解決方案數據/應用程序特點主要應用程序生物信息學-序列分析搜索、對齊生物序 列(DNA 和 蛋白質)并對其進行模式匹配結構化數據整數占主導,頻率依賴性,大量緩存和內存 BW 并非關鍵,一些算法適
47、合進行SIMD 加速NCBIBLAST、wuBLAST、ClustalW、HMMER、FASTA,Smith-Waterman生物信息學-NGS對齊并合并 DNA短片段,以重建原始序列一些需要大量內存許多為 IO 密集型任務字符串分析和匹配算法Phrap/phred、CAP3/PCAP、Velvet、ABySS、SOAPdenovo、Newbler、MAQBOWTIE、BFAST、SOAP、BioScope、SAM 工具、GATK計算化學-分子模擬和量子力量使用分子動力學和量子力學技術對生物分子進行建模需要處理大量浮點數據延遲至關重要頻率依賴性可縮短到 100 秒以下CHARMM/CHAR、G
48、ROMACS、Desmond、AMBER、NAMD、Gaussian、GAMESS、Jaguar、NWCHEM蛋白質組學解讀質譜分析數據,將頻譜與蛋白質數據庫進行匹配整數比較FFT 頻譜分析具有浮點數據對通信要求不高Mascot、Sequest、ProteinProspector、X!Tandem、OMSSA結構生物學用物理學方法,配合生物化學和分子生物學方法研究生物大分子結構與功能數據量大計算密集型Relio 為典型代表(GPU 優化)26根據中心研究課題安排,建設兩個集群:基因組學集群,深度影像學習平臺?;蚪M學集群:用途:基因、蛋白質、生物序列,分子研究;數據源:自有數據及第三方公開數據
49、集;主要應用:clc genomics workbench;用途:臨床輔助;深度影像學習集群:用途:肝肺等、腫瘤 AI 研究;數據源:自有數據及各醫學研究中心相關影像數據;主要應用:基于 Tensorflow,Pytorch 自研應用;用途:臨床輔助。2、算力平臺建設要求和主要特點(1)架構要求通用性:有大型案例驗證的通用性架構,能夠使用業內常用的框架??蓴U展性:未來會根據研究成果和科研需求對集群進行擴建,所用架構必須具有技術持續性,未來擴展在原集群擴建即可。(2)網絡要求27高帶寬:特別是組學分析,對帶寬要求高低時延:多任務并發,時延問題將會放大無阻塞:計算存儲要求網絡一致,做到無阻塞連接,
50、防止形成集群短板。(3)計算能力要求經調研,組學集群需 50TFlops 以上浮點運算能力。經調研,深度影像集群需 160TFlops 以上浮點運算能力,選用訓練能力和推理能力均衡的 NVDIA Tesla V100 GPU。(4)存儲要求容量要求:組學分析需不少于 200TB 容量,深度影像學習平臺需不少于 100TB 容量。帶寬要求:組學分析對帶寬要求比較高,要求多流讀寫達到7GB/s以上,單流讀寫 3GB/s 以上。文件系統要求:非開源的商業版文件系統,有成熟應用案例,技術支持有保障??蓴U展要求:隨著未來集群的成熟使用,數據一定會有海量增加,存儲架構要可擴展到海量容量;同時由于現階段,機
51、房空間和供電有限,需要考慮整體功耗,未來擴展給機房帶來的空間和功耗壓力。28(5)集群管理平臺要求具有管理、調度、監控功能,兼容常用的調度系統,具有良好的交互能力。最好兩個平臺使用的集群管理平臺為同一個(兼顧高性能與 AI框架),減少學習成本。(6)平臺系統架構圖 6 組學分析系統架構(二)北京大學算力平臺“未名生科一號”(二)北京大學算力平臺“未名生科一號”北京大學高性能計算平臺“未名生科一號”系統上線后,在不到一年的時間,完成了“未名一號”“未名教學一號”“未名生科一號”等三套聯想超算系統的建設,通過機制體制創新,建成了一個融教學科研計算、海量數據處理、信息管理服務于一體的高性能計算校級公
52、29共服務平臺,能夠較好地滿足學校各學科領域對于大規模數據處理和大規??茖W計算的普遍需求、專門學科領域對于高性能計算的特殊需求、各院系日常教學對于高性能計算的基本需求,通過組建一支高素質的專家管理團隊和專業技術隊伍,為學校的重點學科建設和高素質人才培養提供了有力支撐,取得了豐碩的科研成果,實現了學校建設高性能計算校級公共服務平臺的初衷和目標。圖 7“未名生科一號”“未名生科一號”是學校根據生命科學及其相關前沿交叉學科建設的需要,在北大高性能計算校級公共平臺上建設的第三套超算系統,主要用于冷凍電鏡平臺的數據處理和存儲?!拔疵埔惶枴睂炏确沼诶鋬鲭婄R平臺的科研工作,同時也為其他學科領域提供不
53、低于 30%的公共機時?!拔疵埔惶枴钡慕ǔ?,將有效緩解高性能30計算平臺首套系統“未名一號”的排隊情況,為廣大師生營造更加優質的高性能計算環境?!拔疵埔惶枴辈捎寐撓肷铗v X8810 超級計算機系統建設,由150 個節點組成,共計 4688 個 CPU 核心,28 塊 GPU 卡,總體計算能力理論峰值為 587.8TFLOPS,其中 CPU 節點計算能力為 343.4TFLOPS,GPU 等其他節點總計算能力為 244.4TFLOPS,存儲容量為 10.2PB。計算節點 CPU 支持 AVX-512 指令集,大幅度提升了處理器的浮點運算能力。計算網絡采用 omni-path 架構,安裝有
54、 intel、gcc 等編譯器,作業管理采用 slurm 調度系統,集群管理采用自主開發的集群監控管理套件?!拔疵埔惶枴蓖度脒\行后,為項目組和科研人員提供了計算支持,包括生命科學學院,物理學院,分子醫學研究所,北京國際數學中心等,系統的平均使用率為 94.7%。北京大學高性能計算校級公共平臺體制先進、技術領先、運行平穩、作業飽滿、效率卓越、節能環保、成果豐碩,取得了良好的工作成效。自 2018 年 1 月 3 日正式投入運行以來,已經為學校 26 個院系的 500 余名師生提供了計算服務,支撐了大量科研項目。成果分布于數學、物理、化學、生物、信科、工學、醫學、藥學、地學、大氣、材料等 10
55、 余個學科領域。31圖 8 水合離子的微觀結構和幻數效應圖 9 DNA 復制起點識別復合物 3-分辨率結構32圖 10“未名生科一號”節點使用率和用戶作業數圖 11“未名一號”節點使用率和用戶作業數高性能計算平臺自第一套超算“未名一號”建成以來,因其卓越的技術優勢、良好的推廣宣傳和周到的技術服務,迅速在業界和校內外取得了巨大反響,技術團隊多次受邀在重要學術會議做大會交流,很多兄弟院校前來參觀學習,校內科研團隊上機積極踴躍,平臺迅速成為北大科研工作的重要支撐。與此同時,很多在平臺獲益的老師希望在教學中也能使用系統,為課程實習和科研訓練提供上機環境?!拔疵虒W一號”于 2018 年 5 月 4 日
56、北大 120 周年校慶期間正式上線運行,不僅解除了老師們搭建系統的后顧之憂,更是體現了平臺服務學校核心需求的大局意識,有效支持了北大人才培養工作。至今運33行良好,支持了大量科研工作。圖 12 兄弟院校前來參觀交流“未名生科一號”的建成,為北京大學的尖端科研計算開拓新的發展空間。它既實現了高性能計算平臺兩級架構的建設思路,提升了平臺對重大科研的支撐能力,又有效改善了生命科學的研究手段,對生物物理、定量生物學、結構分子生物學和分子醫學等前沿交叉學科的發展起到重要的推動作用。北京大學高性能計算平臺以先進卓越的技術、科學規范的管理以及豐富細致的用戶服務助力更多高質量、原創性、標志性的科研成果產出,為北京大學創建世界一流大學夯實創新環境基礎作出應有的貢獻。34聯想(北京)信息技術有限公司地址:北京市海淀區上地西路 6 號 2 幢 2 層 201-H2-2郵編:100094電話:021-80512828傳真:010-58866631網址:https:/