《基于數加MaxCompute的極速基因組數據分析(17頁).pdf》由會員分享,可在線閱讀,更多相關《基于數加MaxCompute的極速基因組數據分析(17頁).pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、黃樹嘉華大基因 基因組學數據專家基于數加MaxCompute的極速全基因組數據分析全基因組測序的背景與原理傳統單機分析流程的挑戰基于MaxCompute的方案目 錄content什么是基因基因,生命的基本因素,是人類和其他生物的基礎遺傳物質什么是基因測序一個人一生的基因數據10TB=0.1TB +0.7TB +2TB +3TB +X TB基因組轉錄組表觀組 宏基因組其他Sequencing1 1 AnalysisAnalysisAlignmentVariant calling2 2 AnalysisAnalysisVariant interpretationExternal/Internal
2、knowledge integration3 3 AnalysisAnalysisKnowledge基因數據分析的過程傳統單機分析流程的挑戰挑戰1:流程繁雜,標準難統一分析流程特點:1.多個分析步驟2.每個步驟都會包含很多分析腳本,系統命令和外部工具3.工具要被反復手動部署到計算集群挑戰2:命令行操作、交互性差挑戰3:時間長時間(小時)傳統HPC集群72(3.0 days)單個節點計算140(5.8 days)分析一個人的基因組120G數據,往往需要3天以上的時間。數據的解讀跟不上數據的產出。一次測序的數據產出測序儀測序儀一次測序的數一次測序的數據總產量據總產量一次測序的一次測序的Reads(
3、Billion)測序讀長(測序讀長(bp)測序時間周期測序時間周期HiSeq 3000750GB2.1-2.5PE 1503.5 daysHiSeq 40001.5TB4.3-5.0PE 1503.5 days基于MaxCompute的方案MapperMapperMapperGVCF Tables ReducerReducerReducerReducerReducerReducerMaxCompute分布式計算020406080100單節點普通HPC集群 Hadoop集群MaxCompute比單機提升 50+倍比HPC集群提升 25+倍比Hadoop集群提升6+倍單個基因組分析實現50+倍的加速120G數據3個小時精確度:99.57%Recall:98.53%F-Measure:99.05%更快:50個全基因組分析數據來源于華大基因內部已有成果發表的項目2大步驟,70000+任務,41.5小時2steps70000+Jobs41.5hours50min/genome2TFASTQ21G VCF海量的計算,從原始數據到精確變異