《2019年機器學習算法的分類與選擇.pdf》由會員分享,可在線閱讀,更多相關《2019年機器學習算法的分類與選擇.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、1機 器 學 習 算 法 的分 類&選 擇中國人民解放軍總醫院 醫療大數據中心2019年7月4日CHIMA 20192機器學習算法PCALDAK-meansDBSCANSVM邏輯回歸隨機森林GBDTAdaboostKNNXgboost決策樹神經網絡CHIMA 20193SupervisedLinear Discriminant AnalysisDimension ReductionTry PCA聚 類分 類降 維回 歸CHIMA 201940101020203030404特特征征降降維維聚聚類類分分類類&回回歸歸總總結結目錄CHIMA 20195特征降維特征向量較多時使用SVM進行分類,結果并
2、不理想;隨機刪除幾個特征后,準確率反而提升?CHIMA 20196特征降維=特征選擇?通過屬性間的關系(如組合不同的屬性得新的屬性)改變原來的特征空間特征選擇特征降維從原始特征數據集中選擇出子集,是一種包含的關系,沒有更改原始的特征空間找一個高維到低維的映射!刪除若干特征!CHIMA 20197特征選擇按照發散性或者相關性對各個特征進行評分,設定閾值或者待選擇閾值的個數,選擇特征。如:移除低方差的特征、移除相關性較高的特征Filter(過濾法)Wrapper(包裝法)Embedded(嵌入法)根據目標函數(通常是預測效果評分),每次選擇若干特征,或者排除若干特征。如:遞歸地訓練基模型,移除對模
3、型貢獻度較小的特征使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據系數從大到小選擇特征。如:基于隨機森林的特征選擇方法CHIMA 20198特征降維 無監督的降維 找到一個能最大保留數據方差信息的子空間,降維后的數據是原來特征在新空間中的映射值APCA(主成分分析)SVD(奇異值分解)LDA(線性判別分析)無監督的降維 將矩陣A分解為三個矩陣UVT的乘積,選擇中數值較大的幾個奇異值及U和VT中對應的奇異向量,完成特征降維。有監督的降維 相同類別在超平面上投影之間的距離盡可能近,不同類別投影之間的距離盡可能遠,最多降到類別數-1的維數CHIMA 20199降維算法的注意事項:P
4、CA、SVD、LDA均為線性降維方法,但可引入核函數實現非線性降維,此外還有一些非線性降維方法如Isomap譜嵌入法等 LDA作為有監督的降維方法,容易使后續的分類過程發生過擬合應用:PCA是最常用的數據降維方法,可用于圖像壓縮等領域SVD可用于推薦系統、自然語言處理等領域,如電子病歷文本潛在語義分析LDA既可以用于降維也可用于分類缺點:經過降維后的數據與原特征不存在一一對應關系,較難解釋CHIMA 201910案例分享1利用PCA對數據集去噪心衰患者是否發生院內死亡預測選取2015-2018年于解放軍總醫院住院的心衰患者,根據是否發生院內死亡選擇正樣本1094例,隨機篩選負樣本1094例,選
5、用94個特征用SVM做分類,利用5折交叉驗證法進行結果評估?;拘畔?項性別年齡BMI共病信息6項呼衰腎衰腦梗冠心病糖尿病高血壓檢查信息9項射血分數縮短分數胸腔積液心包積液二尖瓣反流檢驗信息76項血常規類15項血生化類38項尿類化驗23項SVM 5折交叉驗證結果訓練集AUC測試集AUC未經過PCA降維0.95910.8436經過PCA降維到90維0.90090.8605特征分布情況CHIMA 201911聚 類想做一個分類問題,但是卻沒有分類標簽?如:疾病可能存在的亞型研究如:疾病風險因素的歸類分析CHIMA 201912聚類層次聚類凝聚方法AGNES分裂方法DIANA密度聚類DBSCAN原型
6、聚類GMMK-meansAGNESDBSCANGMM聚類方法的類別CHIMA 201913 對數值型數據進行聚類 隨機選取K個對象作為初始的聚類中心,把每個對象分配給距離它最近的聚類中心,根據聚類中現有的對象重新計算聚類中心,不斷重復此過程直到滿足終止條件K-MEANS(K均值聚類)K-means聚類(不斷迭代過程)K-modes(k眾數聚類)對分類型數據進行聚類 采用差異度(屬性不相同的個數)來代替k-means算法中的距離CHIMA 201914聚類方法優缺點:優點:讓數據變得有意義缺點:結果難以解讀,針對不尋常的數據組,結果可能無用分層聚類:不需要預先制定聚類數,可以發現類的層次關系;耗
7、時,受離群值影響大密度聚類:不需要輸入類別數,可發現任意形狀的聚類簇,可識別離群值;無法反映數據尺寸,對高維數據密度難以定義K-means聚類:簡單,最常用;僅適用凸的樣本集聚類,受離群值影響大高斯混合聚類:在各類尺寸不同、聚類間有相關關系時可能比k-means聚類更合適;需要初始化多個參數高斯混合聚類K-means分層聚類密度聚類原型聚類https:/scikit-learn.org/stable/modules/clustering.htmlCHIMA 201915聚類方法在醫學中的應用:1.無監督的醫學圖像分割2.疾病可能存在的亞型分類研究 采用聚類分析為早期帕金森疾病分亞型,對致病機制
8、假說的提出和治療策略的制定有重大暗示3.疾病與模式基因之間的關聯關系分析研究4.特征解釋CHIMA 201916案例分享2利用層次聚類解釋模型腸道菌群與年齡之間的關系研究從公共數據庫中選用江蘇地區923個健康人(按照年齡被分為7組)糞便檢材的16S測序數據,從中獲取5621個菌群的豐度值,特征篩選后得到278個菌群的豐度值,用來對不同年齡分組的樣本做層次聚類。分組年齡人數幼兒園學生3-6103小學生8-12161中學生13-14114青年人19-24135中年人30-5086老年人60-7986長壽老人94198長壽老人老年人青年人幼兒園學生小學生中年人中學生CHIMA 201917分類&回歸
9、疾病發病風險預測術式選擇術后恢復時間預測藥效評估CHIMA 201918分類Logistic Regression(邏輯回歸)Decision Tree(決策樹)Random Forest(隨機森林)GBDT(梯度提升樹)Neural Network(神經網絡)SVM(支持向量機)Naive Bayes(樸素貝葉斯)回歸Linear Regression(線性回歸)Decision Tree(決策樹)Random Forest(隨機森林)GBDT(梯度提升樹)Neural Network(神經網絡)SVR(支持向量回歸)分類&回歸常用方法CHIMA 201919分類&回歸算法常見問題:A AB
10、 BC C各種算法的各種算法的優缺點優缺點缺失值、異缺失值、異常值對算法常值對算法的影響的影響冗余特征對冗余特征對算法的影響算法的影響D D是否可進行模是否可進行模型解釋,得到型解釋,得到特征權重特征權重CHIMA 201920模型優點缺點線性/邏輯回歸1.容易使用和解釋。1.要求數據線性可分;2.容易欠擬合。決策樹1.易于理解和解釋,運行速度快;2.對于噪聲干擾具有較好魯棒性。1.容易過擬合;2.模型結構不穩定。隨機森林1.訓練速度快;2.泛化能力強,預測精度高。1.取值劃分較多的屬性會對模型產生更大的影響。梯度提升樹1.預測精度高,能處理非線性數據。1.難以并行訓練數據,數據維度較高計算復
11、雜度也高。神經網絡1.分類準確度高,對噪聲有較強的魯棒性;2.具備聯想記憶的功能。1.需要大量的參數,學習時間過長;2.學習過程為黑盒,輸出結果難以解釋。支持向量機(回歸)1.可解決小樣本情況下的機器學習問題;2.泛化性能較強1.對缺失數據敏感;2.運行復雜度較高。樸素貝葉斯1.穩定的分類效率;2.模型所需估計的參數很少,算法簡單。1.需要計算先驗概率;2.分類決策存在錯誤率。問題一:各種算法的優缺點CHIMA 201921案例分享3樹模型會賦予連續變量更大的權重?數據來源:2015年解放軍總醫院醫院開展的社區流行病學調查 研究目的:發掘冠心病的發病風險因素 樣本情況:正、負樣本各1590例
12、29個特征向量:性別、年齡、BMI、腰臀比、抽煙、喝酒共病信息、家族史生命體征信息、ECG檢查信息 采用模型:隨機森林00.050.10.150.20.250.3高血壓病程年齡糖尿病病程是否有血脂異常是否有其他共病腰臀比BMI平均收縮壓平均舒張壓腦卒中病程連續變量離散化前連續變量離散化后CHIMA 201922問題二:缺失值、異常值對算法的影響問題三:冗余特征對算法的影響問題四:是否可進行模型解釋,得到特征權重模型對缺失值、異常值的敏感度對冗余特征的敏感度是否可得到特征權重線性/邏輯回歸敏感一般敏感可以決策樹不敏感不敏感可以隨機森林不敏感不敏感可以梯度提升樹不敏感不敏感可以神經網絡不敏感不敏感
13、不可以支持向量機(回歸)敏感敏感不可以樸素貝葉斯不敏感敏感不可以CHIMA 201923案例分享4不同分類器對缺失值的敏感度 樸素貝葉斯對缺失值的敏感程度最低 KNN(K-最近鄰,基于距離的方法)對缺失值的敏感程度最高 決策樹、神經網絡對缺失值的敏感程度不高Liu P,Lei L,Wu N.A Quantitative Study of the Effect of Missing Data in ClassifiersC/Fifth International Conference on Computer&Information Technology.2005.CHIMA 201924分類算法選擇的建議:分類需要得到特征權重邏輯回歸隨機森林其他基于樹的bagging或boosting算法不需要得到特征權重邏輯回歸隨機森林其他基于樹的bagging或boosting算法SVM、神經網絡CHIMA 201925總 結CHIMA 201926如何選擇機器學習算法:312確定數據分析目的降維聚類分類回歸了解數據數據量大小缺失值、異常值冗余度數據的分布情況考慮資源合理性軟硬件的配置是否滿足當前數據集下算法的正常運行CHIMA 201927中國人民解放軍總醫院 醫療大數據中心CHIMA 2019