您的當前位置: 首頁 > 新聞中心 > 行業知識 > 什么是特征工程?基本流程是?方法有哪些?

什么是特征工程?基本流程是?方法有哪些?

1、特征工程

特征工程指表征和轉換原始數據的工程方法,是機器學習整個流程中連接“數據”和“算法”的關鍵步驟,也往往是最花費時間和精力的一步。Barga 等(2015)定義:特征工程(Feature engineering)是將原始數據轉化為更能代表機器學習算法潛在問題的特征,從而提高模型精度的過程。

特征工程中的特征(Feature)指原始數據某方面的數學表現。特征位于數據和模型之間,機器學習通過將數據擬合到數學模型中獲取結論或做出預測,要輸入模型的就是特征。

2、特征工程基本流程

特征工程是將原始數據轉換為更高效的編碼方式(特征)的過程,主要包括三個部分:特征處理、特征選擇和特征監控。

1)特征提取

特征提取是特征工程的基礎,包括數據預處理、特征構建和特征提取。特征構建是“頭腦風暴”的過程,要求在理解研究問題和數據背景的基礎上,結合專業領域知識、數學知識甚至是經驗和直覺,初步構思具有物理意義的數據特征,主要有三種方法:①結合學科知識和過去研究經驗自行構建特征;②結合專家意見優化特征;③通過“眾包”方法構建特征。

數據預處理和特征提取通常交叉進行,主要完成三個任務:(1)清洗數據并進行預處理,使數據和特征能夠更好地適應模型;(2)結合原始數據和特征構建,“盡可能多”地提取相關特征形成特征集;(3)通過數據清洗和特征提取后可以得到未經處理的原始特征,這些特征可能存在數據缺失、特征缺失、數據不屬于同一量綱等問題,需要進一步處理,常用方法有①使用標準化、歸一化、區間縮放等方法對數據無量綱化;②對定性特征編碼;③對部分定量特征進行變換,包括二值化、分箱/分區、構造交叉特征等;④缺失值的處理方法有刪除、統計填充、統一填充、預測填充等,需要具體問題具體分析。

2)特征選擇

特征選擇是特征工程的核心,通過修減特征來減少噪聲和冗余。選擇合適的特征子集,一方面能減少特征間的相互影響,避免過擬合,提高模型的泛化能力和運算速度;另一方面能提高模型的可解釋性。依據特征選擇在特征工程流程中的位置,相關方法分為三種:過濾法、包裹法和嵌入法。

①過濾法(Filter):首先依據相關性或發散性選擇特征,之后輸入模型。常用方法有相關系數法、方差選擇法、卡方檢驗法和互信息法。這些方法具有一個共同的核心思想:選擇與目標特征相關度高、與其他特征相關度小、特征本身容易識別(發散性高)的特征。

②包裹法(Wrapper):采用特征搜索方法,不斷選擇特征自己,并將不同的特征子集輸入目標函數,依據分類效果遞歸地選擇或排除特征,簡而言之,就是選擇-輸入目標函數進行驗證-依據驗證結果再選擇-輸入目標函數再驗證的循環過程。包裹法主要使用遞歸特征消除法,其原理是每次篩除一個“最差”的特征,迭代直到特征數少于閾值。

③嵌入法(Embedded):使用機器學習算法訓練模型,得到各個特征的權值系數,依據權值選擇特征。決策樹就是一種嵌入式的特征選擇,每次分枝都是為了“選擇當前情況下分類效果最好的特征”。隨著人工智能領域的發展,具有自動學習特征能力的深度學習為特征選擇和基于特征的預測建模提供了新思路。

3)特征監控和評價

特征監控和評價通常是與特征選擇、模型訓練和測試相結合的,特征選擇本身就是依據特征質量和權重選擇有效的特征,機器學習建模時也需要評估模型性能。

推薦閱讀:《Merlin NVTabular:基于 GPU 加速的推薦系統特征工程最佳實踐.pdf

Apache MXNet 2.0:連接深度學習與傳統機器學習.pdf

Talkdesk:人工智能、聊天機器人及機器學習指南(英文版)(78頁).pdf

本文由作者2200發布,版權歸原作者所有,禁止轉載。本文僅代表作者個人觀點,與本網無關。本文文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

相關報告

Merlin NVTabular:基于 GPU 加速的推薦系統特征工程最佳實踐.pdf
Merlin NVTabular:基于 GPU 加速的推薦系統特征工程最佳實踐.pdf

NVIDIAMerlinNVTabular:基于GPU加速的推薦系統特征工程最佳實踐黃孟迪,NVIDIA深度學習工程師#page#RELATED SESSIONS IN GTC CHINALearning More About NVIDIA MerlinMerlin:GPU加速的推薦系統框架CNS20590

混沌工程實驗室:中國混沌工程調查報告(2021年)(21頁).pdf
混沌工程實驗室:中國混沌工程調查報告(2021年)(21頁).pdf

技術就緒是實施混沌工程的前置條件,產品技術層面的就緒包括:完善的監控體系、可量化的系統穩定性評估體系及系統已具備韌性基礎。調查數據顯示(圖 18),65.59%的用戶認為具備完善的監控體系是混沌工程實施的首要前置條件,超 60%的用戶需要對混沌實驗時故障注入后的影響有可量化的評估模型,而團隊協作在用戶的認知

中國工程院戰略咨詢中心:2021全球工程前沿報告(239頁).pdf
中國工程院戰略咨詢中心:2021全球工程前沿報告(239頁).pdf

目錄全球工程前沿Engineering FrontsI引言1第一章研究方法31工程研究前沿的遴選31.1論文數據的獲取與預處理41.2論文主題挖掘41.3研究前沿的確定與解讀42工程開發前沿的遴選52.1專利數據的獲取與預處理62.2專利主題挖掘62.3開發前沿的確定與解讀63術語解釋6第二章領域報告9一、

【公司研究】山河智能-地下工程裝備龍頭受益工程機械景氣度持續-20200519[27頁].pdf
【公司研究】山河智能-地下工程裝備龍頭受益工程機械景氣度持續-20200519[27頁].pdf

請務必閱讀正文之后的請務必閱讀正文之后的重要聲明重要聲明部分部分 評級:評級:增持增持( (首次首次) ) 市場價格:市場價格:6 6.52.52 分析師:馮勝分析師:馮勝 執業證書編號:執業證書編號:S0740519050004 電話:0755-22660869 Email: 分析師:王可分析師:王可 執

電力工程行業:碳中和及新能源加速推進電力工程行業迎來新契機-210724(32頁).pdf
電力工程行業:碳中和及新能源加速推進電力工程行業迎來新契機-210724(32頁).pdf

考慮到公司作為電力工程公司, 因此選取電力工程公司中國電建、葛洲壩作為可比公司、太極實業作為可比公司?;?PE 估值法,給予 9.8倍估值,對應股票價值為 2.5 元;基于 PS 估值法,給予 0.5 倍估值,對應股價為 5.9 元。綜合考慮兩種估值法,給予公司目標價 4.15元,對應 2021-23 年

客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站