《埃哲森:大數據分析及工具應用報告(65頁).pdf》由會員分享,可在線閱讀,更多相關《埃哲森:大數據分析及工具應用報告(65頁).pdf(65頁珍藏版)》請在三個皮匠報告上搜索。
1、大數據分析及工具應用大數據分析及工具應用 目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 數據分析即從數據、信息到知識的過程,數據分析需要數學數據分析即從數據、信息到知識的過程,數據分析需要數學理論、行業經驗以及計算機工具三者結合理論、行業經驗以及計算機工具三者結合 分析分析誤區誤區 數據數據挖掘挖掘 行業經驗 傳統傳統 分析分析 機器機器 學習學習 數學數學&統計學知識統計學知識 數據分析的基礎,將整理、描
2、述、預測數據的手段、過程抽象為數學模型的理論知識 工具支撐工具支撐 各種廠商開發了數據分析的工具、模塊,將分析模型封裝,使不了解技術的人也能夠快捷的實現數學建模,快速響應分析需求。行業經驗行業經驗 行業經驗可在數據分析前確定分析需求,分析中檢驗方法是否合理,以及分析后指導應用,但行業特征不同,其應用也不同,因此本文不展開介紹 傳統分析傳統分析 在數據量較少時,傳統的數據分析已能夠發現數據中包含的知識,包括結構分析、杜邦分析等模型,方法成熟,應用廣泛,本文不展開介紹 分析誤區分析誤區 不了解分析模型的數學原理,會導致錯誤的使用模型,而得出錯誤的分析結論,影響業務決策,因此在選用分析模型時,要深入
3、了解該模型的原理和使用限制 機器學習機器學習 不需要人過多干預,通過計算機自動學習,發現數據規律,但結論不易控制。數據挖掘數據挖掘 數據挖掘是挖掘數據背后隱藏的知識的重要手段 隨著計算機技術發展和數據分析理論的更新,當前的數據分隨著計算機技術發展和數據分析理論的更新,當前的數據分析逐步成為機器語言、統計知識兩個學科的交集析逐步成為機器語言、統計知識兩個學科的交集(備選)(備選)數據數據 挖掘挖掘 業務數據 數據挖掘數據挖掘 就是充分利用了統計學和人工智能技術的應用程序,并把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。信息處理信息處理
4、 信息處理信息處理 信息處理基于查詢,可以發現有用的信息。但是這種查詢的回答反映的是直接存放在數據庫中的信息。它們不反映復雜的模式,或隱藏在數據庫中的規律。傳統分析傳統分析 數據分析數據分析 工具工具 傳統分析傳統分析 在數據量較少時,傳統的數據分析已能夠發現數據中包含的知識,包括結構分析、杜邦分析等模型,方法成熟,應用廣泛,本文不展開介紹 數據分析工具數據分析工具 各種廠商開發了數據分析的工具、模塊,將分析模型封裝,使不了解技術的人也能夠快捷的實現數學建模,快速響應分析需求。隨著計算機科學的進步,數據挖掘、商務智能、大數據等概隨著計算機科學的進步,數據挖掘、商務智能、大數據等概念的出現,數據
5、分析的手段和方法更加豐富念的出現,數據分析的手段和方法更加豐富 一系列以事實為支持,輔助商業決策的技術和方法,曾用名包括專家系統、智能決策等 一般由數據倉庫、聯機分析處理、數據挖掘、數據備份和恢復等部分組成 對數據分析的體系化管理,數據分析的主體依然是數據挖掘 結構分析 分組分析 杜邦分析 預警分析 常規分析常規分析 揭示數據之間的靜態關系 分析過程滯后 對數據質量要求高 商務智能商務智能 數據挖掘數據挖掘 大數據技術大數據技術 數據可視化數據可視化 統計學和計算機技術等多學科的結合 揭示數據之間隱藏的關系 將數據分析的范圍從“已知”擴展到“未知”,從“過去”推向“將來”從多種類型的數據中,快
6、速獲取知識的能力 數據挖掘技術的衍生 大數據時代,展示數據可以更好輔助理解數據、演繹數據 本文在描述數據分析的流程后,重點介紹通用的數據分析方法和主流的應用工具、軟件。隨著數據量的不斷擴大,數據分析理論正處于飛速發展期,因此本文的方法側重于基礎原理介紹。數據數據 分析分析 目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 1.1.業務理解業務理解(business understanding(business
7、understanding)確定目標、明確分析需求 2.2.數據理解(數據理解(data understandingdata understanding)收集原始數據、描述數據、探索數據、檢驗數據質量 3.3.數據準備數據準備(data preparation)(data preparation)選擇數據、清洗數據、構造數據、整合數據、格式化數據 4.4.建立模型建立模型(modeling(modeling)選擇建模技術、參數調優、生成測試計劃、構建模型 5.5.評估模型評估模型(evaluation)(evaluation)對模型進行較為全面的評價,評價結果、重審過程 6.6.部署部署(de
8、ployment)(deployment)分析結果應用 數據分析標準流程數據分析標準流程 CRISP-DM為90年代由SIG組織(當時)提出,已被業界廣泛認可的數據分析流程。數據分析框架數據分析框架 業務理解業務理解 數據理解數據理解 數據準備數據準備 建立模型建立模型 理解業務背景,評估分析需求 模型評估模型評估 應用應用 理解業務背景:理解業務背景:數據分析的本質是服務于業務需求,如果沒有業務理解,缺乏業務指導,會導致分析無法落地。評估業務需求:評估業務需求:判斷分析需求是否可以轉換為數據分析項目,某些需求是不能有效轉換為數據分析項目的,比如不符合商業邏輯、數據不足、數據質量極差等。數據收
9、集 數據清洗 數據收集:數據收集:抽取的數據必須能夠正確反映業務需求,否則分析結論會對業務將造成誤導。數據清洗:數據清洗:原始數據中存在數據缺失和壞數據,如果不處理會導致模型失效,因此對數據通過過濾“去噪”從而提取出有效數據 數據探索 數據轉換 選擇方法、工具,建立模型 建模過程評估 模型結果評估 分析結果應用 分析模型改進 探索數據:探索數據:運用統計方法對數據進行探索,發現數據內部規律。數據轉換:數據轉換:為了達到模型的輸入數據要求,需要對數據進行轉換,包括生成衍生變量、一致化、標準化等。建立模型:建立模型:綜合考慮業務需求精度、數據情況、花費成本等因素,選擇最合適的模型。在實踐中對于一個
10、分析目的,往往運用多個模型,然后通過后續的模型評估,進行優化、調整,以尋求最合適的模型。建模過程評估:建模過程評估:對模型的精度、準確性、效率和通用性進行評估。,模型結果評估:模型結果評估:評估是否有遺漏的業務,模型結果是否回答了當初的業務問題,需要結合業務專家進行評估。結果應用:結果應用:將模型應用于業務實踐,才能實現數據分析的真正價值:產生商業價值和解決業務問題。模型改進:模型改進:對模型應用效果的及時跟蹤和反饋,以便后期的模型調整和優化。業務理解 數據理解 數據準備 建立模型 模型評估 開始 是否明確需求 否 否 數據探索 結構分析 分布特性 特征描述 分類與回歸 聚類分析 時序模型 關
11、聯分析 結構優化 分析結果應用 數據分析框架數據分析框架 圖例 流程概要 方法分類 處理方法 模型檢驗 理解業務背景,評估分析需求 是 是否滿足要求 收集數據 否 是 是 建立模型 貝葉斯 神經網絡 C4.5決策樹 指數平滑 支持向量機 灰色理論 K均值算法 FP-growth算法 Apriori算法 均方根誤差 均方誤差 正概率統計 群間差異度 群內相似度 業務符合度 支持度 臵信度 均方根誤差 均方誤差 正概率統計 灰色理論 遺傳算法 數據清洗 數據轉換 SVM算法 KNN算法 目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 數據
12、分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 數據清洗數據清洗&數據探索數據探索 數據收集的方法多種多樣,本文不再詳述。在對收集的數據進行分析前,要明確數據類型、規模,對數據有初步理解,同時要對數據中的“噪聲”進行處理,以支持后續數據建模。數據清洗數據清洗 異常值判別 缺失值處理 數據結構統一(人為因素較多,無統一方法,本文不詳述)數據探索數據探索 特征描述 分布推斷 結構優化 數據探索數據探索 數據清洗數據清洗 數據清洗和數據探索通常交互進行數據清洗和數據探索通常交互進行 數據探索有助于選擇數據清洗方法數據探索有助
13、于選擇數據清洗方法 數據清洗后可以更有效的進行數據探索數據清洗后可以更有效的進行數據探索 給定一個臵信概率,并確定一個臵信限,凡超過此限的誤差,就認為它不屬于隨機誤差范圍,將其視為異常值。常用的方法(數據來源于同一分布,且是正態的):拉依達準則、肖維勒準則、格拉布斯準則、狄克遜準則、t檢驗。根據人們對客觀事物、業務等已有的認識,判別由于外界干擾、人為誤差等原因造成實測數據偏離正常結果,判斷異常值。比較困難 數據清洗的第一步是識別會影響分析結果的“異?!睌祿?,然后判斷是否剔除。目前常用的識別異常數據的方法有物理判別法和統計判別法 數據清洗:數據清洗:1.1.異常值判別異常值判別 12 物理判別法
14、 統計判別法 慎重對待刪除異常值:慎重對待刪除異常值:為減少犯錯誤的概率,可多種統計判別法結合使用,并盡力尋找異常值出現的原因;若有多個異常值,應逐個刪除,即刪除一個異常值后,需再行檢驗后方可再刪除另一個異常值 檢驗方法以正態分布為前提檢驗方法以正態分布為前提,若數據偏離正態分布或樣本較小時若數據偏離正態分布或樣本較小時,則檢驗結則檢驗結果未必可靠果未必可靠,校驗是否正態分布可借助W檢驗、D檢驗 注意注意 判別方法判別方法 判別公式判別公式 剔除范圍剔除范圍 操作步驟操作步驟 評價評價 拉依達準則拉依達準則 (33準則)準則)大于+3 小于-3 求均值、標準差,進行邊界檢驗,剔除一個異常數據,
15、然后重復操作,逐一剔除 適合用于n185時的樣本判定 肖維勒準則肖維勒準則(等概率準(等概率準則)則)大于+Zc(n)小于-Zc(n)求均值、標準差,比對系數讀取Zc(n)值,邊界檢驗,剔除一個異常數據,然后重復操作,逐一剔除 實際中Zc(n)f(n,),說明x(n)離群遠,則判定該數據為異常數據 將數據由小到大排成順序統計量,求極差,比對狄克遜判斷表讀取 f(n,)值,邊界檢驗,剔除一個異常數據,然后重復操作,逐一剔除 異常值只有一個時,效果好;同側兩個數據接近,效果不好 當n處于 3,25時,判別效果較好 T T檢驗檢驗 最大、最小數據與均值差值 分別檢驗最大、最小數據,計算不含被檢驗最大
16、或最小數據時的 異常值只有一個時,效果好;同側兩個()30.003pxu icnxxZ(n,)ixxT 1(n,)ixxT12(n,)(n,)iTxxT0()(1)()(1)(2)(1)()(1)nnnnfxxxxxxxx或()(1)(,)(,)nxxK nxxK n 或(,)K n 常見統計判別法常見統計判別法 由包含m個插補值的向量代替每一個缺失值,然后對新產生的m個數據集使用相同的方法處理,得到處理結果后,綜合結果,最終得到對目標變量的估計 在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函數的條件期望(E步),后用極大化對數似然函數以確定參數的值,并用于下步
17、的迭代(M步)基于完整的數據集,建立回歸方程(模型),對于包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充;但當變量不是線性相關或預測變量高度相關時會導致估計偏差 先根據歐式距離或相關分析確定距離缺失數據樣本最近的K個樣本,將這K個值加權平均來估計缺失數據值 取所有對象(或與該對象具有相同決策屬性值的對象)的平均值來填充該缺失的屬性值 數據清洗:數據清洗:2.2.缺失值處理缺失值處理 平均值填充平均值填充 K最近距離法最近距離法 回歸回歸 極大似線估極大似線估計計 多重插補法多重插補法 在數據缺失嚴重時,會對分析結果造成較大影響,因此對剔除的異常值以及缺失值,要采用合
18、理的方法進行填補,常見的方法有平均值填充、K最近距離法、回歸法、極大似線估計法等 隨著數據量的增大,異常值和缺失值對整體分析結果的影響會逐漸變小,因此在“大數據”模式下,數據清洗可忽略異常值和缺失值的影響,而側重對數據結構合理性的分析 數據探索數據探索 通過數據探索,初步發現數據特征、規律,為后續數據建模提供輸入依據,常見的數據探索方法有數據特征描述、相關性分析、主成分分析等。結構優化 描述已有數據特征-數據分布特征描述-數據探索要遵循由淺入深、由易到難的步驟數據探索要遵循由淺入深、由易到難的步驟 概率分布 特征描述 推斷整體數據特征-參數檢驗-非參數檢驗-探索數據之間的關系-相關性分析-主成
19、分分析-數據特征描述數據特征描述 中心位臵中心位臵 DiagramDiagram 2 2 DiagramDiagram 2 2 DiagramDiagram 3 3 圖形特征圖形特征 分散程度分散程度 中心位臵中心位臵 眾數眾數 中位數中位數/四分位數四分位數 均值均值 分散程度分散程度 方差和標準差方差和標準差 極差、四分位差極差、四分位差 標準分數標準分數 z-score 離散系數離散系數 圖形特征圖形特征 偏度偏度 數據分布偏斜程度的測度 峰度峰度 數據分布扁平程度的測度 左偏分布 右偏分布 扁平分布 尖峰分布 數據概率分布數據概率分布 概率分布可以表述隨機變量取值的概率規律,是掌握數據
20、變化趨勢和范圍的一個重要手段。離散分布離散分布 均勻分布 二項分布 幾何分布 離散型均勻分布是一個離散型概率分布,其中有限個數值擁有相同的概率 1.在每次試驗中只有兩種可能的結果,而且是互相對立的;2.每次實驗是獨立的,與其它各次試驗結果無關;3.結果事件發生的概率在整個系列試驗中保持不變,則這一系列試驗稱為伯努力試驗。以下兩種離散型概率分布中的一種:在伯努利試驗中,得到一次成功所需要的試驗次數X。X的值域是 1,2,3,.在得到第一次成功之前所經歷的失敗次數Y=X 1。Y的值域是 0,1,2,3,.泊松近似 泊松近似是二項分布的一種極限形式。其強調如下的試驗前提:一次抽樣的概率值相對很小,而
21、抽取次數值又相對很大。因此泊松分布又被稱之為罕有事件分布。泊松分布指出,如果隨機一次試驗出現的概率為p,那么在n次試驗中出現k次的概率按照泊松分布應該為 連續分布連續分布 均勻分布 指數分布 正態分布 如果連續型隨機變量具有如下p=1/(b-a)的概率密度函數,其中Xa,b,則稱服從上的均勻分布 指數分布可以用來表示獨立隨機事件發生的時間間隔,比如指數分布還用來描述大型復雜系統(如計算機)的平均故障間隔時間MTBF的失效分布 正態分布 若隨機變量X服從一個數學期望為、方差為2的高斯分布,記為N(,2)。其概率密度函數為正態分布的期望值決定了其位臵,其標準差決定了分布的幅度。因其曲線呈鐘形,因此
22、人們又經常稱之為鐘形曲線。我們通常所說的標準正態分布是=0,=1的正態分布 數據分布初步推斷數據分布初步推斷 參數檢驗:數據的分布已知的情況下,對數據分布的參數是否落在相應范圍內進行檢驗 假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法,可以分為參數檢驗和非參數檢驗。非參數檢驗:一般是在不知道數據分布的前提下,檢驗數據的分布情況 檢驗方法名檢驗方法名稱稱 問題類型問題類型 假設假設 卡方檢驗 檢測實際觀測頻數與理論頻數之間是否存在差異 觀測頻數與理論頻數無差異 K-S檢驗 檢驗變量取值是否為正態分布 服從正態分布 游程檢驗 檢測一組觀測值是否有明顯變化趨勢 無明顯變化趨勢 二項分
23、布假設檢驗 通過樣本數據檢驗樣本來自的總體是否服從指定的概率為P的二項分布 服從概率為P的二項分布 檢驗方法名稱檢驗方法名稱 問題類型問題類型 假設假設 適用條件適用條件 抽樣方法抽樣方法 單樣本T檢驗 判斷一個總體 平均數等于平均數等于已知數 總體平均數等于A 總體服從正態分布 從總體中抽取一個樣本 F檢驗 判斷兩總體方差方差相等 兩總體方差相等 總體服從正態分布 從兩個總體中各抽取一個樣本 獨立樣本 T檢驗 判斷兩總體平均數平均數相等 兩總體平均數相等 1、總體服從正態分布 2、兩總體方程相等 從兩個總體中各抽取一個樣本 配對樣本T檢驗 判斷指標實驗前后平均數相等 指標實驗前后平均數相等
24、1、總體服從正態分布 2、兩組數據是同一試驗對象在試驗前后的測試值 抽取一組試驗對象,在試驗前測得試驗對象某指標的值,進行試驗后再測得試驗對象該指標的取值 二項分布假設檢驗 隨機抽樣實驗的成功概率的檢驗 總體概率等于P 總體服從二項分布 從總體中抽取一個樣本 總結 1、參數檢驗是針對參數做的假設,非參數檢驗是針對總體分布情況做的假設。2、二者的根本區別在于參數檢驗要利用到總體的信息,以總體分布和樣本信息對總體參數作出推斷;非參數檢驗不需要利用總體的信息。相關系數是考察變量之間的相關程度的變量,相關分析是優化數據結構的基礎相關系數是考察變量之間的相關程度的變量,相關分析是優化數據結構的基礎 0
25、0 0.40.4 0.60.6 0.80.8 1.01.0 0.20.2 負相關負相關 正相關正相關 極強相關 強相關 中等相關 弱相關 弱相關或無(線性)相關 適適用用 條條件件 結構優化結構優化相關性分析相關性分析 用于分析的多個變量間可能會存在較多的信息重復,若直接用來分析,會導致模型復雜,同時可能會引起模型較大誤差,因此要初步探索數據間的相關性,剔除重復因素。Spearman秩相關系數秩相關系數 衡量兩個變量之間聯系(變化趨勢)的強弱 在秩(排序)的相對大小基礎上得到,對異常值更穩健 Pearson相關系數相關系數 衡量兩個變量線性相關性的強弱 在方差和協方差的基礎上得到的,對異常值敏
26、感 Kendall相關系數相關系數 基于協同思想得到,衡量變量之間的協同趨勢 對異常值穩健 特特點點 服從正態分布或接近正態的單峰分布 兩個變量為連續數據 兩個變量均為連續數據或等級數據 兩個變量均為連續數據或等級數據 偏相關分析偏相關分析 二元變量相關分析二元變量相關分析 距離相關分析距離相關分析 研究兩個變量之間線性相關關系時,控制可能對其產生影響的變量 對觀測量之間或變量之間相似或不相似程度的一種測度 檢驗動機檢驗動機:樣本數據只是總體的一個實現,因此,根據現有數據計算出來的相關系數只是變量相關系數的一個觀測值,又稱為樣本相關系數。欲根據這個樣本相關系數來估計總體相關系數,必須進行顯著性
27、檢驗。其原假設:在總體中,兩個變量的相關系數(總體相關系數)為零 檢驗意義檢驗意義:計算在原假設成立的情況下(也就是在兩個變量相關系數為零的情況下),由于抽樣的原因(收集樣本數據的原因)得到當前的樣本相關系數(可能這個系數并不為零,甚至還比較大)的概率。(p值越小說明越是小概率事件,不可能發生,拒絕原假設)檢驗方法檢驗方法:T檢驗(常用):對于近似高斯分布的數據(如兩個變量服從雙變量正態分布),相關系數的 樣本分布 近似地服從自由度為N 2的 t分布;如果樣本容量不是特別?。ㄍǔ4笥?0),即使觀測數據不服從正態分布,依然可使用t檢驗 結構優化結構優化相關性分析相關性分析 Karl Pears
28、on(1901)探究如何通過少數幾個主成分(principal component)來解釋多個變量間的內部結構時提出主成分分析法,旨在從原始變量中導出少數幾個主分量,使其盡可能多地保留原始變量的信息,且彼此間互不相關 內涵內涵:將彼此相關的一組指標變量轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反映原多個指標變量所包含主要信息的多元統計方法 結構優化結構優化主成分分析主成分分析 應用應用:數據的壓縮和解釋,即常被用來尋找和簡化判斷事物或現象的綜合指標,并對綜合指標所包含的信息進行適當的解釋 原理:原理:設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實
29、際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。數據轉換或統一成適合于挖掘的形式,通常的做法有數據泛化、標準化、屬性構造等,本文詳細介紹數據標準化的方法,即統一數據的量綱及數量級,將數據處理為統一的基準的方法?;跇藴驶ɑ跇藴驶?直線法直線法 折線法折線法 曲線法曲線法 選擇基期作為參照,各期標準化數據各期數據/基期數據 數據轉換數據轉換 各方法都有缺點,要根據客觀事物的特征及所選用的分析方法來確定,如聚類分析、關聯分析等常用直線法,且聚類分析必須滿足無量綱標準;而綜合評價則折線和曲線方法用得較多 能簡
30、就簡,能簡就簡,能用直線盡量不用曲線。極值法:z-score法:max(x)min(x),max(x)max(x)max(x)min(x)iiiiiiiiiiiixxxxxx21,s=(xx)1iiixxxsn其中0(xa)(axb)1(xb)iiiiixaxba 某些數據在不同值范圍,采用不同的標準化方法,通常用于綜合評價 示例 Log函數法:Arctan函數法:對數函數法、模糊量化模式等 目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序
31、模型時序模型 結構優化結構優化 分類分類 定義:定義:按照某種指定的屬性特征將數據歸類。需要確定類別的概念描述,并找出類判別準則。分類的目的是獲得一個分類函數或分類模型(也常常稱作分類器),該模型能把數據集合中的數據項映射到某一個給定類別。分類是利用訓練數據集通過一定的算法而求得分類規則的。是模式識別的基礎。分類可用于提取描述重要數據類的模型或預測未來的數據趨勢。銀行根據客戶以往貸款記錄情況,將客戶分為低風險客戶和高風險客戶,學習得到分類器。對一個新來的申請者,根據分類器計算風險,決定接受或拒絕該申請 分析影響變壓器正常運行的因素,預測變壓器是否有故障,若有故障,故障為放電故障、過熱故障、短路
32、故障等的哪一種。持續時長持續時長 13 yes no 7 2%96 98%設備類型設備類型 1 1 103103 59%59%設備類型設備類型 2 2 負荷負荷 負荷負荷 6 THEN 是否提薪=是 分類模型(Model)訓練數據 模型的使用 識別未知對象的所屬類別 模型正確性的評價 已標記分類的測試樣本與模型的實際分類結果進行比較 模型的正確率是指測試集中被正確分類的樣本數與樣本總數的百分比。測試集與訓練集相分離,否則將出現過擬合(over-fitting)現象 分類模型 測試數據(唐旭,高級,4)提薪提薪?是是 分類分類 分類的主要算法:分類的主要算法:KNNKNN算法、算法、決策樹(CA
33、RT、C4.5等)、SVM算法、貝葉斯算法、BP神經網絡等 分類分類 分類的主要算法:分類的主要算法:KNN算法、決策樹(CART、C4.5C4.5等)、SVM算法、貝葉斯算法、BP神經網絡等 算法介紹:算法介紹:C4.5是一種類似二叉樹或多叉樹的樹結構。樹中的每個非葉結點(包括根結點)對應于訓練樣本集總一個非類屬性的測試,非葉結點的每一個分支對應屬性的一個測試結果,每個葉結點代表一個類或類分布。從根結點到葉子結點的一條路徑形成一條分類規則。決策樹可以很方便地轉化為分類規則,一種非常直觀的分類模型的表示形式。C45屬于一種歸納學習算法。歸納學習(Inductive Learning)旨在從大量
34、經驗數據中歸納抽取一般的判定規則和模式,它是機器學習(Machine Learning)中最核心、最成熟的一個分支。根據有無導師指導,歸納學習又分為有導師學習(Supervised Learning,又稱為示例學習)和無導師學習(Unsupervised Learning)。C45屬于有導師的學習算法。算法特點:算法特點:(1)模型直觀清晰,分類規則易于解釋;(2)解決了連續數據值的學習問題;(3)提供了將學習結果決策樹到等價規則集的 決策樹示例:套用俗語,決策樹分類的思想類似于找對象?,F想象一個女孩的母親要給這個女孩介紹男朋友,于是有了下面的對話:女兒:多大年紀了?母親:26。女兒:長的帥不
35、帥?母親:挺帥的。女兒:收入高不?母親:不算很高,中等情況。女兒:是公務員不?母親:是,在稅務局上班呢。女兒:那好,我去見見。分類分類 分類的主要算法:分類的主要算法:KNN算法、決策樹(CART、C4.5C4.5等)、SVM算法、貝葉斯算法、BP神經網絡等 設每個數據樣本用一個n維特征向量來描述n個屬性的值,即:X=x1,x2,xn,假定有m個類,分別用C1,C2,,Cm表示。給定一個未知的數據樣本X(即沒有類標號),若樸素貝葉斯分類法將未知的樣本X分配給類Ci,則一定是 P(Ci|X)P(Cj|X)1jm,jI 根據貝葉斯定理 由于P(X)對于所有類為常數,最大化后驗概率P(Ci|X)可轉
36、化為最大化先驗概率P(X|Ci)P(Ci)。如果訓練數據集有許多屬性和元組,計算P(X|Ci)的開銷可能非常大,為此,通常假設各屬性的取值互相獨立,這樣先驗概率P(x1|Ci),P(x2|Ci),P(xn|Ci)可以從訓練數據集求得。根據此方法,對一個未知類別的樣本X,可以先分別計算出X屬于每一個類別Ci的概率P(X|Ci)P(Ci),然后選擇其中概率最大的類別作為其類別。樸素貝葉斯算法成立的前提是各屬性之間互相獨立。當數據集滿足這種獨立性假設時,分類的準確度較高,否則可能較低。另外,該算法沒有分類規則輸出。貝葉斯圖像識別貝葉斯圖像識別 貝葉斯方法是一個非常通用的推理框架。其核心理念可以描述成
37、:Analysis by Synthesis(通過合成來分析)。06 年的認知科學新進展上有一篇論文就是講用貝葉斯推理來解釋視覺識別的,一圖勝千言,下圖就是摘自這篇論文:首先是視覺系統提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是 E 還是 F 還是等號),然后使用一個自頂向下的驗證來比較到底哪個概念最佳地解釋了觀察到的圖像 分類分類 分類的主要算法:分類的主要算法:KNN算法、決策樹(CART、C4.5C4.5等)、SVM算法、貝葉斯算法、BP神經網絡等 BP(Back Propagation)網絡是1986年由Rumelhart(魯姆哈特)和McCelland(麥
38、克利蘭)為首的科學家小組提出,是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。BP神經網絡模型拓撲結構包括輸入層(input)、隱層(hidden layer)和輸出層(output layer)。BPBP神經網絡學習過程神經網絡學習過程 正向傳播:輸入樣本-輸入層-各隱藏層-輸出層 判斷是否轉入反向傳播階段 若輸出層的實際輸出與期望輸出不符 誤差反傳 誤差以某種形式在各層表示-修
39、正各層單元的權值 網絡輸出的誤差減少到可接受的程度或達到預先設定的學習次數為止 BPBP神經網絡的不足神經網絡的不足 首先,由于學習速率是固定的,因此網絡的收斂速度慢,需要較長的訓練時間。其次,BP算法可以使權值收斂到某個值,但并不保證其為誤差平面的全局最小值。再次,網絡隱含層的層數和單元數的選擇尚無理論上的指導,一般是根據經驗或者通過反復實驗確定。最后,網絡的學習和記憶具有不穩定性。也就是說,如果增加了學習樣本,訓練好的網絡就需要從頭開始訓練,對于以前的權值和閾值是沒有記憶的。存款情況 庫存情況 銷售情況 人員規模 高風險 低風險 無風險 輸入層 隱藏層 輸出層 回歸回歸 產生產生:英國統計
40、學家F.GALTON(法蘭西斯 高爾頓)(1822-1911)和其學生K.Pearson(卡爾.皮爾遜)(1856-1936)觀察了1078對夫婦,以每對夫婦的平均身高為X,而取他們成年的兒子的身高為Y,得到如下經驗方程:Y=33.73+0.516X 定義:定義:假定同一個或多個獨立變量存在相關關系,尋找相關關系的模型。不同于時間序列法的是:模型的因變量是隨機變量,而自變量是可控變量。分為線性回歸和非線性回歸,通常指連續要素之間的模型關系,是因果關系分析的基礎。(回歸研究的是數據之間的非確定性關系)0100200300400500-1000100200300 Gaussian kernel P
41、olynomial kernelResidual errorData series 線性回歸算法尋找屬性與預測目標之間的線性關系。通過屬性選擇與去掉相關性,去掉與問題無關的變量或存在線性相關性的變量。在建立回歸模型之前,可先進行主成分分析,消除屬性之間的相關性。最后通過最小二乘法,算法得到各屬性與目標之間的線性系數。分類分類:前提:前提:正態性假設:總體誤差項需服從正態分布,反之則最小二乘估計不再是最佳無偏估計,不能進行區間估計和假設檢驗 零均值性假設:在自變量取一定值的條件下,其總體各誤差項的條件平均值為零,反之無法得到無偏估計 等方差性假設:在自變量取一定值的條件下,其總體各誤差項的條件方
42、差為一常數,反之無法得到無偏估計 獨立性假設:誤差項之間相互獨立(不相關),誤差項與自變量之間應相互獨立,否則最小二乘估計不再是有效估計 檢驗檢驗:回歸模型 回歸回歸-線性回歸線性回歸 一元線性回歸一元線性回歸 只有一個變量X與因變量Y有關,X與Y都是連續型變量,因變量Y或其殘差必須服從正態分布 多元線性回歸多元線性回歸 分析多個變量與因變量Y的關系,X與Y都是連續型變量,因變量Y或其殘差必須服從正態分布 LOGISTICLOGISTIC線性回歸線性回歸 分析多個變量與因變量Y的關系,Y通常是離散型或定性變量,該模型對因變量Y的分布無要求 模型顯著性:F檢驗,讀取p值并同臵信度比較,判斷回歸模
43、型顯著性 系數顯著性:t檢驗,讀取p值并同臵信度比較,判斷該自變量是否顯著影響因變量 擬合優度 殘差檢驗:繪制殘差圖(標準化殘差直方圖及散點圖),檢驗殘差的正態性及獨立性,若所描繪的點都在以0為橫軸的直線上下隨機散布,則回歸直線對各個觀測值的擬合情況良好 決定系數:度量自變量對因變量變化的解釋程度,愈接近1則線性關系愈強 2R樣本容量:n 30或n 3(p+1);其中n為樣本容量,p為自變量數目 分類模型評估分類模型評估 分類模型評估 效果指標 測試集選取 指標呈現 保持法 隨機二次抽樣 交叉驗證 自助法 基于統計 基于比率 誤差、離差、Kappa統計量、準確率臵信區間、錯誤率觀測差 混淆矩陣
44、 ROC曲線 KS曲線 Lift圖 響應率曲線 目的:模型之間的比選以及單模型預測效果 捕獲率曲線/增益圖 準確率 敏感性 特異性 精度 KS值 Lift值 響應率 捕獲率 分類模型評估分類模型評估 方法方法 描述描述 圖示圖示 保持法 將原始數據集隨機地劃分到兩個獨立的集合:訓練集和檢驗集。通常,三分之二的數據分配到訓練集,其余三分之一分配到檢驗集。模型的效果指標如準確率、誤差等由訓練集導出。隨機二次抽樣 多次重復使用保持法,得到一組準確率等效果指標。交叉驗證 最常用的是k-折交叉法,將原始數據分成k份,每次用其中一份為測試集,其余為訓練集運行,總共運行k次,記錄誤差。自助法 有放回抽樣。訓
45、練集的樣本為N,放回原數據集,重新有放回地均勻抽取N個樣本后,剩余的數據集作為測試集。原始數原始數據集據集 訓練集訓練集 測試集測試集 模型評估 建立模型 2/3 1/3 原始原始數據數據集集 模型評估 建立模型 1/k 1/k 1/k 1/k 有放回抽取N樣本 建立模型 測試集 模型評估 訓練集(N)總數據集 測試集選取方法 效果指標基于比率 1 0 合計 1 a b a+b 0 c d c+d 合計 a+c b+d a+b+c+d 預測類 實際類 以二分類為例,說明幾個重要效果指標概念。下圖為混淆矩陣。通過銀行辦理信用卡的例子做指標的業務解釋。最常用的評估指標,用以評價模型分類是否正確。但
46、是,對于不平衡問題(即0類的占大多數),準確率去評價就不夠。例如銀行辦理信用卡,模型只用一條規則“所有人不違約”,結果準確率達到1000/1200=83.3%。但這樣的模型毫無意義。準確率適合于平衡問題。正確識別正元組的百分比。如例中,敏感性為80/200=40%,因此該模型正確標識真元組(稀有類)的能力還是比較差的,但是還是高于違約的總占比200/1200=16.7%違約 不違約 合計 違約 80 120 200 不違約 20 980 1000 合計 100 1100 1200 預測類 實際類 正確識別負元組的百分比。例子中為98%。預測為正元類中實際為正元類所占的百分比。衡量預測類1的精確
47、性。例子中為80%。該案例中模型對于違約的人群,可以識別40%;如果一個人通過模型判斷為違約類,則80%可能該人為違約的。敏感性和精度是兩個重要指標,可以綜合這兩個指標,如F等。敏感性=a/(a+b)準確率=(a+d)/(a+b+c+d)特異性=d/(c+d)精度=a/(a+c)分類模型評估分類模型評估 以真正率及敏感性為縱軸,假正率=1-特異性為橫軸做圖。給定一個二類問題,我們可以對檢驗集的不同部分,顯示模型可以正確識別正樣本的比例與模型將負樣本錯誤標識為正樣本的比例之間的比較評定。敏感性的增加以錯誤正例的增加為代價。ROC曲線 增益圖 KS曲線 模型預測為概率值,即為1類的概率為多少,為0
48、類的概率為多少。將1類、0類的概率 按照大小由高到底排列,并將各自的累計百分比畫在一個圖里??v坐標代表累計百分比,橫坐標為預測的概率區間。0、1曲線的最大距離為KS值,反映模型區分0、1類的能力,越大代表模型將0、1分開程度越大。一般大于0.2較好。如圖KS=0.47.和捕獲率曲線是一樣的,詳見捕獲率曲線。理想模型:100%預測正確下的曲線。這里假設1類占總數為30%。模型的曲線越靠近理想曲線,預測水平越高??捎肎ini系數衡量。Gini系數=模型曲線與隨機曲線之間的面積/理想模型曲線與隨機曲線之間的面積。越接近1越好。分類模型評估分類模型評估 響應率曲線 捕獲率曲線 在每個區間里進行計算,1
49、類的累計數占該區間累計的總數比例作為響應率響應率。比如在排序前10%中,模型1得出1類樣本占比80%,模型2為73%。響應率越高越好,改圖顯示模型1較模型2更好。是在每個區間段,計算1類的累計值占總體1類的百分比作為捕獲率捕獲率。衡量的是某累計區間抓住1類的對象占總體的比例。隨機概率:隨機概率:不用模型隨機抽取數據得到的比率。比如響應率,總數據中1類占比20%,那抽取10%數據理論占比應該還是20%。橫坐標:橫坐標:按照模型結果概率得分從高到底排序,分成10個區間。適合于模型輸出值為概率得分,如貝葉斯分類、后向傳播等。Lift值=響應率/隨機概率。比如對10000名淺在顧客進行概率打分,預測其
50、購買商品的可能性,若實際中有900人會購買,則9%為隨機概率。抽取概率排名前10%的人數,即1000人,預測600人購買,則前10%的響應率為600/1000=60%,則Lift值=60%/9%=6.67.Lift圖 三個指標在實際業務中使用比較多,因為其直觀、通俗易懂;同時有利于劃分不同的目標人群,前10%?、20%?根據業務需要挑選受眾規模。分類模型評估分類模型評估 目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化
51、結構優化 聚類分析聚類分析 聚類分析對具有共同趨勢或結構的數據進行分組,將數據項分組成多個簇(類),簇之間的數據差別應盡可能大,簇內的數據差別應盡可能小,即“最小化簇間的相似性,最大化簇內的相似性”?;趧澐只趧澐值木垲惖木垲?基于層次基于層次的聚類的聚類 基于密度基于密度的聚類的聚類 基于網格基于網格的聚類的聚類 基于模型基于模型的聚類的聚類 對給定的數據集合,事先指定劃分為k個類別。典型算法:典型算法:k-均值法均值法和k-中心點算法等。對給定的數據集合進行層次分解,不需要預先給定聚類數,但要給定終止條件,包括凝聚法和分裂法兩類。典型算法:典型算法:CURE、Chameleon、BIRC
52、H、Agglomerative 只要某簇鄰近區域的密度超過設定的閾值,則擴大簇的范圍,繼續聚類。這類算法可以獲得任意形狀的簇。典型算法:典型算法:DBSCAN、OPTICS和DENCLUE等 首先將問題空間量化為有限數目的單元,形成一個空間網格結構,隨后聚類在這些網格之間進行。典型算法:典型算法:STING、WareCluster和CLIQUE等。為每個簇假定一個模型,尋找數據對模型的最佳擬合。所基于的假設是:數據是根據潛在的概率分布生成的。典型算法:典型算法:COBWEB和神經網絡算法等。聚類分析聚類分析K K均值聚類均值聚類 39-2-1.5-1-0.500.511.5200.511.52
53、2.53xyIteration 1-2-1.5-1-0.500.511.5200.511.522.53xyIteration 2-2-1.5-1-0.500.511.5200.511.522.53xyIteration 3-2-1.5-1-0.500.511.5200.511.522.53xyIteration 4-2-1.5-1-0.500.511.5200.511.522.53xyIteration 5-2-1.5-1-0.500.511.5200.511.522.53xyIteration 6 利用K-means聚類算法,把原始數據聚成三個不同的簇的應用實例如左圖示(K=3)?;舅悸坊?/p>
54、本思路:(1)首先,隨機選擇k個數據點做為聚類中心;(2)然后,計算其它點到這些聚類中心點的距離,通過對簇中距離平均值的計算,不斷改變這些聚類中心的位臵,直到這些聚類中心不再變化為止。應用實例 K-Means算法,也被稱為K-平均或K-均值,是一種得到最廣泛使用的聚類算法。主要思想是:首先將各個聚類子集內的所有數據樣本的均值作為該聚類的代表點,然后把每個數據點劃分到最近的類別中,使得評價聚類性能的準則函數達到最優,從而使同一個類中的對象相似度較高,而不同類之間的對象的相似度較小。聚類模型評估聚類模型評估 聚類 評估指標評估指標 公式定義公式定義 圖示定義圖示定義 凝聚度 衡量一個族內對象凝聚情
55、況 分離度 衡量族與族之間的差異 輪廓系數 綜合了凝聚度和分離度 相似度矩陣 通過與理想相似矩陣比較,看聚類效果 共性分類相關系數 衡量共性分類矩陣與原相異度矩陣之間的相關度,用以評估哪種層次聚類方法最好。目的:評估聚類效果、確定合適的分類數量、聚類模型的選擇 目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 關聯規則關聯規則 關聯分析 Association 市場組合分析 套裝產品分析 目錄設計 交叉銷售 定
56、義:定義:自然界中某種事物發生時其他事物也會發生,則這種聯系稱之為關聯。反映事件之間依賴或關聯的知識稱為關聯型知識(又稱依賴關系)。要求找出描述這種關聯的規則,并用以預測或識別。關聯分析的目的是找出數據集合中隱藏的關聯網,是離散變量因果分析的基礎。舉例:通過發現顧客放入其購物籃中不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。例如,在同一次購物中,如果顧客購買牛奶的同時,也購買面包(和什么類型的面包)的可能性有多大?這種信息可以引導銷售,可以幫助零售商有選擇地經銷和安排貨架。例如,將牛奶和面包盡可能放近一些,可以進一步刺激
57、一次去商店同時購買這些商品。喝咖啡(A)不喝咖啡(A)合計 喝茶(B)150 50 200 不喝茶(B)650 150 800 合計 800 200 1000 關聯規則關聯規則 設關聯規則:,A或B為項集,支持度=,表示同時包含A、B事務占總事務的百分比;臵信度=,是預測性指標,表示A事務發生B事務發生的可能性。顯然支持度為對稱指標,即 都一樣,而臵信度為非對稱指標,二者不同。我們以茶和咖啡的案例做指標說明。AB/A BAB/AABABA或B基本概念基本概念 A A 合計 B F11 F10 F1+B F01 F00 F0+合計 F+1 F+0 F 支持度(喝茶喝咖啡)=150/1000=15
58、%;臵信度(喝茶喝咖啡)=150/200=75%。即一個人喝茶那么他75%可能喝咖啡。再看,不管一個人是否喝茶,其喝咖啡的比例為800/1000=80%75%。即一個人喝茶其喝咖啡的可能性由80%降低到75%,因此喝茶喝咖啡的高臵信度實際上是一個誤導,其忽略了喝咖啡的支持度。因此,支持度-臵信度的評估框架是不完善的。臵信度除以喝咖啡的支持度,即75%/80%=0.94。大于1表示正相關,而且越大相關性越強;等于1表示相互獨立;小于1表示負相關。興趣因子興趣因子 對于連續變量相關性用pearson相關系數,Pearson相關系數用來衡量兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關系
59、。如衡量國民收入和居民儲蓄存款、身高和體重、高中成績和高考成績等變量間的線性相關關系。相關性相關性 關聯規則關聯規則 主要的關聯算法:主要的關聯算法:AprioriApriori關聯算法、關聯算法、FP-growth關聯算法等;Apriori算法是最基本的一種關聯規則算法,它采用布爾關聯規則的挖掘頻繁項集的算法,利用逐層搜索的方法挖掘頻繁項集。關聯規則關聯規則 FP-Growth算法不產生候選集而直接生成頻繁集的頻繁模式增長算法,該算法采用分而治之的策略:在第一次掃描數據庫之后,把數據庫中的頻繁項目集壓縮到一棵頻繁模式樹中,形成投影數據庫,同時保留其中的關聯信息,隨后繼續將FP-tree分成一
60、些條件樹,對這些條件樹分別進行挖掘。FP-tree的構建 f,c,b組合滿足條件 主要的關聯算法:主要的關聯算法:Apriori關聯算法、FPFP-growthgrowth關聯算法關聯算法等;關聯規則 關聯規則模型評估關聯規則模型評估 目的:識別有意義(有價值)的關聯模式 客觀度量 評價項集:對稱度量指標 評價關聯規則:非對稱客觀度量 支持度 相關性 興趣因子 余弦 Jaccard 集體強度 臵信度 J度量 Gini指標 可信度因子 互信息 信任度 主觀度量 可視化 基于主觀模板的度量 基于主觀興趣的度量.目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解
61、&數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 時間序列時間序列:是按時間順序的一組數字 序列構成序列構成:組合模型:組合模型:加法模型:假定時間序列是基于4種成份相加而成的。長期趨勢并不影響季節變動;Y=T+S+C+I 乘法模型:假定時間序列是基于4種成份相乘而成的。假定季節變動與循環變動為長期趨勢的函數;時間序列分析時間序列分析 長期趨勢(長期趨勢(T T):時間序列隨時間的變化而逐漸增加或減少的長期變化的趨勢 季節變動(季節變動(S S):時間序列在一年中或固定時間內,呈現出的固定規則的變
62、動 循環變動(循環變動(C C):沿著趨勢線如鐘擺般地循環變動,又稱景氣循環變動 不規則變動(不規則變動(I I):在時間序列中由于隨機因素影響所引起的變動 時間時間序列序列 ICSTY1.52.02.53.03.54.04.55.0IIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIVI20102011201220132014LXBZ-0.8-0.40.00.40.81.2IIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIVI20102011201220132014LXBZ_IR-.2-.1.0.1.2.3.4.5.6IIIIIIIVIIIIIIIVIIIIIIIVII
63、IIIIIVI20102011201220132014LXBZ_SF1.62.02.42.83.23.6IIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIVI20102011201220132014LXBZ_TC原序列 趨勢循環項(TC)季節項(S)隨機擾動項(I)建模步驟建模步驟:時間序列分析時間序列分析 用觀測、調查、統計、抽樣等方法取得被觀測系統時間序列動態數據 根據動態數據作相關圖,進行相關分析,求自相關函數 相關圖能顯示出變化的趨勢和周期,并能發現跳點和拐點(跳點是指與其他數據不一致的觀測值,拐點則是指時間序列從上升趨勢突然變為下降趨勢的點)辨識合適的隨機模型,進行曲線擬
64、合,即用通用隨機模型去擬合時間序列的觀測數 短的或簡單的時間序列,可用趨勢模型和季節模型加上誤差來進行擬合;平穩時間序列,可用通用ARMA模型及其特殊情況的自回歸模型、滑動平均模型或組合-ARMA模型等來進行擬合,當觀測值多于50個時一般采用ARMA模型;非平穩時間序列則要先經差分運算化為平穩時間序列,再用適當模型去擬合這個差分序列 舉例:成本費用收入比單指標(累計值)預測舉例:成本費用收入比單指標(累計值)預測 采用季節拆分建模采用季節拆分建模 擬合優度:0.7628 平均絕對誤差:0.15 平均相對誤差:0.00156 標準誤差:0.2211 95.596.597.598.5147 10
65、13 16 19 22 25 28 31 34 37 40 43 46實際值 預測值 預測下限 預測上限 實際值 預測值 下限值 上限值 2014年1月 96.36 96.503303 96.0609034 96.9457034 2014年2月 97.04 97.098057 96.6556572 97.5404572 2014年3月 97.16 97.097295 96.6548955 97.5396955 50 時間序列算法介紹時間序列算法介紹 時間序列預測方法分為平滑法預測和時間序列預測方法分為平滑法預測和ARIMAARIMA模型預測,平滑法是通過時間序列的發展趨勢來進模型預測,平滑法是
66、通過時間序列的發展趨勢來進行預測,而行預測,而ARIMAARIMA模型是通過時間序列的自相關性來預測。兩類方法的適用范圍和特點為:模型是通過時間序列的自相關性來預測。兩類方法的適用范圍和特點為:預測方法預測方法 適用范圍適用范圍 特點特點 平平滑滑法法 簡單移動平均簡單移動平均 沒有明顯的趨勢和季節性沒有明顯的趨勢和季節性 加權移動平均加權移動平均 沒有明顯的趨勢和季節性沒有明顯的趨勢和季節性 考慮了不同時刻對預測值影響權重不同考慮了不同時刻對預測值影響權重不同 單指數平滑單指數平滑 適用于無線性趨勢,無季節因素的序適用于無線性趨勢,無季節因素的序列列 考慮了各期數據對預測值的影響考慮了各期數
67、據對預測值的影響 雙指數平滑雙指數平滑 適用于有線性趨勢,無季節因素的序適用于有線性趨勢,無季節因素的序列列 加入了線性趨勢項加入了線性趨勢項 Winter無季節無季節 適用于有線性趨勢,無季節因素的序適用于有線性趨勢,無季節因素的序列列 與雙指數平滑類似,雙指數平滑法只用了與雙指數平滑類似,雙指數平滑法只用了一個參數,一個參數,Winters無季節用了兩個參數無季節用了兩個參數 Winter加法加法 適用于有線性趨勢和不變季節因素的適用于有線性趨勢和不變季節因素的序列序列 加入了季節變動的因素加入了季節變動的因素 Winter乘法乘法 適用于有線性趨勢和變化季節因素的適用于有線性趨勢和變化季
68、節因素的序列序列 加入了季節變動的因素加入了季節變動的因素 AR IMA AR(p)適用于具有適用于具有p階偏自相關的序列階偏自相關的序列 通過自回歸來預測通過自回歸來預測 MA(q)適用于具有適用于具有q階自相關的序列階自相關的序列 通過隨機擾動項的移動平均來預測通過隨機擾動項的移動平均來預測 ARMA(p,q)適用于具有適用于具有p階偏自相關和階偏自相關和q階自相關階自相關的序列的序列 綜合考慮了自回歸和隨機擾動項的移動平綜合考慮了自回歸和隨機擾動項的移動平均均 p,d,q p階偏自相關和階偏自相關和qd階差分后平穩的序列階差分后平穩的序列 51 時間序列算法介紹時間序列算法介紹-ARIM
69、A ARIMAARIMA又稱自回歸求積移動平均模型,是存在序列相關的非平穩時間序列建模方法。建模前提:建模前提:1 1、序列平穩性、序列平穩性 平穩序列是指均值和方差在時間過程中保持常數。非平穩時間序列要么均值隨時間而變化,要么方差隨時間而變化,或者二者同時在發生變化。對于一個平穩的時間序列可以通過過去時間點上的信息,建立模型擬合過去信息,進而預測未來的信息。而非平穩時間序列在各個時間點上的隨機規律是不同的,難以通過序列已知的信息去掌握時間序列整體上的隨機性。因此,對于一個非平穩序列去建模,預測是困難的。時間序列建模依賴于序列自身所表現的自相關,有時候,自相關是由于時間序列非平穩所引起的。2
70、2、序列相關、序列相關 如果不同的樣本點之間不是完全相互獨立的,而是存在某種相關性,則認為出現了序列相關性。序列相關分為自相關和偏自相關,序列相關的表現為協方差不為0 Ttsuustt,2,1,00),cov(52 時間序列算法介紹時間序列算法介紹-ARIMA AR(p)是p階自回歸模型,AR(p)模型適用于具有p階偏自相關的序列。對于AR(p)模型,求出滯后k階自相關系數p(k)時,實際上得到并不是u(t)與u(t-k)之間單純的相關關系。因為u(t)同時還會受到中間k-1個隨機變量u(t-1)、u(t-2)、u(t-k+1)的影響,而這k-1個隨機變量又都和x(t-k)具有相關關系,所以自
71、相關系數p(k)里實際摻雜了其他變量對u(t)與u(t-k)的影響。tptptttuuucu2211qtqtttu11MA(q)是q階移動平均模型,MA(q)適用于具有q階自相關的序列。ARMA(p,q)是p階自回歸模型和q階移動平均模型的組合,適合于具有p階偏自相關和q階自相關的序列。ARIMA(p,d,q)是經過d次差分后滿足平穩性條件后,建立ARMA(p,q)的建模方法。因為大多數時間序列都在一定的序列相關性,使得ARIMA建模方法的預測比平滑法在應用中更為有效。qtqttptpttuucu1111目錄目錄 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&
72、數據準備數據準備 數據分析支撐工具數據分析支撐工具 關聯分析關聯分析 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 結構優化結構優化-遺傳算法遺傳算法 遺傳算法是計算機科學人工智能領域中用于解決最優化的一種搜索啟發式算法,是進化算法的一種。這種啟發式通常用來生成有用的解決方案來優化和搜索問題。進化算法最初是借鑒了進化生物學中的一些現象而發展起來的,這些現象包括遺傳、突變、自然選擇以及雜交等。遺傳算法廣泛應用在生物信息學、系統發生學、計算科學、工程學、經濟學、化學、制造、數學、物理、藥物測量學和其他領域之中。算法特點:算法特點:(1)遺傳算法從問題解的串集開始搜索,
73、而不是從單個解開始。這是遺傳算法與傳統優化算法的極大區別。傳統優化算法是從單個初始值迭代求最優解的;容易誤入局部最優解。遺傳算法從串集開始搜索,覆蓋面大,利于全局擇優。(2)遺傳算法同時處理群體中的多個個體,即對搜索空間中的多個解進行評估,減少了陷入局部最優解的風險,同時算法本身易于實現并行化。(3)遺傳算法不是采用確定性規則,而是采用概率的變遷規則來指導他的搜索方向。(4)具有自組織、自適應和自學習性。遺傳算法利用進化過程獲得的信息自行組織搜索時,適應度大的個體具有較高的生存概率,并獲得更適應環境的基因結構。結構優化結構優化灰色理論灰色理論 灰色系統是指“部分信息已知,部分信息未知”的“小樣
74、本”,“貧信息”的不確定性系統。它通過對“部分”已知信息的生成、開發去了解、認識現實世界,實現對系統運行行為和演化規律的正確把握和描述。嚴格來說,灰色系統是絕對的,而白色與黑色系統是相對的。社會、經濟、農業等系統的預測都屬于特征性灰色系統的預測?;疑到y認為:盡管客觀系統表象復雜,數據離散,但它們總是有整體功能的,總是有序的。因此,它必然潛藏著某種內在規律。關鍵在于要用適當方式去挖掘它,然后利用它。應用:應用:(1)數列預測數列預測:即用觀察到的反映預測對象特征的時間序列來構造灰色預測模型,預測未來某一時刻的特征量,或達到某一特征量的時間。(2)災變與異常值預測:災變與異常值預測:即通過灰色模
75、型預測異常值出現的時刻,預測異常值什么時候出現在特定時區內。(3)季節災變與異常值預測:季節災變與異常值預測:通過灰色模型預測災變值發生在一年內某個特定的時區或季節的災變預測。(4)拓撲預測:拓撲預測:將原始數據作曲線,在曲線上按定值尋找該定值發生的所有時點,并以該定點為框架構成時點序列,然后建立模型預測該定值所發生的時點 (5)系統預測:系統預測:通過對系統行為特征指標建立一組相關聯的灰色模型,預測系統中眾多變量間的相互協調關系的變化。目錄目錄 數據分析支撐工具數據分析支撐工具 概述概述 數據分析框架數據分析框架 數據分析方法數據分析方法 數據理解數據理解&數據準備數據準備 關聯分析關聯分析
76、 聚類分析聚類分析 分類與回歸分類與回歸 時序模型時序模型 結構優化結構優化 操作操作 編程編程 Eviews SPSS SAS Stata Matlab R 主導優勢主導優勢 時間序列分析 多元橫截面數據 數據管理及挖掘 面板數據處理 數值分析,復雜模型 算法及繪圖 應用領域應用領域 經濟 通信,政府,金融,制造,醫藥,教育等 市場調研,醫藥研發,能源公共事業,金融管理等 經濟 建筑工程 學術研究,醫藥研發,IT 處理功能處理功能 推斷統計 推斷及多元統計 批量數據集 統計預測,優化建模 統計分析,數據挖掘 界面設計界面設計 直觀,可視化 簡易,可視化 語言機械規范化 可視,代碼靈活 偏向底
77、層 語言豐富靈活 數據安全數據安全 軟件穩定 大數據易丟失 軟件穩定 軟件穩定 軟件穩定 軟件穩定 處理效率處理效率 高,穩定 低,不適宜大數據 高,穩定 高,穩定 高,穩定 極適合大量數據 結合形式結合形式 Excel,SAS,SPSS Excel Excel,txt,txt All All 常用的數據分析工具常用的數據分析工具 可選組件 必選 數據挖掘工具數據挖掘工具-SASSAS 58 SAS 系統全稱為Statistics Analysis System,最早由北卡羅來納大學的兩位生物統計學研究生編制,并于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大
78、型集成信息系統,SAS 是由大型機系統發展而來,其核心操作方式就是程序驅動,經過多年的發展,現在已成為一套完整的計算機語言,其用戶界面也充分體現了這一特點:它采用MDI(多文檔界面),用戶在PGM視窗中輸入程序,分析結果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶可以完成所有需要做的工作,包括統計分析、預測、建模和模擬抽樣等。但是,這使得初學者在使用SAS時必須要學習SAS語言,入門比較困難。BASE SAS模塊 SAS/STAT(統計分析模塊)SAS/GRAPH(繪圖模塊)SAS/QC(質量控制模塊)SAS/ETS(經濟計量學和時間序列分析模塊)SAS/OR(運籌學模塊)SAS/
79、IML(交互式矩陣程序設計語言模塊)SAS/AF(交互式全屏幕軟件應用系統模塊)SAS/FSP(快速數據處理的交互式菜單系統模塊)目前SAS已在全球100多個國家和地區擁有29000多個客戶群,直接用戶超過300萬人。在我國,國家信息中心,國家統計局,衛生部,中國科學院等都是SAS系統的大用戶。SAS以被廣泛應用于政府行政管理,科研,教育,生產和金融等不同領域,并且發揮著愈來愈重要的作用。數據挖掘工具數據挖掘工具-SPSS ClementineSPSS Clementine(現已更名為:(現已更名為:PASW Modeler PASW Modeler)59 Clementine是ISL(Int
80、egral Solutions Limited)公司開發的數據挖掘工具平臺。1999年SPSS公司收購了ISL公司,對Clementine產品進行重新整合和開發,現在Clementine已經成為SPSS公司的又一亮點。Clementine的圖形化操作界面,使得分析人員能夠可視化數據挖掘過程的每一步。通過與數據流的交互,分析人員和業務人員可以合作,將業務知識融入到數據挖掘過程中。這樣數據挖掘人員就可以把注意力集中于知識發現,而不是陷入技術任務,例如寫代碼,所以他們可以嘗試更多的分析思路,更深入地探索數據,揭示更多的隱含關系。使用全面整合到Clementine的Text Mining,您可以從任何
81、類型的文本 例如內部報告、呼叫中心記錄、客戶的郵件、媒體或者雜志文章、博客等中抽取內容和評論。使用WebMining for Clementine,您可以發現訪問者網上行為模式。直接獲取Dimension產品的調查數據,您可以把人口統計信息、態度和行為信息用于模型更深入地理解您的客戶。Clementine還提供大量的應用模板:CRM CAT-針對客戶的獲取和增長,提高反饋率并減少客戶流失;Web CAT-點擊順序分析和訪問行為分析;cTelco CAT-客戶保持和增加交叉銷售;Crime CAT-犯罪分析及其特征描述,確定事故高發區,聯合研究相關犯罪行為;Fraud CAT-發現金融交易和索賠
82、中的欺詐和異常行為;Microarray CAT-研究和疾病相關的基因序列并找到治愈手段 數據挖掘工具數據挖掘工具-R R 60 R R語言語言,一種自由軟件編程語言與操作環境,主要用于統計分析、繪圖、數據挖掘。R本來是由來自新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman。R主要是以命令行操作,同時有人開發了幾種圖形用戶界面。開發(也因此稱為R),現在由“R開發核心團隊”負責開發。R內臵多種統計學及數字分析功能。R的功能也可以通過安裝包(Packages,用戶撰寫的功能)增強。因為S的血緣,R比其他統計學或數學專用的編程語言有更強的面向對象(面向對象程序設計)功能。R
83、的另一強項是繪圖功能,制圖具有印刷的素質,也可加入數學符號。雖然R主要用于統計分析或者開發統計相關的軟件,但也有人用作矩陣計算。其分析速度可媲美專用于矩陣計算的自由軟件GNU Octave和商業軟件MATLAB。數據挖掘工具數據挖掘工具-StataStata 61 Stata是Statacorp于1985年開發出來的統計程序,在全球范圍內被廣泛應用于企業和學術機構中。許多使用者工作在研究領域,特別是在經濟學、社會學、政治學及流行病學領域。作為一個小型的統計軟件,其統計分析能力遠遠超過了SPSS,在許多方面也超過了SAS!由于Stata在分析時是將數據全部讀入內存,在計算全部完成后 才和磁盤交換
84、數據,因此計算速度極快(一般來說,SAS的運算速度要比SPSS至少快一個數量級,而Stata的某些模塊和執行同樣功能的SAS模塊比,其速度又比SAS快將近一個數量級?。㏒tata也是采用命令行方式來操作,但使用上遠比SAS簡單。其生存數據分析、縱向數據(重復測量數據)分析等模 塊的功能甚至超過了SAS。用Stata繪制的統計圖形相當精美,很有特色。在長遠趨勢上,Stata有超越SAS的可能(據消息靈通人士透露:在SAS 的老家北卡,真正搞生物統計的人青睞的反而是Stata?。㏒tata最大的缺點應該是數據接口太簡單,實際上只能讀入文本格式的數據文件;其數據管理界面也過于單調 數據挖掘工具數據挖
85、掘工具-MATLABMATLAB 62 MATLAB(矩陣實驗室)是MATrix LABoratory的縮寫,是一款由美國The MathWorks公司出品的商業數學軟件。MATLAB是一種用于算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環境。除了矩陣運算、繪制函數/數據圖像等常用功能外,MATLAB還可以用來創建用戶界面及與調用其它語言(包括C,C+和FORTRAN)編寫的程序。MATLAB和Mathematica、Maple并稱為三大數學軟件。它在數學類科技應用軟件中在數值計算方面首屈一指。MATLAB可以進行矩陣運算、繪制函數和數據、實現算法、創建用戶界面、連接其
86、他編程語言的程序等,主要應用于工程計算、控制設計、信號處理與通訊、圖像處理、信號檢測、金融建模設計與分析等領域。軟件特點:1)高效的數值計算及符號計算功能,能使用戶從繁雜的數學運算分析中解脫出來;2)具有完備的圖形處理功能,實現計算結果和編程的可視化;3)友好的用戶界面及接近數學表達式的自然化語言,使學者易于學習和掌握;4)功能豐富的應用工具箱(如信號處理工具箱、通信工具箱等),為用戶提供了大量方便實用的處理工具 數據挖掘工具數據挖掘工具-其他其他 63 EViewsEViews 是美國GMS公司1981年發行第1版的Micro TSP的Windows版本,通常稱為計量經濟學軟件包。EView
87、s是Econometrics Views的縮寫,它的本意是對社會經濟關系與經濟活動的數量規律,采用計量經濟學方法與技術進行“觀察”。計量經濟學研究的核心是設計模型、收集資料、估計模型、檢驗模型、運用模型進行預測、求解模型和運用模型。正是由于EViews等計量經濟學軟件包 的出現,使計量經濟學取得了長足的進步,發展成為實用與嚴謹的經濟學科。使用 EViews軟件包可以對時間序列和非時間序列的數據進行分析,建立序列(變量)間的統計關系式,并用該關系式進行預測、模擬等等。MinitabMinitab 同樣是國際上流行的一個統計軟件包,其特點是簡單易懂,在國外大學統計學系開設的統計軟件課程中,Mini
88、tab與SAS、BMDP并列,根本沒有 SPSS的份,甚至有的學術研究機構專門教授Minitab之概念及其使用。MiniTab for Windows統計軟件比SAS、SPSS等小得多,但其功能并不弱,特別是它的試驗設計及質量控制等功能。MiniTab提供了對存儲在二維工作表中的數據進行分析的多種功能,包括:基本統計分析、回歸分析、方差分析、多元分析、非參數分析、時間序列分析、試驗設計、質量 控制、模擬、繪制高質量三維圖形等,從功能來看,Minitab除各種統計模型外,還具有許多統計軟件不具備的功能矩陣運算。WEKAWEKA WEKA的全名是懷卡托智能分析環境(Waikato Environm
89、ent for Knowledge Analysis),同時weka也是新西蘭的一種鳥名,而WEKA的主要開發者來自新西蘭。WEKA作為一個公開的數據挖掘工作平臺,集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的交互式界面上的可視化。數據挖掘的工具及軟件數據挖掘的工具及軟件 64 從數據到信息的進化 數據分析發展歷程數據分析發展歷程 60年代 80年代 90年代 2000年 2008 計算機、磁帶、磁盤 SQL E-R 關系型數據庫 結構化查詢語言 數據倉庫 數據倉庫、OLAP、多維數據庫 Hadoop 高級算法 多處理器計算機 海量數據庫 數據收集 數據訪問 數據倉庫、決策支持 數據挖掘 提供歷史性的、提供歷史性的、靜態的數據信息靜態的數據信息 在記錄級提供歷史性的在記錄級提供歷史性的、動態數據信息、動態數據信息 在各種層次上提供回溯的在各種層次上提供回溯的、動態的數據信息、動態的數據信息 提供預測性的信息提供預測性的信息 1960年代,IT系統規模和復雜度變大,數據與應用分離的需求開始產生,數據庫技術開始萌芽并蓬勃發展,并在1990年后逐步統一到以關系型數據庫為主導 2001年后,互聯網迅速發展,數據量成倍遞增,量變引起質變,開始對數據管理技術提出全新的要求 海量 數據庫