?三個皮匠微信公眾號每天給您帶來最全最新各類數據研究報告
真假序列識別的意義和研究思路
本文從一個相對新穎的研究問題——真假市場價量序列識別入手,以機器學習為研究工具,考察真實市場價量序列是否包含顯著區別于隨機生成的虛假市場價量序列的信息,從反向的邏輯檢驗市場交易信息是否存在規律,并進一步探討基于交易信息的技術分析的可靠性。結果表明,單純基于價的技術分析可靠性存疑,量可能比價更有用。
虛假序列的生成與特點
本研究選擇收益率作為“價”信息的代表,換手率作為“量”信息的代表,選擇 4 只寬基指數和 29 只一級行業指數作為樣本標的,選擇 60 個交易日作為樣本長度。通過隨機打亂收益率和換手率的時間順序生成虛假序列,同時保證同一交易日的收益率和換手率對應。收益率及價格的真假序列僅憑肉眼觀察幾乎難以分辨。真實換手率序列相比于虛假換手率序列表現出更強的趨勢性和平滑性。
卷積神經網絡模型模型表現突出,優于其它機器學習模型
模型初篩的結果表明,卷積神經網絡(CNN)對真假價量序列的識別能力突出,表現顯著優于其它模型;支持向量機和全連接神經網絡表現出一定的識別能力,但總體較弱;而邏輯回歸、隨機森林、XGBoost 等模型幾乎沒有識別能力。我們推測其原因在于傳統分類器依賴特征工程,需要人為從原始數據中提煉特征;而卷積神經網絡本身有提取特征的能力,并且對圖像數據的局部特征有較強的識別能力,因此適用于類似圖像形式的時間序列識別問題。
換手率序列識別效果良好,引入技術指標無顯著提升
基于收益率和換手率序列的模型對真假序列的識別能力較強,說明市場的價量序列包含非隨機特征。將收益率和換手率序列分離并單獨測試,發現基于收益率序列的模型識別效果不佳,在召回率上存在短板;基于換手率序列的模型識別效果良好。由此推測價量序列的主要信息來源于換手率,而收益率包含的信息較少或者提取難度較大。進一步嘗試通過技術指標對收益率信息進行定向提取,發現引入 DIF、MACD 和 PSY 指標對識別效果沒有顯著提升。由此推測這些基于價格的技術指標帶來的增量信息有限。
單純基于價的技術分析可靠性存疑,量可能比價更有用
本研究測試結果表明,換手率序列存在可識別特征,并且在外推時間區間內 CNN 模型仍有良好識別表現;而基于收益率序列的 CNN 模型無法識別真假序列。換言之,基于量的技術分析或存在合理之處,而單純基于價的技術分析可靠性存疑,量可能比價更有用。價格、收益率或基于價的技術指標蘊含的信息可能有限,可能需要與換手率、成交量或者其它基于量的技術指標結合使用。
神經網絡 Grad-CAM 可視化:模型識別依靠局部特征
采用Grad-CAM方法對基于換手率序列的CNN 模型識別過程進行可視化。連續真實序列的熱力圖顯示出顯著的連續平移跡象,表明模型識別真假序列主要來源于對換手率序列局部特征的識別。將 Grad-CAM 熱力圖和部分真實換手率序列結合,發現 CNN 模型對持續的高換手以及換手大幅降低的局部特征有提取作用??偟膩砜?,針對模型的識別機制和特征提取方法仍缺乏深入理解,難以直觀地解釋,有待后續進一步研究。 (原文來自皮匠網,關注“三個皮匠”微信公眾號,每天分享最新行業報告)
















