第一篇基礎篇
第1章緒論 2
1.1 量化投資與數據挖掘的關係 2
1.1.1 什麼是量化投資 2
1.1.2 量化投資的特點 3
1.1.3 量化投資的核心——量化模型 5
1.1.4 量化模型的主要産生方法——數據挖掘 7
1.2 數據挖掘的概念和原理 8
1.2.1 什麼是數據挖掘 8
1.2.2 數據挖掘的原理 10
1.3 數據挖掘在量化投資中的應用 11
1.3.1 宏觀經濟分析 11
1.3.2 估價 13
1.3.3 量化選股 14
1.3.4 量化擇時 14
1.3.5 算法交易 15
1.4 本章小結 16
參考文獻 16
第2章數據挖掘的內容、過程及工具 17
2.1 數據挖掘的內容 17
2.1.1 關聯 17
2.1.2 迴歸 19
2.1.3 分類 20
2.1.4 聚類 21
2.1.5 預測 22
2.1.6 診斷 24
2.2 數據挖據過程 25
2.2.1 數據挖掘過程概述 25
2.2.2 挖掘目標的定義 26
2.2.3 數據的準備 26
2.2.4 數據的探索 28
2.2.5 模型的建立 30
2.2.6 模型的評估 34
2.2.7 模型的部署 35
2.3 數據挖掘工具 36
2.3.1 MATLAB 36
2.3.2 SAS 37
2.3.3 SPSS 38
2.3.4 WEKA 40
2.3.5 R 41
2.3.6 工具的比較與選擇 42
2.4 本章小結 43
參考文獻 44
第二篇技術篇
第3章數據的準備 47
3.1 數據的收集 47
3.1.1 認識數據 47
3.1.2 數據挖掘的數據源 49
3.1.3 數據抽樣 50
3.1.4 量化投資的數據源 51
3.1.5 從雅虎獲取交易數據 53
3.1.6 從大智慧獲取財務數據 56
3.1.7 從Wind獲取高質量數據 57
3.2 數據質量分析 59
3.2.1 數據質量分析的必要性 59
3.2.2 數據質量分析的目的 60
3.2.3 數據質量分析的內容 60
3.2.4 數據質量分析的方法 61
3.2.5 數據質量分析的結果及應用 66
3.3 數據預處理 67
3.3.1 為什麼需要數據預處理 67
3.3.2 數據預處理的主要任務 68
3.3.3 數據清洗 69
3.3.4 數據集成 73
3.3.5 數據歸約 74
3.3.6 數據變換 74
3.4 本章小結 77
參考文獻 77
第4章數據的探索 78
4.1 衍生變量 79
4.1.1 衍生變量的定義 79
4.1.2 變量衍生的原則和方法 80
4.1.3 常用的股票衍生變量 80
4.1.4 評價型衍生變量 85
4.1.5 衍生變量數據收集與集成 87
4.2 數據的統計 88
4.2.1 基本描述性統計 89
4.2.2 分布描述性統計 90
4.3 數據可視化 90
4.3.1 基本可視化方法 91
4.3.2 數據分布形狀可視化 92
4.3.3 數據關聯情況可視化 94
4.3.4 數據分組可視化 95
4.4 樣本選擇 97
4.4.1 樣本選擇的方法 97
4.4.2 樣本選擇應用實例 98
4.5 數據降維 100
4.5.1 主成分分析(PCA)基本原理 100
4.5.2 PCA應用案例:企業綜閤實力排序 103
4.5.3 相關係數降維 106
4.6 本章小結 107
參考文獻 108
第5章關聯規則方法 109
5.1 關聯規則概要 109
5.1.1 關聯規則提齣背景 109
5.1.2 關聯規則的基本概念 110
5.1.3 關聯規則的分類 112
5.1.4 關聯規則挖掘常用算法 113
5.2 Apriori算法 113
5.2.1 Apriori算法的基本思想 113
5.2.2 Apriori算法的步驟 114
5.2.3 Apriori算法的實例 114
5.2.4 Apriori算法的程序實現 117
5.2.5 Apriori算法的優缺點 120
5.3 FP-Growth算法 121
5.3.1 FP-Growth算法步驟 121
5.3.2 FP-Growth算法實例 122
5.3.3 FP-Growth算法的優缺點 124
5.4 應用實例:行業關聯選股法 124
5.5 本章小結 126
參考文獻 127
第6章數據迴歸方法 128
6.1 一元迴歸 129
6.1.1 一元綫性迴歸 129
6.1.2 一元非綫性迴歸 133
6.1.3 一元多項式迴歸 138
6.2 多元迴歸 138
6.2.1 多元綫性迴歸 138
6.2.2 多元多項式迴歸 142
6.3 逐步歸迴 145
6.3.1 逐步迴歸的基本思想 145
6.3.2 逐步迴歸步驟 146
6.3.3 逐步迴歸的MATLAB方法 147
6.4 Logistic迴歸 149
6.4.1 Logistic模型 149
6.4.2 Logistic迴歸實例 150
6.5 應用實例:多因子選股模型的實現 153
6.5.1 多因子模型的基本思想 153
6.5.2 多因子模型的實現 154
6.6 本章小結 157
參考文獻 157
第7章分類方法 158
7.1 分類方法概要 158
7.1.1 分類的概念 158
7.1.2 分類的原理 159
7.1.3 常用的分類方法 160
7.2 K-近鄰(KNN) 161
7.2.1 K-近鄰原理 161
7.2.2 K-近鄰實例 163
7.2.3 K-近鄰特點 166
7.3 貝葉斯分類 167
7.3.1 貝葉斯分類原理 167
7.3.2 樸素貝葉斯分類原理 167
7.3.3樸素貝葉斯分類實例 170
7.3.4樸素貝葉斯特點 170
7.4 神經網絡 171
7.4.1 神經網絡的原理 171
7.4.2 神經網絡的實例 173
7.4.3 神經網絡的特點 174
7.5 邏輯斯蒂(Logistic) 175
7.5.1 邏輯斯蒂的原理 175
7.5.2 邏輯斯蒂的實例 175
7.5.3 邏輯斯蒂的特點 175
7.6 判彆分析 176
7.6.1 判彆分析的原理 176
7.6.2 判彆分析的實例 177
7.6.3 判彆分析的特點 177
7.7 支持嚮量機(SVM) 178
7.7.1 SVM的基本思想 178
7.7.2 理論基礎 179
7.7.3 支持嚮量機的實例 182
7.7.4 支持嚮量機的特點 182
7.8 決策樹 183
7.8.1 決策樹的基本概念 183
7.8.2 決策樹的建構的步驟 184
7.8.3 決策樹的實例 187
7.8.4 決策樹的特點 188
7.9 分類的評判 188
7.9.1 正確率 188
7.9.2 ROC麯綫 191
7.10 應用實例:分類選股法 193
7.10.1 案例背景 193
7.10.2 實現方法 194
7.11 延伸閱讀:其他分類方法 197
7.12 本章小結 197
參考文獻 198
第8章聚類方法 199
8.1 聚類方法概要 200
8.1.1 聚類的概念 200
8.1.2 類的度量方法 201
8.1.3 聚類方法的應用場景 203
8.1.4 聚類方法的分類 204
8.2 K-means方法 205
8.2.1 K-means的原理和步驟 205
8.2.2 K-means實例1:自主編程 206
8.2.3 K-means實例2:集成函數 208
8.2.4 K-means的特點 212
8.3 層次聚類 212
8.3.1 層次聚類的原理和步驟 212
8.3.2 層次聚類的實例 214
8.3.3 層次聚類的特點 217
8.4 神經網絡聚類 217
8.4.1 神經網絡聚類的原理和步驟 217
8.4.2 神經網絡聚類的實例 218
8.4.3 神經網絡聚類的特點 219
8.5 模糊C-均值(FCM)方法 219
8.5.1 FCM的原理和步驟 219
8.5.2 FCM的應用實例 220
8.5.3 FCM算法的特點 221
8.6 高斯混閤聚類方法 222
8.6.1 高斯混閤聚類的原理和步驟 222
8.6.2 高斯聚類的實例 224
8.6.3 高斯聚類的特點 225
8.7 類彆數的確定方法 225
8.7.1 類彆的原理 225
8.7.2 類彆的實例 227
8.8 應用實例:股票聚類分池 229
8.8.1 聚類目標和數據描述 229
8.8.2 實現過程 229
8.8.3 結果及分析 231
8.9 延伸閱讀 233
8.9.1 目前聚類分析研究的主要內容 233
8.9.2 SOM智能聚類算法 234
8.10 本章小結 235
參考文獻 235
第9章預測方法 236
9.1 預測方法概要 236
9.1.1 預測的概念 236
9.1.2 預測的基本原理 237
9.1.3 量化投資中預測的主要內容 238
9.1.4 預測的準確度評價及影響因素 239
9.1.5 常用的預測方法 240
9.2 灰色預測 241
9.2.1 灰色預測原理 241
9.2.2 灰色預測的實例 243
9.3 馬爾科夫預測 246
9.3.1 馬爾科夫預測的原理 246
9.3.2 馬爾科夫過程的特性 247
9.3.3 馬爾科夫預測的實例 248
9.4 應用實例:大盤走勢預測 252
9.4.1 數據的選取及模型的建立 252
9.4.2 預測過程 253
9.4.3 預測結果與分析 254
9.5 本章小結 255
參考文獻 256
第10章診斷方法 257
10.1 離群點診斷概要 257
10.1.1 離群點診斷的定義 257
10.1.2 離群點診斷的作用 258
10.1.3 離群點診斷方法分類 260
10.2 基於統計的離群點診斷 260
10.2.1 理論基礎 260
10.2.2 應用實例 262
10.2.3 優點與缺點 264
10.3 基於距離的離群點診斷 264
10.3.1 理論基礎 264
10.3.2 應用實例 265
10.3.3 優點與缺點 267
10.4 基於密度的離群點挖掘 267
10.4.1 理論基礎 267
10.4.2 應用實例 268
10.4.3 優點與缺點 270
10.5 基於聚類的離群點挖掘 270
10.5.1 理論基礎 270
10.5.2 應用實例 271
10.5.3 優點與缺點 273
10.6 應用實例:離群點診斷量化擇時 273
10.7 延伸閱讀:新興的離群點挖掘方法 275
10.7.1 基於關聯的離群點挖掘 275
10.7.2 基於粗糙集的離群點挖掘 276
10.7.3 基於人工神經網絡的離群點挖掘 276
10.8 本章小結 277
參考文獻 277
第11章時間序列方法 279
11.1 時間序列的基本概念 279
11.1.1 時間序列的定義 279
11.1.2 時間序列的組成因素 280
11.1.3 時間序列的分類 281
11.1.4 時間序列分析方法 282
11.2 平穩時間序列分析方法 283
11.2.1 移動平均法 283
11.2.2 指數平滑法 284
11.3 季節指數預測法 285
11.3.1 季節性水平模型 285
11.3.2 季節性趨勢模型 286
11.4 時間序列模型 286
11.4.1 ARMA模型 286
11.4.2 ARIMA模型 287
11.4.3 ARCH模型 288
11.4.4 GARCH模型 289
11.5 應用實例:基於時間序列的股票預測 289
11.6 本章小結 293
參考文獻 293
第12章智能優化方法 294
12.1 智能優化方法概要 295
12.1.1 智能優化方法的概念 295
12.1.2 在量化投資中的作用 295
12.1.3 常用的智能優化方法 295
12.2 遺傳算法 297
12.2.1 遺傳算法的原理 297
12.2.2 遺傳算法的步驟 298
12.2.3 遺傳算法實例 306
12.2.4 遺傳算法的特點 307
12.3 模擬退火算法 309
12.3.1 模擬退火算法的原理 309
12.3.2 模擬退火算法步驟 310
12.3.3 模擬退火算法實例 313
12.3.4 模擬退火算法的特點 319
12.4 應用實例:組閤投資優化 320
12.4.1 問題描述 320
12.4.2 求解過程 320
12.5 延伸閱讀:其他智能方法 321
12.5.1 粒子群算法 321
12.5.2 蟻群算法 323
12.6 本章小結 325
參考文獻 325
第三篇實踐篇
第13章統計套利策略的挖掘與優化 327
13.1 統計套利策略概述 327
13.1.1 統計套利的定義 327
13.1.2 統計套利策略的基本思想 327
13.1.3 統計套利策略挖掘的方法 328
13.2 基本策略的挖掘 329
13.2.1 準備數據 329
13.2.2 探索交易策略 329
13.2.3 驗證交易策略 330
13.2.4 選擇最佳的參數 331
13.2.5 參數掃描法 334
13.2.6 考慮交易費 335
13.3 高頻交易策略及優化 337
13.3.1 高頻交易的基本思想 337
13.3.2 高頻交易的實現 339
13.4 多交易信號策略的組閤及優化 341
13.4.1 多交易信號策略 341
13.4.2 交易信號的組閤優化機理 343
13.4.3 交易信號的組閤優化實現 344
13.5 本章小結 347
參考文獻 348
第14章配對交易策略的挖掘與實現 349
14.1 配對交易概述 350
14.1.1 配對交易的定義 350
14.1.2 配對交易的特點 350
14.1.3 配對選取步驟 351
14.2 協整檢驗的理論基礎 352
14.2.1 協整關係的定義 352
14.2.2 EG兩步協整檢驗法 353
14.2.3 Johansen協整檢驗法 353
14.3 配對交易的實現 355
14.3.1 協整檢驗的實現 355
14.3.2 配對交易函數 356
14.3.3 協整配對中的參數優化 359
14.4 延伸閱讀:配對交易的三要素 360
14.4.1 配對交易的前提 360
14.4.2 配對交易的關鍵 360
14.4.3 配對交易的假設 360
14.5 本章小結 361
參考文獻 361
第15章數據挖掘在股票程序化
交易中的綜閤應用 362
15.1 程序化交易概述 362
15.1.1 程序化交易的定義 362
15.1.2 程序化交易的實現過程 363
15.1.3 程序化交易的分類 365
15.2 數據的處理及探索 366
15.2.1 獲取股票日交易數據 366
15.2.2 計算指標 369
15.2.3 數據標準化 375
15.2.4 變量篩選 377
15.3 模型的建立及評估 379
15.3.1 股票預測的基本思想 379
15.3.2 模型的訓練及評價 379
15.4 組閤投資的優化 381
15.4.1 組閤投資的理論基礎 381
15.4.2 組閤投資的實現 385
15.5 程序化交易的實施 389
15.6 本章小結 389
參考文獻 390
第16章基於數據挖掘技術的量化交易係統 392
16.1 交易係統概述 393
16.1.1 交易係統的定義 393
16.1.2 交易係統的作用 393
16.2 DM交易係統總體設計 394
16.2.1 係統目標 394
16.2.2 相關約定 395
16.2.3 係統結構 395
16.3 短期交易子係統 396
16.3.1 子係統功能描述 396
16.3.2 數據預處理模塊 396
16.3.3 量化選股模塊 397
16.3.4 策略迴測模塊 397
16.4 中長期交易子係統 398
16.4.1 子係統功能描述 398
16.4.2 導入數據模塊 398
16.4.3 投資組閤優化模塊 399
16.5 係統的拓展與展望 401
16.6 本章小結 401
參考文獻 402
· · · · · · (
收起)
評分
☆☆☆☆☆
抱着试一试的态度,去浏览了一遍,彻头彻尾的粗制滥造产品。 整本书大部分都是在粘贴定义,然后举的例子,几乎是不相关的例子,真的只是在说这个例子,没有策略分析之类的干货。 没什么代码,举的例子中只要稍微好一点的例子,都是没有代码的,这有个毛线参照意义。 顺便再说一...
評分
☆☆☆☆☆
抱着试一试的态度,去浏览了一遍,彻头彻尾的粗制滥造产品。 整本书大部分都是在粘贴定义,然后举的例子,几乎是不相关的例子,真的只是在说这个例子,没有策略分析之类的干货。 没什么代码,举的例子中只要稍微好一点的例子,都是没有代码的,这有个毛线参照意义。 顺便再说一...
評分
☆☆☆☆☆
抱着试一试的态度,去浏览了一遍,彻头彻尾的粗制滥造产品。 整本书大部分都是在粘贴定义,然后举的例子,几乎是不相关的例子,真的只是在说这个例子,没有策略分析之类的干货。 没什么代码,举的例子中只要稍微好一点的例子,都是没有代码的,这有个毛线参照意义。 顺便再说一...
評分
☆☆☆☆☆
抱着试一试的态度,去浏览了一遍,彻头彻尾的粗制滥造产品。 整本书大部分都是在粘贴定义,然后举的例子,几乎是不相关的例子,真的只是在说这个例子,没有策略分析之类的干货。 没什么代码,举的例子中只要稍微好一点的例子,都是没有代码的,这有个毛线参照意义。 顺便再说一...
評分
☆☆☆☆☆
抱着试一试的态度,去浏览了一遍,彻头彻尾的粗制滥造产品。 整本书大部分都是在粘贴定义,然后举的例子,几乎是不相关的例子,真的只是在说这个例子,没有策略分析之类的干货。 没什么代码,举的例子中只要稍微好一点的例子,都是没有代码的,这有个毛线参照意义。 顺便再说一...