第0 章 緻敬,R!.............................. 1
緻敬,肩膀!..................... 1
緻敬,時代!................................... 3
緻敬,人纔!................................... 4
緻敬,R 瑟!................................. 5
上篇 數據預處理
第1 章 數據挖掘導引........................10
1.1 數據挖掘概述..............................10
1.1.1 數據挖掘的過程.............................10
1.1.2 數據挖掘的對象....................................12
1.1.3 數據挖掘的方法........................................12
1.1.4 數據挖掘的應用...................................13
1.2 數據挖掘的算法.................................................14
1.3 數據挖掘的工具.................................................17
1.3.1 工具的分類.............................................17
1.3.2 工具的選擇.............................................18
1.3.3 商用的工具...........................................19
1.3.4 開源的工具............................................21
1.4 R 在數據挖掘中的優勢....................................23
第2 章 數據概覽................................25
2.1 n×m 數據集....................................25
2.2 數據的分類......................................28
2.2.1 一般的數據分類...................................28
2.2.2 R 的數據分類......................................29
2.2.3 用R 簡單處理數據..............................31
2.3 數據抽樣及R 實現....................................34
2.3.1 簡單隨機抽樣........................................34
2.3.2 分層抽樣.................................................36
2.3.3 整群抽樣.................................................38
2.4 訓練集與測試集................................................40
2.5 本章匯總.............................................40
第3 章 用R 獲取數據.......................................42
3.1 獲取內置數據集..................................42
3.1.1 datasets 數據集..........................42
3.1.2 包的數據集....................................43
3.2 獲取其他格式的數據...............................45
3.2.1 CSV 與TXT 格式.........................45
3.2.2 從Excel 直接獲取數據........................47
3.2.3 從其他統計軟件中獲取數據................48
3.3 獲取數據庫數據............................................50
3.4 獲取網頁數據....................................52
3.5 本章匯總.................................55
第4 章 探索性數據分析...........................56
4.1 數據集.......................................56
4.2 數字化探索...................................57
4.2.1 變量概況...................................57
4.2.2 變量詳情.....................................58
4.2.3 分布指標......................................61
4.2.4 稀疏性.............................................62
4.2.5 缺失值............................................63
4.2.6 相關性...........................................65
4.3 可視化探索.......................................68
4.3.1 直方圖.........................................68
4.3.2 纍積分布圖.........................................71
4.3.3 箱形圖.........................................73
4.3.4 條形圖........................................78
4.3.5 點陣圖.........................................81
4.3.6 餅圖..............................................82
4.5 本章匯總.......................................................84
第5 章 數據預處理.............................................86
5.1 數據集加載........................................86
5.2 數據清理..............................................88
5.2.1 缺失值處理.....................................90
5.2.2 噪聲數據處理..................................95
5.2.3 數據不一緻的處理................................97
5.3 數據集成..........................................99
5.4 數據變換....................................101
5.5 數據歸約..............................................102
5.6 本章匯總...........................................104
中篇 基本算法及應用
第6 章 關聯分析.......................................106
6.1 概述..............................................106
6.2 R 中的實現.............................................109
6.2.1 相關軟件包....................................109
6.2.2 核心函數.......................................109
6.2.3 數據集........................................110
6.3 應用案例...........................................111
6.3.1 數據初探........................................111
6.3.2 對生成規則進行強度控製.........................112
6.3.3 一個實際應用.....................................114
6.3.4 改變輸齣結果形式.............................115
6.3.5 關聯規則的可視化..............................116
6.4 本章匯總............................................................120
第7 章 聚類分析.....................................121
7.1 概述.........................121
7.1.1 K-均值聚類...........................................122
7.1.2 K-中心點聚類....................................122
7.1.3 係譜聚類.......................................122
7.1.4 密度聚類........................................124
7.1.5 期望最大化聚類..............................125
7.2 R 中的實現......................................................126
7.2.1 相關軟件包.......................................126
7.2.2 核心函數.............................................127
7.2.3 數據集................................................129
7.3 應用案例.......................................................131
7.3.1 K-均值聚類........................................131
7.3.2 K-中心點聚類..................................135
7.3.3 係譜聚類..............................................137
7.3.4 密度聚類...............................................140
7.3.5 期望最大化聚類.................................145
7.4 本章匯總...........................................................150
第8 章 判彆分析.........................................151
8.1 概述.................................151
8.1.1 費希爾判彆.......................152
8.1.2 貝葉斯判彆.........................153
8.1.3 距離判彆................................153
8.2 R 中的實現......................................154
8.2.1 相關軟件包............................154
8.2.2 核心函數..........................................155
8.2.3 數據集..........................................157
8.3 應用案例.................................................161
8.3.1 綫性判彆分析......................161
8.3.2 樸素貝葉斯分類........................167
8.3.3 K 最近鄰.................................172
8.3.4 有權重的K 最近鄰算法...................174
8.4 推薦係統綜閤實例..............................175
8.4.1 kNN 與推薦........................................176
8.4.2 MovieLens 數據集說明....................176
8.4.3 綜閤運用..............................................177
8.5 本章匯總.......................................182
第9 章 決策樹................................................183
9.1 概述...................................................183
9.1.1 樹形結構........................................183
9.1.2 樹的構建.......................................184
9.1.3 常用算法..........................................185
9.2 R 中的實現...................................................185
9.2.1 相關軟件包......................................185
9.2.2 核心函數.............................................186
9.2.3 數據集............................................187
9.3 應用案例.......................................................190
9.3.1 CART 應用..........................................191
9.3.2 C4.5 應用............................................202
9.4 本章匯總......................................................205
下篇 高級算法及應用
第10 章 集成學習......................................................208
10.1 概述..........................................................208
10.1.1 一個概率論小計算........................208
10.1.2 Bagging 算法.................................209
10.1.3 AdaBoost 算法................................209
10.2 R 中的實現.............................................209
10.2.1 相關軟件包...........................209
10.2.2 核心函數.......................210
10.2.3 數據集............................210
10.3 應用案例......................................213
10.3.1 Bagging 算法..........................213
10.3.2 Adaboost 算法..........................218
10.4 本章匯總.................................................219
第11 章 隨機森林.....................................220
11.1 概述...........................................................220
11.1.1 基本原理..........................................220
11.1.2 重要參數.........................................222
11.2 R 中的實現.................................................223
11.2.1 相關軟件包...................................223
11.2.2 核心函數....................................223
11.2.3 可視化分析....................................231
11.3 應用案例................................................232
11.3.1 數據處理....................................233
11.3.2 建立模型.....................................234
11.3.3 結果分析...................................235
11.3.4 自變量的重要程度..........................236
11.3.5 優化建模...............................237
11.4 本章匯總...................................................241
第12 章 支持嚮量機........................................242
12.1 概述........................................................242
12.1.1 結構風險最小原理......................243
12.1.2 函數間隔與幾何間隔....................244
12.1.3 核函數............................................245
12.2 R 中的實現.............................................245
12.2.1 相關軟件包..................................245
12.2.2 核心函數....................................246
12.2.3 數據集..............................248
12.3 應用案例..................................248
12.3.1 數據初探..........................249
12.3.2 建立模型.......................................249
12.3.3 結果分析......................................249
12.3.4 預測判彆..............................250
12.3.5 綜閤建模....................................251
12.3.6 可視化分析................................252
12.3.7 優化建模......................................254
12.4 本章匯總....................................256
第13 章 神經網絡.......................................257
13.1 概述......................................257
13.2 R 中的實現......................................258
13.2.1 相關軟件包.............................258
13.2.2 核心函數...............................258
13.3 應用案例..................................261
13.3.1 數據初探...........................261
13.3.2 數據處理....................................262
13.3.3 建立模型.............................263
13.3.4 結果分析..............................264
13.3.5 預測判彆.............................264
13.3.6 模型差異分析.......................266
13.3.7 優化建模..............................268
13.4 本章匯總....................................272
第14 章 模型評估與選擇............................273
14.1 評估過程概述..........................273
14.2 安裝Rattle 包.............................274
14.3 Rattle 功能簡介...........................275
14.3.1 Data——選取數據....................275
14.3.2 Explore——數據探究................276
14.3.3 Test——數據相關檢驗....................276
14.3.4 Transform——數據預處理..............277
14.3.5 Cluster——數據聚類.......................277
14.3.6 Model——模型評估......................277
14.3.7 Evaluate——模型評估.....................280
14.3.8 Log——模型評估記錄...................281
14.4 模型評估相關概念................................281
14.4.1 誤判率.........................................281
14.4.2 正確/錯誤的肯定判斷、正確/錯誤的否定判斷...............281
14.4.3 精確度、敏感度及特異性........................282
14.5 Rattle 在模型評估中的應用................................282
14.5.1 混淆矩陣..................................282
14.5.2 風險圖............................283
14.5.3 ROC 圖及相關圖錶.......................286
14.5.4 模型得分數據集.................287
14.6 綜閤實例................................288
14.6.1 數據介紹............................288
14.6.2 模型建立.................................288
14.6.3 模型結果分析......................289
· · · · · · (
收起)