目錄
譯者序
前言
作者簡介
審校者簡介
第1章基於R實踐機器學習
1.1簡介
1.2下載和安裝R
1.3下載和安裝R Studio
1.4包的安裝和加載
1.5數據讀寫
1.6使用R實現數據操作
1.7應用簡單統計
1.8數據可視化
1.9獲取用於機器學習的數據集
第2章挖掘RMSTitanic數據集
2.1簡介
2.2從CSV文件中讀取Titanic數據集
2.3根據數據類型進行轉換
2.4檢測缺失值
2.5插補缺失值
2.6識彆和可視化數據
2.7基於決策樹預測獲救乘客
2.8基於混淆矩陣驗證預測結果的準確性
2.9使用ROC麯綫評估性能
第3章R和統計
3.1簡介
3.2理解R中的數據采樣
3.3在R中控製概率分布
3.4在R中進行一元描述統計
3.5在R中進行多元相關分析
3.6進行多元綫性迴歸分析
3.7執行二項分布檢驗
3.8執行t檢驗
3.9執行Kolmogorov—Smirnov檢驗
3.10理解Wilcoxon秩和檢驗及Wilcoxon符號秩檢驗
3.11實施皮爾森卡方檢驗
3.12進行單因素方差分析
3.13進行雙因素方差分析
第4章理解迴歸分析
4.1簡介
4.2調用1m函數構建綫性迴歸模型
4.3輸齣綫性模型的特徵信息
4.4使用綫性迴歸模型預測未知值
4.5生成模型的診斷圖
4.6利用1m函數生成多項式迴歸模型
4.7調用rlm函數生成穩健綫性迴歸模型
4.8在SLID數據集上研究綫性迴歸案例
4.9基於高斯模型的廣義綫性迴歸
4.10基於泊鬆模型的廣義綫性迴歸
4.11基於二項模型的廣義綫性迴歸
4.12利用廣義加性模型處理數據
4.13可視化廣義加性模型
4.14診斷廣義加性模型
第5章分類Ⅰ——樹、延遲和概率
5.1簡介
5.2準備訓練和測試數據集
5.3使用遞歸分割樹建立分類模型
5.4遞歸分割樹可視化
5.5評測遞歸分割樹的預測能力
5.6遞歸分割樹剪枝
5.7使用條件推理樹建立分類模型
5.8條件推理樹可視化
5.9評測條件推理樹的預測能力
5,10使用k近鄰分類算法
5.11使用邏輯迴歸分類算法
5.12使用樸素貝葉斯分類算法
第6章分類Ⅱ——神經網絡和SVM
6.1簡介
6.2使用支持嚮量機完成數據分類
6_3選擇支持嚮量機的懲罰因子
6.4實現SVM模型的可視化
6.5基於支持嚮量機訓練模型實現類預測
6.6調整支持嚮量機
6.7利用neuralnet包訓練神經網絡模型
6.8可視化由neuralnet包得到的神經網絡模型
6.9基於neuralnet包得到的模型實現類標號預測
6.10利用nnet包訓練神經網絡模型
6.11基於nnet包得到的模型實現類標號預測
第7章模型評估
7.1簡介
7.2基於k摺交叉驗證方法評測模型性能
7.3利用e1071包完成交叉驗證
7.4利用caret包完成交叉檢驗
7.5利用caret包對變量重要程度排序
7.6利用rmlner包對變量重要程度排序
7.7利用caret包找到高度關聯的特徵
7.8利用caret包選擇特徵
7.9評測迴歸模型的性能
7.10利用混淆矩陣評測模型的預測能力
7.11利用ROCR評測模型的預測能力
7.12利用caret包比較ROC麯綫
7.13利用caret包比較模型性能差異
第8章集成學習
8.1簡介
8.2使用bagging方法對數據分類
8.3基於bagging方法進行交叉驗證
8.4使用boosting方法對數據分類
8.5基於boosting方法進行交叉驗證
8.6使用gradientboosting方法對數據分類
8.7計算分類器邊緣
8.8計算集成分類算法的誤差演變
8.9使用隨機森林方法對數據分類
8.10估算不同分類器的預測誤差
第9章聚類
9.1簡介
9.2使用層次聚類處理數據
9.3將樹分成簇
9.4使用k均值方法處理數據
9.5繪製二元聚類圖
9.6聚類算法比較
9.7從簇中抽取輪廓信息
9.8獲得優化的k均值聚類
9.9使用密度聚類方法處理數據
9.10使用基於模型的聚類方法處理數據
9.11相異度矩陣的可視化
9.12使用外部驗證評估聚類效果
第10章關聯分析和序列挖掘
10.1簡介
10.2將數據轉換成事務數據
10.3展示事務及關聯
10.4使用Apriori規則完成關聯挖掘
10.5去掉冗餘規則
10.6關聯規則的可視化
10.7使用Eclat挖掘頻繁項集
10.8生成時態事務數據
10.9使用cSPADE挖掘頻繁時序模式
第11章降維
11.1簡介
11.2使用FSelector完成特徵篩選
11.3使用PCA進行降維
11.4使用scree測試確定主成分數
11.5使用Kaiser方法確定主成分數
11.6使用主成分分析散點圖可視化多元變量
11.7使用MDS進行降維
11.8使用SVD進行降維
11.9使用SVD進行圖像壓縮
11.10使用ISOMAP進行非綫性降維
11.11使用局部綫性嵌入法進行非綫性降維
第12章大數據分析(R和Hadoop)
12.1簡介
12.2準備RHadoop環境
12.3安裝rmr2
12.4安裝rhdfs
12.5在thdfs中操作HDFS
12.6在RHadoop中解決單詞計數問題
12.7比較RMapReduce程序和標準R程序的性能差彆
12.8測試和調試rmr2程序
12.9安裝plymlr
12.10使用plyrmr處理數據
12.11在RHadoop中實施機器學習
12.12在AmazonEMR環境中配置RHadoop機群
附錄AR和機器學習的資源
附錄BTitanic幸存者的數據集
· · · · · · (
收起)