前言 ix
第1章 引言 1
1.1 為何選擇機器學習 1
1.1.1 機器學習能夠解決的問題 2
1.1.2 熟悉任務和數據 4
1.2 為何選擇Python 4
1.3 scikit-learn 4
1.4 必要的庫和工具 5
1.4.1 Jupyter Notebook 6
1.4.2 NumPy 6
1.4.3 SciPy 6
1.4.4 matplotlib 7
1.4.5 pandas 8
1.4.6 mglearn 9
1.5 Python 2與Python 3的對比 9
1.6 本書用到的版本 10
1.7 第一個應用:鳶尾花分類 11
1.7.1 初識數據 12
1.7.2 衡量模型是否成功:訓練數據與測試數據 14
1.7.3 要事第一:觀察數據 15
1.7.4 構建第一個模型:k近鄰算法 16
1.7.5 做齣預測 17
1.7.6 評估模型 18
1.8 小結與展望 19
第2章 監督學習 21
2.1 分類與迴歸 21
2.2 泛化、過擬閤與欠擬閤 22
2.3 監督學習算法 24
2.3.1 一些樣本數據集 25
2.3.2 k 近鄰 28
2.3.3 綫性模型 35
2.3.4 樸素貝葉斯分類器 53
2.3.5 決策樹 54
2.3.6 決策樹集成 64
2.3.7 核支持嚮量機 71
2.3.8 神經網絡(深度學習) 80
2.4 分類器的不確定度估計 91
2.4.1 決策函數 91
2.4.2 預測概率 94
2.4.3 多分類問題的不確定度 96
2.5 小結與展望 98
第3章 無監督學習與預處理 100
3.1 無監督學習的類型 100
3.2 無監督學習的挑戰 101
3.3 預處理與縮放 101
3.3.1 不同類型的預處理 102
3.3.2 應用數據變換 102
3.3.3 對訓練數據和測試數據進行相同的縮放 104
3.3.4 預處理對監督學習的作用 106
3.4 降維、特徵提取與流形學習 107
3.4.1 主成分分析 107
3.4.2 非負矩陣分解 120
3.4.3 用t-SNE進行流形學習 126
3.5 聚類 130
3.5.1 k 均值聚類 130
3.5.2 凝聚聚類 140
3.5.3 DBSCAN 143
3.5.4 聚類算法的對比與評估 147
3.5.5 聚類方法小結 159
3.6 小結與展望 159
第4章 數據錶示與特徵工程 161
4.1 分類變量 161
4.1.1 One-Hot編碼(虛擬變量) 162
4.1.2 數字可以編碼分類變量 166
4.2 分箱、離散化、綫性模型與樹 168
4.3 交互特徵與多項式特徵 171
4.4 單變量非綫性變換 178
4.5 自動化特徵選擇 181
4.5.1 單變量統計 181
4.5.2 基於模型的特徵選擇 183
4.5.3 迭代特徵選擇 184
4.6 利用專傢知識 185
4.7 小結與展望 192
第5章 模型評估與改進 193
5.1 交叉驗證 194
5.1.1 scikit-learn中的交叉驗證 194
5.1.2 交叉驗證的優點 195
5.1.3 分層k 摺交叉驗證和其他策略 196
5.2 網格搜索 200
5.2.1 簡單網格搜索 201
5.2.2 參數過擬閤的風險與驗證集 202
5.2.3 帶交叉驗證的網格搜索 203
5.3 評估指標與評分 213
5.3.1 牢記最終目標 213
5.3.2 二分類指標 214
5.3.3 多分類指標 230
5.3.4 迴歸指標 232
5.3.5 在模型選擇中使用評估指標 232
5.4 小結與展望 234
第6章 算法鏈與管道 236
6.1 用預處理進行參數選擇 237
6.2 構建管道 238
6.3 在網格搜索中使用管道 239
6.4 通用的管道接口 242
6.4.1 用make_pipeline方便地創建管道 243
6.4.2 訪問步驟屬性 244
6.4.3 訪問網格搜索管道中的屬性 244
6.5 網格搜索預處理步驟與模型參數 246
6.6 網格搜索選擇使用哪個模型 248
6.7 小結與展望 249
第7章 處理文本數據 250
7.1 用字符串錶示的數據類型 250
7.2 示例應用:電影評論的情感分析 252
7.3 將文本數據錶示為詞袋 254
7.3.1 將詞袋應用於玩具數據集 255
7.3.2 將詞袋應用於電影評論 256
7.4 停用詞 259
7.5 用tf-idf縮放數據 260
7.6 研究模型係數 263
7.7 多個單詞的詞袋(n元分詞) 263
7.8 高級分詞、詞乾提取與詞形還原 267
7.9 主題建模與文檔聚類 270
7.10 小結與展望 277
第8章 全書總結 278
8.1 處理機器學習問題 278
8.2 從原型到生産 279
8.3 測試生産係統 280
8.4 構建你自己的估計器 280
8.5 下一步怎麼走 281
8.5.1 理論 281
8.5.2 其他機器學習框架和包 281
8.5.3 排序、推薦係統與其他學習類型 282
8.5.4 概率建模、推斷與概率編程 282
8.5.5 神經網絡 283
8.5.6 推廣到更大的數據集 283
8.5.7 磨練你的技術 284
8.6 總結 284
關於作者 285
關於封麵 285
· · · · · · (
收起)
評分
☆☆☆☆☆
翻譯真的很渣 具體寫算法的地方有點囉嗦 沒有數學推導 最好再加上100頁的數學 文字那麼多很不好理解 但是這本書的重點應該是在跑模型前後的工作
評分
☆☆☆☆☆
偏嚮實踐方嚮的sklearn介紹的書籍。
評分
☆☆☆☆☆
翻譯真的很渣 具體寫算法的地方有點囉嗦 沒有數學推導 最好再加上100頁的數學 文字那麼多很不好理解 但是這本書的重點應該是在跑模型前後的工作
評分
☆☆☆☆☆
sklearn嘛
評分
☆☆☆☆☆
囫圇吞棗看完瞭這個書 由於有的代碼敲不瞭老報錯 代碼實現部分準備看其他的教程瞭 寫的結果還是很棒棒的
評分
☆☆☆☆☆
在基于TensorFlow的深度学习框架大红大紫之前,其实在2010年前后流行过很多的经典机器学习框架。比如KNN,比如支撑向量机,比如随机森林。相对于深度学习的理论,这些经典的机器学习算法构建在更为精密的数学推导上。运筹学,最优化理论,数学分析,数理统计和随机过程构成了这...
評分
☆☆☆☆☆
在基于TensorFlow的深度学习框架大红大紫之前,其实在2010年前后流行过很多的经典机器学习框架。比如KNN,比如支撑向量机,比如随机森林。相对于深度学习的理论,这些经典的机器学习算法构建在更为精密的数学推导上。运筹学,最优化理论,数学分析,数理统计和随机过程构成了这...
評分
☆☆☆☆☆
扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...
評分
☆☆☆☆☆
在基于TensorFlow的深度学习框架大红大紫之前,其实在2010年前后流行过很多的经典机器学习框架。比如KNN,比如支撑向量机,比如随机森林。相对于深度学习的理论,这些经典的机器学习算法构建在更为精密的数学推导上。运筹学,最优化理论,数学分析,数理统计和随机过程构成了这...
評分
☆☆☆☆☆
扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...