第1章 從頭說起:什麼是噪音數據 1
第2章 是我的問題還是數據的問題 4
2.1 理解數據結構 5
2.2 校驗 8
2.2.1 字段校驗 8
2.2.2 值校驗 9
2.2.3 簡單統計的物理解釋 10
2.3 可視化 11
2.3.1 關鍵詞競價排名示例 13
2.3.2 搜索來源示例 18
2.3.3 推薦分析 19
2.3.4 時間序列數據 22
2.4 小結 27
第3章 數據是給人看的不是給機器看的 28
3.1 數據 28
3.1.1 問題:數據是給人看的 29
3.1.2 對數據的安排 29
3.1.3 數據分散在多個文件中 32
3.2 解決方案:編寫代碼 34
3.2.1 從糟糕的數據格式中讀取數據 34
3.2.2 從多個文件中讀取數據 36
3.3 附言 42
3.4 其他格式 43
3.5 小結 45
第4章 純文本中潛在的噪音數據 46
4.1 使用哪種純文本編碼? 46
4.2 猜測文本編碼格式 50
4.3 對文本規範化處理 53
4.4 問題:在純文本中摻入瞭特定應用字符 55
4.5 通過Python處理文本 59
4.6 實踐練習題 60
第5章 重組Web數據 62
5.1 你能獲得數據嗎 63
5.1.1 一般工作流程示例 64
5.1.2 Robots 協議 65
5.1.3 識彆數據組織模式 66
5.1.4 存儲離綫版本 68
5.1.5 網頁抓取信息 69
5.2 真正的睏難 73
5.2.1 下載原始內容 73
5.2.2 錶單、對話框和新建窗口 73
5.2.3 Flash 74
5.3 不利情況的解決辦法 75
5.4 小結 75
第6章 檢測撒謊者以及相互矛盾網上評論的睏惑 76
6.1 Weotta公司 76
6.2 獲得評論 77
6.3 情感分類 77
6.4 極化語言 78
6.5 創建語料庫 80
6.6 訓練分類器 81
6.7 分類器驗證 82
6.8 用數據設計 84
6.9 經驗教訓 84
6.10 小結 85
6.11 信息資源 86
第7章 請噪音數據站齣來 87
7.1 實例1:在製造業中減少缺陷 87
7.2 實例2:誰打來的電話 90
7.3 實例3:當“典型的”不等於“平均的” 92
7.4 經驗總結 95
7.5 到工廠參觀能成為試驗的一部分嗎 96
第8章 血、汗和尿 97
8.1 書呆子戲劇性工作交換 97
8.2 化學傢如何整理數字 98
8.3 數據庫都是我們的 99
8.4 仔細檢查 102
8.5 生命短暫的漂亮代碼庫 103
8.6 改變化學傢(和其他電子錶單濫用者) 104
8.7 傳遞綫(tl)和數據記錄器(dr) 105
第9章 當數據與現實不匹配 107
9.1 到底是誰的報價機 108
9.2 股票分割、股利和調整 110
9.3 糟糕的現實 112
9.4 小結 114
第10章 偏差和誤差的來源 115
10.1 估算上的偏差:一般性的問題 117
10.2 報告上的誤差:一般性的問題 118
10.3 其他偏差來源 121
10.3.1 頂層編碼/底部編碼 121
10.3.2 Seam偏差 122
10.3.3 代理報告 123
10.3.4 樣本選擇 123
10.4 結論 124
參考文獻 124
第11章 不要把完美和正確對立起來:噪音數據真是噪音嗎 128
11.1 迴憶學校生活 128
11.2 嚮著專業領域前進 129
11.2.1 政府工作 130
11.2.2 政府數據非常真實 131
11.3 應用實例—服務電話 132
11.4 繼續前進 133
11.5 經驗與未來展望 134
第12章 數據庫攻擊:什麼時候使用文件 135
12.1 曆史 135
12.2 建立我的工具箱 136
12.3 數據存儲—我的路障 136
12.4 將文件作為數據存儲器 137
12.4.1 簡單的文件 138
12.4.2 文件處理一切 138
12.4.3 文件可包含任何數據形式 138
12.4.4 局部數據破壞 139
12.4.5 文件擁有很棒的工具 139
12.4.6 沒有安裝稅 139
12.5 文件的概念 140
12.5.1 編碼 140
12.5.2 文本文件 140
12.5.3 二進製數據 140
12.5.4 內存映射文件 140
12.5.5 文件格式 140
12.5.6 分隔符 142
12.6 文件支持的網絡框架 143
12.6.1 動機 143
12.6.2 實現 145
12.7 反饋 145
第13章 臥庫錶,隱網絡 146
13.1 成本分配模型 147
13.2 組閤展開微妙的作用 150
13.3 隱藏網絡的浮現 151
13.4 存儲圖錶 151
13.5 利用Gremlin遍曆圖錶 152
13.6 在網絡屬性裏尋找價值 154
13.7 從多重數據模型角度考慮並使用正確的工具 155
13.8 緻謝 155
第14章 雲計算神話 156
14.1 關於雲的介紹 156
14.2 何謂“雲” 156
14.3 雲和大數據 157
14.4 Fred的故事 157
14.4.1 起初一切都好 157
14.4.2 基礎結構全部放在雲端 158
14.4.3 隨著規模增長,最初的擴展很輕鬆 158
14.4.4 麻煩齣現瞭 158
14.4.5 需要提高性能 158
14.4.6 關鍵要提高RAID 10性能 158
14.4.7 重要的局部運行中斷引發長期停機 159
14.4.8 有代價的RAID 10 159
14.4.9 數據規模增大 160
14.4.10 地理冗餘成為首選 160
14.4.11 水平擴展並不像想像得那麼簡單 160
14.4.12 成本顯著增長 160
14.5 Fred的荒唐事 161
14.5.1 神話1:雲是所有基礎設施組件的解決方案 161
該神話與Fred故事的聯係 161
14.5.2 神話2:雲可以節約成本 161
該神話與Fred的故事的聯係 162
14.5.3 神話3:通過RAID可以將cloud 10的性能提高至可接受的水平 163
該神話與Fred故事的聯係 163
14.5.4 神話4:雲計算使水平擴展輕鬆 163
該神話與Fred故事的聯係 164
14.6 結論和推薦 164
第15章 數據科學的陰暗麵 165
15.1 避開這些陷阱 165
15.1.1 對數據一無所知 166
15.1.2 應該隻為數據科學傢提供一種工具來解決所有問題 167
15.1.3 應該為瞭分析而分析 169
15.1.4 應該學會分享 169
15.1.5 應該期望數據科學傢無所不能 170
15.2 數據學傢在機構中的位置 170
15.3 最後的想法 171
第16章 如何雇傭機器學習專傢 172
16.1 確定問題 172
16.2 模型測試 173
16.3 創建訓練集 174
16.4 選擇特徵 175
16.5 數據編碼 176
16.6 訓練集、測試集和解決方案集 176
16.7 問題描述 177
16.8 迴答問題 178
16.9 整閤解決方案 178
16.10 小結 179
第17章 數據的可追蹤性 180
17.1 原因 180
17.2 個人經驗 181
17.2.1 快照 181
17.2.2 保存數據源 181
17.2.3 衡量數據源 182
17.2.4 逆嚮恢復數據 182
17.2.5 分階段處理數據並保持各階段的獨立性 182
17.2.6 識彆根源 183
17.2.7 尋找要完善的區域 183
17.3 不變性:從函數程序設計藉來的理念 183
17.4 案例 184
17.4.1 網絡爬蟲 184
17.4.2 改變 185
17.4.3 聚類 185
17.4.4 普及度 185
17.5 小結 186
第18章 社交媒體:是可抹去的印記嗎 187
18.1 社交媒體:到底是誰的數據 188
18.2 管控 188
18.3 商業重組 190
18.4 對溝通和錶達的期望 190
18.5 新的最終用戶期望的技術含義 192
18.6 這個行業是做什麼的 194
18.6.1 驗證API 195
18.6.2 更新通知API 195
18.7 最終用戶做什麼 195
18.8 我們怎樣一起工作 196
第19章 揭秘數據質量分析:瞭解什麼時候數據足夠優質 197
19.1 框架介紹:數據質量分析的4個C 198
19.1.1 完整性 199
19.1.2 一緻性 201
19.1.3 準確性 203
19.1.4 可解釋性 205
19.2 結論 208
· · · · · · (
收起)