前言
第1章 統計思維與網站分析 1
1.1 不確定與確定 1
1.2 統計分析方法 4
1.2.1 細分分析 4
1.2.2 對比分析 6
1.2.3 趨勢分析 7
1.3 網站分析概要 7
1.3.1 解決用戶需求 7
1.3.2 尋找新的用戶需求 10
第2章 R語言數據操作基礎 11
2.1 R簡介 11
2.2 瞭解R軟件 11
2.2.1 軟件安裝 11
2.2.2 R軟件界麵 12
2.2.3 工作目錄 14
2.2.4 命令行交互 15
2.2.5 命令腳本文件 16
2.2.6 工作空間數據 16
2.2.7 幫助 17
2.2.8 R語言入門 18
2.2.9 擴展算法包 19
2.3 R語言的數據類型 21
2.4 對象及其屬性 23
2.4.1 固有屬性:模式和長度 24
2.4.2 讀取和設置屬性值 24
2.4.3 對象的搜索和刪除 25
2.5 嚮量 26
2.5.1 創建嚮量 26
2.5.2 嚮量索引 26
2.5.3 嚮量編輯 29
2.5.4 嚮量排序 29
2.5.5 嚮量去重 30
2.5.6 缺失值處理 30
2.5.7 嚮量間操作 31
2.6 矩陣和數組 31
2.6.1 創建矩陣 32
2.6.2 矩陣索引 33
2.6.3 矩陣編輯 34
2.6.4 矩陣的運算 35
2.6.5 數組 37
2.6.6 apply函數應用 38
2.7 列錶和數據框 39
2.7.1 列錶的創建和索引 39
2.7.2 列錶編輯 40
2.7.3 數據框的創建和名稱 40
2.7.4 數據框索引 41
2.7.5 數據框編輯 43
2.7.6 缺失值處理 44
2.8 因子 44
2.8.1 無序和有序因子 45
2.8.2 連續數據的離散化 46
2.9 字符串操作 47
2.9.1 字符串長度nchar 48
2.9.2 字符串閤並和分割 48
2.9.3 字符串內部字符的讀取和替換 49
2.9.4 正則錶達式 52
2.10 常用數據的創建 53
2.10.1 因子序列的創建 53
2.10.2 等差序列的創建 54
2.10.3 隨機抽樣sample 54
2.10.4 重復序列rep 55
2.10.5 概率分布 55
2.11 控製流 58
2.11.1 分支語句 58
2.11.2 循環語句 59
2.12 運算符、函數和過程 61
2.12.1 常用運算符 61
2.12.2 函數 62
2.12.3 過程 63
2.13 數據的讀寫等操作 64
2.13.1 讀取數據 64
2.13.2 輸齣數據 68
第3章 R語言的繪圖基礎 69
3.1 概述 69
3.2 顔色以及文字/點/綫參數的設置 69
3.2.1 顔色 71
3.2.2 文字元素相關參數設置 76
3.2.3 點元素相關參數設置 77
3.2.4 綫元素相關參數設置 79
3.3 低級繪圖函數 80
3.3.1 引例 80
3.3.2 標題 81
3.3.3 圖例 83
3.3.4 坐標軸 84
3.3.5 邊框 88
3.3.6 網格綫 89
3.3.7 點 90
3.3.8 綫 91
3.3.9 文字 94
3.3.10 多邊形 96
3.4 高級繪圖函數以及常用繪圖應用 96
3.4.1 圖形類型的選擇 96
3.4.2 散點圖 98
3.4.3 氣泡圖 100
3.4.4 麯綫圖 102
3.4.5 柱狀圖 105
3.4.6 條形圖 109
3.4.7 餅圖 111
3.4.8 麵積堆積圖 115
3.4.9 直方圖和密度麯綫圖 118
3.5 繪圖窗口操作函數 120
3.5.1 單一窗口中的子繪圖區域布局 120
3.5.2 繪圖窗口操作 120
第4章 單指標分析 121
4.1 指標描述 121
4.1.1 平均值和集中趨勢 121
4.1.2 正態分布 126
4.1.3 頻數分析 130
4.1.4 描述性分析指標 131
4.2 異常點監控 133
4.2.1 概述 133
4.2.2 P控製圖:監控轉化率型指標 135
4.2.3 單值–均值控製圖 142
4.2.4 單值–移動極差控製圖 147
4.3 連續型指標的對比 150
4.3.1 數據變換 150
4.3.2 假設檢驗 152
4.3.3 相同指標內的兩組數對比:T檢驗 153
4.3.4 相同指標內的多組數據對比:單因素方差分析 156
4.3.5 單因素協方差分析 163
4.4 分類型指標的對比 167
4.4.1 列聯錶分析 167
4.4.2 卡方獨立性檢驗 172
第5章 時間序列分析 177
5.1 時間序列 177
5.2 增長率 180
5.2.1 環比增長率 180
5.2.2 同比增長率 181
5.3 移動平均 181
5.3.1 數學原理概述 181
5.3.2 filter函數 182
5.3.3 R語言實現 184
5.4 指數平滑 185
5.4.1 一次指數平滑 186
5.4.2 二次指數平滑 187
5.4.3 三次指數平滑 191
5.5 ARIMA模型 194
5.5.1 自相關性 194
5.5.2 平穩性和白噪聲 199
5.5.3 MA滑動平均過程 200
5.5.4 AR自迴歸過程 202
5.5.5 ARMA自迴歸滑動平均混閤過程 203
5.5.6 檢驗模型質量 205
5.5.7 非平穩時間序列的ARIMA過程 208
第6章 連續指標建模:迴歸分析 213
6.1 一元綫性迴歸分析 213
6.1.1 引例 213
6.1.2 一元綫性迴歸分析的原理及R語言實現 214
6.2 多元迴歸分析 221
6.2.1 引例 222
6.2.2 多元綫性迴歸分析建模 222
6.2.3 模型修正函數update() 223
6.2.4 逐步迴歸分析函數step() 226
6.2.5 自變量中包含分類型數據的迴歸分析 228
6.3 Logic迴歸分析 230
6.3.1 引例及數據 230
6.3.2 logic分析的原理 230
6.3.3 R語言實現 232
6.4 迴歸樹CART 237
6.4.1 rpart函數 237
6.4.2 預測及模型性能衡量 240
6.4.3 過度擬閤和剪枝 240
第7章 分類指標建模:分類分析 243
7.1 決策樹分類分析 243
7.1.1 概述 243
7.1.2 C4.5算法 247
7.1.3 CART算法 258
7.1.4 條件推理決策樹算法 265
7.1.5 隨機森林算法 267
7.2 貝葉斯分類 268
7.2.1 貝葉斯定理 268
7.2.2 樸素貝葉斯分類器 270
7.3 支持嚮量機SVM 271
7.3.1 原理 271
7.3.2 在R語言中實現非綫性SVM分析 273
7.4 人工神經網絡 274
7.4.1 神經元 274
7.4.2 兩層網絡 275
7.4.3 反嚮傳播算法 276
7.4.4 R語言實現 282
7.4.5 隱藏層中神經單元數目的確定 283
7.5 分類器的性能評估 284
7.5.1 混淆矩陣 284
7.5.2 ROC麯綫和AUC 287
7.5.3 提升度和提升麯綫 291
7.5.4 洛倫茲麯綫 292
第8章 樣本細分 293
8.1 數據降維 293
8.1.1 問題引入 293
8.1.2 因子分析概述 294
8.1.3 factanal函數 296
8.1.4 實例:問捲調查的因子分析 297
8.2 聚類分析 303
8.2.1 距離 303
8.2.2 層次聚類 313
8.2.3 kmeans聚類 318
8.3 樣本判彆 321
8.3.1 knn(k最近鄰分類)算法 323
8.3.2 實例:基於knn算法的商品推薦係統 324
第9章 樣本間的關係 329
9.1 關聯分析 329
9.1.1 關聯分析的原理 329
9.1.2 Apriori算法的R語言實現 331
9.2 序列模式關聯分析 334
9.2.1 序列模式關聯分析的原理 334
9.2.2 序列模式關聯分析的R語言實現 336
9.2.3 實例:用戶點擊頁麵的行為分析 338
9.3 關係網絡分析 346
9.3.1 網絡關係分析的基本概念 346
9.3.2 中心度 356
9.3.3 中心勢 362
9.3.4 社群發現 363
9.3.5 實例:分析微博的傳播特性 367
9.3.6 實例:購物車商品分類分析 370
第10章 文本分析 378
10.1 數據處理 378
10.1.1 數據引例 378
10.1.2 分詞和詞條 380
10.1.3 語料庫和文檔 381
10.1.4 詞條—文檔關係矩陣 384
10.2 實例:QQ群消息曆史分析 387
10.2.1 數據集 387
10.2.2 數據集格式轉化 389
10.2.3 留言文本的分詞操作 390
10.2.4 分析常用話題詞匯 391
10.2.5 建立用戶–詞條間的網絡關係圖 392
10.2.6 繪製重點詞條和用戶的網絡圖 392
10.3 XML包爬取網頁數據 394
10.3.1 htmlParse函數 395
10.3.2 getNodeSet函數 395
10.3.3 xmlValue函數 396
10.3.4 xmlGetAttr函數 396
10.3.5 實例:爬取某電商網站襯衫類目商品的部分信息 397
第11章 網站指標監控係統的搭建 400
11.1 gWidgets包基礎 400
11.1.1 環境搭建 400
11.1.2 引例 401
11.1.3 常用控件 406
11.2 實例:商品搜索算法參數配置監控GUI係統 414
11.2.1 商品搜索算法概述 414
11.2.2 原始商品信息 415
11.2.3 係統概述 417
11.2.4 模塊布局 418
11.2.5 計算除關鍵字匹配以外的指標得分 420
11.2.6 模擬一次搜索行為數據 421
11.2.7 模擬多次搜索行為數據 423
11.2.8 繪圖 423
第12章 基於RFM模型的客戶價值係統 427
12.1 馬爾科夫鏈 427
12.1.1 引例 427
12.1.2 概念 428
12.1.3 預測實例 428
12.2 RFM模型 431
12.2.1 RFM的概念 431
12.2.2 數據集 431
12.2.3 購買行為隨機模型 432
12.3 結閤馬爾科夫鏈的RFM模型 436
12.3.1 購買狀態轉移矩陣 437
12.3.2 預測用戶購買狀態 445
· · · · · · (
收起)