前言
第一篇 基础篇
第1章 什么是游戏数据分析2
1.1 为什么要对游戏进行分析2
1.2 游戏数据分析的流程3
1.3 数据分析师的能力要求4
1.3.1 数据处理能力5
1.3.2 数据挖掘能力6
1.3.3 数据应用能力8
1.4 小结8
第2章 必备R语言基础9
2.1 开发环境准备和快速入门9
2.1.1 R语言简介9
2.1.2 R的安装10
2.1.3 其他辅助工具10
2.1.4 R快速入门12
2.2 数据对象19
2.2.1 向量20
2.2.2 矩阵与数组24
2.2.3 列表和数据框27
2.3 数据导入30
2.3.1 利用RStudio导入30
2.3.2 文本文件的导入32
2.3.3 Excel文件的导入33
2.3.4 数据库文件的导入34
2.3.5 网络数据的爬取38
2.4 小结42
第3章 R语言绘图重要技术43
3.1 常用图形参数43
3.1.1 颜色元素43
3.1.2 文字元素46
3.1.3 点元素46
3.1.4 线元素48
3.2 低级绘图函数48
3.2.1 标题48
3.2.2 坐标轴50
3.2.3 图例52
3.2.4 网格线52
3.2.5 点54
3.2.6 文字54
3.2.7 线55
3.3 高级绘图函数57
3.3.1 散点图58
3.3.2 气泡图59
3.3.3 线图60
3.3.4 柱状图62
3.3.5 饼图62
3.3.6 直方图和密度图63
3.3.7 Q—Q图65
3.3.8 箱线图66
3.3.9 茎叶图66
3.3.10 点图67
3.3.11 马赛克图67
3.4 小结69
第4章 高级绘图工具70
4.1 lattice包绘图工具70
4.1.1 绘图特色70
4.1.2 基本图形77
4.2 ggplot2包绘图工具93
4.2.1 从qplot开始93
4.2.2 ggplot作图96
4.2.3 ggthemes主题包101
4.3 交互式绘图工具103
4.3.1 rCharts包104
4.3.2 recharts包108
4.3.3 rbokeh包118
4.3.4 plotly包119
4.3.5 googleVis包122
4.3.6 其他基于htmlwidgets包开发的交互包124
4.4 小结132
第二篇 实战篇
第5章 游戏数据预处理134
5.1 数据抽样134
5.1.1 数据抽样的必要性134
5.1.2 类失衡处理方法:SMOTE135
5.1.3 数据随机抽样:sample函数138
5.1.4 数据等比抽样:createData—Partition函数139
5.1.5 用于交叉验证的样本抽样142
5.2 数据清洗143
5.2.1 缺失值判断及处理144
5.2.2 异常值判断处理152
5.3 数据转换158
5.3.1 产生衍生变量158
5.3.2 数据分箱159
5.3.3 数据标准化转换160
5.4 数据哑变量处理162
5.5 小结165
第6章 游戏数据分析的常用方法166
6.1 游戏数据可视化166
6.1.1 单指标数据可视化166
6.1.2 双指标数据可视化167
6.1.3 三指标数据可视化167
6.2 游戏数据趋势分析169
6.2.1 同比、环比169
6.2.2 趋势线拟合170
6.2.3 时间序列数据预测171
6.3 游戏数据相关分析179
6.3.1 相关分析基本原理179
6.3.2 相关关系可视化181
6.3.3 活跃时间段相关分析184
6.4 游戏数据中的降维技术186
6.4.1 主成分及因子分析基本原理186
6.4.2 对应分析基本原理188
6.4.3 玩家偏好分析188
6.5 小结191
第7章 漏斗模型与路径分析192
7.1 漏斗模型与路径分析的主要区别和联系192
7.2 漏斗模型193
7.2.1 漏斗模型的主要应用场景193
7.2.2 分析案例:新手教程漏斗模型194
7.3 路径分析197
7.3.1 路径分析的主要应用场景197
7.3.2 路径分析的主要算法198
7.3.3 分析案例:游戏点击事件路径分析202
7.4 小结208
第8章 留存分析209
8.1 指标概述209
8.1.1 用户留存209
8.1.2 流失分析211
8.2 留存率的分析及预测212
8.2.1 留存率曲线213
8.2.2 留存率预测曲线213
8.2.3 优化预测曲线216
8.3 用户流失预测218
8.3.1 分类及模型评估220
8.3.2 活跃用户流失预测233
8.4 小结238
第9章 用户分析239
9.1 用户分类239
9.1.1 新老用户240
9.1.2 活跃用户241
9.1.3 用户习惯243
9.2 LTV244
9.2.1 LTV的定义244
9.2.2 LTV的预测244
9.3 用户物品购买关联分析247
9.3.1 常用关联规则算法248
9.3.2 R中的实现250
9.3.3 案例:对用户购买物品进行关联分析251
9.4 基于用户物品购买智能推荐259
9.4.1 智能推荐模型构建及评估259
9.4.2 案例:对用户物品购买进行智能推荐262
9.5 社会网络分析264
9.5.1 网络图的基本概念264
9.5.2 网络图的R语言实现266
9.5.3 R与Gephi的结合270
9.5.4 案例:分析用户物品购买分类275
9.6 小结279
第10章 渠道分析280
10.1 渠道分析的意义280
10.2 建立渠道数据监控体系282
10.2.1 构建数据分析指标283
10.2.2 建立渠道数据监控体系287
10.3 渠道用户质量评级293
10.3.1 渠道用户质量评级的背景和目的293
10.3.2 渠道用户质量打分模型293
10.3.3 分析案例:渠道用户质量打分294
10.4 小结298
第11章 收入分析299
11.1 宏观收入分析299
11.2 游戏经济与用户关系分析302
11.2.1 背景及数据302
11.2.2 数据探索分析303
11.2.3 模型构建308
11.3 RFM模型研究310
11.3.1 RFM模型研究背景及原理310
11.3.2 案例:付费用户RFM模型研究312
11.3.3 RFM模型的不足及改进314
11.4 小结316
第三篇 提高篇
第12章 Rattle:可视化数据挖掘工具318
12.1 Rattle简介及安装318
12.1.1 Rattle简介318
12.1.2 Rattle安装319
12.2 功能预览319
12.3 数据导入320
12.3.1 导入CSV数据321
12.3.2 导入ARFF数据325
12.3.3 导入ODBC数据326
12.3.4 R Dataset—导入其他数据源328
12.3.5 导入RData File数据集330
12.3.6 导入Library数据332
12.4 数据探索333
12.4.1 数据总体概况333
12.4.2 数据分布探索335
12.4.3 相关性338
12.4.4 主成分341
12.4.5 交互图343
12.5 数据建模348
12.5.1 聚类分析348
12.5.2 关联规则352
12.5.3 决策树354
12.5.4 随机森林356
12.6 模型评估360
12.6.1 混淆矩阵360
12.6.2 风险图360
12.6.3 ROC曲线及相关曲线361
12.6.4 模型得分数据集361
12.7 小结364
第13章 快速搭建游戏数据分析平台365
13.1 shiny快速入门365
13.2 shinydashboard包375
13.3 案例一:搭建数据可视化原型379
13.4 案例二:用户细分及付费预测平台388
13.5 案例三:渠道用户打分平台395
13.6 小结402
· · · · · · (
收起)
评分
☆☆☆☆☆
业务场景的分析实战
评分
☆☆☆☆☆
游戏公司内部从业者应该会比较有用
评分
☆☆☆☆☆
错误比较多,核对的累死了。但是分析方法很好,值得参考
评分
☆☆☆☆☆
业务场景的分析实战
评分
☆☆☆☆☆
还算不错,7-11, 13的分析案例可以一读 (尤其是retention/churn部分),不过不太深入,简单偏中等级别
评分
☆☆☆☆☆
以往数据分析的专业书大多是分章按部就班介绍统计学和机器学习的不同方法,如回归、决策树、神经网络。。。缺少业务的应用场景,学完之后也不知道如何用,一段时间就忘记了,下次再从头开始,效效率不高。 本书是基于业务的,总结了当前互联网数据分析的主流的主题(漏斗转化...
评分
☆☆☆☆☆
以往数据分析的专业书大多是分章按部就班介绍统计学和机器学习的不同方法,如回归、决策树、神经网络。。。缺少业务的应用场景,学完之后也不知道如何用,一段时间就忘记了,下次再从头开始,效效率不高。 本书是基于业务的,总结了当前互联网数据分析的主流的主题(漏斗转化...
评分
☆☆☆☆☆
以往数据分析的专业书大多是分章按部就班介绍统计学和机器学习的不同方法,如回归、决策树、神经网络。。。缺少业务的应用场景,学完之后也不知道如何用,一段时间就忘记了,下次再从头开始,效效率不高。 本书是基于业务的,总结了当前互联网数据分析的主流的主题(漏斗转化...
评分
☆☆☆☆☆
以往数据分析的专业书大多是分章按部就班介绍统计学和机器学习的不同方法,如回归、决策树、神经网络。。。缺少业务的应用场景,学完之后也不知道如何用,一段时间就忘记了,下次再从头开始,效效率不高。 本书是基于业务的,总结了当前互联网数据分析的主流的主题(漏斗转化...
评分
☆☆☆☆☆
以往数据分析的专业书大多是分章按部就班介绍统计学和机器学习的不同方法,如回归、决策树、神经网络。。。缺少业务的应用场景,学完之后也不知道如何用,一段时间就忘记了,下次再从头开始,效效率不高。 本书是基于业务的,总结了当前互联网数据分析的主流的主题(漏斗转化...