数据科学家养成手册 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:电子工业出版社

作者:高扬

出品人:

页数:376

译者:

出版时间:2017-5

价格:79

装帧:平装

isbn号码:9787121313042

丛书系列:

图书标签:

数据科学
数据分析
数据
科普
编程
机器学习
Data
Statistics
数据科学
机器学习
Python
数据分析
统计学
数据挖掘
算法
人工智能
大数据
职业发展

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小哈图书下载中心

qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

作为认知科学的延伸，数据科学一方面应该越来越引起广大大数据工作者的重视，另一方面也要撩开自己的神秘面纱，以最为亲民的姿态和每位大数据工作者成为亲密无间的战友，为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起，以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点，然后在生产的各个环节中对这些要点逐一进行讨论与落实，从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的，也不以某一种计算机语言编程作为主线脉络，而是在一个个看似孤立的故事与工程中不断拾遗，并试着从中悟出一些道理。

《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人，初级和中级程序员、架构师及希望通过对数据的感知改进工作的人，产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人，以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。

作者简介

高扬，北京邮电大学计算机专业毕业，重庆工商大学管理科学与工程专业硕士研究生事业导师。10年以上IT行业工作经验，3年海外工作经验。2010年后一直专注于数据库、大数据、数据挖掘、机器学习、人工智能等相关领域的研究。曾在金山软件西山居任大数据架构师，负责大数据平台构架与搭建。现任欢聚时代资深大数据专家，负责大数据、深度学习等基础技术与理论研究和实际产品的结合。

目录信息

认知篇
第1章　什么是科学家 2
1.1　从太阳东升西落开始 2
1.1.1　农历 2
1.1.2　公历 5
1.1.3　小结 7
1.2　阿基米德爱洗澡？ 7
1.3　托勒密的秘密 10
1.4　牛顿为什么那么牛 11
1.4.1　苹果和三大定律 11
1.4.2　极限和微积分 12
1.5　高斯——高，实在是高 15
1.6　离经叛道的爱因斯坦 17
1.7　本章小结 20
第2章　什么是科学 23
2.1　科学之科 23
2.2　边界的迷茫 23
2.3　科学之殇 26
2.4　本章小结 27
第3章　数据与数学 28
3.1　什么是数据 28
3.2　数学的奥妙 29
3.2.1　《几何原本》 29
3.2.2　《九章算术》 30
3.2.3　高等数学 34
3.3　本章小结 37
第4章　数据科学的使命 38
4.1　走近数据科学 38
4.1.1　介质 38
4.1.2　从信息到数据 41
4.1.3　数据科学的本质 43
4.2　万能的数据科学 44
4.2.1　测量 44
4.2.2　统计计算 47
4.2.3　指标 52
4.3　使命必达 53
4.3.1　高效生产 53
4.3.2　破除迷信 56
4.3.3　目标一致与不一致 57
4.4　本章小结 58
第5章　矛盾的世界 59
5.1　古希腊——学者高产的国度 59
5.2　矛盾无处不在 61
5.3　世界究竟是否可知 63
5.4　薛定谔的“喵星人” 64
5.5　本章小结 66
第6章　实验和哲学 68
6.1　朴素的认知方法 68
6.1.1　眼见为实 69
6.1.2　归纳与总结 70
6.2　哲学靠谱吗 71
6.3　数学的尽头是哲学 72
6.4　本章小结 73
第7章　辩证思维 74
7.1　要不要辩证有多大区别 74
7.2　谁对谁错 76
7.3　做到客观不容易 77
7.4　观念的存弭 79
7.5　本章小结 82
分化篇
第8章　统计学 86
8.1　数理统计鼻祖—阿道夫·凯特勒 86
8.2　统计就是统共合计 88
8.3　数据来源 90
8.4　抽样 91
8.5　对照实验 91
8.6　误差 94
8.6.1　抽样误差 94
8.6.2　非抽样误差 96
8.7　概括性度量 97
8.7.1　集中趋势度量 98
8.7.2　离散程度度量 100
8.7.3　小结 100
8.8　概率与分布 100
8.8.1　数学期望 102
8.8.2　正态分布 103
8.8.3　其他分布 106
8.9　统计学与大数据 107
第9章　信息论 109
9.1　模拟信号 109
9.2　信息量与信息熵 110
9.3　香农公式 111
9.4　数字信号 112
9.5　编码与压缩 113
9.5.1　无损压缩 114
9.5.2　有损压缩 117
9.6　本章小结 126
第10章　混沌论 127
10.1　洛伦兹在想什么 128
10.2　罗伯特·梅的养鱼计划 129
10.3　有限的大脑，无限的维 130
10.4　谋杀上帝的拉普拉斯 132
10.5　庞加莱不是省油的灯 134
10.6　未知居然还能做预测 137
10.7　本章小结 137
第11章　算法学 139
11.1　离散的世界 139
11.2　成本的度量 142
11.3　穷举法——暴力破解 143
11.4　分治法——化繁为简 152
11.5　回溯法——能省则省 154
11.6　贪心法——局部最优 155
11.7　迭代法——步步逼近 156
11.7.1　牛顿法 157
11.7.2　梯度下降法 158
11.7.3　遗传算法 159
11.8　机器学习——自动归纳 161
11.8.1　非监督学习 162
11.8.2　监督学习 164
11.8.3　强化学习 176
11.9　神经网络——深度学习 178
11.9.1　神经元 178
11.9.2　BP神经网络 180
11.9.3　损失函数 181
11.9.4　非线性分类 183
11.9.5　激励函数 187
11.9.6　卷积神经网络 189
11.9.7　循环神经网络 191
11.9.8　小结 194
11.10　本章小结 195
实践篇
第12章　数据采集 198
12.1　数据的源头 198
12.2　日志收集 199
12.2.1　实时上传 200
12.2.2　延时上传 203
12.2.3　加密问题 204
12.2.4　压缩问题 205
12.2.5　连接方式 206
12.2.6　消息格式 208
12.2.7　维度分解 210
12.3　这只是不靠谱的开始 211
12.4　本章小结 212
第13章　数据存储 213
13.1　读写不对等 213
13.1.1　读多写少 214
13.1.2　读少写多 214
13.1.3　读写都多 215
13.2　进快还是出快 216
13.2.1　最快写入 216
13.2.2　读出最快 218
13.3　文件还是数据库 218
13.4　要不要支持事务 219
13.5　表分区和索引 221
13.5.1　表分区 222
13.5.2　索引 222
13.6　稳定最重要 225
13.7　安全性和副本 226
13.7.1　RAID 226
13.7.2　软冗余 228
13.8　本章小结 229
第14章　数据统计 230
14.1　此“统计”恐非彼“统计” 230
14.2　要精确还是要简洁 234
14.3　统计是万能的吗 235
14.4　注意性能 237
14.5　本章小结 238
第15章　数据建模 239
15.1　模型是宝贵的财富 240
15.2　量化是关键 241
15.3　该算法出马了 241
15.3.1　统计学模型 242
15.3.2　线性关系 243
15.3.3　复杂的非线性关系 243
15.4　算法的哲学 244
15.5　本章小结 245
第16章　数据可视化与分析 247
16.1　看得见，摸得着 247
16.2　颜色很重要 247
16.3　别说布局没有用 249
16.3.1　由上而下，由简而繁 249
16.3.2　总-分，分-总，总-分-总 251
16.3.3　毗邻吸引 252
16.4　有图就别要表格 253
16.5　分析的内涵 254
16.5.1　相关性分析 255
16.5.2　预测分析 256
16.5.3　其他分析 257
16.6　有趣的统计应用 257
16.6.1　不规则图形的面积 258
16.6.2　套出你的实话 258
16.6.3　巧测圆周率 259
16.7　仁者见仁，智者见智 260
16.8　永恒的困惑 261
16.9　本章小结 263
第17章　数据决策 264
17.1　决策就是“拍脑袋” 264
17.2　哪里有物质，哪里就有数据 265
17.2.1　目的的统一 265
17.2.2　数据胜于雄辩 266
17.3　这是风险博弈 267
17.3.1　性价比优先 267
17.3.2　小迭代至上 268
17.3.3　不要“输不起” 268
17.3.4　留得青山在 269
17.4　本章小结 270
第18章　案例分析 272
18.1　K线图里的秘密 272
18.1.1　什么是市场 273
18.1.2　谁在控制价格 273
18.1.3　货币价格的形成 276
18.1.4　零和博弈 277
18.1.5　涨跌都盈利 278
18.1.6　价格的预测 279
18.1.7　形态 280
18.1.8　K线图周期 282
18.1.9　造市商与点差 283
18.1.10　科学分析 284
18.1.11　小结 317
18.2　数学能救命 317
18.2.1　阴云下的大西洋 317
18.2.2　护航船队的救星 318
18.2.3　数学家的天下 324
18.2.4　小结 324
18.3　人人都能运筹帷幄 325
第19章　与本书相关内容的问与答 326
后记 333
附录A 335
A.1　VMware Workstation的安装 335
A.1.1　VMware简介 335
A.1.2　安装准备工作 335
A.2　CentOS虚拟机的安装 338
A.2.1　下载DVD镜像 338
A.2.2　创建VMware虚拟机 338
A.3　Ubuntu虚拟机的安装 344
A.4　Python语言简介 350
A.4.1　安装Python 350
A.4.2　Hello Python 350
A.4.3　行与缩进 350
A.4.4　变量类型 351
A.4.5　循环语句 352
A.4.6　函数 353
A.4.7　模块 354
A.4.8　小结 354
A.5　Scikit-learn库简介 355
A.6　安装Theano 356
A.7　安装Keras 356
A.8　安装MySQL 357
A.9　安装MySQL-Python驱动 358
A.10　MT4平台简介 359
参考文献 363
· · · · · · (收起)

读后感

评分☆☆☆☆☆

学校图书馆看到的一本书，书名很吸引人，并且只有300来页，便借来阅读。感觉作者想表达的很多，想从零开始娓娓道来，想从哲学到科学再到哲学，想从完整地去叙述数据科学的前世今生，体系，但是毕竟篇幅有限，能力有限（仅个人认为，因为书中大量百度百科的引用实在是让人怀疑...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

我必须承认，这本书的深度对初学者来说可能略有门槛，但对于那些已经掌握了基础编程和统计学概念，正试图突破瓶颈，迈向“专家”阶段的读者而言，它无疑是一份珍贵的财富。它没有给你即时的满足感，而是提供了一条需要耐性耕耘的道路。其中关于实验设计（A/B Testing）的章节尤其出色，它不仅仅是关于如何运行一个实验，更是关于如何设计一个公平、高效、能回答真正业务问题的实验，包括样本量计算、多重比较校正等细节都被处理得井井有条。作者在描述这些复杂概念时，语言是极其克制和精准的，仿佛一位经验丰富的大师在为你拨开迷雾，每一步的论证都逻辑严密，无懈可击。它像是一面镜子，清晰地映照出我在数据科学实践中尚未察觉到的盲区和可以优化的流程。读完它，我感觉自己不再是那个只会运行代码的执行者，而是一个能够系统性地规划和领导数据项目的架构师。

评分☆☆☆☆☆

这本书给我最大的震撼，或许在于它对“持续学习”和“适应性”的强调。在快速迭代的技术领域，任何一本静态的书籍都可能很快过时，但这本书巧妙地规避了这一点。它提供的是一种“元认知”框架，即如何应对新技术、新工具的涌现。作者没有沉迷于讨论某一个特定版本的TensorFlow或PyTorch，而是着重于它们背后支撑的数学原理和设计哲学。书中关于大规模数据处理架构的讨论，尽管使用了通用术语，却清晰地勾勒出了MapReduce思想如何演变到现代分布式计算集群的脉络。这使得即使我未来接触到完全不同的技术栈，也能迅速理解其底层逻辑。更重要的是，它灌输了一种“终身学习者”的心态，教会我们如何高效地筛选信息、批判性地吸收新知识，而不是被海量的信息流淹没。这种对学习方法的指导，其价值是永恒的。

评分☆☆☆☆☆

这本读物简直是为那些渴望在数据科学的浩瀚海洋中找到方向的航海者量身定做的指南针。它没有直接告诉你“如何做某个算法”，而是从更宏观的视角，构建了一套完整的方法论体系。阅读的初期，我最大的感受是作者对“数据思维”的强调，那不是一堆工具的使用说明，而是一种看待问题的全新视角。书中对数据采集、清洗、探索性分析（EDA）的环节着墨甚多，但绝非枯燥的技术罗列，而是通过大量的案例，展示了在真实世界中，数据往往是多么的“邋遢”和“不合作”。印象最深的是关于特征工程的探讨，它不像其他书籍那样将其视为黑箱操作，而是深入剖析了业务理解如何驱动特征的选择与构造，这才是区分“码农”和真正“科学家”的关键。作者用非常细腻的笔触描绘了从业务提出需求到最终模型部署的全流程中的每一个逻辑断点，让我意识到，很多时候，模型性能的瓶颈不在于选择了哪个复杂的深度学习框架，而在于我们是否真正理解了我们要解决的问题的核心驱动力。这本书的价值在于它强迫你慢下来，去思考“为什么”，而不是急着去追求“怎么做”。

评分☆☆☆☆☆

这本书的阅读体验是相当“扎实”的，没有那种为了炫技而堆砌前沿算法的浮躁感。作者的笔锋沉稳而富有洞察力，特别是当谈及模型评估与验证时，它没有停留在准确率（Accuracy）的表面，而是深入探讨了偏差（Bias）与方差（Variance）的权衡，以及在特定业务场景下，如何选择如F1分数、ROC曲线等更具解释力的指标。最让我拍案叫绝的是书中关于“模型可解释性”（XAI）的论述，它并没有将XAI仅仅视为一个技术模块，而是将其提升到了信任和伦理的高度。作者通过一系列的对比分析，展示了在金融风控或医疗诊断等高风险领域，黑箱模型的隐患是何等巨大，以及LIME或SHAP等工具在重建信任链条中的作用。这不仅仅是传授知识，更是在培养一种对数据伦理负责任的态度。读完这部分，我开始反思自己过去项目中对模型透明度的忽视，意识到这才是通往成熟数据科学的必经之路。

评分☆☆☆☆☆

坦白讲，一开始翻开这本书时，我有些担心它会落入俗套，变成又一本堆砌了Python库函数和数学公式的教科书。然而，随后的阅读体验完全颠覆了我的预期。它的叙事结构非常精妙，像是一部层层递进的侦探小说，每一个章节都在揭示数据科学工作中更深层次的秘密。我尤其欣赏作者对于“沟通与叙事”这一环节的重视程度，这往往是学术界和工业界书籍中被严重忽视的部分。书中花了大量篇幅讨论如何将复杂的统计结果转化为业务部门可以理解的商业洞察，以及如何通过数据可视化来构建令人信服的故事线。这对我这种偏重技术实现，但在汇报和跨部门协作中常感吃力的从业者来说，简直是醍醐灌顶。它教会我，一个优秀的数据科学家不仅需要有计算能力，更需要有“翻译”能力——将数字的语言翻译成商业决策的语言。这种对软技能的深入挖掘，使得这本书的实用价值远远超出了纯粹的技术手册范畴，更像是一份职业成长的路线图。

评分☆☆☆☆☆

其实是很好的一本书，旁征博引涉猎广泛

评分☆☆☆☆☆

书名比较大，但是干货不多感觉

评分☆☆☆☆☆

全书19章适合科普前面几章是科学发展简史

评分☆☆☆☆☆

书名比较大，但是干货不多感觉

评分☆☆☆☆☆

挑了一些章节看了，以后需要了再看