命令行中的数据科学 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:人民邮电出版社

作者:[荷] Jeroen Janssens

出品人:

页数:188

译者:王晓伟

出版时间:2015-5

价格:49.00元

装帧:平装

isbn号码:9787115391681

丛书系列:图灵程序设计丛书

图书标签:

大数据
数据科学
计算机
Python
datascience
数据挖掘
Linux
数据分析
数据科学
命令行
Python
数据分析
Shell
自动化
实用工具
技巧
学习
教程

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小哈图书下载中心

qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

本书集实用性和先进性于一身，为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具，以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X，还是Linux，都可以安装包含80多个命令行工具的“数据科学工具箱”，迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言，都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。

作者简介

Jeroen Janssens

爱思唯尔（世界领先的科技及医学出版公司）首席数据科学家，曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位，在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具，个人网站是http://jeroenjanssens.com/。

目录信息

前言　　XIII
第1章　简介　　1
1.1　概述　　1
1.2　数据科学就是OSEMN　　2
1.2.1　数据获取　　2
1.2.2　数据清洗　　2
1.2.3　数据探索　　3
1.2.4　数据建模　　3
1.2.5　数据解释　　3
1.3　插入的几章　　4
1.4　什么是命令行　　4
1.5　为什么用命令行做数据科学工作　　6
1.5.1　命令行的灵活性　　6
1.5.2　命令行可增强　　6
1.5.3　命令行可扩展　　7
1.5.4　命令行可扩充　　7
1.5.5　命令行无处不在　　7
1.6　一个现实用例　　8
1.7　延伸阅读　　11
第2章　入门指南　　13
2.1　概述　　13
2.2　设置数据科学工具箱　　13
2.2.1　步骤1：下载和安装VirtualBox　　14
2.2.2　步骤2：下载和安装Vagrant　　14
2.2.3　步骤3：下载并启动数据科学工具箱　　14
2.2.4　步骤4：登录（Linux 和Mac OS X）　　16
2.2.5　步骤4：登录（微软Windows）　　16
2.2.6　步骤5：关闭或重启　　16
2.3　必要的概念和工具　　17
2.3.1　环境　　17
2.3.2　运行命令行工具　　18
2.3.3　五类命令行工具　　19
2.3.4　命令行工具的组合　　21
2.3.5　输入和输出重定向　　22
2.3.6　处理文件　　23
2.3.7　寻求帮助　　24
2.4　延伸阅读　　26
第3章　数据获取　　27
3.1　概述　　27
3.2　将本地文件复制到数据科学工具箱　　28
3.2.1　本地数据科学工具箱　　28
3.2.2　远程数据科学工具箱　　28
3.3　解压缩文件　　29
3.4　微软Excel电子表格的转换　　30
3.5　查询关系数据库　　32
3.6　从互联网下载　　33
3.7　调用Web API　　35
3.8　延伸阅读　　36
第4章　创建可重用的命令行工具　　37
4.1　概述　　38
4.2　将单行转变为shell脚本　　38
4.2.1　步骤1：复制和粘贴　　39
4.2.2　步骤2：添加执行权限　　40
4.2.3　步骤3：定义shebang　　41
4.2.4　步骤4：删除固定的输入　　42
4.2.5　步骤5：参数化　　42
4.2.6　步骤6：扩展PATH　　43
4.3　用Python 和R 创建命令行工具　　44
4.3.1　移植shell 脚本　　45
4.3.2　处理来自标准输入的流数据　　46
4.4　延伸阅读　　47
第5章　数据清洗　　49
5.1　概述　　50
5.2　纯文本的常见清洗操作　　50
5.2.1　行过滤　　50
5.2.2　值提取　　54
5.2.3　值替换和删除　　55
5.3　处理CSV　　56
5.3.1　主体、头部和列　　56
5.3.2　对CSV执行SQL查询　　60
5.4　处理HTML/XML 和JSON　　61
5.5　CSV的常见清洗操作　　65
5.5.1　列的提取和重排序　　65
5.5.2　行过滤　　66
5.5.3　列合并　　67
5.5.4　多个CSV文件的合并　　70
5.6　延伸阅读　　73
第6章　管理数据工作流　　75
6.1　概述　　76
6.2　Drake简介　　76
6.3　Drake的安装　　76
6.4　获取古腾堡计划中下载最多的电子书　　78
6.5　所有工作流都从单个步骤开始　　79
6.6　具体情况具体对待　　81
6.7　重新构建具体目标　　82
6.8　讨论　　83
6.9　延伸阅读　　83
第7章　数据探索　　85
7.1　概述　　85
7.2　检查数据及其属性　　86
7.2.1　确定有无数据头　　86
7.2.2　检查所有数据　　86
7.2.3　特征名称和数据类型　　87
7.2.4　唯一标识、连续变量和因子　　89
7.3　计算描述性统计信息　　90
7.3.1　使用csvstat　　90
7.3.2　在命令行中通过Rio使用R　　92
7.4　生成可视化图形　　95
7.4.1　介绍Gunplot和feedgnuplot　　95
7.4.2　介绍ggplot2　　97
7.4.3　直方图　　99
7.4.4　条形图　　101
7.4.5　密度图　　102
7.4.6　箱线图　　103
7.4.7　散点图　　103
7.4.8　折线图　　105
7.4.9　总结　　106
7.5　延伸阅读　　106
第8章　并行管道　　107
8.1　概述　　108
8.2　串行处理　　108
8.2.1　对数字进行遍历　　108
8.2.2　对行进行遍历　　109
8.2.3　对文件进行遍历　　110
8.3　并行处理　　111
8.3.1　GNU Parallel介绍　　112
8.3.2　指定输入　　113
8.3.3　控制并发任务的个数　　114
8.3.4　记录日志和输出　　115
8.3.5　创建并行工具　　116
8.4　分布式处理　　117
8.4.1　获得运行中的AWS EC2实例列表　　117
8.4.2　在远程机器上运行命令　　118
8.4.3　在远程机器间分发本地数据　　119
8.4.4　在远程机器上处理文件　　120
8.5　讨论　　123
8.6　延伸阅读　　123
第9章　数据建模　　125
9.1　概述　　126
9.2　更多的酒，来吧！　　126
9.3　用Tapkee降维　　129
9.3.1　介绍Tapkee　　130
9.3.2　安装Tapkee　　130
9.3.3　线性和非线性映射　　130
9.4　用Weka 聚类　　132
9.4.1　介绍Weka　　132
9.4.2　在命令行里改进Weka　　132
9.4.3　在CSV和ARFF格式之间转换　　136
9.4.4　比较三种聚类算法　　136
9.5　通过SciKit-Learn Laboratory进行回归　　139
9.5.1　准备数据　　139
9.5.2　运行实验　　139
9.5.3　解析结果　　140
9.6　用BigML分类　　141
9.6.1　生成均衡的训练和测试数据集　　141
9.6.2　调用API　　143
9.6.3　检查结果　　143
9.6.4　小结　　144
9.7　延伸阅读　　144
第10章　总结　　145
10.1　让我们回顾一下　　145
10.2　三条建议　　146
10.2.1　有耐心　　146
10.2.2　有所创新　　146
10.2.3　肯于实践　　147
10.3　接下来做什么　　147
10.3.1　API　　147
10.3.2　shell 编程　　147
10.3.3　Python、R 和SQL　　147
10.3.4　数据解释　　148
10.4　联系方式　　148
附录A　命令行工具列表　　149
附录B　参考文献　　167
作者介绍　　169
封面介绍　　169
· · · · · · (收起)

读后感

评分☆☆☆☆☆

本书集实用性和先进性于一身，为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具，以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X，还是Linux，都可以安装包含80多个命令行工具的“数据科学工具箱”，迅速...

评分☆☆☆☆☆

在电脑上细看了前4章。 1. 最新版本已经使用docker来建「虚拟环境」了，2014年的版本是用VirtualBox。最新的在线版本 [https://www.datascienceatthecommandline.com/] 2. 数据处理的步骤还是那些：获取，数据清洗，可视化，建模，解释 3.命令行工具很强大，目测可以完成常用的...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本《统计推断的艺术与实践》简直是一场严谨的数学盛宴，读完之后感觉自己的统计学根基被彻底夯实了。它完全没有那种试图用花哨图表或快速技巧来“包装”统计学的浮躁倾向，而是扎扎实实地从概率论的基础公理讲起，层层递进，深入到各种复杂分布的推导过程。特别是关于大数定律和中心极限定理的阐述，作者用非常详尽的数学证明和直观的几何解释相结合的方式，让原本抽象的理论变得可以被“触摸”和理解。我用了比预想中更长的时间来消化其中的章节，尤其是在处理假设检验的P值解读部分时，我不得不反复阅读了好几遍，作者对I类错误和II类错误的区分讨论得极为细致，强调了在特定业务场景下对置信区间的实际意义。这本书的受众定位显然不是想速成的“数据分析师”，而是更倾向于数据科学家、量化研究员或者任何需要深入理解统计模型内在机理的专业人士。它提供的不是现成的工具包，而是构建这些工具包的蓝图，是一本值得放在书架上，随时翻阅查阅公式和推导的“工具书”级别的著作，充满了学术的严谨性和无可挑剔的逻辑性。

评分☆☆☆☆☆

《面向生产环境的机器学习系统》这本书为我打开了一扇通往工业界实战的大门，它完全避开了模型训练本身那些引人入胜的细节，而是聚焦于模型部署后所面临的残酷现实。这本书的内容非常硬核，涵盖了从特征存储（Feature Store）的架构设计，到模型服务（Model Serving）的延迟优化，再到持续集成/持续部署（CI/CD）在ML工作流中的具体落地。作者对“模型漂移”（Model Drift）的监测和自动再训练机制的讨论尤为深入，他不仅指出了问题，还提供了几种业界主流的解决方案和对应的技术栈选型考量，比如是选择基于批处理的定期更新，还是更激进的在线学习模式。对于那些已经能训练出高精度模型，却苦于无法将其稳定、高效地集成到现有业务系统中的工程师而言，这本书简直就是一本救命稻草。它用清晰的架构图和成熟的工程实践案例，展示了如何将“研究原型”转化为“可靠的商业资产”，强调了数据管道的健壮性、监控的可观测性以及版本控制的必要性，真正体现了“只有部署到生产环境的模型，才是真正有价值的模型”这一理念。

评分☆☆☆☆☆

最近接触了一本关于非结构化数据处理的专著，名字叫做《文本挖掘与自然语言的深度解析》。这本书的独特之处在于，它几乎没有涉及深度学习框架（如PyTorch或TensorFlow）的复杂编程，而是将重点放在了数据预处理和特征工程的“艺术”上。作者花了大量篇幅来剖析不同语言的形态学差异，以及如何针对多语言环境构建鲁棒的分词器（Tokenizer）。书中对文本表示方法的讨论非常细致入微，从传统的TF-IDF、N-gram，到后来的词向量（Word2Vec的原理而非代码实现），作者都进行了深入的理论剖析，尤其是对共现矩阵的构建和优化策略的探讨，让我对文本的“向量化”有了全新的认识。此外，书中还涵盖了主题模型（如LDA）在海量文档分类中的应用，以及如何量化文本的情感倾向和倾向性。这本书的阅读门槛在于需要对语言学基础有一定了解，但对于希望深入理解为什么某些NLP技术有效，而不是仅仅会调用API的读者来说，它提供了宝贵的理论深度和方法论指导，让我明白了在很多场景下，精妙的特征工程远比最新的复杂模型更具预测能力。

评分☆☆☆☆☆

最近读完了一本关于数据科学的入门读物，叫《揭秘数据魔术：从零构建你的分析帝国》。这本书的叙事风格非常接地气，就像一个经验丰富的前辈在手把手教你如何驾驭数据这匹野马。它开篇就花了大量的篇幅来探讨“数据思维”的建立，强调的不是工具的炫技，而是对业务场景的深刻洞察力。我特别欣赏作者处理复杂概念时的那种匠心独运，比如在解释“偏差与方差的权衡”时，他竟然用了一个制作定制西装的比喻，让我瞬间就明白了模型泛化能力的重要性。书中并没有直接深入到复杂的编程实现，而是侧重于流程的梳理：如何提出正确的问题，如何清洗那些看起来杂乱无章的原始数据，以及如何将分析结果用最直观的方式呈现给非技术背景的决策者。它对我最大的帮助在于，让我意识到数据科学不仅仅是跑算法，更是一种解决问题的结构化思维框架。对于那些总是在代码和模型中迷失方向的初学者来说，这本书无疑是一剂清醒剂，指明了“为什么做”比“怎么做”更重要的大方向。书中的案例也大多选取自日常商业活动，比如电商的转化率优化、用户流失预测的初步建模，这些都极大地拉近了理论与实践的距离，读起来毫无晦涩感。

评分☆☆☆☆☆

我最近翻阅了《可视化叙事：用数据讲好故事》，这本书的重点完全不在于教你如何使用Tableau或者Python的Matplotlib库，而是彻底颠覆了我对“图表”的认知。作者的核心观点是：数据可视化不是美化数据的手段，而是有效沟通的桥梁。全书的结构非常巧妙，它首先解构了人类视觉系统的处理机制，然后讨论了不同类型的图表（如树状图、桑基图、流形图）在传达特定信息时的效率差异。书中花了整整两章的篇幅来分析“误导性可视化”的常见陷阱，例如不从零开始的Y轴、选择性使用颜色编码等等，这些血淋淋的反面教材让我对以往自己制作的某些图表产生了深深的怀疑。最让我受益的是关于“叙事结构”的讲解，作者教导我们如何设计一个视觉旅程，引导观众从宏观背景逐步聚焦到关键的洞察点，就像电影的剪辑一样，需要有节奏感和清晰的主题。读完后，我开始有意识地审视每一个设计选择背后的意图，真正理解了“少即是多”在数据呈现中的强大力量，它让我从一个单纯的“制图者”蜕变为了一个“信息设计师”。

评分☆☆☆☆☆

稍微看了一下，主要是用命令行的形式来处理分析数据

评分☆☆☆☆☆

介绍一些数据科学的命令行工具，比较浅，2天就看完了。

评分☆☆☆☆☆

但还是感觉缺乏系统性，不统一……

评分☆☆☆☆☆

很实用

评分☆☆☆☆☆

专业书