Data Science from Scratch

Data Science from Scratch pdf epub mobi txt 电子书 下载 2026

出版者:O'Reilly Media
作者:Joel Grus
出品人:
页数:330
译者:
出版时间:2015-4-28
价格:USD 39.99
装帧:Paperback
isbn号码:9781491901427
丛书系列:
图书标签:
  • Python
  • DataScience
  • 机器学习
  • 数据科学
  • Programming
  • 统计学习
  • 计算机
  • 数学/统计/数据
  • 数据科学
  • Python
  • 机器学习
  • 统计学
  • 数据分析
  • 算法
  • 编程
  • 数据挖掘
  • 从零开始
  • 实战
想要找书就要到 小哈图书下载中心
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

Data science libraries, frameworks, modules, and toolkits are great for doing data science, but they’re also a good way to dive into the discipline without actually understanding data science. In this book, you’ll learn how many of the most fundamental data science tools and algorithms work by implementing them from scratch.

If you have an aptitude for mathematics and some programming skills, author Joel Grus will help you get comfortable with the math and statistics at the core of data science, and with hacking skills you need to get started as a data scientist. Today’s messy glut of data holds answers to questions no one’s even thought to ask. This book provides you with the know-how to dig those answers out.

Get a crash course in Python

Learn the basics of linear algebra, statistics, and probability—and understand how and when they're used in data science

Collect, explore, clean, munge, and manipulate data

Dive into the fundamentals of machine learning

Implement models such as k-nearest Neighbors, Naive Bayes, linear and logistic regression, decision trees, neural networks, and clustering

Explore recommender systems, natural language processing, network analysis, MapReduce, and databases

作者简介

Joel Grus

Joel Grus is a software engineer at Google. Before that he worked as a data scientist at multiple startups. He lives in Seattle, where he regularly attends data science happy hours. He blogs infrequently at joelgrus.com.

View Joel Grus's full profile page.

目录信息

Chapter 1Introduction
The Ascendance of Data
What Is Data Science?
Motivating Hypothetical: DataSciencester
Chapter 2A Crash Course in Python
The Basics
The Not-So-Basics
For Further Exploration
Chapter 3Visualizing Data
matplotlib
Bar Charts
Line Charts
Scatterplots
For Further Exploration
Chapter 4Linear Algebra
Vectors
Matrices
For Further Exploration
Chapter 5Statistics
Describing a Single Set of Data
Correlation
Simpson’s Paradox
Some Other Correlational Caveats
Correlation and Causation
For Further Exploration
Chapter 6Probability
Dependence and Independence
Conditional Probability
Bayes’s Theorem
Random Variables
Continuous Distributions
The Normal Distribution
The Central Limit Theorem
For Further Exploration
Chapter 7Hypothesis and Inference
Statistical Hypothesis Testing
Example: Flipping a Coin
Confidence Intervals
P-hacking
Example: Running an A/B Test
Bayesian Inference
For Further Exploration
Chapter 8Gradient Descent
The Idea Behind Gradient Descent
Estimating the Gradient
Using the Gradient
Choosing the Right Step Size
Putting It All Together
Stochastic Gradient Descent
For Further Exploration
Chapter 9Getting Data
stdin and stdout
Reading Files
Scraping the Web
Using APIs
Example: Using the Twitter APIs
For Further Exploration
Chapter 10Working with Data
Exploring Your Data
Cleaning and Munging
Manipulating Data
Rescaling
Dimensionality Reduction
For Further Exploration
Chapter 11Machine Learning
Modeling
What Is Machine Learning?
Overfitting and Underfitting
Correctness
The Bias-Variance Trade-off
Feature Extraction and Selection
For Further Exploration
Chapter 12k-Nearest Neighbors
The Model
Example: Favorite Languages
The Curse of Dimensionality
For Further Exploration
Chapter 13Naive Bayes
A Really Dumb Spam Filter
A More Sophisticated Spam Filter
Implementation
Testing Our Model
For Further Exploration
Chapter 14Simple Linear Regression
The Model
Using Gradient Descent
Maximum Likelihood Estimation
For Further Exploration
Chapter 15Multiple Regression
The Model
Further Assumptions of the Least Squares Model
Fitting the Model
Interpreting the Model
Goodness of Fit
Digression: The Bootstrap
Standard Errors of Regression Coefficients
Regularization
For Further Exploration
Chapter 16Logistic Regression
The Problem
The Logistic Function
Applying the Model
Goodness of Fit
Support Vector Machines
For Further Investigation
Chapter 17Decision Trees
What Is a Decision Tree?
Entropy
The Entropy of a Partition
Creating a Decision Tree
Putting It All Together
Random Forests
For Further Exploration
Chapter 18Neural Networks
Perceptrons
Feed-Forward Neural Networks
Backpropagation
Example: Defeating a CAPTCHA
For Further Exploration
Chapter 19Clustering
The Idea
The Model
Example: Meetups
Choosing k
Example: Clustering Colors
Bottom-up Hierarchical Clustering
For Further Exploration
Chapter 20Natural Language Processing
Word Clouds
n-gram Models
Grammars
An Aside: Gibbs Sampling
Topic Modeling
For Further Exploration
Chapter 21Network Analysis
Betweenness Centrality
Eigenvector Centrality
Directed Graphs and PageRank
For Further Exploration
Chapter 22Recommender Systems
Manual Curation
Recommending What’s Popular
User-Based Collaborative Filtering
Item-Based Collaborative Filtering
For Further Exploration
Chapter 23Databases and SQL
CREATE TABLE and INSERT
UPDATE
DELETE
SELECT
GROUP BY
ORDER BY
JOIN
Subqueries
Indexes
Query Optimization
NoSQL
For Further Exploration
Chapter 24MapReduce
Example: Word Count
Why MapReduce?
MapReduce More Generally
Example: Analyzing Status Updates
Example: Matrix Multiplication
An Aside: Combiners
For Further Exploration
Chapter 25Go Forth and Do Data Science
IPython
Mathematics
Not from Scratch
Find Data
Do Data Science
· · · · · · (收起)

读后感

评分

说是数据科学指路到是差不多。告诉你有哪些方面的知识需要去学习的。25章每章都值得单独去借上一两本书去学习,都值得花上一两个月用上N多个案例来实践,这样之后,我觉得才是真的入门了。 书中的代码又是一段一段的,估计只有作者才会知道这个功能是怎么来的,有什么用。后面...  

评分

书名叫《数据科学入门》,可实际上却并不适合零基础的人读,需要有一定的基础(包括python基础和数学基础)。我觉得称之为“指南”更合适。 —————————— 当初为什么买这本书? 有段时间对数据异常着迷,只要和数据有关的数都不管三七二十一加到购物车,发工资了就买。...  

评分

数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。 作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具...

评分

这本书可以作为 Data Science 101 ,只是一本基于 Python 学习 Data Science 的指南,我觉得里面最有价值的就是 For Further Exploration 部分了。  

评分

说是数据科学指路到是差不多。告诉你有哪些方面的知识需要去学习的。25章每章都值得单独去借上一两本书去学习,都值得花上一两个月用上N多个案例来实践,这样之后,我觉得才是真的入门了。 书中的代码又是一段一段的,估计只有作者才会知道这个功能是怎么来的,有什么用。后面...  

用户评价

评分

天呐,我最近读完了一本关于数据科学的书,简直是打开了我新世界的大门!这本书的叙述方式非常独特,它不是那种枯燥的教科书,而是像一位经验丰富的朋友在耐心地引导你一步步探索这个迷人的领域。它从最基础的概念讲起,比如什么是数据、数据如何被表示,然后慢慢深入到更复杂的统计学原理和机器学习算法。我特别喜欢它在讲解算法时,总是能用非常直观的比喻来解释那些原本听起来高深莫测的数学公式,让我这个非科班出身的人也能茅塞顿开。而且,书里大量的实例都是从现实世界中挑选出来的,这让学习过程充满了趣味性,我感觉自己不是在读一本技术书籍,而是在进行一场充满发现的冒险。作者似乎非常了解初学者的痛点,总能在关键的地方给出及时的提醒和深入的剖析,使得学习曲线变得非常平缓。读完这本书,我不仅掌握了基础知识,更重要的是,建立起了一个完整的数据科学思维框架,这比死记硬背一堆算法要重要得多。

评分

这本书的深度和广度都让我感到震惊,它绝不仅仅是停留在“入门”层面,更像是一本精心打磨的“工具箱”指南。我发现它在数据清洗和预处理这块的讲解达到了一个令人赞叹的深度。要知道,在实际的数据科学项目中,80%的时间可能都花在了这些“脏活累活”上,而很多其他书籍往往一笔带过。但这本书却详尽地剖析了各种数据异常值的处理方法、缺失值插补的策略,以及如何通过特征工程最大化数据价值。更让我惊喜的是,它对不同类型数据的处理哲学都有所阐述,比如文本数据和时间序列数据的差异性对待。我感觉作者对这个行业有着深刻的洞察力,他明白理论再完美,如果不能处理真实世界中的混乱数据,那就是空中楼阁。读完这部分内容,我立刻就想投入到我的下一个项目中去实践,那种即学即用的感觉实在太棒了。

评分

我必须得说,这本书在代码实现和理论阐释之间的平衡拿捏得炉火纯青。我翻阅过一些其他书籍,要么是代码堆砌,理论讲解晦涩难懂;要么是理论完美,但提供的代码片段在实际运行中Bug百出。然而,这本著作在每一项关键技术点后,都附带了清晰、可运行、且注释详尽的代码示例。更妙的是,作者似乎很有远见地选择了那些具有代表性和解释性的编程语言和库,而不是盲目追求最新的、最时髦的工具。这确保了你学到的知识是具有长期价值的,不会因为某个库版本更新而迅速过时。通过跟随书中的代码练习,我发现自己不仅学会了“使用”工具,更重要的是理解了工具背后的工作原理,这种能力对于未来的自我驱动学习至关重要。

评分

这本书的结构设计堪称艺术品级别的精妙。它采用了一种螺旋上升的学习路径,每一章似乎都在前一章的基础上进行叠加和深化,但同时又巧妙地引入了全新的视角,让你始终保持新鲜感。我特别欣赏作者对于“为什么”的执着追问。很多教材告诉你“怎么做”,但这本书会花大量篇幅解释“为什么这个算法比那个更适合当前场景”、“为什么我们必须从这个角度思考问题”。这种对底层逻辑的深挖,极大地提升了我的批判性思维能力。例如,在讲解模型评估时,它不仅仅是罗列了准确率、召回率等指标,而是深入探讨了这些指标在不同业务场景下可能带来的偏颇,以及如何根据业务目标来选择最合适的评估体系。这使得这本书超越了一本技术手册的范畴,更像是一本关于“数据科学决策艺术”的论著。

评分

这本书给我带来的最大收获,是一种沉静而有力的信心。在阅读过程中,我感受不到任何浮躁或夸大的宣传,一切都是建立在扎实的工作和清晰的逻辑之上。它没有承诺你读完就能成为“数据大师”,但它确实为你铺设了一条坚实可靠的道路,让你知道如何从零开始,通过系统性的学习和实践,逐步建立起应对复杂数据挑战的能力。它对领域边界的界定也很清晰,让你明白数据科学并非万能,需要与其他学科(比如领域知识、商业理解)紧密结合。这种脚踏实地的态度,让我对数据科学的未来发展有了更现实、也更积极的期待。合上最后一页时,我没有感到疲惫,而是充满了继续探索这个领域的动力,这大概就是一本真正优秀的技术书籍能给予读者的最大馈赠。

评分

基于python的数据入门好书,talk is cheap show me the code,类似LPTHW的写作风格,入门书就应该这样。 代码写得非常pythonic,这一点非常好...优美简洁的代码风格

评分

基于python的数据入门好书,talk is cheap show me the code,类似LPTHW的写作风格,入门书就应该这样。 代码写得非常pythonic,这一点非常好...优美简洁的代码风格

评分

helpful

评分

请鼓励我每晚看一点看下去

评分

helpful

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 qciss.net All Rights Reserved. 小哈图书下载中心 版权所有