数据科学中的并行计算 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:西安交通大学出版社

作者:[美]诺曼•马特洛夫

出品人:

页数:313

译者:汪磊

出版时间:2017-12-12

价格:72.00

装帧:平装

isbn号码:9787560599588

丛书系列:R语言应用系列

图书标签:

R
并行计算
数据科学
并行计算
高性能计算
分布式计算
Python
Spark
Hadoop
云计算
大数据
机器学习

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小哈图书下载中心

qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

数据科学家的并行计算必读手册

“……一本完整、易读的并行计算入门——它适合很多学科的研究人员和学生使用。这是一本‘必备’的参考书……”

——戴维•E•吉尔斯，维多利亚大学

“这本书我会既用来当参考书，又当教材。书中的例子生动，内容也使读者直接从概念走向可用于工作的代码。”

——迈克尔•凯恩，耶鲁大学

本书是第一本并行计算领域中，注意力完全集中在并行数据结构、算法、软件工具及数据科学中具体应用的书。书中的例子不仅有经典的“n 个样本，p 个变量”的矩阵形式，还有时间序列、网络图模型，以及各种其他的在数据科学中常见的结构。本书同时也讨论了适用于多种硬件、多种编程语言的的软件包。

特点

关注数据科学中的应用，包括统计学、数据挖掘和机器学习。

讨论了数据科学中的常见数据结构，如网络图模型。

通篇强调了普遍的原理，如避免降低并行程序速度的因素。

覆盖了主流的计算平台：多核、集群以及图像处理单元（GPU）。

解释了 Thrust 包如何降低多核机器和GPU编程的难度，并使得同一份代码能够在不同的平台上工作。

在作者网站上提供了样例代码。

译者序

21 世纪的第二个十年，随着计算能力的巨大提升和移动互联网的迅猛发展，大数据时代拉开了它的帷幕。大数据时代的显著特点就是数据量大，对数据处理的速度和时效提出了苛刻的要求。

在传统的串行计算下，多核的计算机/集群等只有一个内核能够进行有效的工作，这就造成了计算性能的浪费。并行计算概念的提出，则解决了这个性能浪费的问题。它能够协调多个内核共同计算，极大地提升了计算速度，从而满足了大数据时代人们对高速处理数据的需求。

Norman Matloff 教授在加州大学戴维斯分校教授计算机科学，对计算机架构和算法了然于心。更值得一提的是，他还是该校统计系的创始人之一，不但教授本科的统计课程，还在统计系硕士和博士的考试委员会担任多个职务。对于统计理论的熟悉，使得他在使用计算机编程处理统计问题的时候，更加得心应手。该书即是他在并行计算方向上多年经验的总结。

本书不是一本并行计算的理论教材。该书别出心裁，使用实例手把手地教会读者掌握并行计算的基本概念和操作。在提纲挈领地介绍了如何在R 中使用并行方法之后，作者带领我们学习了多线程和多进程，以及并行调度等方面的知识和技能。随后，作者用详尽的篇幅讲述了如何使用R、C++ 和CUDA分别来进行共享内存范式编程和消息传递范式编程。本书在讲述了当前流行的MapReduce 之后，又详细讲解了如何并行地实现串行计算下所对应的排序、扫描、矩阵乘法等经典算法。在本书的最后，作者讲述了如何使用并行计算来进行统计。此外，本书的附录中对线性代数、R 和C 也做了简明的介绍，方便不熟悉的读者迅速入门。

值得一提的是，Matloff 教授的汉语也非常熟练，在本书的翻译过程中，他也给出了相应的建议和意见。编辑李颖为本书的编辑工作提出了不少中肯的建议和意见，并为本书的顺利出版做出了巨大的努力。在这里对他们一并表示感谢。

本书两位译者的协作，跨越了大洋和时差。翻译的日子中酸甜苦乐，都化作段子互相慰藉。不禁让人想到，人的命运啊，当然要靠自我奋斗，但是也要考虑到历史的行程。时代带给我们的，永远值得珍惜。

译者于北京

2017 年8 月

前言

感谢你对本书感兴趣。我很享受写书的过程，也希望这本书对你非常有用。为达此目的，这里有几点事情我希望说清楚。

本书目标：

我很希望这本书能充分体现它标题的含义数据科学中的并行计算。和我所知道的其他并行计算的书籍不同，这本书里你不会碰到任何一个求解偏微分方程或其他物理学上的应用。这本书真的是为了数据科学所写无论你怎样定义数据科学，是统计学、数据挖掘、机器学习、模式识别、数据分析或其他的内容。

这不仅仅意味着书里的实例包括了从数据科学领域中选取的应用，这也意味着能够反映这一主题的数据结构、算法和其他内容。从经典的“n 个观测，p 个变量” 的矩阵形式，到时间序列，到网络图模型和其他数据科学中常见的结构都会囊括其中。

本书包含了大量实例，以用于强调普遍的原理。因此，在第1 章介绍了入门的代码实例后（没有配套的实例，这些普遍的原理也就没有任何意义），我决定在第2 章里解释可以影响并行计算速度的一般因素，而不是集中介绍如何写并行代码。这是一个至关重要的章节，在后续的章节中会经常提到它。事实上，你可以把整本书看成如何解决第2 章开头所描述的那个可怜的家伙的困境：

这里有一个很常见的情景：一个分析师拿到了一台崭新的多核机器，这台机器能做各种神奇的事情。带着激动的心情，他在这台新机器上写代码求解他最喜欢的大规模的问题，却发现并行版本的运行速度比串行的还慢。太令人失望了！现在让我来看看究竟什么因素导致了这种情形……

本书标题里的计算一词反映了本书的重点真的是在计算上。这和诸如以Hadoop 为代表的分布式文件存储等的并行数据处理不同，尽管我还是为相关话题专门写了一个章节。

本书主要涵盖的计算平台是多核平台、集群和GPU。另外，对Thrust 也有相当程度的介绍。Thrust 极大地简化了在多核机器和GPU 上的编程任务，并且同样的代码在两种平台上都可以运行。我相信读者会发现这部分材料非常有价值。

需要指出一点，这本书不是一本用户手册。尽管书中使用了诸如R 的parallel和Rmpi 扩展包、OpenMP、CUDA 等特定工具，但这么做仅仅是为了让问题具体化。本书会给读者带来有关这些工具的非常扎实的入门介绍，但不会提供诸如不同函数的参数、环境选项等内容。本书的目的是，希望读者阅读完本书后，为进一步学习这些工具打下良好基础，更重要的是，读者今后可以使用多种语言编写高效的并行代码，无论是Python、Julia，还是任何其他语言。

必要的背景知识：

如果你认为你已经可以相对熟练地使用R，那本书的大多数内容你应该都可以读懂。在一些章节里，我们需要使用C/C++，如果你想仔细阅读学习相关章节，需要具备相关的背景知识。然而，即使你不怎么了解C/C++，你也应该会发现这些章节很容易读懂，并且相当有价值。附录里包括了针对C 程序员的R 简介和针对R 用户的C 语言简介。

你需要熟悉基础的矩阵运算，主要是相乘和相加。有时我们也会使用一些更高级的运算，比如求逆（以及与之相关的QR 分解）和对角化。这些内容在附录A 中有涉及。

机器设备：

除了特别说明的地方，本书中所有的计时实例都运行在一台16 核允许两个超线程的Ubuntu 机器上。我一般使用2 到24 个核，这应该和多数读者可以使用的平台类似。希望读者可以使用4 到16 核的多核系统，或者一个有几十个节点的集群。但即使你只有一个双核机器，应该仍会发现本书的材料非常有用。

对于那些少数有幸可以使用拥有几千个内核的集群的读者，书中的内容仍然适用。依据本书中对这种系统的观点，那个著名问题“这可扩展吗？” 的答案一般是否定的。

CRAN 扩展包和代码：

本书使用了我在CRAN，即R 的软件贡献库（http://cran.r-project.org）上的几个扩展包：Rdsm、partools 和matpow。

本书的示例代码都可以从作者的网站下载， http://heather.cs.ucdavis.edu/pardatasci.html。

作者简介

Matloff 博士出生于洛杉矶，在东洛杉矶和圣盖博谷两个地方长大。他在加州大学洛杉矶分校获得了纯粹数学的博士学位，学术研究方向为概率论和统计。他在计算机科学和统计学方向发表了大量论文，现在的研究方向是并行处理、统计计算和回归方法。他也是Journal of Statistical Software 的编委之一。

Matloff 教授曾是国际信息处理联合会11.3 工作组的成员，该组织是联合国教科文组织（UNESCO）下设的一个数据库软件安全国际委员会。他也是加州大学戴维斯分校统计系的创始人之一，并参与了该校计算机科学系的建立。他在戴维斯分校被授予了杰出教学奖和杰出公众服务奖。

目录信息

第1章 R语言中的并行处理入门
1.1 反复出现的主题：良好并行所具有的标准
1.2 关于机器
1.3 反复出现的主题：不要把鸡蛋放在一个篮子里
1.4 扩展示例：相互网页外链
第2章 “我的程序为什么这么慢？”：速度的障碍
2.1 速度的障碍
2.2 性能和硬件结构
2.3 内存的基础知识
2.4 网络基础
2.5 延迟和带宽
2.6 线程调度
2.7 多少个进程/线程？
2.8 示例：相互外链问题
2.9 “大O”标记法
2.10 数据序列化
2.11 “易并行”的应用
第3章并行循环调度的准则
3.1 循环调度的通用记法
3.2 snow 中的分块
3.3 关于代码复杂度
3.4 示例：所有可能回归
3.5 partools 包
3.6 示例：所有可能回归，改进版本
3.7 引入另一个工具：multicore
3.8 块大小的问题
3.9 示例：并行距离计算
3.10 foreach 包
3.11 跨度
3.12 另一种调度方案：随机任务置换
3.13 调试snow 和multicore 的代码
第4章共享内存范式：基于R 的简单介绍
第5章共享内存范式：C 语言层面
第6章共享内存范式：GPU
第7章 Thrust 与Rth
第8章消息传递范式
第9章 MapReduce 计算
第10章并行排序和归并
第11章并行前缀扫描
第12章并行矩阵运算
第13章原生统计方法：子集方法
附录A 回顾矩阵代数
附录B R语言快速入门
附录C 给R程序员的C 简介
· · · · · · (收起)

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本书在处理跨学科知识的融合上做得相当出色，它成功地搭建起了一座连接理论数学、计算机科学和工程实践的桥梁。我注意到，书中很多案例都非常贴近工业界的最新进展，而不是停留在过时的教科书例子上。例如，它对某些优化算法的收敛性分析，居然能结合最新的硬件架构特点进行探讨，这让我感到非常惊喜。这种与时俱进的视角，使得书中的内容不仅具有学术价值，更具备即时的工程指导意义。在阅读过程中，我发现它不仅仅是在“教知识”，更是在“教方法论”——如何批判性地评估一个算法的效率，如何根据实际约束条件选择最优的解决方案。这种高阶的思维训练，是我在其他书籍中鲜有体会的。它似乎在不断地提醒读者，理论是基石，但工程实践才是检验真理的唯一标准。

评分☆☆☆☆☆

对于初学者来说，这本书的入门难度可能是一个不容忽视的门槛，但对于有一定基础的进阶读者而言，它简直是宝藏。我尝试让一位刚接触该领域的朋友翻阅，他反馈说开篇的几章“简直像在看天书”，大量的数学符号和抽象定义堆砌在一起，确实需要读者有很强的自学能力和主动性去消化吸收。但反过来说，正是这种不妥协的难度，保证了其内容的深度和广度。书中对某些经典算法的重新审视和批判性分析，提供了许多新的视角，这些内容即便是资深从业者也可能感到耳目一新。这本书似乎不是为了迎合最广泛的受众，而是为了打磨那些真正想在该领域深耕的人。它像一把精密的刻刀，雕刻的是读者的专业思维，而不是仅仅填补知识的空白。阅读它，需要付出汗水，但收获的绝对是硬通货级别的知识体系。

评分☆☆☆☆☆

我花了整整一个周末的时间来研读这本书的某一特定章节，体验是相当烧脑但又充满成就感的。这本书的叙事逻辑极其严密，它不像一些教材那样试图面面俱到，而是选择了一条清晰的主线，然后层层深入，步步为营。作者在引入新概念时，往往会先从一个实际问题场景出发，引导读者思考“为什么需要这个工具或方法”，这种“问题导向”的学习路径非常有效。我尤其欣赏它对理论推导的详略得当，对于那些关键的数学基础，作者没有一笔带过，而是给出了详细的公式展开和几何解释，这对于我这种偏爱“知其所以然”的读者来说简直是福音。相比于市面上很多浮于表面的应用介绍，这本书的理论深度是毋庸置疑的，它要求读者具备一定的数学功底，但回报是你能真正掌握背后的运行机制，而不是只会调用API。读完一节，感觉自己的思维框架又被拓宽了一圈，那种“豁然开朗”的感觉非常美妙。

评分☆☆☆☆☆

这本书的写作风格非常独特，它不像传统的教材那样死板，反而带有一种老派学者的严谨与激情并存的韵味。语言精确，措辞考究，很少使用那些过于口语化或浮夸的表达。但这种严谨并未牺牲可读性，作者似乎总能在关键时刻穿插一些精妙的比喻或者历史典故来活跃气氛，使得长篇的理论阐述不至于过于枯燥。比如，在解释某个复杂算法的迭代过程时，作者用了一个非常形象的类比，瞬间就抓住了核心思想。我感觉作者对自己的领域有着深厚的感情，这种情感通过文字渗透出来，感染着读者。这种亦师亦友的叙事方式，极大地降低了学习的心理门槛，让人感觉自己不是在面对一本冰冷的工具书，而是在和一位经验丰富的导师对话。这本书的“人情味”把握得恰到好处。

评分☆☆☆☆☆

这本书的排版和装帧实在是没得挑，拿在手里沉甸甸的，一看就知道是用心制作的。封面设计简约又不失专业感，那种深邃的蓝色调很符合技术书籍的气质。内页纸张质量也很上乘，印刷清晰，即便是大段的代码和复杂的公式也能看得一清二楚，阅读起来眼睛不容易疲劳。作者在细节上的把控非常到位，比如章节的起止、图表的标注，都做得非常规范和严谨。特别是书中的插图，很多概念图画得非常直观，一下子就把抽象的理论具象化了，这对于理解深度学习中的一些复杂架构非常有帮助。我个人觉得，光是作为一本工具书放在书架上，它就已经展现出极高的价值了，光是翻阅它的物理质感，就能感受到作者对知识的尊重。而且，书中对参考文献的引用也做得非常考究，能看出作者在撰写过程中做了大量的文献调研，这为我们深入学习提供了可靠的路径。整体来看，这本书在硬件和软件（指设计排版）上的投入，都体现了它面向专业读者的定位。

评分☆☆☆☆☆