社交网站的数据挖掘与分析(第2版) pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:Matthew A·Russell

出品人:

页数:370

译者:苏统华

出版时间:2015-1-28

价格:79元

装帧:平装

isbn号码:9787111486992

丛书系列:O'reilly系列

图书标签:

数据挖掘
数据分析
社交网络
计算机
python
信息检索
互联网
Python
数据挖掘
社交网络
数据分析
机器学习
网络爬虫
用户行为
信息推荐
大数据
算法
可视化

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小哈图书下载中心

qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

社交网站数据如同深埋地下的“金矿”，如何利用这些数据来发现哪些人正通过社交媒介进行联系？他们正在谈论什么？或者他们在哪儿？本书第2版对上一版内容进行了全面更新和修订，它将揭示回答这些问题的方法与技巧。你将学到如何获取、分析和汇总散落于社交网站（包括Facebook、Twitter、LinkedIn、Google+、 GitHub、邮件、网站和博客等）的数据，以及如何通过可视化找到你一直在社交世界中寻找的内容和你闻所未闻的有用信息。

■ 借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具挖掘主流社交网站

■ 使用高级文本挖掘技术（如聚类和TF-IDF）来提取人类语言数据中有价值的知识

■ 通过发现GitHub上人、编程语言和代码工程间的亲密性，构建兴趣图谱

■ 利用D3.js进行交互式可视化，充分发挥HTML5和JavaScript工具包的灵活特性

■ 以“问题－解决方案－讨论”的方式详细讲解深入挖掘Twitter数据的实用技术，并提供代码示例

《社交网站的数据挖掘与分析（原书第2版）》的配套代码在公开的GitHub代码库中进行维护，可以通过一站式虚拟机来访问，你只需要使用方便易用的IPython Notebook，即可进入愉快的交互式学习情景。

大数据时代的知识探索：信息检索与知识图谱构建实践指南本书聚焦于如何从海量、异构的数据源中高效地获取、组织和应用知识，为数据科学家、信息系统架构师以及对知识管理有深入需求的专业人士提供一套系统、前沿的技术路线图与实战案例。本书着眼于超越传统数据挖掘的范畴，深入探讨信息如何转化为结构化的、可推理的知识资产。第一部分：信息获取的基石——高效信息检索系统设计随着信息量的爆炸式增长，如何精准、快速地定位所需信息成为核心挑战。本书的开篇部分，将系统地梳理现代信息检索（Information Retrieval, IR）系统的核心理论与工程实践。第一章：信息检索的理论基础与演进本章首先回顾信息检索学科的发展历程，从布尔模型到向量空间模型，再到概率模型，奠定理解现代检索系统的理论基础。重点剖析 TF-IDF、BM25 等经典加权机制的内在逻辑及其在处理大规模语料库时的局限性。第二章：现代检索系统的架构与核心组件我们将深入解析一个高性能、可扩展的 IR 系统的工程架构。内容涵盖：文档预处理与索引构建：探讨分词（针对中文和英文）、停用词过滤、词干提取等技术。重点介绍倒排索引 (Inverted Index) 的构建、压缩与维护策略，包括 Posting List 的优化存储。查询处理与扩展技术：详述查询解析、规范化流程。引入查询扩展（Query Expansion）的技术流派，包括基于同义词典、基于统计共现以及基于知识图谱的自动扩展方法。排名算法的深度剖析：从 PageRank 在网页排序中的应用开始，过渡到学习排序 (Learning to Rank, LTR) 框架。详细介绍 Pointwise、Pairwise 和 Listwise 学习方法，并结合实际工业界的 A/B 测试与评估指标（如 NDCG、MAP）。第三章：深度学习在信息检索中的应用本章是技术前沿的展示，探讨如何利用深度神经网络提升检索的语义理解能力。语义匹配模型：介绍基于双塔（Two-Tower）结构的向量检索（Vector Search）方法。讲解 BERT、RoBERTa 等预训练模型如何被微调以生成高质量的文档和查询嵌入（Embeddings）。交互式排序模型：深入研究如 DeepFM、DIN 等模型，如何在排序阶段捕捉用户兴趣与文档特征之间的复杂交叉关系。近似最近邻（ANN）搜索技术：针对高维向量的快速检索，详细讲解 LSH (Locality-Sensitive Hashing)、HNSW (Hierarchical Navigable Small World) 等算法的原理、优劣对比及其在向量数据库中的实现。第二部分：知识的结构化与表示——知识图谱的构建与推理信息检索解决了“找到”的问题，而知识图谱则解决了“理解”和“组织”的问题。本部分将系统阐述如何将非结构化数据转化为结构化的、可机器理解的知识体系。第四章：知识图谱的基础理论与建模本章定义了知识图谱的核心概念：实体（Entity）、关系（Relation）和属性（Attribute）。本体论（Ontology）与模式（Schema）设计：探讨如何设计一致、可扩展的知识模型，包括使用 OWL 和 RDFS 标准。知识抽取（Knowledge Extraction）的流水线：详细拆解从文本中识别实体和关系的三个关键步骤：命名实体识别 (NER)：采用 Bi-LSTM-CRF 和 Transformer 架构在特定领域的数据集上进行高精度识别。关系抽取 (RE)：分析基于模式匹配、监督学习以及远程监督（Distant Supervision）的方法。实体链接与消歧 (EL/D)：如何将抽取出的实体映射到标准知识库（如 Wikidata）中，并解决多义性问题。第五章：知识表示学习：嵌入技术与应用知识图谱的稀疏性使得直接的推理计算变得困难。本章专注于如何将图结构转化为低维、稠密的向量表示。基于距离和语义匹配的模型：深入分析 TransE 及其改进型（如 TransH, TransR）的核心思想，即通过平移操作来模拟实体和关系。基于语义匹配的模型：讲解 ComplEx 和 RotatE 等模型如何在复数空间或旋转空间中更好地捕捉更复杂的对称、反对称或组合关系。图神经网络（GNN）在知识图谱中的应用：介绍 GCN、GAT 等模型如何聚合邻居信息，以学习更高质量的实体和关系嵌入，特别是在处理具有复杂拓扑结构的图时。第六章：知识图谱的推理、完善与应用拥有了结构化知识后，如何从中发现新的知识并应用于实际场景是知识图谱价值的体现。知识推理（Knowledge Reasoning）：介绍基于嵌入的方法（如使用 MLPs 预测缺失三元组）和基于路径/规则的方法（如使用规则引擎进行逻辑推理）。重点讨论如何评估推理的准确性和召回率。知识图谱的自动补全与校验：探讨如何利用已有的知识来发现和修正错误或遗漏的链接，包括属性预测和关系预测的策略。知识图谱在下游任务中的集成：阐述如何将知识图谱作为结构化特征融入到问答系统、推荐系统和文本生成任务中，实现更精确、更可解释的结果。第三部分：超越文本——多模态信息整合与新兴挑战现代数据环境远不止文本，本书的最后部分将目光投向如何将结构化知识与非结构化（图像、语音）数据进行关联，并探讨未来的挑战。第七章：多模态知识的关联与融合本章探讨如何构建跨越文本、图像和结构化数据的知识表示。视觉-语言对齐：介绍如何使用对比学习（如 CLIP 模型）来学习文本描述与图像区域之间的共同嵌入空间，实现跨模态的检索与生成。图文知识的链接：讨论如何在知识图谱中为实体添加视觉证据（如图像），以及如何利用图像中的检测框信息来增强实体识别的准确性。第八章：面向未来的数据挑战本章展望了信息检索和知识图谱领域面临的最新挑战。可信赖性与可解释性：如何量化和提高知识图谱的准确性，并解释信息检索系统做出特定排序决策的原因。持续学习与动态知识库：探讨如何在信息快速变化的背景下，高效地更新知识图谱和检索索引，最小化系统停机时间。隐私保护下的信息共享：简要介绍差分隐私（Differential Privacy）等技术在数据共享和模型训练中应用于信息抽取任务的可能性。本书适用于具备一定编程基础和高等数学知识的读者，旨在提供理论深度与工程实践相结合的全面指导，帮助读者构建下一代智能信息处理系统。

作者简介

Matthew A. Russell Digital Reasoning Systems公司首席技术官（CTO）、Zaffra公司负责人。作为一名计算机科学家，他热衷于数据挖掘、开源软件开发和创造技术以扩展人类智能。

苏统华，博士，硕士生导师，CUDA研究中心以及教学中心负责人。主要研究方向包括：物联网大数据智能信息处理、大规模并行计算、模式识别、智能媒体交互与计算等。作为自然手写中文文本识别的开拓者，四年内代表工作被同行大篇幅他引约300次；他所建立的HIT-MW库为全世界100多家科研院所采用；目前负责国家自然科学基金项目2项。2013年，他领导的研究组在文档分析和识别国际会议（ICDAR’2013）上获得手写汉字识别竞赛的双料冠军；2014年，两项手写文字识别核心技术授权给某高新技术公司，正在为超过200万终端用户提供技术服务。著有英文专著《Chinese Handwriting Recognition: An Algorithmic Perspective》（德国施普林格出版社），出版5本大数据分析方面的译作（机械工业出版社）。

目录信息

《社交网站的数据挖掘与分析（原书第2版）》
前言 1
第一部分社交网络导引
序幕 13
第1章挖掘Twitter：探索热门话题、发现人们的谈论内容等 15
1.1 概述 15
1.2 Twitter风靡一时的原因 16
1.3 探索Twitter API 18
1.4 分析140字的推文 33
1.5 本章小结 47
1.6 推荐练习 48
1.7 在线资源 48
第2章挖掘Facebook：分析粉丝页面、查看好友关系等 50
2.1 概述 51
2.2 探索Facebook的社交图谱API 51
2.3 分析社交图谱联系 62
2.4 本章小结 85
2.5 推荐练习 86
2.6 在线资源 86
第3章挖掘LinkedIn：分组职位、聚类同行等 88
3.1 概述 89
3.2 探索LinkedIn API 89
3.3 数据聚类速成 94
3.4 本章小结 124
3.5 推荐练习 125
3.6 在线资源 126
第4章挖掘Google+：计算文档相似度、提取搭配等 127
4.1 概述 128
4.2 探索Google+ API 128
4.3 TF-IDF简介 138
4.4 用TF-IDF查询人类语言数据 145
4.5 本章小结 164
4.6 推荐练习 165
4.7 在线资源 165
第5章挖掘网页：使用自然语言处理理解人类语言、总结博客内容等 167
5.1 概述 168
5.2 抓取、解析、爬取网页 168
5.3 通过解码语法来探索语义 174
5.4 以实体为中心的分析：范式转换 192
5.5 人类语言数据处理分析的质量 200
5.6 本章小结 203
5.7 推荐练习 203
5.8 在线资源 204
第6章挖掘邮箱：分析谁和谁说什么以及说的频率等 206
6.1 概述 207
6.2 获取和处理邮件语料库 207
6.3 分析Enron语料库 225
6.4 探索和可视化时序趋势 241
6.5 分析你自己的邮件数据 244
6.6 本章小结 250
6.7 推荐练习 251
6.8 在线资源 251
第7章挖掘GitHub：检查软件协同习惯、构建兴趣图谱等 253
7.1 概述 254
7.2 探索GitHub的API 254
7.3 使用属性图为数据建模 260
7.4 分析GitHub兴趣图谱 264
7.5 本章小结 286
7.6 推荐练习 287
7.7 在线资源 287
第8章挖掘带标记语义网：提取微格式、推断资源描述框架等 289
8.1 概述 290
8.2 微格式：易于实现的元数据 290
8.3 从语义标记过渡到语义网：一个小插曲 304
8.4 语义网：发展中的变革 304
8.5 本章小结 310
8.6 推荐的练习 311
8.7 在线资源 311
第二部分 Twitter实用指南
第9章 Twitter实用指南 317
9.1 访问Twitter的API（开发目的） 318
9.2 使用OAuth访问Twitter的API（产品目的） 319
9.3 探索流行话题 323
9.4 查找推文 324
9.5 构造方便的函数调用 325
9.6 使用文本文件存储JSON数据 326
9.7 使用MongoDB存储和访问JSON数据 327
9.8 使用信息流API对Twitter数据管道抽样 329
9.9 采集时序数据 330
9.10 提取推文实体 332
9.11 特定的推文范围内查找最流行的推文 333
9.12 特定的推文范围内查找最流行的推文实体 335
9.13 对频率分析制表 336
9.14 查找转推了状态的用户 337
9.15 提取转推的属性 339
9.16 创建健壮的Twitter请求 340
9.17 获取用户个人资料信息 343
9.18 从任意的文本中提取推文实体 344
9.19 获得用户所有的好友和关注者 345
9.20 分析用户的好友和关注者 347
9.21 获取用户的推文 348
9.22 爬取好友关系图 350
9.23 分析推文内容 351
9.24 提取链接目标摘要 353
9.25 分析用户收藏的推文 356
9.26 本章小结 357
9.27 推荐练习 358
9.28 在线资源 359
第三部分附录
附录A 关于本书虚拟机体验的信息 363
附录B OAuth入门 364
附录C Python和IPython Notebook的使用技巧 368
· · · · · · (收起)

读后感

评分☆☆☆☆☆

虽然使用的语言是python，而且分析的网站都是国内被禁的网站，但是读完这本书后，感到很受启发，其实如果你懂了这本书中的内容，分析其他社交网站也会得心应手，比如说像国内的sina微博，人家提供的API也很有价值啊，你读完这本书，收获会很大。

评分☆☆☆☆☆

粗略翻了一下，发现其实更多的是工具介绍，就没有一个个耐心看完。我是一个新手，不太懂编程，对python完全不了解，想先学点python再作为工具书查看。这本书的例子都是国外的社交网站，对于一本看了就想马上装了python上手的书，但都是被墙了的网站觉得心痒痒挠的慌，要是...

评分☆☆☆☆☆

Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据，但是你怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?这本简洁而且具有可操作性的书将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术，如何通过可视化帮助你...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

作为一名对人工智能和机器学习技术在实际应用中充满兴趣的读者，我被《社交网站的数据挖掘与分析(第2版)》书中关于“推荐系统”和“个性化服务”的章节深深吸引。社交网站的核心竞争力之一就是为用户提供个性化的内容和体验，而推荐系统则是实现这一目标的关键。书中详细介绍了各种推荐算法，如协同过滤、基于内容的推荐、混合推荐等，并结合社交媒体的特点，解释了如何构建高效的推荐系统。我尤其喜欢书中关于“冷启动问题”和“用户兴趣建模”的探讨，它为解决推荐系统中的实际难题提供了有效的解决方案。例如，书中通过案例分析，展示了如何利用用户的人口统计学信息、行为数据、以及社交关系等多种信息源，来构建精准的用户兴趣模型，并在此基础上为用户推荐感兴趣的内容、商品或好友。此外，书中还探讨了如何利用深度学习技术来优化推荐效果，例如使用深度神经网络来捕捉用户更复杂的兴趣模式。这本书让我对如何利用数据来提升用户体验有了全新的认识，也为我未来的学习和研究提供了宝贵的指导。

评分☆☆☆☆☆

在数据预处理和特征工程方面，《社交网站的数据挖掘与分析(第2版)》展现了其严谨的学术态度和丰富的实践经验。作为一个曾经在数据清洗和特征提取过程中屡屡碰壁的实践者，我深知这一环节的复杂性和重要性。书中对社交网站特有的数据类型，如文本、图像、视频、关系网络等，都给出了详细的处理方法和建议。我尤其欣赏书中关于“文本情感分析”和“关系网络分析”的章节。前者教我如何从海量的用户评论和帖子中提取情感倾向，这对于舆论监测和品牌声誉管理至关重要。书中详细介绍了各种NLP（自然语言处理）技术，如词袋模型、TF-IDF、词嵌入（Word Embeddings）等，并结合实际案例说明了如何应用这些技术来构建情感分析模型。后者则让我看到了如何利用社交网络中的连接关系来挖掘潜在的社交影响力、社群结构以及信息传播路径，这对于理解社交媒体的传播机制以及发现意见领袖有着不可替代的作用。书中通过图论和网络分析的算法，如 PageRank、社区发现算法等，为我们揭示了社交网络背后隐藏的奥秘。这些方法不仅具有理论深度，而且在实际应用中也经过了验证，为我今后的工作提供了宝贵的工具箱。

评分☆☆☆☆☆

这本书在“预测性分析”方面的内容，极大地拓展了我对社交媒体数据价值的认识。以往，我更多地关注于描述性分析，即“发生了什么”，而这本书则引导我思考“为什么会发生”以及“未来会发生什么”。书中详细介绍了如何利用历史数据来预测用户未来的行为，例如预测用户是否会购买某件商品，是否会取消订阅，或者是否会对某条内容产生互动。我尤其喜欢书中关于“流失预测”和“购买意愿预测”的章节，它通过构建逻辑回归、决策树、甚至更复杂的机器学习模型，来预测用户的流失风险或购买意愿，并据此采取相应的干预措施。这对于提升用户留存率和转化率有着直接的帮助。书中还探讨了如何利用社交媒体数据来进行“市场趋势预测”和“产品需求预测”，通过分析用户在社交媒体上的讨论和反馈，来洞察市场动态和用户需求，这对于企业制定产品策略和营销策略具有重要的参考价值。我感觉这本书不仅仅是在教授技术，更是在传授一种“数据驱动的思维方式”。

评分☆☆☆☆☆

本书在算法和模型的介绍上，做到了理论与实践的完美结合。作者并没有回避复杂的数学原理，但却能用一种清晰易懂的方式进行讲解，使得即使是初学者也能逐步理解。我尤其欣赏书中关于“分类算法”和“聚类算法”的应用，它们在社交网站的数据分析中扮演着至关重要的角色。例如，如何利用逻辑回归、支持向量机等分类算法来识别垃圾信息、欺诈账号，或者如何利用 K-Means、DBSCAN 等聚类算法来发现具有相似行为特征的用户群体，书中都给出了详细的步骤和解释。更让我惊喜的是，书中并没有停留在算法本身，而是结合了社交网站的实际应用场景，例如，如何利用分类算法来预测用户是否会流失，如何利用聚类算法来发现潜在的意见领袖，这些都让我对算法的应用有了更深的体会。此外，书中还对一些更高级的算法，如深度学习在社交网络分析中的应用，也进行了初步的介绍，这为我未来的进阶学习指明了方向。整体而言，这本书在算法的讲解上，既有深度又不失广度，非常适合想要系统学习社交媒体数据挖掘技术的读者。

评分☆☆☆☆☆

这本《社交网站的数据挖掘与分析(第2版)》确实是一部值得细细品读的力作。作为一名对此领域充满好奇的初学者，我一直渴望找到一本既能系统讲解理论，又能结合实际应用的书籍。幸运的是，我发现了它。它并没有上来就抛出晦涩难懂的算法和模型，而是从社交网站的独特之处入手，循序渐进地引导读者理解为什么需要数据挖掘和分析，以及在社交媒体这个庞大而动态的环境中，这些技术能够发挥怎样的作用。作者的叙述方式非常平易近人，就好像一位经验丰富的老师在耐心解答你的疑问，让你在不知不觉中建立起坚实的知识框架。我尤其欣赏它在介绍一些核心概念时，所引用的生动案例，这些案例并非遥不可及的学术研究，而是我们日常生活中就能接触到的社交媒体现象，这极大地增强了学习的代入感和趣味性。例如，在解释用户画像的构建时，书中详细阐述了如何从用户的发帖内容、互动行为、关注列表等维度提取特征，并将其与实际的营销策略联系起来，让我对“数据驱动决策”有了更深刻的认识。此外，书中对于不同类型社交网站的特点分析也相当到位，无论是微博式的开放平台，还是微信式的半封闭社区，亦或是抖音、快手式的短视频平台，作者都分别给出了数据挖掘和分析的视角和方法，这让我在面对不同项目时，能够更有针对性地思考和实践。读完前几章，我感觉自己已经初步掌握了理解社交网站数据价值的基础，并且对未来的学习充满了期待。

评分☆☆☆☆☆

对于任何希望深入理解社交媒体运营和营销策略的人来说，这本书都是一份不可多得的宝藏。它清晰地阐述了如何将数据挖掘和分析的技术应用于社交媒体的各个环节，从用户增长到用户留存，再到营销效果评估。书中关于“用户画像”和“用户细分”的章节，为理解目标受众提供了坚实的基础，让我能够更精准地定位营销对象。而对于“内容推荐”和“个性化营销”的探讨，更是为我打开了新的思路。我特别喜欢书中关于“社交媒体指标体系构建”的章节，它详细列举了在不同阶段需要关注的关键指标，如触达率、互动率、转化率等，并解释了如何通过数据分析来衡量营销活动的效果，并据此进行优化。这让我明白了，数据分析不仅仅是技术层面的操作，更是指导业务决策的强大引擎。此外，书中还探讨了社交媒体上的“舆情监控”和“危机公关”，通过对用户言论和情绪的分析，及时发现潜在的风险，并提出应对策略，这对于企业在社交媒体上的稳健发展至关重要。读完这些章节，我感觉自己仿佛拥有了一双“透视眼”，能够看到社交媒体背后隐藏的商业价值。

评分☆☆☆☆☆

《社交网站的数据挖掘与分析(第2版)》在“社会影响力与舆情分析”方面的论述，让我深刻体会到了数据分析在理解社会现象中的重要作用。社交媒体不仅仅是人与人之间的交流平台，更是信息传播、观点表达和社会情绪的载体。书中详细介绍了如何利用数据挖掘技术来分析社交媒体上的舆情，识别公众情绪的走向，甚至预测社会事件的发展。我特别欣赏书中关于“情感分析”和“主题模型”的章节，它教我如何从海量的文本数据中提取用户的情感倾向，以及识别社交媒体上热门的讨论话题。这些技术对于舆情监控、品牌声誉管理、甚至政治分析都具有极高的价值。书中还探讨了如何识别社交媒体上的“意见领袖”和“影响力人物”，以及如何分析信息在社交网络中的传播路径和影响范围。通过这些分析，我能够更清晰地理解社会舆论的形成机制，以及信息传播的影响力。这本书让我看到了数据分析在理解和干预社会现象方面的巨大潜力。

评分☆☆☆☆☆

对于我这样一名希望将理论知识转化为实际技能的读者来说，《社交网站的数据挖掘与分析(第2版)》无疑是一本“实战指南”。书中不仅仅是枯燥的理论堆砌，更包含了大量的案例研究和实际操作指导。从数据采集、清洗、特征工程，到模型构建、评估和部署，书中都提供了清晰的流程和建议。我尤其欣赏书中关于“可视化分析”的章节，它强调了如何将复杂的数据和分析结果以直观易懂的方式呈现出来，这对于向非技术人员沟通分析成果至关重要。书中介绍了各种常用的数据可视化工具和技术，如散点图、折线图、网络图等，并结合社交媒体的特点，给出了具体的可视化方案。例如，如何通过可视化手段展示用户活跃度、话题传播路径、社区结构等，让我能够更清晰地理解数据背后的故事。此外，书中还提供了许多关于如何选择合适的工具和平台进行社交媒体数据分析的建议，这为我实际操作提供了极大的便利。总而言之，这本书不仅教会了我“理论”，更教会了我“实践”，是一本非常值得反复研读的书籍。

评分☆☆☆☆☆

《社交网站的数据挖掘与分析(第2版)》在关系网络分析方面的内容，是我阅读过的所有书籍中最全面、最深入的。社交网站的核心就在于“人与人之间的连接”，而如何理解和分析这种连接，则是挖掘社交网站价值的关键。书中详细介绍了各种图论算法和网络分析技术，如节点度中心性、介数中心性、紧密度中心性等，用于衡量节点在网络中的重要性，以及社区发现算法，用于识别社交网络中的紧密联系的群体。我特别喜欢书中关于“影响力传播”和“信息扩散”的章节，它揭示了信息如何在社交网络中传播，以及哪些因素会影响传播的效率。通过对这些机制的理解，我能够更好地设计病毒式营销活动，或者预测某条信息的传播范围。书中还探讨了如何在复杂的社交网络中识别“桥梁节点”和“关键节点”，这对于理解社交网络的结构和功能有着重要的意义。例如，书中通过案例分析，展示了如何利用PageRank算法来识别社交网络中的核心用户，或者如何利用社区发现算法来识别某个特定话题的讨论圈子。这些内容让我对社交网络的运作机制有了前所未有的深刻认识。

评分☆☆☆☆☆

这本书最让我印象深刻的一点，莫过于其对“用户行为建模”的深入剖析。在如今这个信息爆炸的时代，理解用户的行为模式是洞察社交网站潜力的关键。作者并没有停留在表面的统计数据，而是深入探讨了如何利用各种挖掘技术来构建能够预测用户行为的模型。从简单的点击流分析到复杂的推荐系统，书中都给出了详实的解释和理论基础。我特别喜欢书中关于“用户兴趣演化”的章节，它详细阐述了如何捕捉用户兴趣的变化，以及如何利用这些动态信息来优化内容推荐和个性化服务。这对于我们理解社交媒体的推荐算法，甚至自身的网络行为，都有着极大的启发。例如，书中通过分析用户点赞、评论、转发等行为，如何构建一个能够预测用户对某一话题或内容的兴趣度的模型，以及如何根据这种兴趣度的变化，动态地调整推荐列表，让我对“智能推荐”有了更直观的认识。此外，书中还介绍了多种用户细分方法，通过聚类算法等技术，将用户划分为不同的群体，并分析不同群体的行为特征和需求，这对于制定精准的营销策略和产品优化方案具有重要的指导意义。我感觉这本书不仅教会了我“是什么”，更重要的是教会了我“为什么”和“怎么做”。

评分☆☆☆☆☆

- 社交网站的数据挖掘与分析(IPython): Twitter/热门话题 FB/粉丝/好友关系 LinkedIn/分组职位/聚类同行 Google+/文档相似性/提取搭配 web/NLP/blog mail/whom/what/frequency github/协同习惯/兴趣图谱带标记语义网/提取微格式/推断资源描述

评分☆☆☆☆☆

没想到twitter，facebook，linkedin，google+，github，都可以用Python这么玩，APIs+Python Libs+可视化，inspired，非常好玩

评分☆☆☆☆☆

粗略翻看而过，比较泛泛而谈的一本书，很多篇幅都在罗列代码和调用API，欠深度，提供了相当多可供参考的工具，中文版很多代码的缩进都错了。@辽宁省图书馆

评分☆☆☆☆☆